CARA SCRAPING MENGGUNAKAN RUBY

pertumbuhan eksponensial data web telah membuka jalan baru untuk berbagai sektor. Mulai dari unit manufaktur hingga sektor jasa, data merupakan komponen penting yang diadopsi oleh bisnis di seluruh dunia agar tetap relevan dengan perkembangan zaman. Data web tidak hanya menyimpan tambang emas informasi tentang persaingan dan pasar, tetapi juga menawarkan wawasan yang dapat digunakan untuk meningkatkan proses dan operasi internal.

scraping web membantu data online yang ditargetkan untuk diekstraksi untuk digunakan lebih lanjut oleh mesin analitik atau alat BI. Tujuan dari web scraping tetap bervariasi –

  • Ekstraksi data adalah cara efektif untuk mengiklankan bisnis Anda dan mempromosikan produk/layanan
  • Pengguna, konsumen, dan pengunjung web dapat memperoleh informasi yang diinginkan tentang suatu layanan atau produk.
  • Perusahaan dapat memperoleh intelijen kompetitif tentang strategi dan rencana yang ada untuk menumbuhkan pangsa pasar masing-masing.
  • Merek dapat mengetahui persepsi umum tentang merek mereka melalui interaksi media sosial di antara orang-orang. Ini membantu tim pemasaran untuk merancang dan menyebarkan pesan pemasaran yang relevan yang dimaksudkan khusus untuk persona audiens ini, sehingga meningkatkan kemungkinan konversi.  
  • Bisnis dapat memperoleh kejelasan lebih lanjut tentang kebutuhan, poin nyeri, dan preferensi audiens target mereka. Mereka kemudian dapat mendorong pengembangan produk ke arah yang benar dengan kecerdasan yang berharga ini.

Bayangkan manfaatnya jika kita dapat menyusun data web, menghilangkan noise, dan mengekspornya ke format yang dapat dibaca mesin. Mari kita lihat bagaimana ini bisa dilakukan dengan menggunakan Ruby.

Pilihan skrip pengkodean

Ekstraksi data dan implementasi sebenarnya dari praktik web scraping bukanlah hal yang mudah. Pengetahuan dasar tentang CSS, HTML, dan skrip pengkodean yang tepat akan membuat perjalanan Anda lancar. Pilihan skrip pengkodean Anda akan memainkan peran penting dalam konteks ini. Mari kita cari tahu mengapa Ruby menciptakan buzz di pasar. 

Jika Anda berencana untuk meluncurkan program scraping web pertama Anda, Ruby dapat memainkan peran sebagai bahasa skrip yang andal. Beberapa alasan bertanggung jawab atas popularitas bahasa ini yang tak tertandingi, dan alasan berikut akan membantu Anda memahami mengapa ini sangat efektif!

  • Skrip yang kuat : Ruby-On-Rails adalah skrip yang sangat kuat dan efektif untuk scraping web. Untuk pemula dan pemula, bahasa khusus ini terbukti menjadi sumber yang kuat.
  • Komunitas yang andal : Ruby hadir bersama dengan tim pengembang yang kuat yang membentuk komunitas yang andal dan sangat dapat diandalkan. Dengan jutaan dokumentasi, tidak ada masalah besar bagi Anda!
  • Instalasi mudah : Prosedur instalasi didokumentasikan dengan baik dan cukup mudah diikuti.

Ini adalah beberapa faktor yang membuat Ruby menjadi pilihan yang sangat diperlukan untuk web scraping. Setup dan instalasi harus dilakukan secara optimal, karena proses ini sangat penting untuk pelaksanaan proses ekstraksi data. Berikut adalah tutorial komprehensif untuk membantu Anda melalui prosesnya.

Panduan langkah demi langkah

Sebelum kita mulai, mari kita perjelas tentang poin-poin tertentu. Tutorial ini ditujukan untuk pengguna Mac, jika Anda menggunakan mesin yang berbeda, proses pengaturan awal mungkin sedikit berbeda. Kedua, program ini menggunakan Nokogiri, yang dapat mengubah halaman web menjadi ‘objek Ruby’ sehingga menyederhanakan proses scraping web. Dengan mempertimbangkan dua faktor ini, Anda dapat memulai proyek Anda.

Dalam panduan ini, kami akan menggores berita utama dari 100 daftar pertama di olx untuk mobil bekas.

Proses pengaturan

Berikut adalah persyaratan dasar untuk mengembangkan pengaturan lengkap untuk ekstraksi web menggunakan Ruby.

  • Komputer Anda, apakah itu desktop atau laptop harus memiliki Ruby di dalamnya. Jika Anda seorang loyalis Mac, maka setengah pekerjaan sudah selesai.
  • Anda akan membutuhkan editor teks. Itu diperlukan untuk menuliskan perintah program. Jika komputer Anda tidak memiliki opsi bawaan, coba unduh Sublime Text. Dengan fitur yang seru dan kontrol yang keren, editor teks ini akan membuat coding menjadi seru dan menarik.
  • Syarat lainnya adalah pengetahuan mendalam tentang penggunaan HTML dan CSS. Jika Anda berencana untuk menguasai seni web scraping, pengetahuan tentang CSS dan HTML akan sangat penting. 
  • Dapatkan pengetahuan tentang Ruby. Sedikit informasi penting dalam konteks ini. Anda dapat melihat beberapa kursus online dan meningkatkan basis pengetahuan Anda. Dengan adanya proses dan faktor ini, inilah saatnya untuk memulai langkah-langkah penting.

Langkah 1: Menginstal dependensi

Selama proses instalasi, pastikan Anda mendapatkan informasi lengkap tentang tiga Permata Ruby yang berguna. Ketiga opsi tersebut antara lain:

Karena kita sudah menjelaskan sedikit tentang Nokogiri, mari kita bahas HTTParty dan Pry. HTTParty adalah permata yang akan digunakan scraper web kami untuk mengirim permintaan HTTP ke halaman yang kami gores. Kami akan menggunakan HTTParty untuk mengirimkan permintaan GET, yang akan mengembalikan semua konten HTML halaman sebagai string. Untuk debugging, kami menggunakan Pry, yang merupakan permata ruby. Ini akan membantu kami mengurai kode halaman web dan merupakan komponen penting dalam pengaturan ini.

Ikuti perintah di bawah ini dan jalankan di mesin Anda untuk menginstal permata ini di komputer Anda.

instal permata nokogiri

pesta pemasangan permata

instal permata pry

Langkah 2: Pembuatan file scraper

Anda harus membuat folder bernama nokogiri_tutorial di salah satu lokasi pilihan di komputer Anda. Desktop adalah tempat yang tepat untuk melakukannya. Langkah selanjutnya adalah mengunduh editor teks seperti ‘Sublime Text’ atau opsi lain pilihan Anda dan simpan file ke folder ini bernama “web_scraper.RB”. Setelah Anda menyelesaikan langkah-langkah ini, Anda dapat mengerjakan dependensi.

Langkah 3: Mengirim permintaan HTTP ke halaman

Mulailah dengan membuat operasi variabel bernama ‘halaman’ dan pastikan itu sama dengan permintaan GET HTTParty dari halaman yang kita gores.

Dalam hal ini:  https://www.olx.in/all-results/q-cars/

Setelah ini, Anda dapat memasukkan “Cungkil. mulai (mengikat).” Arahkan dan temukan folder yang ditandai sebagai file web_scraping.Rb. Simpan langsung ke desktop Anda dan buka terminal dengan memasukkan perintah ini.

cd desktop/nokogiri_tutorial

Program scraping web Anda siap diimplementasikan. Anda dapat menjalankan perintah ini dan menjalankannya:

Ruby web_scraper.RB

Terminal harus diubah menjadi Pry, dan penting untuk memeriksa tata letak sebelum mengerjakan proses lebih lanjut. Anda dapat melanjutkan ke langkah berikutnya. Tapi, sebelum Anda melakukannya, pastikan Anda mengetik ‘exit’ di terminal yang dipilih, meninggalkan Pry, dan kemudian kembali ke lokasi asal folder program.

Langkah 4: Pindah ke NokoGiri

Tujuannya di sini adalah  untuk terlebih dahulu mengonversi dan mengubah daftar mobil ini ke objek NokoGiri, karena itu sangat penting untuk penguraian. Pembuatan variabel itu penting, dan Anda harus mengembangkan yang baru dengan nama “parse_page.” Nokogiri memiliki cara khas untuk mengubah string HTML menjadi objek Nokogiri. Anda dapat meninggalkan Pry di bagian bawah kode.

Langkah selanjutnya adalah menyimpan file yang berisi perintah Ruby. Pry akan dibuka secara otomatis dan variabel baru “parse_page” harus dimasukkan. Ini akan mengembalikan halaman Olx sebagai objek Nokogiri.

Silakan buat file HTML di folder yang sama dengan nama ‘cars.html’ dan copy-paste hasil perintah parse_page ke dalam file ini. Data HTML yang diformat ini akan berguna untuk referensi nanti.

Sebelum memulai dengan langkah berikutnya, keluar dari Pry di terminal Anda.

Langkah 5: Penguraian Data

Parsing data membutuhkan pengetahuan dasar tentang pemrograman serta pengkodean. Karena Anda ingin mengekstrak teks judul dari semua daftar mobil, file cars.html akan berguna dalam pemeriksaan silang. Temukan elemen penting dari folder dan lakukan pemeriksaan menggunakan ‘alat pemeriksaan elemen’, atau Anda juga dapat melihat ‘kode sumber halaman’.

Karena kami menemukan bahwa cantuman berada dalam div dengan nama kelas ‘konten’, berikut adalah perintahnya :

parse_page.css(‘.content’)

parse_page.css(‘.content’).css(‘.row’).css(‘.hdrlnk’)

car_array

Periksa tata letak dan array pengkodean setiap kali Anda menjalankan perintah. Setelah penguraian selesai, Anda harus mengekspor kumpulan data ke file CSV.

Langkah 6: Mengekspor file data ke CSV

Ketika Anda mencapai langkah 6, Anda seharusnya telah menyelesaikan proses scraping dengan sukses dan data tidak terstruktur diubah menjadi kumpulan data terstruktur. Sekarang mari kita kembali ke terminal. Keluar dari Pry jika Anda masih di dalamnya sehingga terminal Anda berada di folder nokogiri_tutorial yang berisi program scraping dan file cars.html. Sekarang ketik perintah berikut:

touch cars.csv

Sekarang Anda akan dibiarkan dengan file CSV kosong tempat Anda dapat menyimpan data dari cars_array. Anda sekarang dapat menulis skrip sederhana untuk menulis data ini ke file CSV baru kami dan Anda memiliki data cantuman mobil terstruktur dalam file CSV. Ini akan membuatnya lebih mudah untuk diproses dan dimanipulasi saat dan saat Anda ingin melakukannya.

Parting thoughts

Mudah-mudahan, ini seharusnya memberi Anda gambaran kasar tentang bagaimana Anda bisa menggores situs web menggunakan Ruby. Saatnya menjelajahi dan menjelajahi situs yang lebih kompleks dan menantang menggunakan keterampilan yang baru dikuasai ini.

Tinggalkan Komentar