Bahas tuntas cara scraping web dengan python part 1: apa itu web scraping, manfaat, persiapan, HTML

AlfaRiza
3 min readApr 27, 2023

Halo semuanya, pada series kali ini kita akan membahas cara scraping web menggunakan python. Part ini akan berisi apa itu web scraping, manfaat web scraping, persiapan, dan HTML.

Apa itu web scraping?

Web scraping adalah kegiatan yang dilakukan untuk mengambil data tertentu secara semi terstruktur dari sebuah halaman web. Halaman umumnya dibangun menggunakan bahasa markup seperti HTML atau XHTML, proses akan menganalisis dokumen sebelum mulai mengambil data.(Wikipedia)

Web scaping pertama kali dilakukan secara manual, dengan menyalin data dari situs web ke komputer kita atau penyimpanan lokal. Namun cara ini kurang efektif jika digunakan untuk mengambil data dalam jumlah besar. Cara lain untuk web scraping dapat dilakukan dengan coding, aplikasi atau ekstensi browser.

Manfaat web scraping

Manfaat dari web scraping adalah:

  • mendapatkan data dari situs web dengan cepat
  • riset pasar untuk mengetahui tren pengguna
  • memantau berita/konten

Persiapan

Persyaratan sebelum memulai web scraping ini:

  • mengerti bahasa pemrograman python (jika tidak, jangan khawatir, kursus ini akan mengajarkan Anda sedikit tentang python)
  • memahami struktur HTML (jika tidak, jangan khawatir, kursus ini akan membahas sedikit tentang HTML)

HTML

HTML Hyper Text Markup Language adalah bahasa markup standar untuk dokumen yang dirancang untuk ditampilkan di browser internet. (sumber https://id.wikipedia.org/wiki/HTML).

HTML dibuat oleh Tim Berners-Lee pada tahun 1980. HTML berguna untuk membuat framework untuk website, tidak seperti CSS yang digunakan untuk menghias tampilan.

HTML memiliki 3 elemen dasar yang digunakan untuk menulis HTML itu sendiri, yaitu Tag, Atribut, dan Elemen.

Tag

Tag adalah format berupa simbol < dan > yang mengapit sebuah nama tag, tag ini berguna untuk menandai sebuah teks agar mendapatkan keluaran yang sesuai dengan petunjuk nama tag. Biasanya ada sepasang tag pembuka dan tag penutup, meskipun beberapa format tag tidak memiliki tag penutup, misalnya tag <br>,<hr>.

Attribut

Atribut adalah properti tambahan dari sebuah tag, yang biasanya digunakan sebagai informasi tambahan untuk mengatur tampilan tag. Cara penulisan tag pembuka di dalam kurung buka dan kurung tutup, setelah nama tag beri spasi kemudian tulis nama atributnya, beri nilai beri tanda =, lalu kutip dua tanda kutip pembuka dan tanda kutip menutup dua tanda kutip, di mana ia diberi nilai atribut the. Atribut masing-masing tag berbeda.

Atribut memiliki nilai : <p align=”center”>Nama Anda</p>

Atribut tanpa nilai : <button disable>Nama Anda</button>

Elemen

Elemen adalah rangkaian teks html mulai dari tag pembuka hingga tag penutup dalam satu kesatuan yang utuh. Sehingga dapat disimpulkan sebagai berikut:

data yang akan kita ambil adalah data yang diapit oleh tag pembuka dan tag penutup dengan atribut tertentu seperti id, class, href dll.

Struktur dasar HTML terdiri dari tag html, tag head, tag title, dan tag body.

<html>
<head>
<title></title>
</head>
<body>
</body>
</html>

Tag body adalah tempat di mana informasi ditampilkan di situs web.

Okey, sekian untuk part kali ini, di part selanjutnya kita akan membahas python dan IDE nya. Terimakasih :)

--

--

AlfaRiza
AlfaRiza

No responses yet