Abstract:
Internet merupakan salah satu kebutuhan yang penting dalam hidup manusia. Dalam kehidupan
sehari-hari setiap orang menggunakan internet untuk berbagai keperluan seperti, mengakses atau
membagikan informasi, berkomunikasi, melakukan jual-beli barang atau jasa, belajar-mengajar,
dan lain-lain. Konten-konten tersebut dapat diakses melalui website. Setiap website menawarkan
berbagai macam informasi maupun produk kepada penggunanya.
Website dibagi menjadi beberapa jenis yaitu, online shop, media sosial, e-learning, dan lainlain.
Dari beberapa jenis website tersebut, banyak data-data yang berguna untuk dikumpulkan
menjadi kumpulan data yang sangat besar dalam kata lain big data. Terutama data-data dari
website seperti media sosial dan online shop cukup banyak dan bervariasi.
Dari salah satu sosial media yaitu twitter, memberikan akses API yang cukup lengkap sesuai
dengan data-data yang tersebar secara publik melalui antarmuka twitter. Namun, untuk online
shop seperti TripAdvisor dan masih banyak lainnya tidak memberikan akses API. Maka dari itu,
dibutuhkan web crawler untuk mendapatkan data-datanya.
Data-data yang diambil dari sosial media dan online shop dapat diolah dan dianalisis
sehingga menghasilkan pengetahuan yang berharga. Hal tersebut akan tercapai jika data-data
yang diambil relevan dengan tujuan data tersebut diambil. Salah satu contohnya adalah tren
yang bisa diambil dari hashtag terbanyak yang dikandung setiap tweet. Contoh lainnya adalah
sentimen ulasan produk atau jasa yang jika dikumpulkan dengan banyak dapat mencerminkan
baik buruknya suatu produk atau jasa.