Apache Nutch Crawl Script : Web Crawling hanya dengan Satu Command
Pada artikel Membangun Mesin Pencari dengan Kombinasi Apache Nutch, Elasticsearch, dan MongoDB telah dibahas secara singkat tentang apa itu Apache Nutch, apa itu Elasticsearch, dan Apa itu MongoDB. Kemudian, pada artikel Crawling dan Indexing Berbasis Apache Nutch, Elasticsearch, dan MongoDB telah dijelaskan langkah-langkah website crawling menggunakan Apache Nutch yang meliputi 6 tahap dengan mengeksekusi 6 command Apache Nutch, yaitu: inject, generate, fetch, parse, updatedb, index. Telah disebutkan pula bahwa proses crawling yang meliputi 6 langkah ini tidak cukup hanya dilakukan satu kali untuk dapat meng-index seluruh isi website yang dijadikan target. Beruntungnya, Apache Nutch juga dilengkapi dengan script yang dapat mempersingkat proses crawling dari 6 langkah menjadi satu langkah saja, yaitu dengan mengeksekusi perintah berikut: hennywijaya$ runtime/local/bin/crawl urls/ webpage3 http://localhost:9300/nutch/ 3 Adapun arguments dari perintah diatas adalah: 1. urls adalah dir...