Membuat dan Menjalankan Aplikasi Apache Spark dengan Intellij IDEA pada OS Windows
Pada artikel "Apache Spark: Perangkat Lunak Analisis Terpadu untuk Big Data" telah diperkenalkan secara singkat tentang apa itu Apache Spark dan kegunaannya. Kali ini kita akan mencoba untuk membuat dan menjalankan sebuah aplikasi Spark sederhana dengan sumber data dari Hadoop yang telah di-install dengan mode standalone pada OS Windows.
Tutorial ini menggunakan Windows 10 dan Software berikut:
- Java JDK-1.8; cara install ada di Cara Sederhana Install Hadoop 2 mode Standalone pada Windows 7 dan Windows 10
- Apache Hadoop-2.7.7; cara install ada di Cara Sederhana Install Hadoop 2 mode Standalone pada Windows 7 dan Windows 10
- IDE Intellij IDEA; download dari https://www.jetbrains.com/idea/
Sebelum mulai install Spark, jalankan Hadoop yang sudah diinstall. Buat direktori di Hadoop yang akan digunakan untuk menyimpan file teks yang akan diproses menggunakan Apache Spark. Gunakan perintah berikut:
hdfs dfs -mkdir /tmp/input
Kemudian, copy file teks dari drive lokal ke Hadoop dan pastikan file tersebut sudah benar-benar dikopi ke direktori Hadoop yang telah dibuat. Gunakan perintah berikut:
hdfs dfs -copyFromLocal C:\tmp\intellij-projects\TextSearch\input\borobudur.txt /tmp/input/borobudur.txt
hdfs dfs -ls /tmp/input
Langkah-langkah Install Apache Spark pada OS Windows :
- Download Spark dari http://spark.apache.org/downloads.html dan pastikan untuk mengunduh Spark yang kompatibel dengan versi Hadoop yang digunakan. Pada tutorial ini digunakan Apache Spark-2.3.1 (jadi kita unduh file spark-2.3.1-bin-hadoop2.7.tgz ) dari laman download Apache Spark.
- Ekstrak file tersebut ke C:\spark-2.3.1-bin-hadoop2.7
- Unduh file winutils.exe dari https://github.com/wmwijaya/hadoop2-standalone-windows7-windows10/tree/master/bin dan taruh file tersebut di direktori C:\spark-2.3.1-bin-hadoop2.7\bin
- Pada Environtment Variables > System Variables OS Windows, buat System Variables SPARK_HOME dengan value C:\spark-2.3.1-bin-hadoop2.7
- Edit System Variable > Path dan tambahkan C:\spark-2.3.1-bin-hadoop2.7\bin
- Test Apache Spark: buka Command Prompt Windows, kemudian eksekusi perintah spark-shell.cmd
Catatan: cara edit Environment Variables > System Variables OS Windows ada di Cara Sederhana Install Hadoop 2 mode Standalone pada Windows 7 dan Windows 10
Langkah-langkah membuat dan menjalankan aplikasi Spark dengan Intellij IDEA pada OS Windows :
- Buka TextSearch.java, kemudian copy-paste source code TextSearch.java dari GitHub TextSearch
Demikian, selamat mencoba!
Komentar
Posting Komentar