rplot-belanja-pemerintah-subsidi-bbm

R: sparklyr

Apache Spark is a fast and general-purpose cluster computing system. It provides high-level APIs in Java, Scala, Python and R, and an optimized engine that supports general execution graphs. It also supports a rich set of higher-level tools including Spark SQL for SQL and structured data processing, MLlib for machine learning, GraphX for graph processing, and Spark Streaming.

Mencoba memasuki dunia komputasi paralel, pada awal bulan kemarin kami mulai melakukan riset sehubungan dengan rilisnya RStudio versi 1.0.44 yang memiliki tambahan fitur yang membuat proses pengolahan menuju ‘big data‘ terealisasi. Dimana dari catatan rilis tersebut terdapat 1 fitur menarik yang dimasukkan, yaitu integrasi atas dukungan pengolahan di Spark dengan paket sparklyr. Paket sparklyr ini merupakan antar muka sekaligus menyediakan implementasi dplyr dalam Spark. Untuk lebih lengkapnya silakan menuju halaman pengembangan.

Lingkungan Percobaan

  • Debian Linux 8.0 (jessie) 64bit
  • R version 3.3.2 (2016-10-31) — “Sincere Pumpkin Patch”
  • RStudio 1.0.44
  • OpenJDK 1.7.0_111
  • Spark 1.6.2

Paket yang akan dibutuhkan diambil dari CRAN dengan petunjuk di bawah.

Instalasi

Paket sparklyr dapat dipasang dari CRAN dengan perintah berikut.

install.packages(“sparklyr”)

Berikutnya adalah pemasangan Spark. Dalam percobaan ini digunakan versi lokal. Berikut proses instalasi spark.

library(sparklyr)
spark_install(version = “1.6.2”)

Namun bila Anda telah mengunduh atau ingin menggunakan versi yang telah dimiliki bisa menggunakan.

spark_install_tar(tarfile=”/path/to/spark-x.y.z-bin-hadoopa.b.tar.xz”)

Dimana x.y.z merupakan versi spark dan a.b merupakan versi Hadoop.

Membuka Koneksi ke Spark

Dalam percobaan ini dilakukan koneksi ke mesin lokal meskipun bisa juga dilakukan pada cluster. Berikut langkah untuk membuka koneksi ke lokal.

library(sparklyr)
sc class(sc)
[1] “spark_connection” “spark_shell_connection”
[3] “DBIConnection”

Dan objek sc dapat digunakan sebagai koneksi ke sumber data ke Spark.

Menulis dan Membaca Data

Untuk menulis data ke Spark. Kita bisa menggunakan dataframe yang telah kita definisikan sebelumnya dan kita salin ke Spark. Dalam contoh ini menggunakan data Belanja Pemerintah Indonesia berdasarkan APBN 1990-2013 dari Data.ID.

apbn_url <- ‘http://data.go.id/storage/f/2014-03-14T03%3A32%3A08.626Z/processed-apbn-belanja-indonesia-1990-2013.csv’
apbn_df <- read.csv(apbn_url, sep=’,’, header=TRUE, as.is=TRUE)
apbn_tbl

Untuk melihat data apa saja yang ada dalam Spark dilakukan langkah berikut.

src_tbls(sc)

Untuk melihat data silakan panggil objek. Dan akan keluar isi dengan format keluaran dataframe fungsi tbl_df()

Contoh Penggunaan dengan Sintaks dplyr

Sebagai percobaan membaca data kita akan mencoba mencari data Subsidi BBM. Berikut perintah yang digunakan.

subsidi_bbm %>%
filter(keterangan_pengeluaran == ‘Subsidi – BBM’) %>%
select(tahun, nilai) %>%
collect()

Contoh Visualisasi dengan ggplot2

Berikut contoh visualisasi dengan perintah berikut.

ggplot(subsidi_bbm, aes(tahun,nilai)) + geom_line()

Belanja Pemerintah: Subsidi BBM

Leave a Reply

Your email address will not be published. Required fields are marked *