Data Science dalam Bahasa Pemrograman

Data Science skill (w/o Python)

Bulan lalu, Tekla Perry menuliskan artikel What Programming Languages Do You Need to Work in Data Science?” di Spectrum/IEEE. Artikel ini mungkin bisa dijadikan salah satu rujukan bila ingin masuk ke dunia Data Science atau merekrut seorang data scientist.

Skill-set Data Science

Dalam artikel tersebut terdapat grafik yang menunjukkan kebutuhan skill-set yang diminta perusahaan saat mempekerjakan seorang data scientist melalui Indeed. Grafik tersebut dengan jelas mengeluarkan kebutuhan akan bahasa pemrograman Python karena dianggap skill yang tidak spesifik untuk data science. Python sendiri menduduki peringkat 3 (tiga) dalam kebutuhan skill teknologi secara umum.

Data Science skill (w/o Python)
Data Science skill

Tampak bahwa permintaan akan skill Hadoop, R, Spark, dan Tableau merupakan kebutuhan yang paling dijadikan rujukan kebutuhan untuk menjadi data scientist. Menyusul kemudian adalah SAS, Matlab, Redshift dan Tensorflow.

Hadoop

Hadoop merupakan teknologi yang menyokong terminologi yang sedang hype yaitu big data. Hadoop merupakan sebuah sistem berkas yang terdistribusi sehingga dapat mendukung adanya multi-processing dan high-availability.

R

R merupakan bahasa pemrograman yang dikembangkan utamanya untuk stastistika dan grafis pendukungnya. Kami pernah membahas peran R dalam kancah bahasa pemrograman.

Spark

Spark atau Apache Spark merupakan perangkat untuk menerapkan sistem berbasis komputasi cluster. Pengembang menjanjikan kecepatan yang melebihi komputasi menggunakan map-reduce milik Hadoop, yaitu 100 kali lipat lebih cepat. Kami pernah membahas konektivitas dan interoperabilitas dengan R menggunakan Sparklyr.

Tableau

Tableau Software adalah perusahaan perangkat lunak visualisasi data interaktif Amerika yang didirikan pada Januari 2003 oleh Christian Chabot, Pat Hanrahan dan Chris Stolte, di Mountain View, California. Perusahaan saat ini bermarkas di Seattle, Washington, Amerika Serikat yang fokus pada intelijen bisnis. Perangkat yang mereka kembangkan banyak digunakan sebagai visualisasi dalam pengembangan business inntelligence di perusahaan-perusahaan besar.

Disiplin Ilmu Data Science

Selain skill-set, juga dibahas mengenai disiplin ilmu yang diminta untuk dikuasai.

Top Data Science Disciplines
Top Data Science Disciplines

Keilmuan terkait Machine Learning menduduki peringkat teratas atas tuntutan perekrut mengalahkan berturut-turut Artificial Intelligence, Deep Learning, dan Natural Language Processing. Pertama-tama mari kita mulai dari akronim dan definisi masing-masing:

  • Artificial Intelligence (AI) merupakan disiplin keilmuan bagaimana menciptakan mesin yang pintar.
  • Machine Learning (ML) merujuk kepada sebuah sistem yang dapat belajar dari pengalaman (data) yang diberikan sebagai masukan.
  • Deep Learning (DL) merujuk kepada sebuah sistem yang dapat belajar dari pengalaman dengan jumlah data yang besar sehingga membutuhkan komputasi yang lebih.
  • Natural Language Processing (NLP) merupakan sistem yang dikembangkan untuk mempelajari dan memahami bahasa dalam bentuk teks.

Bila dalam diagram venn berikut hubungan wilayah keilmuan antara ke-empat-nya.

Sumber: Sonix.AI

Mengingat semua beririsan, memastikan bahwa ada keilmuan pokok yang harus dipahami sebagai dasar, yaitu Statistika dan Matematika.

Tinggalkan Balasan

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *