Assalamu Alaikum waramatullah wabarokatuh;
Hai teman-teman, selamat datang kembali di modul ketiga dari data science and technology series, yaitu modul teknologi dan manajemen big data.
Di sesi ini, kita akan masuk ke penjelasan mengenai apa itu Hadoop? Di bagian pertama ini kita akan membahas dulu mengenai motivasi di belakang penggunaan Hadoop dan sejarahnya. Bagaimana Hadoop muncul, Sudah siap? Mari kita mulai.
Teman-teman pasti masih ingat dengan “3V’s of Big data” yang mencirikan kondisi data di zaman sekarang, yaitu volumenya besar, velocity atau kecepatan data dihasilkan juga begitu cepat dan variety atau macam-macam bentuk data. Data-data yang banyak dan bermacam-macam ini, dihasilkan oleh bukan hanya manusia tetapi juga device atau sensor.
Contoh dari human generated data misalkan email, foto, teks dan video, seperti yang kita upload di YouTube atau tetap posting di Facebook. Ada juga mesin generated data yang juga sebenarnya termasuk dalam big data, contohnya bisa berupa data-data sensor atau device, kemudian ada email logs, ada clickstream logs.
Jadi bagaimana paten clicking- clicking kita, ketika kita sedang shopping online misalkan, dan ada banyak hal lagi. Kalau kita lihat ilustrasinya disini, data yang dihasilkan oleh device adalah sensor, sebenarnya lebih banyak daripada data yang dihasilkan oleh manusia itu sendiri, yang menarik sebelum era big data dimulai, semua data yang dihasilkan dari mesin ini tidak diapa-apakan, alasannya simpel karena secara volume terlalu besar untuk disimpan dan kalaupun disimpan buat apa? Tidak ada yang bisa kita tarik insight-nya.
Teknologi big data itu kemudian muncul dari keinginan untuk bisa meng-capture internet data, terutama data di web dan sosial media. Sekarang kalau kita bicara tentang Big data analytics, terutama yang berhubungan dengan sosial media, kita bicara data diatas terabyte, sebagai contoh Facebook
menghasilkan 100 terabyte of date per day, kalau kita bayangkan kita mau menyimpan data Facebook itu dengan rdbms biasa, misalkan dengan MySQL atau Oracle, kayaknya bakal mahal sekali, karena mungkin tiap bulan kita akan terus menerus upgrade, oke storage-nya kurang oke computing power-nya kurang, belum lagi data-data ini unstructured, ada data yang teks, ada data gambar, video dan sebagainya, jadi skemanya tidak bisa diatur seperti format tabel biasa.
Hadoop datang sebagai solusi dari permasalahan tadi, kemudian selain itu karena kita memiliki problem dengan memisahkan antara compute cloud dengan storage cloud. Sebagai contoh, misalkan kita simpan data di hdd di hardisk biasa, kemudian kalau kita mau proses, kita akan melakukan transfer, jadi dari SSD drive akan ditarik datanya, kemudian diproses, kemudian nanti dikembalikan lagi ke hdd, hal ini akan sangat memakan waktu kalau kita menggunakan data yang besar, seperti Gigabyte atau bahkan Terra
byte.
Prinsip Hadoop adalah kita harus mendistribusikannya, sehingga storage dan complete cloud, itu bisa berada disatu lokal mesin dan kemudian menyelesaikan tugasnya sendiri. Lalu kapan muncul teknologi yang tadi menyatukan storage dan complete cloud? Sejarahnya sebenarnya dimulai dari tahun 2002-an oleh dua orang bernama Doug Cutting dan Mike Cafarella. Pada saat itu dua orang ini mengerjakan sebuah research project bernama Nutch, tujuannya membuat search engine system yang mengindex 1 billion (1 miliar) web pages. Ketika sedang mengerjakan project Nutch ini di tahun 2003 mereka menemukan research paper dari Google tentang GFS singkatan dari Google File
System. Tidak lama setelah itu di tahun 2014, Google mempublikasikan research paper tentang MapReduce mengenai bagaimana memproses Google file system.
Doug Cutting dan Mike Cafarella kamudian menyadari, kayanya kita bisa gunakan ini untuk project Nutch, jadilah mereka memasukkan konsep GFS dan MapReduce ini ke project mereka, tentu saja dengan tetap menyebut asalnya yaitu dari Google. Dari situ kemudian jadilah HDFS dan MapReduce yang ada di Hdoop. Tidak lama setelah itu cutting kemudian join ke Yahoo dan meneruskan project Hadoop di sana. Disinilah secara official Project Nutch berganti nama menjadi Hadoop. Nama Hadoop itu sendiri diberikan oleh cutting berdasarkan nama mainan gajah yang dimiliki oleh anak laki-lakinya. Jadi dulu anak laki-lakinya punya gajah warna kuning, boneka dan namanya Hadoop, jadi dia pakai nama itu untuk disistem Hadoop. Karena Cutting ini sebenar adalah orang open source, tidak lama setelah itu Yahoo melepas Hadoop sebagai open source project ke Apache Software Foundation.
Seiring berjalannya waktu, eksperimen Hadoop sendiri terus berlanjut, ada yang mau mencoba dari dulu hanya 4 nodes, kemudian menjadi ribuan nodes. Jadi, 4 komputer menjadi ribuan komputer, tidak lama setelah itu karena semakin major teknologinya, ada beberapa personil Google, Facebook dan Yahoo yang kemudian bergabung mendirikan Cloudera sebagai Hadoop distribution.
Tidak lama kemudian adalah Cutting. Jadi Cutting sendiri kemudian keluar dari Yahoo dan masuk ke Cloudera. Tidak lama setelah itu, Yahoo spins off company bernama Hortonworks, juga sebagai commercial Hadoop distribution. Hanya bedanya, kalau tadi di Cloudera hanya beberapa orang dari organisasi yang berbeda, kalau Hortonworks dimulai dari orang-orang Yahoo itu sendiri.
Sekarang sudah ada banyak players di teknologi big data ini. Ada yang fokus di hardware seperti Dell, ada juga yang fokus di cloud, seperti amazon web services. Jadi, kalau teman-teman tertarik ke bidang big data, masih banyak hal yang bisa dilakukan dan teman- teman selalu bisa untuk apply untuk memdapatkan karir di perusahaan-perusahaan yang ada di sini.
Barusan kita membahas mengenai latar belakang Hadoop dan mengapa Hadoop itu penting, berikutnya
akan membahas mengenai Hadoop architecture. Terima kasih dan sampai jumpa.
Kota Tegal , 10 April 2021
#hadoop #yahoo #Google #HDFS #opensource #tegal #bigdata