Langsung ke konten utama

Mengenal Apa Itu Hadoop

 Assalamu Alaikum waramatullah wabarokatuh;

Pengantar Hadoop

Hai teman-teman, selamat datang kembali di modul ketiga dari data science and technology series, yaitu modul teknologi dan manajemen big data.




Di sesi ini, kita akan masuk ke penjelasan mengenai apa itu Hadoop? Di bagian pertama ini kita akan membahas dulu mengenai motivasi di belakang penggunaan Hadoop dan sejarahnya. Bagaimana Hadoop muncul, Sudah siap? Mari kita mulai.


Teman-teman pasti masih ingat dengan “3V’s of Big data” yang mencirikan kondisi data di zaman sekarang, yaitu volumenya besar, velocity atau kecepatan data dihasilkan juga begitu cepat dan variety atau macam-macam bentuk data. Data-data yang banyak dan bermacam-macam ini, dihasilkan oleh bukan hanya manusia tetapi juga device atau sensor. 


Contoh dari human generated data misalkan email, foto, teks dan video, seperti yang kita upload di YouTube atau tetap posting di Facebook. Ada juga mesin generated data yang juga sebenarnya termasuk dalam big data, contohnya bisa berupa data-data sensor atau device, kemudian ada email logs, ada clickstream logs.


 Jadi bagaimana paten clicking- clicking kita, ketika kita sedang shopping online misalkan, dan ada banyak hal lagi. Kalau kita lihat ilustrasinya disini, data yang dihasilkan oleh device adalah sensor, sebenarnya lebih banyak daripada data yang dihasilkan oleh manusia itu sendiri, yang menarik sebelum era big data dimulai, semua data yang dihasilkan dari mesin ini tidak diapa-apakan, alasannya simpel karena secara volume terlalu besar untuk disimpan dan kalaupun disimpan buat apa? Tidak ada yang bisa kita tarik insight-nya.


Teknologi big data itu kemudian muncul dari keinginan untuk bisa meng-capture internet data, terutama data di web dan sosial media. Sekarang kalau kita bicara tentang Big data analytics, terutama yang berhubungan dengan sosial media, kita bicara data diatas terabyte, sebagai contoh Facebook

menghasilkan 100 terabyte of date per day, kalau kita bayangkan kita mau menyimpan data Facebook itu dengan rdbms biasa, misalkan dengan MySQL atau Oracle, kayaknya bakal mahal sekali, karena mungkin tiap bulan kita akan terus menerus upgrade, oke storage-nya kurang oke computing power-nya kurang, belum lagi data-data ini unstructured, ada data yang teks, ada data gambar, video dan sebagainya, jadi skemanya tidak bisa diatur seperti format tabel biasa.


Hadoop datang sebagai solusi dari permasalahan tadi, kemudian selain itu karena kita memiliki problem dengan memisahkan antara compute cloud dengan storage cloud. Sebagai contoh, misalkan kita simpan data di hdd di hardisk biasa, kemudian kalau kita mau proses, kita akan melakukan transfer, jadi dari SSD drive akan ditarik datanya, kemudian diproses, kemudian nanti dikembalikan lagi ke hdd, hal ini akan sangat memakan waktu kalau kita menggunakan data yang besar, seperti Gigabyte atau bahkan Terra

byte. 


Prinsip Hadoop adalah kita harus mendistribusikannya, sehingga storage dan complete cloud, itu bisa berada disatu lokal mesin dan kemudian menyelesaikan tugasnya sendiri. Lalu kapan muncul teknologi yang tadi menyatukan storage dan complete cloud? Sejarahnya sebenarnya dimulai dari tahun 2002-an oleh dua orang bernama Doug Cutting dan Mike Cafarella. Pada saat itu dua orang ini mengerjakan sebuah research project bernama Nutch, tujuannya membuat search engine system yang mengindex 1 billion (1 miliar) web pages. Ketika sedang mengerjakan project Nutch ini di tahun 2003 mereka menemukan research paper dari Google tentang GFS singkatan dari Google File

System. Tidak lama setelah itu di tahun 2014, Google mempublikasikan research paper tentang MapReduce mengenai bagaimana memproses Google file system.


Doug Cutting dan Mike Cafarella kamudian menyadari, kayanya kita bisa gunakan ini untuk project Nutch, jadilah mereka memasukkan konsep GFS dan MapReduce ini ke project mereka, tentu saja dengan tetap menyebut asalnya yaitu dari Google. Dari situ kemudian jadilah HDFS dan MapReduce yang ada di Hdoop. Tidak lama setelah itu cutting kemudian join ke Yahoo dan meneruskan project Hadoop di sana. Disinilah secara official Project Nutch berganti nama menjadi Hadoop. Nama Hadoop itu sendiri diberikan oleh cutting berdasarkan nama mainan gajah yang dimiliki oleh anak laki-lakinya. Jadi dulu anak laki-lakinya punya gajah warna kuning, boneka dan namanya Hadoop, jadi dia pakai nama itu untuk disistem Hadoop. Karena Cutting ini sebenar adalah orang open source, tidak lama setelah itu Yahoo melepas Hadoop sebagai open source project ke Apache Software Foundation. 


Seiring berjalannya waktu, eksperimen Hadoop sendiri terus berlanjut, ada yang mau mencoba dari dulu hanya 4 nodes, kemudian menjadi ribuan nodes. Jadi, 4 komputer menjadi ribuan komputer, tidak lama setelah itu karena semakin major teknologinya, ada beberapa personil Google, Facebook dan Yahoo yang kemudian bergabung mendirikan Cloudera sebagai Hadoop distribution.


Tidak lama kemudian adalah Cutting. Jadi Cutting sendiri kemudian keluar dari Yahoo dan masuk ke Cloudera. Tidak lama setelah itu, Yahoo spins off company bernama Hortonworks, juga sebagai commercial Hadoop distribution. Hanya bedanya, kalau tadi di Cloudera hanya beberapa orang dari organisasi yang berbeda, kalau Hortonworks dimulai dari orang-orang Yahoo itu sendiri.


Sekarang sudah ada banyak players di teknologi big data ini. Ada yang fokus di hardware seperti Dell, ada juga yang fokus di cloud, seperti amazon web services. Jadi, kalau teman-teman tertarik ke bidang big data, masih banyak hal yang bisa dilakukan dan teman- teman selalu bisa untuk apply untuk memdapatkan karir di perusahaan-perusahaan yang ada di sini.


Barusan kita membahas mengenai latar belakang Hadoop dan mengapa Hadoop itu penting, berikutnya

akan membahas mengenai Hadoop architecture. Terima kasih dan sampai jumpa.


Pengantar Hadoop


Kota Tegal , 10 April 2021



#hadoop #yahoo #Google #HDFS #opensource #tegal #bigdata

Postingan populer dari blog ini

Mengenal tentang Komunikasi Audio

  KOMUNIKASI AUDIO Komunikasi audio adalah proses penyampaian informasi, pesan, atau komunikasi secara verbal melalui suara atau audio. Ini melibatkan penggunaan perangkat audio seperti mikrofon, speaker, atau perekam suara untuk mentransmisikan dan menerima pesan suara. Dalam komunikasi audio, pesan atau informasi dikodekan dalam bentuk gelombang suara yang dapat didengar oleh penerima. Proses ini melibatkan penggunaan suara manusia atau audio rekaman yang ditransmisikan melalui saluran komunikasi tertentu, seperti telepon, webinar, konferensi audio, radio, podcast, atau platform komunikasi berbasis internet. Komunikasi audio dapat terjadi dalam berbagai konteks, termasuk komunikasi bisnis, pendidikan jarak jauh, pertemuan atau rapat jarak jauh, presentasi, hiburan, dan sebagainya. Pentingnya komunikasi audio dalam berbagai aspek kehidupan telah meningkat secara signifikan dengan kemajuan teknologi dan globalisasi, memungkinkan orang untuk berkomunikasi dengan mudah di berbagai

Cara Menggunakan Vi editor pada Linux Ubuntu Gloudshell Google

Assalamu Alaikum Wr Wb.  Pada Coretan ini, saya akan Sebutkan 4 comand yang sering digunakan SysAdmin & IT Support Dalam menulis mengedit file txt pada mode layar hitam. a.membuat file dengan vi  b.Melihat hasil vi Apa itu editor VI ?       Editor VI adalah editor teks paling populer dan klasik dalam keluarga Linux. Di bawah, adalah beberapa alasan yang menjadikannya editor yang banyak digunakan bagi yang selalu berkerja di balik layar hitam (bukan dunia hitam). Ini tersedia di hampir semua Distribusi Linux. Ini berfungsi sama di berbagai platform dan Distribusi.  Itu ramah pengguna. Karenanya, jutaan pengguna Linux menyukainya dan menggunakannya untuk  kebutuhan pengeditan mereka.       Saat ini, ada versi lanjutan dari vi editor yang tersedia, dan yang paling populer adalah VIM yaitu Vi Improved . Beberapa yang lain adalah Elvis, Nvi, Nano , dan Vile . Adalah bijaksana untuk mempelajari vi karena kaya fitur dan menawarkan kemungkinan tanpa akhir untuk mengedit file .

Apa itu CodeIgniter - MVC Framework

    CodeIgniter didasarkan pada pola pengembangan Model-View-Controller (MVC). MVC adalah pendekatan perangkat lunak yang memisahkan logika aplikasi dari presentasi. Dalam praktiknya, ini memungkinkan halaman web Anda berisi skrip minimal karena presentasinya terpisah dari skrip PHP. Model mewakili struktur data Anda. Biasanya, kelas model Anda akan berisi fungsi yang membantu Anda mengambil, menyisipkan, dan memperbarui informasi dalam database Anda.  View adalah informasi yang disajikan kepada pengguna. Tampilan biasanya akan menjadi halaman web, tetapi di CodeIgniter, tampilan juga bisa menjadi fragmen halaman seperti header atau footer. Ini juga bisa berupa halaman RSS, atau jenis "halaman" lainnya.   Controller berfungsi sebagai perantara antara Model, View, dan sumber daya lain yang diperlukan untuk memproses permintaan HTTP dan menghasilkan halaman web. #codeigneter #bigdata #tegal #september2021