Langsung ke konten utama

Mengenal Apa Itu Hadoop

 Assalamu Alaikum waramatullah wabarokatuh;

Pengantar Hadoop

Hai teman-teman, selamat datang kembali di modul ketiga dari data science and technology series, yaitu modul teknologi dan manajemen big data.




Di sesi ini, kita akan masuk ke penjelasan mengenai apa itu Hadoop? Di bagian pertama ini kita akan membahas dulu mengenai motivasi di belakang penggunaan Hadoop dan sejarahnya. Bagaimana Hadoop muncul, Sudah siap? Mari kita mulai.


Teman-teman pasti masih ingat dengan “3V’s of Big data” yang mencirikan kondisi data di zaman sekarang, yaitu volumenya besar, velocity atau kecepatan data dihasilkan juga begitu cepat dan variety atau macam-macam bentuk data. Data-data yang banyak dan bermacam-macam ini, dihasilkan oleh bukan hanya manusia tetapi juga device atau sensor. 


Contoh dari human generated data misalkan email, foto, teks dan video, seperti yang kita upload di YouTube atau tetap posting di Facebook. Ada juga mesin generated data yang juga sebenarnya termasuk dalam big data, contohnya bisa berupa data-data sensor atau device, kemudian ada email logs, ada clickstream logs.


 Jadi bagaimana paten clicking- clicking kita, ketika kita sedang shopping online misalkan, dan ada banyak hal lagi. Kalau kita lihat ilustrasinya disini, data yang dihasilkan oleh device adalah sensor, sebenarnya lebih banyak daripada data yang dihasilkan oleh manusia itu sendiri, yang menarik sebelum era big data dimulai, semua data yang dihasilkan dari mesin ini tidak diapa-apakan, alasannya simpel karena secara volume terlalu besar untuk disimpan dan kalaupun disimpan buat apa? Tidak ada yang bisa kita tarik insight-nya.


Teknologi big data itu kemudian muncul dari keinginan untuk bisa meng-capture internet data, terutama data di web dan sosial media. Sekarang kalau kita bicara tentang Big data analytics, terutama yang berhubungan dengan sosial media, kita bicara data diatas terabyte, sebagai contoh Facebook

menghasilkan 100 terabyte of date per day, kalau kita bayangkan kita mau menyimpan data Facebook itu dengan rdbms biasa, misalkan dengan MySQL atau Oracle, kayaknya bakal mahal sekali, karena mungkin tiap bulan kita akan terus menerus upgrade, oke storage-nya kurang oke computing power-nya kurang, belum lagi data-data ini unstructured, ada data yang teks, ada data gambar, video dan sebagainya, jadi skemanya tidak bisa diatur seperti format tabel biasa.


Hadoop datang sebagai solusi dari permasalahan tadi, kemudian selain itu karena kita memiliki problem dengan memisahkan antara compute cloud dengan storage cloud. Sebagai contoh, misalkan kita simpan data di hdd di hardisk biasa, kemudian kalau kita mau proses, kita akan melakukan transfer, jadi dari SSD drive akan ditarik datanya, kemudian diproses, kemudian nanti dikembalikan lagi ke hdd, hal ini akan sangat memakan waktu kalau kita menggunakan data yang besar, seperti Gigabyte atau bahkan Terra

byte. 


Prinsip Hadoop adalah kita harus mendistribusikannya, sehingga storage dan complete cloud, itu bisa berada disatu lokal mesin dan kemudian menyelesaikan tugasnya sendiri. Lalu kapan muncul teknologi yang tadi menyatukan storage dan complete cloud? Sejarahnya sebenarnya dimulai dari tahun 2002-an oleh dua orang bernama Doug Cutting dan Mike Cafarella. Pada saat itu dua orang ini mengerjakan sebuah research project bernama Nutch, tujuannya membuat search engine system yang mengindex 1 billion (1 miliar) web pages. Ketika sedang mengerjakan project Nutch ini di tahun 2003 mereka menemukan research paper dari Google tentang GFS singkatan dari Google File

System. Tidak lama setelah itu di tahun 2014, Google mempublikasikan research paper tentang MapReduce mengenai bagaimana memproses Google file system.


Doug Cutting dan Mike Cafarella kamudian menyadari, kayanya kita bisa gunakan ini untuk project Nutch, jadilah mereka memasukkan konsep GFS dan MapReduce ini ke project mereka, tentu saja dengan tetap menyebut asalnya yaitu dari Google. Dari situ kemudian jadilah HDFS dan MapReduce yang ada di Hdoop. Tidak lama setelah itu cutting kemudian join ke Yahoo dan meneruskan project Hadoop di sana. Disinilah secara official Project Nutch berganti nama menjadi Hadoop. Nama Hadoop itu sendiri diberikan oleh cutting berdasarkan nama mainan gajah yang dimiliki oleh anak laki-lakinya. Jadi dulu anak laki-lakinya punya gajah warna kuning, boneka dan namanya Hadoop, jadi dia pakai nama itu untuk disistem Hadoop. Karena Cutting ini sebenar adalah orang open source, tidak lama setelah itu Yahoo melepas Hadoop sebagai open source project ke Apache Software Foundation. 


Seiring berjalannya waktu, eksperimen Hadoop sendiri terus berlanjut, ada yang mau mencoba dari dulu hanya 4 nodes, kemudian menjadi ribuan nodes. Jadi, 4 komputer menjadi ribuan komputer, tidak lama setelah itu karena semakin major teknologinya, ada beberapa personil Google, Facebook dan Yahoo yang kemudian bergabung mendirikan Cloudera sebagai Hadoop distribution.


Tidak lama kemudian adalah Cutting. Jadi Cutting sendiri kemudian keluar dari Yahoo dan masuk ke Cloudera. Tidak lama setelah itu, Yahoo spins off company bernama Hortonworks, juga sebagai commercial Hadoop distribution. Hanya bedanya, kalau tadi di Cloudera hanya beberapa orang dari organisasi yang berbeda, kalau Hortonworks dimulai dari orang-orang Yahoo itu sendiri.


Sekarang sudah ada banyak players di teknologi big data ini. Ada yang fokus di hardware seperti Dell, ada juga yang fokus di cloud, seperti amazon web services. Jadi, kalau teman-teman tertarik ke bidang big data, masih banyak hal yang bisa dilakukan dan teman- teman selalu bisa untuk apply untuk memdapatkan karir di perusahaan-perusahaan yang ada di sini.


Barusan kita membahas mengenai latar belakang Hadoop dan mengapa Hadoop itu penting, berikutnya

akan membahas mengenai Hadoop architecture. Terima kasih dan sampai jumpa.


Pengantar Hadoop


Kota Tegal , 10 April 2021



#hadoop #yahoo #Google #HDFS #opensource #tegal #bigdata

Postingan populer dari blog ini

HATI HATI DAPAT INBOX WHATSHAP KERJA PARUH WAKTU

  https://t.me/bliblicenter Scam Bot penipu @C_Caroline1 Website Penipu https://bliwallet.top/#/user https://bliwallet.vip/#/user https://bliwallet.cc/#/user https://prgcompany.com/

Kebutuhan Perangkat VoIP untuk Optimalisasi Komunikasi Bisnis

 Panduan Lengkap Kebutuhan Perangkat VoIP Voice over Internet Protocol (VoIP ) adalah teknologi komunikasi modern yang mengubah cara kita berinteraksi dengan orang lain. Dalam dunia bisnis, perangkat VoIP telah menjadi solusi yang lebih terjangkau dan efektif dalam berkomunikasi dengan pelanggan, mitra bisnis, dan karyawan di seluruh dunia. Namun, dengan beragam pilihan perangkat VoIP yang tersedia di pasar, memilih perangkat yang tepat bisa menjadi tugas yang menantang. Dalam blog ini, kami akan membahas tentang kebutuhan perangkat VoIP dan faktor-faktor yang harus dipertimbangkan sebelum membeli perangkat VoIP . Kami akan membahas berbagai jenis perangkat VoIP yang tersedia, fitur-fitur penting yang harus dipertimbangkan, dan cara mengoptimalkan penggunaan perangkat VoIP Anda. Dengan memperhatikan hal-hal tersebut, Anda dapat memilih perangkat VoIP yang tepat dan memaksimalkan pengalaman komunikasi Anda. Bagi banyak orang, perangkat telepon konvensional sudah menjadi hal ...

Pengertian Master/Slave Architecture Di Hadoop

  Assalamu Alaikum waramatullah wabarokatuh; Hai teman-teman, selamat datang kembali di modul ketiga dari data science and technology series, yaitu modul teknologi dan manajemen big data. Di bagian sebelumnya, kita telah belajar tentang Cluster dan nodes. Di bagian ini kita akan melanjutkan mengenai HDFS dan MapReduce. Sudah siap? Mari kita mulai. Seperti yang sudah saya ceritakan sebelumnya, dua komponen utama dari Hadoop adalah Hadoop distributed file system atau HDFS dan MapReduce. HDFS ini seperti sejarahnya terinspirasi dari GFS atau Google file system dan tujuan dari HDFS adalah untuk mengurusin storage atau penyimpanan data, data ini bisa berupa macam-macam files.  Bagaimana dengan MapReduce? MapReduce ini terinspirasi dari MapReduce algorithm yang dibuat oleh Google. Tujuannya adalah untuk mengurus data processing-nya. Jadi HDFS untuk storage-nya, MapReduce untuk processing. Bagaimana cara kerja Hadoop? Seperti video yang sudah ditunjukan dibagian sebelumnya, kita meng...