Pengertian Master/Slave Architecture Di Hadoop

Assalamu Alaikum waramatullah wabarokatuh;

Hai teman-teman, selamat datang kembali di modul ketiga dari data science and technology series, yaitu modul teknologi dan manajemen big data.

Di bagian sebelumnya, kita telah belajar tentang Cluster dan nodes. Di bagian ini kita akan melanjutkan mengenai HDFS dan MapReduce. Sudah siap? Mari kita mulai. Seperti yang sudah saya ceritakan sebelumnya, dua komponen utama dari Hadoop adalah Hadoop distributed file system atau HDFS dan MapReduce. HDFS ini seperti sejarahnya terinspirasi dari GFS atau Google file system dan tujuan dari HDFS adalah untuk mengurusin storage atau penyimpanan data, data ini bisa berupa macam-macam files.

Bagaimana dengan MapReduce? MapReduce ini terinspirasi dari MapReduce algorithm yang dibuat oleh Google. Tujuannya adalah untuk mengurus data processing-nya. Jadi HDFS untuk storage-nya, MapReduce untuk processing. Bagaimana cara kerja Hadoop? Seperti video yang sudah ditunjukan dibagian sebelumnya, kita mengenal konsep Master dan slave. Jadi disini kita bisa lihat, bahwa kita memiliki Master dan kemudian slave.

Master ini terdiri dari komputer, komputer ini ada yang namanya name nodes, kemudian ada yang namanya job tracker, kemudian di slave, kita juga memiliki nodes, nodes yang lebih banyak jadi kalau Master mungkin hanya satu atau dua, slave ini bisa sebanyak mungkin. Didalamnya slave, ada namanya data node dan kemudian ada yang namanya task tracker. Di Master ini, tanggung jawabnya adalah untuk mengkoordinasikan directories dan lokasi file blogs, jadi didalamnya name nodes, sebenarnya name nodes ini adalah bagian dari HDFS, jadi ini adalah nama untuk komponen HDFS yang ada di Master, dia menyimpan index information dari blogs data yang sudah di partisi menjadi lebih kecil-kecil di dalam masing-masing data nodes. Jadi dia tahu data mana, ada di data nodes 1, data mana ada di data nodes 2 dan seterusnya.

Kemudian, dia ada job tracker yang mengatur job Q. Jadi kalau ada sebuah aplikasi yang kemudian submit job ke job tracker, dia akan mengatur bagaimana task tracker yang ada di slave ini mengerjakan masing-masing partisi dari task yang diberikan oleh si application. Jadi misalkan ada application yang berjalan, sebagai contoh misalkan ada aplikasi yang menganalisis seberapa sering kata korupsi muncul di-posting-an social media. Application akan mengontak Master nodes, kemudian si job tracker yang mana sebenarnya ada komponen MapReduce, dia akan membagibagi data yang besar ini, misalkan ada files yang ribuan, dia akan membuatnya menjadi kecil-kecil dan mendistribusikannya ke slave nodes untuk diproses. Kemudian si name nodes ini menyimpan index-index-nya, jadi data mana ada di data nodes mana. Setelah job taks selesai, Master nodes akan memberikan info ke si application, jadi application bisa tahu, kalau kita mau result yang ini, di data nodes sekian, result yang itu ada di data nodes sekian. Jadi perlu dicatat di sini, yang terjadi adalah pemberitahuan mengenai node mana yang mengerjakan task mana. Jadi bukan proses transfer file dari Master ke slave, dari slave kembali lagi ke Master, Master kembali application.

jadi semuanya terjadi di local, di local nodes atau local computer, dan yang enaknya adalah untuk setiap data, ada copy-nya di nodes lain, by default ada tiga copies. jadi bagaimana kalau failure terjadi? Gampang, kita bisa mengkontak ke data nodes yang lain untuk memberikan datanya. Bagaimana kalau Master nodes-nya yang ada yang failure? Biasanya kalau di enterprises level kita punya Master-bya bisa 2, jadi ada si main atasnya primary Master, kemudian ada si back up Master. Seiring dengan perkembangannya, Hadoop sudah di uji coba, jadi ada ada yang pernah melakukan dengan single node sampai dengan 4000 nodes, mungkin sekarang sudah lebih dari 4000 nodes.

kalau kita punya Cluster dengan Hadoop, misalkan kita adalah programmer yang berusaha menganalisis tadi, seberapa banyak kata korupsi muncul di media sosial, kita tinggal coding. Misalkan kita coding untuk beberapa megabyte of data misalkan hanya untuk satu atau dua task fails, kita bisa aplikasikan itu untuk scalability yang lebih besar, kita bisa lakukan untuk ribuan task fails, karena pada dasarnya itu adalah processing yang sama, yang kemudian oleh Hadoop didistribusikan ke nodes-nodes yang kecil sehingga dia bisa memproses data lebih banyak. Scalability cost ini linier, karena seperti yang pernah saya ceritakan, kalau misalkan saya butuh computing power dua kali lebih cepat, nodes-nya saya tambah dua kali lebih banyak dan untuk Hadoop kita selalu gunakan low cost computer, kita akan menggunakan operating system Linux. Barusan kita membahas mengenai konsep Master and slave di Hadoop, kita juga sudah belajar secara simple bagaimana cara kerja aplikasi mengontak Master dan kemudian Master mengkoordinasikan tugasnya ke para slave nodes. Berikutnya kita akan membahas mengenai seperti apa pekerjaan di bidang big data, terutama yang berkaitan dengan si technology Hadoop ini.

Pengertian Master/Slave Architecture Di Hadoop

Wassalamu Alaikum waramatullah wabarokatuh;

Terima kasih dan sampai jumpa

Kota Tegal, 13 April 2021

#Hadoop #Hdfs #opensource #Google #Blogs #Ramadhan1442 #Bigdata

BLOG TEKNOLOGI INFORMASI KOMPUTER

Cari Blog Ini

Pengertian Master/Slave Architecture Di Hadoop

Label

Postingan populer dari blog ini

Kebutuhan Perangkat VoIP untuk Optimalisasi Komunikasi Bisnis

HATI HATI DAPAT INBOX WHATSHAP KERJA PARUH WAKTU

Mengenal Lebih Jauh Perangkat Keras Komputer: Dasar dan Komponen Penting