Langsung ke konten utama

Pengertian Cluster And Node Hadoop

Asslamu Alaikum Warohmatullah Wabarokatuh







Selain tadi tentang Hadoop Cluster, ada juga konsep data Warehouse dan data lake. Bedanya apa? Kalau  data Warehouse itu lebih berpegang kepada skema-skema database yang structure, sedangkan kalau data lake dia berpegang pada skema database yang semi-structure atau un-structure, walalupun sebenarnya dia juga bisa dipakai untuk yang structure.

Kemudian data Warehouse ini dipakai oleh bisnis professional, jadi dia bisa langsung dianalisis, sedangkan kalau data lake, dia biasanya digunakan oleh data Scientist, karena data Scientist akan melakukan pemrosesan lanjutan, supaya inside dari data lake bisa diambil. Jadinya ilustrasinya seperti ini, secara umum sebenarnya kita sudah mengalami semua ini, jadi ada data sources, kemudian kita melakukan akuisisi, kemudian kita simpanan dan kita analisis.

Kalau untuk data Warehouse, datanya semua structure, kemudian di acquire dengan ETL (Extract Transformer Load), kemudian masuk ke data Warehouse. Kalau dengan data yang unstructured atau semi structures seperti ini, ada teks, ada sensor, ada sosial media data, kita perlu acquire dengan toolstools yang berbeda, yaitu disebut juga sebagai project di Apache.







Kemudian, dia perlu di store dengan skema berbeda juga, makanya ada HDFS, kemudian ada Cassandra atau H Base, kemudian mereka juga akan dianalisis dengan cara yang berbeda. Kita akan go-true masingmasing ini apa? Spark itu apa, Cloudera Impala itu apa, Hive itu apa? Tapi pada intinya, kita mau tidak mau harus menjalankan keduanya berdampingan, jadi yang structure tetap dijalankan dengan prinsip data warehouse, kemudian yang unstructured tetap harus disimpan dan diproses dengan menggunakan skema yang Hadoop.

Berdasarkan video tadi, kita juga sebenarnya sudah bisa melihat, teknologi Hadoop memiliki beberapa manfaat, diantaranya dia bisa skills horizontally artinya dia bisa ditambah secara horizontal, ini akan menghemat dari segi pembelian atau ongkos, kemudian dia bisa meng-handle and structure atau Semi structure data. Kenapa? Karena Hadoop prinsip data lake, jadi seperti danau, masuk saja ke danau, kita tidak paksakan satu skema spesifik untuk data yang disimpan, kemudian dia juga profess storage and computing, jadi ide utamanya adalah satu nude bisa digunakan untuk storage dan processing bersamaan. Kemudian, satu hal lagi adalah resistant to hardware failure. Jadi, seiring perkembangan teknologi kita tahu bahwa semakin sering kita mengalami hardware failures, itu tak terelakkan. Hadoop itu membantu karena node-nya adalah mesin sendiri-sendiri, kemudian dia punya sistem yang meng-copy, jadi semua file yang kita punya di copy, by default 3 kali dan ditaruh di node yang berbeda. Jadi kalau ada apa-apa, kemungkinan untuk kehilangan data, akan menjadi sangat kecil, karena kita punya back-up di node yang berbeda.



Barusan kita mempelajari mengenai simple basic architecture tentang Hadoop. Selanjutnya kita akan membahas lebih detail mengenai HDFS dan MapReduce. 



Wasslamu Alaikum Warohmatullah Wabarokatuh


Kota Tegal ,21 April 2021

#Google #Bigdata #opensource #2021 #April #blogger #hadoop

Terima kasih dan sampai jumpa.

Postingan populer dari blog ini

Lenovo ThinkStation P620 AMD Pro 3955WX 32GB 2TB NVMe 2TB HDD RTX5000 Win10: Performa Tinggi untuk Profesional

Lenovo ThinkStation P620 Komputer stasiun kerja kelas atas yang dirancang untuk memenuhi kebutuhan para profesional di berbagai bidang, mulai dari desain grafis, teknik, hingga analisis data. Kombinasi  prosesor AMD Ryzen Threadripper Pro 3955WX, RAM 32GB, penyimpanan NVMe 2TB  dan HDD 2TB, serta kartu grafis NVIDIA RTX5000 menjadikan perangkat ini pilihan ideal bagi pengguna yang membutuhkan performa  dan keandalan tinggi. Prosesor AMD Ryzen Threadripper Pro 3955WX Keunggulan utama  ThinkStation P620 adalah menggunakan prosesor AMD Ryzen Threadripper Pro 3955WX. Prosesor ini memiliki 16 core dan 32 thread dengan kecepatan clock dasar 3,9 GHz dan dapat di-boost hingga 4,3 GHz dengan teknologi Boost.   Menampilkan arsitektur Zen 2, prosesor ini memberikan kinerja multitasking yang sangat baik dan sangat efisien dalam menangani beban kerja berat seperti rendering 3D, simulasi, dan pemrosesan data besar.   Memori 32GB untuk Kinerja Optimal Dilengkapi den...

Cara Instalasi Google Chrome di linux Ubuntu 20.10

Cara Instalasi Google Chrome di linux ubuntu Untuk mengistall Google chrome di sistem operasi ubuntu 20.10 adalah sebagai berikut 1. Untuk langkah pertama masuk ke directories yang akan di jadikan tempat Downloads. arfika@arfika-Lenovo-G580:~$ cd /home/arfika/Downloads/ arfika@arfika-Lenovo-G580:~/Downloads$ pwd /home/arfika/Downloads arfika@arfika-Lenovo-G580:~/Downloads$ To run a command as administrator (user "root"), use "sudo <command>". See "man sudo_root" for details. 2. Langkah kedua Download file Google Chrome. arfika@arfika-Lenovo-G580:~$ wget https://dl.google.com/linux/direct/google-chrome-stable_current_amd64.deb --2022-03-09 07:00:34-- https://dl.google.com/linux/direct/google-chrome-stable_current_amd64.deb Resolving dl.google.com (dl.google.com)... 142.251.10.91, 142.251.10.136, 142.251.10.93, ... Connecting to dl.google.com (dl.google.com)|142.251.10.91|:443... connected. HTTP request sent, awaiting response... 200 OK Length: 8302838...

Linux-Based Operating System Development Using the Method Linux From Scratch

 T he operating system is one of the most important components in any computer system. The operating system manages the use of computer hardware such as processors, memory, I/O devices, and storage media. In addition, the operating system also acts as a layer that connects computer hardware and software. Previous operating system continues to grow.   One of the operating systems featured in this development is GNU/Linux. GNU/Linux is in the spotlight with very rapid development. This is possible because GNU/Linux adheres to the open source philosophy.      Open source software provides 1 source code that users are free to use, study, distribute, and redevelop. Therefore, the development of the GNU/Linux operating system has experienced rapid growth. Operating system users.     GNU/Linux are given the opportunity to build and develop operating systems to suit their individual needs. There are two methods that can be used. Remast...