Langsung ke konten utama

Pengantar Big Data

Pengertian Big Data

Gartner’s [3] mengartikan big data adalah aset informasi dengan volume besar (volume), perubahannya/datangnya data sangat cepat (velocity) , dan dengan informasi yang beragam (variety) sehingga diperlukan pemrosesan informasi efektif dan inovasi dalam pemrosesannya sehingga bermanfaat dalam meningkatkan wawasan ntuk pengambilan keputusan.

Dari pengertian tersebut terdapat tiga karakteristik data dalam big data yaitu volume, velocity, dan variety. Pada era milineal saat ini, perusahaan ataupun instansi-instansi dihujani berbagai macam data (variety) yaitu dari data media sosial, data sensor-sensor yang merekam keadaan setiap detik atau menit, hingga data logs yang sangat banyak dan biasanya data-data tersebut tidak tersentuh atau tidak diolah. Data tersebut masuk dengan begitu cepat (velocity) sehingga merupakan tantangan terendiri bagaimana data tersebut diterima atau bahkan seberapa cepat bereaksi terhadap data tersebut. Volume dari data tersebut sangat besar sehingga pemrosesaan data merupakan tantangan besar dalam dunia big data.

Dengan karakteristik data yang telah disebutkan sebelumnya, secara otomatis kita harus berfikir bagaimana menyimpan dan memroses data yang tidak terstruktur, melakukan link terhadap berbagai macam tipe data dan bagaimana melakukan analisis konperhensif terhadap data tersebut. Bagian terpenting dalam big data adalah bagaimana informasi dari data yang diolah dapat membantu untuk meningkatkan bisnis value. Dengan adanya big data, diharapkan adanya wawasan baru yang sebelumnya tidak dimiliki untuk membantu dalam pengambilan keputusan bisnis.

Masing-masing perusahaan atau institusi memiliki set data masing-masing untuk pengolahan big data. Beberapa contoh data tersebut antara lain data cuaca, data kontrak, data tenaga kerja, data perawatan/pemeliharaan, data pelaporan keuangan, data kepatuhan/ compliance data, data uji klinis, memproses catatan dokter tentang diagnosis dan perawatan.

Perdebatan yang sering muncul antara lain kenapa sih baru akhir-akhir ini, bukannya dari dulu itu data sudah besar dan sudah ada data-data macam yang disebutkan? Munculnya framework dan platform pengolahan data seperti Hadoop dan NoSql menjadikan proses pengolahan data low-cost dan dapat discaling bahkan dengan hardware dengan spesifikasi yang biasa-biasa saja atau yang sering disebut dengan commodity hardware.

Transactional Data vs Big Data

Pada pemrosesan data tradisional yang pertama dilakukan adalah menganalisis data kemudian membuat requirements sehingga kita dapatkan data model yang kemudian diterapkan ke dalam basis data. Arsitektur yang dihasilkan sangat efisien pada proses "write data" pada data yang tidak begitu besar, serta struktur yang efisien karena dilakukan normalisasi model basis data.
Pemrosesan pada big data berbeda dengan pemrosesan data transaksi. Data pertama diload ke dalam platform target big data, kemudian layer metadata diterapkan ke dalam data dan struktur data dari konten dibuat. Setelah data struktur diterapkan ke dalam data kemudian data ditransformasi dan dianalisis.

Untuk melakukan pemrosesan dalam cara yang fleksibel, arsitektur database-driven kurang cocok dan akan underperform. Oleh karena itu arsitektur file-driven lebih cocok untuk volume dan kompleksitas big data.

Gambar 1. Platform pemrosesan big data

Gambar 1 menjelaskan platform pemrosesan big data dimana beberapa teknologi berperan dalam setiap tahap pemrosesan big data. Landing zone merupakan tempat dimana data di simpan dalam file sistem. Salah satu teknologi yang digunakan adalah HDFS atau Hadoop File Sistem. Ingestion merupakan proses meload data ke dalam suatu metadata sehingga siap untuk diproses. Teknologi yang dapat digunakan antara lain Hadoop-HDFS dan NoSql database. Begitu pula pada tahapan selanjutnya dari proses, discover hingga extract data terdapat teknologi tertentu. Salah satu teknologi yang menjadi landasan dalam platform big data adalah apache hadoop karena berperan dalam proses penyimpanan data hingga proses transformasi data.

Pada pembahasan selanjutnya kita akan bahas lebih dalam mengenai Hadoop.. stay tune

Referensi:
[1] https://www.techopedia.com/7/29680/technology-trends/what-is-the-difference-between-big-data-and-hadoop
[2] https://www.oracle.com/big-data/guide/what-is-big-data.html
[3] https://www.forbes.com/sites/gartnergroup/2013/03/27/gartners-big-data-definition-consists-of-three-parts-not-to-be-confused-with-three-vs/#53171e0b42f6
[4] Krish Krishnan. Data Warehousing in the Age of Big Data. 2013. Morgan Kaufmann

Komentar