Definisi Big Data
Jika diterjemahkan secara mentah-mentah maka
Big Data
berarti suatu data dengan kapasitas yang besar. Sebagai contoh, saat
ini kapasitas DWH yang digunakan oleh perusahaan-perusahaan di Jepang
berkisar dalam skala
terabyte. Namun, jika misalnya dalam suatu sistem terdapat 1000 terabyte (1 petabyte) data, apakah sistem tersebut bisa disebut
Big Data?
Satu lagi,
Big Data sering dikaitkan dengan
SNS (Social Network Service), contohnya
Facebook. Memang benar
Facebook memiliki lebih dari 800 juta orang anggota, dan dikatakan bahwa dalam satu hari
Facebook memproses sekitar 10
terabyte data. Pada umumnya, SNS seperti
Facebook tidak menggunakan RDBMS(
Relational DataBase Management System) sebagai software pengolah data, melainkan lebih banyak menggunakan NoSQL. Lalu, apa kita bisa menyebut sistem NoSQL sebagai
Big Data?
Dengan mengkombinasikan kedua uraian diatas, dapat ditarik sebuah definisi bahwa
Big Data adalah
“suatu sistem yang menggunakan NoSQL dalam memproses atau mengolah data
yang berukuran sangat besar, misalnya dalam skala
petabyte“. Apakah definisi ini tepat? Boleh dikatakan masih setengah benar. Definisi tersebut masih belum menggambarkan
Big Data secara menyeluruh.
Big Data tidak sesederhana itu,
Big Data memuat
arti yang lebih kompleks sehingga perlu definisi yang sedikit lebih
kompleks pula demi mendeskripsikannya secara keseluruhan.
Mengapa butuh definisi yang lebih kompleks? Fakta menunjukkan bahwa
bukan hanya NoSQL saja yang mampu mengolah data dalam skala raksasa (
petabyte). Beberapa perusahaan telah menggunakan RDBMS untuk memberdayakan data dalam kapasitas yang sangat besar. Sebagai contoh,
Bank of America memiliki DWH dengan kapasitas lebih dari 1,5
petabyte,
Wallmart Stores yang bergerak dalam bisnis retail (supermarket) berskala dunia telah mengelola data berkapasitas lebih dari 2,5
petabyte, dan bahkan situs
auction (lelang)
eBay memiliki DWH yang menyimpan lebih dari 6
petabyte data. Oleh karena itu, hanya karena telah berskala
petabyte saja, suatu data belum bisa disebut
Big Data. Sekedar referensi, DWH dengan kapasitas sangat besar seperti beberapa contoh diatas disebut EDW(
Enterprise Data Warehouse) dan database yang digunakannya disebut VLDB(
Very Large Database).
Memang benar, NoSQL dikenal memiliki potensi dan kapabilitas
Scale Up (peningkatan kemampuan mengolah data dengan menambah jumlah
server atau
storage)
yang lebih unggul daripada RDBMS. Tetapi, bukan berarti RDBMS tak
diperlukan. NoSQL memang lebih tepat untuk mengolah data yang sifatnya
tak berstruktur seperti data teks dan gambar, namun NoSQL kurang tepat
bila digunakan untuk mengolah data yang sifatnya berstruktur seperti
data-data numerik, juga kurang sesuai untuk memproses data secara lebih
detail demi menghasilkan akurasi yang tinggi. Pada kenyataannya,
Facebook juga tak hanya menggunakan NoSQL untuk memproses data-datanya,
Facebook juga tetap menggunakan RDBMS. Lain kata, penggunaan RDBMS dan
NoSQL mesti disesuaikan dengan jenis data yang hendak diproses dan
proses macam apa yang dibutuhkan guna mendapat hasil yang optimal.
Karakteristik Big Data : Volume, Variety, Velocity (3V)
Kembali ke pertanyaan awal, apakah sebenarnya Big Data itu? Sayang
sekali, hingga saat ini masih belum ada definisi baku yang disepakati
secara umum. Ada yang mendeskripsikan
Big Data sebagai fenomena
yang lahir dari meluasnya penggunaan internet dan kemajuan teknologi
informasi yang diikuti dengan terjadinya pertumbuhan data yang luar
biasa cepat, yang dikenal dengan istilah ledakan informasi (
Information Explosion) maupun banjir data (
Data Deluge).
Hal ini mengakibatkan terbentuknya aliran data yang super besar dan
terus-menerus sehingga sangat sulit untuk dikelola, diproses, maupun
dianalisa dengan menggunakan teknologi pengolahan data yang selama ini
digunakan (RDBMS). Definisi ini dipertegas lagi dengan menyebutkan bahwa
Big Data memiliki tiga karakteristik yang dikenal dengan istilah 3V:
Volume, Variety, Velocity. Dalam hal ini,
Volume menggambarkan ukuran yang super besar,
Variety menggambarkan jenis yang sangat beragam, dan
Velocity menggambarkan
laju pertumbuhan maupun perubahannya. Namun demikian, definisi ini
tentu masih sulit untuk dipahami. Oleh karena itu, uraian berikut
mencoba memberikan gambaran yang lebih jelas dan nyata berkaitan dengan
maksud definisi
Big Data tersebut.
Gambar 1. Big Data 3V
Gambar 1 menggambarkan 3 karakteristik
Big Data. Gabungan dari ketiga karakteristik ini menghasilkan data yang terlalu kompleks untuk ditangani dengan sistem konvensional.
Bukan Hanya Masalah Ukuran, Tapi Lebih pada Ragam
Kini jelas bahwa
Big Data bukan hanya masalah ukuran yang
besar, terlebih yang menjadi ciri khasnya adalah jenis datanya yang
sangat beragam dan laju pertumbuhan maupun frekwensi perubahannya yang
tinggi. Dalam hal ragam data,
Big Data tidak hanya terdiri dari
data berstruktur seperti halnya data angka-angka maupun deretan
huruf-huruf yang berasal dari sistem database mendasar seperti halnya
sistem database keuangan, tetapi juga terdiri atas data multimedia
seperti data teks, data suara dan video yang dikenal dengan istilah data
tak berstruktur. Terlebih lagi,
Big Data juga mencakup data
setengah berstruktur seperti halnya data e-mail maupun XML. Dalam hal
kecepatan pertumbuhan maupun frekwensi perubahannya,
Big Data mencakup
data-data yang berasal dari berbagai jenis sensor, mesin-mesin, maupun
data log komunikasi yang terus menerus mengalir. Bahkan, juga mencakup
data-data yang tak hanya data yang berada di internal perusahaan, tetapi
juga data-data di luar perusahaan seperti data-data di Internet. Begitu
beragamnya jenis data yang dicakup dalam
Big Data inilah yang kiranya dapat dijadikan patokan untuk membedakan
Big Data dengan sistem manajemen data pada umumnya.
Fokus pada Trend per-Individu, Kecepatan Lebih Utama daripada Ketepatan
Hingga saat ini, pendayagunaan
Big Data didominasi oleh
perusahaan-perusahaan jasa berbasis Internet seperti halnya Google dan
Facebook. Data yang mereka berdayakan pun bukanlah data-data internal
perusahaan seperti halnya data-data penjualan maupun data pelanggan,
lebih menitik beratkan pada pengolahan data-data teks dan gambar yang
berada di Internet. Bila kita melihat gaya pemberdayaan data yang
dilakukan oleh perusahaan-perusahaan pada umumnya, yang dicari adalah
trend yang didapat dari pengolahan data secara keseluruhan. Misalnya, dari data konsumen akan didapat informasi tentang
trend konsumen dengan memproses data konsumen secara keseluruhan, bukan memproses data per-konsumen untuk mendapatkan
trend per-konsumen. Dilain pihak, perusahaan-perusahaan jasa berbasis Internet yang memanfaatkan
Big Data justru memfokuskan pemberdayaan data untuk mendapatkan informasi
trend per-konsumen
dengan memanfaatkan atribut-atribut yang melekat pada pribadi tiap
konsumen. Sebut saja toko online Amazon yang memanfaatkan informasi
maupun atribut yang melekat pada diri per-konsumen, untuk memberikan
rekomendasi yang sesuai kepada tiap konsumen. Satu lagi, pemberdayaan
data ala
Big Data ini dapat dikatakan lebih berfokus pada kecepatan ketimbang ketepatan.
Kesimpulan
Berdasar uraian diatas, dapat ditarik kesimpulan bahwa Big Data itu
adalah limpahan data dengan volume dan ragam yang melampaui kapasitas
sistem manajemen data konvensional, yang terbentuk dari meluasnya
penggunaan internet maupun pemanfaatan teknologi informasi yang semakin
canggih, dan memiliki tiga ciri khas :
volume, variety, velocity.
sumber:http://teknologi.kompasiana.com/internet/2013/12/14/paham-definisi-big-data-wajib-bagi-profesional-ti-619165.html