Definisi
Data Cleaning atau Pembersihan data atau data menggosok adalah tindakan mendeteksi dan memperbaiki (atau menghapus) record korup atau tidak akurat dari mengatur catatan, tabel, atau database. Yang digunakan terutama di database, istilah ini mengacu pada identifikasi tidak lengkap, tidak benar, tidak tepat, tidak relevan dll bagian data dan kemudian mengganti, memodifikasi atau menghapus data ini kotor.
Setelah membersihkan, kumpulan data akan konsisten dengan data sejenis lainnya dalam sistem set. Inkonsistensi dideteksi atau dihapus mungkin awalnya disebabkan oleh data yang berbeda definisi kamus dari entitas yang sama di toko berbeda, mungkin telah disebabkan oleh kesalahan pengguna masuk, atau mungkin telah rusak dalam transmisi atau penyimpanan. pembersihan data berbeda dari validasi data dalam validasi yang hampir selalu berarti data ditolak dari sistem pada entri dan dilakukan pada waktu masuk, bukan pada batch data.
Proses pembersihan data aktual mungkin melibatkan menghapus kesalahan ketik atau memvalidasi dan nilai-nilai koreksi terhadap daftar dikenal entitas. validasi mungkin ketat (seperti menolak semua alamat yang tidak memiliki kode pos yang valid) atau fuzzy (seperti mengoreksi catatan bahwa secara parsial sesuai dengan yang ada, catatan diketahui).

Motivasi

Secara administratif, data yang tidak benar atau tidak konsisten dapat mengakibatkan kesimpulan palsu dan salah arah investasi pada kedua publik dan swasta skala. Misalnya, pemerintah mungkin ingin menganalisis jumlah penduduk sensus untuk menentukan daerah membutuhkan pengeluaran lebih lanjut dan investasi pada infrastruktur dan layanan. Dalam hal ini, akan sangat penting untuk memiliki akses ke data yang dapat dipercaya untuk menghindari keputusan fiskal yang salah.

Dalam dunia bisnis, data yang tidak benar dapat mahal. Banyak perusahaan menggunakan database pelanggan yang mencatat data informasi seperti informasi kontak, alamat, dan preferensi. Jika misalnya alamat yang tidak konsisten, perusahaan akan menanggung biaya kirim kembali mail atau bahkan kehilangan pelanggan.

Kualitas data

Data berkualitas tinggi harus dilalui seperangkat kriteria kualitas.  Mereka termasuk:

  1. Akurasi: Sebuah nilai agregat atas kriteria integritas, konsistensi dan kepadatan
  2. Integritas: Sebuah nilai agregat atas kriteria kelengkapan dan validitas
  3. Kelengkapan: Meraih dengan memperbaiki data yang mengandung anomali
  4. Validitas: didekati dengan jumlah data yang memuaskan batasan integritas
  5. Konsistensi: kontradiksi Kekhawatiran dan sintaksis anomali
  6. Keseragaman: langsung berhubungan dengan penyimpangan
  7. Kepadatan: quotient nilai-nilai yang hilang dalam data dan jumlah total nilai yang harus diketahui
  8. Keunikan: Terkait dengan jumlah data duplikat

Proses pembersihan data

Audit data: Data diaudit dengan menggunakan metode statistik untuk mendeteksi anomali dan kontradiksi. Hal ini pada akhirnya memberikan indikasi karakteristik anomali dan lokasi mereka.

Workflow spesifikasi: Deteksi dan penghapusan anomali dilakukan oleh urutan operasi pada data yang dikenal sebagai alur kerja. Hal ini ditetapkan setelah proses audit data dan sangat penting dalam mencapai produk akhir data berkualitas tinggi. Untuk mencapai sebuah alur kerja yang tepat, penyebab dari anomali dan kesalahan dalam data harus cermat dipertimbangkan. Kalau misalnya kita menemukan bahwa anomali tersebut merupakan hasil dari mengetik kesalahan dalam tahap input data, tata letak keyboard yang dapat membantu dalam mewujudkan solusi yang mungkin.

Workflow pelaksanaan: Pada tahap ini, alur kerja dijalankan setelah spesifikasinya adalah lengkap dan benar-nya diverifikasi. Pelaksanaan alur kerja harus efisien bahkan pada set besar data yang pasti menimbulkan trade-off karena pelaksanaan operasi pembersihan data dapat komputasi mahal.

Pasca Pengolahan dan Pengendalian: Setelah menjalankan alur kerja pembersihan, hasilnya diperiksa untuk memverifikasi kebenaran. Data yang tidak dapat dikoreksi selama pelaksanaan alur kerja secara manual dikoreksi bila mungkin. Hasilnya adalah sebuah siklus baru dalam proses pembersihan data di mana data yang diaudit lagi untuk mengizinkan spesifikasi sebuah alur kerja tambahan untuk lebih membersihkan data dengan pemrosesan otomatis.

Metode yang populer digunakan

  1. Parsing: Parsing pembersihan data dilakukan untuk mendeteksi kesalahan sintaks. parser Sebuah memutuskan apakah suatu string data dapat diterima dalam spesifikasi data diizinkan. Hal ini mirip dengan cara parser yang bekerja dengan tata bahasa dan bahasa.
  2. Transformasi data: Data Transformasi memungkinkan pemetaan data dari format mereka diserahkan ke dalam format yang diharapkan oleh aplikasi yang sesuai. Ini termasuk konversi nilai atau fungsi terjemahan serta normalisasi nilai numerik agar sesuai dengan nilai-nilai minimum dan maksimum.
  3. Gandakan Eliminasi: Gandakan deteksi membutuhkan algoritma untuk menentukan apakah data berisi duplikat representasi dari entitas yang sama. Biasanya, data diurutkan dengan kunci yang akan membawa lebih dekat entri ganda bersama untuk identifikasi lebih cepat.
  4. Metode Statistik: Dengan menganalisis data menggunakan nilai-nilai deviasi mean, standar, jangkauan, atau algoritma clustering, adalah mungkin bagi seorang ahli untuk menemukan nilai-nilai yang tak terduga dan dengan demikian salah. Meskipun koreksi data tersebut sulit karena nilai sebenarnya tidak diketahui, hal itu dapat diatasi dengan menetapkan nilai-nilai ke nilai statistik rata-rata atau lainnya. metode statistik juga dapat digunakan untuk menangani nilai yang hilang dapat digantikan oleh satu atau lebih nilai masuk akal yang biasanya diperoleh oleh algoritma augmentasi data yang ekstensif.

Alat yang ada

Sebelum data otomatisasi komputer mengenai perorangan atau organisasi yang dipelihara dan dijamin sebagai catatan kertas, didispersikan dalam bisnis terpisah atau unit organisasi. Sistem Informasi berkonsentrasi data dalam file komputer yang berpotensi dapat diakses oleh sejumlah besar orang dan oleh kelompok-kelompok di luar organisasi.

Tantangan dan masalah

Koreksi Kesalahan dan hilangnya informasi: Masalah yang paling menantang dalam pembersihan data tetap koreksi nilai untuk menghapus duplikat dan masukan yang salah. Dalam banyak kasus, informasi yang tersedia di anomali tersebut terbatas dan tidak cukup untuk menentukan transformasi yang diperlukan atau koreksi meninggalkan penghapusan entri seperti satu-satunya solusi yang masuk akal. Penghapusan data meskipun, menyebabkan hilangnya informasi yang bisa sangat mahal jika ada sejumlah besar data dihapus.

Pemeliharaan dibersihkan Data: Data pembersihan adalah proses mahal dan memakan waktu. Jadi setelah dilakukan pembersihan data dan pengumpulan data mencapai bebas dari kesalahan, orang akan ingin menghindari pembersihan kembali data secara keseluruhan setelah beberapa perubahan nilai dalam pengumpulan data. Proses ini hanya harus diulang pada nilai-nilai yang telah berubah yang berarti bahwa garis keturunan pembersihan perlu disimpan yang efisien akan memerlukan pengumpulan data dan teknik manajemen.

Data Pembersihan di Lingkungan Terpadu Hampir: Dalam hampir Sumber terintegrasi seperti DiscoveryLink IBM, pembersihan data harus dilakukan setiap kali data itu diakses yang sangat mengurangi waktu respon dan efisiensi.

Data Cleansing Framework: Dalam banyak kasus tidak akan mungkin untuk memperoleh data lengkap pembersihan grafik untuk membimbing proses tersebut di muka. Hal ini membuat pembersihan data proses berulang-ulang yang melibatkan eksplorasi yang signifikan dan interaksi yang mungkin memerlukan kerangka kerja dalam bentuk kumpulan metode untuk mendeteksi kesalahan dan eliminasi di samping audit data. Ini dapat diintegrasikan dengan data lainnya seperti pengolahan tahap integrasi dan pemeliharaan.

Sumber ; http://en.wikipedia.org