Definisi

Analisis data adalah proses memeriksa, membersihkan, mengubah, dan pemodelan data dengan tujuan untuk menyoroti informasi yang berguna, menyarankan kesimpulan, dan mendukung pengambilan keputusan. Analisis data memiliki beberapa aspek dan pendekatan, meliputi teknik beragam di bawah berbagai nama, di bisnis yang berbeda, sains, dan domain ilmu sosial. Data mining adalah teknik analisis data khusus yang berfokus pada pemodelan dan penemuan pengetahuan untuk prediktif daripada tujuan murni deskriptif. Dalam aplikasi statistik, beberapa orang membagi data ke dalam analisis statistik deskriptif, analisis eksplorasi data, dan analisis data konfirmatori. EDA berfokus pada menemukan fitur baru dalam data dan CDA pada konfirmasi atau memalsukan hipotesis yang ada. analisis prediktif berfokus pada penerapan model statistik atau struktural untuk peramalan prediktif atau klasifikasi, sementara analisis teks berlaku statistik, linguistik, dan struktural teknik untuk mengekstrak dan mengelompokkan informasi dari sumber-sumber tekstual, jenis data terstruktur. Semua adalah varietas analisis data. Integrasi data adalah pendahulu untuk analisis data, dan analisis data berhubungan erat dengan visualisasi data dan penyebaran data. Analisis data istilah kadang-kadang digunakan sebagai sinonim untuk pemodelan data, yang tidak berhubungan dengan topik artikel ini.

Nuklir dan fisika partikel

Dalam nuklir dan fisika partikel data biasanya berasal dari alat percobaan melalui sistem akuisisi data. Hal ini kemudian diolah, dalam langkah biasanya disebut reduksi data, untuk menerapkan kalibrasi dan untuk mengekstrak informasi signifikan secara fisik. Data pengurangan paling sering, terutama dalam eksperimen fisika partikel besar, sebuah, otomatis batch-mode operasi yang dilakukan oleh perangkat lunak yang ditulis ad-hoc. Data yang dihasilkan n-tupel tersebut kemudian diteliti oleh para ahli fisika, menggunakan perangkat lunak khusus seperti ROOT atau kaki, membandingkan hasil percobaan dengan teori.

Model teoritis seringkali sulit untuk membandingkan langsung dengan hasil eksperimen, sehingga mereka digunakan selain sebagai masukan bagi perangkat lunak simulasi Monte Carlo seperti Geant4, memprediksi respons detektor untuk acara teoritis tertentu, memproduksi acara simulasi yang kemudian dibandingkan data percobaan.

Analisis data kualitatif

Penelitian kualitatif menggunakan analisis data kualitatif (QDA) untuk menganalisis teks, transkrip wawancara, foto, seni, catatan lapangan (etnografis) pengamatan, dan sebagainya.

Proses analisis data

Analisis data adalah proses, di mana beberapa tahap dapat dibedakan: Pembersihan data. Analisis data awal (penilaian kualitas data);  Data utama analisis (menjawab pertanyaan penelitian yang asli).  Final analisis data (analisis tambahan yang diperlukan dan laporan)

Pembersihan data

pembersihan data merupakan prosedur yang penting selama data diperiksa, dan data yang salah yang-jika perlu, lebih baik, dan kemungkinan-dikoreksi. Pembersihan data dapat dilakukan selama tahap entri data. Jika ini dilakukan, penting bahwa tidak ada keputusan dibuat subjektif. Prinsip panduan yang diberikan oleh Ader (ref) adalah: selama manipulasi berikutnya dari data, informasi harus selalu kumulatif dpt. Dengan kata lain, ia harus selalu mungkin untuk membatalkan perubahan data set. Oleh karena itu, penting untuk tidak membuang informasi diri pada setiap tahap dalam fase pembersihan data. Semua informasi harus disimpan (misalnya, saat mengubah variabel, baik nilai-nilai asli dan nilai-nilai baru harus disimpan, baik dalam duplikat dataset atau di bawah nama variabel yang berbeda), dan semua perubahan ke set data harus hati-hati dan jelas didokumentasikan, misalnya dalam sebuah sintaks atau log.

Awal analisis data

Perbedaan yang paling penting antara tahap analisis data awal dan tahap analisis utama, adalah bahwa data analisis awal selama satu menahan diri dari setiap analisis yang ditujukan untuk menjawab pertanyaan penelitian yang asli. Tahap analisis data awal dipandu oleh empat pertanyaan berikut:

  1. Kualitas data, Kualitas data harus diperiksa sedini mungkin. Kualitas data dapat dinilai dengan beberapa cara, menggunakan berbagai jenis analisis: jumlah frekuensi, statistik deskriptif (rata-rata, standar deviasi, rata-rata), normalitas (skewness, kurtosis, histogram frekuensi, plot probabilitas normal), asosiasi (korelasi, plot pencar) ;
  2. Pemeriksaan kualitas data awal lainnya adalah:  Cek pada pembersihan data: keputusan telah mempengaruhi distribusi dari variabel-variabel? Distribusi variabel sebelum pembersihan data dibandingkan dengan distribusi dari variabel-variabel setelah pembersihan data untuk melihat apakah pembersihan data memiliki efek yang tidak diinginkan pada data;
  3. Analisis hilang pengamatan: apakah ada banyak nilai-nilai yang hilang, dan nilai-nilai yang hilang di acak? Pengamatan yang hilang pada data dianalisis untuk melihat apakah lebih dari 25% dari nilai yang hilang, apakah mereka hilang secara acak (MAR), dan apakah beberapa bentuk imputasi (statistik) diperlukan;
  4. Analisis ekstrim pengamatan: pengamatan terpencil dalam data dianalisis untuk melihat apakah mereka tampaknya mengganggu distribusi.

Perbandingan dan koreksi perbedaan skema pengkodean: variabel dibandingkan dengan skema pengkodean variabel eksternal untuk kumpulan data, dan mungkin dikoreksi bila skema pengkodean tidak sebanding. Pemilihan analisis untuk menilai kualitas data selama tahap analisis data awal tergantung pada analisis yang akan dilakukan dalam tahap analisis utama. [4] oleh philip Kotler

Kualitas pengukuran

Kualitas instrumen pengukuran hanya harus diperiksa selama tahap analisis data awal saat ini tidak fokus atau pertanyaan penelitian penelitian. Orang harus memeriksa apakah struktur instrumen pengukuran berhubungan dengan struktur dilaporkan dalam literatur.

Ada dua cara untuk menilai kualitas pengukuran: Analisis faktor konfirmatori, Analisis homogenitas (konsistensi internal), yang memberikan indikasi keandalan instrumen pengukuran, yaitu, apakah semua item masuk ke dalam skala unidimensional. Dalam analisis ini, satu memeriksa varians dari item dan timbangan, α yang Cronbach tentang skala, dan perubahan alpha Cronbach ketika item akan dihapus dari skala.

Awal transformasi

Setelah menilai kualitas data dan pengukuran, orang bisa memutuskan untuk menghubungkan data yang hilang, atau untuk melakukan transformasi awal satu atau lebih variabel, meskipun ini juga dapat dilakukan selama tahap analisis utama. Kemungkinan transformasi variabel adalah:

  1. Square root transformasi (jika distribusi agak berbeda dari yang normal);
  2. Log-transformasi (jika distribusi berbeda secara substansial dari normal);
  3. Invers transformasi (jika distribusi sangat berbeda dari normal);
  4. Membuat kategori (ordinal / dikotomis) (jika distribusi sangat berbeda dari normal, dan tidak membantu transformasi)
  5. Apakah pelaksanaan penelitian memenuhi tujuan dari desain penelitian?

Satu harus memeriksa keberhasilan prosedur pengacakan, misalnya dengan memeriksa apakah latar belakang dan variabel substantif terdistribusi secara merata di dalam dan di kelompok. Jika studi ini tidak perlu dan / atau menggunakan prosedur pengacakan, orang harus memeriksa keberhasilan non-random sampling, misalnya dengan memeriksa apakah semua subkelompok populasi kepentingan terwakili dalam sampel. Distorsi data lain yang mungkin yang harus diperiksa adalah: putus sekolah (ini harus diidentifikasi selama tahap analisis data awal). Item nonresponse (apakah ini adalah acak atau tidak harus dikaji selama tahap analisis data awal).  Perawatan kualitas (menggunakan manipulasi cek).

Karakteristik data sampel

Dalam setiap laporan atau artikel, struktur sampel harus akurat dijelaskan. Hal ini terutama penting untuk tepat menentukan struktur sampel (dan khususnya ukuran subkelompok) ketika subkelompok analisis akan dilakukan selama tahap analisis utama. Karakteristik data sampel dapat dinilai dengan melihat: Dasar statistik variabel penting, Scatter plot, Korelasi, Cross-tabulasi

Akhir tahap analisis data awal

Selama tahap akhir, temuan analisis data awal didokumentasikan, dan perlu, lebih baik, dan tindakan korektif yang mungkin diambil. Selain itu, rencana awal untuk analisis data utama dapat dan harus ditentukan lebih terinci dan / atau ditulis ulang. Untuk melakukan hal ini, beberapa keputusan tentang analisis data utama dapat dan harus dilakukan: Dalam kasus non-normals: harus satu mengubah variabel, membuat variabel kategorikal (ordinal / dikotomis); menyesuaikan metode analisis? Dalam kasus data hilang: harus satu mengabaikan atau menyalahkan data hilang; yang imputasi teknik yang harus digunakan? Dalam kasus pencilan: sebaiknya gunakan salah satu teknik analisis yang kuat? Dalam hal barang tidak sesuai skala: harus satu beradaptasi instrumen pengukuran menghilangkan item, atau lebih tepatnya memastikan perbandingan dengan yang lain (penggunaan s) (alat ukur)? Dalam kasus (juga) subkelompok kecil: harus satu tetes hipotesis tentang perbedaan-perbedaan antar-kelompok, atau menggunakan teknik sampel yang kecil, seperti tes tepat atau bootstrap? Dalam hal prosedur pengacakan tampaknya rusak: dapat dan harus satu menghitung skor kecenderungan dan memasukkan mereka sebagai covariates dalam analisis utama?

Analisis

Beberapa analisis dapat digunakan selama tahap analisis data awal:  Statistik univariat, Bivariat asosiasi (korelasi), Teknik grafis (plot pencar). Adalah penting untuk mengambil tingkat pengukuran variabel ke rekening untuk analisis, seperti teknik statistik khusus tersedia untuk setiap tingkat:  Nominal dan ordinal variabel, Frekuensi menghitung (angka dan persentase), Asosiasi circumambulations (crosstabulations) loglinier hirarki analisis (dibatasi maksimum 8 variabel)  analisis loglinier (untuk meng- identifikasi relevan / variabel penting dan pembaur mungkin), tes Sesuai atau bootstrap (dalam kasus subkelompok kecil)

Perangkat lunak bebas untuk analisis data

ROOT – C + + data analisis kerangka dikembangkan di CERN, Paw – FORTRAN / C analisis data kerangka dikembangkan di CERN, JHepWork – Jawa (multi-platform) analisis data kerangka dikembangkan di ANL, Zeptoscope Dasar – Interaktif plotter berbasis Java dikembangkan pada Nanomix.  KNIME – Konstanz Informasi yang Miner, user friendly dan analisis data kerangka kerja yang komprehensif. Data Terapan – sebuah tambang data online dan solusi data visualisasi. R – sebuah bahasa pemrograman dan lingkungan perangkat lunak untuk statistik komputasi dan grafis. Vista [1] – program untuk statistik visual dan EDA.

Sumber ; http://en.wikipedia.org