Data screening: Membersiapkan data untuk analisa kuantitatif

Data screening: Membersiapkan data untuk analisa kuantitatif

Oleh: Herri Mulyono

Dosen UHAMKA Jakarta

 

Data screening, atau juga dikenal dengan data cleaning (membersihkan data) merupakan salah satu teknik persiapan data untuk analisa data kuantitatif. Tujuan utama dari data screening ini adalah khususnya menghilangkan data-data yang hilang (missing value) ataupun data-data yang dianggap tidak normal. Contohnya, kita sering menemui data-data dari kuesioner tidak diisi oleh responden pada beberapa item, mungkin dikarenakan terlewat, terlupakan, atau mungkin saja responden tidak berkenan mengisinya. Juga, banyak ditemui data-data yang diisikan oleh responden tidak sesuai dengan apa yang diinstruksikan. Misal, dalam skala sikap 1 sampai 5, responden mengisi 0, atau 6. Sehingga, nilai 0 atau 6 ini menjadi data yang dianggap diluar kewajaran untuk dianalisa secara kuantitaitf. Contoh dalam aplikasi kuesioner dapat disimak sebagai berikut:

Ada seorang responden (responden 1) yang diminta menilai 5 jenis nasi goreng dengan skala 1-5, dengan skala 1: sangat tidak enak, dan skala 5 menunjukan rasa yang sempurna (sangat enak). Data yang diperoleh:

Responden 1:

Nasi goreng A -3, Nasi goreng B -4, Nasi goreng C-0, Nasi goreng D – 0, Nasi goreng E -5.

Dari data responden diatas, terlihat nasi goreng C mendapatkan score 0 diluar dari skala 1-5. Hal ini bisa jadi responden tidak ingin berkomentar, atau tidak (ingin) memakan nasi goreng tersebut. Juga pada kasus nasi goreng D yang tidak memiliki score (0).

Sayangnya, banyak peneliti pemula tidak sadar tentang data screening pada awal persiapan analisa data kuantitatif ini. Banyak juga yang kemudian memutuskan untuk menghapus atau mengeluarkan (exclude) data-data yang hilang atau diluar kenormalan tersebut. Padahal, mempersiapkan data melalui prosedur data screening ini dapat banyak membantu dalam menormalisasi distribusi data.

Berikut ini adalah beberapa hal yang perlu dilakukan dalam data screening:

Langkah 1. Merespon missing value

Missing value adalah nilai atau data yang terlewat (hilang) dari sebuah isian kuesioner, test atau instrumen lainnya. Missing value selalu berarti hilangnya data secara keseluruhan. Atau dengan kata lain, ada bagian yang hilang dari keseluruhan data responden.

Berikut adalah contoh dari data nilai bahasa Inggris siswa dari tiga sekolah (N=65)

Gambar 1.

Output 2

 

 

 

 

 

 

 

 

 

 

Bila kita memasukkan data-data tersebut diatas kedalam SPSS, maka akan diperoleh output Descriptive statistics seperti dibawah ini:

Gambar 2.

Output 2

 

 

 

 

 

 

 

 

 

 

Pada output diatas terlihat bahwa nilai valid N 64 dengan range nilai minimum 0 dan maksimum 4. Namun, data diatas tidak memperlihatkan bila terdapat data yang hilang. Untuk mengetahuinya, kita dapat menggunakan menu SPSS dengan analyze\data statistics\frequencies. Output yang diproduksi oleh SPSS adala sebagi berikut:

Gambar 3.

Output 2

 

 

 

 

 

 

 

 

Pada output terlihat jelas nilai yang hilang, contohnya terdapat 1 nilai hilang Pre_Syntax, Pre_Cohesion, dan seterusnya. Untuk mengkoreksina, pertama kita harus meneliti terlebih dahulu apakah data tersebut tidak ter-input ataukan memang hilang (karena partisipan tidak mengisinya).

Selanjutnya, kita dapat mengukuti Langkah 1, yaitu dengan menganggap data yang hilang tersebut tidak ada (ignore). Langkah 1 ini dapat dilakukan dengan merubah data variable 3 dan 6 dengan nilai diskrit 99.

Gambar 4.

Output 2

 

 

 

 

 

 

 

 

 

 

Jika dari pengisian kolom missing dengan 99 tidak merubah hasil output pada deskriptif statistik, maka kita menuju kepada langkah berikutnya, yaitu mengidentifkasi outlier.

Langkah 2. Mendeteksi outlier

Outlier adalah data-data yang berada pada batas kewajararan. Seperti pada contoh niali kita diatas, terlihat bahwa skala yang digunakan untuk menilai siswa adalah 1-5. Namun pada data ditemukan nilai 0 yang berada diluar skala 1-5 tersebut. Nilai 0 ini disebut dengan outlier. Perlu diketahui, bahwa pada beberapa kasus nilai outlier ini bisa saja berupa bilangan desimal diluar nilai 0 tadi. Bila dibiarkan begitu saja maka outlier ini sangat mempengaruhi distribusi data nantinya. Pada sample kecil, outlier dapat dengan mudah diidentifikasi. Namun, untuk kasus data dengan sampel besar, maka diperlukan cara untuk mendeteksi outlier tersebut. Untuk mendeteksi outlier, kita dapat menggunakan nilai Z. Dalam SPSS kita dapat menggunakan menu Analyize\Descriptive statistics\Descritpive, lalu tik Save standardized values as variables.

Gambar 5.

Output 2

 

 

 

 

 

 

 

 

 

 

Dengan menggunakan instruksi seperti diatas, maka kita akan mendaptkan variabel baru dengan huruf awal Z seperti ZPre_Vocab, ZPre_Syntax dan seterusnya.

Gambar 6.

Output 2

 

 

 

 

 

 

 

Untuk mendeteksi apakah data dikategorikan dengan outlier atau tidak, maka kita menggunakan standar nilai 3.29. Hal ini berarti, data yang berada lebih besar dari 3.29 atau lebih kecil dari -3.29 dianggap data outlier – data diluar kewajaran. Pada SPSS, urutkan data-data nilai Z dengan Ascending, untuk melihat apakah data lebih besar dari 3.29 atau lebih kecil dari – 3.29.

Gambar 7.

Output 2

 

 

 

 

 

 

 

 

Dengan mengurutkan variable Z satu persatu, maka kita dapatkan beberapa kasus nilai yang lebih besar dari 3.29 atau lebih kecil dari -3.29.

Gambar 8.

Output 2

 

 

 

 

 

 

Nilai tersebut kita dapati beberapa nilai pada variable PreVocab berada diluar kewajaran, atau nilai outlier. Pada data terdapat nilai 2.5 yang tidak ada dalam skala 1, 2, 3, 4 dan 5. Sehingga, kita perlu 1) mengeceknya bila terjadi kesalahan input data, atau 2) kita bisa menggabaiannya dengan menggunakan range diskrit nilai 2.1 -2.9 dan nilai diskrit 99. Masukkan nilai tersebut pada kolom missing ada variabel yang terdidentifikasi outlier tersebut seperti pada gambar berikut:

Gambar 9.

Output 2

 

 

 

 

 

 

 

 

 

Jika kita telah merespon nilai yang hilang serta nilai outlier, maka langkah terakhirnya adalah mengganti nilai yang hilang tersebut dengan nilai seri rerata seperti yang disediakan oleh SPSS.

Langkah 3. Transform data

Transform data adalah langkah terakhir dalam merespon nilai hilang. Field (2013) menyebutkan empat jenis transformasi data, yaitu: transformasi log transformasi akar kuadrat, transformasi berbanding terbalik, serta transformasi nilai berlawanan. Tiga transformasi data yang pertama: log, akar kuadrat dan berbanding terbalik dapat digunakan untuk memperbaiki kemiringan/skew positif serta varian yang tidak sama. Sedangkan, transformasi nilai berlawanan dapat dijadikan langkah untuk mempergaiki kemiringan negatif.

Leech, Barret dan Morgan (2005) memberikan alternatif lain, yaitu dengan mengganti nilai yang hilang tersebut dengan salah satu cara seperti interpolasi, imputasi, ataupun dengan mengganti nilai yang hilang dengan nilai rerata atau nilai tengah. Dalam posting ini, metode transform data dengan menggunakan nilai pengganti rerata bertujuan untuk mengisi nilai-nilai hilang pada data. Tujuannya adalah untuk menyeimbangkan nilai rerata. Dengan menggunakan menu Transform\ Replacing missing values kita dapat mendapatkan nilai pengganti dari nilai yang hilang tersebut. Perhatikan prosedur penggantian nilai hilang seperti pada gambar dibawah ini:

Gambar 10.

Output 2

 

 

 

 

 

 

 

 

 

 

Untuk mengganti nilai hilang pada tiap variabel, kita dapat menggunakan metode series of mean sebagai menu default. Untuk beberapa kasus, dapat pula digunakan metode lainnya yang tersedia.

Dari instruksi tersebut kita mendapatkan variable baru dengan nama Pre_Vocab_1 dan seterusnya. Label SMEAN(Pre_Vocab) mengidentifikasikan bahwa nilai hilang pada variable Pre_Vocab sudah diganti. Untuk analisa kuantitatif selanjutnya (uji normalitas, homogenitas, anova dll) kita menggunakan variable baru ini.

Perhatikan deskripsi statistik untuk frekuensi pada gambar berikut:

Gambar 11.

 

Output 4

 

 

 

 

 

 

 

 

 

 

Pada gambar 11 diatas, terlihat bahwa nilai yang hilang sudah tidak ada (N=65, Persentase data 100%). Untuk melihat bagaimana transformasi data dapat mempengarhui kemiringan seperti yang disarankan oleh Field (2013) diatas. Perhatikan deskripsi statistik pada gambar berikut:

 

 

 

 

 

 

 

 

Dengan membandingkan gambar 2 (deskripsi data sebelum transformasi) dengan gambar 10 (setelah transformasi data), maka terlihat bahwa pada nilai Pre_Vocab kemiringan (skewness) kurva bergeser dari -.138 menjadi -.122 artinya kurva bergerang kesumbu positif. Hal ini juga terjadi pada nilai-nilai pada variabel lainnya.  Selain itu, perubahan juga terlihat pada nilai rerata serta standar deviasi. Pergeseran nilai pada kemeiringan kurva, perbaikan nilai rerata dan nilai standar deviasi ini membuktikan pendapat Field (2013) dan WIlcox (2005) bahwa data screening (memperbaiki data) dapat mempengaruhi distribusi normal data, yang tentunya akan berpengaruh didalam menentukan pilihan parametrik ataupun non parametrik test.

 

Semoga bermanfaat

Referensi Bacaan lebih lanjut:

Field, A.P. (2013). Dicovering statistics using IBM SPSS Statistics: And sex and drugs and rock ‘n’ roll (4th ed.) London: Sage

Leech, N.L., Barret, K.C., & Morgan, G.A. (2005). SPSS for intermediate statistics: Use and interpretation (2nd ed). London: Lawrence Erlabaum Associates.

Morgan, G.A., Leech, N.L., Gloeckner, G.W., & Barret, K.C. (2004). SPSS for introductory statistics: Use and interpretation (2nd ed.). London: Lawrence Erlabaum Associates.

Wilcox, R.R. (2005). Introduction to robust estimation and hypothesis testing (2nd ed.). Elsevier.

 

Note:

Berkahi ilmu anda dengan mendoakan penulis serta mengutip dengan isi posting diatas dengan prosedur selayaknya akademisi. Untuk mengutip:

Mulyono, H. (2014, 31 July). Data screening: Membersiapkan data untuk analisa kuantitatif. Diakses pada tanggal (tuliskan tanggal anda membaca posting ini) dari (copy link posting ini)

 

2 thoughts on “Data screening: Membersiapkan data untuk analisa kuantitatif

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Change )

Twitter picture

You are commenting using your Twitter account. Log Out / Change )

Facebook photo

You are commenting using your Facebook account. Log Out / Change )

Google+ photo

You are commenting using your Google+ account. Log Out / Change )

Connecting to %s