Data screening: Membersiapkan data untuk analisa kuantitatif

Data screening: Membersiapkan data untuk analisa kuantitatif

Oleh: Herri Mulyono

Dosen UHAMKA Jakarta

 

Data screening, atau juga dikenal dengan data cleaning (membersihkan data) merupakan salah satu teknik persiapan data untuk analisa data kuantitatif. Tujuan utama dari data screening ini adalah khususnya menghilangkan data-data yang hilang (missing value) ataupun data-data yang dianggap tidak normal. Contohnya, kita sering menemui data-data dari kuesioner tidak diisi oleh responden pada beberapa item, mungkin dikarenakan terlewat, terlupakan, atau mungkin saja responden tidak berkenan mengisinya. Juga, banyak ditemui data-data yang diisikan oleh responden tidak sesuai dengan apa yang diinstruksikan. Misal, dalam skala sikap 1 sampai 5, responden mengisi 0, atau 6. Sehingga, nilai 0 atau 6 ini menjadi data yang dianggap diluar kewajaran untuk dianalisa secara kuantitaitf. Contoh dalam aplikasi kuesioner dapat disimak sebagai berikut:

Ada seorang responden (responden 1) yang diminta menilai 5 jenis nasi goreng dengan skala 1-5, dengan skala 1: sangat tidak enak, dan skala 5 menunjukan rasa yang sempurna (sangat enak). Data yang diperoleh:

Responden 1:

Nasi goreng A -3, Nasi goreng B -4, Nasi goreng C-0, Nasi goreng D – 0, Nasi goreng E -5.

Dari data responden diatas, terlihat nasi goreng C mendapatkan score 0 diluar dari skala 1-5. Hal ini bisa jadi responden tidak ingin berkomentar, atau tidak (ingin) memakan nasi goreng tersebut. Juga pada kasus nasi goreng D yang tidak memiliki score (0).

Sayangnya, banyak peneliti pemula tidak sadar tentang data screening pada awal persiapan analisa data kuantitatif ini. Banyak juga yang kemudian memutuskan untuk menghapus atau mengeluarkan (exclude) data-data yang hilang atau diluar kenormalan tersebut. Padahal, mempersiapkan data melalui prosedur data screening ini dapat banyak membantu dalam menormalisasi distribusi data.

Berikut ini adalah beberapa hal yang perlu dilakukan dalam data screening:

Langkah 1. Merespon missing value

Missing value adalah nilai atau data yang terlewat (hilang) dari sebuah isian kuesioner, test atau instrumen lainnya. Missing value selalu berarti hilangnya data secara keseluruhan. Atau dengan kata lain, ada bagian yang hilang dari keseluruhan data responden.

Berikut adalah contoh dari data nilai bahasa Inggris siswa dari tiga sekolah (N=65)

Gambar 1.

Output 2

 

 

 

 

 

 

 

 

 

 

Bila kita memasukkan data-data tersebut diatas kedalam SPSS, maka akan diperoleh output Descriptive statistics seperti dibawah ini:

Gambar 2.

Output 2

 

 

 

 

 

 

 

 

 

 

Pada output diatas terlihat bahwa nilai valid N 64 dengan range nilai minimum 0 dan maksimum 4. Namun, data diatas tidak memperlihatkan bila terdapat data yang hilang. Untuk mengetahuinya, kita dapat menggunakan menu SPSS dengan analyze\data statistics\frequencies. Output yang diproduksi oleh SPSS adala sebagi berikut:

Gambar 3.

Output 2

 

 

 

 

 

 

 

 

Pada output terlihat jelas nilai yang hilang, contohnya terdapat 1 nilai hilang Pre_Syntax, Pre_Cohesion, dan seterusnya. Untuk mengkoreksina, pertama kita harus meneliti terlebih dahulu apakah data tersebut tidak ter-input ataukan memang hilang (karena partisipan tidak mengisinya).

Selanjutnya, kita dapat mengukuti Langkah 1, yaitu dengan menganggap data yang hilang tersebut tidak ada (ignore). Langkah 1 ini dapat dilakukan dengan merubah data variable 3 dan 6 dengan nilai diskrit 99.

Gambar 4.

Output 2

 

 

 

 

 

 

 

 

 

 

Jika dari pengisian kolom missing dengan 99 tidak merubah hasil output pada deskriptif statistik, maka kita menuju kepada langkah berikutnya, yaitu mengidentifkasi outlier.

Langkah 2. Mendeteksi outlier

Outlier adalah data-data yang berada pada batas kewajararan. Seperti pada contoh niali kita diatas, terlihat bahwa skala yang digunakan untuk menilai siswa adalah 1-5. Namun pada data ditemukan nilai 0 yang berada diluar skala 1-5 tersebut. Nilai 0 ini disebut dengan outlier. Perlu diketahui, bahwa pada beberapa kasus nilai outlier ini bisa saja berupa bilangan desimal diluar nilai 0 tadi. Bila dibiarkan begitu saja maka outlier ini sangat mempengaruhi distribusi data nantinya. Pada sample kecil, outlier dapat dengan mudah diidentifikasi. Namun, untuk kasus data dengan sampel besar, maka diperlukan cara untuk mendeteksi outlier tersebut. Untuk mendeteksi outlier, kita dapat menggunakan nilai Z. Dalam SPSS kita dapat menggunakan menu Analyize\Descriptive statistics\Descritpive, lalu tik Save standardized values as variables.

Gambar 5.

Output 2

 

 

 

 

 

 

 

 

 

 

Dengan menggunakan instruksi seperti diatas, maka kita akan mendaptkan variabel baru dengan huruf awal Z seperti ZPre_Vocab, ZPre_Syntax dan seterusnya.

Gambar 6.

Output 2

 

 

 

 

 

 

 

Untuk mendeteksi apakah data dikategorikan dengan outlier atau tidak, maka kita menggunakan standar nilai 3.29. Hal ini berarti, data yang berada lebih besar dari 3.29 atau lebih kecil dari -3.29 dianggap data outlier – data diluar kewajaran. Pada SPSS, urutkan data-data nilai Z dengan Ascending, untuk melihat apakah data lebih besar dari 3.29 atau lebih kecil dari – 3.29.

Gambar 7.

Output 2

 

 

 

 

 

 

 

 

Dengan mengurutkan variable Z satu persatu, maka kita dapatkan beberapa kasus nilai yang lebih besar dari 3.29 atau lebih kecil dari -3.29.

Gambar 8.

Output 2

 

 

 

 

 

 

Nilai tersebut kita dapati beberapa nilai pada variable PreVocab berada diluar kewajaran, atau nilai outlier. Pada data terdapat nilai 2.5 yang tidak ada dalam skala 1, 2, 3, 4 dan 5. Sehingga, kita perlu 1) mengeceknya bila terjadi kesalahan input data, atau 2) kita bisa menggabaiannya dengan menggunakan range diskrit nilai 2.1 -2.9 dan nilai diskrit 99. Masukkan nilai tersebut pada kolom missing ada variabel yang terdidentifikasi outlier tersebut seperti pada gambar berikut:

Gambar 9.

Output 2

 

 

 

 

 

 

 

 

 

Jika kita telah merespon nilai yang hilang serta nilai outlier, maka langkah terakhirnya adalah mengganti nilai yang hilang tersebut dengan nilai seri rerata seperti yang disediakan oleh SPSS.

Langkah 3. Transform data

Transform data adalah langkah terakhir dalam merespon nilai hilang. Field (2013) menyebutkan empat jenis transformasi data, yaitu: transformasi log transformasi akar kuadrat, transformasi berbanding terbalik, serta transformasi nilai berlawanan. Tiga transformasi data yang pertama: log, akar kuadrat dan berbanding terbalik dapat digunakan untuk memperbaiki kemiringan/skew positif serta varian yang tidak sama. Sedangkan, transformasi nilai berlawanan dapat dijadikan langkah untuk mempergaiki kemiringan negatif.

Leech, Barret dan Morgan (2005) memberikan alternatif lain, yaitu dengan mengganti nilai yang hilang tersebut dengan salah satu cara seperti interpolasi, imputasi, ataupun dengan mengganti nilai yang hilang dengan nilai rerata atau nilai tengah. Dalam posting ini, metode transform data dengan menggunakan nilai pengganti rerata bertujuan untuk mengisi nilai-nilai hilang pada data. Tujuannya adalah untuk menyeimbangkan nilai rerata. Dengan menggunakan menu Transform\ Replacing missing values kita dapat mendapatkan nilai pengganti dari nilai yang hilang tersebut. Perhatikan prosedur penggantian nilai hilang seperti pada gambar dibawah ini:

Gambar 10.

Output 2

 

 

 

 

 

 

 

 

 

 

Untuk mengganti nilai hilang pada tiap variabel, kita dapat menggunakan metode series of mean sebagai menu default. Untuk beberapa kasus, dapat pula digunakan metode lainnya yang tersedia.

Dari instruksi tersebut kita mendapatkan variable baru dengan nama Pre_Vocab_1 dan seterusnya. Label SMEAN(Pre_Vocab) mengidentifikasikan bahwa nilai hilang pada variable Pre_Vocab sudah diganti. Untuk analisa kuantitatif selanjutnya (uji normalitas, homogenitas, anova dll) kita menggunakan variable baru ini.

Perhatikan deskripsi statistik untuk frekuensi pada gambar berikut:

Gambar 11.

 

Output 4

 

 

 

 

 

 

 

 

 

 

Pada gambar 11 diatas, terlihat bahwa nilai yang hilang sudah tidak ada (N=65, Persentase data 100%). Untuk melihat bagaimana transformasi data dapat mempengarhui kemiringan seperti yang disarankan oleh Field (2013) diatas. Perhatikan deskripsi statistik pada gambar berikut:

 

 

 

 

 

 

 

 

Dengan membandingkan gambar 2 (deskripsi data sebelum transformasi) dengan gambar 10 (setelah transformasi data), maka terlihat bahwa pada nilai Pre_Vocab kemiringan (skewness) kurva bergeser dari -.138 menjadi -.122 artinya kurva bergerang kesumbu positif. Hal ini juga terjadi pada nilai-nilai pada variabel lainnya.  Selain itu, perubahan juga terlihat pada nilai rerata serta standar deviasi. Pergeseran nilai pada kemeiringan kurva, perbaikan nilai rerata dan nilai standar deviasi ini membuktikan pendapat Field (2013) dan WIlcox (2005) bahwa data screening (memperbaiki data) dapat mempengaruhi distribusi normal data, yang tentunya akan berpengaruh didalam menentukan pilihan parametrik ataupun non parametrik test.

 

Semoga bermanfaat

Referensi Bacaan lebih lanjut:

Field, A.P. (2013). Dicovering statistics using IBM SPSS Statistics: And sex and drugs and rock ‘n’ roll (4th ed.) London: Sage

Leech, N.L., Barret, K.C., & Morgan, G.A. (2005). SPSS for intermediate statistics: Use and interpretation (2nd ed). London: Lawrence Erlabaum Associates.

Morgan, G.A., Leech, N.L., Gloeckner, G.W., & Barret, K.C. (2004). SPSS for introductory statistics: Use and interpretation (2nd ed.). London: Lawrence Erlabaum Associates.

Wilcox, R.R. (2005). Introduction to robust estimation and hypothesis testing (2nd ed.). Elsevier.

 

Note:

Berkahi ilmu anda dengan mendoakan penulis serta mengutip dengan isi posting diatas dengan prosedur selayaknya akademisi. Untuk mengutip:

Mulyono, H. (2014, 31 July). Data screening: Membersiapkan data untuk analisa kuantitatif. Diakses pada tanggal (tuliskan tanggal anda membaca posting ini) dari (copy link posting ini)

 

Single-Correct Answer (SCA) and Multiple-Correct Answer (MCA) in Multiple-Choice Computer Assisted Language Testing (CALT) Program

Single-Correct Answer (SCA) and Multiple-Correct Answer (MCA) in Multiple-Choice Computer Assisted Language Testing (CALT) Program

Herri MULYONOa*, Gunawan SURYOPUTROa & Tri Wintolo APOKOa

aUniversity of Muhammadiyah Prof. DR. HAMKA (UHAMKA), Indonesia

*hmulyono@uhamka.ac.id

Computer has been widely used to assess language proficiency (Coniam, 2006; Dunkel, 1991; Lee, 2004; Y. Sawaki, Stricker, & Oranje, 2009). In promoting the benefits of computer in carrying the language testing task, some literature (e.g. Choi, Kim, & Boo, 2003; Coniam, 2006; Lee, 2004; Sawaki, 2001) evaluate the use of computer in testing language within comparison to conventional paper-based test. Coniam(2006) evaluate the use computer-based and paper-based English listening test. His evaluation of 115 students grade 11 and 12 from two schools attending the two mode of tests: computer and paper based tests has shown that the students performed better in computer-based test than the conventional one. In Choi et al.’s (2003) comparative study of a paper-based language test and a computer based test at five universities at Korea, they found that the section of reading within the computer based test received the weakest support. Choi et al (2003) believes that eye fatigue may be factors harming students’ concentration while reading the passages on the computer. This corresponds suggestion offered by Bridgman and Rock (1993) saying that computer based test need to pay attention to the length of instruction given.

Some authors view that open-ended questions (e.g. essay) offers wider room for measuring cognitive process as well as behavior (e.g. Bennett et al., 1990; Birenbaum & Tatsuoka, 1987; Brown, 2004). Although multiple choice test format is likely viewed to be inferior in exploring students’ problem solving ability as well as constrain teachers from retrieving much information from the students or test takers (Birenbaum & Tatsuoka, 1987), the test format may be seen as alternative of test that offer less stress for students and practical. Within multiple choice test format, students may be facilitated by available answers to the question items (Cheng, 2004) and retrieved direct feedback as the test offers benefit in suggesting practicality of scoring (see Birenbaum & Tatsuoka, 1987; Bridgeman & Rock, 1993).

In a study conducted by Coniam(1999), the use of multiple choice test in computer based program is shown to be students’ preference compared to the paper-based test. Coniam(1999) argues that students’ preference to the computer-based program is derived by simplicity of the program such as clicking alternative answer in multiple choice test application. In addition, a study conducted by Cheng (2004) has shown that students preferred the multiple-choice test compared to the multiple choice cloze and the open-ended tests. Cheng (2004) discusses that students’ preference is mainly derived by stimuli available in multiple choice test format. Furthermore, it is likely obvious that alternative answers available in the multiple choice tests promote students for guessing. However, it is still not clear if the scoring method applied in the three test formats may also attribute to such students’ preference.

In Indonesian context, wide use of computer to facilitate language testing has been applied to evaluate school teachers’ competence. For such use, the Indonesian government has developed web-based application to facilitate this teacher competency online testing as available to access at http://www.ukg.web.id. Although teachers have been shown to get much exposures as well as experiences in completing the online testing, they are likely to pay little interest of using computer to evaluate their students’ language proficiency. There are three indications to this reluctance of using computer for testing purpose in Indonesian secondary school context: 1) teachers’ inadequate knowledge of testing principles applied in computer-based testing, and 2) teachers’ inability of designing computer based test for classroom use. This paper describes principles applied in designing SCA and MCA CALT programs in assessing secondary school students’ grammar proficiency. It also discusses students’ preference to SCA and MCA CALT programs they experienced.

Click here to Download full paper

 

Creating native-like but comprehensible listening texts for EFL learners using NaturalReader

Creating native-like but comprehensible listening texts for EFL learners using NaturalReader

A media review by:

Herri Mulyono

 

“Native English speakers are often thought to bring benefits to English as a foreign language (EFL) classrooms. The native speaker is often called upon to answer vocabulary and pronunciation issues from non-native speakers (Medgyes, 1994). Within this perspective, the native speaker is believed to promote the best model for language users (see Carless, 2006; Lasagabaster & Sierra, 2002) and may encourage extrinsic motivation for EFL learners (Carless, 2006; Harmer, 2007), particularly in listening sessions. However, many EFL learners encounter difficulty in comprehending the speech of native speakers. Speech rate is believed to be one of the factors leading to such problems (see Griffiths, 1991; Hirai, 1999).

Text-to-speech (TTS) technologies, which allow users to “make the computer talk” by transforming text input into speech, offer one way to control the speed of the input learners receive (Handley, 2009, p. 906). Although speech synthesis was originally developed for people with visual impairments (Kilickaya, 2006), some teachers have begun to adopt TTS technology in foreign language classrooms. Handley (2009) states that integration of TTS within the computer-assisted language learning (CALL) environment may involve three different roles: reading machine, pronunciation model, and dialogue partner. In reference to these roles, TTS technology offers increased opportunities for EFL learners to access the target language with a native-like, but accessible model.

NaturalReader, originally developed by NaturalSoft Ltd in Canada, is TTS synthesis software that promotes natural voice conversion from text input. With supplementary add-in and floating bar features, the software is not only able to carry out text-to-speech conversion from MS office documents, PDFs, webpages, and email, but also to convert these texts into audio files in MP3 or WAV formats (NaturalReader, 2014). The advanced version 12 of this software now has made optical character recognition (OCR) possible, and this makes the number and types of texts available for TTS conversion even greater.

This article describes the basic operational functionality and features of NaturalReader as a text-to-speech synthesis system. It will also discuss some ways that NaturalReader may be used to facilitate the provision of native-like, but comprehensible input to EFL learners. “

Click here to download

Follow

Get every new post delivered to your Inbox.

Join 57 other followers