KPSS Eğitim Bilimleri Ölçme ve Değerlendirme

Geçerlik, Güvenirlik ve Kullanışlık – KPSS Ders Notu

Hüseyin Faruk YILDIRIM

0 621 9 dakika okuma süresi

Ölçme ve Değerlendirme KPSS ders notlarına Ölçme Araçlarının Özellikleri, Geçerlik ve geçerlik türleri, Güvenirlik ve güvenirlik türleri ve Kullanışlık konuları ile devam ediyoruz.

ÖLÇME ARAÇLARININ ÖZELLİKLERİ

GEÇERLİK, GÜVENİRLİK VE KULLANIŞLIK

GÜVENİRLİK

Bir ölçme aracının tesadüfi hatalardan arınık olma derecesidir.
Güvenirlik ve tesadüfi hata arasında korelasyonel bir ilişki vardır.
Güvenirlik (0 ve +1 ) aralığında değer alır.
+1’e yaklaştıkça güvenirlik artar, 0’a yaklaştıkça güvenirlik azalır.
Testteki güvenirlik arttıkça tesadüfi hata miktarı azalır, testteki güvenirlik azalırsa tesadüfi hata miktarı artar.

NOT: Eğitimde kullanılan kağıt kalem testleri (yazılı yoklama, çoktan seçmeli, kısa cevaplı test vb.) en az 0.70 olmalıdır.

GÜVENİRLİĞİN ANLAMLARI

1. DUYARLILIK

Bir ölçme aracının birim aralıklarının küçülmesidir.
100 soruluk test 50 soruluk testten duyarlıdır.
100cm, 1 metreden duyarlıdır.
1000 metre, 1 km den duyarlıdır.

2. TUTARLILIK

Bir ölçme aracındaki tüm soruların aynı özelliği ölçmesidir.
Tutum ölçeğindeki tüm soruların aynı olması (iç tutarlılık)

3. KARARLILIK

Ölçme sonuçlarının her seferinde aynı sonucu vermesidir. (PUANLAMA GÜVENİRLİĞİ)
Öğretmenin bir sınav kağıdını iki kez okuyup aynı puanı vermesidir.

4. OBJEKTİFLİK

Puanlama yapan kişinin tarafsızlığıdır.
Aynı zamanda ölçme aracının tarafsızlığından da söz edilir. (PUANLAYICI GÜVENİRLİĞİ)
İki öğretmenin aynı sınav kağıdına benzer puanlar vermesidir.

GÜVENİRLİK BELİRLEME YOLLARI

1. TEST TEKRAR YÖNTEMİ

Bir test, bir grup öğrenciye, iki ayrı zamanda uygulanması sonucunda, her iki uygulamadan elde edilen puanlar arası korelasyon katsayısı test tekrar test güvenirliği anlamına gelir.
Bu katsayı aynı zamanda KARARLILIK katsayısıdır.
Elde edilen korelasyon 1’e ne kadar yakın olursa ölçme aracının güvenirliği o kadar yüksek olur.
Bu yöntemin uygulanması sürecinde hata kaynağı ölçülen özelliğin zaman içinde değişmesidir. Bu değişime neden olan faktör unutma veya yeni öğrenmelerin olmasıdır.
İki uygulama arası yeni öğrenmeler veya unutma olursa iki uygulamanın puanları arasındaki korelasyon katsayısı 0’a yakınlaşacağı için güvenirlik azalacaktır. Bu nedenle Test Tekrar Test Yöntemi, daha çok kişilik, yetenek, tutum, ilgi gibi zor değişen özellikleri ölçen testlerde kullanılması tercih edilir.

2. PARALEL TESTLER YÖNTEMİ (EŞDEĞER FORMLAR)

Her yönüyle aynı özellikte, aynı kapsamda , aynı güçlükte , farklı sorulardan oluşan iki test aynı öğrenci grubuna art arda uygulanır.
Her iki testten elde edilen korelasyon katsayısı her bir testin güvenirlik katsayısı anlamına gelir.
Bu korelasyon TUTARLILIK ve EŞDEĞERLİK katsayısını verir.
Eşdeğerlik katsayısı yüksek çıkarsa; iki formun birbiriyle tutarlı, eşdeğer olduğu, aynı hedefleri ölçtüğü ve soruların birbirine yakın güçlük düzeyinde olduğu söylenebilir.
Fakat kademeler ilerledikçe birbirine denk özellikte iki form hazırlamak zordur.

KARŞILAŞTIRMA

Paralel formlar yönteminin, test tekrar test yöntemine göre avantajı iki formun yakın zamanda art arda uygulanması nedeniyle bilgiyi unutma veya yeni öğrenmelerin olması gibi durumlardan etkilenmemektedir.
Paralel formlar yönteminin dezavantajı iki formun kapsamı güçlük vb. özellikler bakımından denk olması zordur.
Denk iki form hazırlamak emek ve zaman açısından kullanışlı değildir.

3. TEST YARILAMA YÖNTEMİ

Hazırlanan bir test, bir gruba, bir kez uygulanır.
Uygulamanın sonucunda test, iki yarıya bölünür.
Daha sonra her iki yarının puanları hesaplanır.
Hesaplanan bu korelasyon katsayısı, tek yarı güvenirliğini verir.
Daha sonra korelasyon katsayısı SPEARMAN BROWN formülüne yazılarak testin bütününün güvenirliği bulunur.
Test yarılama yöntemiyle İÇ TUTARLILIK katsayısı elde edilir.
Tek uygulama olduğundan kullanışlığı yüksektir.
Bir testin tamamının güvenirliği her zaman yarısından daha fazladır.
Testin bütünü için güvenirlik katsayısı formülü;

SPEARMAN BROWN: 2*r/1+r şeklindedir. (r: eş yarılar arasında bulunan korelasyondur)

ÖRNEK: Bir testin iki yarısının güvenirlik katsayısı 0.50 ise, testin bütününün güvenirliği nedir?

2*0,50= 1

1+0,50= 1,50

1/1,50= 0,66 olacaktır.

4. KR20 – 21 YÖNTEMİ

Testteki soruların; birbiriyle uyumunu, homojenliğini, benzerliğini, iç tutarlılığını ölçen,
Doğru cevaplara 1, yanlış cevaplara 0 puan verilen,
Bir defa uygulanan, güvenirlik belirleme yöntemidir.
Testin bütün öğrencilerin %90’ı tarafından cevaplanmış olma şartı vardır.
Dereceleme ölçekleri, ağırlıklı puanlama ve düzeltme formülü KR20-21 güvenirlik yönteminde kullanılmaz.

NOT:

KR20-21 YÖNTEMİ;

Maddeler arası uyumu inceler.
Eğer maddeler homojense KR20-21 güvenirlik düzeyi yüksek çıkacaktır.
Maddelerin güçlük düzeyleri aynı ise KR21 formülü güvenirliğin gerçek değerini hesaplar.
Madde güçlük düzeyleri farklı ise KR-21 gerçek değerin altında hesaplar.
Ancak KR-20 formülü madde güçlük düzeyleri farklı olsa da testin güvenirliğinin gerçek değerini hesaplar.

NOT:

Testin Madde Güçlük Düzeyleri AYNIYSA:

KR20=KR21
Madde standart sapma ve varyans değerleri de eşit olur.

Testin Madde Güçlük Düzeyleri FARKLIYSA:

KR 20 > KR21
Madde standart sapma ve varyans değerleri de farklı olur.

KR21, güvenirliğin alt sınırını oluşturur.

KR20-21 DEĞERİ YÜKSEK ÇIKARSA YAPILACAK KESİN YORUMLAR

Maddeler birbiriyle tutarlı, homojen, benzer olduğu,
Testin tesadüfi hatalardan arınık olduğu,
Testin tek boyutlu olduğu,
Testin duyarlı olduğu , yorumları yapılır.

KR20-21 DEĞERİ YÜKSEK ÇIKARSA YAPILABİLECEK YORUMLAR

Yapı geçerliği yüksektir, denebilir.
Kapsam geçerliği düşüktür, denebilir.
Ayırt ediciliği yüksektir, denebilir.

5. CRONBACH ALFA YÖNTEMİ

Dereceli puanlamaya dayalı olan tek boyutlu likert tipi ( tutum ölçeği, ilgi ölçeği vb.) ölçeklerin iç tutarlılığını ölçen güvenirlik yöntemidir.
Bu yöntemde maddeler arasındaki uyuma, benzerliğe, iç tutarlılığa bakılır.
Düzeltme formülü, ağırlıklı puanlama ve dereceleme ölçeklerin uygulandığı testlerde kullanılır.

GÜVENİRLİĞİ ARTIRMA YOLLARI

Soruların açık ve anlaşılır olması
Soru sayısının artırılması (duyarlılık artar)
Seçenek sayısının artırılması (şans azalır)
Öğrencilerin güdülenmesi
Sınav süresinin yeterli olması
Soruların orta güçlükte olması
Testin dikkatli ve objektif puanlanması
Soruların kolaydan zora doğru sıralanması
Sınavda yönerge hazırlanıp kullanılması
Testte katılan kişi sayısının artırılması
Testin uygulandığı grubun heterojen olması
Kopya çekilmesinin engellenmesi
Sınav ortamının uygun ölçülerde hazırlanması

STANDART HATA

Ölçmenin standart hatası, güvenirlik belirleme yönteminde sınava giren her bir öğrencinin sınav puanları tek tek incelenir. Bu inceleme ile öğrencinin gerçek puan aralığı belirlenir.
Tesadüfi hatada öğrenci puanına hatanın hangi yönde karıştığı bilinmez. Bu nedenle ölçmenin standart hatası düşünülerek gerçek puan aralığı belirlenir.
Ölçmenin standart hatasında öğrencinin gerçek puanı değil gerçek puan aralığı belirlenir.

(Se) STANDART HATA = (Sx) STANDART SAPMA * √1-rx şeklindedir. (rx= güvenirlik katsayısı)

Hata hesaplandıktan sonra öğrenci puanına,

Bir defa eklenip çıkarılırsa %68,
İki defa eklenip çıkarılırsa %95,
Üç defa eklenip çıkarılırsa %99, olasılıkla gerçek puan aralığı hesaplanmış olur.

SORU: Kimya testinin güvenirliği 0.75, standart sapması 10 olduğuna göre 40 puan alan Güler’in %32 hata payı ile gerçek puan aralığı kaçtır ? (2011 KPSS)

ÇÖZÜM:

(Sx) yani standart sapma = 10

Güvenirlik kat sayısı: 0.75

Hata payı %32 ise bu %68 olasılığa bakılması gerekir. Bu bilgileri kullanarak cevabımızı artık bulabilirsiniz.

√1-0.75 = 0.5

10*0.5= 5

%68 olasılığa baktığımız için 40’a bir kere 5 ekleyip ve çıkaracağız bu da bize 35 ve 45 puan aralıklarını verecektir.

SORU: Aşağıda standart sapması ve güvenirlik katsayısı verilen testlerden hangisinin standart hatası en düşüktür ? (2004 KPSS)

ÇÖZÜM:

Formülümüz belli (Sx) STANDART SAPMA * √1-rx

Soruda her şey verilmiş zaten, şimdi bunları formüle yerleştireceğiz.

A= 2*√1-0.50= 1.4

B= 4*√1-0.50= 2.8

C=5*√1-0.30= 4.1

D=4*√1-0.70= 2.7

E=2*√1-0.90= 0.6

cevabımız bu koşullarda E şıkkı olacaktır.

SORU: Aşağıda standart sapması ve güvenirlik katsayısı verilen testlerden hangisinin standart hatası en büyüktür ? (2010 KPSS)

ÇÖZÜM:

Formülümüz bir önceki soruda ki yine belli (Sx) STANDART SAPMA * √1-rx

Tabii ki sınav esnasında bunları uzun uzun hesaplamayacağız, artık kolay yönteme bakmak lazım. rx’i en düşük olan standart sapmanın en yüksek olduğu değeri belirleyelim. Bu da bize biyoloji dersini işaret ediyor. Kontrolümüzü yapalım;

Biyoloji = 15* √1-0.64 = 9 yapacaktır. Yine standart sapması yüksek olan fizik dersini kontrol edelim ardından sonuç zaten bize göz kırpacaktır.

Fizik = 15* √1-0.91 = 4.5 evet buradan da gördüğümüz üzere standart hatanın en büyük olduğu ders biyoloji dersidir.

NOT

Soruda standart hata hangisinde en büyüktür diyorsa; Standard sapma (Sx)’nın en büyük olduğu ve Güvenirlik kat sayısı (rx)’nın en düşük olarak birlikte verildiği şıkka yönelmeliyiz.

Eğer soruda standart hata hangisinde en küçüktür diyorsa; Standard sapma (Sx)’nın en küçük olduğu ve Güvenirlik kat sayısı (rx)’nın en büyük olarak birlikte verildiği şıkka yönelmeliyiz.

GEÇERLİK

Ölçme aracının ölçmek istediği özelliklere başka değişkenler karıştırmadan ölçebilmesine geçerlik denir.
Ölçme aracının amacına hizmet etme derecesidir.
Amaç , eğitimde bilen öğrenci ile bilmeyen öğrenci ayrımının yapılabilmesidir.
Geçerlik (-1) ve (+1) aralığında değerler alır.
(+1)’e yaklaştıkça geçerlik artar, 0’ yaklaştıkça düşer.
(-) değer ise bilen öğrencilerin yapamayıp, bilmeyen öğrencilerin yapmasıdır.
Bir test 0.70 ve üstü değere sahipse geçerlidir.

NOT: Her geçerli test, güvenilirdir. Fakat her güvenilir olan test, geçerli olmayabilir. Geçerlik , güvenirlikten daha geniş bir değer aralığına sahiptir. Bir testin geçerlik katsayısı, o testin güvenirliğinin karakökü kadardır.

SORU: Bir testin güvenirliği 0.81 ise aynı testin geçerlik katsayısı ne olur?

ÇÖZÜM: 0.81’in karekökünü alıyoruz. Bu da 0.9 olacaktır. Bu sonuca göre hem geçerlik katsayısını bulduk hem de testin katsayısı 0.70’den büyük olduğu için geçerli olduğunu görebiliriz.

NOT

Bir testin geçerli olabilmesi için;

1. Güvenilir olması ön koşuldur.
2. İlgililik (uygunluk) özelliği olmalıdır.
Hazırlanan her test, ölçülmek istenen özelliklere uygun hazırlanırsa geçerli olur.

GEÇERLİK TÜRLERİ

1. KAPSAM GEÇERLİĞİ

Bir testte aranan en önemli geçerlik türüdür.
Ölçme aracında yer alan soruların, öğrencilere anlatılan konulara uygun olması demektir.
Örneklemin (soruların), evreni (anlatılan konulara) temsil etme derecesidir.
Kapsam geçerliğini, uzun içerikli testlerde hazırlamak zordur. Bu nedenle bu tür sınavlarda örneklem alanı belirlenip sorular hazırlanır. Bu testler, BAŞARI TESTLERİ‘dir.
Başarı testlerinde, tüm davranışlar değil, kritik davranışlardan sorular sorulur.
Kritik davranış, öğrencinin mutlaka bilmesi gereken önemli konulardır.
Ünite testlerinde (İZLEME TESTLERİNDE) ise anlatılan tüm konulardan soru sormak önemlidir.
İZLEME testleri, sürecin takibinde kullanılmaktadır.

KAPSAM GEÇERLİĞİNİ SAĞLAMA

1. BELİRTKE TABLOSU: Hangi konudan, hangi hedef düzeyinde kaç soru sorulacağının belirtildiği tablodur. Sorular , konulara dengeli paylaştırılırsa testin kapsam geçerliği yüksek olur.

2. RASYONEL YAKLAŞIM (UZMAN KANISI): Hazırlanan testlerin aynı branş uzmanlarının görüşlerinin alınmasıdır. Özellikle öğretmen yapımı testlerde kullanılır.

3. İSTATİSTİKSEL YAKLAŞIM: Kapsam geçerliği uzmanlarca kanıtlanmış olan test ile yeni hazırlanıp, geçerliği kanıtlanacak testlerin karşılaştırılmasıdır.

2. ÖLÇÜT GEÇERLİĞİ

(Bir ölçüte göre geçerlik) Ölçüt geçerliği ölçütün elde ediliş zamanına göre ikiye ayrılır.

a. YORDAMA GEÇERLİĞİ

Bir ölçme aracının gelecekteki başarıyı, performansı tahmin etme derecesidir. Burada ölçüt testin tahmin etmesi gereken başarı veya performanstır.
Test puanları önce elde edilir, ölçüt puanları sonra elde edilir.
Testten elde edilen puanlarla ölçüt puanları arasındaki ilişki aynı yönde ve kuvvetli ise yordama geçerliği yüksek olur.
LYS (mevcut sonuç) ………… ÜNİVERSİTE Başarısı (tahmin edilen)
İş sınavı (mevcut sonuç) ……………….. işteki performansı (tahmin edilen)
KPSS (mevcut sonuç) ………………….. Öğretmenlik performansı

b. UYGUNLUK GEÇERLİĞİ (EŞ ZAMAN, ZAMANDAŞ)

Ölçüt puanlarının test puanlarıyla yakın zamanda veya daha önce elde edilmesi durumunda, ölçüt puanları ile test puanları arasındaki ilişkiye uygunluk geçerliği denir.
Geçmişe tahmin etmektir, tanı koymaktır.
Ölçüt puanları önce, test puanları sonra elde edilir.
Lise başarı ortalaması (tahmin edilen) ………………… LYS (Test puanı)

3. YAPI GEÇERLİĞİ

Bir testin içinde varolan soruların birbiriyle olan uyumluğu, benzerliği, iç tutarlılığı bir yapıdır.
Özellikle duyuşsal testlerde aranılan bir özelliktir.
Eğer bir test içinde birden fazla ders varsa, her ders kendi içinde değerlendirilmelidir, her testin kendi içinde bir yapısı vardır.
Bir testin yapı geçerliği artarsa kapsam geçerliği azalır. Çünkü yapı tek boyutluluk, sorularda uyumluluk, homojenliğe bakarken kapsam geçerliği, anlatılan her konudan soru, çok boyutluluk özelliğine bakar.

YAPI GEÇERLİĞİ BELİRLEME YOLLARI

1. FAKTÖR ANALİZİ: Ölçme aracındaki soruların aynı özelliği ölçüp ölçmediğine bakılır. Farklı özellikteki soru, testten atılır ve testin kalan sorularla iç uyumu, yapısı sağlanmış olur.

2. TEST VE MADDE YANLILIĞI: Aynı zeka düzeyine sahip bireylerin sorulara doğru cevap verme olasılıklarının aynı olması gerekir. Aksi durumda test ve madde yanlılığından bahsedilir.

ÖRNEK: Bir öğretmen toplama işlemiyle ilgili sorular sorarken yekünü bulunuz demiştir. Ancak toplama işlemini tüm öğrencilerin bilmesine rağmen sadece yekün kelimesini bilenler soruya doğru yanıt vermiştir. Bu durumda maddeler ölçmesi gereken özelliğin dışında bir özellik ölçmüştür. Kelime bilgisi yanlılığa neden olmuştur.

3. GRUBA TEST UYGULAMA: Bir test bir gruba uygulanır, testin ölçtüğü özelliğe sahip olanlar yüksek puan , sahip olmayanlar düşük puan alırsa test, özelliğe sahip olanla olmayanı ayırt eder. Ve yapı geçerliği yüksek çıkar.

4. UZMAN GÖRÜŞÜ: Testteki maddelerin her birinin ölçülmek istenen yapıyla ilgili olup olmadığını belirlemek için uzman görüşüne başvurmaktır. Yapı geçerliğinde en çok kullanılan yöntemdir.

5. CEVAPLAYICILARIN CEVAP VERME SÜRECİNİN İNCELENMESİ: Testin uygulandığı gruptan rastgele bireyler seçilir ve soruları sesli okumaları, yorumlamaları istenir. Aynı zamanda da cevaplayıcının verdiği tepkiler gözlenir. Gerçek hayatta gösterilen tepkilerle soru sorulduğundaki verdiği tepkiler karşılaştırılır. Eğer tutarlılık yüksekse yapı geçerliği sağlanmış olur.

NOT: Sabit ve sistematik hatalar yapı geçerliğini düşürür. Özellikle SİSTEMATİK hatalar!

4. GÖRÜNÜŞ GEÇERLİĞİ

Ölçme aracının ölçmesi gereken özelliği ölçüyor göründüğüyle ilgilidir.
Görünüş geçerliği, ölçme aracının kapağının, içeriğiyle uyum halinde olmasına bağlıdır.

NOT: Bilişsel alan testlerinde görünüş geçerliğinin yüksek olması istenilen bir durumdur. Ancak duyuşsal alan testlerinde görünüş geçerliğinin yüksek olması istenmez. Çünkü duyuşsal alanda ölçme yapılırken bireyler, kasıtlı olarak kendileri hakkında yanlış bilgi verirler. Bu kasıtlılığı önlemek için görünüş geçerliği düşürülür.

GEÇERLİĞİ ARTIRMA YOLLARI

Aracın kapsamı ölçülen kapsama ne kadar yakın olursa geçerlik o kadar artar.
Güvenirlik artarsa geçerlik artar.
Cevaplamaya verilen sürenin yeterli olması geçerliği artırır.
Ölçme aracının güçlüğü amaca ne kadar uygun olursa geçerlik artar. (Seçme sınavları zor, izleme testleri kolay, başarı testleri orta güçlüktedir)
Soruların tekrar tekrar kullanılmaması, öğrencilerden izole edilmesi, kopyanın engellenmesi geçerliği artırır.
Testin uygulandığı grup heterojen olmalıdır.
Testteki öğrenci sayısı artarsa geçerlik bir noktaya kadar artar sonra sabitlenir.
Aynı seçeneğin doğru cevap olarak alt alta en fazla üç(3) kez gelecek şekilde hazırlanmalıdır.
Sabit ve sistematik hatalar yapmamak, objektif puanlamalar yapmak geçerliği artırır.

DİKKAT!

Ölçme araçları amaca hizmet etme yönüyle ele alınacak olursa;

Başarı testleri için kapsam geçerliği,
İzleme testleri için kapsam geçerliği,
Seçme ve yerleştirme için yordama geçerliği,
Duyuşsal özellikleri ölçen (kişilik,tutum,ilgi vb.) testler için yapı geçerliğinin kanıtlanmış olması gerekir.

GEÇERLİK ve GÜVENİRLİK ARASINDAKİ İLİŞKİ

Güvenirlik,tesadüfi hatalardan etkilenirken; geçerlik sabit ve sistematik hatalardan etkilenir.
Güvenirlik ölçme aracının hatalardan arınık olmasıdır, geçerlik ise ölçmenin, amaca hizmet etmesidir.
Güvenirlik katsayısı 0 ve +1 aralığında değer alırken, geçerlik -1 ve+1 aralığında değer alır.
Güvenirlik, geçerliğin ön koşuludur fakat tek başına yeterli değildir.
Güvenirlik, geçerliği sınırlandırır.
Güvenirlikle geçerlik arasında orantı yoktur, bağıntı vardır.
Bir testin güvenirlik değerinin karakökü o testin geçerliğinden küçük olamaz.

3. KULLANIŞLIK

Ölçme aracının hazırlanış, uygulanış, ve puanlanış bakımından emek, zaman ve maliyet açısından kazançlı olmasıdır.
Testin hazırlanıp uygulanmasının puanların yorumlanmasının kolay olmasıdır.
Testlerdeki soru sayılarının azaltılması kullanışlığı artırır.

Etiketler