güvenirlik ve geçerlik (validity & reliability )

42
Veriler için Güvenirlik ve Geçerlik 1

Upload: saed-jama

Post on 11-Apr-2017

44 views

Category:

Data & Analytics


7 download

TRANSCRIPT

Page 1: Güvenirlik ve Geçerlik (Validity & Reliability )

1

Veriler için Güvenirlik ve Geçerlik

Page 2: Güvenirlik ve Geçerlik (Validity & Reliability )

2

Veriler için Güvenirlik ve Geçerlik

Saed Jama Abdi

Anadolu Üniversitesi

İstatistik Bölüm

25 Mayıs, 2016

Page 3: Güvenirlik ve Geçerlik (Validity & Reliability )

3

SUNUM İÇERİĞİ Giriş Terimlerin tanımı Güvenilirlik Türleri Güvenilirlik ölçümü Örnek (spss) Geçerlilik Türleri Geçerlilik ölçümü Örnek (spss)

Page 4: Güvenirlik ve Geçerlik (Validity & Reliability )

4

GirişVeri, araştırmada süreçten geçirilecek, işlenecek, ve anlam verilecek enformasyon veya ölçülmüş bilgi demektir.

Temel olarak iki ana veri türü vardır. niceliksel ve nitelikseldir. Eğer veri sayısal biçimdeyse niceliksel veri denir. sayısal olmayan ise nitelikseldir.

Her niteliksel veri ölçeklere konularak, gruplaştılırak, nicesel bakimdan ifade edebilir.

Page 5: Güvenirlik ve Geçerlik (Validity & Reliability )

5

Bilimsel araştırma sürecinde araştırmacı temelde bir açıklama bir soruya cevap aramaktadır.

Bu cevabın doğruluğu, yanlışlığı ya da hatalı ölçümü ile ilgili olarak ise bilimsel araştırma yöntemlerinin geliştirdiği iki kavram ön plana çıkmaktadır; geçerlilik ve güvenilirlilik.

Page 6: Güvenirlik ve Geçerlik (Validity & Reliability )

6

Güvenirlik ve geçerlik bir tasarımda, uygulamada, analiz ve değerlendirmede hata yapmamayla ilgilidir.

Bu hatalardan önde gelenleri; yanliş nedensellik bağları kurmayla beslenen yanlışlıklar, nüfusun tanımı, örneklem çerçevesinin çıkartılması ve örneklem almayla ilgili hatalar; sorularla ve ölçmeyle ilgili hatalar.

Page 7: Güvenirlik ve Geçerlik (Validity & Reliability )

7

GüvenirlikBir ölçme aracının ölçmeye çalıştığı bir özelliği herdefasında aynı sonucu verecek şekilde ölçebilmesi(Sabancı, 2000).

Güvenirlik, bir ölçme aracının, ölçe hedeflediği özelliğine kadar doğru ölçütüğü anlamı gelmektedir.

Bir ölçme aracı her uygulanışında aynı sonucu veriyorsagüvenilirdir.

Page 8: Güvenirlik ve Geçerlik (Validity & Reliability )

8

Bu açıdan ele alındığında, güvenirlik kavramı, ölçümlerin dakıklığı tutarlılığı, yordanabilirliği ve hatan arınıklığı kavramlarıyla yakından ılışkıdı.

Güvenirlik ile ölçme hatası arasında ters bir ilişki vardır; yani güvenirlik arttıkça ölçme işleminde yapılan hata oranı da o derece düşer (Sabancı, 2000).

Bir ölçme aracı ne kadar çok hatalı sonuç veriyorsa o kadar az güvenilirdir.

Page 9: Güvenirlik ve Geçerlik (Validity & Reliability )

9

ölçüm aracı yardımıyla alınan ölçümün iki birleşen vardır.

= toplam varyans = gerçek varyans = hata varyans. Anlamina gelmektedir.

Buna dayanarak, güvenirlik şöyle tanımlanabilir.Gerçek varyansın, toplam varyansa oranı güvenirliktir. Güvenirlik, bir korelasyon katsayısı olduğundan, yukarıdakı tanım dıkkate alınarak şu eşitlik yazılabilir.

Page 10: Güvenirlik ve Geçerlik (Validity & Reliability )

10

Page 11: Güvenirlik ve Geçerlik (Validity & Reliability )

11

1. Test-Tekrar Test Güvenirliği (Test-Retest Reliability)

2. İç Tutarlılık Güvenirlik (Internal consistency reliability) iki yarı güvenirliği (Split half

Reliability Test) Cronbach’s alpha güvenirliği Kuder-Richardson (KR20).

Uygulamada Güvenirlik için

Farkli kullanılan Teknikler

Page 12: Güvenirlik ve Geçerlik (Validity & Reliability )

12

Güvenilirlik Teknikleri 1. Test-retest

2. Parallel Forms

3. Split-half

T1 T2

A1 A2

TA B

Score Score

1

100

50 pairs

4. Internal Consistency

K-R-20 Coefficient Alpha

Page 13: Güvenirlik ve Geçerlik (Validity & Reliability )

13

Test-Tekrar Test Güvenirliği (Test-Retest Reliability)

Bu yöntemle test güvenirliğini kestirmek için, bir test aynı gruba belli bir zaman aralığıyla iki kez uygulanır. Daha sonra bireylerin birinci uygulamada aldıkları puanlarla ikinci uygulamada aldıkları puanlar arasındaki korelasyon bulunur.

Elde edilen korelasyon katsayısı testin güvenirlik katsayısıdır.

Güvenirlikle ilgili korelasyon tam yani 1 olması hiç sıra değişmesi olmadığını, 0 olması ise sıralar arasında hiçbir ilişki bulunmadığını gösterir.

Page 14: Güvenirlik ve Geçerlik (Validity & Reliability )

14

Test Tekrar Test Yönteminin Hesaplanması

ÖĞRENCİ I. UYGULAMA

(X)

II. UYGULAMA (Y)

X 2 Y 2

XY

1 15 17 225 289 255 2 16 15 256 225 240 3 17 17 289 289 289 4 10 11 100 121 110 5 14 14 196 196 196 6 6 5 36 25 30 7 17 17 289 289 289 8 12 11 144 121 132 9 3 4 9 16 12 10 8 9 64 81 72 11 9 9 81 81 81 12 14 14 196 196 196 13 15 13 225 169 195 14 12 13 144 169 156 15 15 15 225 225 225

N=15 X 183 184Y

X 2

=2479 Y 2

=2492 2478XY

Page 15: Güvenirlik ve Geçerlik (Validity & Reliability )

15

NN

NYX

XY

YY

XX

r XY

)() 2

2

2

2 (

)()(

95.0

15338562492

15334892479

151841832478

r XY

Sunulan örnekte bir test aynı öğrenci grubuna belli bir süre arayla iki kez uygulanıyor ve uygulama sonuçları arasındaki korelasyon katsayısı 0.95 olarak bulunuyor ve testin güvenirlinin yüksek olduğu söylenebilir.

Page 16: Güvenirlik ve Geçerlik (Validity & Reliability )

16

İç Tutarlılık Güvenirlikiki yarı güvenirliği (Split half Reliability Test)

iki yarım güvenirliği için tek bir test formu hazırlanır ve mümküm olan durumlarda, maddelerin sırası seçkisizleştirilir (randamizyon).

Test uyguladıktan sorna her hangı bir yolla ikiye ayrılır ve testın iki yarısından alınan puanlar arasındakı korelesyon hesaplanır.

Page 17: Güvenirlik ve Geçerlik (Validity & Reliability )

17

Uygulanmış olan test iki eşdeğer (equivalence) yarıya bölünerek öğrencilerin testin iki yarısından aldıkları puanlar arasındaki korelasyon hesaplanır ve daha sonra bu hesaplanan korelasyondan hareketle Spearman–Brown formülünden de yararlanarak testin bütünün güvenirliği kestirilir.

Bu yöntem, aslında iç tutarlılık katsayısı verir. Spearman-Brown formülü aşağıdaki gibidir.

Page 18: Güvenirlik ve Geçerlik (Validity & Reliability )

18

Spearman-Brown Formula.

Mesela eğer = 0.80 ise

= 0.89 olacak

iki-yarım Testin Güvenilirliği

Page 19: Güvenirlik ve Geçerlik (Validity & Reliability )

19

ÖrnekReliability Statistics

Cronbach's Alpha

Part 1 Value .593 N of Items 4a

Part 2 Value .239 N of Items 3b

Total N of Items 7 Correlation Between Forms .517

Spearman-Brown Coefficient Equal Length .682 Unequal Length .685

Guttman Split-Half Coefficient .654

a. The items are: K11a. K11b. K11c.K11d. b. The items are: K11e. K11f. K11g.

Tüm Testinin Güvenilirliği

İlk 4 madde ve ikinci 3 maddenin ortalamasi/toplami

bulmak ve daha sonra korelasyon k. hesaplanması.

Page 20: Güvenirlik ve Geçerlik (Validity & Reliability )

20

Kuder-Richardson (KR20)Kuder-Richardson (KR20) Anket soruları iki şıklı olduğu durumda, mesela geçti kaldı veya evet hayır gibi kullanıllan bir yöntemdir.Geçti oranı p ile gösterilir ve kaldı oranı 1-p ile gösterilir.

• n = Testin soru sayısı• p = Madde güçlüğü• q = 1- p• = Testin varyansı

Page 21: Güvenirlik ve Geçerlik (Validity & Reliability )

21

Örnek

Reliability Statistics

Cronbach's Alpha Cronbach's Alpha Based on Standardized Items

N of Items

.684 .692 5

Page 22: Güvenirlik ve Geçerlik (Validity & Reliability )

22

Inter-Item Correlation Matrix K11a. K11b. K11c. K11d. K11e. K11a. 1.000 .311 .103 .378 .412 K11b. .311 1.000 .204 .366 .386 K11c. .103 .204 1.000 .251 .266 K11d. .378 .366 .251 1.000 .420 K11e. .412 .386 .266 .420 1.000

Item-Total Statistics Scale Mean if

Item Deleted Scale Variance

if Item Deleted

Corrected Item-Total Correlation

Squared Multiple

Correlation

Cronbach's Alpha if Item

Deleted

K11a. 4.83 1.466 .428 .237 .642 K11b. 4.72 1.261 .455 .218 .627 K11c. 4.83 1.433 .288 .103 .700 K11d. 4.65 1.166 .516 .277 .597 K11e. 4.82 1.325 .547 .311 .593

Düşük korelasyon

…Silersen Cronbach’s Alfa artacak

(.7)

Page 23: Güvenirlik ve Geçerlik (Validity & Reliability )

23

Cronbach’s Alpha Güvenirliği

Alpha güvenirlik katsayısı tek bir uygulama gerektiren güvenirlik bulma tekniklerinden biridir.

Ağırlıklı puanlama veya dereceleme yöntemiyle puanlama uygulandığı durumlarda kullanılabilecek bir güvenirlik hesaplama tekniğidir.

Page 24: Güvenirlik ve Geçerlik (Validity & Reliability )

24

Testi oluşturan maddelerin dereceleme ölçeğine göre puanlanması (1’den 5’e kadar veya 0’dan 4’e kadar gibi) genellikle tutum amacıyla hazırlanan ölçme araçlarının puanlanmasında veya tutum ölçeklerinin puanlanmasında kullanılmakla birlikte kısa cevaplı testlerin güvenirliğinin kestirilmesinde de kullanılabilir.

Alpha katsayısının hesaplanması için kullanılan bağıntı aşağıdaki gibidir.

Page 25: Güvenirlik ve Geçerlik (Validity & Reliability )

25

K = Testin soru sayısı = Testin varyansı maddesinin varyansı

Page 26: Güvenirlik ve Geçerlik (Validity & Reliability )

26

(Nunnally, 1978) göre minimum kabul edilebilir güvenilirlik değeri 0.7’dir, ayrica (Cronbach, 1951; Helmstater 1964) göre 0.5 daha fazla güvenilirlik testi kabul edilebilir.Örnek:

Reliability Statistics Cronbach's Alpha Cronbach's Alpha

Based on Standardized Items

N of Items

.621 .613 8

Page 27: Güvenirlik ve Geçerlik (Validity & Reliability )

27

Geçerlilik...ölçme sonuçlarının ölçerlığı, amaclanan ölçmenin gerçekleştirebilme derecesidir.

…bir araştırma tasarımının ölçmek istediğini ölçüp ölçmediği ile ilgilidir.

Açık uçlu ve kapalı uçlu olarak biçimlendirilmiş sorular ölçme isteneni ölçüyor mu. eğer ölmüyorsa geçerlilik sorunu vardır.

Page 28: Güvenirlik ve Geçerlik (Validity & Reliability )

28

Genellikle anket bütün olarak probleme uydurulmaya çalışılmış, tüm problemin ayrı ayrı özellikleriyle ilgili, nispeten özel ve birbirinden bağımsız sorulardan meydana gelmiştir.

Bu bakımdan tüm anketin geçerlik derecesi yerine değişik soruların geçerliğini düşünmek daha doğru görülmektedir.

Page 29: Güvenirlik ve Geçerlik (Validity & Reliability )

29

Geçerli (doğru) bir test aynı zamanda güvenilir bir testtir, ancak, Güvenilir bir test geçerli bir test olmayabilir !!!!

Page 30: Güvenirlik ve Geçerlik (Validity & Reliability )

30

• Ölçme aracı belli bir amaç ve belli durumlar için geçerlidir. Başka bir amaç için geçerli sayılmaz. Örneğin bir grup öğrenciye uygulandığında geçerli olan test diğer öğrenci grubuna uygulandığında geçerli olmayabilir (Karasar: 2003; 151).

• Örneğin Türkçe dersinde yazılı anlatım becerisini ölçen bir test bu amaca hizmet ettiği sürece geçerlidir. Aynı testi beden eğitimi dersi için kullanamayız. Çünkü o dersin amaçları için hazırlanmamıştır (Sönmez:2003;418).

Page 31: Güvenirlik ve Geçerlik (Validity & Reliability )

31

Geçerlik Türler

literatürde değişik sınıflandırılmalara rastlamakla APA 1997 ile Croceker ve Algina’nin geçerlik türlerin üç toplanması daha çok tercih edilmektedir.

1. İçerik (Kapsam) Geçerliği (Content Validity).

2. Yordama (deneysel) Geçerliği (predictive validity).

3. Yapı Geçerliği (construct validity).

Page 32: Güvenirlik ve Geçerlik (Validity & Reliability )

32

İçerik Geçerliği (content validity).İçerik geçerliği, ölçme aracında bulunan soruların (maddelerin) ölçme amacına uygun olup olmadığı, ölçülmek istenen alanı temsil edip etmediği sorunu ile ilgili olup, "uzman görüşüne göre saptanır.

Kapsam geçerliği, bir bütün olarak testin ve testteki her bir maddenin maksada ne derece hizmet ettiğidir (Tekin: 2008; 45).

Page 33: Güvenirlik ve Geçerlik (Validity & Reliability )

33

Örneğin, öğrencinin basketbol uygulama durumu değerlendirildiğinde sadece pas çalışması ile değerlendirmenin yapılması diğer basketbol tekniklerinin durumunu anlamak için bilgi vermez.

Bu durumun önlenmesi için uzman grubuna başvurulup görüşleri alınarak ölçme aracının geçerliği yapılmış olur.

Page 34: Güvenirlik ve Geçerlik (Validity & Reliability )

34

Yordama Geçerliği (predictive validity)

Yordama geçerliği, yapılan ölçme ile ölçülmeye çalışılan şeyin gerçek hayattaki yansımalarının karşılaştırılmasındaki uyumdur.

Örneğin okulda alınan notların hayattaki başarı ile olan ilişkisi aranabilir. Okuldaki notları yüksek olanlar hayatta da başarılı oluyorlarsa, okuldaki ölçmeler geçerlidir denir.

Page 35: Güvenirlik ve Geçerlik (Validity & Reliability )

35

ÖSS korelasyon Akademik başarı (yordayıcı) (ölçüt)

İşe giriş sınavı korelasyon İş yerindeki performans (yordayıcı) (ölçüt)

Page 36: Güvenirlik ve Geçerlik (Validity & Reliability )

36

Yapı Geçerliği (Construct Validity)Yapı geçerliği, bilimsel olduğu kadar, felsefi yönü de ağır basan bir geçerlik ölçütüdür. Kuramsal (theoritical) olarak, geçerlik ölçmenin dayandığı "temel kuramların" geçerliği ile ilgilidir.

Yani, önceden kabul edilen olası "neden-sonuç" ilişkileri ile ilgilidir özellikle, dolaylı ölçmelerin yapıldığı (asıl ölçülmek istenen şeyin onun çeşitli belirtileri ile ölçüldüğü) durumlarda, ölçülen belirtilerin, gerçekten aranan belirtiler olup olmadığı sorunu vardır.

Page 37: Güvenirlik ve Geçerlik (Validity & Reliability )

37

Geçerlik ve Güvenirlik Arasındaki İlişki

Güvenirlik sabit ve sistemli hatalardan etkilenmeyip sadece rasgele hatalardan etkilenir.

Güvenirlik, geçerlik için gerekli koşuldur, fakat yeterli koşul değildir.

Güvenirliği yüksek olan bir testin geçerliği yüksek olmayabilir.

Page 38: Güvenirlik ve Geçerlik (Validity & Reliability )

38

Geçerlilik Test için EFA kullanılırSD = Strongly disagree, D = Disagree, N = Neither, A = Agree, SA = Strongly Agree

S D D N A S A1 Statistics makes me cry O O O O O

2 My friends will think I'm stupid for not being able to cope with SPSS. O O O O O

3 Standard deviations excite me. O O O O O

4 I dream that Pearson is attacking me with correlation coefficients. O O O O O

5 I don't understand statistics. O O O O O

6 I have little experience of computers. O O O O O

7 All computers hate me. O O O O O

8 I have never been good at mathematics. O O O O O

9 My friends are better at statistics than me. O O O O O

10 Computers are useful only for playing games O O O O O

11 I did badly at mathematics at school. O O O O O

12 O O O O O

13 O O O O O

14 O O O O O

15 Computers are out to get me. O O O O O

16 I weep openly at the mention of central tendency. O O O O O

17 I slip into a coma whenever I see an equation. O O O O O

18 SPSS always crashes when I try to use it. O O O O O

19 Everybody looks at me when I use SPSS. O O O O O

20 I can't sleep for thoughts of eigenvectors. O O O O O

21 O O O O O

22 My friends are better a SPSS than I am. O O O O O

23 If I am good at statistics people will think I am a nerd. O O O O O

People try to tell you that SPSS makes statistics easier to understand but it doesn't.

I worry that I will cause irreparable damage because of my incomptence with computers.

Computers have minds of their own and deliberately go wrong whenever I use them.

I wake up under my duvet thinking that I am trapped under a normal distribution.

Page 39: Güvenirlik ve Geçerlik (Validity & Reliability )

39

ÖrnekKMO and Bartlett's Test

,930

19334,492253,000

Kaiser-Meyer-Olkin Measure of SamplingAdequacy.

Approx. Chi-SquaredfSig.

Bartlett's Test ofSphericity

KMO-measures >.9are superb!

KMO measures the ratio of the squared correlation between variables

to the squared partial correlationbetween variables.

KMO measures forindividual factors are

produced on the diagonalof the anti-image corr

matrix The KMO-measures

give us a hint atwhich variables should

be excluded from the factor analysis

Bartlett's test tests if the matrix is anidentity matrix (matrix with only 1's in thediagonal and 0's off-diagonal). However,we want to have correlated variables, so

the off-diagonal elements should NOT be0. Thus, the test should be significant,

i.e., the R-matrix should NOT be an identity matrix.

Page 40: Güvenirlik ve Geçerlik (Validity & Reliability )

40

Factor structure refers to the Intercorrelations among the variables being tested in the EFA

Pattern Matrixa

,706

,591

-,511 ,405 ,400

,643 ,621 ,615 ,507 ,885 ,713 ,653

,650

,588

,585

,412 ,462

,411 -,902 -,774 -,774

Q20 I can't sleep for thoughts of eigen vectorsQ21 I wake up under my duvet thinking that I am trapped under a normaldistribtionQ03 Standard deviations excite meQ04 I dream that Pearson is attacking me with correlation coefficientsQ16 I weep openly at the mention of central tendencyQ01 Statiscs makes me cryQ05 I don't understand statisticsQ22 My friends are better at SPSS than I amQ09 My friends are better at statistics than meQ23 If I'm good at statistics my friends will think I'm a nerdQ02 My friends will think I'm stupid for not being able to cope with SPSSQ19 Everybody looks at me when I use SPSSQ06 I have little experience of computersQ18 SPSS always crashes when I try to use itQ07 All computers hate meQ13 I worry that I will cause irreparable damage because of myincompetenece with computersQ14 Computers have minds of their own and deliberately go wrongwhenever I use themQ10 Computers are useful only for playing gamesQ12 People try to tell you that SPSS makes statistics easier to understandbut it doesn'tQ15 Computers are out to get meQ08 I have never been good at mathematicsQ17 I slip into a coma whenever I see an equationQ11 I did badly at mathematics at school

1 2 3 4Component

Extraction Method: Principal Component Analysis. Rotation Method: Oblimin with Kaiser Normalization.

Rotation converged in 29 iterations.a.

F1:'Fear of statistics'

F2:'Fear of peerevaluation'

F3:'Fear of computers'

F4:‘ Fear of mathematics'

Page 41: Güvenirlik ve Geçerlik (Validity & Reliability )

41

Güvenirlik Belirleme Tekniklerine İlişkin Özet Bilgiler

Güvenirlik Katsayısı Tipi Anlamı

Gereken form sayısı

Uygu lama sayısı Hata varyansı kaynağı

KUDER-RICHARSON KR - 20 ve KR - 21

İç tutarlık Bir Bir Kapsam örneklemi ve heterojenliği

CRONBACH ALFA İç tutarlık Bir BirKapsam örneklemi

ve heterojenliği 

İKİ YARI İç tutarlık Bir Bir Kapsam örneklemiTEST-TEKRAR TEST Kararlılık Bir İki Zaman örneklemi

PARALEL FORMLAR Tutarlık İki İki Zaman ve kapsam

Page 42: Güvenirlik ve Geçerlik (Validity & Reliability )

42

Kaynaklar• Making Sense of Cronbach’s alpha, Article, MOHSEN TAVAKOL, REG DENNIC,

2011• Handbook of Health Research Methods: Investigation Measurement and Analysis,

SHAH EBRAHIM, ANN BOWLING.• Statistical Analysis in psychology and Education. George A.Ferguson. FIFTH

EDITION.• Best Split-Half and Maximum Reliability Satyendra Nath Chakrabartty (Prof,

Galgotias Business School, India).• Assessing Construct Validity: The Utility of Factor Analysis Cheng Hsiung Lu.• Reliability and validity testing of a new scale for measuring attitude towards

learning statistics with technology, Article. Volume 4, November 1, 2011.• http://badmforum.blogspot.com.tr/2012/08/factor-analysis-kmo-bartletts-test.html.• ARAŞTIRMA YÖNTEMLERİ DERSİ ÖDEVİ. YRD. DOÇ. DR. HASAN

HÜSEYİN AKSOY. Ankara Mayis 2006.• Ölçme Araçlarının Yapısal Nitelikleri, Dr. Fatih DERVENT.