tanımsal İstatistik - wordpress.com

Post on 28-Nov-2021

4 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

İstatistik-1Tanımsal İstatistik

Prof.Dr. Cem S. SütcüMarmara Üniversitesi

İletişim Fakültesi Bilişim A.B.D.cemsutcu.wordpress.com

2

Temel KavramlarVeri kelimesi Latince’de “gerçek”, “reel” anlamına gelen “datum” kelimesine karşılık gelmektedir. “Data” olarak kullanılan kelime ise “datum” kelimesinin çoğuludur.Her ne kadar kelime anlamı olarak gerçeklik temel alınsa da her veri mutlaka somut gerçeklik göstermez. Kavramsal anlamda veri, kayıt altına alınmış her türlü olay, durum, fikirdir. Bu anlamıyla değerlendirildiğinde çevremizdeki her nesne bir veri olarak algılanabilir.

3

Temel Kavramlar

VERİ

ENFORMASYON

BİLGİ

BİLGELİK

4

Temel KavramlarBilgelik (Wisdom) ulaşılmaya çalışılan noktadır ve bu kavramların zirvesinde yer alır. Bilgilerin kişi tarafından toplanıp bir sentez haline getirilmesiyle ortaya çıkan bir olgudur. Yetenek, tecrübe gibi kişisel nitelikler birer bilgelik elemanıdır.Bilgi (Knowledge), bu süreçteki üçüncü aşamadır. Enformasyonun alıcı için taşıdığı anlamdır. Diğer bir deyişle alıcının bir fonksiyonudur. Enformasyonun, bilgiye dönüşmesi, bireyin onu algılaması, özümsemesi ve sonuç çıkarmasıyla gerçekleşir. Dolayısıyla bireyin algılama yeteneği, yaratıcılık, deneyim gibi kişisel nitelikleri de bu süreci doğrudan etkilemektedir.Enformasyon (Information), veri kavramının tanımından yola çıkıldığında, piramitteki ikinci basamaktır. Yani verilerin ilişkilendirilmiş, düzenlenmiş, işlenmiş halidir. Bu haliyle enformasyon, potansiyel olarak içinde bilgi barından bir veri halindedir.Veri, oldukça esnek bir yapıdadır. Temel olarak varlığı bilinen, işlenmemiş, ham haldeki kayıtlar olarak adlandırılırlar. Bu kayıtlar ilişkilendirilmemiş, düzenlenmemiş yani anlamlandırılmamışlardır. Ancak bu durum her zaman geçerli değildir. İşlenerek farklı bir boyut kazanan bir veri, daha sonra bu haliyle kullanılmak üzere kayıt altına alındığında, farklı bir amaç için veri halini koruyacaktır.

5

Bilimsel Araştırma

Araştırma yapmadan önce en temel olan, araştırılacak bir sorunun (bir hipotezin) varlığıdır.

Ho: Sıfır Hipotezi

H1: Alternatif Hipotez

6

Bilimsel AraştırmaDaha sonra bu sorunun ne kadar anlam taşıdığı, yani olası cevabın diğer hangi yeni soruları ve araştırmaları gündeme getireceği, pratik kullanım alanlarının neler olduğu, bilgi birikimine (knowledge) ne kadar katkıda bulunacağı, aynı hipotezin daha önce yeterli derecede araştırılıp araştırılmadığı, bulunan sonuçların tutarlılığı gibi sorular gündeme getirilmelidir.

7

Bilimsel Araştırma

Bundan sonraki aşama ise soru/hipotezin nasıl test edileceğidir. Kullanılacak yöntemin bilimsel (yani tekrar test edilebilir, diğer araştırmacılar ve klinisyenler tarafından anlaşılabilir, matematiksel geçerliliği mutabık olunan istatistiksel yöntemlerle incelenmiş) olması gereklidir.

8

Bilimsel Araştırma

Araştırmanın nasıl yapılacağı (uygun finansal destek, denek sayısı, ortam, vs.) daha sonra sorulacak bir sorudur. Yani araştırma sorusunun bilimsel olarak geçerli bir yöntemle nasıl test edileceği sorusunun cevabı aranmadan başlanan çalışmalar pek çok açıdan sıkıntılarla karşılaşacaktır.

9

Bilimsel AraştırmaBu sıkıntılara örnek olarak; seçilen anket/ görüşme yöntemi/ labaratuar testi/ ilaç dozu vs. sonradan değiştirilmesi, çalışma deseninin bozulması (yeniden başlama), denek sayısı ve/veya finans desteğinin yetmemesi, tanıların yanlış konması, sonuçlara etki eden kofaktörlerinunutulması, eksik data toplanması, zaman ve motivasyon kaybı, araştırmanın bitmemesi ve asla yayımlanmaması vs. sayılabilir.

10

Bilimsel AraştırmaÖncelikle yapılması gereken değişkenlerimizin tanımlanmasıdır. Bilimsel düşüncenin temelinde neden-sonuç ilişkisi yatar. Neredeyse tüm bilimsel araştırmalar da bu ilişkiyi inceler. Sonuç yani bağımlı değişken pek çok faktörden (bağımsız değişken) etkilenir.

11

Bilimsel Araştırmaİdeal araştırma, araştırdığı faktörler dışındaki değişkenlerin sabit tutulduğu araştırmadır. Fakat bunu gerçekleştirmek imkansızdır. Bu sebeple ideale en yakın araştırma incelediği faktörler dışındaki değişkenleri mümkün olduğunca hesaba katar. Araştırmalarda faktör (bağımsız değişken) sayısı arttıkça denek sayısının artması gerekir ve kullanılan istatistiksel yöntem değişir.

12

İstatistik

İstatistik, verilerin toplanması, organize edilmesi, özetlenmesi, sunulması, analiz edilmesi ve bu verilerden bir sonuca varılabilmesi ile ilgili olarak kullanılan bilimsel metotlar topluluğudur.

13

İstatistik

Uygun istatistik yöntemin seçilmesi için değişkenlerin ölçüm özellikleri iyi belirlemek gerekir. Kategorik değişkenlere, sayısal değişkenlerde uygulanabilecek istatistik yöntemleri uygulamak gibi hatalara düşmemek için, bu özellik çok önemlidir.

14

Ölçeklerİsimsel, Kalitatif (Nominal) ÖlçeklerSıralı (Ordinal) Ölçekler Aralık (Interval) ÖlçeklerOransal (Ratio) Ölçekler

15

İstatistiksel YöntemlerBetimsel (Tanımsal) İstatistik Yöntemleri– Merkezi Eğilim Ölçüleri– Dağılım (Değişim) Ölçüleri

Çıkarımsal İstatistik Yöntemleri– Farkların önemli olup olmadığının incelendiği

teknikler (Parametrik ve NonparametrikTestler).

– İlişki saptama ve eldeki verilerin kestirim yapabilme gücünü test eden teknikler(Regresyon ve Korelasyon Analizi).

16

Uygun İstatistiksel Analiz Yönteminin Seçimi

Bu aşamaya gelmeden;1. Araştırma soru/hipotezimiz var.2. Araştırma hipotezi bilimsel bir anlam ve değer taşıyor.3. Daha önceki literatür bilgileri incelenmiş, sorunun cevabı

araştırılmamış ya da yeterince aydınlatılamamışsa;

Şu soruların cevapları aranmalıdır:1. Araştırma bir farklılık araştırması mı yoksa bir ilişkisellik

araştırması mı olacaktır?2. Verilerin ölçekleri ne türdedir?3. Çalışmada kaç hasta/denek grubu vardır?4. Bağımsız değişkenlerimiz (faktörlerimiz) bir tane mi yoksa daha

fazla mıdır?5. Veri gruplarımız bağımlı (grup içi/repeated) mı yoksa bağımsız

mıdır?6. Sayısal verilerin dağılımı normal midir?

17

Merkezi Eğilim ÖlçüleriAritmetik Ortalama: Değerlerin toplamının denek sayısına bölünmesiyle elde edilir. Sayısal değişkenler için merkezi eğilim ölçütüdür. Ordinal değişkenler için kullanılamaz. Aşırı değerlerden etkilenir. Uç değerleri değerlendirme dışı tutan ya da uç değerlere daha az ağırlık veren kareli ortalama veya geometrik ortalama uç değerlerin etkisini azaltmak için kullanılabilir.Ortanca =Orta değer=Median: Küçükten büyüğe ya da büyükten küçüğe doğru sıralandığında, tam ortadaki deneğin değeridir. Denek sayısı çiftse, ortadaki iki deneğin ortalamaları alınır. Ordinal veriler için en iyi merkezi dağılım ölçütüdür. Aşırı değerlerden etkilenmez. Nominal değerler için uygun değildir.Tepe değeri = Mod: Değişkenler içinde en fazla görülen, en çok tekrarlanan değerdir. Tıpta nadir kullanılan bir merkezi eğilim ölçütüdür. Ordinal ve sayısal değişkenlerde kaba bir merkezi eğilim ölçütü olarak kullanılabilir. Nominal veriler için uygun bir merkezi eğilim ölçütüdür.

18

Dağılım (Değişim) ÖlçüleriFarklı grupların merkezi eğilim ölçütleri aynı olduğu halde, gruplar birbirlerinden çok farklı olabilir. Bu nedenle merkezi eğilim ölçütleri yanında, yayılma ölçütleri de çok önemlidir.Değer aralığı = Genişlik = Range: En basit yaygınlık ölçüsüdür. En küçük ve en büyük değer arasındaki farktır. Örnek büyüklüğü ile artma eğilimi vardır. Ortalama gibi, uç değerlerden çok etkilenir. En uçtaki iki değer arasında kalan değerler hakkında bilgi vermez. Standart sapma (standard deviation) ve varyans (variance): Tüm değerlerin dağılımı ile bilgi verirler. Tüm değerler eşitse, her ikisi de sıfıra eşittir. Değerler arasında farklar arttıkça standart sapma (σ) ve varyansbüyür. Standart sapma değişken değerlerinin ortalamanın etrafındaki yayılmasını temsil eden bir yayılma ölçütüdür. σ’in karesine varyans adı verilir. Merkezi eğilim ölçütü olarak ortalama kullanıldığında, yayılma ölçütü olarak da standart sapma kullanılır. Dağılım özelliği ne olursa olsun, değerlerin en az % 75’i ortalama ± 2σiçinde yer alır. Normal dağılım gösteren değişken değerleri için aşağıdaki kurallar geçerlidir :– 1. Değerlerin % 67’si ortalama ± 1σ içindedir.– 2. Değerlerin % 95’i ortalama ± 2σ içindedir.– 3. Değerlerin % 99’u ortalama ± 3σ içindedir.

19

N=100µ=?σ = ?

n1=20_x1=60s1=5

n2=20_x2=50s2=6

20

21

Dağılım (Değişim) ÖlçüleriStandart hata: Aynı evrenden seçilecek, ya da seçilmesi mümkün olan aynı büyüklükteki örneklemlerin ortalamalarının dağılmasına ortalamanın örneklem dağılımı denir. Ortalamanın örneklem dağılımının ölçütü ortalamanın standart hatası (standard error of mean = SEM)’ dır.Çalışmaya alınan örneklemin dağılma özellikleri verilmek isteniyorsa, doğru olanı Ss’nın verilmesidir. Çünkü, SEM örneklemdeki deneklerin dağılması ile ilgili olmadığı için, çalışma grubunun değişkenliğini göstermez. Çalışma gruplarındaki ortalamaların karşılaştırıldığı grafiklerde ise SEM kullanılması daha doğrudur. Değişim katsayısı [coefficient of variation (CV)]: Birimleri farklı olan değişkenlerin yayılmalarını karşılaştırmak için değişim katsayıları kullanılır. Değişim katsayısı, standart sapmanın ortalamaya oranının yüzde olarak ifadesidir.

22

Grafiksel GösterimlerHistogramlar

23

Grafiksel GösterimlerEğiklik (Skewness)Sağa eğik (skewed right) ve sola eğik (skewedleft)

24

Grafiksel GösterimlerBasıklık (Kurtosis)Eğri A: Dik,Eğri B: NormalEğri C: Basık

25

Neden Örnekleme

Bazı testlerin yok edici özelliği olması.

Anakütledeki tüm elemanları kontrol etmenin fiziksel zorluğu.

Anakütledeki tüm elemanları

incelemenin maliyeti.

Pek çok durumda örnek sonuçlarının yeterli bulunması.

Tüm anakütleyi kapsamanın uzun zaman alması.

Örnekleme TürleriTesadüfi Olmayan Örnekleme Anakütleden örnek kütleye seçilecek elemanlar belirli özellikleri nedeniyle örnek kütleye seçilir.Tesadüfi olmayan örneklemede bir elemanın örneğe seçilmesi örneği seçen kişinin kararına bağlıdır. Örneklem hatası örnek istatistiği ile ona karşılık gelen anakütle parametresi arasındaki farktır.

26

Örnekleme TürleriTesadüfi Örnekleme

a) Basit Tesadüfi Örnekleme: Anakütleden örnek kütleye seçilecek her elemanın eşit şansa sahip olması durumudur.

b) Sistematik Tesadüfi Örnekleme: Anakütledeki elemanlar belirli bir sırada dizilir. Tesadüfi bir başlangıç noktası seçilir ve sonra her k’ıncı eleman örnek kütleye seçilir.

27

Örnekleme Türleric) Tabakalı Tesadüfi Örnekleme: Anakütle önce ortak

özelliklere sahip alt gruplara bölünür. Bunlara tabaka denir. Sonra her bir tabakadan bir örnek kütle seçilir.

28

Örnekleme Türlerid) Küme Örneklemesi: Önce anakütle temel birimlere

bölünür. Sonra örnekler bu temel birimlerden seçilir. Her birimden eleman seçmek şart değildir.

29

Örnek ortalamalarının örneklem dağılımı bir anakütledenseçilecek, ya da seçilmesi mümkün olan aynı büyüklükteki örneklerin ortalamalarının dağılımıdır. Ortalamanın örneklem dağılımı da denir. Örnek ortalamalarının örneklemdağılımının ölçütü, ortalamanın standart hatasıdır. (standard error of mean = SEM)

Standart Hata

σ x = σ√ n

SEM, ’nın denek sayısının kareköküne bölümüne eşittir. Örneğin x= 15, s = 3.5, n = 50, SEM = 0.5 olsun. Evrendenseçilecek 50 denekli örneklemden elde edilen ana kütle ortalaması % 95 olasılıkla 15 ± 2sx = 14 – 16 arasında olacaktır.

s x = s √ n

veya eğer n >30 ise

Eğer anakütle standart sapması biliniyor veya örnek kütle çapı 30 dan büyükse, örnekleme dağılımı zdağılımına uygundur.

nszX ±

nstX ±

Eğer anakütle standart sapması bilinmiyor ve anakütle dağılımı normale yakınsa ve örnek kütle çapı 30 dan küçükse, örnekleme dağılımı t dağılımına uygundur.

Güven Aralığı

nsX 2±

nszX ±

Anakütle Ortalaması için güven aralığı

Anakütle ortalaması için % 95 CI

Anakütle ortalaması için % 99 CI

nsX 3±

CI: Confidence Interval (Güven Aralığı)

14.100.14494200.142

±=

±=±nsX

Güven aralığı limitleri 12.86ile 15.14 arasındadır.

49 kişi üzerinde yapılan bir araştırmada yaş ortalaması 14 ve standart sapmasının da 4 olduğu bulunmuştur. %95 olasılıkla Anakütle ortalaması kaçtır?

nppzp )1( −

±

Anakütle oranı için güven aralığı

Bir mahalleden tesadüfi olarak seçilmiş 144 seçmenin %20’sinin X partisini desteklediği görülmüştir. Mahalledeki X partili saçmen sayısı oranı %95 ihtimalle hangi aralıkta yer alır?

066.20. 144

)80)(.20(.220. ±=±

Anakütledeki değişim

Örnek çapını belirleyen 3 faktör:

Seçilen güven düzeyi

İzin verilen maksimum hata

2

=E

szn

Örnek çapının hesaplanması

E İzin verilen hataz seçilen güven düzeyine karşılık gelen z değeris pilot araştırmanın örnek standart sapması

1445

)20)(3( 2

=

=n

Bir firmanın halkla ilişkiler departmanı yeni ürettikleri ürün ile ilgili şikayetlerin ortalama 70 gün içinde geldiğini ve standart sapmanın da 20 gün olduğu bilmektedir. 5 günlük bir hata miktarını göze alarak %99 olasılıkla ortalama şikayet süresi tahmin edilmek istenirse ne kadar büyüklükte bir örnek çapı gerekir?

n p pZE

= −

( )1

2Elimizde olasılık değerleri varsa

kullanılacak formül:

p geçmişteki tecrübelere veya pilot çalışmaya göre kestirilen olasılık değeri

Z seçilen güven düzeyine karşılık gelen zdeğeri

E Araştırmacının tolerans gösterebileceği maksimum hata

40003.2)10)(.90(.

2

=

=n

Televizyonda Ana Haber bülteninin izlenme olasılığının %90 olduğu önceki çalışmalardan bilinmektedir.

Ana Haber bülteni ile ilgili bir izleyici araştırması yapabilmek için Kestirimimizi anakütle oranına göre %3 yanılma payı ile hesaplamayı kabul ederek, %95 güven düzeyinde kaç kişilik bir örnek kütle seçmek gerektiğini hesaplayınız.

Eğer anakütlede örnek çapı hesaplamasının gerektirdiğinden daha az denek olursa ne yapacağız?

Birinci Adım: Örnek çapını önceden yaptığınız gibi hesaplayın.

n = no

no

N1 +no birinci adımda hesaplanan örnek çapı.N anakütle çapı.

İkinci Adım: Yeni örnek çapını hesaplayın.

Bir araştırmacı bir üniversitedeki öğretim üyelerinin sigara içme yasağına uyup uymadığını araştırmak istemektedir. Araştırmacı, insanların %80’inin sigara yasağına uyduklarını söyleyeceğini beklemektedir.

Üniversitede 200 öğretim üyesi bulunmaktadır. Araştırmacı sonuçlardan %95 emin olmak istemektedir. Hata marjının da %3 ten fazla olmamasını istemektedir. Araştırma için kaç öğretim üyesi ile görüşülmelidir?

n p pZE

= −

( )1

2

Birinci AdımÖrnek çapını önceden yaptığınız gibi hesaplayın.

= (.80)(.20) 1.96.03

2= 711

İkinci AdımYeni örnek çapını hesaplayın.

n = no

no

Nn0/(1 + ) =

711711/(1 + )711

200= 156

2

top related