Bu yazıda bilimsel araştırma süreci, süreç içinde ortaya çıkan istatistiksel hata türleri ve ilişkili kavramlar olan istatistiksel güç, anlamlılık düzeyi, p-değeri gibi konuların kavramsal arka planını, birbirleriyle olan ilişkilerini detaylıca ele aldık. Hazırsanız, çayınızı-kahvenizi alın bu kritik kavramları daha yakından irdeleyelim.
İçindekiler
ToggleAdım Adım İstatistiksel Hipotez Test Süreci
Bir bilimsel araştırma süreci genel olarak 4 alt başlıkta ilerler:
Alternatif hipotez geliştirme
- Araştırmacı doğru olduğuna inandığı bir önerme ortaya koyar.
Yokluk hipotezi tanımlama
- Araştırmacının önerisinin tersine iddia edilenin, söz konusu etkinin veya önermenin doğru olmadığını varsayar.
Test istatistiklerini hesaplama
- Yokluk hipotezinin doğru olduğu varsayımı altında aradaki farklılığa ilişkin bir istatistik hesaplanır. Bu varsayım olmazsa test istatistikleri hesaplanamaz ve sonraki süreç tıkanır.
Anlamlılık değerine göre karar verme
- Test istatistiğinin temsil ettiği ve bulduğu farklılığın hangi ölçüde önemli ve anlamlı sayılacağına karar verilir.
Neden anlamlılık değeri belirliyoruz?
- Bu yapılmasaydı bulunan küçük veya büyük farklılık kişiye bağlı olarak, keyfi bir şekilde önemli veya önemsiz olarak nitelenebilirdi.
- Ne kadarlık bir farklılık bizim için önemli sayılacak? Bu değer bilimsel çalışmalarda çalışmanın en başında belirlenir ve değiştirilmez.
Hata Kavramı
Bu kavramı örnek bir araştırma üzerinden açıklayalım:
Örnek Araştırma: Varsayalım ki bir araştırmacı dil eğitiminde yeni bir öğretim tekniği geliştirmiş olsun ve bu tekniğin mevcut tekniklerden daha başarılı sonuçlar sağladığını iddia etsin.
Hipotezlerimiz:
- Ho: Araştırmacının geliştirdiği teknik ile mevcut teknikler arasında dil öğrenme açısından farklılık yoktur.
- H1: Araştırmacının geliştirdiği teknik mevcut tekniklerden dil öğrenme noktasında daha başarılıdır, etkindir.
Hata Türleri
Yukarıda verilen veya herhangi bir bilimsel araştırma süreci sonucuna ilişkin test yürütülürken ilk anda 2 sonuç akla gelir:
- Araştırmacının düşündüğü etki, gerçekte toplumda vardır.
- Araştırmacının düşündüğü etki, gerçekte toplumda yoktur.
Bu sonuçlara ek olarak iki olası sonuç daha ortaya çıkabilir:
- Gerçekte kitlede savunulan etki yokken var olduğunu düşünmek. İşte bu durumda hata yapılmış oluruz ve bu hatayı 1. Tip Hata veya α (alfa) hatası olarak adlandırırız.
- Gerçekte kitlede savunulan etki varken olmadığını düşünmek. Yine hata yapmış oluruz ve bu hatayı ise 2.Tip Hata veya β (beta) hatası olarak adlandırırız.
Hata türleri ile ilişkili bir diğer kavram ise anlamlılık düzeyidir. Şimdi bu kavrama değinelim:
Anlamlılık Düzeyi ve Özellikleri
- α (alfa) değeri veya 1.Tip hata olarak olarak adlandırılır.
- Araştırmacılar genellikle 0.001, 0.005, 0.01, 0.05 ve 0.10 değerlerinden birini anlamlılık düzeyi olarak seçer.
- Daha fazla hassasiyet gerektiren, gelişmiş bilim dallarında (fizik, sağlık alanları gibi) 0.001, 0.005, 0.01 olarak alınırken, sosyal bilimler vb alanlarda 0.05 veya 0.10 alınabilmektedir.
Anlamlılık Düzeyinin Temel Fonksiyonu
- Araştırmacının ölçümlerine bağlı hesaplanan istatistikler ile yokluk hipotezinin doğru olduğu varsayımı altında hesaplanan değer arasındaki ne kadarlık bir farklılığın önemli olacağını belirlemektir.
- Belirlenen anlamlılık değerine göre eşik değer dolaylı olarak belirlenmiş olur ve bu değerin altında ve/veya üzerinde olan değerler önemlidir, anlamlıdır denilir.
- Öyle bir eşik değer belirlenmelidir ki test istatistiğinin o değeri aşma olasılığı belirlenen bu α değerine eşit olsun istenir.
Anlamlılık değeri ile birlikte karar vermede kritik öneme sahip olan ve anlamlılık değeriyle karşılaştırılan p değerine değinelim.
p Değeri ve Özellikleri
- α (alfa) değeri ile ilişkilir, onunla karşılaştırma için hesaplanan değerdir.
- Alfa değeri gibi 0 ile 1 arasında değer alır.
- Alfa değerinden küçük ise yokluk hipotezi reddelirken, aksi durumda kabul edilir.
- Alfa değeri araştırmanın başında sabit bir değer olarak belirlenirken, p değeri araştırmacının ölçümlerine bağlı elde edilir.
p Değerinin Arka Planı ve Kavramsal Yorumu
- Hesaplanan test istatistiğinin örnekleme dağılımı mevcut dağılımlardan birine uyuyorsa (çoğu zaman z, t, Ki kare, F gibi dağılımlara uyar) gerçekleşme olasılığı bu dağılımlar aracılığı ile bulunur ve bu olasılık p değeri (yazılımlarda significance value) olarak geçer.
- Kavramsal olarak yorumu ise, yokluk hipotezinin doğru olduğu kabulü altında araştırmacının önermesindeki etkinin rastgele, şansa bağlı ortaya çıkma olasılığıdır.
2.Tip Hata (β)
Gerçekte yanlış olan yokluk hipotezinin, kabul edilmesi durumunda oluşur.
Diğer bir deyişle, araştırmacı tarafından iddia edilen etki kitlede varken olmadığını söyleyerek iddiasını anlamsız kılmaktır.
2.Tip Hatanın Özellikleri
- Burada sorun kitlede olan bir etkiyi tespit edememektir. Bu bazı çalışmalarda çok ciddi sonuçlar doğurabilir. Bu nedenle 2.tip hata, 1.tip hata kadar önemli olabilir.
- Çalışmalarda 1.tip hata yani anlamlılık değeri önceden belirlenerek sabit tutulur.
- 2.tip hatanın üst sınırına ilişkin ise yaygın olarak 0.2 (%20) değeri önerilmiştir.
- Bunun yorumu iddia edilen etkinin olduğu kitleden 100 örnek çektiğimizde bu örneklerin 20’sinde var olan etkiyi bulamamayı göze alıyoruz demektir.
- 1.tip hata ile 2.tip hata arasında bir çekişme bulunmaktadır. Birinin azaltılması diğerini artırır.
Testin Gücü (1 – β)
- Bir testin gerçekte yanlış olan yokluk hipotezini reddedebilme becerisidir.
- Diğer bir deyişle toplumda (gerçekte) var olan bir etkiyi testin yakalayabilme becerisidir.
- Testin gücünün doğal olarak yüksek olması istenir.
Testin Gücünün Özellikleri
- Yaygın öneri olarak 2.tip hatanın üst sınırı 0.2 (%20) olarak önerilmiştir. Buradan güç değerinin de asgari 0.80 (%80) olarak önerildiği ortaya çıkar.
- Testin gücünün etkileyen sadece 2.tip hata değildir. Bunun dışında örneklem boyutu, anlamlılık (1.tip hata) değeri ve gerçekte var olan etkinin büyüklüğü doğrudan gücü etkiler.
- Tanımından hareketle bir testin gücünün sadece yokluk hipotezi reddedildiğinde hesaplanabileceği görülmektedir.
- Yokluk hipotezi reddedilmişken onun reddini sağlayan her parametre değeri için güç hesaplanabilir ve değişimi gözlenebilir.
Bir Bilimsel Araştırma Nasıl Sonuçlandırılır?
Adım 1: Yokluk Hipotezinin Kabulü
- Araştırmacının önerisine karşı oluşturulan yokluk hipotezinin doğru olduğu yani gerçekte araştırmacının iddia ettiği etkinin olmadığı kabul edilerek sürece başlanır.
Adım 2: İddiayı Destekleyecek Veriyi Toplama
- Bu kabulün aksini kanıtlayabilecek bilgiler, ölçümler toplanır.
Adım 3: Test İstatistiklerini Hesaplama
- Yokluk hipotezinde kabul edilen ve araştırmacının ölçümleri kullanılarak test istatistikleri hesaplanır.
Adım 4: Test İstatistiğine Karşılık Gelen p Değerini Bulma
- Bu test istatistiğinin örnekleme dağılımı kullanılarak gerçekleşme olasılığı bulunur.
Adım 5: p Değeri ile α (alfa) Değerini Kıyaslama
- Eğer hesaplanan bu olasılık (diğer bir deyişle p değeri), araştırmanın başlangıcında belirlenen α (alfa) değerinden düşükse yokluk hipotezi reddedilir, aksi durumda yokluk hipotezi kabul edilir.
Sonuç ve Genel Değerlendirme
Bu yazıda bilimsel araştırma süreci içindeki kritik bileşen olan hipotez sürecinde ortaya çıkan hata türleri ve ilişkili olarak güç kavramına değindik. Bir araştırmada hata olmak zorunda mıdır veya anlamlılık değerini çok düşük aldığımızda ne gibi sonuçları olur? sorularından hareketle değerlendirmelerimizi şu şekilde listeleyebiliriz:
- 1.tip hata ile 2.tip hata ters orantılı, güç ile doğru orantılıdır.
- 1.tip hatayı azaltmanız, red bölgesinin eşik değerini artmasına ve beraberinde toplumda var olan bazı etkilerin anlamlı bulunmasının zorlaşmasına neden olur. Bu da var olan bir etkiyi bulamama, gerçekte yanlış olan yokluk hipotezinin kabul edilmesi anlamına geliyor olup 2.tip hatanın artmasını sağlar.
- Gerçekte var olan bazı etkilerin reddedilmesi zorlaşırsa bu var olan etkinin tespit edilememesi demektir ki, bu da tam olarak testin gücünün az olacağı anlamına gelir.
- Bu nedenle literatürde kabul görmüş bazı değerler vardır. Dilediğimiz gibi bu değerlerle oynayamayız. Araştırmacılar 1.tip hata değerini başlangıçta sabit tutarak çalışma boyunca oluşacak toplam hatayı bir bakıma sabit tutarlar. Bu değere bağlı olarak da güç hesaplanır. Güç için hedeflenen değer yaygın öneri olarak asgari 0.80, dolayısıyla da 2.tip hatanın maksimum değeri 0.20 olacak şekilde deneyler planlanır.
Onbeşinci yazısını tamamladığımız “adım adım istatistik temelleri” adlı yazı dizisinde alan içinden ve dışından bireylerin sorunsuzca kavrayabileceği formatta birçok içerik hazırlamaktayız. Serinin önceki yazılarına blog adresimizden ulaşabilirsiniz.
Aklınıza takılan soruları, varsa yorumlarınızı bizimle yorum olarak veya iletişim sayfamızdan paylaşmayı ihmal etmeyin. Hepinize bol istatistikli ve analizli günleriz dileriz 🙂 Sonraki yazılarda görüşmek üzere.