İstatistik testlerdeki sonuçlarda görülen p değeri nasıl yorumlanır?


Bunu anlatmadan önce “sıfır hipotezi (null hypothesis”) kavramını anlatmalıyım:

Örneğin, “iki ölçülen olgu arasında bir bağlantı yoktur” veya “denenen tedavinin bir etkisi yoktur” sıfır hipotez olabilirler (Wikipedia)

Şimdi istatistik programlarında yaptığınız bir testin sonucu yerine çıkan p değeri ise sıfır hipotezine göre yorumlanır. 

p değeri 0 ile 1 arasındadır. Bu  değer 0.05 değerinden küçük ise sıfır hipotezine inanmayın der. (Kaynak)

Yani p değeri:

  • 0.05’ten büyükse sıfır hipotezi yalan (yani büyük ihtimalle)
  • 0.05’ten küçükse sıfır hipotezi doğru (yani büyük ihtimalle)

Bir örnek ADF Test:

Şimdi bir örnek verelim:

R’da ADF diye bir test var. Bir zaman serisinin durağan olup olmadığını test ediyor (Açılım: Augmented Dickey-Fuller test). Dokümantasyonu okuyunca şöyle diyor:

Computes the Augmented Dickey-Fuller test for the null that x has a unit root.

Yani bu testin sıfır hipotezi verilen serinin (x) birim kök içerdiğidir.

Birim kök içermek demek verinin durağan olmadığı anlamına gelir
Kaynak

Bir deney yapalım:

Şimdi R ile normal dağılıma sahip 100 sayı oluşturalım:


x = rnorm(1000)

Bu oluşan sayılar pozitif ve negatif tamamen tesadüfi olan 0 ile 1 arasında 1000 adet sayıdır. Bu sayıların durağan olup olmadığına bakmak için ADF testi yapıyoruz.


adf.test(x)

Sonuç şöyle çıkıyor:


data: x
Dickey-Fuller = -8.6139, Lag order = 9, p-value = 0.01
alternative hypothesis: stationary

Warning message:
In adf.test(x) : p-value smaller than printed p-value

Biz veri durağan mı kardaş diye soruyoruz p-value- 0.01 olduğundan yani 0.05’ten küçük olduğundan sıfır hipotezimiz (yani bu veride birim kök vardır hipotezi) doğru değildir. Yani bu veride birim kök vardır yalan. Birim kök yoktur. Dolayısıyla veri durağan değildir.

Birim kök, durağanlık p değeri derken kafa karışıyor haliyle. Buna çözüm olarak şöyle özetleyelim adf testi için:

adf.test yapınca p-value

  • 0.05’ten küçük veya ona eşit ise veri durağan değildir
  • 0.05’ten büyükse veri durağandır.

Durağanlık neydi yaa..

Tanımı Şurada

Veri durağan ise sorun yoktur. Ancak modellere konacak ise durağan hale getirilmesi gerekir. Durağan olmayan bir veri farkı alınarak durağan hale getirilebilir. (Kaynak: Gujaraati-Basic Econometrics s:747)

Bu istatistikçilerle, ekonometriciler millete eziyet olsun diye olayları hep olduğundan daha zor şekilde anlatıyorlar.

Reklamlar

Ekonometriyi anlamak


Ekonometriyi anlayamıyorum, çok soyut ve zevksiz filan diyorsanız bir çözümümüz var. Jon Stewart’ın Understanding Econometrics adlı kitabını bulunca en az Enigma’yı çözmüş kadar sevindim. Nitekim bazen hayal alemine daldırtan ve insani olmaktan çıkan ekonometrik kavramları insani bir dille anlatmaktan söz ediyor ve sıfır ekonometri bilgisine sahip birine anlatırcasına anlatıyordu. Bu yönü ile bu kitabı kesinlikle öneriyorum.
Ön Kapak

Kitabı okurken, yine okuma notu kabilinden aşağıdaki notları aldım. Koyu punto ile gösterilen tanımlar kitaptan yaptığım alıntıların Türkçe halidir.
denklemini ele alalım C: Tüketim, D talep olsun.
Intercept: a değeridir
Slope: Beta değeridir.
Dependent value: C değeridir.
Explanatory variable: D değedir.
Marginal Propensity (Marjinal eğilim), Talebin tüketime eğilimidir.
Doğal olarak talep ile tüketim arasında yukarıdaki gibi bir denklem gerçekçi olmaz. Çünkü bu denklem doğrusal bir denklemdir ve iş o kadar kolay olsaydı talebe bakıp çat diye tüketimi tahmin ederdik. Eh bunun için denklemi biraz geliştirmemiz gerekiyor:
Disturbance (hata terimi): u ile gösterilen genellikle ne idüğü belirsiz değerdir.
En Küçük Kareler Yöntemi
Bir anakütlenin ya da zaman serisinin tamamının kendi içindeki ilişkisi şöyle olsun:
Anakütleyi bilmediğimiz ya da zaman serisinin bir parçasını aldığımız zamanki denklem yukarıdaki ile aynı değil ama ona yakın olan başka bir denklem olacaktır. Bu denklem de şöyle gösterilsin:
Şimdi bu iki denklem arasında olan fark ise  ile gösterilir ki formülü şu olur: 
İşte bu  değerine kalıntı ya da residual denilir.
Bu residual kavramını  denklemindeki  değeri ile karıştırmayın. U değeri yukarıda belirttiğimiz üzere disturbance (hata terimi) olup artık alfa ve betamızın açıklayamadığı, ya da belki tümden açıklanamayan dolayısıyla tesadüfi olması beklenen bir değerdir.
Şimdi  denklemimiz ile  denklemimiz arasındaki farklı en küçük hale getirmek yani   değerini en küçük hale getirmek istesek ne yaparız? (Niye istiyoruz çünkü örneklem modelimizin ana kütleyi büyük ölçüde yansıtmasını bekleriz) 
Kitapta anlatılan ve benimse detayına girmediğim matematiksel ıspatla en küçük kareler yöntemi ile örnekleme serpilme diyagramında öyle bir regresyon çizgisi çizeriz ki anakütle serpilme diyagramı olduğunda buna en yakın halde olsun [DOĞRULANMALI].