Regresyonda dummy değişken kullanma

Regresyon normalde en basit haliyle bir sürekli değişkendeki değişimle öteki sürekli değişkende ne kadar değişim olduğuna dayalı olarak değer tahmini için yapılan bir analiz. 


Regresyon genelde tahmin için kullanılır. Örneğin belirli bir ilaçtan alma miktarı ile ilacın yan etkilerinin miktarı arasında bir ilişki olduğuna dair bir hipotez bulunsun. Bir çalışma ile farklı miktarda o ilaçtan alan bireylerin ilacı alma dereceleri ve gözlenen yan etkiler data olarak toplanır. Aşağıda örnek bir data uydurdum.

ilaç(mg)     (belirti)

8,00 123,00

9,00 125,00

9,00 132,00

10,00 140,00

10,00 141,00

10,00 141,00

10,00 140,00

11,00 145,00

12,00 147,00

12,00 150,00

12,00 150,00

12,00 152,00

13,00 160,00

14,00 164,00

15,00 170,00

regresyon analizi yaptığında modelin anlamlı olduğunu göreceksin. Bu çalışmanın regresyon eşitliği de 
Belirti = 71,71 + (6,613 x ilaç(mg))  olarak çıkacak.
Bu noktadan sonra şunu söyleyebiliriz:
Hangi miktarda ilaç aşağı yukarı hangi miktarda belirti üretecek biliyoruz. Diyelim ki acil bir hasta geldi ve 20 mg ilaç aldığını biliyoruz. Daha önce araştırmada hiç rastlamadığımız bir değer bu. Hiç sorun olmayacaktır çünkü iki değişken arasındaki doğrunun eğimini (regresyon eşitliğini yani) bildiğimizden eştliğe hemen ilacın miktarını yazarak biraz sonra bu hastada gözlenecek olan belirti miktarını çıkarabiliriz. 
Belirti = 71,71+(6,613×20)Belirti = 203,97   olacaktır. 
Dolayısı ile regresyon bana gözlediklerimden yola çıkarak gözleme şansım bulunmayan değerlerin ne olacağına dair tahmin yürütme şansı vermiş olacak.
Peki tahmin edici değişken sürekli değişken olmazsa ne olacak (asıl konu burada başlıyor)
Mesela ben hastaların cinsiyetini biliyorum ve belirti durumlarını merak ediyorum. Acaba kadın ya da erkek olma durumuna bakarak belirtinin miktarını tahmin edebilir miyim?
Edebiliriz elbette. Hatta bunu yapmak için regresyon yapmaya da gerek yok. t testi ya da varyans analizi bize kadın ve erkek olma hali ile belirti ortalamaları arasında anlamlı farklılık olup olmadığını zaten verecektir. kadın erkek gruplarının belirti ortalamaları arasında anlamlı farklılık çıkarsa cinsiyet belirti gösterme durumunun anlamlı bir tahmin edicisidir de demektir. 
Fakat illa ki regresyonla yapacağım diyorsak bunun bir yolu elbette var. 
Cinsiyeti tahmin edici (yordayıcı) yani bağımsız değişken olarak atayabiliriz. Fakat spss’te kodlama yaparken 1 ve 2 olarak kodlarsak spss cinsiyet değişkenini sürekli değişken olarak kabul ederek 2 yi o değişkendeki yükselme (artma) durumu olarak algılayacak 1’i ise düşüklük (azlık) durumu olarak algılayacaktır. Bu durumda elde edilen sonuçlar mantıken ve istatistiksel olarak açıklanamaz bir hal alacaktır. 
Cinsiyet değişkeni 0 ve 1 şeklinde kodlanarak dummy (gölge/kukla) değişken haline getirilecek ve var yok şeklinde yorumlanabilir bir hal alması sağlanacaktır. 
Dummy değişken genelde iki kategorili olarak kodlanır. Cinsiyet, hasta olup olmama, gözlük takıp takmama vs gibi. Bir özelliğe sahip olma durumu 1 olmama durumu 0 olur genelde. 
Örnek data şöyle olsun. (erkekler=1, kadınlar =0)

cins   belirti

,00 123,00

,00 125,00

,00 132,00

,00 140,00

,00 141,00

,00 141,00

,00 140,00

1,00 145,00

1,00 147,00

1,00 150,00

1,00 150,00

1,00 152,00

1,00 160,00

1,00 164,00

1,00 170,00


Bu durumda regresyon modeli anlamlı çıkacaktır. F değerin 21,313 olacaktır. 
Regresyon eşitliğini ise şöyle yazabilirsin
Belirti = 134,571 + 20,179 x cinsiyet
Mesela bir örnek yapalım:
Bir erkeğin yaşayacağı belirtiyi bulalım. 
Belirti = 134,57 + 20,179 x 1
Belirti = 154,749
Peki bir kadının yaşayacağı belirti
Belirti = 134,57 olacaktır. 
şimdi aslında dikkat edecek olursan aslında br erkeğin belirtisi olan  154,749 aslında erkekler grubunun belirti ortalaması, bir kadının belirtisi olan 134,57 ise kadınların belirti ortalaması. B katsayısı olan  20,179 ise bu iki ortalama arasındaki fark.
Yani aslında dummy değişken yaparak iki grubun ortalaması arasındaki 20,179’luk farkın anlamlı olup olmadığını t testi ya da varyans analizi ile değil regresyon modeli ile test etmiş olduk. Hatta eğer varyans analizi yapsaydın da F değerini yine 21,313 bulacaktın. Hatta t testi yapsaydın t değerini F değerinin karekökü kadar bulacaktın (çünkü böyle bir ilişki var, iki kategorili değişkenlerin ortalamalarını karşılaştırırken elde ettiğimiz t değerinin karesi varyans analizinde bulduğumuz F değerine eşit olur.) işte bu nedenle dummy değişkenin regresyon analizi çıktısında bulabileceğin ve dummy değişkenin anlamlılığını test eden t değeri de F değerinin kareköküne eşit olur. 
Madem aslında başka yolla yapılabiliyor neden dummy değişken kullanıyoruz. 
Sebebi çok basit. Regresyon denkleminde her zaman sadece bir tane bağımsız değişken olmuyor. 
Çok sayıda bağımsız değişkenin birlikte değişimleme miktarını bulurken dummy değişken de bu değişkenler arasında analize giriyor. 
Örneğin
Bağımlı değişken = Sabit + (B1 x birinci bağımsız değ.)+(B2 x ikinci bağımsız değ) ……
gibi denklemlerde dummy değişken de test edilivermiş oluyor. 
Dummy değişken her zaman kategori sayısının 1 eksiği kadar tane olmalı.
Çünkü kategorilerden birisi base alınarak diğer durumlara karşı test edilir. Mesela ilacın alınma durumları 4 kategoriyse (hiç yok, biraz, orta, çok gibi)
3 tane dummy değişkenin olmalı. Mesela ilacın hiç olmadığı durumu base alırsan
biraz      orta         çok        belirti

0             0             0

0          0             0

1             0            0

1             0             0

0             1             0

0             1             0

0             0             1

0             0             1
dummy değişkenlerin en sonuna ya da en başına bir de ilacın hiç olmadığı durumu 1 olarak kodladığın başka bir sütun daha atarsan zaten 3 değişkenle açıklayabildiğin bir durumu fazladan bir değişkenle daha açıklamaya çalışmış olursun ki buna multicollinearity problemi denir. Bu duruma dummy variable trap deniyor.
Eğer yukarıdaki değişkenleri aynen regresyon analizine atarsan (belirti değerlerini sem uydurabilirsin) sana 3 tane bağımsız değişken için regresyon analizi yapmış olacaktır. Bu noktada sana kalan biraz değişkeninin anlamlı olup olmadığını, orta değişkeninin anlamlı olup olmadığını ve çok değişkeninin anlamlı olup olmadığını belirlemek olacaktır. Eğer üçü de anlamlıysa demek ki hiç ilaç almama durumuna karşı belirti ortalamasını yükseltiyorlar demektir. Eğer birisi anlamlıysa o anlamlı olan “hiç ilaç almama durumuna” karşı ortalamayı yükseltiyor demektir. 


Yayımlandı

kategorisi

yazarı:

Etiketler:

Yorumlar

Bir yanıt yazın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir

Bu site, istenmeyenleri azaltmak için Akismet kullanıyor. Yorum verilerinizin nasıl işlendiği hakkında daha fazla bilgi edinin.