Multicollinearity nedir nasıl başa çıkılır. SPSS örneği

En basit tanımıyla multicollinearity bir değişkeni yordayan (tahmin eden) en az iki değişken arasında çok yüksek ilişkinin olması durumudur. Aralarındaki ilişki çok yüksek olan iki değişken kısmen birbirinin çok benzeri olacağından ikisinden birisinin atılması uygun olacaktır. Multicollinearity tespiti için çeşitli testler bulunmaktadır, bunların arasında en kolay kulanımı olanlar SPSS istatistik programında regresyon analizine giren değişkenlerin collinearity değerlerini hesaplamaktadır. Regresyon analizi seçeneklerinde collinearity diagnostics seçilirse multicollinearity için bir tespit analizi yapılmaktadır.

Bu tespitlerin başında varyans artış faktörü gelir (variance inflation factor— VIF (varyans genişlik faktörü)). Bir değişkeni yordayan iki bağımsız değişken arasındaki ortak varyans miktarına göre belirlenen bu faktör bize iki yordayıcı değişken arasındaki ortak olmayan varyansın miktarını 1 ile sonsuz arasındaki bir ölçek düzeyinde gösterir. VIF’nin formülü basittir.VIF=1/1-R2(Rkare).  (burada Rkare iki bağımsız yani yordayıcı değişken arasındaki ilişkiyi göstermektedir. Her bir değişken grubu için tekrar tekrar hesaplamak gerekmektedir. Gerçi SPSS bu işi bizim için yapıyor). Bazıları VIF değerinin 10 ve 10’dan daha büyük olmasının collinearity (ya da multicollinearity) için yeterli olduğunu söylmektedir. Bu durumda Rkare 0,90 çıkmş demektir. Yani iki bağımsız değişken arasındaki korelasyon katsayısı 0,95 demektir. Açıkcası bana göre VIF’nin 10 ve daha yüksek olduğunda collinearity’yi göstermesi çok kabul edilebilecek bir durum değildir. Çünkü iki yordayıcı değişken arasındaki korelasyon zaten 0,95’e dayanmışsa bu ikisi neredeyse birbirinin aynısı demektir. Birini zaten çoktan atmış olmamız gerekmektedir. Peki hangi değer kabul edilecektir. VIF için kesin bir yanıt yok ama yüksek VIF değerleri size collinearity sorununu hatırlatsın diyebiliriz. Collinearity için başka kontrol yöntemleri de geliştirilmiş durumda. Condition index bunlardan en çok bilinenidir. Bağımsız değişkenlerin ortak varyanslarının özdeğerlerine (eigenvalues) göre bulunması esasına dayan bu yöntemde ortak varyans oluşturan her bir değişkenlerarası korelasyon matrisi için bir özdeğer hesaplanır..  (Tıpkı faktör analizinde olduğu gibi). Bu özdeğerler bize, bağımsız değişkenlerimizin, kendi aralarında oluşturdukları ortak faktörü/faktörleri birlikte dengeli/eşit bir şekilde açıkladıklarına ilişkin bilgi verir. (alttaki tabloya bakınız). Eğer tüm değişkenler oluşturdukları faktörü aynı derecede/güçte açıklıyorlarsa özdeğer yüksek çıkacaktır. Eğer her biri oluşturdukları faktörü farklı güçlerde/derecelerde açıklıyorlarsa özdeğerleri de düşük çıkacaktır. Zaten bu değer özdeğer denmesinin sebebi de bu. öz-değer. Birlikte eşitliği tutturabilme, birlikte ve uyumlu bir şekilde “bir şey” üretebilme gibi bir anlamı var.   Daha sonra bu özdeğerlerden en büyüğü, elde edilmiş tüm özdeğerler için ayrı ayrı olmak üzere diğer özdeğerlere bölünerek karekökü alınır. Yani birlikte dengeli bir şekilde bulunabilme güçlerinin en yüksek olduğu durum birlikte dengeli bir şekilde bulunabilmenin diğer koşullarına oranlanır. Bu condition index değeri çok yüksek çıkarsa değişkenlerden en az ikisi arasında collinearity sorunu olduğu düşünülür. Bu çok yüksek nerede başlamaktadır. Neyse i bunun kesin bir cevabı var. Eğer condition index 15 ve daha üzerinde bir değer aldıysa collinearity düşünülür. Hangi değişkenler arasında collinearity olduğunu bulabilmek içinse değişkenlerin açıkladıkları varyansa bakmak gerekecektir. Bunun için de yine sağolsun SPSS yardımcı oluyor. Aşağıdaki spss tablosu metinden sıkılanlar için daha yardımcı olabilir.

Dimension  Eigenval     Condition                         Variance Proportions

                                          Index             Constant     X1        X2        X3

1                  3.819       1.00             .004          .006    .002    .002

2                  .117          5.707          .043          .384    .041    .087

3                  .047          9.025          .876          .608    .001    .042

4                  .017          15.128       .077          .002    .967    .868

Görüldüğü gibi 4 boyutta X2 ve X3 değişkenlerinin eigenvalue (özdeğer) değeri 15,128. açıkladıkları varyanslara bakınca ikisinin de 4 boyutu yüksek oranda benzer şekilde açıkladıkları görülüyor. Yani bunlardan birisine gerek yok.
Bu tür durumlarla karşılaşıldığında izlenebilecek bir kaç yol var
1) Umurunuzda bile olmaması
2) faktör analizi ile iki değişkeni birleştirmek ve yeni bir ortak değişken ile regresyonu tekrarlamak
3) Birisini gözden çıkarmak
4) Regresyon analizinde subsetler belirleyerek analizi buna göre yapmak

şimdi size bütün bu işlemlerin SPSS’te hangi yoldan yapılacağını da anlatayım.
Tabii ki önce analyse menüsüne  oradan  regression açılan yerden de
linear kısmına tıklıyoruz. Açılan dialog penceresinden (ne demekse) bağımlı bağımsız değişkenleri uygun yerlere gönderiyoruz. bu dialog penceresinde sol altta bir statistics butonu (düğmesi) göreceksiniz oraya tıklıyoruz. Sağda model fit’ten başlayan ve collinearity diagnostics’e kadar işaretlenebilir kutucukların hepsini işaretliyoruz. (bir kısmı burada anlatılmadı ama size lazım olacaktır). Ok deyip devam ediyorsunuz. Analizi yaptığınızda yukarıda anlattığım her şey son iki tabloda karşınızda olacak.

 

2 yorum

Bir yanıt bırakın

E-posta hesabınız yayımlanmayacak.


*


This site uses Akismet to reduce spam. Learn how your comment data is processed.