Orijinal Ölçekten Madde Atarak Uyarlama Yapılabilir mi?
Orijinal Ölçekten Madde Atarak
Uyarlama Yapılabilir mi?
Bir ölçek yalnızca maddelerin toplamı değildir. Peki ya o maddelerden biri “tutmadığında” ne olur?
1. Van Gogh’un Tablosu
Van Gogh’un bir tablosunu düşünün. O tablo bir uyarıcılar bütünüdür — renk seçimleri, fırça darbeleri, perspektif, nesnelerin birbirine göre konumu. Bunların her biri ayrı ayrı anlamsız olabilir; ama bir arada, belirli bir sırayla ve oranla bir araya geldiklerinde bir anlam bütünlüğü üretirler. Sanatçının içinde bulunduğu kültür o anlamı üretir, izleyicinin kültürü onu alımlar. Tablo, bu iki kültür arasında kurulan bir köprüdür.
Şimdi bu tabloyu Türkiye’ye getiriyoruz. Bir araştırma yapıyoruz; katılımcılara tabloyu gösteriyoruz ve tepkilerini ölçüyoruz. Ama bir sorun var: tablodaki sandalyeler Türk katılımcılarda beklenen tepkiyi üretmiyor. Faktör analizimiz tutmuyor; sandalyeler “yük taşımıyor.”
Bu tablo artık Van Gogh’un tablosu mudur? Sandalyeler gittikten sonra elde ettiğimiz tepki, orijinal tablonun uyandırdığı tepkiyle aynı mı? Biz buna “Van Gogh’un tablosunun Türkçe uyarlaması” diyebilir miyiz?
Aksine: sandalyeler çıktıktan sonra ortaya çıkan şey, Van Gogh’un vermek istediği etkiden bambaşka bir psikolojik uzayda yer alıyor olabilir. İki etki artık aynı eksende bile değildir.
Ölçek uyarlaması da tam olarak budur. Ve sahadaki gerçeklik şudur: araştırmacılar her gün “sandalyeleri siliyor,” bunun üstüne de “Van Gogh’un orijinal ölçeğini kullandık” diye yazıyor.
2. Ölçek Nedir Ontolojik Olarak?
Bir ölçek, yalnızca soruların bir listesi değildir. Her ölçek üç şeyin birleşimidir:
- Teorik bir yapı: Ölçülmek istenen psikolojik özelliğin kuramsal çerçevesi.
- Bir uyarıcılar örüntüsü: Bu yapıyı harekete geçirmek için tasarlanmış, belirli bir kültürel bağlamda anlam taşıyan ifadeler — ve bu ifadelerin birbirleriyle ilişkisi, sırası, dengesi.
- Psikometrik bir kanıt kümesi: Belirli bir örneklemde, belirli bir prosedürle elde edilmiş geçerlik ve güvenirlik bulguları.
Bu üçü bir arada anlam taşır. Birini değiştirdiğinizde diğerleri de sarsılır.
Uyarıcılar örüntüsü meselesine biraz daha odaklanalım. Bir ölçekteki maddeler birlikte bir anlam bütünlüğü üretir. Bu bütünlük içinde maddelerin nasıl sıralandığı bile ölçülecek özelliğin nasıl tetiklendiğini belirleyen ve sınırlayan bir etkendir. Maddelerin birbirini nasıl izlediği, katılımcıda hangi zihinsel çerçeveyi aktive ettiği, hangi boyutu ön plana çıkarıp hangisini geri plana attığı — bunların hepsi ölçüm sürecinin bir parçasıdır.
Bir ölçekteki tek bir madde bile değişse — çıkarılsa, eklense ya da yeri değişse — o artık neyi uyardığı kesin olarak bilinmeyen bir uyarıcı takımıdır. Bu aşırı bir çıkarım değil; ölçmenin doğasından kaynaklanan bir gerçektir.
Bunu söylemek, “hiçbir şeyi değiştirmeyin” demek değildir. Kültürel uyarlama kaçınılmaz olarak bir dönüşümdür. Ama bu dönüşümün sınırları ve bedelleri hakkında dürüst olmayı gerektirmektedir.
3. “Faktör Analizi Tutmadı, Maddeyi Attım” — Ne Oldu Aslında?
Sahadaki tipik senaryo şu şekilde işler: Araştırmacı orijinal ölçeği Türkçeye çevirir. Doğrulayıcı faktör analizi (DFA) yapar. Birkaç maddenin faktör yükü düşük çıkar ya da model uyumu kabul edilebilir sınırların altında kalır. Araştırmacı bu maddeleri atar, modeli yeniden çalıştırır, uyum iyileşir. Makaleye “ölçeğin Türkçe uyarlaması yapılmıştır” yazar.
- Neden tutmadı sorusu sorulmadı. Madde gerçekten kültürel olarak işlevsiz mi, yoksa çeviri sorunu mu, yoksa örneklem sorunu mu? Bu ayrım yapılmadan atılan madde, bir semptomu değil belki de hastalığın kendisini götürüyor olabilir.
- Yapısal eşdeğerlik test edilmedi. Kalan maddeler hâlâ orijinal ölçekle aynı psikolojik yapıyı mı ölçüyor? Bu soru hiç sorulmadı.
- Psikometrik kanıt yeniden üretilmedi. Madde atıldıktan sonra elde edilen ölçeğin geçerlik ve güvenirliği sıfırdan kanıtlanması gerekirken, orijinal ölçeğin psikometrik özellikleri sahiplenilmeye devam edildi.
- Okuyucu yanıltıldı. “X ölçeğini kullandık” ibaresi, okuyucuda orijinal ölçeğin tüm özelliklerinin devrede olduğu izlenimini yaratır. Ama kullanılan araç artık o ölçek değildir.
Burada çok önemli bir epistemolojik sorun var: faktör analizinin “tutmaması” bir başarısızlık habercisi değil, bir bilgi kaynağıdır. Madde bu kültürde tutmuyorsa bunun bir nedeni vardır. Bu neden araştırılmadan maddeyi atmak, bir termometrenin yüksek sıcaklık göstermesi üzerine termometreyi kırmaya benzer.
4. Doğru Uyarlama Nasıl Yapılır?
4.1. Çeviri Değil, Eşdeğer Uyarıcı Üretmek
Ölçek uyarlamasında ilk ve en yaygın hata, süreci bir çeviri işi olarak görmektir. Oysa mesele, orijinal dildeki kelimelerin karşılığını bulmak değil; o kelimelerin orijinal kültürdeki psikolojik etkisinin eşdeğerini hedef kültürde üretmektir.
Bir ifade birebir çevrildiğinde tam anlamıyla aynı şeyi söyleyebilir ama aynı uyarıcı etkiyi üretmeyebilir. Tersine, farklı kelimelerle yazılmış bir ifade tam olarak aynı psikolojik örüntüyü harekete geçirebilir. Amaç kelime eşdeğerliği değil, uyarıcı eşdeğerliğidir.
Bunu sağlamanın pratikte birkaç aşaması vardır:
- İleri-geri çeviri (forward-back translation) — ama bunu yeterli görmemek.
- Hedef kültürden uzmanlarla bilişsel ön görüşmeler: katılımcı maddeyi okurken ne anlıyor, hangi durumları, kişileri, duyguları hayal ediyor?
- Pilot uygulama ve madde bazında gözleme dayalı inceleme — istatistiklere geçmeden önce.
4.2. Uyarıcı Şiddetinin Eşdeğerliği
Çeviri doğru olsa bile uyarıcının şiddeti farklı olabilir. Orijinal kültürde “Hiçbir zaman kendimi değersiz hissetmem” ifadesi belirli bir psikolojik yükle geliyorsa, Türkçe karşılığı aynı yükü taşımalıdır. Bu yük kültürden kültüre farklılaşabilir.
Uyarıcı şiddetinin eşdeğerliğini sınamanın en doğrudan yolu, orijinal çalışmadaki faktör yüklerini beklenen değer olarak kullanmaktır. Orijinal çalışmada bir maddenin faktör yükü 0.78 ise, uyarlanan ölçekte bu maddenin faktör yükünün istatistiksel olarak anlamlı biçimde farklılaşmaması beklenir.
Elbette “ne kadar sapma kabul edilebilir?” sorusu kritiktir. Burada birkaç yaklaşım düşünülebilir:
- Orijinal çalışmanın faktör yükü standart hataları erişilebilirse, z testi uygulanabilir. Pratikte bu bilgiye çoğunlukla ulaşılamaz.
- Erişilemeyen durumlarda araştırmacı kabul edilebilir bir sapma aralığı belirleyebilir (örn. ±0.10) ve bu kararı gerekçesiyle birlikte raporlamalıdır. Fakat unutulmamamlıdır ki burada alınacak karar yine de feyfi olacaktır.
- Daha ileri bir adım olarak ölçme değişmezliği (measurement invariance) analizi yapılabilir — ancak bu için orijinal çalışmanın ham verilerine ihtiyaç vardır ki bu genellikle mümkün olmaz.
Faktör yükü eşdeğerliğini istatistiksel olarak sınayan, standart hata tahmini olmadığı durumlarda kabul edilebilir sapma aralıkları öneren ve bunu Türkiye örneklemi üzerinde uygulayan kapsamlı bir metodoloji çalışması henüz Türkçe literatürde bulunmuyor. Bu, iyi bir tez veya makale konusu olabilir.
5. R ile Uygulama: lavaan’da Faktör Yükü Sabitleme
Teorik tartışmayı somutlaştıralım. Aşağıdaki örnekte, orijinal çalışmada faktör yükleri bilinen 5 maddelik kurgusal bir ölçeği Türkçeye uyarladığımızı varsayıyoruz. Lavaan ile iki farklı model kuruyoruz:
- Serbest model: Faktör yükleri serbestçe tahmin edilir (standart DFA).
- Kısıtlı model: Faktör yükleri orijinal değerlere sabitlenir; model uyumu test edilir.
Ardından iki modeli karşılaştırarak madde bazında ne kadar saptığımızı görürüz.
# ── Kütüphaneler ──────────────────────────────────────────────────── library(lavaan) library(dplyr) # ── Kurgusal veri: 5 madde, 300 kişilik Türkçe uyarlama verisi ────── set.seed(42) n <- 300 # Orijinal çalışmadaki faktör yükleri (raporlanmış) yuk_orijinal <- c(.78, .72, .80, .65, .71) # Kurgusal Türkçe veride gerçek yükler biraz farklı olsun # (3. madde sorunlu — bu bizim "tutmayan sandalye") yuk_turkce <- c(.74, .69, .41, .68, .73) faktor <- rnorm(n) hata <- matrix(rnorm(n * 5), nrow = n) veri <- as.data.frame(sapply(1:5, function(i) { yuk_turkce[i] * faktor + sqrt(1 - yuk_turkce[i]^2) * hata[, i] })) names(veri) <- paste0('m', 1:5) # ── Model 1: Serbest (standart DFA) ───────────────────────────────── model_serbest <- ' psikolojik_yapi =~ m1 + m2 + m3 + m4 + m5 ' fit_serbest <- cfa(model_serbest, data = veri, std.lv = TRUE) cat('── Model 1: Serbest ────────────────────────────────────────\n') summary(fit_serbest, fit.measures = TRUE, standardized = TRUE) # ── Model 2: Kısıtlı (orijinal yükler sabitlendi) ─────────────────── # Lavaan'da sabit yük için madde = yuk * faktör sözdizimi kullanılır model_kisitli <- ' psikolojik_yapi =~ 0.78*m1 + 0.72*m2 + 0.80*m3 + 0.65*m4 + 0.71*m5 ' fit_kisitli <- cfa(model_kisitli, data = veri, std.lv = TRUE) cat('\n── Model 2: Kısıtlı (orijinal yükler sabitlendi) ──────────\n') summary(fit_kisitli, fit.measures = TRUE, standardized = TRUE) # ── Model karşılaştırması ──────────────────────────────────────────── cat('\n── Model Karşılaştırması ──────────────────────────────────\n') anova(fit_serbest, fit_kisitli)
Şimdi madde bazında sapmaları açıkça raporlayalım. Bu adım çoğu çalışmada atlanır ama en kritik adımdır:
# ── Madde bazında faktör yükü karşılaştırması ──────────────────────── yukler_serbest <- standardizedsolution(fit_serbest) %>% filter(op == '=~') %>% select(rhs, yuk_turkce = est.std) karsilastirma <- yukler_serbest %>% mutate( madde = rhs, yuk_orijinal = yuk_orijinal, sapma = round(yuk_turkce - yuk_orijinal, 3), yuk_turkce = round(yuk_turkce, 3), sorunlu = ifelse(abs(sapma) > .10, '⚠️ Dikkat', '✓') ) %>% select(madde, yuk_orijinal, yuk_turkce, sapma, sorunlu) cat('\n── Faktör Yükü Karşılaştırma Tablosu ─────────────────────\n') print(karsilastirma) # Çıktı (yaklaşık): # madde yuk_orijinal yuk_turkce sapma sorunlu # m1 0.78 0.74 -0.040 ✓ # m2 0.72 0.69 -0.030 ✓ # m3 0.80 0.41 -0.390 ⚠️ Dikkat # m4 0.65 0.68 0.030 ✓ # m5 0.71 0.73 0.020 ✓
Çıktı bize şunu söylüyor: m3 — bizim “tutmayan sandalye” — orijinal kültürde 0.80 yük taşırken Türkçe veride yalnızca 0.41 yük taşıyor. Bu 0.39 puanlık sapma rastlantısal değildir ve ciddi bir anlam sorununa işaret eder.
# ── Modifikasyon indekslerine bakalım ──────────────────────────────── # Maddenin başka faktörlerle ilişkisi var mı? # Ölçek tek faktörlüyse, m3 hangi maddelerle korelasyon artığı taşıyor? modindices(fit_serbest, sort. = TRUE, maximum.number = 10) # ── Madde-toplam korelasyonu ───────────────────────────────────────── # Basit bir kontrol: m3 diğer maddelerle ne kadar ilişkili? toplam_diger <- rowSums(veri[, c('m1','m2','m4','m5')]) cat('m3 ile diğer maddeler toplamı arasındaki korelasyon:', round(cor(veri$m3, toplam_diger), 3), '\n') # Eğer bu korelasyon da düşükse, madde gerçekten bu yapıdan kopmuş demektir. # Soru şu: Bu kültürel bir sorun mu, yoksa çeviri sorunu mu? # İstatistik bize "ne olduğunu" söyler; "neden olduğunu" söylemez. # Cevap için bilişsel görüşmeler, odak grup gibi çalışmalar yapmak gerekir.
İşte burada çok önemli bir nokta var: istatistik bize “ne olduğunu” söyler, “neden olduğunu” söylemez. m3’ün düşük yük taşıması bize bir şeylerin yanlış gittiğini gösterir. Ama neyin yanlış gittiğini anlamak için daha bilişsel sorgulamaya dayalı araçlara — bilişsel görüşmelere, uzman incelemelerine, belki odak grup çalışmalarına — dönmek gerekir.
6. Madde Atmak Zorunda Kaldım — Ne Yapmalıyım?
Tüm bu çabaya rağmen bazen bir maddeyi korumak gerçekten mümkün olmayabilir. Bilişsel sorgulamalar ve inceleme yapıldı, çeviri gözden geçirildi, farklı ifadeler denendi; ama madde bu kültürde hiçbir şekilde orijinal ölçekteki rolünü üstlenemiyor.
Bu durumda yapılması gerekenler sırasıyla şunlardır:
- Ölçeğin orijinal adını artık kullanamazsın. Madde atıldıktan sonra ortaya çıkan araç, orijinal ölçeğin revizyonu ya da uyarlaması değil; yeni bir araçtır. Bu araç kendi psikometrik kanıtına muhtaçtır.
- Yeni psikometrik çalışma zorunludur. Madde atıldıktan sonra elde edilen araç için keşfedici faktör analizi, güvenirlik analizi ve yakınsak/ayrışık geçerlik çalışması sıfırdan yapılmalıdır.
- Şeffaf raporlama şarttır. Hangi maddenin neden atıldığı, bu kararın nasıl gerekçelendirildiği, ortaya çıkan aracın orijinalinden farklılaştığı — bunların tamamı yöntem bölümünde açıkça yazılmalıdır.
- Orijinal ölçeğin psikometrik özelliklerini sahiplenme. “Ölçeğin güvenirliği 0.89 olarak raporlanmıştır” ifadesinin altında artık senin aracın değil, orijinal ölçek yatmaktadır.
“Orijinal ölçek X maddeden oluşmaktadır. Türkçe uyarlama sürecinde m3’ün (orijinal faktör yükü: 0.80) bu örneklemde yeterli faktör yükü taşımadığı görülmüştür (Türkçe örneklemde elde edilen faktör yükü: 0.41). Bilişsel görüşmeler bu maddenin Türkçe ifadesinin orijinal kültürdeki anlamsal karşılığı tam olarak taşımadığını ortaya koymuştur. Bu nedenle m3 ölçekten çıkarılmış; kalan maddelerle yürütülen yeni analizlerde Türkçe formun kendi psikometrik kanıtı elde edilmiştir. Kullanılan araç bundan böyle ‘[Ölçek Adı] Türkçe Kısa Formu’ olarak adlandırılmaktadır.”
7. Sonuç
Van Gogh’un tablosuna dönelim. Sandalyelerin tutmadığını gördük. Ne yapacağız?
Doğru soru şudur: Sandalyeler neden tutmuyor? Bu soruyu sormak, hem daha iyi bir araştırmacı hem de daha dürüst bir bilim insanı olmayı gerektirir.
Belki sandalyeler tutmuyordur çünkü çeviri yüzeysel kalmıştır. Belki tutmuyordur çünkü bu kültürde o maddenin uyardığı psikolojik örüntü gerçekten farklıdır — ve bu başlı başına ilginç bir bulgudur. Belki tutmuyordur çünkü bu kültürde o yapının kavramsallaştırılması farklı maddeler gerektirmektedir.
Bunların hepsi, sandalyeleri silmekten çok daha değerli bilgilerdir.
Aklınızda Kalsın
- Bir ölçek uyarıcılar örüntüsüdür; tek madde bile değişse neyi ölçtüğü tartışmalı hale gelir.
- Çeviri yeterli değildir; hedeflenecek şey uyarıcı eşdeğerliğidir, kelime eşdeğerliği değil.
- Faktör analizi “ne olduğunu” söyler, “neden olduğunu” söylemez. Zihinsel/Bilişsel sorgulamaya dayanan araçlar olmadan madde atmak erkendir.
- Faktör yüklerini orijinal değerlere sabitleyerek kısıtlı modeli test etmek, eşdeğerliği sınamanın pratik bir yoludur.
- Madde atmak zorunda kalındığında ölçeğin orijinal adı artık kullanılamaz; yeni psikometrik kanıt zorunludur.
- Şeffaf raporlama bir tercih değil, bilimsel bir sorumluluktur.