Ortalama atama değişkenler arasındaki ilişkileri bozar Ancak ortalama atama aynı zamanda çok değişkenli ilişkileri bozar ve korelasyon gibi istatistikleri etkiler. Örneğin, aşağıdaki PROC CORR çağrısı, Orig_Height değişkeni ile Ağırlık ve Yaş değişkenleri arasındaki korelasyonu hesaplar.
Kayıp veriler için bir ortalama kullanmak neden kötü bir fikirdir?
Ortalama verilerin varyansını az altır Matematiğin derinliklerine inildiğinde, daha küçük bir varyans, olasılık dağılımında daha dar güven aralığına yol açar[3]. Bu, modelimize bir önyargı eklemekten başka bir şeye yol açmaz.
Eksik değerler neden bir sorundur?
Eksik veriler çeşitli sorunlara yol açar. İlk olarak, veri yokluğu istatistiksel gücü az altır, bu da testin yanlış olduğunda boş hipotezi reddetme olasılığını ifade eder. İkincisi, kayıp veriler, parametrelerin tahmininde yanlılığa neden olabilir. Üçüncüsü, örneklerin temsil edilebilirliğini az altabilir.
Ortalama değerlendirme neden kötüdür?
Problem 1: Ortalama imputasyon, değişkenler arasındaki ilişkileri korumaz. Doğru, ortalamayı yüklemek, gözlemlenen verilerin ortalamasını korur. Bu nedenle, veriler rastgele tamamen eksikse, ortalamanın tahmini tarafsız kalır.
Eksik verileri ortalamayla değiştirmeli misiniz?
Outliers veri noktalarının ortalama üzerinde önemli bir etkisi olacaktır ve bu nedenle, bu gibi durumlarda, eksik değerleri değiştirmek için ortalamanın kullanılması tavsiye edilmez. Eksik değerleri değiştirmek için ortalama değerleri kullanmak harika bir model oluşturmayabilir ve bu nedenle göz ardı edilir.