PCA-Principal Component Analysis (Temel Bileşen Analizi) -Machine Learning
Denetimsiz diğer adı ile gözetimsiz öğrenme elimizdeki veri setinde bağımlı değişken olmadığı durumlarda yapılan öğrenme işlemidir. K-means , hiyerarşik kümeleme analizi ve temel bileşen analizi yöntemlerini amaçları aynı olması sebebi ile denetimsiz öğrenme başlığı altında değerlendirebiliriz.
Bu yazımızda Temel bileşenler analizidenden bahsedeceğiz. Ardından bir Python kodu yazıp yazımızı tamamlayacağız.
Temel bileşen analizindeki temel fikir, çok değişkenli bir verideki temel özelliklerin daha az sayıdaki bileşenle temsil edilmesidir. Bir diğer ifade ile küçük miktarda bilgi kaybını göze alarak değişken boyutunu azaltmaktır. Oluşacak bilgi kaybının gürültüyle kıyaslanabilir oranda küçük olması tercih edilir. Temel bileşen analizi uygulandığında, ana özelliklerin korunuyor olması önemli bir husustur.
Boyut Azaltmanın Amacı:
. Doğruluk puanını artırmak ,
. Aşırı öğrenmeyi (overfitting) engellemek,
. Daha az bilgisayar gücü kullanmak ve depolamayı azaltmak,
. Verideki gürültüyü gidermek .
Teknik olarak incelersek, değişken gruplarının varyanslarını ifade eden öz değerler ile veri setindeki değişkenler gruplandırılır. Gruplar arasında en fazla varyansa sahip olan en önemli grup olur. İşte bu gruplara temel bileşen denir.Bu kısım biraz karmaşık gelmiş olabilir. Örnek bir algoritmanın çalışma mantığını inceleyerek daha iyi algılayabiliriz.
Sklearn kütüphanesinden wine veri setini kullandık. Bağımlı ve bağımsız değişkenleri atadık.
Yalnızca iki özellik arasındaki korelasyonu görmek isterseniz kullanacağınız bir yöntem
Fit metodu ile verilerimizi nasıl değiştireceğimizi öğrendik, transform metodu ile de bunu uyguladık.
6. ve 7. özellik arasındaki yeni korelasyon aşağıdaki gibi ilintisizleştirildiğini görüyoruz.
Temel Bileşenler Analizinin ikinci aşamasında görselleştirme yapılarak esas boyutun sayısının kaç olacağına karar verilir.
n_components değeri olarak düşürmek istediğimiz boyut sayısını gönderdik, ardından fit ve transform işlemleri ile veri setimizin boyutunu düşürme işlemini tamamladık.
Bu çalışmada temel bileşen analizi yöntemini inceledik . Sonraki yazımızda görüşmek üzere…