Decision Trees (Karar Ağaçları) — Machine Learning

Kaan Uğurluoğlu
2 min readMay 1, 2021

--

Önceki yazımızda k-en yakın komşuluk, algoritmasından bahsetmiştik. Bu yazımızda da gözetimli öğrenme algoritmalarından olan “Karar Ağaçları” (Decision Tree — DT) konusunu ele alacağız.

Karar ağaçları, sınıflandırma problemlerinin çözümünde yaygın olarak kullanılan algoritmalardandır. Anlaşılması diğer algoritmalara göre daha kolaydır. Karar ağacında öncelikle ağaç oluşturulur ve eldeki veri bu ağaca uygulanır.

Karar ağacı algoritması, veri setini küçük ve hatta daha küçük parçalara bölerek geliştirilir. Bir karar düğümü bir veya birden fazla dallanma içerebilir. İlk düğüme kök düğüm (root node) denir. Bir karar ağacı hem kategorik hem de sayısal verilerden oluşabilir.

J.R. Quinlan, tarafından 1986 yılında bir veri setinden “karar ağacı” üretmek için geliştirilen ID3 algoritması geliştirmiştir. Bu algoritma aşağıdan yukarı (top-down : kökten alt dallara doğru) ve greedy search (sonuca en yakın durum) teknikleri kullanılır. Decision Tree konusunda sıklıkla göreceğiz C4.5 algoritması ID3 algoritmasının bir uzantısıdır. ID3 algoritması Entropy ve Information Gain üzerine inşa edilmiştir.

Entropy: rastgeleliğe, belirsizliği ve beklenmeyen durumun ortaya çıkma olasılığını gösterir. Eğer örnekler tamamı düzenli / homojen ise entropisi sıfır olur. Eğer değerler birbirine eşit ise entropi 1 olur. Entropinin formülü:

Avantajları:

-Karar ağacı oluşturmak kolay ve zahmetsizdir.

-Sürekli ve ayrık değerler için kullanılabilir.

-Küçük ağaçları yorumlamak kolaydır.

-Anlaşılabilir kurallar oluşturulabilir.

Dezavantajları:

-Sürekli nitelik değerlerini tahmin etmekte çok başarılı değildir

-Sınıf sayısı fazla ve öğrenme kümesi örnekleri sayısı az olduğunda model oluşturma çok başarılı değildir

-Zaman ve yer karmaşıklığı öğrenme kümesi örnekleri sayısına, nitelik sayısına ve oluşan ağacın yapısına bağlıdır

-Hem ağaç oluşturma karmaşıklığı hem de ağaç budama karmaşıklığı fazladır.

Şimdi bir örnek yaparak Decision Tree’ nin Python’ da kullanımını inceleyelim.

Decision Tree Karmaşıklık Matrisi:

16 + 18 + 15 + 1= 50 tane veri içinden 49 tanesini doğru tahmin edilirken 1 tanesi yanlış tahmin edilmiştir.

Başarı oranı 49 / 50= 0,98 ‘ dir.

Bu yazımızda Decision Tree algoritmasını inceledik. Bir sonraki yazıda görüşmek üzere…

--

--

No responses yet