In der Mess- und Prüftechnik
PD Stefan Bosse
Universität Bremen - FB Mathematik und Informatik / AG 0
Universität Siegen - FB Maschinenbau / LMW
PD Stefan Bosse - Automatische Schadensdiagnostik - Modul D Klassifikation und Regression mit Entscheidungsbäumen ::
Zielvariablen: Primär Kategorische Variablen; Sekundär Numerische Variablen
Eigenschaftsvariablen: Kategorische und Numerische Variablen
Modell: Gerichteter azyklischer Graph (Baumstruktur)
Training und Algorithmen: C4.5, ID3, C5.0, ICE, CART, RF
Klasse: Überwachtes Lernen
PD Stefan Bosse - Automatische Schadensdiagnostik - Modul D Klassifikation und Regression mit Entscheidungsbäumen :: Entscheidungsbäume
Ein Entscheidungsbaum ist ein gerichteter azyklischer Graph bestehend aus einer Menge von Knoten N die mit den Eingabevariablen x verknüpft sind und Kanten E die die Knoten verbinden
Die Endknoten sind Blätter und enthalten Werte der Zielvariablen y (daher kann y nur eine kategorische Variable sein, oder eine intervallkategorisierte)
Die Kanten bestimmen die Evaluierung des Entscheidungsbaum beginnend von dem Wurzelknoten bis zu einem Blattknoten
Ein Entscheidungsbaum besteht aus Regeln. Jeder Knoten kann als eine Evaluierungsregel aufgefasst werden.
PD Stefan Bosse - Automatische Schadensdiagnostik - Modul D Klassifikation und Regression mit Entscheidungsbäumen :: Entscheidungsbäume
M(X):X→Y,X={xi},Y={yj}DT=⟨Nx,Ny,E⟩Nx={ni:ni↔xj},Ny={ni:ni↔val(yj)}E={eij:ni↦nj|ϵij}
PD Stefan Bosse - Automatische Schadensdiagnostik - Modul D Klassifikation und Regression mit Entscheidungsbäumen :: Entscheidungsbäume
M(X)=⎧⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪⎨⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪⎩xi=v1,⎧⎪⎨⎪⎩xj=v1,val(y)xj=v2,val(y)xj=v3,{..xi=v2,⎧⎪⎨⎪⎩xk=v1,{..xk=v2,{..xk=v3,{..xi=v3,⎧⎪⎨⎪⎩xl=v1,{..xl=v2,{..xl=v3,{..
PD Stefan Bosse - Automatische Schadensdiagnostik - Modul D Klassifikation und Regression mit Entscheidungsbäumen :: Entscheidungsbäume
Man unterscheidet:
Binäre Bäume. Jeder Knoten hat genau (oder maximal) zwei ausgehende Kanten (Verzweigungen). Der Test der Variable x kann daher nur x < v, x > v, x ≥ v, oder x ≤ v sein! Wird vor allem bei numerischen Variablen eingesetzt.
Bereichs- und Mehrfachbäume. Jeder Knoten hat 1..k ausgehende Kanten (Knotengrad k). Der Test der Variable x kann auf einen bestimmten Wert x ∈ V oder auf ein Intervall [a,b] erfolgen! Wird vor allem bei kategorischen Variablen eingesetzt.
PD Stefan Bosse - Automatische Schadensdiagnostik - Modul D Klassifikation und Regression mit Entscheidungsbäumen :: Entscheidungsbäume
Grundlegende Struktur eines Entscheidungbaumes
PD Stefan Bosse - Automatische Schadensdiagnostik - Modul D Klassifikation und Regression mit Entscheidungsbäumen :: Entscheidungsbäume
PD Stefan Bosse - Automatische Schadensdiagnostik - Modul D Klassifikation und Regression mit Entscheidungsbäumen :: Entscheidungsbäume
PD Stefan Bosse - Automatische Schadensdiagnostik - Modul D Klassifikation und Regression mit Entscheidungsbäumen :: Entscheidungsbäume
Bevor man das Training start, insbesondere bei mehrschrittigen Verfahren, kann es hilfreich sein den Fehler für die "Ratewahrscheinlichkeit" gemäß der im Training benutzten Fehlerfunktion (loss) zu berechnen.
Beispiel Regression:
use mathx=[1,2,3,4,5,6,7,8]y=[1,2,3,4,5,6,7,8]y.median = fivenum(y)$medianloss2 = sqrt(mean((y-y.median)^2))>> 2.29
Solange beim oder nach dem Training der fehler/Verlust nicht nennenswert kleiner (mindestens 1/2, besser 1/10) ist kann ist das Modell nicht brauchbar (bei Regressionsmodellen spricht man auch von der Todeslinie wenn das Modell konstant ungefähr den Median ausgibt).
PD Stefan Bosse - Automatische Schadensdiagnostik - Modul D Klassifikation und Regression mit Entscheidungsbäumen :: Training
Das Training mit Trainingsdaten Dtrain erzeugt den Baum schrittweise:
Die Auswahl der Variablen und die Verzweigungsbedingungen können je nach Algorithmus und Baumklasse variieren!
PD Stefan Bosse - Automatische Schadensdiagnostik - Modul D Klassifikation und Regression mit Entscheidungsbäumen :: Training
10 Schrittweise Erzeugung des Entscheidungsbaums aus den Eingabedaten (a) erst mit einer Variable (b,c), dann mit zwei (d) unter Beachtung des Klassifikationsfehlers
PD Stefan Bosse - Automatische Schadensdiagnostik - Modul D Klassifikation und Regression mit Entscheidungsbäumen :: Training
Jeder Knoten in einem binären Baum stellt eine lineare Separation des Eingabedatenraums dar.
PD Stefan Bosse - Automatische Schadensdiagnostik - Modul D Klassifikation und Regression mit Entscheidungsbäumen :: Training
14 k-stelliger Entscheidungsbaum für kategorische Variablen
PD Stefan Bosse - Automatische Schadensdiagnostik - Modul D Klassifikation und Regression mit Entscheidungsbäumen :: Training
www.statistik-dresden.de Binärer Entscheidungsbaum (Relation und Auswahl) für numerische und kategorische Variablen: Beantwortung "soziologischen Fragen", und nicht Prädiktion
PD Stefan Bosse - Automatische Schadensdiagnostik - Modul D Klassifikation und Regression mit Entscheidungsbäumen :: Training
100 (Links) Entscheidungsbaum für die Vorhersage von Reibungskoeffizienten von Materialien auf der Grundlage von sechs grundlegenden Materialmerkmalen (Rechts) Vergleich der vorhergesagten und experimentellen Reibungskoeffizienten
PD Stefan Bosse - Automatische Schadensdiagnostik - Modul D Klassifikation und Regression mit Entscheidungsbäumen :: Training
PD Stefan Bosse - Automatische Schadensdiagnostik - Modul D Klassifikation und Regression mit Entscheidungsbäumen :: Training
Die Kreuzentropie ist in der Informationstheorie und der mathematischen Statistik ein Maß für die Qualität eines Modells für eine Wahrscheinlichkeitsverteilung. Eine Minimierung der Kreuzentropie in Bezug auf die Modellparameter kommt einer Maximierung der Log-Likelihood-Funktion gleich. Es gilt mit p als Zielwertverteilung von y und q als verteilung der Prädktion yp:
H(p,q)=−∑cp(c)log(q(c))p(c)=count(y∣y=c)Nq(c)=count(yp∣yp=c)Nc∈C={U,V,W,..}
PD Stefan Bosse - Automatische Schadensdiagnostik - Modul D Klassifikation und Regression mit Entscheidungsbäumen :: Training
L(y,p)=1NN∑i=1−yilog(pi)−(1−yi)log(1−pi)
PD Stefan Bosse - Automatische Schadensdiagnostik - Modul D Klassifikation und Regression mit Entscheidungsbäumen :: Training
rmse(yp,y0)=√1N∑(yp−y0)2
Weitere Informationen und Vertiefung:
PD Stefan Bosse - Automatische Schadensdiagnostik - Modul D Klassifikation und Regression mit Entscheidungsbäumen :: Vergleich ID3 - C4.5
PD Stefan Bosse - Automatische Schadensdiagnostik - Modul D Klassifikation und Regression mit Entscheidungsbäumen :: ID3 Verfahren
[1] J. R. Quinlan, “Induction of Decision Trees,” in Machine Learning, Kluwer Academic Publishers, Boston, 1986.
E(X)=−∑i=1,kpilog2(pi),pi=count(X=ci)|X|,X={c|c∈C}
Alle Werte gleich ⇒ Entropie=0; Alle Werte gleichverteilt ⇒ Entropie=-log2|ci|
PD Stefan Bosse - Automatische Schadensdiagnostik - Modul D Klassifikation und Regression mit Entscheidungsbäumen :: ID3 Verfahren
https://towardsdatascience.com/understanding-entropy-the-golden-measurement-of-machine-learning-4ea97c663dc3 Illustration der Bedeutung der Entropie: Entropie hat ihre Wurzeln in der Physik- sie ist ein Maß für Unordnung oder Unvorhersehbarkeit in einem System.
PD Stefan Bosse - Automatische Schadensdiagnostik - Modul D Klassifikation und Regression mit Entscheidungsbäumen :: ID3 Verfahren
Entscheidungsbäume verwenden Entropie für ihre Konstruktion: Um Eingaben so effektiv wie möglich nach einer Reihe von Bedingungen zu einem korrekten Ergebnis (Zielvariable) zu lenken, werden Merkmalteilungen (mit Bedingungen) mit niedrigerer Entropie (höherer Informationsgewinn) höher im Baum platziert.
PD Stefan Bosse - Automatische Schadensdiagnostik - Modul D Klassifikation und Regression mit Entscheidungsbäumen :: ID3 Verfahren
Um die Idee von Bedingungen mit niedriger und hoher Entropie zu veranschaulichen, betrachten wir hypothetische Merkmale mit einer durch Farbe (rot oder blau) markierten Klasse und der durch eine vertikale gestrichelte Linie markierten Teilung.
https://towardsdatascience.com/understanding-entropy-the-golden-measurement-of-machine-learning-4ea97c663dc3 Betrachtet man die Verteilung der Zielvariablen y, dann ergibt sich ein hoher Informationsgewinn bei niedriger Entropie (von y) für eine gute Teilung
PD Stefan Bosse - Automatische Schadensdiagnostik - Modul D Klassifikation und Regression mit Entscheidungsbäumen :: ID3 Verfahren
Entscheidungsbäume berechnen die Entropie von Merkmalen und ordnen sie so an, dass die Gesamtentropie des Modells minimiert (und der Informationsgewinn maximiert) wird.
Mathematisch bedeutet dies, dass die Bedingung mit der niedrigsten Entropie oben platziert wird, so dass sie dazu beitragen kann, Knoten darunter zu spalten, um die Entropie zu verringern.
Informationsgewinn und relative Entropie, die beim Training von Entscheidungsbäumen verwendet werden, sind definiert als der Abstand zwischen zwei Wahrscheinlichkeitsverteilungen p(x) und q(x) (siehe vorherige Abb.).
PD Stefan Bosse - Automatische Schadensdiagnostik - Modul D Klassifikation und Regression mit Entscheidungsbäumen :: ID3 Verfahren
H(X|Y=y)=−∑i=1,kpilog2(pi),pi=count(X|X=ci∧Y=y)Ny,Xy={c|c∈C∧Y=y},C={ci|i=1,2,..,k}
PD Stefan Bosse - Automatische Schadensdiagnostik - Modul D Klassifikation und Regression mit Entscheidungsbäumen :: ID3 Verfahren
a | b | y |
---|---|---|
u | u | A |
v | v | A |
w | u | B |
w | v | B |
E(a)=−13log(13)−13log(13)−13log(23)=1.5E(b)=−24log(23)−23log(23)=1H(a∣y=B)=−22log(12)−22log(12)=0H(b∣y=B)=−12log(12)−12log(12)=1
PD Stefan Bosse - Automatische Schadensdiagnostik - Modul D Klassifikation und Regression mit Entscheidungsbäumen :: ID3 Verfahren
G(Y|X)=E(Y)−∑v∈Val(X)|(Y|X=v)||Y|E(Y|X=v)
Der Informationsgewinn ist auf Y Verteilung bezogen, nicht wie vorher auf X!
PD Stefan Bosse - Automatische Schadensdiagnostik - Modul D Klassifikation und Regression mit Entscheidungsbäumen :: Algorithmus
0. Starte mit leeren Baum, allen Eingansattributen X, der Zielvariablen Y, und der vollständigen Datentabelle D(X,Y).1. Berechne den Informationsgewinn für jede Attributevariable x ∈ X.2. Wenn nicht alle Zeilen zum selben Zielvariablenwert gehören, wird der Datensatz D in Teilmengen D'xbest,v1, D'xbest,v2, usw. aufgeteilt für das Attribut xbest ∈ X mit dem größten Informationsgewinn.3. Es wird ein Knoten mit der Attributvariable xbest erstellt.4. Wenn alle Zeilen zur selben Klasse gehören, wird ein Blattknoten mit dem Wert der Zielvariable erstellt.5. Wiederholung von 1-4 für die verbleibenden Attribute X'=X / xbest, allen Teilbäumen (Verzweigungen von aktuellen Knoten) mit jeweiligen D', bis alle Attribute verwendet wurden, oder der Entscheidungsbaum alle Blattknoten enthält.
PD Stefan Bosse - Automatische Schadensdiagnostik - Modul D Klassifikation und Regression mit Entscheidungsbäumen :: C4.5 Verfahren
[1] J. R. Quinlan, "C4.5: Programs For Machine Learning". Morgan Kaufmann, 1988.
Aber C4.5 verwendet die Methode der "gain ratio impurity", um das Teilungsattribut zu bewerten (Quinlan, 1993).
Entscheidungsbäume werden in C4.5 mithilfe eines Satzes von Trainingsdaten oder Datensätzen wie in ID3 erstellt.
An jedem Knoten des Baums wählt C4.5 ein Attribut der Daten aus, das seinen Satz von Samples am effektivsten in Teilmengen aufteilt, die in der einen oder anderen Klasse verteilt sind.
PD Stefan Bosse - Automatische Schadensdiagnostik - Modul D Klassifikation und Regression mit Entscheidungsbäumen :: C4.5 Verfahren
G(Y|X)=E(Y)−∑v∈Val(X)|Yv||Y|E(Yv)SI(Y)=∑c∈Val(Y)−|Yc||Y|log2|Yc||Y|GR=G(Y|X)SI(Y)
PD Stefan Bosse - Automatische Schadensdiagnostik - Modul D Klassifikation und Regression mit Entscheidungsbäumen :: Teilung von kategorischen und numerischen Variablen
Bei kategorischen Variablen bestimmen die Werte Val(X) einer Spalte der Datentabelle einer Variablen x die Aufteilung eines Entscheidungbaums (Partitionierung).
Bei numerischen Variablen muss ein Wert als Teilungspunkt aus der Werteverteilung bestimmt!
PD Stefan Bosse - Automatische Schadensdiagnostik - Modul D Klassifikation und Regression mit Entscheidungsbäumen :: Teilung von kategorischen und numerischen Variablen
Naiver Ansatz:
PD Stefan Bosse - Automatische Schadensdiagnostik - Modul D Klassifikation und Regression mit Entscheidungsbäumen :: Teilung von kategorischen und numerischen Variablen
Vertiefung
[1] L. Rokach and O. Maimon, Data Mining with Decision Trees - Theory and Applications. World Scientific Publishing, 2015.
PD Stefan Bosse - Automatische Schadensdiagnostik - Modul D Klassifikation und Regression mit Entscheidungsbäumen :: Intervallkodierung
Einteilung von kontinuierlichen Werteverteilungen in Intervall und Abbildung auf kategorische (diskrete) Werte
PD Stefan Bosse - Automatische Schadensdiagnostik - Modul D Klassifikation und Regression mit Entscheidungsbäumen :: Unvollständige Trainingsdaten
Es kommt vor allem in der Soziologie aber auch in der Mess- und Prüftechnik vor, dass nicht alle Werte der Attributvariablen X für alle Trainingssätze bekannt sind.
Es gibt keine Universallösung für den Umgang mit ? Werten. Möglichkeiten:
PD Stefan Bosse - Automatische Schadensdiagnostik - Modul D Klassifikation und Regression mit Entscheidungsbäumen :: ICE/INN Intervallkategorisierte Entscheidungsbäume
Bisherige Entscheidungsbäume (C4.5/ID3) wurden entweder mit einer diskreten Anzahl von kategorischen Werten verzweigt oder mittels binärer Relationen!
Aber Sensoren (sowohl in der Mess-und Prüftechnik als auch in der Soziologie) sind fehlerbehaftet, d.h. es gibt bei jedem x-Wert ein Unsicherheitsintervall [x-δ,x+δ] → Rauschen, ebenso Teilungsintervalle [x1-δ,x2+δ]
Damit können Entscheidungsbäume (anders als Neuronale Netze oder Regressionslerner) nicht umgehen.
PD Stefan Bosse - Automatische Schadensdiagnostik - Modul D Klassifikation und Regression mit Entscheidungsbäumen :: ICE/INN Intervallkategorisierte Entscheidungsbäume
M(X)=⎧⎪ ⎪ ⎪ ⎪⎨⎪ ⎪ ⎪ ⎪⎩xi∈[v1,1−εi,v1,2+εi],{⋯xi∈[v2,1−εi,v2,2+εi],{⋯⋯xi∈[vn,1−ε,vn,2+εi],{⋯
Vergleich der verschiedenen Baumarten und Knotenverzweigungen
PD Stefan Bosse - Automatische Schadensdiagnostik - Modul D Klassifikation und Regression mit Entscheidungsbäumen :: ICE/INN Intervallkategorisierte Entscheidungsbäume
Bei der Konstruktion des Entscheidungsbaums werden wieder nach Informationsgewinn bzw. Gewinnverhältnis Attributvariablen und Spalten der Datentabelle ausgewählt.
Die numerischen Werte werden sowohl beim Training als auch bei der Inferenz durch Intervalle ersetzt → Ersetzung von diskreter mit Intervallarithmetik
Entropie usw. werden durch kategorisierte Intervalle bestimmt
Das große Problem: Für jede Variable muss ein ε abgeschätzt werden → Statistisches Modell erforderlich.
Und was bedeuten jetzt überschneidende Intervalle?
PD Stefan Bosse - Automatische Schadensdiagnostik - Modul D Klassifikation und Regression mit Entscheidungsbäumen :: ICE/INN Intervallkategorisierte Entscheidungsbäume
Jeder Knoten xi hat ausgehende Kanten mit annotierten Intervallen [vj-ε,vj+ε]
Bei einem neuen zu testenden Variablenwert v wird einerseits auch ein Intervall [v-ε,v+ε] gebildet und mit den Kantenintervallen verglichen, andererseits wird das nächstliegende Intervall gesucht
PD Stefan Bosse - Automatische Schadensdiagnostik - Modul D Klassifikation und Regression mit Entscheidungsbäumen :: Gini-Index/Gini-Unreinheit
Die Gini-Unreinheit (Ginit Impurity GI) ist die Wahrscheinlichkeit, ein zufällig ausgewähltes Element im Datensatz falsch zu klassifizieren, wenn es gemäß der Klassenverteilung im Datensatz zufällig annotiert wurde. GI wird berechnet als:
G=C∑i=1p(i)∗(1−p(i))
wobei C die Anzahl der Klassen und p(i) die Wahrscheinlichkeit ist, zufällig ein Element der Klasse i auszuwählen.
Beim Trainieren eines Entscheidungsbaums wird die beste Aufteilung ausgewählt, indem der Gini-Gewinn maximiert wird, der durch Subtraktion der gewichteten Unreinheiten der Zweige von der ursprünglichen Unreinheit berechnet wird.
PD Stefan Bosse - Automatische Schadensdiagnostik - Modul D Klassifikation und Regression mit Entscheidungsbäumen :: Gini-Index/Gini-Unreinheit
Wir bestimmen die Qualität der Aufteilung, indem wir die Unreinheit jedes Zweigs mit der Anzahl seiner Elemente gewichten.
PD Stefan Bosse - Automatische Schadensdiagnostik - Modul D Klassifikation und Regression mit Entscheidungsbäumen :: Gini-Index/Gini-Unreinheit
Weighted Gini-Impurity (erster Split) = 46/100•0.28 + 54/100•0.35 = 0.32, Split Gain = 0.5 - 0.32
PD Stefan Bosse - Automatische Schadensdiagnostik - Modul D Klassifikation und Regression mit Entscheidungsbäumen :: Random Forest Trees
Konzept und Idee: Mehrere schwache Modelle zu einem starken kombinieren.
PD Stefan Bosse - Automatische Schadensdiagnostik - Modul D Klassifikation und Regression mit Entscheidungsbäumen :: Random Forest Trees
PD Stefan Bosse - Automatische Schadensdiagnostik - Modul D Klassifikation und Regression mit Entscheidungsbäumen :: Random Forest Trees
Abhishek Sharma, 2020, www.analyticsvidhya.com Grundprinzip von Multibaumklassifikatoren
PD Stefan Bosse - Automatische Schadensdiagnostik - Modul D Klassifikation und Regression mit Entscheidungsbäumen :: Beispiel
PD Stefan Bosse - Automatische Schadensdiagnostik - Modul D Klassifikation und Regression mit Entscheidungsbäumen :: Beispiel
PD Stefan Bosse - Automatische Schadensdiagnostik - Modul D Klassifikation und Regression mit Entscheidungsbäumen :: Beispiel
PD Stefan Bosse - Automatische Schadensdiagnostik - Modul D Klassifikation und Regression mit Entscheidungsbäumen :: Beispiel
PD Stefan Bosse - Automatische Schadensdiagnostik - Modul D Klassifikation und Regression mit Entscheidungsbäumen :: Regressionsbäume
Classification and Regression Tree CART
Bisher gaben Entscheidungsbäume diskrete kategorische Werte oder intervallkodierte numerische Werte aus. Ausgabewerte die nicht in den Trainingsdaten enthalten waren können auch nicht ausgegeben werden. Es gibt keine Inter- und Extrapolation!
Ein Regressionsbaum ist ein Hybrid aus Regressionsfunktion und Entscheidungsbaum.
Breiman, Friedman, Olshen, and Stone (1984)
PD Stefan Bosse - Automatische Schadensdiagnostik - Modul D Klassifikation und Regression mit Entscheidungsbäumen :: Regressionsbäume
Ein CART gruppiert einzelne Dateninstanzen und Trainingsbeispiele in Gruppen und berechnet statistische Größen der Zielvariable: Mittelwert, Standardabewichung usw.
Jeder Knoten ist hier auch ein Zielknoten der diese statistischen Informationen der Zielvariablen liefert und kann für die Beantwortung einzelner Fragen verwendet werden d.h.,
Jeder Knoten des Baumes ist die Wurzel eines Teilbaums mit einer statistisch gegebenen Verteilung der Zielvariablewerte
PD Stefan Bosse - Automatische Schadensdiagnostik - Modul D Klassifikation und Regression mit Entscheidungsbäumen :: Regressionsbäume
Bei kategorischen Zielvariablen wird entropiebasiert der Trainingsdatensatz geteilt und auf Teilbäume abgebildet. Das geht bei kontinuierlichen variablen nicht!
MSE=1nn∑i=1(Yi−^Yi)2
wobei Y der vorgebenene Trainingswert ist und Y der berechnete (vorhergesagte) Zielvariabenwert ist.
PD Stefan Bosse - Automatische Schadensdiagnostik - Modul D Klassifikation und Regression mit Entscheidungsbäumen :: Regressionsbäume
14 CART mit der Zielvariable y:Raucher? und verschiedenen Eingabevariablen (Attributen): Alter (Monate!), Elternstress (Score 0-5)
PD Stefan Bosse - Automatische Schadensdiagnostik - Modul D Klassifikation und Regression mit Entscheidungsbäumen :: Regressionsbäume
Als eine statistische Methode gruppiert CART Individuen in eine Reihe von sich gegenseitig ausschließenden und repräsentativen Gruppen, die auf starke Zusammenhänge zwischen den unabhängigen Variablen basieren. CART ist eine effektive explorative statistische Technik.
Ohne auf einem speziellen statistisches Modell zu basieren, enthält CART keine komplexen mathematischen Gleichungen (die das statistische Modell beschreiben). Die Ergebnisse sind leicht zu interpretieren und zu verstehen.
Vertiefung: https://towardsdatascience.com/cart-classification-and-regression-trees-for-clean-but-powerful-models-cc89e60b7a85 https://medium.com/analytics-vidhya/regression-trees-decision-tree-for-regression-machine-learning-e4d7525d8047
PD Stefan Bosse - Automatische Schadensdiagnostik - Modul D Klassifikation und Regression mit Entscheidungsbäumen :: Regressionsbäume
Ziel: Mit jeder Ebene/Knoten die "Unordnung" (Impurity) der Datenverteilung mit Bezug zu der Zielvariable zu reduzieren
Der Grad der Verringerung der Unordnung, der mit der Partitionierung eines übergeordneten Knotens in zwei untergeordnete Knoten verbunden ist, wird berechnet als [14]:
Δ=ϵ(τ)−ϵ(τL)nl1nl1+nl2−ϵ(τR)nr1nr1+nr2
wobei ε(τ) die Entropie des Elternknoten ist.
PD Stefan Bosse - Automatische Schadensdiagnostik - Modul D Klassifikation und Regression mit Entscheidungsbäumen :: Baumkompaktierung
Viele Baumstrukturen können nach dem Training vereinfacht werden ⇒ Tree Pruning
Man unterscheidet Pre- und Postkompaktierung
https://www.kdnuggets.com/2022/09/decision-tree-pruning-hows-whys.html
PD Stefan Bosse - Automatische Schadensdiagnostik - Modul D Klassifikation und Regression mit Entscheidungsbäumen :: Baumkompaktierung
Eigentlich Verhinderung von überkomplexen Bäumen!
Die Vorbeschneidungstechnik von Entscheidungsbäumen besteht darin, die Hyperparameter vor der Trainingspipeline zu optimieren. Es beinhaltet die Heuristik, die als 'frühes Stoppen' bekannt ist und das Wachstum des Entscheidungsbaums stoppt - und verhindert, dass er seine volle Tiefe erreicht.
Es stoppt den Baumbildungsprozess, um zu vermeiden, dass Blätter mit kleinen Proben produziert werden. Während jeder Phase der Aufteilung des Baums wird der Kreuzvalidierungsfehler überwacht. Wenn der Wert des Fehlers nicht mehr abnimmt, stoppen wir das Wachstum des Entscheidungsbaums.
PD Stefan Bosse - Automatische Schadensdiagnostik - Modul D Klassifikation und Regression mit Entscheidungsbäumen :: Baumkompaktierung
Die Hyperparameter, die für ein frühzeitiges Stoppen und Verhindern einer Überanpassung eingestellt werden können, sind:
max_depth, min_samples_leaf und min_samples_split
Dieselben Parameter können auch zum Abstimmen verwendet werden, um ein robustes Modell zu erhalten. Sie sollten jedoch vorsichtig sein, da ein frühzeitiges Anhalten auch zu einer Unteranpassung führen kann.
PD Stefan Bosse - Automatische Schadensdiagnostik - Modul D Klassifikation und Regression mit Entscheidungsbäumen :: Baumkompaktierung
Post-Pruning bewirkt das Gegenteil von Pre-Pruning und ermöglicht es dem Entscheidungsbaummodell, seine volle Tiefe zu erreichen. Sobald das Modell seine volle Tiefe erreicht hat, werden Äste entfernt, um eine Überanpassung des Modells zu verhindern.
Der Algorithmus partitioniert die Daten weiterhin in kleinere Teilmengen, bis die endgültigen erzeugten Teilmengen in Bezug auf die Ergebnisvariable ähnlich sind. Wenn jedoch ein neuer Datenpunkt eingeführt wird, der sich von den gelernten Daten unterscheidet, wird er möglicherweise nicht gut vorhergesagt.
"Cost Complexity Pruning" ist eine gängige parametrisierbare Methode um die Komplexität von Bäumen iterativ zu reduzieren
C4.5/ID3 bieten kaum eingebaute Möglichkeiten die Komplexität und Redundanzen zu reduzieren
C5.0 bietet Kompaktierung zur Trainingszeit
ICE kann Blattknoten zusammenfassen (mit fusionierten Intervallen)
PD Stefan Bosse - Automatische Schadensdiagnostik - Modul D Klassifikation und Regression mit Entscheidungsbäumen :: Zusammenfassung
PD Stefan Bosse - Automatische Schadensdiagnostik - Modul D Klassifikation und Regression mit Entscheidungsbäumen :: C5.0 Verfahren
Schlüsselkonzepte des C5.0-Algorithmus
PD Stefan Bosse - Automatische Schadensdiagnostik - Modul D Klassifikation und Regression mit Entscheidungsbäumen :: C5.0 Verfahren
Beim Beschneiden werden überflüssige oder redundante Zweige aus dem Entscheidungsbaum entfernt, um seine Genauigkeit und Generalisierungsfähigkeit zu erhöhen. Wenn ein Entscheidungsbaum genau mit den Trainingsdaten übereinstimmt, aber Schwierigkeiten hat, auf neue Fälle zu verallgemeinern, spricht man von Überanpassung. Durch das Beschneiden werden überflüssige Äste eliminiert, die weniger für die allgemeine Verallgemeinerung als vielmehr für die Anpassung des Trainingssatzes wichtig sind.
Eine Methode namens Winnowing wird verwendet, um verrauschte oder unnötige Merkmale zu finden und zu eliminieren, die die Leistung eines Entscheidungsbaums verschlechtern könnten. Dies beinhaltet die Bewertung des Informationsgewinns jedes Attributs und die Eliminierung derjenigen, die wenig zur gesamten Entropiereduktion beitragen. Um festzustellen, ob der Informationsgewinn eines Attributs statistisch signifikant ist, verwendet der C5-Algorithmus einen Signifikanztest. Der Entscheidungsbaum verliert Attribute, die dieses Kriterium nicht erfüllen.
PD Stefan Bosse - Automatische Schadensdiagnostik - Modul D Klassifikation und Regression mit Entscheidungsbäumen :: Zusammenfassung
Entscheidungsbäume sind für primär die Klassifikation von kategorischen und sekundär für numerische Zielvariablen geeignet
Mit Ausnahme von CART liefern EB nur Werte der Zielvariablen die im Training enthalten waren
Numerische Zielvariablen müssen intervallkodiert werden (mit Ausnahme von CART).
ID3/C4.5 Lerner können numerische und kategorische Eingabevariablen (Attribute) verwenden
C5.0 ist die Quintessenz
Rauschen auf Sensordaten muss durch "Unsicherheitsintervall" und Intervallarithmetik behandelt werden (und bei CART durch Standardabweichung)
Vergleich mit anderen Lernverfahren zeigt gute Ergebnisse (je nach Problem)