Übung 5 - Klassifikations- und Regressionsbäume mit Datenanalyse (Teil 2)

Inhalt.

Übung 5 - Klassifikations- und Regressionsbäume mit Datenanalyse (Teil 2)

Vorwort

Literatur

Daten

Datenselektion

PCA

Datenpartitionierung

Entscheidungsbäume (1)

C4.5 T

C5.0 T

Entscheidungsbaumlerner (2)

ICE

Vorwort

Diese Übung baut auf der vorherigen auf. Hier soll nun die Datenanalyse und Datentransformation näher betrachtet werden.

Ein Modul wird in die aktuelle Arbeitsumgebung mittels use eingebaut und steht dann mit allen seinen Funktionen direkt zur Verfügung.
Man kann Werte mit der print Funktion ausgeben.

R Set-up

use math,plot,pca
dev.new(width=500)
options(digits=2)
print("Libraries loaded.")
print(R.version)

▸

[]

✗

≡

Literatur

Lese "Learning R Programming" Kun Ren,2023
Lese https://www.geeksforgeeks.org/c5-0-algorithm-of-decision-tree/

Daten

https://www.kaggle.com/datasets/purushottamnawale/materials

Materials and their Mechanical Properties - Mechanical Properties of Design Materials: A Comprehensive Material Dataset

The original material dataset includes the following mechanical properties of metals:

Standard (Std)
Unique Identification code for the Material (ID)
Material Name Material
Heat Treatment Method
Ultimate Tensile Strength (Su) in MPa
Yield Strength (Sy) in MPa
Elongation at Break or Strain (A5) as a Percentage
Brinell Hardness Number (BHN) in Microhardness Units
Elastic Modulus (E) in MPa
Shear Modulus (G) in MPa
Poisson's Ratio (mu) in Units of Length
Density (Ro) in Kg/m3
Pressure at Yield (pH) in MPa
Description of the Material (Desc)
Vickers Hardness Number (HV)

Es gibt eine zusäztliche Spalte MaterialClass die die Einträge in folgende Materialkassen unterteilt:

Aluminum, Brass, Copper, Magnesium, Iron, Steel

DATA: Variable dataMat Type: { Std : string [924], ID : string [924], Material : string [924], Heat treatment : string [924], Su : number [924], Sy : number [924], A5 : (number|string)[924], Bhn : (number|string)[924], E : number [924], G : number [924], mu : number [924], Ro : number [924], pH : (string|number)[924], Desc : string [924], HV : (string|number)[924], MaterialClass : string [924] }

Der Datensatz ist bereits im Notebook enthalten und wird als Datenrahmen/Datentabelle (data.frame) data.mat zur Verfügung gestellt!

Alle nachfolgenden Berechnungen sollen über den Punkt "." an den Namen des Datensatzes angehängt werden.

Zusammenfassung der Datensätze

print("============== data.mat ====================")
print(paste("nrow",nrow(data.mat),"ncol",ncol(data.mat)))
print(paste("colnames",colnames(data.mat)))
logg(typeof(data.mat))

▸

[]

✗

≡

Numerische Eingabeattribute (s.o.)
Kategorische Zielvariable von data.mat: MaterialClass

Datenselektion

Wiederholung: Datentabllen lassen sich zeilen- und spaltenweise zerlegen bzw. filtern. Dazu reicht i.A. der Basisoperator [] bzw. [[]].

[c] wählt aus der Datentabelle eine Spalte aus (ergibt wieder eine einspaltige Datentabelle). Der Selektor kann numerisch (Spaltenindex) oder der Name der Spalte als Zeichenkette sein, d.h., c:numeric|character.
[a:b] wähle die Spalten a bis b aus (ergibt wieder eine mehrspaltige Datentabelle).
[row,col] wählt eine Zelle aus.
[,column] wählt eine Spalte aus.
[,columns] reduziert die Datentabelle auf die angegebenen Spalten (eine, Bereich, oder Menge), d.h. columns:numeric,character,range,vector.
$col ist ein Spaltenselektor für Datentabelle und gibt einen Vektor zurück!

Teilweise wird bei einer Selektion ein Vektor oder einspaltiger Datenrahmen mit einem Element zurückgegeben. Um direkt den Elementwert zu erhaltn muss der [[]] Operator verwendet werden!

Die Datenselektoren können auf der linken und rechten Seite einer Zuweisung verwendet werden (schreiben und lesen). Datentabellen (und Matrizen) können mittels der cbind und rbind Funktionen spalten- oder zeilenweise kombiniert werden.

PCA

Die Hauptkomponentenanalyse kann wichtige Hinweise auf (lineare) Abhängigkeiten der Eingabeattribute liefern. Sie wird nur auf die Eingabeattribute X angewendet! Die prcomp(data,formula) Funktion führt die Hauptkomponentenanalyse durch. Sie gibt eine Art Liste mit den wichtigsten Elemente rotation und sdev. Die Datentabelle rotation enthält die Eigenvektoren, der Vektor sdev die Eigenwerte.

Die optionale Formel (ohne abhängige Variable) kann die Spalten aus der Eingabedatentabelle auswählen. Dabei wählt "." alle Spalten aus, "+x" fügt eine Spalte hinzu, und "-x" entfernt eine Spalte.

Aufgabe. Lese https://stat.ethz.ch/R-manual/R-devel/library/stats/html/prcomp.html. Führe die PCA für die Tabelle mit prcomp(data) durch. Analysiere die Ausgabe (z.B. mit summary und names). Was gibt prcomp aus?

Lösung.

PCA der Datensätze

# Nur ein Beispiel
# Datentabelle
d<-data.frame(x1=c(1,2,3,4,5,6,7,8,9),
              x2=c(4,5,3,6,2,5,7,8,1),
              x3=c(4,0,4,2,1,2,4,2,3),
              y =c("a","b","a","b","b","b","a","a","a"))
# Auswahl der Eingabeattribute x1,x2,x3
d.x <- d[1:3]
# PCA durchführen
d.pca<-prcomp(d,formula=~x1+x2+x3)
# Oder prcomp(d.x)
print(names(d.pca))
print(summary(d.pca))
print(d.pca$rotation)
print(d.pca$sdev)

▸

[]

✗

≡

Lösung.

predict gibt wieder eine Datentabelle (data.frame) zurück. Spalten können mit dem generischen Selektor [,c(1,2)] unter Verwendung der numerischen Spaltennummern oder unter Angabe der Spaltennamen [,c("PC1","PC2")] erfolgen. Die PC sind nach ihrer "Stärke" sortiert, daher verwendet man die PC Vektoren der Reihe nach. Wichtig: Die Datentabelle muss die gleiche Anzahl von Spalten wie die PCA Tabelle haben!

PCA-basierte (Matrix) Transformation eines Datensatzes

# Nur ein Beispiel, ersetzen mit Datentabellen
d.pca.t <- predict(d.pca,d.x)
print(d.pca.t)
# Eine reduzierte Tabelle erstellen, z.B. mit den ersten beiden Spalten
d.pca.t.red <- d.pca.t[,c("PC1","PC2")]
print(d.pca.t.red)
# Die Zielvariablenspalte wieder hinzufügen
d.pca.t.red <- cbind(d.pca.t.red,d["y"])
print(d.pca.t.red)

▸

[]

✗

≡

Die neue transformierte Datentabelle besitzt die Spaltennamen PC1 usw., d.h. die die jeweilige Spalte wurde mit dem jeweilgen PC Vektor erzeugt.

Aufgabe. Übertrage nun obiges Beispiel auf die Materialkennwerttabelle. Wähle einige Variablen aus der Tabelle aus, z.B. {E,G,Ro,Su,Sy,HV'}, und erzeuge eine reduzierte Tabelle. Wenn die PCA durchgeführt wurde, kann die ursprüngliche (reduzierte) Datentabelle transformiert werden. Führe dies mit der predict(pca,data.mat.x) Funktion durch und weise das Ergebnis einer Variablen zu (z.B. data.mat.pca.t). Wähle geeignete (Anzahl von) PC Vektoren aus. Was ist bei den Werteverteilungen der PCA-transformierten Variablen zu beobachten?

Lösung.

PCA Analyse und PCA-basierte Transformation der Datensätze.

use pca,math
options(digits=2)
# Ersetze mit Datentabelle data
# Erzuege eine Teiltabelle data.x mit ausgewählten ursprünglichen Variablen [
data.mat.x = data.mat[,c('E','G','Ro','Su','Sy','HV')]
data.mat.pca = prcomp(data.mat.x)
# Führe PCA durch (predict mit data.x)
data.mat.t = predict(data.mat.pca,data.mat.x)
# Füge Zielvariable (MaterialClass) hinzu / benutze cbind
data.mat.t = cbind(data.mat.t,MaterialClass=data.mat$MaterialClass)
# Gebe Ergebnisse aus
print(summary(data.mat.pca))
print(summary(data.mat.t))

▸

[]

✗

≡

Lösung.

Frage. Welchen Vorteil hat die Verwendung der PCA-transformierten und reduzierten Tabellen (also weniger PCs als ursprüngliche Variablen)?

Lösung.

Datenpartitionierung

Aufgabe. Teile die Datentabellen data.mat und data.mat.t auf.

Aufteilung von Datensätzen in Trainings- und Testdaten mit split Funktion

parameter.split = [0.7,0.3]
data.parts = split(sample(data.mat),prob=parameter.split)
data.mat.train = data.parts[[1]]
data.mat.test  = data.parts[[2]]
data.parts = split(sample(data.mat.t),prob=parameter.split)
data.mat.t.train = data.parts[[1]]
data.mat.t.test  = data.parts[[2]]
logg(summary(data.mat.t.train))

▸

[]

✗

≡

Lösung.

Entscheidungsbäume (1)

Hier soll jetzt zur vorherigen Übung die Wirkung der PCA-transformierten und reduzierten Datentabellen untersucht werden. Wieder mit C4.5 und C5.0 Modellen.

C4.5 T

C4.5 Entscheidungsbaum aus Daten erstellen. Man ist frei in der Auswahl der Eingabevariable x, y=MaterialClass (immer als letzte Variable)

use tree,plot
# Nur ein Beispiel
# x und y ersetzen mit Variablen aus der Tabelle!
samples.var   = ['PC1','PC2','MaterialClass']
samples.train = data.mat.t.train[,samples.var] 
samples.test  = data.mat.t.test[,samples.var] 
model.c45     = c45(samples.train,formula=MaterialClass~PC1+PC2)
logg(summary(model.c45))
logg(sum(predict(model.c45,samples.train)
                !=samples.train$MaterialClass)/nrow(samples.train)*100)
logg(sum(predict(model.c45,samples.test)
                 !=samples.test$MaterialClass)/nrow(samples.test)*100)

▸

[]

✗

≡

C5.0 T

C6.0 Entscheidungsbaum: Training und Inferenz

use tree
samples.train = data.mat.t.train[,c('PC1','PC2','MaterialClass')]
samples.test  = data.mat.t.test[,c('PC1','PC2','MaterialClass')]
sample = samples.train[1,]
sample.x = [sample$PC1,sample$PC2]
logg(sample.x)
logg(typeof(sample))
model.c50 = c50(samples.train,formula=MaterialClass~PC1+PC2,
                winnowing=TRUE,boosting=FALSE,pruning=TRUE)
logg(summary(model.c50))
logg(predict(model.c50,sample.x))
plot.tree(model.c50)
logg(sum(predict(model.c50,samples.train)!=
         samples.train$MaterialClass)/nrow(samples.train)*100)
logg(sum(predict(model.c50,samples.test)!=
         samples.test$MaterialClass)/nrow(samples.test)*100)

▸

[]

✗

≡

Frage. Wie ist die Modellgenauigkeit beim C4.5 im Vergleich zum C5.0 bei Verwendung von PC1 und PC2? Wie bei nur PC1? Verändere auch die C5.0 Trainingsparameter. Welche Wirkung haben sie? Reicht PC1? Warum nicht PC3? Wie groß sind jweils die Bäume (Tiefe usw.)?

Lösung.

Entscheidungsbaumlerner (2)

ICE

ICE ist ein Klassifikator der mit Intervallarithmetik arbeitet. D.h. jede Attributvariable und deren Werte werden mit einem Unsicherheitsintervall x±ε_x versehen. Zwei unterschiedliche Werte a und b (einer Variablen) werden als ununterscheidbar angesehen wenn sich deren Intervalle [*a*-ε*a*+ε] und [*b*-ε*b*+ε] überlappen.

Der ICE kann mit der ice(data,epc=c(e1,e2,..),formula=y~a+b+c) Funktion erstellt werden. Es gibt einen optionallen merge Parameter der Ergebnisknoten zusammenfasst. Zuässige Werte für merge sind 0, 1 und 2.

predict liefert bei ice eine Tabelle mit (value,score) Spalten!

Aufgabe. Wende den ICE Lerner auf den Material Datensatz an. Benutze die Trainingsdaten für das Training. Ermittle den Fehler für die Trainings- und Testdaten. Wird ein Unterschied in der Baumstruktur im Vergleich zum C4.5/C5.0 sichtbar? Wichtig: Wähle geeignete ε Werte für die einzelnen Variablen. Es ist anzunehmen dass die Messungen im Datensatz eine Messunsicherheit von 1ß% besitzen. D.h. wenn der Mttelwert einer Varibale 1000 ist, dann w+re ε=100 zu wählen (10%). Wie verhält sich die Modellgenauigkeit wenn man ε variiert? Was fällt an dem ICE Baum auf (Struktur, Tiefe, Art) verglichen mit C5.0?

ICE Entscheidungsbaum: Material Datensatz. Wichtig ist hier die Angabe eines Unsicherheitswvektors ε (ein Element für jede Eingabevariable die hier zum Training verwendet wird)

use math,tree
# train
samples.train = data.mat.train[,c('E','G','MaterialClass')]
samples.test  = data.mat.test[,c('E','G','MaterialClass')]
model.ice = ice(samples.train,
                formula=MaterialClass~E+G,
                eps=[1000,1000])
logg(summary(model.ice))
plot.tree(model.ice)
print(predict(model.ice,samples.train))
logg(sum(predict(model.ice,samples.train)$value
                !=samples.train$MaterialClass)/nrow(samples.train)*100)
logg(sum(predict(model.ice,samples.test)$value
                 !=samples.test$MaterialClass)/nrow(samples.test)*100)

▸

[]

✗

≡

Lösung.

RF

Der Random Forest Tree Lerner (https://github.com/karpathy/forestjs) leitet eine Vielzahl einfacher Bäume mit einfachen Regeln aus dem Traingsdatensatz ab. Die Menge an Bäumen wird schließlich bei der Inferenz im Ergebnis kombiniert (fusioniert). Es gibt das R Paket randomForest als Alternative.

Der RF kann mit der rf(data,formula=y~a+b+c) Funktion erstellt werden. Es gibt zwei wesentlich Parameter:

numTrees bestimmt die Anzahl der Teilbäume.
maxDepth bestimmt die maximale Höhe eines Teilbaumes.
numTries bestimmt die maximale Anzahl von Iterationen bei der Baumerstellung

Auch hier gibt predict wieder eine Tabelle (value,score) zurück, wobei value bei kategorischen Variablen das Klassensymbol angibt.

Aufgabe. Wende den RF Lerner auf den Material Datensatz an. Benutze die Trainingsdaten für das Training. Wähle geeignete Variablen aus. Ermittle den Fehler für die Trainings- und Testdaten. Variiere die Parameter: was ändert sich? Welche Qualität hat das RF Modell im Vergleich zu C5.0?

RF Entscheidungsbaum: Material Datensatz

use tree
samples.train = data.mat.train[,c('E','G','MaterialClass')]
samples.test  = data.mat.test[,c('E','G','MaterialClass')]
model.rf = rf(samples.train,
                formula=MaterialClass~E+G,
                numTrees=10,
                maxDepth=5,
                numTries=100)
logg(summary(model.rf))
plot.tree(model.rf)
print(predict(model.rf,samples.train))
logg(sum(predict(model.ice,samples.train)$value
                !=samples.train$MaterialClass)/nrow(samples.train)*100)
logg(sum(predict(model.ice,samples.test)$value
                 !=samples.test$MaterialClass)/nrow(samples.test)*100)

▸

[]

✗

≡

Lösung.

RT

Der Regressionsbaum wird für kontinuierliche Zielvariablen verwendet. Jetzt drehen wir die Prädiktion um: Eingabe soll eine die Materialklasse sein, Ausgabe einer der Materialparameter, z.B. E. Es gibt also ein Modell für einen materialkennwert.

Der RT Lerner (hier wink-regression-tree) erwartet wenigstens 60 Dateninstanzen.

Der RT kann mit der rt(data,formula=y~a+b+c,) Funktion erstellt werden. Es gibt fünf einstellbare Parameter:

minLeafNodeItems, Standardwert ist 10;
minSplitCandidateItems, Standardwert ist 50;
minAvgChildrenItems, Standardwert ist 2;
minPercentVarianceReduction, Standardwert ist 10;
maxDepth, Standardwert ist 20.

Der RT Lerner wendet Varianzreduktion (der Zielvariablen) an um geeignete Teilungspunkte zu finden und Teilbäume zu erstellen. Der Algorithmus findet die beste Kandidatenspalte für die Aufteilung auf der Grundlage der maximalen Reduzierung in der Varianz ("Unordnung" oder maximaler Gewinn). Dabei werden die obigen Parameter als Randbedingungen bei der Suche und Baumerstellung verwendet.

Aufgabe. Wende den RT Lerner auf den Material Datensatz an. Benutze die Trainingsdaten für das Training. Ermittle den Fehler für die Trainings- und Testdaten (hier RMSE). Variiere die Parameter: was ändert sich? Findet eine kontinuierliche Regression der Zielvariablen bei der Inferenz statt oder ist diese auf das Training (also der Erstellung des Baumes) beschränkt? Wie gut ist das Modell (RMSE) im Vergleich zum randomisierten RMSE (median-bezigen)?

RT Entscheidungsbaum: Material Datensatz - Reverserd

use tree,math
samples.train = data.mat.train[,c('E','G','MaterialClass')]
samples.test  = data.mat.test[,c('E','G','MaterialClass')]
model.rt = rt(samples.train,
               formula=E~MaterialClass,
               minLeafNodeItems = 10,
               minSplitCandidateItems = 50,
               minAvgChildrenItems = 2,
               minPercentVarianceReduction = 10,
               maxDepth = 20
             )
logg(summary(model.rt))
print(cbind(y=predict(model.rt,samples.train),
            y0=samples.train$E))
logg(sqrt(mean((median(samples.train$E)-samples.train$E)^2)))
logg(sqrt(mean((predict(model.rt,samples.train)-samples.train$E)^2)))
logg(sqrt(mean((median(samples.test$E)-samples.train$E)^2)))
logg(sqrt(mean((predict(model.rt,samples.test)-samples.test$E)^2)))

▸

[]

✗

≡

Lösung.

Hilfe

Einreichung (Assignment #2025-52025)

Prüfen

Bewerten (Lehrer)

Created by the NoteBook Compiler Ver. 1.36.4 (c) Dr. Stefan Bosse (Fri Jul 25 2025 11:59:56 GMT+0200 (Central European Summer Time))