PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul B: Datenanalyse
In der Soziologie
PD Stefan Bosse
Universität Bremen - FB Mathematik und Informatik
PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul B: Datenanalyse
Häufig sind die rohen sensorischen Daten(variablen) zu hochdimensional und abhängig voneinander
Reduktion auf wesentliche Merkmale kann ML Qualität deutlich verbessern
Häufig besitzen einzelne Sensorvariablen keine oder nur geringe Aussagekraft (geringe Entscheidbarkeitsqualität)
PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul B: Datenanalyse
Statistische Analysen von Mess- und Sensordaten können neue Datenvariablen erzeugen und Informationen über die Daten liefern:
Statistische Analyse liefert eine Reihe von Kennzahlen über Datenvariablen, das können Eigenschaften für die Weiterverabeitung sein:
stat(→x):→x→→p,→p={mean,σ,..}
PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul B: Datenanalyse
2:173
PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul B: Datenanalyse
2:173
PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul B: Datenanalyse
Variablen X sollten möglichst (linear) unabängig sein,
Abhängige Variablen sollten identifiziert und in unabhängige "transformiert" werden!
PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul B: Datenanalyse
PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul B: Datenanalyse
D bestand aus 61 Experimenten mit unterschiedlichen Fertigungsserien
Mit einer Principle Component Analysis (PCA) konnte die ganze Tabelle auf die Variablen PC1 und Y1reduziert werden!
Die Genauigkeit der mit ML synthetitisierten Funktion M(X): X → Dichte konnte ohne signifikanten Genauigkeitsverlust nur aus PC1 abgeleitet werden, d.h. M(PC1): PC1 → Dichte
Aber: Für die Inferenz (Applikation) von M muss die PCA für die Eingabedaten X wiederholt werden bzw. die Datentransformation durchgeführt werden!
PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul B: Datenanalyse
5
Beispiel von rein kategorischen Attributen einer Datentabelle D
PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul B: Datenanalyse
5:53
Beispiel einer rein kategorischen Datentabelle D. Die Zielvariable Klasse mit den Werten {N,P} ist ebenfalls kategorisch, z.B. Klasse=P ⇒ Sportliche Aktivität
PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul B: Datenanalyse
7:47
Einige Datenvariablen wurden mit numerischen/metrischen Werten ersetzt (Klasse → Play-time)
PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul B: Datenanalyse
Kann aus der vorherigen Datentabelle mit numerischen Variablen noch ein Zusammenhang aus X zu Y hergestellt werden?
Reicht die Anzahl der Experimente im Vergleich zu der rein kategorischen Datentabelle?
Wo liegen die Probleme?
PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul B: Datenanalyse
7:7
PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul B: Datenanalyse
Kategorische Variablen (sowohl Attribute als auch Zielvariablen) können von einer Vielzahl von numerisch basierten ML Verfahren nicht verarbeitet werden (wie neuronale Netze)
Eine Lösung kann die Abbildung von kategorischen Werten (also Mengen von Symbolen) auf numerische Werte → Kodierung
Kodierte Werte sind aber i.A. weder intervall- noch verhältnisskalierbar!
PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul B: Datenanalyse
Linear und nicht akkummulativ (skalar), d.h.
{α,β,γ,..} → {δ,2δ,3δ,..}
Exponentiell (z.B. zur Basis B=2) und akkummulativ (skalar), d.h.
{α,β,γ,..} → {20,21,22,..}
One-hot und evtl. akkummulativ (vektoriell), d.h.
{α,β,γ,..} → {[1,0,0,...],[0,1,0,..],[0,0,1,..],..}
Expontentielle Kodierungen können multiple verschiedene kategorische Werte in einem numerischen Wert darstellen! Z.B. mehrfache kategorische Antworten bei einer Frage einer Umfrage.
PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul B: Datenanalyse
{sonnig,bewölkt,regnerisch} → {3,2,1}{ja,nein} → {1,0}{Schaden A, Schaden B, Schaden C} → { 1,2,3 }{rot,grün,blau,braun,weiß} → {1,2,4,8,16}{Sport, Kino, Theater, Musik} → {1,2,4,8}{heiß,kalt} → {[1,0],[0,1]}
cat(x):x→{α1,α2,..,αn},x∈R/Nαi↔x=[x0+iδ,x0+(i+1)δ]
PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul B: Datenanalyse
Z.B. die Kategorisierung von Schadenspositionen in einer mechanischen Struktur durch räumliche Bereiche (Segmente) {S1,S2,S3,..,S9}
Z.B. Temperaturen durch "gefühlte" Attribute {heiß, warm, moderat, kalt, eiskalt}
Z.B. Zeitangaben durch Epochen {Steinzeit, Bronzezeit, Kohlezeit, .. }
Die Kodierung ist umkehrbar mit einer Dekodierungsfunktion (unter Kenntnis der Kodierungsvorschrift)
PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul B: Datenanalyse
code=Math.code(val,codes)
und val=Math.decode(code,codes)
FunktionenPD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul B: Datenanalyse
Sensorvariablen können unterschiedlichen Informationsgehalt besitzen
Der Informationsgehalt einer Menge X aus Elementen der Menge C wird durch die Entropie E(X) gegeben:
E(X)=−∑i=1,kpilog2(pi),pi=count(ci,X)N,X={c|c∈C}
PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul B: Datenanalyse
Dabie ist k die Anzahl der unterscheidbaren Elemente/Klassen Val(X) ⊆ C in der Datenmenge X (z.B. die Spalte einer Tabelle) und pi die Häufigkeit des Auftretens eines Elements ci ∈ C in X.
Beispiele:
X1={A, C, B, C, B, C} → Val(X1)=C={A, B, C},N=6E(X1)=-(1/6)log(1/6)-(2/6)log(2/6)-(3/6)log(3/6)=1.46X2={A, B, C} → Val(X2)=C={A, B, C},N=3E(X2)=-(1/3)log(1/3)-(1/3)log(1/3)-(1/3)log(1/3)=1.58X3={A, A, A, A, B, B} → Val(X3)={A,B} ⊂ C={A, B, C},N=6E(X3)=-(4/6)log(4/6)-(2/6)log(2/6)-(0/6)log(0/6)=0.92X4={A, A, A, A, B, B} → Val(X4)=C={A, B},N=6E(X4)=-(4/6)log(4/6)-(2/6)log(2/6)=0.92
PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul B: Datenanalyse
Die Entropie ist Null wenn die Datenmenge X "rein" ist, d.h., nur Elemente einer einzigen Attributklasse c1 ∈ C enthält, z.B. X={A,A,A}.
Die Entropie reicht allein zur Bewertung des Informationsgehaltes nicht aus:
X1 | X2 | Y |
---|---|---|
A | C | P |
B | C | P |
A | D | N |
B | D | N |
PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul B: Datenanalyse
PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul B: Datenanalyse
G(Y|X)=E(Y)−∑v∈Val(X)|Yv||Y|E(Yv)
Die Menge Yv enthält nur Werte für die X=v ist!
Ein Verteilungsvektor ist dann Dist(X)=[|v1|,|v2|,..] und bedeutet wie häufig der bestimmte Wert vi ∈ Val(X) in X auftaucht!
PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul B: Datenanalyse
12
PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul B: Datenanalyse
PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul B: Datenanalyse
PCA: Klassische Methode zur unüberwachten linearen Dimensionsreduktion → Analyse der Hauptkomponenten
Reduktion von Redundanz in den Attributen X
Bessere Trennung bei der Inferent von kategorischen (und ggfs. auch numerischen) Zielvariablen
Weitere Verfahren:
PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul B: Datenanalyse
Czarnek, RG
PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul B: Datenanalyse
Die statistische und weitere Analysen können die Eingabe für ML liefern, aber auch die Modellsynthese parametrisieren bzw. beeinflussen
PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul B: Datenanalyse
Die statistische Analyse von Datentabellen liefert wichtige Informationen über die Qualität der Daten
Die Merkmalsselektion transformiert die Rohdaten auf neue möglichst linear unabhängige Attribute
Es werden Verfahren für kategorische und numerische Datenvariablen unterschieden