PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul B: Datenanalyse

Maschinelles Lernen und Datenanalyse

In der Soziologie

PD Stefan Bosse

Universität Bremen - FB Mathematik und Informatik

1 / 30

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul B: Datenanalyse

Datenanalyse und Eigenschaftsselektion

Häufig sind die rohen sensorischen Daten(variablen) zu hochdimensional und abhängig voneinander

Reduktion auf wesentliche Merkmale kann ML Qualität deutlich verbessern

Häufig besitzen einzelne Sensorvariablen keine oder nur geringe Aussagekraft (geringe Entscheidbarkeitsqualität)

2 / 30

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul B: Datenanalyse

Statistische Analyse

Statistische Analysen von Mess- und Sensordaten können neue Datenvariablen erzeugen und Informationen über die Daten liefern:
- Eigenschaftsselektion (Feature Selection) für ML und Informationsgewinnung
- Variablentransformation mit Datenreduktion
Statistische Analyse liefert eine Reihe von Kennzahlen über Datenvariablen, das können Eigenschaften für die Weiterverabeitung sein:

$stat(\vec{x}): \vec{x} \rightarrow \vec{p}, \\ \vec{p}=\{mean,\sigma,..\}$

3 / 30

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul B: Datenanalyse

Welche statistische Größen gibt es? Was können statistische Größen über Daten aussagen?

Mittelwert×
Lagemaße×
Median×
Varianz×
StdAbw.×
Min/Max×
No search results.

4 / 30

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul B: Datenanalyse

Statistische Funktionen

2:173

5 / 30

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul B: Datenanalyse

Statistische Funktionen

2:173

6 / 30

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul B: Datenanalyse

Korrelation von Datenvariablen

Variablen X sollten möglichst (linear) unabängig sein,
- Um eine geeignete, robuste und genaue Modellsynthese (also ML) zu ermöglichen, d.h.
- Es sollte möglichst keine Zusammenhänge der Form ∃correlation(X_i,X_j) geben!
- Um den Modellsyntheseprozess zu beschleunigen (also das Training); Rechenzeit reduzieren
- Um Modelle klein und kompakt zu halten
Abhängige Variablen sollten identifiziert und in unabhängige "transformiert" werden!

7 / 30

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul B: Datenanalyse

Beispiel Prozessanalyse

Eine Datentabelle D mit experimentellen Messgrößen und Fertigungsparametern (Prozessparameter) von additiv gefertigten Bauteilen hatte zunächst 7 Variablen (numerisch):
- X₁: Hatchabstand [mm]
- X₂: Scangeschwindigkeit [mm/s]
- X₃: Laserleistung [W]
- X₄: Schichtstärke [mm]
- X₅: Volumenenergiedichte [J/mm³]
- X₆: Bauplatten Position x
- X₇: Bauplatten Position y
- Y₁: Dichte (%)

8 / 30

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul B: Datenanalyse

D bestand aus 61 Experimenten mit unterschiedlichen Fertigungsserien
Mit einer Principle Component Analysis (PCA) konnte die ganze Tabelle auf die Variablen PC₁ und Y₁reduziert werden!
- Die Genauigkeit der mit ML synthetitisierten Funktion M(X): X → Dichte konnte ohne signifikanten Genauigkeitsverlust nur aus PC₁ abgeleitet werden, d.h. M(PC1): PC1 → Dichte
- Aber: Für die Inferenz (Applikation) von M muss die PCA für die Eingabedaten X wiederholt werden bzw. die Datentransformation durchgeführt werden!

9 / 30

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul B: Datenanalyse

Analyse Kategorischer Variablen

Die Analyse von kategorischen Variablen vereint die Konzepte:
- Mengenlehre
- Kodierung/Dekodierung
- Verteilung (Wahrscheinlichkeit des Auftretens)

Beispiel von rein kategorischen Attributen einer Datentabelle D

10 / 30

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul B: Datenanalyse

Messdaten

5:53

Beispiel einer rein kategorischen Datentabelle D. Die Zielvariable Klasse mit den Werten {N,P} ist ebenfalls kategorisch, z.B. Klasse=P ⇒ Sportliche Aktivität

11 / 30

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul B: Datenanalyse

Gemischte Variablenklassen

7:47

Einige Datenvariablen wurden mit numerischen/metrischen Werten ersetzt (Klasse → Play-time)

12 / 30

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul B: Datenanalyse

Kann aus der vorherigen Datentabelle mit numerischen Variablen noch ein Zusammenhang aus X zu Y hergestellt werden?

Reicht die Anzahl der Experimente im Vergleich zu der rein kategorischen Datentabelle?

Wo liegen die Probleme?

Numerische Vars bräuchten Schwellwerte×
Intervalle von Werten bilden×
Bei num. Vars hohe Anzahl von Experimenten×
No search results.

13 / 30

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul B: Datenanalyse

Weiteres Beispiel

7:7

14 / 30

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul B: Datenanalyse

Kodierung

Kategorische Variablen (sowohl Attribute als auch Zielvariablen) können von einer Vielzahl von numerisch basierten ML Verfahren nicht verarbeitet werden (wie neuronale Netze)

Eine Lösung kann die Abbildung von kategorischen Werten (also Mengen von Symbolen) auf numerische Werte → Kodierung
Kodierte Werte sind aber i.A. weder intervall- noch verhältnisskalierbar!

15 / 30

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul B: Datenanalyse

Kodierungsformate

Linear und nicht akkummulativ (skalar), d.h.
{α,β,γ,..} → {δ,2δ,3δ,..}
Exponentiell (z.B. zur Basis B=2) und akkummulativ (skalar), d.h.
{α,β,γ,..} → {2⁰,2¹,2²,..}
One-hot und evtl. akkummulativ (vektoriell), d.h.
{α,β,γ,..} → {[1,0,0,...],[0,1,0,..],[0,0,1,..],..}

Expontentielle Kodierungen können multiple verschiedene kategorische Werte in einem numerischen Wert darstellen! Z.B. mehrfache kategorische Antworten bei einer Frage einer Umfrage.

16 / 30

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul B: Datenanalyse

Beispiele

{sonnig,bewölkt,regnerisch} → {3,2,1}
{ja,nein} → {1,0}
{Schaden A, Schaden B, Schaden C} → { 1,2,3 }
{rot,grün,blau,braun,weiß} → {1,2,4,8,16}
{Sport, Kino, Theater, Musik} → {1,2,4,8}
{heiß,kalt} → {[1,0],[0,1]}

Numerische/metrische Werte können auf kategorische durch Intervallkodierung reduziert werden:

$cat(x) : x \rightarrow \left\{ \alpha_1,\alpha_2,..,\alpha_n \right\}, x \in \mathbb{R}/\mathbb{N} \\ \alpha_i \leftrightarrow x=\left[x_0+i\delta,x_0+(i+1)\delta\right]$

17 / 30

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul B: Datenanalyse

Z.B. die Kategorisierung von Schadenspositionen in einer mechanischen Struktur durch räumliche Bereiche (Segmente) {S1,S2,S3,..,S9}
Z.B. Temperaturen durch "gefühlte" Attribute {heiß, warm, moderat, kalt, eiskalt}
Z.B. Zeitangaben durch Epochen {Steinzeit, Bronzezeit, Kohlezeit, .. }

Dekodierung

Die Kodierung ist umkehrbar mit einer Dekodierungsfunktion (unter Kenntnis der Kodierungsvorschrift)

18 / 30

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul B: Datenanalyse

Verwendung der code=Math.code(val,codes) und val=Math.decode(code,codes) Funktionen

19 / 30

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul B: Datenanalyse

Entropie und Informationsgehalt

Sensorvariablen können unterschiedlichen Informationsgehalt besitzen
- Nur auf den Dateninhalt (Werte) der Variable X_i bezogen (inherenter Informationsgehalt)
- Oder zusätzlich bezogen auf die Zielvariable Y (abhängiger Informationsgehalt)
Der Informationsgehalt einer Menge X aus Elementen der Menge C wird durch die Entropie E(X) gegeben:

$E(X) = -\sum_{i=1,k}p_i\log_2(p_i),p_i=\frac{count(c_i,X)}{N},X=\left\{c | c \in C\right\}$

20 / 30

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul B: Datenanalyse

Dabie ist k die Anzahl der unterscheidbaren Elemente/Klassen Val(X) ⊆ C in der Datenmenge X (z.B. die Spalte einer Tabelle) und p_i die Häufigkeit des Auftretens eines Elements c_i ∈ C in X.

Beispiele:

X1={A, C, B, C, B, C} → Val(X1)=C={A, B, C},N=6
E(X1)=-(1/6)log(1/6)-(2/6)log(2/6)-(3/6)log(3/6)=1.46
X2={A, B, C} → Val(X2)=C={A, B, C},N=3
E(X2)=-(1/3)log(1/3)-(1/3)log(1/3)-(1/3)log(1/3)=1.58
X3={A, A, A, A, B, B} → Val(X3)={A,B} ⊂ C={A, B, C},N=6
E(X3)=-(4/6)log(4/6)-(2/6)log(2/6)-(0/6)log(0/6)=0.92
X4={A, A, A, A, B, B} → Val(X4)=C={A, B},N=6
E(X4)=-(4/6)log(4/6)-(2/6)log(2/6)=0.92

21 / 30

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul B: Datenanalyse

Die Entropie ist Null wenn die Datenmenge X "rein" ist, d.h., nur Elemente einer einzigen Attributklasse c₁ ∈ C enthält, z.B. X={A,A,A}.
Die Entropie reicht allein zur Bewertung des Informationsgehaltes nicht aus:

X1	X2	Y
A	C	P
B	C	P
A	D	N
B	D	N

E(X1)=1, E(X2)=1 !! Welche Variable X ist für die Entscheidung der Zielvariable Y geeignet?

22 / 30

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul B: Datenanalyse

23 / 30

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul B: Datenanalyse

Informationsgewinn (Gain)

Ansatz: Die Datenmenge Y wird nach den möglichen Werten von X partitioniert, also je eine Partition pro c_i ∈ Val(X).

$G(Y|X) = E(Y) - \sum_{v \in Val(X)} \frac{|Y_v|}{|Y|}E(Y_v)$

Die Menge Y_v enthält nur Werte für die X=v ist!
Ein Verteilungsvektor ist dann Dist(X)=[|v₁|,|v₂|,..] und bedeutet wie häufig der bestimmte Wert v_i ∈ Val(X) in X auftaucht!

24 / 30

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul B: Datenanalyse

Ein Verteilungsvektor ist dann Dist(Y_v|X)=[|u₁|,|u₂|,..] und bedeutet wie häufig der bestimmte Wert u ∈ Val(Y) in Y_v auftaucht!

Beispiele

25 / 30

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul B: Datenanalyse

26 / 30

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul B: Datenanalyse

Principle Component Analysis

PCA: Klassische Methode zur unüberwachten linearen Dimensionsreduktion → Analyse der Hauptkomponenten
Reduktion von Redundanz in den Attributen X
Bessere Trennung bei der Inferent von kategorischen (und ggfs. auch numerischen) Zielvariablen
Weitere Verfahren:
- Lineare Diskriminanzanalyse (LDA)
- Singuläre Wertzerlegung (SVD)

27 / 30

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul B: Datenanalyse

Beispiel

D=[X₁,X₂,Y], mit Val(Y)={Class1,Class2}
"Rotation" des zweidimensionalen Attributraums führt zu einer reduzierten Datentabelle D'=[PC₁,Y] (PC₂ kann weg gelassen werden)

Czarnek, RG

28 / 30

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul B: Datenanalyse

Merkmalsselektion

Die statistische und weitere Analysen können die Eingabe für ML liefern, aber auch die Modellsynthese parametrisieren bzw. beeinflussen

29 / 30

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul B: Datenanalyse

Zusammenfassung

Die statistische Analyse von Datentabellen liefert wichtige Informationen über die Qualität der Daten
Die Merkmalsselektion transformiert die Rohdaten auf neue möglichst linear unabhängige Attribute
- Datenreduktion → Dimensionalität
- Datenreduktion → Datengröße
- Datenqualitätserhöhung
Es werden Verfahren für kategorische und numerische Datenvariablen unterschieden

30 / 30