PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul B: Datenanalyse

Maschinelles Lernen und Datenanalyse

In der Soziologie

PD Stefan Bosse

Universität Bremen - FB Mathematik und Informatik

1 / 30

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul B: Datenanalyse

Datenanalyse und Eigenschaftsselektion

Häufig sind die rohen sensorischen Daten(variablen) zu hochdimensional und abhängig voneinander

Reduktion auf wesentliche Merkmale kann ML Qualität deutlich verbessern

Häufig besitzen einzelne Sensorvariablen keine oder nur geringe Aussagekraft (geringe Entscheidbarkeitsqualität)

2 / 30

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul B: Datenanalyse

Statistische Analyse

  • Statistische Analysen von Mess- und Sensordaten können neue Datenvariablen erzeugen und Informationen über die Daten liefern:

    • Eigenschaftsselektion (Feature Selection) für ML und Informationsgewinnung
    • Variablentransformation mit Datenreduktion
  • Statistische Analyse liefert eine Reihe von Kennzahlen über Datenvariablen, das können Eigenschaften für die Weiterverabeitung sein:

stat(x):xp,p={mean,σ,..}

3 / 30

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul B: Datenanalyse

Welche statistische Größen gibt es? Was können statistische Größen über Daten aussagen?

  • Mittelwert×
  • Lagemaße×
  • Median×
  • Varianz×
  • StdAbw.×
  • Min/Max×
  • No search results.
4 / 30

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul B: Datenanalyse

Statistische Funktionen

2:173

5 / 30

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul B: Datenanalyse

Statistische Funktionen

2:173

6 / 30

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul B: Datenanalyse

Korrelation von Datenvariablen

  • Variablen X sollten möglichst (linear) unabängig sein,

    • Um eine geeignete, robuste und genaue Modellsynthese (also ML) zu ermöglichen, d.h.
    • Es sollte möglichst keine Zusammenhänge der Form ∃correlation(Xi,Xj) geben!
    • Um den Modellsyntheseprozess zu beschleunigen (also das Training); Rechenzeit reduzieren
    • Um Modelle klein und kompakt zu halten
  • Abhängige Variablen sollten identifiziert und in unabhängige "transformiert" werden!

7 / 30

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul B: Datenanalyse

Beispiel Prozessanalyse

  • Eine Datentabelle D mit experimentellen Messgrößen und Fertigungsparametern (Prozessparameter) von additiv gefertigten Bauteilen hatte zunächst 7 Variablen (numerisch):
    • X1: Hatchabstand [mm]
    • X2: Scangeschwindigkeit [mm/s]
    • X3: Laserleistung [W]
    • X4: Schichtstärke [mm]
    • X5: Volumenenergiedichte [J/mm3]
    • X6: Bauplatten Position x
    • X7: Bauplatten Position y
    • Y1: Dichte (%)
8 / 30

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul B: Datenanalyse

  • D bestand aus 61 Experimenten mit unterschiedlichen Fertigungsserien

  • Mit einer Principle Component Analysis (PCA) konnte die ganze Tabelle auf die Variablen PC1 und Y1reduziert werden!

    • Die Genauigkeit der mit ML synthetitisierten Funktion M(X): XDichte konnte ohne signifikanten Genauigkeitsverlust nur aus PC1 abgeleitet werden, d.h. M(PC1): PC1Dichte

    • Aber: Für die Inferenz (Applikation) von M muss die PCA für die Eingabedaten X wiederholt werden bzw. die Datentransformation durchgeführt werden!

9 / 30

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul B: Datenanalyse

Analyse Kategorischer Variablen

  • Die Analyse von kategorischen Variablen vereint die Konzepte:
    • Mengenlehre
    • Kodierung/Dekodierung
    • Verteilung (Wahrscheinlichkeit des Auftretens)

5

Beispiel von rein kategorischen Attributen einer Datentabelle D

10 / 30

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul B: Datenanalyse

Messdaten

5:53

Beispiel einer rein kategorischen Datentabelle D. Die Zielvariable Klasse mit den Werten {N,P} ist ebenfalls kategorisch, z.B. Klasse=P ⇒ Sportliche Aktivität

11 / 30

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul B: Datenanalyse

Gemischte Variablenklassen

7:47

Einige Datenvariablen wurden mit numerischen/metrischen Werten ersetzt (Klasse → Play-time)

12 / 30

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul B: Datenanalyse

Kann aus der vorherigen Datentabelle mit numerischen Variablen noch ein Zusammenhang aus X zu Y hergestellt werden?

Reicht die Anzahl der Experimente im Vergleich zu der rein kategorischen Datentabelle?

Wo liegen die Probleme?

  • Numerische Vars bräuchten Schwellwerte×
  • Intervalle von Werten bilden×
  • Bei num. Vars hohe Anzahl von Experimenten×
  • No search results.
13 / 30

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul B: Datenanalyse

Weiteres Beispiel

7:7

14 / 30

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul B: Datenanalyse

Kodierung

Kategorische Variablen (sowohl Attribute als auch Zielvariablen) können von einer Vielzahl von numerisch basierten ML Verfahren nicht verarbeitet werden (wie neuronale Netze)

  • Eine Lösung kann die Abbildung von kategorischen Werten (also Mengen von Symbolen) auf numerische Werte → Kodierung

  • Kodierte Werte sind aber i.A. weder intervall- noch verhältnisskalierbar!

15 / 30

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul B: Datenanalyse

Kodierungsformate

  • Linear und nicht akkummulativ (skalar), d.h.
    {α,β,γ,..} → {δ,2δ,3δ,..}

  • Exponentiell (z.B. zur Basis B=2) und akkummulativ (skalar), d.h.
    {α,β,γ,..} → {20,21,22,..}

  • One-hot und evtl. akkummulativ (vektoriell), d.h.
    {α,β,γ,..} → {[1,0,0,...],[0,1,0,..],[0,0,1,..],..}

Expontentielle Kodierungen können multiple verschiedene kategorische Werte in einem numerischen Wert darstellen! Z.B. mehrfache kategorische Antworten bei einer Frage einer Umfrage.

16 / 30

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul B: Datenanalyse

Beispiele

{sonnig,bewölkt,regnerisch} → {3,2,1}
{ja,nein} → {1,0}
{Schaden A, Schaden B, Schaden C} → { 1,2,3 }
{rot,grün,blau,braun,weiß} → {1,2,4,8,16}
{Sport, Kino, Theater, Musik} → {1,2,4,8}
{heiß,kalt} → {[1,0],[0,1]}
  • Numerische/metrische Werte können auf kategorische durch Intervallkodierung reduziert werden:

cat(x):x{α1,α2,..,αn},xR/Nαix=[x0+iδ,x0+(i+1)δ]

17 / 30

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul B: Datenanalyse

  • Z.B. die Kategorisierung von Schadenspositionen in einer mechanischen Struktur durch räumliche Bereiche (Segmente) {S1,S2,S3,..,S9}

  • Z.B. Temperaturen durch "gefühlte" Attribute {heiß, warm, moderat, kalt, eiskalt}

  • Z.B. Zeitangaben durch Epochen {Steinzeit, Bronzezeit, Kohlezeit, .. }

Dekodierung

Die Kodierung ist umkehrbar mit einer Dekodierungsfunktion (unter Kenntnis der Kodierungsvorschrift)

18 / 30

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul B: Datenanalyse

  • Verwendung der code=Math.code(val,codes) und val=Math.decode(code,codes) Funktionen
19 / 30

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul B: Datenanalyse

Entropie und Informationsgehalt

  • Sensorvariablen können unterschiedlichen Informationsgehalt besitzen

    • Nur auf den Dateninhalt (Werte) der Variable Xi bezogen (inherenter Informationsgehalt)
    • Oder zusätzlich bezogen auf die Zielvariable Y (abhängiger Informationsgehalt)
  • Der Informationsgehalt einer Menge X aus Elementen der Menge C wird durch die Entropie E(X) gegeben:

E(X)=i=1,kpilog2(pi),pi=count(ci,X)N,X={c|cC}

20 / 30

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul B: Datenanalyse

  • Dabie ist k die Anzahl der unterscheidbaren Elemente/Klassen Val(X) ⊆ C in der Datenmenge X (z.B. die Spalte einer Tabelle) und pi die Häufigkeit des Auftretens eines Elements ciC in X.

  • Beispiele:

    X1={A, C, B, C, B, C} → Val(X1)=C={A, B, C},N=6
    E(X1)=-(1/6)log(1/6)-(2/6)log(2/6)-(3/6)log(3/6)=1.46
    X2={A, B, C} → Val(X2)=C={A, B, C},N=3
    E(X2)=-(1/3)log(1/3)-(1/3)log(1/3)-(1/3)log(1/3)=1.58
    X3={A, A, A, A, B, B} → Val(X3)={A,B} ⊂ C={A, B, C},N=6
    E(X3)=-(4/6)log(4/6)-(2/6)log(2/6)-(0/6)log(0/6)=0.92
    X4={A, A, A, A, B, B} → Val(X4)=C={A, B},N=6
    E(X4)=-(4/6)log(4/6)-(2/6)log(2/6)=0.92
21 / 30

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul B: Datenanalyse

  • Die Entropie ist Null wenn die Datenmenge X "rein" ist, d.h., nur Elemente einer einzigen Attributklasse c1C enthält, z.B. X={A,A,A}.

  • Die Entropie reicht allein zur Bewertung des Informationsgehaltes nicht aus:

X1 X2 Y
A C P
B C P
A D N
B D N
  • E(X1)=1, E(X2)=1 !! Welche Variable X ist für die Entscheidung der Zielvariable Y geeignet?
22 / 30

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul B: Datenanalyse

23 / 30

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul B: Datenanalyse

Informationsgewinn (Gain)

  • Ansatz: Die Datenmenge Y wird nach den möglichen Werten von X partitioniert, also je eine Partition pro ciVal(X).

G(Y|X)=E(Y)vVal(X)|Yv||Y|E(Yv)

  • Die Menge Yv enthält nur Werte für die X=v ist!

  • Ein Verteilungsvektor ist dann Dist(X)=[|v1|,|v2|,..] und bedeutet wie häufig der bestimmte Wert viVal(X) in X auftaucht!

24 / 30

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul B: Datenanalyse

  • Ein Verteilungsvektor ist dann Dist(Yv|X)=[|u1|,|u2|,..] und bedeutet wie häufig der bestimmte Wert uVal(Y) in Yv auftaucht!

Beispiele

12

25 / 30

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul B: Datenanalyse

26 / 30

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul B: Datenanalyse

Principle Component Analysis

  • PCA: Klassische Methode zur unüberwachten linearen Dimensionsreduktion → Analyse der Hauptkomponenten

  • Reduktion von Redundanz in den Attributen X

  • Bessere Trennung bei der Inferent von kategorischen (und ggfs. auch numerischen) Zielvariablen

  • Weitere Verfahren:

    • Lineare Diskriminanzanalyse (LDA)
    • Singuläre Wertzerlegung (SVD)
27 / 30

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul B: Datenanalyse

Beispiel

  • D=[X1,X2,Y], mit Val(Y)={Class1,Class2}
  • "Rotation" des zweidimensionalen Attributraums führt zu einer reduzierten Datentabelle D'=[PC1,Y] (PC2 kann weg gelassen werden)

Czarnek, RG

28 / 30

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul B: Datenanalyse

Merkmalsselektion

Die statistische und weitere Analysen können die Eingabe für ML liefern, aber auch die Modellsynthese parametrisieren bzw. beeinflussen

29 / 30

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul B: Datenanalyse

Zusammenfassung

  • Die statistische Analyse von Datentabellen liefert wichtige Informationen über die Qualität der Daten

  • Die Merkmalsselektion transformiert die Rohdaten auf neue möglichst linear unabhängige Attribute

    • Datenreduktion → Dimensionalität
    • Datenreduktion → Datengröße
    • Datenqualitätserhöhung
  • Es werden Verfahren für kategorische und numerische Datenvariablen unterschieden

30 / 30