Maschinelles Lernen und Datenanalyse

In der Mess- und Prüftechnik PD Stefan Bosse

Universität Bremen - FB Mathematik und Informatik

1 / 43

Stefan Bosse - Maschinelles Lernen - Datenanalyse und Eigenschaftsselektion -

Datenanalyse und Eigenschaftsselektion

Häufig sind die rohen sensorischen Daten(variablen) zu hochdimensional und abhängig voneinander

Reduktion auf wesentliche Merkmale kann ML Qualität deutlich verbessern

Häufig besitzen einzelne Sensorvariablen keine oder nur geringe Aussagekraft (geringe Entscheidbarkeitsqualität)

2 / 43

Stefan Bosse - Maschinelles Lernen - Datenanalyse und Eigenschaftsselektion - Datenqualität

Datenqualität

Die Daten D werden durch vier wesentliche Eigenschaften beschrieben, die auch mit statistischer Analyse quantifiziert werden können:

Rauschen. Rauschen ist die Verzerrung der Daten. Diese Verzerrung muss entfernt oder Ihre nachteiligen Auswirkungen vermindert werden, bevor ML Algorithmen ausgeführt werden, da die Leistung und Qualität der Algorithmen beeinträchtigen kwerden ann.

Es gibt eine Vielzahl von Filteralgorithmen um den Einfluß von Rauschen auf das eigentliche Sensorsignal zu vermindern.

3 / 43

Stefan Bosse - Maschinelles Lernen - Datenanalyse und Eigenschaftsselektion - Datenqualität

Ausreißer. Ausreißer sind Instanzen, die sich erheblich von anderen Instanzen im Datensatz unterscheiden.

Beispiel: Durchschnittliche Anzahl der Follower von Nutzern auf Twitter.
Eine Berühmtheit mit vielen Followern kann die durchschnittliche Anzahl von Followern pro Person leicht verzerren. Da die Prominenten Ausreißer sind, müssen Sie aus der Gruppe der Personen entfernt werden, um die durchschnittliche Anzahl der Follower genau zu Messen.

Aber: Ausreißer können in besonderen Fällen nützliche Muster darstellen und die Entscheidung, sie zu entfernen, hängt vom Kontext und Fragestellung ab.

4 / 43

Stefan Bosse - Maschinelles Lernen - Datenanalyse und Eigenschaftsselektion - Datenqualität

Fehlende Werte. Fehlende Werte sind Funktionswerte, die in Instanzen fehlen.

Zum Beispiel, Einzelpersonen können es vermeiden, Profilinformationen auf social-media-Websites zu melden, wie Ihr Alter, Standort, oder Hobbys.
Um dieses Problem zu lösen, können wir
1. Instanzen mit fehlenden Werten entfernen;
2. Fehlende Werte schätzen (Z. B. durch den gängigsten Wert ersetzen); oder
3. Fehlende Werte ignorieren, wenn Data Mining Algorithmen ausgeführt werden.

5 / 43

Stefan Bosse - Maschinelles Lernen - Datenanalyse und Eigenschaftsselektion - Datenqualität

Duplikate. Doppelte Daten treten auf, wenn mehrere Instanzen mit genau denselben Funktionswerten vorhanden sind.

Doppelte blog-posts, doppelte tweets oder Profile auf Social-media-Websites mit doppelten Informationen sind Beispiele für dieses Phänomen.
Je nach Kontext können diese Instanzen entweder entfernt oder beibehalten werden. Wenn Instanzen beispielsweise eindeutig sein müssen, sollten doppelte Instanzen entfernt werden.

6 / 43

Stefan Bosse - Maschinelles Lernen - Datenanalyse und Eigenschaftsselektion - Statistische Analyse

Statistische Analyse

Statistische Analysen von Mess- und Sensordaten können neue Datenvariablen erzeugen und Informationen über die Daten liefern:
- Eigenschaftsselektion (Feature Selection) für ML und Informationsgewinnung
- Variablentransformation mit Datenreduktion
Statistische Analyse liefert eine Reihe von Kennzahlen über Datenvariablen, das können Eigenschaften für die Weiterverabeitung sein:

$stat(\vec{x}): \vec{x} \rightarrow \vec{p}, \\ \vec{p}=\{mean,\sigma,..\}$

7 / 43

Stefan Bosse - Maschinelles Lernen - Datenanalyse und Eigenschaftsselektion - Statistische Analyse

Welche statistische Größen gibt es? Was können statistische Größen über Daten aussagen?

8 / 43

Stefan Bosse - Maschinelles Lernen - Datenanalyse und Eigenschaftsselektion - Statistische Funktionen

Statistische Funktionen

2:173

9 / 43

Stefan Bosse - Maschinelles Lernen - Datenanalyse und Eigenschaftsselektion - Statistische Funktionen

Statistische Funktionen

2:173

10 / 43

Stefan Bosse - Maschinelles Lernen - Datenanalyse und Eigenschaftsselektion - Statistische Funktionen

11 / 43

Stefan Bosse - Maschinelles Lernen - Datenanalyse und Eigenschaftsselektion - Korrelation von Datenvariablen

Korrelation von Datenvariablen

Variablen X sollten möglichst (linear) unabängig sein,
- Um eine geeignete, robuste und genaue Modellsynthese (also ML) zu ermöglichen, d.h.
- Es sollte möglichst keine Zusammenhänge der Form ∃correlation(X_i,X_j) geben!
- Um den Modellsyntheseprozess zu beschleunigen (also das Training); Rechenzeit reduzieren
- Um Modelle klein und kompakt zu halten
- Um Modellspezialisierung zu vermeiden und Varianz zu erhöhen

Abhängige Variablen sollten identifiziert und in unabhängige "transformiert" werden!

12 / 43

Stefan Bosse - Maschinelles Lernen - Datenanalyse und Eigenschaftsselektion - Korrelation von Datenvariablen

Beispiel Prozessanalyse

Eine Datentabelle D mit experimentellen Messgrößen und Fertigungsparametern (Prozessparameter) von additiv gefertigten Bauteilen hatte zunächst 7 Variablen (numerisch):
- X₁: Hatchabstand [mm]
- X₂: Scangeschwindigkeit [mm/s]
- X₃: Laserleistung [W]
- X₄: Schichtstärke [mm]
- X₅: Volumenenergiedichte [J/mm³]
- X₆: Bauplatten Position x
- X₇: Bauplatten Position y
- Y₁: Dichte (%)

13 / 43

Stefan Bosse - Maschinelles Lernen - Datenanalyse und Eigenschaftsselektion - Korrelation von Datenvariablen

D bestand aus 61 Experimenten mit unterschiedlichen Fertigungsserien
Mit einer Principle Component Analysis (PCA) konnte die ganze Tabelle auf die Variablen PC₁ und Y₁reduziert werden!
- Die Genauigkeit der mit ML synthetisierten Funktion M(X): X → Dichte konnte ohne signifikanten Genauigkeitsverlust nur aus PC₁ abgeleitet werden, d.h. M(PC₁): PC₁ → Dichte
- Aber: Für die Inferenz (Applikation) von M muss die PCA für die Eingabedaten X wiederholt werden bzw. die Datentransformation durchgeführt werden!

14 / 43

Stefan Bosse - Maschinelles Lernen - Datenanalyse und Eigenschaftsselektion - Korrelation von Datenvariablen

Übung

Übung: Erstelle eine WorkBook um die Daten des botanischer Iris Datensatzes aus der SQL Datenbank einlesen kann. Dann sollen einfache statistische Analysen erstellt werden.

Welche Eigenschaften besitzen die Variabel X₁ bis X₄? Welche Verteilung besitzt die Variable Y?

15 / 43

Stefan Bosse - Maschinelles Lernen - Datenanalyse und Eigenschaftsselektion - Analyse Kategorischer Variablen

Analyse Kategorischer Variablen

Die Analyse von kategorischen Variablen vereint die Konzepte:
- Mengenlehre
- Kodierung/Dekodierung
- Verteilung (Wahrscheinlichkeit des Auftretens)

5 Beispiel von rein kategorischen Attributen einer Datentabelle D

16 / 43

Stefan Bosse - Maschinelles Lernen - Datenanalyse und Eigenschaftsselektion - Analyse Kategorischer Variablen

Messdaten

5:53 Beispiel einer rein kategorischen Datentabelle D. Die Zielvariable Klasse mit den Werten {N,P} ist ebenfalls kategorisch, z.B. Klasse=P ⇒ Sportliche Aktivität

17 / 43

Stefan Bosse - Maschinelles Lernen - Datenanalyse und Eigenschaftsselektion - Analyse Kategorischer Variablen

Gemischte Variablenklassen

7:47 Einige Datenvariablen wurden mit numerischen/metrischen Werten ersetzt (Klasse → Play-time)

18 / 43

Stefan Bosse - Maschinelles Lernen - Datenanalyse und Eigenschaftsselektion - Analyse Kategorischer Variablen

Kann aus der vorherigen Datentabelle mit numerischen Variablen noch ein Zusammenhang aus X zu Y hergestellt werden?

Reicht die Anzahl der Experimente im Vergleich zu der rein kategorischen Datentabelle?

Wo liegen die Probleme?

19 / 43

Stefan Bosse - Maschinelles Lernen - Datenanalyse und Eigenschaftsselektion - Analyse Kategorischer Variablen

Weiteres Beispiel

7:7

20 / 43

Stefan Bosse - Maschinelles Lernen - Datenanalyse und Eigenschaftsselektion - Kodierung

Kodierung

Kategorische Variablen (sowohl Attribute als auch Zielvariablen) können von einer Vielzahl von numerisch basierten ML Verfahren nicht verarbeitet werden (wie neuronale Netze)

Eine Lösung ist die Abbildung von kategorischen Werten (also Mengen von Symbolen) auf numerische Werte → Kodierung
Kodierte Werte sind aber i.A. weder intervall- noch verhältnisskalierbar!

21 / 43

Stefan Bosse - Maschinelles Lernen - Datenanalyse und Eigenschaftsselektion - Kodierung

Kodierungsformate

Linear und nicht akkummulativ (skalar), d.h.
{α,β,γ,..} → {δ,2δ,3δ,..}
Exponentiell (z.B. zur Basis B=2) und akkummulativ (skalar), d.h.
{α,β,γ,..} → {2⁰,2¹,2²,..}
One-hot und evtl. akkummulativ (vektoriell), d.h.
{α,β,γ,..} → {[1,0,0,...],[0,1,0,..],[0,0,1,..],..}

Expontentielle Kodierungen können multiple verschiedene kategorische Werte in einem numerischen Wert darstellen! Z.B. mehrfache kategorische Antworten bei einer Frage einer Umfrage.

22 / 43

Stefan Bosse - Maschinelles Lernen - Datenanalyse und Eigenschaftsselektion - Kodierung

Beispiele

{sonnig,bewölkt,regnerisch} → {3,2,1}
{ja,nein} → {1,0}
{Schaden A, Schaden B, Schaden C} → { 1,2,3 }
{rot,grün,blau,braun,weiß} → {1,2,4,8,16}
{Sport, Kino, Theater, Musik} → {1,2,4,8}
{heiß,kalt} → {[1,0],[0,1]}

Numerische/metrische Werte können auf kategorische durch Intervallkodierung reduziert werden:

$cat(x) : x \rightarrow \left\{ \alpha_1,\alpha_2,..,\alpha_n \right\}, x \in \mathbb{R}/\mathbb{N} \\ \alpha_i \leftrightarrow x=\left[x_0+i\delta,x_0+(i+1)\delta\right]$

23 / 43

Stefan Bosse - Maschinelles Lernen - Datenanalyse und Eigenschaftsselektion - Kodierung

Verwendung der code=Math.code(val,codes) und val=Math.decode(code,codes) Funktionen

24 / 43

Stefan Bosse - Maschinelles Lernen - Datenanalyse und Eigenschaftsselektion - Entropie und Informationsgehalt

Entropie und Informationsgehalt

Sensorvariablen können unterschiedlichen Informationsgehalt besitzen
- Nur auf den Dateninhalt (Werte) der Variable X_i bezogen (inherenter Informationsgehalt)
- Oder zusätzlich bezogen auf die Zielvariable Y (abhängiger Informationsgehalt)
Der Informationsgehalt einer Menge X aus Elementen der Menge C wird durch die Entropie E(X) gegeben:

$E(X) = -\sum_{i=1,k}p_i\log_2(p_i),p_i=\frac{count(c_i,X)}{N},X=\left\{c | c \in C\right\}$

25 / 43

Stefan Bosse - Maschinelles Lernen - Datenanalyse und Eigenschaftsselektion - Entropie und Informationsgehalt

Dabie ist k die Anzahl der unterscheidbaren Elemente/Klassen Val(X) ⊆ C in der Datenmenge X (z.B. die Spalte einer Tabelle) und p_i die Häufigkeit des Auftretens eines Elements c_i ∈ C in X.

Beispiele:

X1={A, C, B, C, B, C} → Val(X1)=C={A, B, C},N=6
E(X1)=-(1/6)log(1/6)-(2/6)log(2/6)-(3/6)log(3/6)=1.46
X2={A, B, C} → Val(X2)=C={A, B, C},N=3
E(X2)=-(1/3)log(1/3)-(1/3)log(1/3)-(1/3)log(1/3)=1.58
X3={A, A, A, A, B, B} → Val(X3)={A,B} ⊂ C={A, B, C},N=6
E(X3)=-(4/6)log(4/6)-(2/6)log(2/6)-(0/6)log(0/6)=0.92
X4={A, A, A, A, B, B} → Val(X4)=C={A, B},N=6
E(X4)=-(4/6)log(4/6)-(2/6)log(2/6)=0.92

26 / 43

Stefan Bosse - Maschinelles Lernen - Datenanalyse und Eigenschaftsselektion - Entropie und Informationsgehalt

Die Entropie ist Null wenn die Datenmenge X "rein" ist, d.h., nur Elemente einer einzigen Attributklasse c₁ ∈ C enthält, z.B. X={A,A,A}.
Die Entropie ist log₂(|C|) wenn alle Werte gleichverteilt vorkommen, wenn nicht dann kleiner (nicht gleichverteilt).
Die Entropie reicht allein zur Bewertung des Informationsgehaltes nicht aus:

X1	X2	Y
A	C	P
B	C	P
A	D	N
B	D	N

E(X1)=1, E(X2)=1 !! Welche Variable X ist für die Entscheidung der Zielvariable Y geeignet?

27 / 43

Stefan Bosse - Maschinelles Lernen - Datenanalyse und Eigenschaftsselektion - Entropie und Informationsgehalt

28 / 43

Stefan Bosse - Maschinelles Lernen - Datenanalyse und Eigenschaftsselektion - Informationsgewinn (Gain)

Informationsgewinn (Gain)

Ansatz: Die Datenmenge Y wird nach den möglichen Werten von X partitioniert, also je eine Partition pro c_i ∈ Val(X).

$G(Y|X) = E(Y) - \sum_{v \in Val(X)} \frac{|Y_v|}{|Y|}E(Y_v)$

Die Menge Y_v enthält nur Werte für die X=v ist!
Ein Verteilungsvektor ist dann Dist(X)=[|v₁|,|v₂|,..] und bedeutet wie häufig der bestimmte Wert v_i ∈ Val(X) in X auftaucht!

29 / 43

Stefan Bosse - Maschinelles Lernen - Datenanalyse und Eigenschaftsselektion - Informationsgewinn (Gain)

Ein Verteilungsvektor ist dann Dist(Y_v|X)=[|u₁|,|u₂|,..] und bedeutet wie häufig der bestimmte Wert u ∈ Val(Y) in Y_v auftaucht!

Beispiele

30 / 43

Stefan Bosse - Maschinelles Lernen - Datenanalyse und Eigenschaftsselektion - Informationsgewinn (Gain)

31 / 43

Stefan Bosse - Maschinelles Lernen - Datenanalyse und Eigenschaftsselektion - Principle Component Analysis

Principle Component Analysis

PCA: Klassische Methode zur unüberwachten linearen Dimensionsreduktion → Analyse der Hauptkomponenten

PCA ist noch keine Reduktionsmethode. PCA liefert bei einem n-dimensionalen Vektor X genau n Vektoren der Dimensionalität n!

Aber: Reduktion von Redundanz in den Attributen X ist mit diesen Hauptkomponenten möglich.

Bessere Trennung bei der Inferenz von kategorischen (und ggfs. auch numerischen) Zielvariablen
Weitere Verfahren:
- Lineare Diskriminanzanalyse (LDA)
- Singuläre Wertzerlegung (SVD)

32 / 43

Stefan Bosse - Maschinelles Lernen - Datenanalyse und Eigenschaftsselektion - Principle Component Analysis

Beispiel

D=[X₁,X₂,Y], mit Val(Y)={Class1,Class2}
"Rotation" des zweidimensionalen Attributraums führt zu einer reduzierten Datentabelle D'=[PC₁,Y] (PC₂ kann weg gelassen werden)

Czarnek, RG

33 / 43

Stefan Bosse - Maschinelles Lernen - Datenanalyse und Eigenschaftsselektion - Principle Component Analysis

Amplitudenspektrum

$Mag(X) = \frac{\sqrt{[re(DFT(X))]^2+[im(DFT(X))]^2}}{N}$

Phasenspektrum

$Pha(X) = \arctan\left({\frac{im(DFT(X))}{re(DFT(X))}}\right)$

Leistungsspektrum

$Power(X) = \frac{[re(DFT(X))]^2+[im(DFT(X))]^2}{N}$

34 / 43

Stefan Bosse - Maschinelles Lernen - Datenanalyse und Eigenschaftsselektion - Principle Component Analysis

Waveletanalyse

Diskrete Wavelet Transformation (DWT)
- DFT liefert nur Informationen im Frequenzraum
- DWT liefert Informationen aus Zeit- und Frequenzraum
- Höherer Informationsgehalt

DWT verwendet lange Zeitfenster für niedrige Frequenzen und kurze Zeitfenster für höhere Frequenzen, was zu einer guten zeitfrequenzanalyse führt.

35 / 43

Stefan Bosse - Maschinelles Lernen - Datenanalyse und Eigenschaftsselektion - Principle Component Analysis

DWT kann mit digitalen Filterkaskaden aufgebaut werden:

Jede Ebene der Filterkaskade besteht aus einem Hoch- und einem Tiefpassfilter
Der Hochpassfilter liefert die Details, der Tiefpassfilter die Approximation der DWT auf der n-ten Ebene
Die Approximation der Ebene n ist das Eingangssignal für die Ebene n+1
In jeder Ebene wird der Eingangsvektor |x_i|=N auf N/2 reduziert, d.h. |x_i+1|=N/2

36 / 43

Stefan Bosse - Maschinelles Lernen - Datenanalyse und Eigenschaftsselektion - Histogrammanalyse

Histogrammanalyse

Ein Histogramm gibt die (intervallbasierte) Verteilung von unterscheidbaren Elementen in einer Datenmenge X an
- Beispiel sind Histogramme von Bildern die die Verteilung der Farb-/Grauwerte mit den Werten == Kanälen {0,1,..,255} wiedergeben.

wavemetrics

37 / 43

Stefan Bosse - Maschinelles Lernen - Datenanalyse und Eigenschaftsselektion - Analyse von Datenserien

Analyse von Datenserien

Welcher Sensoren können bei der Bauteilprüfung und Schadensüberwachung Zeit- oder Datenserien erzeugen..

38 / 43

Stefan Bosse - Maschinelles Lernen - Datenanalyse und Eigenschaftsselektion - Analyse von Datenserien

Messdaten

2:164

Zeitaufgelöste Sensordaten s(t) eines Beschleunigungssensors einer Maschine ohne und mit Schäden

39 / 43

Stefan Bosse - Maschinelles Lernen - Datenanalyse und Eigenschaftsselektion - Analyse von Datenserien

Korrelationsanalyse

2:164

Autokorrlelation der zeitaufgelösten Sensordaten s(t) eines Beschleunigungssensors einer Maschine ohne und mit Schäden

40 / 43

Stefan Bosse - Maschinelles Lernen - Datenanalyse und Eigenschaftsselektion - Analyse von Datenserien

Spektralanalyse

2:167

Spektralanalyse der zeitaufgelösten Sensordaten s(t) eines Beschleunigungssensors einer Maschine ohne und mit Schäden

41 / 43

Stefan Bosse - Maschinelles Lernen - Datenanalyse und Eigenschaftsselektion - Merkmalsselektion

Merkmalsselektion

Die statistische und weitere Analysen können die Eingabe für ML liefern, aber auch die Modellsynthese parametrisieren bzw. beeinflussen

42 / 43

Stefan Bosse - Maschinelles Lernen - Datenanalyse und Eigenschaftsselektion - Zusammenfassung

Zusammenfassung

Die statistische Analyse von Datentabellen liefert wichtige Informationen über die Qualität der Daten
Die Merkmalsselektion transformiert die Rohdaten auf neue möglichst linear unabhängige Attribute
- Datenreduktion → Dimensionalität
- Datenreduktion → Datengröße
- Datenqualitätserhöhung
Es werden Verfahren für kategorische und numerische Datenvariablen unterschieden

43 / 43