Maschinelles Lernen und Datenanalyse

In der Mess- und Prüftechnik PD Stefan Bosse

Universität Bremen - FB Mathematik und Informatik

1 / 43

Stefan Bosse - Maschinelles Lernen - Datenanalyse und Eigenschaftsselektion -

Datenanalyse und Eigenschaftsselektion

Häufig sind die rohen sensorischen Daten(variablen) zu hochdimensional und abhängig voneinander

Reduktion auf wesentliche Merkmale kann ML Qualität deutlich verbessern

Häufig besitzen einzelne Sensorvariablen keine oder nur geringe Aussagekraft (geringe Entscheidbarkeitsqualität)

2 / 43

Stefan Bosse - Maschinelles Lernen - Datenanalyse und Eigenschaftsselektion - Datenqualität

Datenqualität

  • Die Daten D werden durch vier wesentliche Eigenschaften beschrieben, die auch mit statistischer Analyse quantifiziert werden können:

Rauschen. Rauschen ist die Verzerrung der Daten. Diese Verzerrung muss entfernt oder Ihre nachteiligen Auswirkungen vermindert werden, bevor ML Algorithmen ausgeführt werden, da die Leistung und Qualität der Algorithmen beeinträchtigen kwerden ann.

Es gibt eine Vielzahl von Filteralgorithmen um den Einfluß von Rauschen auf das eigentliche Sensorsignal zu vermindern.

3 / 43

Stefan Bosse - Maschinelles Lernen - Datenanalyse und Eigenschaftsselektion - Datenqualität

Ausreißer. Ausreißer sind Instanzen, die sich erheblich von anderen Instanzen im Datensatz unterscheiden.

  • Beispiel: Durchschnittliche Anzahl der Follower von Nutzern auf Twitter.
  • Eine Berühmtheit mit vielen Followern kann die durchschnittliche Anzahl von Followern pro Person leicht verzerren. Da die Prominenten Ausreißer sind, müssen Sie aus der Gruppe der Personen entfernt werden, um die durchschnittliche Anzahl der Follower genau zu Messen.

Aber: Ausreißer können in besonderen Fällen nützliche Muster darstellen und die Entscheidung, sie zu entfernen, hängt vom Kontext und Fragestellung ab.

4 / 43

Stefan Bosse - Maschinelles Lernen - Datenanalyse und Eigenschaftsselektion - Datenqualität

Fehlende Werte. Fehlende Werte sind Funktionswerte, die in Instanzen fehlen.

  • Zum Beispiel, Einzelpersonen können es vermeiden, Profilinformationen auf social-media-Websites zu melden, wie Ihr Alter, Standort, oder Hobbys.

  • Um dieses Problem zu lösen, können wir

    1. Instanzen mit fehlenden Werten entfernen;
    2. Fehlende Werte schätzen (Z. B. durch den gängigsten Wert ersetzen); oder
    3. Fehlende Werte ignorieren, wenn Data Mining Algorithmen ausgeführt werden.
5 / 43

Stefan Bosse - Maschinelles Lernen - Datenanalyse und Eigenschaftsselektion - Datenqualität

Duplikate. Doppelte Daten treten auf, wenn mehrere Instanzen mit genau denselben Funktionswerten vorhanden sind.

  • Doppelte blog-posts, doppelte tweets oder Profile auf Social-media-Websites mit doppelten Informationen sind Beispiele für dieses Phänomen.

  • Je nach Kontext können diese Instanzen entweder entfernt oder beibehalten werden. Wenn Instanzen beispielsweise eindeutig sein müssen, sollten doppelte Instanzen entfernt werden.

6 / 43

Stefan Bosse - Maschinelles Lernen - Datenanalyse und Eigenschaftsselektion - Statistische Analyse

Statistische Analyse

  • Statistische Analysen von Mess- und Sensordaten können neue Datenvariablen erzeugen und Informationen über die Daten liefern:

    • Eigenschaftsselektion (Feature Selection) für ML und Informationsgewinnung
    • Variablentransformation mit Datenreduktion
  • Statistische Analyse liefert eine Reihe von Kennzahlen über Datenvariablen, das können Eigenschaften für die Weiterverabeitung sein:

stat(x):xp,p={mean,σ,..}

7 / 43

Stefan Bosse - Maschinelles Lernen - Datenanalyse und Eigenschaftsselektion - Statistische Analyse

Welche statistische Größen gibt es? Was können statistische Größen über Daten aussagen?

8 / 43

Stefan Bosse - Maschinelles Lernen - Datenanalyse und Eigenschaftsselektion - Statistische Funktionen

Statistische Funktionen

2:173

9 / 43

Stefan Bosse - Maschinelles Lernen - Datenanalyse und Eigenschaftsselektion - Statistische Funktionen

Statistische Funktionen

2:173

10 / 43

Stefan Bosse - Maschinelles Lernen - Datenanalyse und Eigenschaftsselektion - Statistische Funktionen

11 / 43

Stefan Bosse - Maschinelles Lernen - Datenanalyse und Eigenschaftsselektion - Korrelation von Datenvariablen

Korrelation von Datenvariablen

  • Variablen X sollten möglichst (linear) unabängig sein,
    • Um eine geeignete, robuste und genaue Modellsynthese (also ML) zu ermöglichen, d.h.
    • Es sollte möglichst keine Zusammenhänge der Form ∃correlation(Xi,Xj) geben!
    • Um den Modellsyntheseprozess zu beschleunigen (also das Training); Rechenzeit reduzieren
    • Um Modelle klein und kompakt zu halten
    • Um Modellspezialisierung zu vermeiden und Varianz zu erhöhen

Abhängige Variablen sollten identifiziert und in unabhängige "transformiert" werden!

12 / 43

Stefan Bosse - Maschinelles Lernen - Datenanalyse und Eigenschaftsselektion - Korrelation von Datenvariablen

Beispiel Prozessanalyse

  • Eine Datentabelle D mit experimentellen Messgrößen und Fertigungsparametern (Prozessparameter) von additiv gefertigten Bauteilen hatte zunächst 7 Variablen (numerisch):
    • X1: Hatchabstand [mm]
    • X2: Scangeschwindigkeit [mm/s]
    • X3: Laserleistung [W]
    • X4: Schichtstärke [mm]
    • X5: Volumenenergiedichte [J/mm3]
    • X6: Bauplatten Position x
    • X7: Bauplatten Position y
    • Y1: Dichte (%)
13 / 43

Stefan Bosse - Maschinelles Lernen - Datenanalyse und Eigenschaftsselektion - Korrelation von Datenvariablen

  • D bestand aus 61 Experimenten mit unterschiedlichen Fertigungsserien

  • Mit einer Principle Component Analysis (PCA) konnte die ganze Tabelle auf die Variablen PC1 und Y1reduziert werden!

    • Die Genauigkeit der mit ML synthetisierten Funktion M(X): XDichte konnte ohne signifikanten Genauigkeitsverlust nur aus PC1 abgeleitet werden, d.h. M(PC1): PC1Dichte

    • Aber: Für die Inferenz (Applikation) von M muss die PCA für die Eingabedaten X wiederholt werden bzw. die Datentransformation durchgeführt werden!

14 / 43

Stefan Bosse - Maschinelles Lernen - Datenanalyse und Eigenschaftsselektion - Korrelation von Datenvariablen

Übung

Übung: Erstelle eine WorkBook um die Daten des botanischer Iris Datensatzes aus der SQL Datenbank einlesen kann. Dann sollen einfache statistische Analysen erstellt werden.

Welche Eigenschaften besitzen die Variabel X1 bis X4? Welche Verteilung besitzt die Variable Y?

15 / 43

Stefan Bosse - Maschinelles Lernen - Datenanalyse und Eigenschaftsselektion - Analyse Kategorischer Variablen

Analyse Kategorischer Variablen

  • Die Analyse von kategorischen Variablen vereint die Konzepte:
    • Mengenlehre
    • Kodierung/Dekodierung
    • Verteilung (Wahrscheinlichkeit des Auftretens)

5 Beispiel von rein kategorischen Attributen einer Datentabelle D

16 / 43

Stefan Bosse - Maschinelles Lernen - Datenanalyse und Eigenschaftsselektion - Analyse Kategorischer Variablen

Messdaten

5:53 Beispiel einer rein kategorischen Datentabelle D. Die Zielvariable Klasse mit den Werten {N,P} ist ebenfalls kategorisch, z.B. Klasse=P ⇒ Sportliche Aktivität

17 / 43

Stefan Bosse - Maschinelles Lernen - Datenanalyse und Eigenschaftsselektion - Analyse Kategorischer Variablen

Gemischte Variablenklassen

7:47 Einige Datenvariablen wurden mit numerischen/metrischen Werten ersetzt (Klasse → Play-time)

18 / 43

Stefan Bosse - Maschinelles Lernen - Datenanalyse und Eigenschaftsselektion - Analyse Kategorischer Variablen

Kann aus der vorherigen Datentabelle mit numerischen Variablen noch ein Zusammenhang aus X zu Y hergestellt werden?

Reicht die Anzahl der Experimente im Vergleich zu der rein kategorischen Datentabelle?

Wo liegen die Probleme?

19 / 43

Stefan Bosse - Maschinelles Lernen - Datenanalyse und Eigenschaftsselektion - Analyse Kategorischer Variablen

Weiteres Beispiel

7:7

20 / 43

Stefan Bosse - Maschinelles Lernen - Datenanalyse und Eigenschaftsselektion - Kodierung

Kodierung

Kategorische Variablen (sowohl Attribute als auch Zielvariablen) können von einer Vielzahl von numerisch basierten ML Verfahren nicht verarbeitet werden (wie neuronale Netze)

  • Eine Lösung ist die Abbildung von kategorischen Werten (also Mengen von Symbolen) auf numerische Werte → Kodierung

  • Kodierte Werte sind aber i.A. weder intervall- noch verhältnisskalierbar!

21 / 43

Stefan Bosse - Maschinelles Lernen - Datenanalyse und Eigenschaftsselektion - Kodierung

Kodierungsformate

  • Linear und nicht akkummulativ (skalar), d.h.
    {α,β,γ,..} → {δ,2δ,3δ,..}

  • Exponentiell (z.B. zur Basis B=2) und akkummulativ (skalar), d.h.
    {α,β,γ,..} → {20,21,22,..}

  • One-hot und evtl. akkummulativ (vektoriell), d.h.
    {α,β,γ,..} → {[1,0,0,...],[0,1,0,..],[0,0,1,..],..}

Expontentielle Kodierungen können multiple verschiedene kategorische Werte in einem numerischen Wert darstellen! Z.B. mehrfache kategorische Antworten bei einer Frage einer Umfrage.

22 / 43

Stefan Bosse - Maschinelles Lernen - Datenanalyse und Eigenschaftsselektion - Kodierung

Beispiele

{sonnig,bewölkt,regnerisch} → {3,2,1}
{ja,nein} → {1,0}
{Schaden A, Schaden B, Schaden C} → { 1,2,3 }
{rot,grün,blau,braun,weiß} → {1,2,4,8,16}
{Sport, Kino, Theater, Musik} → {1,2,4,8}
{heiß,kalt} → {[1,0],[0,1]}
  • Numerische/metrische Werte können auf kategorische durch Intervallkodierung reduziert werden:

cat(x):x{α1,α2,..,αn},xR/Nαix=[x0+iδ,x0+(i+1)δ]

23 / 43

Stefan Bosse - Maschinelles Lernen - Datenanalyse und Eigenschaftsselektion - Kodierung

  • Verwendung der code=Math.code(val,codes) und val=Math.decode(code,codes) Funktionen
24 / 43

Stefan Bosse - Maschinelles Lernen - Datenanalyse und Eigenschaftsselektion - Entropie und Informationsgehalt

Entropie und Informationsgehalt

  • Sensorvariablen können unterschiedlichen Informationsgehalt besitzen

    • Nur auf den Dateninhalt (Werte) der Variable Xi bezogen (inherenter Informationsgehalt)
    • Oder zusätzlich bezogen auf die Zielvariable Y (abhängiger Informationsgehalt)
  • Der Informationsgehalt einer Menge X aus Elementen der Menge C wird durch die Entropie E(X) gegeben:

E(X)=i=1,kpilog2(pi),pi=count(ci,X)N,X={c|cC}

25 / 43

Stefan Bosse - Maschinelles Lernen - Datenanalyse und Eigenschaftsselektion - Entropie und Informationsgehalt

  • Dabie ist k die Anzahl der unterscheidbaren Elemente/Klassen Val(X) ⊆ C in der Datenmenge X (z.B. die Spalte einer Tabelle) und pi die Häufigkeit des Auftretens eines Elements ciC in X.

  • Beispiele:

    X1={A, C, B, C, B, C} → Val(X1)=C={A, B, C},N=6
    E(X1)=-(1/6)log(1/6)-(2/6)log(2/6)-(3/6)log(3/6)=1.46
    X2={A, B, C} → Val(X2)=C={A, B, C},N=3
    E(X2)=-(1/3)log(1/3)-(1/3)log(1/3)-(1/3)log(1/3)=1.58
    X3={A, A, A, A, B, B} → Val(X3)={A,B} ⊂ C={A, B, C},N=6
    E(X3)=-(4/6)log(4/6)-(2/6)log(2/6)-(0/6)log(0/6)=0.92
    X4={A, A, A, A, B, B} → Val(X4)=C={A, B},N=6
    E(X4)=-(4/6)log(4/6)-(2/6)log(2/6)=0.92
26 / 43

Stefan Bosse - Maschinelles Lernen - Datenanalyse und Eigenschaftsselektion - Entropie und Informationsgehalt

  • Die Entropie ist Null wenn die Datenmenge X "rein" ist, d.h., nur Elemente einer einzigen Attributklasse c1C enthält, z.B. X={A,A,A}.
  • Die Entropie ist log2(|C|) wenn alle Werte gleichverteilt vorkommen, wenn nicht dann kleiner (nicht gleichverteilt).
  • Die Entropie reicht allein zur Bewertung des Informationsgehaltes nicht aus:
X1 X2 Y
A C P
B C P
A D N
B D N
  • E(X1)=1, E(X2)=1 !! Welche Variable X ist für die Entscheidung der Zielvariable Y geeignet?
27 / 43

Stefan Bosse - Maschinelles Lernen - Datenanalyse und Eigenschaftsselektion - Entropie und Informationsgehalt

28 / 43

Stefan Bosse - Maschinelles Lernen - Datenanalyse und Eigenschaftsselektion - Informationsgewinn (Gain)

Informationsgewinn (Gain)

  • Ansatz: Die Datenmenge Y wird nach den möglichen Werten von X partitioniert, also je eine Partition pro ciVal(X).

G(Y|X)=E(Y)vVal(X)|Yv||Y|E(Yv)

  • Die Menge Yv enthält nur Werte für die X=v ist!

  • Ein Verteilungsvektor ist dann Dist(X)=[|v1|,|v2|,..] und bedeutet wie häufig der bestimmte Wert viVal(X) in X auftaucht!

29 / 43

Stefan Bosse - Maschinelles Lernen - Datenanalyse und Eigenschaftsselektion - Informationsgewinn (Gain)

  • Ein Verteilungsvektor ist dann Dist(Yv|X)=[|u1|,|u2|,..] und bedeutet wie häufig der bestimmte Wert uVal(Y) in Yv auftaucht!

Beispiele

12

30 / 43

Stefan Bosse - Maschinelles Lernen - Datenanalyse und Eigenschaftsselektion - Informationsgewinn (Gain)

31 / 43

Stefan Bosse - Maschinelles Lernen - Datenanalyse und Eigenschaftsselektion - Principle Component Analysis

Principle Component Analysis

  • PCA: Klassische Methode zur unüberwachten linearen Dimensionsreduktion → Analyse der Hauptkomponenten

PCA ist noch keine Reduktionsmethode. PCA liefert bei einem n-dimensionalen Vektor X genau n Vektoren der Dimensionalität n!

Aber: Reduktion von Redundanz in den Attributen X ist mit diesen Hauptkomponenten möglich.

  • Bessere Trennung bei der Inferenz von kategorischen (und ggfs. auch numerischen) Zielvariablen
  • Weitere Verfahren:
    • Lineare Diskriminanzanalyse (LDA)
    • Singuläre Wertzerlegung (SVD)
32 / 43

Stefan Bosse - Maschinelles Lernen - Datenanalyse und Eigenschaftsselektion - Principle Component Analysis

Beispiel

  • D=[X1,X2,Y], mit Val(Y)={Class1,Class2}
  • "Rotation" des zweidimensionalen Attributraums führt zu einer reduzierten Datentabelle D'=[PC1,Y] (PC2 kann weg gelassen werden)

Czarnek, RG

33 / 43

Stefan Bosse - Maschinelles Lernen - Datenanalyse und Eigenschaftsselektion - Principle Component Analysis

Amplitudenspektrum

Mag(X)=[re(DFT(X))]2+[im(DFT(X))]2N

Phasenspektrum

Pha(X)=arctan(im(DFT(X))re(DFT(X)))

Leistungsspektrum

Power(X)=[re(DFT(X))]2+[im(DFT(X))]2N

34 / 43

Stefan Bosse - Maschinelles Lernen - Datenanalyse und Eigenschaftsselektion - Principle Component Analysis

Waveletanalyse

  • Diskrete Wavelet Transformation (DWT)
    • DFT liefert nur Informationen im Frequenzraum
    • DWT liefert Informationen aus Zeit- und Frequenzraum
    • Höherer Informationsgehalt

DWT verwendet lange Zeitfenster für niedrige Frequenzen und kurze Zeitfenster für höhere Frequenzen, was zu einer guten zeitfrequenzanalyse führt.

35 / 43

Stefan Bosse - Maschinelles Lernen - Datenanalyse und Eigenschaftsselektion - Principle Component Analysis

DWT kann mit digitalen Filterkaskaden aufgebaut werden:

  • Jede Ebene der Filterkaskade besteht aus einem Hoch- und einem Tiefpassfilter
  • Der Hochpassfilter liefert die Details, der Tiefpassfilter die Approximation der DWT auf der n-ten Ebene
  • Die Approximation der Ebene n ist das Eingangssignal für die Ebene n+1
  • In jeder Ebene wird der Eingangsvektor |xi|=N auf N/2 reduziert, d.h. |xi+1|=N/2

36 / 43

Stefan Bosse - Maschinelles Lernen - Datenanalyse und Eigenschaftsselektion - Histogrammanalyse

Histogrammanalyse

  • Ein Histogramm gibt die (intervallbasierte) Verteilung von unterscheidbaren Elementen in einer Datenmenge X an
    • Beispiel sind Histogramme von Bildern die die Verteilung der Farb-/Grauwerte mit den Werten == Kanälen {0,1,..,255} wiedergeben.

wavemetrics

37 / 43

Stefan Bosse - Maschinelles Lernen - Datenanalyse und Eigenschaftsselektion - Analyse von Datenserien

Analyse von Datenserien

Welcher Sensoren können bei der Bauteilprüfung und Schadensüberwachung Zeit- oder Datenserien erzeugen..

38 / 43

Stefan Bosse - Maschinelles Lernen - Datenanalyse und Eigenschaftsselektion - Analyse von Datenserien

Messdaten

2:164

Zeitaufgelöste Sensordaten s(t) eines Beschleunigungssensors einer Maschine ohne und mit Schäden

39 / 43

Stefan Bosse - Maschinelles Lernen - Datenanalyse und Eigenschaftsselektion - Analyse von Datenserien

Korrelationsanalyse

2:164

Autokorrlelation der zeitaufgelösten Sensordaten s(t) eines Beschleunigungssensors einer Maschine ohne und mit Schäden

40 / 43

Stefan Bosse - Maschinelles Lernen - Datenanalyse und Eigenschaftsselektion - Analyse von Datenserien

Spektralanalyse

2:167

Spektralanalyse der zeitaufgelösten Sensordaten s(t) eines Beschleunigungssensors einer Maschine ohne und mit Schäden

41 / 43

Stefan Bosse - Maschinelles Lernen - Datenanalyse und Eigenschaftsselektion - Merkmalsselektion

Merkmalsselektion

Die statistische und weitere Analysen können die Eingabe für ML liefern, aber auch die Modellsynthese parametrisieren bzw. beeinflussen

42 / 43

Stefan Bosse - Maschinelles Lernen - Datenanalyse und Eigenschaftsselektion - Zusammenfassung

Zusammenfassung

  • Die statistische Analyse von Datentabellen liefert wichtige Informationen über die Qualität der Daten

  • Die Merkmalsselektion transformiert die Rohdaten auf neue möglichst linear unabhängige Attribute

    • Datenreduktion → Dimensionalität
    • Datenreduktion → Datengröße
    • Datenqualitätserhöhung
  • Es werden Verfahren für kategorische und numerische Datenvariablen unterschieden

43 / 43