PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul B: Datenanalyse

Maschinelles Lernen und Datenanalyse

In der Mess- und Prüftechnik

PD Stefan Bosse

Universität Bremen - FB Mathematik und Informatik

1 / 36

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul B: Datenanalyse

Datenanalyse und Eigenschaftsselektion

Häufig sind die rohen sensorischen Daten(variablen) zu hochdimensional und abhängig voneinander

Reduktion auf wesentliche Merkmale kann ML Qualität deutlich verbessern

Häufig besitzen einzelne Sensorvariablen keine oder nur geringe Aussagekraft (geringe Entscheidbarkeitsqualität)

2 / 36

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul B: Datenanalyse

Statistische Analyse

  • Statistische Analysen von Mess- und Sensordaten können neue Datenvariablen erzeugen und Informationen über die Daten liefern:

    • Eigenschaftsselektion (Feature Selection) für ML und Informationsgewinnung
    • Variablentransformation mit Datenreduktion
  • Statistische Analyse liefert eine Reihe von Kennzahlen über Datenvariablen, das können Eigenschaften für die Weiterverabeitung sein:

stat(x):xp,p={mean,σ,..}

3 / 36

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul B: Datenanalyse

Welche statistische Größen gibt es? Was können statistische Größen über Daten aussagen?

  • Mittelwert×
  • Erwartungswert×
  • Standardabweichung×
  • Median×
  • Konfidenzintervall×
  • Varianz×
  • Verteilung×
  • Konzentration×
  • No search results.
4 / 36

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul B: Datenanalyse

Statistische Funktionen

2:173

5 / 36

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul B: Datenanalyse

Statistische Funktionen

2:173

6 / 36

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul B: Datenanalyse

Korrelation von Datenvariablen

  • Variablen X sollten möglichst (linear) unabängig sein,

    • Um eine geeignete, robuste und genaue Modellsynthese (also ML) zu ermöglichen, d.h.
    • Es sollte möglichst keine Zusammenhänge der Form ∃correlation(Xi,Xj) geben!
    • Um den Modellsyntheseprozess zu beschleunigen (also das Training); Rechenzeit reduzieren
    • Um Modelle klein und kompakt zu halten
  • Abhängige Variablen sollten identifiziert und in unabhängige "transformiert" werden!

7 / 36

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul B: Datenanalyse

Beispiel Prozessanalyse

  • Eine Datentabelle D mit experimentellen Messgrößen und Fertigungsparametern (Prozessparameter) von additiv gefertigten Bauteilen hatte zunächst 7 Variablen (numerisch):
    • X1: Hatchabstand [mm]
    • X2: Scangeschwindigkeit [mm/s]
    • X3: Laserleistung [W]
    • X4: Schichtstärke [mm]
    • X5: Volumenenergiedichte [J/mm3]
    • X6: Bauplatten Position x
    • X7: Bauplatten Position y
    • Y1: Dichte (%)
8 / 36

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul B: Datenanalyse

  • D bestand aus 61 Experimenten mit unterschiedlichen Fertigungsserien

  • Mit einer Principle Component Analysis (PCA) konnte die ganze Tabelle auf die Variablen PC1 und Y1reduziert werden!

    • Die Genauigkeit der mit ML synthetitisierten Funktion M(X): XDichte konnte ohne signifikanten Genauigkeitsverlust nur aus PC1 abgeleitet werden, d.h. M(PC1): PC1Dichte

    • Aber: Für die Inferenz (Applikation) von M muss die PCA für die Eingabedaten X wiederholt werden bzw. die Datentransformation durchgeführt werden!

9 / 36

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul B: Datenanalyse

Analyse Kategorischer Variablen

  • Die Analyse von kategorischen Variablen vereint die Konzepte:
    • Mengenlehre
    • Kodierung/Dekodierung
    • Verteilung (Wahrscheinlichkeit des Auftretens)

5

Beispiel von rein kategorischen Attributen einer Datentabelle D

10 / 36

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul B: Datenanalyse

Messdaten

5:53

Beispiel einer rein kategorischen Datentabelle D. Die Zielvariable Klasse mit den Werten {N,P} ist ebenfalls kategorisch, z.B. Klasse=P ⇒ Sportliche Aktivität

11 / 36

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul B: Datenanalyse

Gemischte Variablenklassen

7:47

Einige Datenvariablen wurden mit numerischen/metrischen Werten ersetzt (Klasse → Play-time)

12 / 36

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul B: Datenanalyse

Kann aus der vorherigen Datentabelle mit numerischen Variablen noch ein Zusammenhang aus X zu Y hergestellt werden?

Reicht die Anzahl der Experimente im Vergleich zu der rein kategorischen Datentabelle?

Wo liegen die Probleme?

  • Varianz der num. Variablen größer×
  • Verm. keine eindeutige Funk.×
  • Kategorien sind niedrigdimensionaler×
  • Fuzzyness×
  • Mehr Experimente!×
  • No search results.
13 / 36

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul B: Datenanalyse

Weiteres Beispiel

7:7

14 / 36

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul B: Datenanalyse

Entropie und Informationsgehalt

  • Sensorvariablen können unterschiedlichen Informationsgehalt besitzen

    • Nur auf den Dateninhalt (Werte) der Variable Xi bezogen (inherenter Informationsgehalt)
    • Oder zusätzlich bezogen auf die Zielvariable Y (abhängiger Informationsgehalt)
  • Der Informationsgehalt einer Menge X aus Elementen der Menge C wird durch die Entropie E(X) gegeben:

E(X)=i=1,kpilog2(pi),pi=count(ci,X)N,X={c|cC}

15 / 36

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul B: Datenanalyse

  • Dabie ist k die Anzahl der unterscheidbaren Elemente/Klassen Val(X) ⊆ C in der Datenmenge X (z.B. die Spalte einer Tabelle) und pi die Häufigkeit des Auftretens eines Elements ciC in X.

  • Beispiele:

    X1={A, C, B, C, B, C} → Val(X1)=C={A, B, C},N=6
    E(X1)=-(1/6)log(1/6)-(2/6)log(2/6)-(3/6)log(3/6)=1.46
    X2={A, B, C} → Val(X2)=C={A, B, C},N=3
    E(X2)=-(1/3)log(1/3)-(1/3)log(1/3)-(1/3)log(1/3)=1.58
    X3={A, A, A, A, B, B} → Val(X3)={A,B} ⊂ C={A, B, C},N=6
    E(X3)=-(4/6)log(4/6)-(2/6)log(2/6)-(0/6)log(0/6)=0.92
    X4={A, A, A, A, B, B} → Val(X4)=C={A, B},N=6
    E(X4)=-(4/6)log(4/6)-(2/6)log(2/6)=0.92
16 / 36

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul B: Datenanalyse

  • Die Entropie ist Null wenn die Datenmenge X "rein" ist, d.h., nur Elemente einer einzigen Attributklasse c1C enthält, z.B. X={A,A,A}.

  • Die Entropie reicht allein zur Bewertung des Informationsgehaltes nicht aus:

X1 X2 Y
A C P
B C P
A D N
B D N
  • E(X1)=1, E(X2)=1 !! Welche Variable X ist für die Entscheidung der Zielvariable Y geeignet?
17 / 36

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul B: Datenanalyse

18 / 36

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul B: Datenanalyse

Informationsgewinn (Gain)

  • Ansatz: Die Datenmenge Y wird nach den möglichen Werten von X partitioniert, also je eine Partition pro ciVal(X).

G(Y|X)=E(Y)vVal(X)|Yv||Y|E(Yv)

  • Die Menge Yv enthält nur Werte für die X=v ist!

  • Ein Verteilungsvektor ist dann Dist(X)=[|v1|,|v2|,..] und bedeutet wie häufig der bestimmte Wert viVal(X) in X auftaucht!

19 / 36

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul B: Datenanalyse

  • Ein Verteilungsvektor ist dann Dist(Yv|X)=[|u1|,|u2|,..] und bedeutet wie häufig der bestimmte Wert uVal(Y) in Yv auftaucht!

Beispiele

12

20 / 36

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul B: Datenanalyse

21 / 36

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul B: Datenanalyse

Principle Component Analysis

  • PCA: Klassische Methode zur unüberwachten linearen Dimensionsreduktion → Analyse der Hauptkomponenten

  • Reduktion von Redundanz in den Attributen X

  • Bessere Trennung bei der Inferent von kategorischen (und ggfs. auch numerischen) Zielvariablen

  • Weitere Verfahren:

    • Lineare Diskriminanzanalyse (LDA)
    • Singuläre Wertzerlegung (SVD)
22 / 36

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul B: Datenanalyse

Beispiel

  • D=[X1,X2,Y], mit Val(Y)={Class1,Class2}
  • "Rotation" des zweidimensionalen Attributraums führt zu einer reduzierten Datentabelle D'=[PC1,Y] (PC2 kann weg gelassen werden)

Czarnek, RG

23 / 36

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul B: Datenanalyse

Spektrale Analyse

Diskerete Fourieranalyse

  • (DFT) und schnelle FA (FFT) → (Frequenzspektrum)

    • Spektrum der DFT/FFT hat nur N/2 Punkte (Datenreduktion)
    • Aber Problem bei DFT ist: Wenn Anzahl Datenpunkte N klein ist gibt es schlechte Auflösung des Spektrums
    • Vor allem bei "kontinuierlichen" Datenströmen mit fliessenden Fensterverfahren ein Problem (Fensterbreite Nwin ist klein)
  • Es gilt: Das aus der DFT erhaltene Frequenspektrum hat die höchste Frequenz:

fs=1/Δt,Δt=ti+1ti,fmax=fs/2

24 / 36

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul B: Datenanalyse

Diskrete Fouriertransformation

  • Eine zeitaufgelöste Variable X wird in eine frequenzaufgelöste Variable F transformiert:

DFT(X):F(k)=N1n=0Xnei2πnk/N

für k = 0,1,2, ... , N–1
  • Dabei ist X eine komplexwertige Datenserie {⟨re(xi),im(xi)⟩|i=0,1,..,N-1}, und
  • Das Ergebnis F ist ebenfalls eine komplexwertige Datenserie {⟨re(fi),im(fi)⟩|i=0,1,..,N-1}
  • Der Imaginärteil von X wird i.A. auf Null gesetzt (Sensoren sind i.A. reellwertig).
25 / 36

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul B: Datenanalyse

Amplitudenspektrum

Mag(X)=[re(DFT(X))]2+[im(DFT(X))]2N

Phasenspektrum

Pha(X)=arctan(im(DFT(X))re(DFT(X)))

Leistungsspektrum

Power(X)=[re(DFT(X))]2+[im(DFT(X))]2N

26 / 36

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul B: Datenanalyse

Beispiel für Spektrale Eigenschaftsselektion

Sinus- und Cosinusschwingungen

27 / 36

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul B: Datenanalyse

Waveletanalyse

  • Diskrete Wavelet Transformation (DWT)
    • DFT liefert nur Informationen im Frequenzraum
    • DWT liefert Informationen aus Zeit- und Frequenzraum
    • Höherer Informationsgehalt

DWT verwendet lange Zeitfenster für niedrige Frequenzen und kurze Zeitfenster für höhere Frequenzen, was zu einer guten zeitfrequenzanalyse führt.

28 / 36

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul B: Datenanalyse

DWT kann mit digitalen Filterkaskaden aufgebaut werden:

  • Jede Ebene der Filterkaskade besteht aus einem Hoch- und einem Tiefpassfilter
  • Der Hochpassfilter liefert die Details, der Tiefpassfilter die Approximation der DWT auf der n-ten Ebene
  • Die Approximation der Ebene n ist das Eingangssignal für die Ebene n+1
  • In jeder Ebene wird der Eingangsvektor |xi|=N auf N/2 reduziert, d.h. |xi+1|=N/2

29 / 36

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul B: Datenanalyse

Histogrammanalyse

  • Ein Histogramm gibt die (intervallbasierte) Verteilung von unterscheidbaren Elementen in einer Datenmenge X an
    • Beispiel sind Histogramme von Bildern die die Verteilung der Farb-/Grauwerte mit den Werten == Kanälen {0,1,..,255} wiedergeben.

wavemetricslabel

30 / 36

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul B: Datenanalyse

Analyse von Datenserien

Welcher Sensoren können bei der Bauteilprüfung und Schadensüberwachung Zeit- oder Datenserien erzeugen..

  • Temperatur×
  • Standzeitversuch×
  • Zugversuch×
  • Schwingungsmessung×
  • Akustik Emission×
  • No search results.
31 / 36

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul B: Datenanalyse

Messdaten

2:164

Zeitaufgelöste Sensordaten s(t) eines Beschleunigungssensors einer Maschine ohne und mit Schäden

32 / 36

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul B: Datenanalyse

Korrelationsanalyse

2:164

Autokorrlelation der zeitaufgelösten Sensordaten s(t) eines Beschleunigungssensors einer Maschine ohne und mit Schäden

33 / 36

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul B: Datenanalyse

Spektralanalyse

2:167

Spektralanalyse der zeitaufgelösten Sensordaten s(t) eines Beschleunigungssensors einer Maschine ohne und mit Schäden

34 / 36

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul B: Datenanalyse

Merkmalsselektion

Die statistische und weitere Analysen können die Eingabe für ML liefern, aber auch die Modellsynthese parametrisieren bzw. beeinflussen

35 / 36

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul B: Datenanalyse

Zusammenfassung

  • Die statistische Analyse von Datentabellen liefert wichtige Informationen über die Qualität der Daten

  • Die Merkmalsselektion transformiert die Rohdaten auf neue möglichst linear unabhängige Attribute

    • Datenreduktion → Dimensionalität
    • Datenreduktion → Datengröße
    • Datenqualitätserhöhung
  • Es werden Verfahren für kategorische und numerische Datenvariablen unterschieden

36 / 36