Maschinelles Lernen und Datenanalyse

In der Mess- und Prüftechnik

PD Stefan Bosse

Universität Bremen - FB Mathematik und Informatik / AG 0

Universität Siegen - FB Maschinenbau / LMW

1 / 51

PD Stefan Bosse - Automatische Schadensdiagnostik - Modul B Datenanalyse und Eigenschaftsselektion ::

Datenanalyse und Eigenschaftsselektion

Häufig sind die rohen sensorischen Daten(variablen) zu hochdimensional und abhängig voneinander

Reduktion auf wesentliche Merkmale kann ML Qualität deutlich verbessern

Häufig besitzen einzelne Sensorvariablen keine oder nur geringe Aussagekraft (geringe Entscheidbarkeitsqualität)

2 / 51

PD Stefan Bosse - Automatische Schadensdiagnostik - Modul B Datenanalyse und Eigenschaftsselektion :: Datenqualität

Datenqualität

  • Die Daten D werden durch fünf wesentliche Eigenschaften beschrieben, die auch mit statistischer Analyse quantifiziert werden können:

Rauschen. Rauschen ist die Verzerrung der Daten. Diese Verzerrung muss entfernt oder Ihre nachteiligen Auswirkungen vermindert werden, bevor ML Algorithmen ausgeführt werden, da die Leistung und Qualität der Algorithmen beeinträchtigen kwerden ann.

Es gibt eine Vielzahl von Filteralgorithmen um den Einfluß von Rauschen auf das eigentliche Sensorsignal zu vermindern.

3 / 51

PD Stefan Bosse - Automatische Schadensdiagnostik - Modul B Datenanalyse und Eigenschaftsselektion :: Datenqualität

Ausreißer. Ausreißer sind Instanzen, die sich erheblich von anderen Instanzen im Datensatz unterscheiden.

  • Beispiel: Durchschnittliche Anzahl der Follower von Nutzern auf Twitter.
  • Eine Berühmtheit mit vielen Followern kann die durchschnittliche Anzahl von Followern pro Person leicht verzerren. Da die Prominenten Ausreißer sind, müssen Sie aus der Gruppe der Personen entfernt werden, um die durchschnittliche Anzahl der Follower genau zu Messen.

Aber: Ausreißer können in besonderen Fällen nützliche Muster darstellen und die Entscheidung, sie zu entfernen, hängt vom Kontext und Fragestellung ab.

4 / 51

PD Stefan Bosse - Automatische Schadensdiagnostik - Modul B Datenanalyse und Eigenschaftsselektion :: Datenqualität

Bias. Systematische Verschiebung von Messdaten (Offset).

  • Beispiel: Externe Umwelteinflüsse können die Empfindlichkeit eines Sensors verändern.
  • Beispiel: Elektrische Potentialverschiebung verschiebt den Nullpunkt eines Ultraschallsensors
  • Aber auch Veränderung des Testobjekts (Lastsituation, Alterung, Materialveränderung)

Systematische Verschiebung kann nur durch zusätzliche Modellfunktionen oder Sensorfusion kompensiert werden!

5 / 51

PD Stefan Bosse - Automatische Schadensdiagnostik - Modul B Datenanalyse und Eigenschaftsselektion :: Datenqualität

Fehlende Werte. Fehlende Werte sind Funktionswerte, die in Instanzen fehlen.

  • Zum Beispiel, Einzelpersonen können es vermeiden, Profilinformationen auf social-media-Websites zu melden, wie Ihr Alter, Standort, oder Hobbys.

  • Um dieses Problem zu lösen, können wir

    1. Instanzen mit fehlenden Werten entfernen;
    2. Fehlende Werte schätzen (Z. B. durch den gängigsten Wert ersetzen); oder
    3. Fehlende Werte ignorieren, wenn Data Mining Algorithmen ausgeführt werden.
6 / 51

PD Stefan Bosse - Automatische Schadensdiagnostik - Modul B Datenanalyse und Eigenschaftsselektion :: Datenqualität

Duplikate. Doppelte Daten treten auf, wenn mehrere Instanzen mit genau denselben Funktionswerten vorhanden sind.

  • Doppelte blog-posts, doppelte tweets oder Profile auf Social-media-Websites mit doppelten Informationen sind Beispiele für dieses Phänomen.

  • Je nach Kontext können diese Instanzen entweder entfernt oder beibehalten werden. Wenn Instanzen beispielsweise eindeutig sein müssen, sollten doppelte Instanzen entfernt werden.

7 / 51

PD Stefan Bosse - Automatische Schadensdiagnostik - Modul B Datenanalyse und Eigenschaftsselektion :: Statistische Analyse

Statistische Analyse

  • Statistische Analysen von Mess- und Sensordaten können neue Datenvariablen erzeugen und Informationen über die Daten liefern:

    • Eigenschaftsselektion (Feature Selection) für ML und Informationsgewinnung
    • Variablentransformation mit Datenreduktion
  • Statistische Analyse liefert eine Reihe von Kennzahlen über Datenvariablen, das können Eigenschaften für die Weiterverarbeitung sein:

stat(x):xp,p={mean,σ,..}

8 / 51

PD Stefan Bosse - Automatische Schadensdiagnostik - Modul B Datenanalyse und Eigenschaftsselektion :: Statistische Analyse

Welche statistische Größen gibt es? Was können statistische Größen über Daten aussagen?

9 / 51

PD Stefan Bosse - Automatische Schadensdiagnostik - Modul B Datenanalyse und Eigenschaftsselektion :: Statistische Funktionen

Statistische Funktionen

2:173

10 / 51

PD Stefan Bosse - Automatische Schadensdiagnostik - Modul B Datenanalyse und Eigenschaftsselektion :: Statistische Funktionen

Statistische Funktionen

2:173

11 / 51

PD Stefan Bosse - Automatische Schadensdiagnostik - Modul B Datenanalyse und Eigenschaftsselektion :: Statistische Funktionen

12 / 51

PD Stefan Bosse - Automatische Schadensdiagnostik - Modul B Datenanalyse und Eigenschaftsselektion :: Statistische Funktionen in R

Statistische Funktionen in R

Anwendung i.A. auf Vektoren, Matrizen, oder Arrays.

R Beschreibung
fivenum(x) Liefert min, q1, median, mean, q3, max
mean(x) Arithmetischer Mittelwert
min(x), max(x) Extremwerte
moment(x,order) Statistisches Moment einer Datenserie
rnorm(n,a,b) Normalverteilte Zufallszahlen [a,b]
runif(n,a,b) Uniform verteilte Zufallszahlen [a,b]
sd(x) Standardabweichung
sum(x) Arithmetische Summation
var(x) Varianz (Achtung hier: sd2)
13 / 51

PD Stefan Bosse - Automatische Schadensdiagnostik - Modul B Datenanalyse und Eigenschaftsselektion :: Korrelation von Datenvariablen

Korrelation von Datenvariablen

  • Variablen X sollten möglichst (linear) unabhängig sein,
    • Um eine geeignete, robuste und genaue Modellsynthese (also ML) zu ermöglichen, d.h.
    • Es sollte möglichst keine Zusammenhänge der Form ∃correlation(Xi,Xj) geben!
    • Um den Modellsyntheseprozess zu beschleunigen (also das Training); Rechenzeit reduzieren
    • Um Modelle klein und kompakt zu halten
    • Um Modellspezialisierung zu vermeiden und Varianz zu erhöhen

Abhängige Variablen sollten identifiziert und in unabhängige "transformiert" werden!

14 / 51

PD Stefan Bosse - Automatische Schadensdiagnostik - Modul B Datenanalyse und Eigenschaftsselektion :: Korrelation von Datenvariablen

Beispiel Prozessanalyse

  • Eine Datentabelle D mit experimentellen Messgrößen und Fertigungsparametern (Prozessparameter) von additiv gefertigten Bauteilen hatte zunächst 7 Variablen (numerisch):
    • X1: Hatchabstand [mm]
    • X2: Scangeschwindigkeit [mm/s]
    • X3: Laserleistung [W]
    • X4: Schichtstärke [mm]
    • X5: Volumenenergiedichte [J/mm3]
    • X6: Bauplatten Position x
    • X7: Bauplatten Position y
    • Y1: Dichte (%)
15 / 51

PD Stefan Bosse - Automatische Schadensdiagnostik - Modul B Datenanalyse und Eigenschaftsselektion :: Korrelation von Datenvariablen

  • D bestand aus 61 Experimenten mit unterschiedlichen Fertigungsserien

  • Mit einer Principle Component Analysis (PCA) konnte die ganze Tabelle auf die Variablen PC1 und Y1reduziert werden!

    • Die Genauigkeit der mit ML synthetisierten Funktion M(X): XDichte konnte ohne signifikanten Genauigkeitsverlust nur aus PC1 abgeleitet werden, d.h. M(PC1): PC1Dichte

    • Aber: Für die Inferenz (Applikation) von M muss die PCA für die Eingabedaten X wiederholt werden bzw. die Datentransformation durchgeführt werden!

16 / 51

PD Stefan Bosse - Automatische Schadensdiagnostik - Modul B Datenanalyse und Eigenschaftsselektion :: Analyse Kategorischer Variablen

Analyse Kategorischer Variablen

  • Die Analyse von kategorischen Variablen vereint die Konzepte:
    • Mengenlehre
    • Kodierung/Dekodierung
    • Verteilung (Wahrscheinlichkeit des Auftretens)

5 Beispiel von rein kategorischen Attributen einer Datentabelle D

17 / 51

PD Stefan Bosse - Automatische Schadensdiagnostik - Modul B Datenanalyse und Eigenschaftsselektion :: Analyse Kategorischer Variablen

Messdaten

5:53 Beispiel einer rein kategorischen Datentabelle D. Die Zielvariable Klasse mit den Werten {N,P} ist ebenfalls kategorisch, z.B. Klasse=P ⇒ Sportliche Aktivität

18 / 51

PD Stefan Bosse - Automatische Schadensdiagnostik - Modul B Datenanalyse und Eigenschaftsselektion :: Analyse Kategorischer Variablen

Gemischte Variablenklassen

7:47 Einige Datenvariablen wurden mit numerischen/metrischen Werten ersetzt (Klasse → Play-time)

19 / 51

PD Stefan Bosse - Automatische Schadensdiagnostik - Modul B Datenanalyse und Eigenschaftsselektion :: Analyse Kategorischer Variablen

Kann aus der vorherigen Datentabelle mit numerischen Variablen noch ein Zusammenhang aus X zu Y hergestellt werden?

Reicht die Anzahl der Experimente im Vergleich zu der rein kategorischen Datentabelle?

Wo liegen die Probleme?

20 / 51

PD Stefan Bosse - Automatische Schadensdiagnostik - Modul B Datenanalyse und Eigenschaftsselektion :: Analyse Kategorischer Variablen

Weiteres Beispiel

7:7

21 / 51

PD Stefan Bosse - Automatische Schadensdiagnostik - Modul B Datenanalyse und Eigenschaftsselektion :: Kodierung

Kodierung

Kategorische Variablen (sowohl Attribute als auch Zielvariablen) können von einer Vielzahl von numerisch basierten ML Verfahren nicht verarbeitet werden (wie neuronale Netze)

  • Eine Lösung ist die Abbildung von kategorischen Werten (also Mengen von Symbolen) auf numerische Werte → Kodierung

  • Kodierte Werte sind aber i.A. weder intervall- noch verhältnisskalierbar!

22 / 51

PD Stefan Bosse - Automatische Schadensdiagnostik - Modul B Datenanalyse und Eigenschaftsselektion :: Kodierung

Kodierungsformate

  • Linear und nicht akkummulativ (skalar), d.h.
    {α,β,γ,..} → {δ,2δ,3δ,..}

  • Exponentiell (z.B. zur Basis B=2) und akkummulativ (skalar), d.h.
    {α,β,γ,..} → {20,21,22,..}

  • One-hot und evtl. akkummulativ (vektoriell), d.h.
    {α,β,γ,..} → {[1,0,0,...],[0,1,0,..],[0,0,1,..],..}

Expontentielle Kodierungen können multiple verschiedene kategorische Werte in einem numerischen Wert darstellen! Z.B. mehrfache kategorische Antworten bei einer Frage einer Umfrage.

23 / 51

PD Stefan Bosse - Automatische Schadensdiagnostik - Modul B Datenanalyse und Eigenschaftsselektion :: Kodierung

Beispiele

{sonnig,bewölkt,regnerisch} → {3,2,1}
{ja,nein} → {1,0}
{Schaden A, Schaden B, Schaden C} → { 1,2,3 }
{rot,grün,blau,braun,weiß} → {1,2,4,8,16}
{Sport, Kino, Theater, Musik} → {1,2,4,8}
{heiß,kalt} → {[1,0],[0,1]}
  • Numerische/metrische Werte können auf kategorische durch Intervallkodierung reduziert werden:

cat(x):x{α1,α2,..,αn},xR/Nαix=[x0+iδ,x0+(i+1)δ]

24 / 51

PD Stefan Bosse - Automatische Schadensdiagnostik - Modul B Datenanalyse und Eigenschaftsselektion :: Kodierung

  • Z.B. die Kategorisierung von Schadenspositionen in einer mechanischen Struktur durch räumliche Bereiche (Segmente) {S1,S2,S3,..,S9}

  • Z.B. Temperaturen durch "gefühlte" Attribute {heiß, warm, moderat, kalt, eiskalt}

  • Z.B. Zeitangaben durch Epochen {Steinzeit, Bronzezeit, Kohlezeit, .. }

Dekodierung

Die Kodierung ist umkehrbar mit einer Dekodierungsfunktion (unter Kenntnis der Kodierungsvorschrift)

25 / 51

PD Stefan Bosse - Automatische Schadensdiagnostik - Modul B Datenanalyse und Eigenschaftsselektion :: Kodierung

  • Verwendung der switch und factor Funktionen
26 / 51

PD Stefan Bosse - Automatische Schadensdiagnostik - Modul B Dekodierung :: Kodierung

Beispiele in R(+)

use math
# Kodierung
c1 = switch('A',A=1,B=2,C=3)
c12 = switch(['A','N'],A=1,B=2,C=3)
c2 = factor(['A','B'],['A','B','C'],[1,2,4])
c3 = switch('heute',heute=0,gestern=-1,morgen=1)
logg(c1,sum(c12),c2,sum(c2))
# Dekodierung
d2 = factor(c2,[1,2,3],['A','B','C'])
logg(d2)
27 / 51

PD Stefan Bosse - Automatische Schadensdiagnostik - Modul B Dekodierung :: Entropie und Informationsgehalt

Entropie und Informationsgehalt

  • Sensorvariablen können unterschiedlichen Informationsgehalt besitzen

    • Nur auf den Dateninhalt (Werte) der Variable Xi bezogen (inherenter Informationsgehalt)
    • Oder zusätzlich bezogen auf die Zielvariable Y (abhängiger Informationsgehalt)
  • Der Informationsgehalt einer Menge X aus Elementen der Menge C wird durch die Entropie E(X) gegeben:

E(X)=i=1,kpilog2(pi),pi=count(ci,X)N,X={c|cC}

28 / 51

PD Stefan Bosse - Automatische Schadensdiagnostik - Modul B Dekodierung :: Entropie und Informationsgehalt

  • Dabei ist k die Anzahl der unterscheidbaren Elemente/Klassen Val(X) ⊆ C in der Datenmenge X (z.B. die Spalte einer Tabelle) und pi die Häufigkeit des Auftretens eines Elements ciC in X.

  • Beispiele:

    X1={A, C, B, C, B, C} → Val(X1)=C={A, B, C},N=6
    E(X1)=-(1/6)log(1/6)-(2/6)log(2/6)-(3/6)log(3/6)=1.46
    X2={A, B, C} → Val(X2)=C={A, B, C},N=3
    E(X2)=-(1/3)log(1/3)-(1/3)log(1/3)-(1/3)log(1/3)=1.58
    X3={A, A, A, A, B, B} → Val(X3)={A,B} ⊂ C={A, B, C},N=6
    E(X3)=-(4/6)log(4/6)-(2/6)log(2/6)-(0/6)log(0/6)=0.92
    X4={A, A, A, A, B, B} → Val(X4)=C={A, B},N=6
    E(X4)=-(4/6)log(4/6)-(2/6)log(2/6)=0.92
29 / 51

PD Stefan Bosse - Automatische Schadensdiagnostik - Modul B Dekodierung :: Entropie und Informationsgehalt

  • Die Entropie ist Null wenn die Datenmenge X "rein" ist, d.h., nur Elemente einer einzigen Attributklasse c1C enthält, z.B. X={A,A,A}.
  • Die Entropie ist log2(|C|) wenn alle Werte gleichverteilt vorkommen, wenn nicht dann kleiner (nicht gleichverteilt).
  • Die Entropie reicht allein zur Bewertung des Informationsgehaltes nicht aus:
X1 X2 Y
A C P
B C P
A D N
B D N
  • E(X1)=1, E(X2)=1 !! Welche Variable X ist für die Entscheidung der Zielvariable Y geeignet?
30 / 51

PD Stefan Bosse - Automatische Schadensdiagnostik - Modul B Dekodierung :: Entropie und Informationsgehalt

31 / 51

PD Stefan Bosse - Automatische Schadensdiagnostik - Modul B compute entropy from counts :: Entropie von numerischen Werten

Entropie von numerischen Werten

  • Die Entropie ist primär bei kategorischen Variablen zu verwenden

  • Bei numerischen und vor allem kontinuierlich verteilten Variablen ist eine Intervalldiskretisierung vorzunehmen:

# sample from continuous uniform distribution
x1 = runif(10000)
# discretize into 10 categories
y1 = discretize(x1, numBins=10, r=c(0,1))
# compute entropy from counts
entropy(y1) # empirical estimate near theoretical maximum
log(10) # theoretical value for discrete uniform distribution with 10 bins
32 / 51

PD Stefan Bosse - Automatische Schadensdiagnostik - Modul B compute entropy from counts :: Informationsgewinn (Gain)

Informationsgewinn (Gain)

  • Ansatz: Die Datenmenge Y wird nach den möglichen Werten von X partitioniert, also je eine Partition pro ciVal(X).

G(Y|X)=E(Y)vVal(X)|Yv||Y|E(Yv)

  • Die Menge Yv enthält nur Werte für die X=v ist!

  • Ein Verteilungsvektor ist dann Dist(X)=[|v1|,|v2|,..] und bedeutet wie häufig der bestimmte Wert viVal(X) in X auftaucht!

33 / 51

PD Stefan Bosse - Automatische Schadensdiagnostik - Modul B compute entropy from counts :: Informationsgewinn (Gain)

  • Ein Verteilungsvektor ist dann Dist(Yv|X)=[|u1|,|u2|,..] und bedeutet wie häufig der bestimmte Wert uVal(Y) in Yv auftaucht!

Beispiele

12

34 / 51

PD Stefan Bosse - Automatische Schadensdiagnostik - Modul B compute entropy from counts :: Informationsgewinn (Gain)

35 / 51

PD Stefan Bosse - Automatische Schadensdiagnostik - Modul B compute entropy from counts :: Principle Component Analysis

Principle Component Analysis

  • PCA: Klassische Methode zur unüberwachten linearen Dimensionsreduktion → Analyse der Hauptkomponenten (Eigenwertproblem)

PCA ist noch keine Reduktionsmethode. PCA liefert bei einem n-dimensionalen Vektor X genau n Vektoren der Dimensionalität n!

Aber: Reduktion von Redundanz in den Attributen X ist mit diesen Hauptkomponenten möglich.

  • Bessere Trennung bei der Inferenz von kategorischen (und ggfs. auch numerischen) Zielvariablen
  • Weitere Verfahren:
    • Lineare Diskriminanzanalyse (LDA)
    • Singuläre Wertzerlegung (SVD)
36 / 51

PD Stefan Bosse - Automatische Schadensdiagnostik - Modul B compute entropy from counts :: Principle Component Analysis

Beispiel

  • D=[X1,X2,Y], mit Val(Y)={Class1,Class2}
  • "Rotation" des zweidimensionalen Attributraums führt zu einer reduzierten Datentabelle D'=[PC1,Y] (PC2 kann weg gelassen werden)

Czarnek, RG

37 / 51

PD Stefan Bosse - Automatische Schadensdiagnostik - Modul B compute entropy from counts :: Spektrale Analyse

Spektrale Analyse

Diskrete Fourieranalyse

  • (DFT) und schnelle FA (FFT) → (Frequenzspektrum)

    • Spektrum der DFT/FFT hat nur N/2 Punkte (Datenreduktion)
    • Aber Problem bei DFT ist: Wenn Anzahl Datenpunkte N klein ist gibt es schlechte Auflösung des Spektrums
    • Vor allem bei "kontinuierlichen" Datenströmen mit fließenden Fensterverfahren ein Problem (Fensterbreite Nwin ist klein)
  • Es gilt: Das aus der DFT erhaltene Frequenspektrum hat die höchste Frequenz:

fs=1/Δt,Δt=ti+1ti,fmax=fs/2

38 / 51

PD Stefan Bosse - Automatische Schadensdiagnostik - Modul B compute entropy from counts :: Spektrale Analyse

Diskrete Fouriertransformation

  • Eine zeitaufgelöste Variable X wird in eine frequenzaufgelöste Variable F transformiert:

DFT(X):F(k)=N1n=0Xnei2πnk/N

für k = 0,1,2, ... , N–1

  • Dabei ist X eine komplexwertige Datenserie {⟨re(xi),im(xi)⟩|i=0,1,..,N-1}, und
  • Das Ergebnis F ist ebenfalls eine komplexwertige Datenserie {⟨re(fi),im(fi)⟩|i=0,1,..,N-1}
  • Der Imaginärteil von X wird i.A. auf Null gesetzt (Sensoren sind i.A. reellwertig).
39 / 51

PD Stefan Bosse - Automatische Schadensdiagnostik - Modul B compute entropy from counts :: Spektrale Analyse

Amplitudenspektrum

Mag(X)=[re(DFT(X))]2+[im(DFT(X))]2N

Phasenspektrum

Pha(X)=arctan(im(DFT(X))re(DFT(X)))

Leistungsspektrum

Power(X)=[re(DFT(X))]2+[im(DFT(X))]2N

40 / 51

PD Stefan Bosse - Automatische Schadensdiagnostik - Modul B compute entropy from counts :: Beispiel für Spektrale Eigenschaftsselektion

Beispiel für Spektrale Eigenschaftsselektion

Sinus- und Kosinusschwingungen

41 / 51

PD Stefan Bosse - Automatische Schadensdiagnostik - Modul B compute entropy from counts :: Beispiel für Spektrale Eigenschaftsselektion

Waveletanalyse

  • Diskrete Wavelet Transformation (DWT)
    • DFT liefert nur Informationen im Frequenzraum
    • DWT liefert Informationen aus Zeit- und Frequenzraum
    • Höherer Informationsgehalt

DWT verwendet lange Zeitfenster für niedrige Frequenzen und kurze Zeitfenster für höhere Frequenzen, was zu einer guten zeitfrequenzanalyse führt.

42 / 51

PD Stefan Bosse - Automatische Schadensdiagnostik - Modul B compute entropy from counts :: Beispiel für Spektrale Eigenschaftsselektion

DWT kann mit digitalen Filterkaskaden aufgebaut werden:

  • Jede Ebene der Filterkaskade besteht aus einem Hoch- und einem Tiefpassfilter
  • Der Hochpassfilter liefert die Details, der Tiefpassfilter die Approximation der DWT auf der n-ten Ebene
  • Die Approximation der Ebene n ist das Eingangssignal für die Ebene n+1
  • In jeder Ebene wird der Eingangsvektor |xi|=N auf N/2 reduziert, d.h. |xi+1|=N/2

43 / 51

PD Stefan Bosse - Automatische Schadensdiagnostik - Modul B compute entropy from counts :: Histogrammanalyse

Histogrammanalyse

  • Ein Histogramm gibt die (intervallbasierte) Verteilung von unterscheidbaren Elementen in einer Datenmenge X an
    • Beispiel sind Histogramme von Bildern die die Verteilung der Farb-/Grauwerte mit den Werten == Kanälen {0,1,..,255} wiedergeben.

wavemetrics

44 / 51

PD Stefan Bosse - Automatische Schadensdiagnostik - Modul B compute entropy from counts :: Histogrammanalyse

Histogrammanalyse

45 / 51

PD Stefan Bosse - Automatische Schadensdiagnostik - Modul B compute entropy from counts :: Analyse von Datenserien

Analyse von Datenserien

Welcher Sensoren können bei der Bauteilprüfung und Schadensüberwachung Zeit- oder Datenserien erzeugen..

46 / 51

PD Stefan Bosse - Automatische Schadensdiagnostik - Modul B compute entropy from counts :: Analyse von Datenserien

Messdaten

C. R. Farrar and K. Worden, Structural Health Monitoring: A Machine Learning Perspective. Wiley-Interscience, 2013, pp. 164

Zeitaufgelöste Sensordaten s(t) eines Beschleunigungssensors einer Maschine ohne und mit Schäden

47 / 51

PD Stefan Bosse - Automatische Schadensdiagnostik - Modul B compute entropy from counts :: Analyse von Datenserien

Korrelationsanalyse

C. R. Farrar and K. Worden, Structural Health Monitoring: A Machine Learning Perspective. Wiley-Interscience, 2013, pp. 164

Autokorrlelation der zeitaufgelösten Sensordaten s(t) eines Beschleunigungssensors einer Maschine ohne und mit Schäden

48 / 51

PD Stefan Bosse - Automatische Schadensdiagnostik - Modul B compute entropy from counts :: Analyse von Datenserien

Spektralanalyse

C. R. Farrar and K. Worden, Structural Health Monitoring: A Machine Learning Perspective. Wiley-Interscience, 2013, pp. 167

Spektralanalyse der zeitaufgelösten Sensordaten s(t) eines Beschleunigungssensors einer Maschine ohne und mit Schäden

49 / 51

PD Stefan Bosse - Automatische Schadensdiagnostik - Modul B compute entropy from counts :: Merkmalsselektion

Merkmalsselektion

Die statistische und weitere Analysen können die Eingabe für ML liefern, aber auch die Modellsynthese parametrisieren bzw. beeinflussen

50 / 51

PD Stefan Bosse - Automatische Schadensdiagnostik - Modul B compute entropy from counts :: Zusammenfassung

Zusammenfassung

  • Die statistische Analyse von Datentabellen liefert wichtige Informationen über die Qualität der Daten

  • Die Merkmalsselektion transformiert die Rohdaten auf neue möglichst linear unabhängige Attribute

    • Datenreduktion → Dimensionalität
    • Datenreduktion → Datengröße
    • Datenqualitätserhöhung
  • Es werden Verfahren für kategorische und numerische Datenvariablen unterschieden

51 / 51