In der Mess- und Prüftechnik PD Stefan Bosse
Universität Bremen - FB Mathematik und Informatik
Stefan Bosse - Maschinelles Lernen - Datenanalyse und Eigenschaftsselektion -
Häufig sind die rohen sensorischen Daten(variablen) zu hochdimensional und abhängig voneinander
Reduktion auf wesentliche Merkmale kann ML Qualität deutlich verbessern
Häufig besitzen einzelne Sensorvariablen keine oder nur geringe Aussagekraft (geringe Entscheidbarkeitsqualität)
Stefan Bosse - Maschinelles Lernen - Datenanalyse und Eigenschaftsselektion - Datenqualität
Rauschen. Rauschen ist die Verzerrung der Daten. Diese Verzerrung muss entfernt oder Ihre nachteiligen Auswirkungen vermindert werden, bevor ML Algorithmen ausgeführt werden, da die Leistung und Qualität der Algorithmen beeinträchtigen kwerden ann.
Es gibt eine Vielzahl von Filteralgorithmen um den Einfluß von Rauschen auf das eigentliche Sensorsignal zu vermindern.
Stefan Bosse - Maschinelles Lernen - Datenanalyse und Eigenschaftsselektion - Datenqualität
Ausreißer. Ausreißer sind Instanzen, die sich erheblich von anderen Instanzen im Datensatz unterscheiden.
Aber: Ausreißer können in besonderen Fällen nützliche Muster darstellen und die Entscheidung, sie zu entfernen, hängt vom Kontext und Fragestellung ab.
Stefan Bosse - Maschinelles Lernen - Datenanalyse und Eigenschaftsselektion - Datenqualität
Fehlende Werte. Fehlende Werte sind Funktionswerte, die in Instanzen fehlen.
Zum Beispiel, Einzelpersonen können es vermeiden, Profilinformationen auf social-media-Websites zu melden, wie Ihr Alter, Standort, oder Hobbys.
Um dieses Problem zu lösen, können wir
Stefan Bosse - Maschinelles Lernen - Datenanalyse und Eigenschaftsselektion - Datenqualität
Duplikate. Doppelte Daten treten auf, wenn mehrere Instanzen mit genau denselben Funktionswerten vorhanden sind.
Doppelte blog-posts, doppelte tweets oder Profile auf Social-media-Websites mit doppelten Informationen sind Beispiele für dieses Phänomen.
Je nach Kontext können diese Instanzen entweder entfernt oder beibehalten werden. Wenn Instanzen beispielsweise eindeutig sein müssen, sollten doppelte Instanzen entfernt werden.
Stefan Bosse - Maschinelles Lernen - Datenanalyse und Eigenschaftsselektion - Statistische Analyse
Statistische Analysen von Mess- und Sensordaten können neue Datenvariablen erzeugen und Informationen über die Daten liefern:
Statistische Analyse liefert eine Reihe von Kennzahlen über Datenvariablen, das können Eigenschaften für die Weiterverabeitung sein:
stat(→x):→x→→p,→p={mean,σ,..}
Stefan Bosse - Maschinelles Lernen - Datenanalyse und Eigenschaftsselektion - Statistische Analyse
Welche statistische Größen gibt es? Was können statistische Größen über Daten aussagen?
Stefan Bosse - Maschinelles Lernen - Datenanalyse und Eigenschaftsselektion - Statistische Funktionen
2:173
Stefan Bosse - Maschinelles Lernen - Datenanalyse und Eigenschaftsselektion - Statistische Funktionen
2:173
Stefan Bosse - Maschinelles Lernen - Datenanalyse und Eigenschaftsselektion - Statistische Funktionen
Stefan Bosse - Maschinelles Lernen - Datenanalyse und Eigenschaftsselektion - Korrelation von Datenvariablen
Abhängige Variablen sollten identifiziert und in unabhängige "transformiert" werden!
Stefan Bosse - Maschinelles Lernen - Datenanalyse und Eigenschaftsselektion - Korrelation von Datenvariablen
Stefan Bosse - Maschinelles Lernen - Datenanalyse und Eigenschaftsselektion - Korrelation von Datenvariablen
D bestand aus 61 Experimenten mit unterschiedlichen Fertigungsserien
Mit einer Principle Component Analysis (PCA) konnte die ganze Tabelle auf die Variablen PC1 und Y1reduziert werden!
Die Genauigkeit der mit ML synthetisierten Funktion M(X): X → Dichte konnte ohne signifikanten Genauigkeitsverlust nur aus PC1 abgeleitet werden, d.h. M(PC1): PC1 → Dichte
Aber: Für die Inferenz (Applikation) von M muss die PCA für die Eingabedaten X wiederholt werden bzw. die Datentransformation durchgeführt werden!
Stefan Bosse - Maschinelles Lernen - Datenanalyse und Eigenschaftsselektion - Korrelation von Datenvariablen
Übung: Erstelle eine WorkBook um die Daten des botanischer Iris Datensatzes aus der SQL Datenbank einlesen kann. Dann sollen einfache statistische Analysen erstellt werden.
Welche Eigenschaften besitzen die Variabel X1 bis X4? Welche Verteilung besitzt die Variable Y?
Stefan Bosse - Maschinelles Lernen - Datenanalyse und Eigenschaftsselektion - Analyse Kategorischer Variablen
5 Beispiel von rein kategorischen Attributen einer Datentabelle D
Stefan Bosse - Maschinelles Lernen - Datenanalyse und Eigenschaftsselektion - Analyse Kategorischer Variablen
5:53 Beispiel einer rein kategorischen Datentabelle D. Die Zielvariable Klasse mit den Werten {N,P} ist ebenfalls kategorisch, z.B. Klasse=P ⇒ Sportliche Aktivität
Stefan Bosse - Maschinelles Lernen - Datenanalyse und Eigenschaftsselektion - Analyse Kategorischer Variablen
7:47 Einige Datenvariablen wurden mit numerischen/metrischen Werten ersetzt (Klasse → Play-time)
Stefan Bosse - Maschinelles Lernen - Datenanalyse und Eigenschaftsselektion - Analyse Kategorischer Variablen
Kann aus der vorherigen Datentabelle mit numerischen Variablen noch ein Zusammenhang aus X zu Y hergestellt werden?
Reicht die Anzahl der Experimente im Vergleich zu der rein kategorischen Datentabelle?
Wo liegen die Probleme?
Stefan Bosse - Maschinelles Lernen - Datenanalyse und Eigenschaftsselektion - Analyse Kategorischer Variablen
7:7
Stefan Bosse - Maschinelles Lernen - Datenanalyse und Eigenschaftsselektion - Kodierung
Kategorische Variablen (sowohl Attribute als auch Zielvariablen) können von einer Vielzahl von numerisch basierten ML Verfahren nicht verarbeitet werden (wie neuronale Netze)
Eine Lösung ist die Abbildung von kategorischen Werten (also Mengen von Symbolen) auf numerische Werte → Kodierung
Kodierte Werte sind aber i.A. weder intervall- noch verhältnisskalierbar!
Stefan Bosse - Maschinelles Lernen - Datenanalyse und Eigenschaftsselektion - Kodierung
Linear und nicht akkummulativ (skalar), d.h.
{α,β,γ,..} → {δ,2δ,3δ,..}
Exponentiell (z.B. zur Basis B=2) und akkummulativ (skalar), d.h.
{α,β,γ,..} → {20,21,22,..}
One-hot und evtl. akkummulativ (vektoriell), d.h.
{α,β,γ,..} → {[1,0,0,...],[0,1,0,..],[0,0,1,..],..}
Expontentielle Kodierungen können multiple verschiedene kategorische Werte in einem numerischen Wert darstellen! Z.B. mehrfache kategorische Antworten bei einer Frage einer Umfrage.
Stefan Bosse - Maschinelles Lernen - Datenanalyse und Eigenschaftsselektion - Kodierung
{sonnig,bewölkt,regnerisch} → {3,2,1}{ja,nein} → {1,0}{Schaden A, Schaden B, Schaden C} → { 1,2,3 }{rot,grün,blau,braun,weiß} → {1,2,4,8,16}{Sport, Kino, Theater, Musik} → {1,2,4,8}{heiß,kalt} → {[1,0],[0,1]}
cat(x):x→{α1,α2,..,αn},x∈R/Nαi↔x=[x0+iδ,x0+(i+1)δ]
Stefan Bosse - Maschinelles Lernen - Datenanalyse und Eigenschaftsselektion - Kodierung
code=Math.code(val,codes)
und val=Math.decode(code,codes)
FunktionenStefan Bosse - Maschinelles Lernen - Datenanalyse und Eigenschaftsselektion - Entropie und Informationsgehalt
Sensorvariablen können unterschiedlichen Informationsgehalt besitzen
Der Informationsgehalt einer Menge X aus Elementen der Menge C wird durch die Entropie E(X) gegeben:
E(X)=−∑i=1,kpilog2(pi),pi=count(ci,X)N,X={c|c∈C}
Stefan Bosse - Maschinelles Lernen - Datenanalyse und Eigenschaftsselektion - Entropie und Informationsgehalt
Dabie ist k die Anzahl der unterscheidbaren Elemente/Klassen Val(X) ⊆ C in der Datenmenge X (z.B. die Spalte einer Tabelle) und pi die Häufigkeit des Auftretens eines Elements ci ∈ C in X.
Beispiele:
X1={A, C, B, C, B, C} → Val(X1)=C={A, B, C},N=6E(X1)=-(1/6)log(1/6)-(2/6)log(2/6)-(3/6)log(3/6)=1.46X2={A, B, C} → Val(X2)=C={A, B, C},N=3E(X2)=-(1/3)log(1/3)-(1/3)log(1/3)-(1/3)log(1/3)=1.58X3={A, A, A, A, B, B} → Val(X3)={A,B} ⊂ C={A, B, C},N=6E(X3)=-(4/6)log(4/6)-(2/6)log(2/6)-(0/6)log(0/6)=0.92X4={A, A, A, A, B, B} → Val(X4)=C={A, B},N=6E(X4)=-(4/6)log(4/6)-(2/6)log(2/6)=0.92
Stefan Bosse - Maschinelles Lernen - Datenanalyse und Eigenschaftsselektion - Entropie und Informationsgehalt
X1 | X2 | Y |
---|---|---|
A | C | P |
B | C | P |
A | D | N |
B | D | N |
Stefan Bosse - Maschinelles Lernen - Datenanalyse und Eigenschaftsselektion - Entropie und Informationsgehalt
Stefan Bosse - Maschinelles Lernen - Datenanalyse und Eigenschaftsselektion - Informationsgewinn (Gain)
G(Y|X)=E(Y)−∑v∈Val(X)|Yv||Y|E(Yv)
Die Menge Yv enthält nur Werte für die X=v ist!
Ein Verteilungsvektor ist dann Dist(X)=[|v1|,|v2|,..] und bedeutet wie häufig der bestimmte Wert vi ∈ Val(X) in X auftaucht!
Stefan Bosse - Maschinelles Lernen - Datenanalyse und Eigenschaftsselektion - Informationsgewinn (Gain)
12
Stefan Bosse - Maschinelles Lernen - Datenanalyse und Eigenschaftsselektion - Informationsgewinn (Gain)
Stefan Bosse - Maschinelles Lernen - Datenanalyse und Eigenschaftsselektion - Principle Component Analysis
PCA ist noch keine Reduktionsmethode. PCA liefert bei einem n-dimensionalen Vektor X genau n Vektoren der Dimensionalität n!
Aber: Reduktion von Redundanz in den Attributen X ist mit diesen Hauptkomponenten möglich.
Stefan Bosse - Maschinelles Lernen - Datenanalyse und Eigenschaftsselektion - Principle Component Analysis
Czarnek, RG
Stefan Bosse - Maschinelles Lernen - Datenanalyse und Eigenschaftsselektion - Principle Component Analysis
Mag(X)=√[re(DFT(X))]2+[im(DFT(X))]2N
Pha(X)=arctan(im(DFT(X))re(DFT(X)))
Power(X)=[re(DFT(X))]2+[im(DFT(X))]2N
Stefan Bosse - Maschinelles Lernen - Datenanalyse und Eigenschaftsselektion - Principle Component Analysis
DWT verwendet lange Zeitfenster für niedrige Frequenzen und kurze Zeitfenster für höhere Frequenzen, was zu einer guten zeitfrequenzanalyse führt.
Stefan Bosse - Maschinelles Lernen - Datenanalyse und Eigenschaftsselektion - Principle Component Analysis
DWT kann mit digitalen Filterkaskaden aufgebaut werden:
Stefan Bosse - Maschinelles Lernen - Datenanalyse und Eigenschaftsselektion - Histogrammanalyse
wavemetrics
Stefan Bosse - Maschinelles Lernen - Datenanalyse und Eigenschaftsselektion - Analyse von Datenserien
Welcher Sensoren können bei der Bauteilprüfung und Schadensüberwachung Zeit- oder Datenserien erzeugen..
Stefan Bosse - Maschinelles Lernen - Datenanalyse und Eigenschaftsselektion - Analyse von Datenserien
2:164
Zeitaufgelöste Sensordaten s(t) eines Beschleunigungssensors einer Maschine ohne und mit Schäden
Stefan Bosse - Maschinelles Lernen - Datenanalyse und Eigenschaftsselektion - Analyse von Datenserien
2:164
Autokorrlelation der zeitaufgelösten Sensordaten s(t) eines Beschleunigungssensors einer Maschine ohne und mit Schäden
Stefan Bosse - Maschinelles Lernen - Datenanalyse und Eigenschaftsselektion - Analyse von Datenserien
2:167
Spektralanalyse der zeitaufgelösten Sensordaten s(t) eines Beschleunigungssensors einer Maschine ohne und mit Schäden
Stefan Bosse - Maschinelles Lernen - Datenanalyse und Eigenschaftsselektion - Merkmalsselektion
Die statistische und weitere Analysen können die Eingabe für ML liefern, aber auch die Modellsynthese parametrisieren bzw. beeinflussen
Stefan Bosse - Maschinelles Lernen - Datenanalyse und Eigenschaftsselektion - Zusammenfassung
Die statistische Analyse von Datentabellen liefert wichtige Informationen über die Qualität der Daten
Die Merkmalsselektion transformiert die Rohdaten auf neue möglichst linear unabhängige Attribute
Es werden Verfahren für kategorische und numerische Datenvariablen unterschieden