PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul C: Taxonomie des Maschinellen Lernens
In der Mess- und Prüftechnik
PD Stefan Bosse
Universität Bremen - FB Mathematik und Informatik
PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul C: Taxonomie des Maschinellen Lernens
Zielvariablen: Kategorische Klassifikation, Numerische Prädiktorfunktionen, Gruppierung
Modellfunktionen: Mit welchen Daten- und Programmarchitekturen können Eingabevariablen auf Zielvariablen abgebildet werden?
Training und Algorithmen: Wie können die Modellfunktionen an das Problem angepasst werden?
Überwachtes, nicht überwachtes und Agentenlernen
PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul C: Taxonomie des Maschinellen Lernens
6 Maschinelles Lernen ist ein Werkzeug der Datenanalyse und des Data Minings
PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul C: Taxonomie des Maschinellen Lernens
M(→X):→X→→Y,X={diskrete kategorische Werte Cnumerische Werte N,R,Y=⎧⎪⎨⎪⎩diskrete kategorische Werte Cnumerische Werte N,RGruppen(X), Netzwerke Q
PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul C: Taxonomie des Maschinellen Lernens
100 Kausale vs. Prädiktive Modellbildung und Physikalische Modelle versa algorithmisch bestimmte Modelle (Hypothesen)
PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul C: Taxonomie des Maschinellen Lernens
Lernen bedeutet die gewünschte Modellfunktion M möglichst genau zu approximieren so dass min error(|Y0-Y|) für alle (X,Y0) Paare gilt (Y0: Referenzdaten).
I.a. ist M eine parametrisierbare Funktion f(P) oder eine parametrisierbare Datenstruktur
Es gibt nicht eine Modellfunktion M, sondern eine große Menge möglicher Funktionen, genannt Hypothesen ℍ.
PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul C: Taxonomie des Maschinellen Lernens
Lernen bedeutet also die bestmögliche Anpassung des Parametersatzes P um den Fehler zu minimieren und eine geeignet Hypothesenfunktion zu finden.
H(→X):→X→→Y,H={MP11,MP22,..,MPkk},error(X,Y0,M)=|M(X)−Y0|
PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul C: Taxonomie des Maschinellen Lernens
Verschiedene Modellfunktionen M die die (Trainings) Daten repräsentieren
PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul C: Taxonomie des Maschinellen Lernens
13
Durch Kreuzvalidierung (CV) werden ungeeignete Hypothesenmodelle erkannt
PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul C: Taxonomie des Maschinellen Lernens
Jede Hypothesenfunktion M ∈ ℍ führt zu einem Informationsverlust durch Appoximation der tatsächlichen und unbekannten Modellfunktione F.
M(x):x→y=F(x)+E(x)
mit E als eine Fehlerfunktion (i.A. zufälliger Fehler) und ^E als mittlerer Prädiktionsfehler.
PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul C: Taxonomie des Maschinellen Lernens
Die Hypothesenmenge ℍ ist also tatsächlich eine Approximation eines unbekannten "exakten" Modells (Modellfunktion) MF, die z.B. mittels physikalischer oder soziologischer Modelle ableitbar wäre.
Genauso wie eine Sensor eine physikalische Größe nur approximieren kann, der tatsächliche Wert der zu messenden Größe ist nicht bekannt
PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul C: Taxonomie des Maschinellen Lernens
11 Training als Anpassung von Hypothesen für die Abbildungfunktion X → Y mit Trainingsdaten
PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul C: Taxonomie des Maschinellen Lernens
Die Paramater in dem Parametersatz P bestehen aus zwei Klassen:
PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul C: Taxonomie des Maschinellen Lernens
f(T):T→S=a+bT+cT2+dT3,Ps={degr:3},Pd={a,b,c,d},S=[0,1]f(T):T→S=a+bT+cTc+dTe,Ps={terms:4,lin:2,exp:2},Pd={a,b,c,d,e},S=[0,1]
PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul C: Taxonomie des Maschinellen Lernens
PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul C: Taxonomie des Maschinellen Lernens
PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul C: Taxonomie des Maschinellen Lernens
Es gilt: Dtrain ⊆ Dall, Dtest ⊆ Dall, Dinf ⊆ Dall aber Dtrain ∩ Dtest = ∅ und Dtrain ∩ Dtest ∩ Dinf ≠ ∅ (Idealfall!)
Die großen Probleme beim algorthmischen/trainierten Modellieren:
Die Trainingsdaten sind nicht repräsentativ (Umfang, Varianz, Qualität)
Die Testdaten sind nicht repräsentativ (Umfang, Varianz, Qualität)
Die Trainingsdaten enthalten schwache Variablen die nicht entfernt wurden (Inkonsistenz und geriner Informationsgewinn)
Generalisierung. Das gelernte Modell M bildet alle drei Datenmengen gleichermaßen gut ab!
PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul C: Taxonomie des Maschinellen Lernens
PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul C: Taxonomie des Maschinellen Lernens
6 Ablauf Überwachtes Lernen mit Trainings- (Induktion) und Applikationsphasen (Deduktion)
PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul C: Taxonomie des Maschinellen Lernens
Abdul Rahid,www.wordstream.com
PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul C: Taxonomie des Maschinellen Lernens
4 Zwei wichtige Unterklassen von überwachten Lernen: Regression (Numerische Zielvariablen) und Klassifikation (Kategorische Zielvariablen)
PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul C: Taxonomie des Maschinellen Lernens
4 Abbildung von hochdimensionale Daten Xn auf niederdimensionale Xm mit m < n
PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul C: Taxonomie des Maschinellen Lernens
4 Zwei wichtige Unterklassen von nicht überwachten Lernen: Clustering (Gruppenbildung) und Ausreißerdetektion
PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul C: Taxonomie des Maschinellen Lernens
Das Training einer Modellfunktion M kann
Inkrementelle Trainings- und Anpassungsverfahren könnne alte Datensätze verwerfen → Stromldatenlernen!
PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul C: Taxonomie des Maschinellen Lernens
PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul C: Taxonomie des Maschinellen Lernens
Es gibt im wesentlichen vier verschiedene Architekturen die Modelle M zu implementieren:
PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul C: Taxonomie des Maschinellen Lernens
PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul C: Taxonomie des Maschinellen Lernens
PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul C: Taxonomie des Maschinellen Lernens
Verschiedene Modellimplementierungen
PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul C: Taxonomie des Maschinellen Lernens
M(→X):→X→→Y=Φ({M1(X),M2(X),..,Mn(X)})
Die einzelnen Modellinstanzen arbeiten mit gleichen oder verschiedenen Dateninstanzen
Es gibt eine Split- und eine Join Schicht (Kombinierer, Modellfusion)
PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul C: Taxonomie des Maschinellen Lernens
Jay Budzik, www.thetalkingmachines.com
Verschiedene Architekturen für Multiinstanz Lernen und Inferenz
PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul C: Taxonomie des Maschinellen Lernens
PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul C: Taxonomie des Maschinellen Lernens
Statistische Analyse und Bewertung der Daten
Merkmalsselektion
Aufteilung der Daten in Trainings- und Testdaten (i.A. randomisiert) D=Dtrain ∪Dtest
Training einer Modellfunktion M mit bekannten (gelabelten bei ÜL) Trainingsdaten Dtrain unter Bewertung des Modellfehlers E(X)
Test und Bewertung von M mit bekannten Daten Dtest
Applikation (Inferenz) von M auf unbekannten Daten D
PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul C: Taxonomie des Maschinellen Lernens
Maschinelles Lernen besteht aus:
Modellimplementierungen:
Aufgaben
PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul C: Taxonomie des Maschinellen Lernens
Methoden und Verfahren
ML besteht aus mehreren Phasen:
PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul C: Taxonomie des Maschinellen Lernens