PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul C: Taxonomie des Maschinellen Lernens

Maschinelles Lernen und Datenanalyse

In der Mess- und Prüftechnik

PD Stefan Bosse

Universität Bremen - FB Mathematik und Informatik

1 / 36

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul C: Taxonomie des Maschinellen Lernens

Taxonomie des Maschinellen Lernens

Zielvariablen: Kategorische Klassifikation, Numerische Prädiktorfunktionen, Gruppierung

Modellfunktionen: Mit welchen Daten- und Programmarchitekturen können Eingabevariablen auf Zielvariablen abgebildet werden?

Training und Algorithmen: Wie können die Modellfunktionen an das Problem angepasst werden?

Überwachtes, nicht überwachtes und Agentenlernen

2 / 36

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul C: Taxonomie des Maschinellen Lernens

Datenverarbeitung

  • Die Daten die als Grundlage für die Induktion (Lernen) und die Deduktion (Applikation/Inferenz der Zielvariablen) müssen i.A. vorverabeitet werden → Merkmalsselektion

6 label Maschinelles Lernen ist ein Werkzeug der Datenanalyse und des Data Minings

3 / 36

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul C: Taxonomie des Maschinellen Lernens

Die Modellfunktion

  • Die Modellfunktion soll möglichst genau und effizient die Eingabedaten X auf die Zielvariablen Y abbilden:

M(X):XY,X={diskrete kategorische Werte Cnumerische Werte N,R,Y=diskrete kategorische Werte Cnumerische Werte N,RGruppen(X), Netzwerke Q

  • Die Modellfunktion M approximiert eine i.A. nicht bekannte Funktion F, d.h. eine axiomatisch oder analytisch abgeleitete Modellfunktion (z.B. phys. Gesetze) → M ist Hypothese von F!
4 / 36

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul C: Taxonomie des Maschinellen Lernens

Beispiel

100 Kausale vs. Prädiktive Modellbildung und Physikalische Modelle versa algorithmisch bestimmte Modelle (Hypothesen)

5 / 36

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul C: Taxonomie des Maschinellen Lernens

Lernen

Lernen bedeutet die gewünschte Modellfunktion M möglichst genau zu approximieren so dass min error(|Y0-Y|) für alle (X,Y0) Paare gilt (Y0: Referenzdaten).

  • I.a. ist M eine parametrisierbare Funktion f(P) oder eine parametrisierbare Datenstruktur

    • Der Parametersatz P={p1,p2,..,pi} bestimmt sowohl Funktion als auch Struktur (z.B. eines Entscheidungsbaumes)
  • Es gibt nicht eine Modellfunktion M, sondern eine große Menge möglicher Funktionen, genannt Hypothesen ℍ.

6 / 36

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul C: Taxonomie des Maschinellen Lernens

Lernen bedeutet also die bestmögliche Anpassung des Parametersatzes P um den Fehler zu minimieren und eine geeignet Hypothesenfunktion zu finden.

  • Man unterscheidet bekannte Referenzwerte der Zielvariablen (und Beziehung zu X) Y0, auch Labels genannt, und prognostische Werte Y die als Ergebnis von M(X) geliefert werden (Inferenzwerte), d.h. bei der Applikation ist der wahre Wert Yt unbekannt (Schätzung von Yt)

H(X):XY,H={MP11,MP22,..,MPkk},error(X,Y0,M)=|M(X)Y0|

7 / 36

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul C: Taxonomie des Maschinellen Lernens

Beispiele

Verschiedene Modellfunktionen M die die (Trainings) Daten repräsentieren

8 / 36

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul C: Taxonomie des Maschinellen Lernens

Kreuzvalidierung

  • Beim Training wird ein Inferenzfehler zunächst aus Trainingsdaten bestimmt → Trugschluß!
  • Stattdessen müssen auch unabhängigige Testdaten für eine Kreuzvalidierung herangezogen werden, und dann ...

13

Durch Kreuzvalidierung (CV) werden ungeeignete Hypothesenmodelle erkannt

9 / 36

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul C: Taxonomie des Maschinellen Lernens

Fehler (Verlust)

Jede Hypothesenfunktion M ∈ ℍ führt zu einem Informationsverlust durch Appoximation der tatsächlichen und unbekannten Modellfunktione F.

  • Es gilt also:

M(x):xy=F(x)+E(x)

mit E als eine Fehlerfunktion (i.A. zufälliger Fehler) und ^E als mittlerer Prädiktionsfehler.

10 / 36

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul C: Taxonomie des Maschinellen Lernens

  • Die Hypothesenmenge ℍ ist also tatsächlich eine Approximation eines unbekannten "exakten" Modells (Modellfunktion) MF, die z.B. mittels physikalischer oder soziologischer Modelle ableitbar wäre.

  • Genauso wie eine Sensor eine physikalische Größe nur approximieren kann, der tatsächliche Wert der zu messenden Größe ist nicht bekannt

11 / 36

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul C: Taxonomie des Maschinellen Lernens

11 Training als Anpassung von Hypothesen für die Abbildungfunktion XY mit Trainingsdaten

12 / 36

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul C: Taxonomie des Maschinellen Lernens

Parametrisierung

Die Paramater in dem Parametersatz P bestehen aus zwei Klassen:

Statische Parameter Ps
Parameter die die Modellimplementierung (Funktion, Datenstruktur, usw.) festlegen und i.A. während des Trainings und der Applikation unverändert bleiben. (Ausnahme: Evolutionäre Algorithmen) → Konfiguration
Dynamische Parameter Pd
Parameter die während des Trainings verändert (angepasst) werden. Z.B. Funktionsparameter oder Kantengewichte von neuronalen Netzen → Adaption
13 / 36

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul C: Taxonomie des Maschinellen Lernens

Beispiele

  1. Numerische Prädiktorfunktionen (T: Temperatur, S: Satisfaction) → Regression

f(T):TS=a+bT+cT2+dT3,Ps={degr:3},Pd={a,b,c,d},S=[0,1]f(T):TS=a+bT+cTc+dTe,Ps={terms:4,lin:2,exp:2},Pd={a,b,c,d,e},S=[0,1]

14 / 36

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul C: Taxonomie des Maschinellen Lernens

  1. Künstliches Neuronales Netzwerk

15 / 36

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul C: Taxonomie des Maschinellen Lernens

Daten

Trainingsdaten Dtrain
Datentabellen die aus Zeilen mit einer bekannten Beziehung (X,Y) bestehen und verwendet werden die Modellfunktion M durch Veränderung von P zu approximieren
Testdaten Dtest
Datentabellen die aus Zeilen mit einer bekannten Beziehung (X,Y) bestehen und verwendet werden die Modellfunktion M auf Genauigkeit und Fehler zu testen. Man spricht auch von einer Kreuzvalidierung da DtestDtrain = ∅ sein sollte.
Inferenzdaten Dinf
Datentabellen die nur aus Zeilen X bestehen (Y ist unbekannt)
16 / 36

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul C: Taxonomie des Maschinellen Lernens

Es gilt: DtrainDall, DtestDall, DinfDall aber DtrainDtest = ∅ und DtrainDtestDinf ≠ ∅ (Idealfall!)

Die großen Probleme beim algorthmischen/trainierten Modellieren:

  • Die Trainingsdaten sind nicht repräsentativ (Umfang, Varianz, Qualität)

  • Die Testdaten sind nicht repräsentativ (Umfang, Varianz, Qualität)

  • Die Trainingsdaten enthalten schwache Variablen die nicht entfernt wurden (Inkonsistenz und geriner Informationsgewinn)

Generalisierung. Das gelernte Modell M bildet alle drei Datenmengen gleichermaßen gut ab!

17 / 36

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul C: Taxonomie des Maschinellen Lernens

Lernverfahren

Überwachtes Lernen
Es gibt Trainingsdaten mit bekannten Beziehungen (X,Y) die verwendet werden um die Modellfunktion mit minimalen Fehler anzupassen. Überwachugn benötigt i.A. einen Experten der die Beziehungen (X,Y) erstellt und analytisch den Fehler bewertet.
Unüberwachtes Lernen
Es gibt Trainingsdaten ohne bekannte beziehung (X,Y), d.h., schon das Lernen führt zu einer automatischen Inferenz der zielvariablen Y, die aber in diesem Fall i.A. nur durch Gruppenmengen ℚ bestehen. Eine Gruppenmenge Q={Xi} ⊆ ℚ bringt verschiedene Eingabewerte in Beziehung. D.h. Y ≡ ℚ.
18 / 36

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul C: Taxonomie des Maschinellen Lernens

Belohnungs- und Agentenlernen
Die Abbildungsfunktion f(X): XY wird schrittweise durch eine Evaluierung des inferrierten Y mit einem Belohnungswert r=[0,1] gelernt. Training und Inferenz findet gleichzeitig statt.


6 Ablauf Überwachtes Lernen mit Trainings- (Induktion) und Applikationsphasen (Deduktion)

19 / 36

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul C: Taxonomie des Maschinellen Lernens

Taxonomie der Verfahren

Abdul Rahid,www.wordstream.com

20 / 36

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul C: Taxonomie des Maschinellen Lernens

Überwachte Lernverfahren - Unterklassen

4 Zwei wichtige Unterklassen von überwachten Lernen: Regression (Numerische Zielvariablen) und Klassifikation (Kategorische Zielvariablen)

21 / 36

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul C: Taxonomie des Maschinellen Lernens

Dimensionalitätsreduktion

  • ML kann auch für die Reduktion von Datendimensionalität eingesetzt werden (Informationen sind reduzierte Daten)
    • Beispiele: Principle Component Analysis, Single Value Decomposition, ..

4 Abbildung von hochdimensionale Daten Xn auf niederdimensionale Xm mit m < n

22 / 36

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul C: Taxonomie des Maschinellen Lernens

Unüberwachtes Lernen - Unterklassen

4 Zwei wichtige Unterklassen von nicht überwachten Lernen: Clustering (Gruppenbildung) und Ausreißerdetektion

23 / 36

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul C: Taxonomie des Maschinellen Lernens

Training

  • Das Training einer Modellfunktion M kann

    • monolitisch (alle Dateninstanzen werden "parallel" verwendet), oder
    • stapelbasiert (d.h. Gruppen von Instanzen werden "parallel" verarbeitet), oder
    • iterativ (Dateninstanzen werden "sequenziell" verwendet), und
    • inkrementell (iterativ mit neuen Daten).
  • Inkrementelle Trainings- und Anpassungsverfahren könnne alte Datensätze verwerfen → Stromldatenlernen!

24 / 36

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul C: Taxonomie des Maschinellen Lernens

  • Nicht jede Modellimplementierung ist geeignet:
    • Graphen (Bäume) können i.A. nur monolotisch trainiert = erzeugt werden!
    • Regression von math. Funktionen kann monolitisch und/oder iterativ erfolgen;
    • Neuronale Netze können monolitisch, stapelbasiert, iterativ, und vor allem inkrementell trainiert werden.
25 / 36

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul C: Taxonomie des Maschinellen Lernens

Modellimplementierungen

Es gibt im wesentlichen vier verschiedene Architekturen die Modelle M zu implementieren:

Funktionen
Die Struktur einer mathematischen Funktion wird durch ihre Terme gebildet (Berechnungsknoten), z.B. ax+bx2. Zu jedem Term gehört ein dynamischer Parameter der beim Training angepasst wird um den Fehler zu minimieren. Das Ergebnis ist die Zielvariable y.
26 / 36

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul C: Taxonomie des Maschinellen Lernens

Gerichtete Graphen
Gerichtete Graphen (oder Entscheidungsbäume) bestehen aus Knoten und Kanten. Die Knoten repräsentieren eine Eingabevariable (Attribute) xX. Die Kanten beschreiben die Entwicklung eine Graphens beginnend vom Wurzelknoten hin zu den Blättern. Die Blätter enthalten die Werte der Zielvariable(n) y. Der dynamische Paremetersatz ist der Graph (dessen Struktur).
Funktionale Graphen
Hybrid aus gerichteten Graph und Funktion → Künstliche Neuronale Netze. Die Knoten repräsentieren Berechnungsfunktionen, die Kanten verbinden Ausgänge von Funktionen mit Eingängen. Es gibt Eingangsknoten die mit den Eingabevariablen X verbunden sind, und Ausgangsknoten die mit den Ausgangsvariablen Y verbunden sind.
27 / 36

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul C: Taxonomie des Maschinellen Lernens

Ungerichtete Graphen
Hier repräsentieren die Knoten Dateninstanzen X, und die Kanten verbinden die nächsten Nachbarn miteinander. Hier geht es um Gruppenbildung (k nächste Nachbarn/kNN Problem).
28 / 36

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul C: Taxonomie des Maschinellen Lernens

Verschiedene Modellimplementierungen

29 / 36

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul C: Taxonomie des Maschinellen Lernens

Hybride Modelle

Multiinstanz Modelle

  • Ensemblelernen vereint multiple Modelle (gleicher Klasse oder unterschiedlich)

M(X):XY=Φ({M1(X),M2(X),..,Mn(X)})

  • Die einzelnen Modellinstanzen arbeiten mit gleichen oder verschiedenen Dateninstanzen

  • Es gibt eine Split- und eine Join Schicht (Kombinierer, Modellfusion)

30 / 36

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul C: Taxonomie des Maschinellen Lernens

Jay Budzik, www.thetalkingmachines.com

Verschiedene Architekturen für Multiinstanz Lernen und Inferenz

31 / 36

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul C: Taxonomie des Maschinellen Lernens

Instanzklassifikation

SLSP
Einzelinstanz Lernen (auf allen Daten) und Einzelinstanz Prädiktion (Inferenz auf allen Daten)
SLMP
Einzelinstanz Lernen (auf allen Daten) und replizierte Multiinstanz Prädiktion (Inferenz auf Teildaten mit Modellfusion)
MLSP
Multiinstanz Lernen (auf Teildaten) mit Modellfusion und Einzeninstanz Prädiktion (Inferenz auf allen Daten)
MLMP
Multiinstanz Lernen und Multiinstanz Prädiktion (Modellfusion)
32 / 36

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul C: Taxonomie des Maschinellen Lernens

Ablauf und Phasen von ML

  1. Statistische Analyse und Bewertung der Daten

  2. Merkmalsselektion

  3. Aufteilung der Daten in Trainings- und Testdaten (i.A. randomisiert) D=DtrainDtest

  4. Training einer Modellfunktion M mit bekannten (gelabelten bei ÜL) Trainingsdaten Dtrain unter Bewertung des Modellfehlers E(X)

  5. Test und Bewertung von M mit bekannten Daten Dtest

  6. Applikation (Inferenz) von M auf unbekannten Daten D

33 / 36

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul C: Taxonomie des Maschinellen Lernens

Zusammenfassung

Maschinelles Lernen besteht aus:

  1. Modellimplementierungen:

    • Funktionen, Gerichtete Graphen, Funktionalen Graphen, Ungerichtete Graphen, also mit/für
    • Regression, Entscheidungsbäume, Neuronale Netze, Clustering (kNN)
  2. Aufgaben

    • Regression, Klassifikation, Gruppierung (Clustering), Prognostik
34 / 36

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul C: Taxonomie des Maschinellen Lernens

  1. Methoden und Verfahren

    • Überwachtes, nicht überwachtes, und rückgekoppeltes Belohnungslernen
    • Monolitisches, stapelbasiertes, iteratives, und inkrementelles Lernen
    • Einzel- versa Multiinstanzlernen
    • Enscheidungsbaumlernen (Konstruktion), Support Vector Machines (Regression), Backpropagation in Neuronalen Netze, usw.
  2. ML besteht aus mehreren Phasen:

    • Datenerhebung, Datenvorverarbeitung, Statistische Bewertung, Merkmalsselektion, Modellertsellung, Training, Test und Analyse (Kreuzvalidierung), Anwendung/Inferenz
35 / 36

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul C: Taxonomie des Maschinellen Lernens

  1. Daten werden unterteilt in:
    • Trainingsdaten , Testdaten, Anwendungsdaten
    • Trainings- und Testdaten bei ÜL mit (x,y) Beziehungen (Labelling)
36 / 36