Maschinelles Lernen und Datenanalyse

In der Mess- und Prüftechnik

PD Stefan Bosse

Universität Bremen - FB Mathematik und Informatik / AG 0

Universität Siegen - FB Maschinenbau / LMW

1 / 47

PD Stefan Bosse - Automatische Schadensdiagnostik - Modul C Taxonomie des Maschinellen Lernens ::

Taxonomie des Maschinellen Lernens

Zielvariablen: Kategorische Klassifikation, Numerische Prädiktorfunktionen, Gruppierung

Modellfunktionen: Mit welchen Daten- und Programmarchitekturen können Eingabevariablen auf Zielvariablen abgebildet werden?

Training und Algorithmen: Wie können die Modellfunktionen an das Problem angepasst werden?

Überwachtes, nicht überwachtes und Agentenlernen

2 / 47

PD Stefan Bosse - Automatische Schadensdiagnostik - Modul C Taxonomie des Maschinellen Lernens :: Datenverarbeitung

Datenverarbeitung

  • Die Daten die als Grundlage für die Induktion (Lernen) und die Deduktion (Applikation/Inferenz der Zielvariablen) müssen i.A. vorverarbeitet werden → Merkmalsselektion

6 Maschinelles Lernen ist ein Werkzeug der Datenanalyse und des Data Minings

3 / 47

PD Stefan Bosse - Automatische Schadensdiagnostik - Modul C Taxonomie des Maschinellen Lernens :: Die Modellfunktion

Die Modellfunktion

  • Die Modellfunktion F soll möglichst genau und effizient die Eingabedaten X auf die Zielvariablen Y abbilden:

F(X):XY,X={diskrete kategorische Werte Cnumerische Werte N,R,Y=diskrete kategorische Werte Cnumerische Werte N,RGruppen(X), Netzwerke Q

  • Die Modellfunktion F approximiert eine i.A. nicht bekannte Funktion M, d.h. eine axiomatisch oder analytisch abgeleitete Modellfunktion (z.B. phys. Gesetze) → F ist Hypothese von M!
4 / 47

PD Stefan Bosse - Automatische Schadensdiagnostik - Modul C Taxonomie des Maschinellen Lernens :: Die Modellfunktion

Beispiel

100 Kausale vs. Prädiktive Modellbildung und Physikalische Modelle versa algorithmisch bestimmte Modelle (Hypothesen)

5 / 47

PD Stefan Bosse - Automatische Schadensdiagnostik - Modul C Taxonomie des Maschinellen Lernens :: Lernen

Lernen

Lernen bedeutet die unbekannte Modellfunktion M möglichst genau durch F aus Daten so zu approximieren dass min error(|Y0-Y|) für alle (X,Y0) Paare gilt (Y0: Referenzdaten).

  • I.a. ist F eine parametrisierbare Funktion f(P) oder eine parametrisierbare Datenstruktur

    • Der Parametersatz P={p1,p2,..,pi} bestimmt sowohl Funktion als auch Struktur (z.B. eines Entscheidungsbaumes)
  • Es gibt nicht eine Modellfunktion F, sondern eine große Menge möglicher Funktionen, genannt Hypothesen ℍ={F1,F2,..}.

6 / 47

PD Stefan Bosse - Automatische Schadensdiagnostik - Modul C Taxonomie des Maschinellen Lernens :: Lernen

Lernen bedeutet also die bestmögliche Anpassung der Parametersätze P um den Fehler zu minimieren und eine geeignet Hypothesenfunktion zu finden.

  • Man unterscheidet bekannte Referenzwerte der Zielvariablen (und Beziehung zu X) Y0, auch Labels genannt, und prognostische Werte Y die als Ergebnis von F(X) geliefert werden (Inferenzwerte), d.h. bei der Applikation ist der wahre Wert Yt unbekannt (Schätzung von Yt)

H(X):XY,HH={FP11,FP22,..,FPkk},error(X,Y0,F)=|F(X)Y0|

7 / 47

PD Stefan Bosse - Automatische Schadensdiagnostik - Modul C Taxonomie des Maschinellen Lernens :: Lernen

Beispiele

Verschiedene Modellfunktionen M die die (Trainings) Daten repräsentieren

8 / 47

PD Stefan Bosse - Automatische Schadensdiagnostik - Modul C Taxonomie des Maschinellen Lernens :: Kreuzvalidierung

Kreuzvalidierung

  • Beim Training wird ein Inferenzfehler zunächst aus Trainingsdaten bestimmt → Trugschluss!
  • Stattdessen müssen auch unabhängige Testdaten für eine Kreuzvalidierung herangezogen werden, und dann ...

13

Durch Kreuzvalidierung (CV) werden ungeeignete Hypothesenmodelle erkannt

9 / 47

PD Stefan Bosse - Automatische Schadensdiagnostik - Modul C Taxonomie des Maschinellen Lernens :: Fehler (Verlust)

Fehler (Verlust)

Jede Hypothesenfunktion F ∈ ℍ führt zu einem Informationsverlust durch Approximation der tatsächlichen und unbekannten Modellfunktion M.

  • Es gilt also:

M(x):xy=F(x)+E(x)+S

mit E als eine Fehlerfunktion (i.A. zufälliger Fehler) und ^E als mittlerer Prädiktionsfehler und S als systematischer Fehler.

10 / 47

PD Stefan Bosse - Automatische Schadensdiagnostik - Modul C Taxonomie des Maschinellen Lernens :: Fehler (Verlust)

  • Die Hypothesenmenge ℍ ist also tatsächlich eine Approximation eines unbekannten "exakten" Modells (Modellfunktion) MF, die z.B. mittels physikalischer oder soziologischer Modelle ableitbar wäre.

  • Genauso wie eine Sensor eine physikalische Größe nur approximieren kann, der tatsächliche Wert der zu messenden Größe ist nicht bekannt

11 / 47

PD Stefan Bosse - Automatische Schadensdiagnostik - Modul C Taxonomie des Maschinellen Lernens :: Fehler (Verlust)

11 Training als Anpassung von Hypothesen für die Abbildungsfunktion XY mit Trainingsdaten

12 / 47

PD Stefan Bosse - Automatische Schadensdiagnostik - Modul C Taxonomie des Maschinellen Lernens :: Parametrisierung

Parametrisierung

Die einzelnen Parameter in dem Parametersatz P lassen sich in zwei Klassen unterteilen:

Statische Parameter Ps
Parameter die die Modellimplementierung (Funktion, Datenstruktur, usw.) festlegen und i.A. während des Trainings und der Applikation unverändert bleiben. (Ausnahme: Evolutionäre Algorithmen) → Konfiguration
Dynamische Parameter Pd
Parameter die während des Trainings verändert (angepasst) werden. Z.B. Funktionsparameter oder Kantengewichte von neuronalen Netzen → Adaption
13 / 47

PD Stefan Bosse - Automatische Schadensdiagnostik - Modul C Taxonomie des Maschinellen Lernens :: Parametrisierung

Beispiele

  1. Zwei mögliche Numerische Prädiktorfunktionen mit unterschiedlicher Struktur und Parametersätzen, aber gleicher Signatur(T: Temperatur, S: Satisfaction) → Regression

f(T):TS=a+bT+cT2+dT3,Ps={degr:3},Pd={a,b,c,d},S=[0,1]f(T):TS=a+bT+cTd+eTf,Ps={terms:4,lin:2,exp:2},Pd={a,b,c,d,e,f},S=[0,1]

14 / 47

PD Stefan Bosse - Automatische Schadensdiagnostik - Modul C Taxonomie des Maschinellen Lernens :: Parametrisierung

  1. Künstliches Neuronales Netzwerk

15 / 47

PD Stefan Bosse - Automatische Schadensdiagnostik - Modul C Taxonomie des Maschinellen Lernens :: Daten

Daten

Trainingsdaten Dtrain
Datentabellen die aus Zeilen mit einer bekannten Beziehung (X,Y) bestehen und verwendet werden die Modellfunktion M durch Veränderung von P zu approximieren
Testdaten Dtest
Datentabellen die aus Zeilen mit einer bekannten Beziehung (X,Y) bestehen und verwendet werden die Modellfunktion M auf Genauigkeit und Fehler zu testen. Man spricht auch von einer Kreuzvalidierung da DtestDtrain = ∅ sein sollte.
Inferenzdaten Dinf
Datentabellen die nur aus Zeilen X bestehen (Y ist unbekannt)
16 / 47

PD Stefan Bosse - Automatische Schadensdiagnostik - Modul C Taxonomie des Maschinellen Lernens :: Daten

Es gilt: DtrainDall, DtestDall, DinfDall aber DtrainDtest = ∅ und DtrainDtestDinf ≠ ∅ (Idealfall!)

Die großen Probleme beim Modellieren aus Daten:

  • Die Trainingsdaten sind nicht repräsentativ (Umfang, Varianz, Qualität)

  • Die Testdaten sind nicht repräsentativ (Umfang, Varianz, Qualität)

  • Die Trainingsdaten enthalten schwache Variablen die nicht entfernt wurden (Inkonsistenz und geringer Informationsgewinn)

Generalisierung. Das gelernte Modell F bildet alle drei Datenmengen gleichermaßen gut ab!

17 / 47

PD Stefan Bosse - Automatische Schadensdiagnostik - Modul C Taxonomie des Maschinellen Lernens :: Daten

  • Ergänzung:
Bewertungsdaten
Beim Einsatz eines gelernten Modells kann eine Evaluierung bezüglich Qualität / Genauigkeit stattfinden. Diese Daten können dann ggfs. für eine Adaption des Modells und dessen Parametersatz P verwendet werden.

D.h. bei der Anwendung des Modells können somit auch neue Trainingsdaten gewonnen werden, z.B. im Rahmen eines Produktlebenszyklusmanagements!

18 / 47

PD Stefan Bosse - Automatische Schadensdiagnostik - Modul C Taxonomie des Maschinellen Lernens :: Lernverfahren

Lernverfahren

Überwachtes Lernen
Es gibt Trainingsdaten mit bekannten Beziehungen (X,Y) die verwendet werden um die Modellfunktion mit minimalen Fehler anzupassen. Überwachung benötigt i.A. einen Experten der die Beziehungen (X,Y) erstellt und analytisch den Fehler bewertet.
Unüberwachtes Lernen
Es gibt Trainingsdaten ohne bekannte beziehung (X,Y), d.h., schon das Lernen führt zu einer automatischen Inferenz der Zielvariablen Y, die aber in diesem Fall i.A. nur durch Gruppenmengen ℚ bestehen. Eine Gruppenmenge Q={Xi} ⊆ ℚ bringt verschiedene Eingabewerte in Beziehung. D.h. Y ≡ ℚ.
19 / 47

PD Stefan Bosse - Automatische Schadensdiagnostik - Modul C Taxonomie des Maschinellen Lernens :: Lernverfahren

Belohnungs- und Agentenlernen (Rückkopplung)
Die Abbildungsfunktion f(X): XY wird schrittweise durch eine Evaluierung des inferrierten Y mit einem Belohnungswert r=[0,1] gelernt. Training und Inferenz findet gleichzeitig statt.


6 Ablauf Überwachtes Lernen mit Trainings- (Induktion) und Applikationsphasen (Deduktion)

20 / 47

PD Stefan Bosse - Automatische Schadensdiagnostik - Modul C Taxonomie des Maschinellen Lernens :: Taxonomie der Verfahren

Taxonomie der Verfahren

Abdul Rahid,www.wordstream.com

21 / 47

PD Stefan Bosse - Automatische Schadensdiagnostik - Modul C Taxonomie des Maschinellen Lernens :: Überwachte Lernverfahren - Unterklassen

Überwachte Lernverfahren - Unterklassen

4 Zwei wichtige Unterklassen von überwachten Lernen: Regression (Numerische Zielvariablen) und Klassifikation (Kategorische Zielvariablen)

22 / 47

PD Stefan Bosse - Automatische Schadensdiagnostik - Modul C Taxonomie des Maschinellen Lernens :: Dimensionalitätsreduktion

Dimensionalitätsreduktion

  • ML kann auch für die Reduktion von Datendimensionalität eingesetzt werden (Informationen sind reduzierte Daten)
    • Beispiele: Principle Component Analysis, Single Value Decomposition, ..

4 Abbildung von hochdimensionale Daten Xn auf niederdimensionale Xm mit m < n

23 / 47

PD Stefan Bosse - Automatische Schadensdiagnostik - Modul C Taxonomie des Maschinellen Lernens :: Unüberwachtes Lernen - Unterklassen

Unüberwachtes Lernen - Unterklassen

4 Zwei wichtige Unterklassen von nicht überwachten Lernen: Clustering (Gruppenbildung) und Ausreißerdetektion

24 / 47

PD Stefan Bosse - Automatische Schadensdiagnostik - Modul C Taxonomie des Maschinellen Lernens :: Training

Training

  • Das Training einer Modellfunktion M kann:
    • monolithisch (alle Dateninstanzen werden "parallel" verwendet), oder
    • stapelbasiert (batch, d.h. Gruppen von Instanzen werden "parallel" verarbeitet), oder
    • iterativ (Dateninstanzen werden "sequenziell" verwendet), und
    • inkrementell (iterativ mit neuen Daten).

Es gibt beim Training eine Fehlerfunktion (Cost or Loss Function). Der Fehler ergibt sich aus der Anwendung der Trainingsdaten auf das bisherigen Modell. Der Fehler dient zur Korrektur der dynamischen Parameter. Der Fehler kann dann aus einzelnen ("on-line") oder einer Gruppe ("batch") von Trainingsdaten berechnet werden.

25 / 47

PD Stefan Bosse - Automatische Schadensdiagnostik - Modul C Taxonomie des Maschinellen Lernens :: Training

  • Inkrementelle Trainings- und Anpassungsverfahren können alte Datensätze verwerfen → Stromdatenlernen!

  • Nicht jede Modellimplementierung ist geeignet:

    • Graphen (Bäume) können i.A. nur monolithisch trainiert = erzeugt werden!
    • Regression von math. Funktionen kann monolithisch, weniger stapelbasiert, und/oder iterativ erfolgen;
    • Neuronale Netze können monolithisch, stapelbasiert, iterativ, und vor allem inkrementell trainiert werden.
26 / 47

PD Stefan Bosse - Automatische Schadensdiagnostik - Modul C Taxonomie des Maschinellen Lernens :: Fehlerfunktion

Fehlerfunktion

  • Man unterscheidet Fehlerfunktionen zur Bewertung der Qualität der Anpassung und Fehlerfunktionen für die Anpassung:
    • Der Fehler kann auf einen Dateninstanz oder auf alle akkumulativ bezogen sein (oder nur einen Teil / batch))
  • Man unterscheidet verschiedene Ordnungen der Fehlerfunktionen (y: Inferierter und berechneter Wert, y0:Vergleichswert):

SE=E2=(yy0)2MSEn=ni=1(yiyi,0)2nAE=E1=|yy0|MAEn=ni=1yiyi,0n

27 / 47

PD Stefan Bosse - Automatische Schadensdiagnostik - Modul C Taxonomie des Maschinellen Lernens :: Modellimplementierungen

Modellimplementierungen

Es gibt im wesentlichen vier verschiedene Architekturen die Modelle M zu implementieren:

Funktionen
Die Struktur einer mathematischen Funktion wird durch ihre Terme gebildet (Berechnungsknoten), z.B. ax+bx2. Zu jedem Term gehört ein dynamischer Parameter der beim Training angepasst wird um den Fehler zu minimieren. Das Ergebnis ist die Zielvariable y.
28 / 47

PD Stefan Bosse - Automatische Schadensdiagnostik - Modul C Taxonomie des Maschinellen Lernens :: Modellimplementierungen

Gerichtete Graphen
Gerichtete Graphen (oder Entscheidungsbäume) bestehen aus Knoten und Kanten. Die Knoten repräsentieren eine Eingabevariable (Attribute) xX. Die Kanten beschreiben die Entwicklung eines Graphen beginnend vom Wurzelknoten hin zu den Blättern. Die Blätter enthalten die Werte der Zielvariable(n) y. Der dynamische Parametersatz ist der Graph (dessen Struktur).
Funktionale Graphen
Hybrid aus gerichteten Graph und Funktion → Künstliche Neuronale Netze. Die Knoten repräsentieren Berechnungsfunktionen, die Kanten verbinden Ausgänge von Funktionen mit Eingängen. Es gibt Eingangsknoten die mit den Eingabevariablen X verbunden sind, und Ausgangsknoten die mit den Ausgangsvariablen Y verbunden sind.
29 / 47

PD Stefan Bosse - Automatische Schadensdiagnostik - Modul C Taxonomie des Maschinellen Lernens :: Modellimplementierungen

Ungerichtete Graphen
Hier repräsentieren die Knoten Dateninstanzen X, und die Kanten verbinden die nächsten Nachbarn miteinander. Hier geht es um Gruppenbildung (k nächste Nachbarn/kNN Problem).
30 / 47

PD Stefan Bosse - Automatische Schadensdiagnostik - Modul C Taxonomie des Maschinellen Lernens :: Modellimplementierungen

Verschiedene Modellimplementierungen

31 / 47

PD Stefan Bosse - Automatische Schadensdiagnostik - Modul C Taxonomie des Maschinellen Lernens :: Hybride Modelle

Hybride Modelle

Multiinstanz Modelle

  • Ensemblelernen vereint multiple Modelle (gleicher Klasse oder unterschiedlich)

M(X):XY=Φ({M1(X),M2(X),..,Mn(X)})

  • Die einzelnen Modellinstanzen arbeiten mit gleichen oder verschiedenen Dateninstanzen

  • Es gibt eine Split- und eine Join Schicht (Kombinierer, Modellfusion)

32 / 47

PD Stefan Bosse - Automatische Schadensdiagnostik - Modul C Taxonomie des Maschinellen Lernens :: Hybride Modelle

Jay Budzik, www.thetalkingmachines.com

Verschiedene Architekturen für Multiinstanz Lernen und Inferenz

33 / 47

PD Stefan Bosse - Automatische Schadensdiagnostik - Modul C Taxonomie des Maschinellen Lernens :: Instanzklassifikation

Instanzklassifikation

SLSP
Einzelinstanz Lernen (auf allen Daten) und Einzelinstanz Prädiktion (Inferenz auf allen Daten)
SLMP
Einzelinstanz Lernen (auf allen Daten) und replizierte Multiinstanz Prädiktion (Inferenz auf Teildaten mit Modellfusion)
MLSP
Multiinstanz Lernen (auf Teildaten) mit Modellfusion und Einzelinstanz Prädiktion (Inferenz auf allen Daten)
MLMP
Multiinstanz Lernen und Multiinstanz Prädiktion (Modellfusion)
34 / 47

PD Stefan Bosse - Automatische Schadensdiagnostik - Modul C Taxonomie des Maschinellen Lernens :: Instanzklassifikation

MLSP: Mehrere Modellfunktion {Fi} werden auf den gleichen (oder Teilmengen) trainiert und Verwendung von randomisierten Algorithmen (u.A. auch Initialisierung von Parametern) wie Monte Carlo Simulation. Am Ende wird das beste Modell ausgewählt.

35 / 47

PD Stefan Bosse - Automatische Schadensdiagnostik - Modul C Taxonomie des Maschinellen Lernens :: Ablauf und Phasen von ML

Ablauf und Phasen von ML

  1. Statistische Analyse und Bewertung der Daten

  2. Merkmalsselektion

  3. Aufteilung der Daten in Trainings- und Testdaten (i.A. randomisiert) D=DtrainDtest

  4. Training einer Modellfunktion F mit bekannten (markierten bei ÜL) Trainingsdaten Dtrain unter Bewertung des Modellfehlers E(X)

  5. Test und Bewertung von F mit bekannten Daten Dtest

  6. Applikation (Inferenz) von F auf unbekannten Daten D

36 / 47

PD Stefan Bosse - Automatische Schadensdiagnostik - Modul C Taxonomie des Maschinellen Lernens :: Ablauf und Phasen von ML

Die Aufteilung der gesamten Dateninstanzen in Trainings- und Testdaten ist so zu wählen dass 1. Die Traininsmenge groß genug (im Sinne der Repräsentanz und Varianz) und 2. Die Testmenge linear unabhängig von der Trainingsmenge ist.

  • Ein Datensatz D wird randomisiert in die Teilmengen durch exklusive Stichprobennahme verteilt (bis D "leer" ist)

  • Beim Training der Hypothesenfunktion F wird ebenfalls ein Fehler aus den Terainingsdaten berechnet:

    • Akkumulativ oder als Batch (randomisierte Auswahl einer kleinen Teilmenge)
    • Nach jeder Parameteranpassung mit einem oder Batch Datensatz
  • Beim Test werden immer alle Testbeispiele bewertet

37 / 47

PD Stefan Bosse - Automatische Schadensdiagnostik - Modul C Taxonomie des Maschinellen Lernens :: Ablauf und Phasen von ML

Beispiel Dehnungstest

38 / 47

PD Stefan Bosse - Automatische Schadensdiagnostik - Modul C Taxonomie des Maschinellen Lernens :: Naturwissenschaftliche Modellinferenz

Naturwissenschaftliche Modellinferenz

  • Neben der kausalen Modellinferenz können auch prädiktive Modellinferenzverfahren - also ML - eingesetzt werden

  • Spannende Frage: Wie ist die Korrelation von kausal und prädiktiv gewonnenen Modellen?

  • Was bedeutet eine Abweichung?

Kernfrage ist die Erklärbarkeit von algorithmisch erzeugten Modellen mit ML Verfahren, auch in der Mess- und Prüftechnik!

39 / 47

PD Stefan Bosse - Automatische Schadensdiagnostik - Modul C Taxonomie des Maschinellen Lernens :: ML in den Fertigungs- und Materialwissenschaften

ML in den Fertigungs- und Materialwissenschaften

  • ML ist auch hier ein Werkzeug um analytisch und physikalisch nicht mathematisch modellierbare Zusammenhänge zu approximieren (quasi ein vorläufiger Modellersatz)

  • Auch hier kann es Probleme grundsätzlicher Art geben:

    • Fehlende Nachverfolgbarkeit (warum kommt ein Y bei einem X?)
    • Fehlende Erklärbarkeit (wie ist der Zusammenhang Y(X) zu verstehen?)
    • Fehlende Rückverfolgung (welches X aus gegebenen Y?)
  • Inverse ML Modellierung ist von großer Bedeutung (z.B. welche Prozessparameter müssen gewählt werden wenn bestimmte Materialparameter als Ergebnis einer Fertigung gegeben sind)

40 / 47

PD Stefan Bosse - Automatische Schadensdiagnostik - Modul C Taxonomie des Maschinellen Lernens :: Vorwärts- und Rückwärtsmodellierung

Vorwärts- und Rückwärtsmodellierung

Vorwärtsmodellierung

  • Typischerweise schließt man von Eingabedaten (Sensoren) auf Ausgabedaten (Systemvariablen, Aggregatvariablen)
    • Eingabedaten sind i.A. individuell (Einzelfall)
    • Ausgabedaten von Modellfunktionen repräsentieren häufig statistische Ensemblemittelwerte!
    • Viele ML Modelle sind daher Mittelwertbilder!

Eine Funktion F(X): XY bildet i.A. einen hochdimensionalen Eingaberaum n=|X| auf einen niederdimensionalen Ausgabe/Ergebnisraum m=|Y| mit mn ab

41 / 47

PD Stefan Bosse - Automatische Schadensdiagnostik - Modul C Taxonomie des Maschinellen Lernens :: Vorwärts- und Rückwärtsmodellierung

Rückwärtsmodellierung

  • Bei der Rückwärtsmodellierung möchte man von den System- und Aggregatvariablen auf die Sensordaten schließen: G(Y):YX

  • Die Modellfunktion G kann durch Invertierung des Vorwärtsmodells F gewonnen werden, d.h., G=F-1

Kann F noch durch ein vollständig bestimmtes mathematisches Problem beschrieben werden (d.h. Abbildung XY ist eindeutig), so ist die Inversion i.A. ein unterbestimmtes Problem (Mehrdeutigkeit aufgrund der Dimensionalitätserhöhung)

42 / 47

PD Stefan Bosse - Automatische Schadensdiagnostik - Modul C Taxonomie des Maschinellen Lernens :: Wissenschaft versa ML

Wissenschaft versa ML

  • Naturwissenschaftliche Theorie ist oft hypothesengetrieben, während maschinelles Lernverfahren datengetrieben sind!

  • Beim maschinellen Lernen beginnt man mit einem Datensatz, um eine Hypothese aufzustellen, während man in den Natur- und Ingenieurwissenschaften oft mit einer Hypothese beginnt.

  • Beide verwenden (oder eher ML, beide sollten zumindest) eine Auswertung außerhalb der Stichprobe, um Ihre Hypothesen zu testen.

  • Beim maschinellen Lernen liegt der Fokus im Allgemeinen auf der Vorhersage, ohne zu erklären, warum ein Phänomen Auftritt (Erklärbarkeit und Verfolgbarkeit).

43 / 47

PD Stefan Bosse - Automatische Schadensdiagnostik - Modul C Taxonomie des Maschinellen Lernens :: Wissenschaft versa ML

  • Beim maschinellen Lernen glaubt man nicht, dass das Modell richtig ist, d.h. es wird nicht angenommen, dass das Modell der datengenerierende Mechanismus ist.

  • Datengetriebene Modelle werden nur danach ausgewertet, wie gut Sie anhand von Daten Vorhersagen machen, aus denen Sie selber erstellt wurden, und nicht erklären wie sie zu Stande kommen.

  • Der Fokus des maschinellen Lernens lag traditionell nicht auf kausalen Effekten, obwohl Maschinelles lernen bei kausalen Inferenzproblemen nützlich sein kann.

44 / 47

PD Stefan Bosse - Automatische Schadensdiagnostik - Modul C Taxonomie des Maschinellen Lernens :: Zusammenfassung

Zusammenfassung

Maschinelles Lernen besteht aus:

  1. Modellimplementierungen:

    • Funktionen, Gerichtete Graphen, Funktionalen Graphen, Ungerichtete Graphen, also mit/für
    • Regression, Entscheidungsbäume, Neuronale Netze, Clustering (kNN)
  2. Aufgaben

    • Regression, Klassifikation, Gruppierung (Clustering), Prognostik
45 / 47

PD Stefan Bosse - Automatische Schadensdiagnostik - Modul C Taxonomie des Maschinellen Lernens :: Zusammenfassung

  1. Methoden und Verfahren

    • Überwachtes, nicht überwachtes, und rückgekoppeltes Belohnungslernen
    • Monolithisches, stapelbasiertes, iteratives, und inkrementelles Lernen
    • Einzel- versa Multiinstanzlernen
    • Enscheidungsbaumlernen (Konstruktion), Support Vector Machines (Regression), Backpropagation in Neuronalen Netze, usw.
  2. ML besteht aus mehreren Phasen:

    • Datenerhebung (Messung), Datenvorverarbeitung, Statistische Bewertung, Merkmalsselektion, Modellerstellung, Training, Test und Analyse (Kreuzvalidierung), Anwendung/Inferenz
46 / 47

PD Stefan Bosse - Automatische Schadensdiagnostik - Modul C Taxonomie des Maschinellen Lernens :: Zusammenfassung

  1. Daten werden unterteilt in:
    • Trainingsdaten , Testdaten, Anwendungsdaten
    • Trainings- und Testdaten bei ÜL mit (x,y) Beziehungen (Markierung/Labelling)
47 / 47