Maschinelles Lernen und Datenanalyse

In der Mess- und Prüftechnik

PD Stefan Bosse

Universität Bremen - FB Mathematik und Informatik

1 / 44

Stefan Bosse - Maschinelles Lernen - -

20 Zusammenstellung von sechs unterschiedlichen Netzwerkarchitekturen. Der Name der Architektur steht über der Grafik, darunter folgt der hauptsächliche Anwendungsbereich.

2 / 44

Stefan Bosse - Maschinelles Lernen - Zustandsbasierte Netze -

Zustandsbasierte Netze

Bisher wurden nur "vorwärtsgerichtete" ANN betrachtet (Feed forward/ FF-ANN)

Die Ausgänge von FF-ANN hängen nur von aktuellen Eingängen ab!

Rückgekoppelte ANN (Recurrent / RNN) besitzen Zustand und Gedächtnis!

Eignung für Daten- und Zeitserienprädiktion!

3 / 44

Stefan Bosse - Maschinelles Lernen - Zustandsbasierte Netze - Wiederholung: FF-ANN

Wiederholung: FF-ANN

  • Ein vorwärtsgekoppeltes ANN (Feed forward) besteht aus Neuronen die jeweils durch Funktionen f(i):io repräsentiert werden können.

  • Die Funktionen f werden als azyklischer gerichteter Graph dargestellt (also das NN), d.h., kein Neuron hat ein Eingangssignal von nachfolgenden Neuronen (die das Ausgangssignal dieses Neurons enthalten)

D.h: Das aktuelle Ausgangssignal y eine FF-ANN hängt nur von den aktuellen Eingangssignalen x ab!

4 / 44

Stefan Bosse - Maschinelles Lernen - Zustandsbasierte Netze - Wiederholung: FF-ANN

5 / 44

Stefan Bosse - Maschinelles Lernen - Zustandsbasierte Netze - Recurrent ANN: Die Rückkopplung

Recurrent ANN: Die Rückkopplung

  • Ausgänge von Ausgangs- oder inneren Neuron werden auf Eingänge von vorherigen Neuronen gekoppelt

  • Dadurch werden die Netzwerke zustandsbasiert, d.h., die aktuellen Ausgänge hängen neben den aktuellen Werten der Eingänge von der Historie der Werte von Ein- und Ausgängen ab!

  • Recurrent ANN (RNN) sind durch hohe "Instabilität" schwierig mit gradientenbasierten Verfahren zu trainieren!

  • Daher im Laufe der Zeit verbesserte Architekturen wie LSTM oder GRU Netzwerke

6 / 44

Stefan Bosse - Maschinelles Lernen - Zustandsbasierte Netze - LSTM Netzwerke

LSTM Netzwerke

  • Long-short-term Memory (LSTM) Netzwerke bilden eine bekannte Architektur die:
    • Für die Daten- und Zeitserienprädiktion verwendbar sind
    • Mit gradientenbasierten Trainingsverfahren einigermaßen stabil (konvergent) trainiert werden können

Daten- und Zeitserien

  • Es sei {xn}t eine Serie von Eingabedaten (z.B. zeitaufgelöstes Sensorsignal einer Ultraschallmessung), d.h. {xn}={x1,x2,..,xt}
  • Die einzelnen Werte (skalar oder vektoriell) sind aufeinander folgend → Ordnungsrelation
7 / 44

Stefan Bosse - Maschinelles Lernen - Zustandsbasierte Netze - LSTM Netzwerke

fδ({si}ni,n):snm,snm+1,..snsn+δ

Datenserie und Prädiktion s(n+δ)

8 / 44

Stefan Bosse - Maschinelles Lernen - Zustandsbasierte Netze - LSTM Netzwerke

  • Neben der Prädiktion von "zukünftigen" Entwicklungen einer Variable xi kann auch eine zukünftige Prognostik einer anderen Zielvariable yi erfolgen:

fδ({xi}ni,n):{xnm,xnm+1,..xn}yn+δ

  • Etwaige Zielvariablen könnten aus dem Signal abgeleitete Eigenschaften (Merkmale) sein:
    • Schadensinformation
    • Änderung einer zweiten Sensorvariable
    • Zustandsvariable
    • Veränderung von Betriebsbedingungen
    • Prozessparameter
9 / 44

Stefan Bosse - Maschinelles Lernen - Zustandsbasierte Netze - Netzwerkarchitekturen

Netzwerkarchitekturen

(Oben) Die Datenserie kann sequentiell (in ein RNN/LSTM) oder auch (Unten) parallel in ein FNN eingegeben werden

10 / 44

Stefan Bosse - Maschinelles Lernen - Zustandsbasierte Netze - LSTM Zelle

LSTM Zelle

  • Eine LST Zelle besteht aus:

    • Einer "Speicherzelle"
    • Mehreren Gattern die aktiv Verbindungen (Kanten) zwischen Neuronen steuern, d.h., effektiv das Kantengewicht in Abhängigkeit von Ausgangswerten von Neuronen verändern /Ventile/
  • Ein wichtige Rolle bei der Speicherung vergangener Daten (Gedächtnis) ist das Vergessen gesteuert durch das "Forget Gate"

Beispiel für eine "gedämpfte" Gedächtnisfunktion: Ein Tiefpassfilter 1. Ordnung

f(x,n)=f(n1)α+βx

11 / 44

Stefan Bosse - Maschinelles Lernen - Zustandsbasierte Netze - LSTM Zelle

  • Der Parameter β=(0,1) bestimmt den Einfluss neuer Werte x und der Parameter α=(0,1) bestimmt den Einfluss alter Werte (Vergessen); i.A. α=1-β

Aufbau einer LSTM Zelle mit zentraler Speicherzelle (Neuron) und den Gattern

12 / 44

Stefan Bosse - Maschinelles Lernen - Zustandsbasierte Netze - LSTM Demo

LSTM Demo

  • Lernen einer Prädiktorfunktion für Datenserien nach der Sinusfunktion mit LSTM Netzwerk:

fδ(xn):xnxn+δ

  • Für jedes δ={1,2,..,m} muss eine eigene Prädiktorfunktion fδ erzeugt und trainiert werden

  • Konfiguration des Netzwerks: [1,l,1], wobei l={1,2,..} die Anzahl der LSTM Zellen in der inneren Schicht ist.

13 / 44

Stefan Bosse - Maschinelles Lernen - Zustandsbasierte Netze - LSTM Demo

14 / 44

Stefan Bosse - Maschinelles Lernen - Zustandsbasierte Netze - Zusammenfassung

Zusammenfassung

  • Diskrete Daten- und Zeitserien x(i) kommen in der Mess- und Prüftechnik als Sensorsignal häufig vor, aber auch bei

    • Wirtschaftsdaten (Aktienkurse), Wetterdaten, Klimadaten, usw.
  • Die Vorhersage von unbekannten zukünftigen Datenwerten aus historischen bekannten Datenwerten erfordert zustandsbasierte Prädiktorfunktionen sofern es

    • keinen ausgewiesenen Start- und Endpunkt gibt (also sequentielle Aktivierung von M).
    • Gibt es ausgewiesene Start- und Endpunkte der Serie kann auch eine zustandslose Prädiktorfunktion verwendet werden (parallele Aktivierung einer Auswahl von Datenpunkten)
15 / 44

Stefan Bosse - Maschinelles Lernen - Zustandsbasierte Netze - Zusammenfassung

  • Die Long Short Term Memory Zelle ist eine bekannte Architektur für eine RNN PF mit Zustand (Speicher)

  • Problem beim Trainieren von RNN ist Instabilität und der Zustandsspeicher (wirkt sich auf Fehlerberechnung ungünstig aus)

16 / 44

Stefan Bosse - Maschinelles Lernen - Faltungsnetzwerke (CNN) - Zusammenfassung

Faltungsnetzwerke (CNN)

Faltungsnetzwerke vereinigen KNN mit mathematischen Faltungsoperationen die typischerweise auf Bilddaten angewendet werden

Bisher waren die Eingangsvariablen von Prädiktornmodellen unmittelbar mit Merkmalen verknüpft (Ausnahme: Datenserien!)

Bei der Bilderkennung möchte man häufig Objekte (also geometrische Strukturen) in Bildern finden. Diese können aber an beliebigen Stellen im Bild vorhanden sein

Die Merkmale sind nicht mehr einzelnen Variablen zuzuordnen.

Daher werden kleine Faltungsoperationen auf das gesamte Bild angewendet, die erst die Merkmale extrahieren.

17 / 44

Stefan Bosse - Maschinelles Lernen - Faltungsnetzwerke (CNN) - Beispiele

Beispiele

  • Handschriftenerkennung
  • Schadensdiagnostik (Bildaufnahmen, Röntgentomographie, usw.)
  • Zeitaufgelöste Frequenzspektren (Datenexpansion von Zeitsignalen!)
  • Bestimmung von Region of Interest Bereichen

20 Beispiel aus dem MNIST Datensatz von handgeschriebene Ziffern und Buchstaben. Beispiele bei denen die Ziffernbilder nur schwer zu klassifizieren sind.

18 / 44

Stefan Bosse - Maschinelles Lernen - Faltungsnetzwerke (CNN) - Daten

Daten

  • Man unterscheidet:
    • Vektoren (1D)
    • Matrizen (2D)
    • Tensoren (3d), wobei Tensoren mathematisch mehr sind als Vektoren von Matrizen!

20 Vektor, Matrix und Tensor mit beliebigen reellen Zahlen. Die Eingaben für tiefe neuronale Netze werden meist in dieser Form kodiert. Man kann auch die Dimension zu der Bezeichnung hinzufügen. Im Bild haben wir einen 5-Vektor, eine 3 × 5-Matrix und einen 3 × 3 × 5-Tensor.

19 / 44

Stefan Bosse - Maschinelles Lernen - Faltungsnetzwerke (CNN) - Klassifikationsproblem

Klassifikationsproblem

  • Auch bei der Objekterkennung in Bildern handelt es scih häufig um diskrete Klassifikationsprobleme.
  • Sinnvoll ist aber neben eine binären Ausgabe (Klasse ja/nein) die Ausgabe eine kontinuierlichen Wertes im Bereich [0,1], als eine Art Bewertungsskala (Wahrscheinlichkeitsmaß)

20 Die Prognose berechnet mit dem Modelloperator für ein Trainingsbeispiel (x,y)(i) aus der Eingabe x einen Wahrscheinlichkeitsvektor p mit den Wahrscheinlichkeiten der verschiedenen Klassen (Ziffern). Ziel ist es, für die beobachtete Klasse y (z.B. „zwei“) eine möglichst hohe Wahrscheinlichkeit zur prognostizieren. Die Prognose des Modells hängt von einem Parametervektor w ab.

20 / 44

Stefan Bosse - Maschinelles Lernen - Faltungsnetzwerke (CNN) - Faltungsoperation

Faltungsoperation

20 Erster Berechnungsschritt (links) und zweiter Berechnungsschritt (rechts) in der Faltungsschicht für jeweils einen verschobenen kleinen Bereich der Eingabematrix. Dabei wird der Kernel sukzessive über die gesamte Eingabematrix „geschoben“ und die Ergebnismatrix gefüllt

21 / 44

Stefan Bosse - Maschinelles Lernen - Faltungsnetzwerke (CNN) - Convolutional Neural Networks (CNN)

Convolutional Neural Networks (CNN)

  • Ein CNN ist aus verschiedenen Schichten (Ebenen) zusammengesetzt:
    • Faltungsebenen
    • Zusammeführungs (pooling) Ebenen
    • Ausgabe durch Klassifikationsebenen (softmax)

20 Eine Faltungsschicht enthält k Kernel und k Ergebnismatrizen, welche jeweils zu Tensoren zusammengefasst werden

22 / 44

Stefan Bosse - Maschinelles Lernen - Faltungsnetzwerke (CNN) - Convolutional Neural Networks (CNN)

https://towardsdatascience.com Allgemeiner Aufbau eines CNN mit wechselnden Schichten aus Faltungen, Zusammenführung, und schließlich binärer Klassifikation

23 / 44

Stefan Bosse - Maschinelles Lernen - Faltungsnetzwerke (CNN) - Convolutional Neural Networks (CNN)

https://towardsdatascience.com Je nach Anzahl der Strukturmerkmale kann es eine große Anzahl folgender Faltungs- und Zusammenführungsschichten geben

24 / 44

Stefan Bosse - Maschinelles Lernen - Faltungsnetzwerke (CNN) - Zusammenfassung

Zusammenfassung

CNN sind geeignet um ortsunabhängig verschiedene Strukturmerkmale in den Daten zu klassifizieren

Ein CNN beruht auf Matrixalgebra mit Faltungsoperationen

Zum Nachlesen: https://towardsdatascience.com/covolutional-neural-network-cb0883dd6529?gi=521747216671; G. Paaß, Künstliche Intelligenz, Was steckt hinter der Technologie der Zukunft?, Springer

Bekanntes Softwareframework für den Browser: convnet.js https://cs.stanford.edu/people/karpathy/convnetjs

25 / 44

Stefan Bosse - Maschinelles Lernen - Inverse Modellierung - Zusammenfassung

Inverse Modellierung

Meistens kann ein Modell M(X):XY empirisch bestimmt werden

Häufig ist das inverse Modell von Bedeutung: M-1Y: YX!

ML bietet Möglichkeit "Prädiktives Modellieren"

Aber wie kann man M-1 aus M ableiten?

26 / 44

Stefan Bosse - Maschinelles Lernen - Inverse Modellierung - Inverse Funktionen: Analytische und numerische Ableitung

Inverse Funktionen: Analytische und numerische Ableitung

  • Gegeben sei eine Funktion f(x): ℝ → ℝ: xy, z.B.

    • f(x)1: y = x+a
    • f(x)2: y = x2+a
    • f(x)3: y = sin(x)
  • Die Bestimmung der inversen Funktion kann häutig durch einfache algebraische Umformung generell und exakt berechnet werden:

    • f-1(y)1: x = y-a
    • f-1(y)2: x = { √(y-a),-√(y-a) }
    • f-1(y)3: x = arcsin(y)
27 / 44

Stefan Bosse - Maschinelles Lernen - Inverse Modellierung - Inverse Funktionen: Analytische und numerische Ableitung

  • Schon bei der zweiten Funktion gibt es mehr als eine Lösung, und die inverse Sinusfunktion kann nicht exakt analytisch berechnet werden sondern benötigt eine Approximation durch eine geometrische Reihe:

arcsin(z)=n=0(2n1)!!z2n+1(2n)!!(2n+1)

Inverse Probleme sind nicht trivial (zu lösen)!

Wie sieht es bei multivariaten Funktionen aus?

28 / 44

Stefan Bosse - Maschinelles Lernen - Inverse Modellierung - Multivariate Funktionen

Multivariate Funktionen

  • Eine Funktion f: ℝn → ℝ stellte ein Informationskompression dar;
    • Aber i.A. als irreversible Reduktion (Informationsverlust)!
  • Die Inversion einer Funktion f: ℝn → ℝ ergibt eine große Menge an Lösungen da:
    • f-1(y) : ℝ → ℝn (Informationsexpansion bzw. Dekompression)
    • Die Lösungsmenge kann unendlich groß sein!
  • Beispiel: f(x1,x2): y=x1+x2
    • (Unendlich viele) Lösungen für y=0: x={ (0,0),(-1,1),(-2,2),(-3,3),... }
29 / 44

Stefan Bosse - Maschinelles Lernen - Inverse Modellierung - Multivariate Funktionen

Einschränkung des Eingabe- und Lösungsraums

  1. Intervallarithmetik → D.h. eine Variable x wird nur in einem Intervall [a,b] betrachtet (und f)

  2. Diskretisierung des Intervalls; [a,b] → { a, a+δ , a+2δ ,.., b}

Randbedingungslösen

  • Wenn für alle Eingabevariablen und ebenso für die Zielvariable diskrete Werte in einem endlichen Bereich liegen könnten man das Inversionsproblem durch einen Randbedingungslöser (Constraint Solving Problem) lösen
    • Aber auch dieser Ansatz liefert entweder viele oder nur eine Auswahl an Lösungen
30 / 44

Stefan Bosse - Maschinelles Lernen - Inverse Modellierung - Multivariate Funktionen

  • Beispiel eines Erfüllbarkeitsproblems über relationale Ausdrücke:
Problem
f(x1,x2) = y = x1+x2
x1 = { 1,2,3 }
x2 = { 1,2,3 }
y = { 2,3,..,6 }
Randbedingungen
x1 ≥ 1 ∧ x1 ≤ 3
x2 ≥ 1 ∧ x2 ≤ 3
x1 = 1 ∨ x1 = 2 ∨ x1 = 3
x2 = 1 ∨ x2 = 2 ∨ x2 = 3
y = x1+x2
31 / 44

Stefan Bosse - Maschinelles Lernen - Inverse Modellierung - Multivariate Funktionen

32 / 44

Stefan Bosse - Maschinelles Lernen - Inverse Modellierung - Das Single Layer Perceptron

Das Single Layer Perceptron

Ein SLP (künstliches Neuron) besteht aus zwei verbundenen Funktionsblöcken (Summierer und Aktiverungsfunktion)

33 / 44

Stefan Bosse - Maschinelles Lernen - Inverse Modellierung - Inverses Problem ML: Naiver Lösungsansatz

Inverses Problem ML: Naiver Lösungsansatz

Datentabelle

  • Problem: Die Inversion der Datentabelle liefert einzelne Dateninstanzen
  • Ziel: Das Modell M soll repräsentativ und generalisierbar sein
  • Daher: Auch M-1 sollte möglich nur repräsentative Eingabevektoren liefern
    • Mittelwertbildung der Dateninstanzen und deren Variablen wenig hilfreich!
    • Zwei Instanzen: x=Sonnig, x=Regen ⇒ x=(Sonnig+Regen)/2=wolkig???
    • Majoritäten könnten repräsentative Variablenwerte ergeben!?
34 / 44

Stefan Bosse - Maschinelles Lernen - Inverse Modellierung - Inverses Problem ML: Entscheidungsbaum

Inverses Problem ML: Entscheidungsbaum

  • Ein empirisch gelernter Entscheidungsbaum kann ein generalisiertes Modell sein M(x): xy
  • Die Invertierung geschieht durch Rückwärtsiteration startend bei allen Endknoten (Blättern) mit yi=y
  • Es wird i.A. mehr als eine Lösung geben (Repräsentanz?)
  • Die Frage ist die Ableitung des resultierenden Variable x aus den Knoten
    • Bei kategorischen Variablen triviales und eindeutiges Problem
    • Bei numerischen Variablen und einem relationen Baum mit N(x)={ x < ε, x ≥ ε } ist gerade der Teilungswert ε nicht repräsentativ (Rand!!)
35 / 44

Stefan Bosse - Maschinelles Lernen - Inverse Modellierung - Inverses Problem ML: Entscheidungsbaum

Invertierung eines relationalen und annotierten Entscheidungbaumes (s: Mittelwert der Partition der Variable)

36 / 44

Stefan Bosse - Maschinelles Lernen - Inverse Modellierung - Invertierbare ANN

Invertierbare ANN

https://hci.iwr.uni-heidelberg.de/vislearn/inverse-problems-invertible-neural-networks/

Ausgangspunkt: Ein- und Ausgabedaten besitzen die gleiche Dimension!

37 / 44

Stefan Bosse - Maschinelles Lernen - Inverse Modellierung - Invertierbare ANN

Invertierbare Netzwerkstruktur

  • Es wird ein übergeordnetes reversibles Berechnungsnetzwerk eingeführt (Affine Kopplungsschicht)

Die Eingabedaten werden augespalten in [u1,u2] und durch die gelernten Funktionen si und ti transformiert und in Wechselanordnung gekoppelt. Die Ausgabe ist die Verkettung der resultierenden Teile [v1,v2]. ⊙ - Elementweise Multiplikation

38 / 44

Stefan Bosse - Maschinelles Lernen - Inverse Modellierung - Invertierbare ANN

Invertierung

Invertierung des Netzwerks. Mit einer Umschaltung können [u1,u2] aus [v1,v2] wiederhergestellt werden, um die Umkehrung der gesamten affinen Kopplungsschicht zu berechnen. ∅ - Elementweise Division

39 / 44

Stefan Bosse - Maschinelles Lernen - Inverse Modellierung - Invertierbare ANN

Entscheidend ist, dass die Transformationen si und ti selbst nicht invertierbar sein müssen und durch beliebige neuronale Netze dargestellt werden können, die durch standardmäßige Backpropagation entlang des Berechnungsgraphen trainiert werden.

Mehrdeutige Abbildungen

D.h. die Eingabedimension ist wie üblich viel größer als die Ausgabedimension!

  • Die Inversion erzeugt Mehrdeutigkeit bei der Abbildung yx.
40 / 44

Stefan Bosse - Maschinelles Lernen - Inverse Modellierung - Invertierbare ANN

Dimensionsreduzierende Abbildung xy

Mehrdeutigkeit zwischen y und x

Transformation in Bijektive Abbildungen

Eine zusätzliche latente Variable z wird eingeführt, die die Information erfasst, die sonst im Forward-Prozess verloren gehen würde. Folglich, x ↔ [y,z] wird eine bijektive Zuordnung.

41 / 44

Stefan Bosse - Maschinelles Lernen - Inverse Modellierung - Invertierbare ANN

Durch zusätzliche latente Variable z wird die inverse Abbildung "vervollständigt"

z muss unabhängig von y sein und muss einer einfachen Stichprobenverteilung N(0,1) folgen.

42 / 44

Stefan Bosse - Maschinelles Lernen - Inverse Modellierung - Invertierbare ANN

  • Beide Bedingungen können mit einem maximalen mittleren Diskrepanzverlust (MMD) erreicht werden, die mit zwei Verteilungen übereinstimmt durch Vergleich von Stichproben.

Die Verteilung p(x|y) kann angenähert werden, indem einfach wiederholt z abgetastet wird und die rückgerichtete Berechnung des Netzwerks durchgeführt wird, d.h. [y,z] → x.

  • Aus p(x|y) wird in eine deterministische Funktion x=f(y,z) mit der "verrauschten" Variable z.
43 / 44

Stefan Bosse - Maschinelles Lernen - Inverse Modellierung - Zusammenfassung

Zusammenfassung

  • Das Training von Vorwärtsmodellen ist ein Standardverfahren

  • Häufig - gerade in der Soziologie - ist man an Rückwärtsmodellen interessiert, d.h. die Invertierung der aus empirischen Daten algorithmisch gelernten Modelle

  • Die Inversion ist schwierig durch Mehrdeutigkeit der Abbildung

  • Variablenintervalle und Wertdiskretisierung können das Inversionsproblem auf Randbedingsungslösen reduzieren und lösbar machen

  • Inversion von ANN benötigt eine übergeordnete bidirektionale und umschaltbare Netzwerkstruktur

44 / 44