PD Stefan Bosse
Universität Bremen - FB Mathematik und Informatik / AG 0
Universität Siegen - FB Maschinenbau / LMW
PD Stefan Bosse - Automatische Schadensdiagnostik - Modul F ::
20 Zusammenstellung von sechs unterschiedlichen Netzwerkarchitekturen. Der Name der Architektur steht über der Grafik, darunter folgt der hauptsächliche Anwendungsbereich.
PD Stefan Bosse - Automatische Schadensdiagnostik - Modul F Zustandsbasierte Netze ::
Bisher wurden nur "vorwärtsgerichtete" ANN betrachtet (Feed forward/ FF-ANN)
Die Ausgänge von FF-ANN hängen nur von aktuellen Eingängen ab!
Rückgekoppelte ANN (Recurrent / RNN) besitzen Zustand und Gedächtnis!
Eignung für Daten- und Zeitserienprädiktion!
PD Stefan Bosse - Automatische Schadensdiagnostik - Modul F Zustandsbasierte Netze :: Wiederholung: FF-ANN
Ein vorwärtsgekoppeltes ANN (Feed forward) besteht aus Neuronen die jeweils durch Funktionen f(i):i → o repräsentiert werden können.
Die Funktionen f werden als azyklischer gerichteter Graph dargestellt (also das NN), d.h., kein Neuron hat ein Eingangssignal von nachfolgenden Neuronen (die das Ausgangssignal dieses Neurons enthalten)
D.h: Das aktuelle Ausgangssignal y eine FF-ANN hängt nur von den aktuellen Eingangssignalen x ab!
PD Stefan Bosse - Automatische Schadensdiagnostik - Modul F Zustandsbasierte Netze :: Wiederholung: FF-ANN
PD Stefan Bosse - Automatische Schadensdiagnostik - Modul F Zustandsbasierte Netze :: Recurrent ANN: Die Rückkopplung
Ausgänge von Ausgangs- oder inneren Neuron werden auf Eingänge von vorherigen Neuronen gekoppelt
Dadurch werden die Netzwerke zustandsbasiert, d.h., die aktuellen Ausgänge hängen neben den aktuellen Werten der Eingänge von der Historie der Werte von Ein- und Ausgängen ab!
Recurrent ANN (RNN) sind durch hohe "Instabilität" schwierig mit gradientenbasierten Verfahren zu trainieren!
Daher im Laufe der Zeit verbesserte Architekturen wie LSTM oder GRU Netzwerke
PD Stefan Bosse - Automatische Schadensdiagnostik - Modul F Zustandsbasierte Netze :: LSTM Netzwerke
PD Stefan Bosse - Automatische Schadensdiagnostik - Modul F Zustandsbasierte Netze :: LSTM Netzwerke
fδ({si}ni,n):sn−m,sn−m+1,..sn→sn+δ
Datenserie und Prädiktion s(n+δ)
PD Stefan Bosse - Automatische Schadensdiagnostik - Modul F Zustandsbasierte Netze :: LSTM Netzwerke
fδ({xi}ni,n):{xn−m,xn−m+1,..xn}→yn+δ
PD Stefan Bosse - Automatische Schadensdiagnostik - Modul F Zustandsbasierte Netze :: Netzwerkarchitekturen
(Oben) Die Datenserie kann sequentiell (in ein RNN/LSTM) oder auch (Unten) parallel in ein FNN eingegeben werden
PD Stefan Bosse - Automatische Schadensdiagnostik - Modul F Zustandsbasierte Netze :: LSTM Zelle
Eine LST Zelle besteht aus:
Ein wichtige Rolle bei der Speicherung vergangener Daten (Gedächtnis) ist das Vergessen gesteuert durch das "Forget Gate"
Beispiel für eine "gedämpfte" Gedächtnisfunktion: Ein Tiefpassfilter 1. Ordnung
f(x,n)=f(n−1)⋅α+β⋅x
PD Stefan Bosse - Automatische Schadensdiagnostik - Modul F Zustandsbasierte Netze :: LSTM Zelle
Aufbau einer LSTM Zelle mit zentraler Speicherzelle (Neuron) und den Gattern
PD Stefan Bosse - Automatische Schadensdiagnostik - Modul F Zustandsbasierte Netze :: LSTM Demo
fδ(xn):xn→xn+δ
Für jedes δ={1,2,..,m} muss eine eigene Prädiktorfunktion fδ erzeugt und trainiert werden
Konfiguration des Netzwerks: [1,l,1], wobei l={1,2,..} die Anzahl der LSTM Zellen in der inneren Schicht ist.
PD Stefan Bosse - Automatische Schadensdiagnostik - Modul F Zustandsbasierte Netze :: LSTM Demo
PD Stefan Bosse - Automatische Schadensdiagnostik - Modul F Zustandsbasierte Netze :: Zusammenfassung
Diskrete Daten- und Zeitserien x(i) kommen in der Mess- und Prüftechnik als Sensorsignal häufig vor, aber auch bei
Die Vorhersage von unbekannten zukünftigen Datenwerten aus historischen bekannten Datenwerten erfordert zustandsbasierte Prädiktorfunktionen sofern es
PD Stefan Bosse - Automatische Schadensdiagnostik - Modul F Zustandsbasierte Netze :: Zusammenfassung
Die Long Short Term Memory Zelle ist eine bekannte Architektur für eine RNN PF mit Zustand (Speicher)
Problem beim Trainieren von RNN ist Instabilität und der Zustandsspeicher (wirkt sich auf Fehlerberechnung ungünstig aus)
PD Stefan Bosse - Automatische Schadensdiagnostik - Modul F Faltungsnetzwerke (CNN) :: Zusammenfassung
Faltungsnetzwerke vereinigen KNN mit mathematischen Faltungsoperationen die typischerweise auf Bilddaten angewendet werden
Bisher waren die Eingangsvariablen von Prädiktornmodellen unmittelbar mit Merkmalen verknüpft (Ausnahme: Datenserien!)
Bei der Bilderkennung möchte man häufig Objekte (also geometrische Strukturen) in Bildern finden. Diese können aber an beliebigen Stellen im Bild vorhanden sein
Die Merkmale sind nicht mehr einzelnen Variablen zuzuordnen.
Daher werden kleine Faltungsoperationen auf das gesamte Bild angewendet, die erst die Merkmale extrahieren.
PD Stefan Bosse - Automatische Schadensdiagnostik - Modul F Faltungsnetzwerke (CNN) :: Beispiele
20 Beispiel aus dem MNIST Datensatz von handgeschriebene Ziffern und Buchstaben. Beispiele bei denen die Ziffernbilder nur schwer zu klassifizieren sind.
PD Stefan Bosse - Automatische Schadensdiagnostik - Modul F Faltungsnetzwerke (CNN) :: Daten
20 Vektor, Matrix und Tensor mit beliebigen reellen Zahlen. Die Eingaben für tiefe neuronale Netze werden meist in dieser Form kodiert. Man kann auch die Dimension zu der Bezeichnung hinzufügen. Im Bild haben wir einen 5-Vektor, eine 3 × 5-Matrix und einen 3 × 3 × 5-Tensor.
PD Stefan Bosse - Automatische Schadensdiagnostik - Modul F Faltungsnetzwerke (CNN) :: Klassifikationsproblem
20 Die Prognose berechnet mit dem Modelloperator für ein Trainingsbeispiel (x,y)(i) aus der Eingabe x einen Wahrscheinlichkeitsvektor p mit den Wahrscheinlichkeiten der verschiedenen Klassen (Ziffern). Ziel ist es, für die beobachtete Klasse y (z.B. „zwei“) eine möglichst hohe Wahrscheinlichkeit zur prognostizieren. Die Prognose des Modells hängt von einem Parametervektor w ab.
PD Stefan Bosse - Automatische Schadensdiagnostik - Modul F Faltungsnetzwerke (CNN) :: Faltungsoperation
20 Erster Berechnungsschritt (links) und zweiter Berechnungsschritt (rechts) in der Faltungsschicht für jeweils einen verschobenen kleinen Bereich der Eingabematrix. Dabei wird der Kernel sukzessive über die gesamte Eingabematrix „geschoben“ und die Ergebnismatrix gefüllt
PD Stefan Bosse - Automatische Schadensdiagnostik - Modul F Faltungsnetzwerke (CNN) :: Convolutional Neural Networks (CNN)
20 Eine Faltungsschicht enthält k Kernel und k Ergebnismatrizen, welche jeweils zu Tensoren zusammengefasst werden
PD Stefan Bosse - Automatische Schadensdiagnostik - Modul F Faltungsnetzwerke (CNN) :: Convolutional Neural Networks (CNN)
https://towardsdatascience.com Allgemeiner Aufbau eines CNN mit wechselnden Schichten aus Faltungen, Zusammenführung, und schließlich binärer Klassifikation
PD Stefan Bosse - Automatische Schadensdiagnostik - Modul F Faltungsnetzwerke (CNN) :: Convolutional Neural Networks (CNN)
https://towardsdatascience.com Je nach Anzahl der Strukturmerkmale kann es eine große Anzahl folgender Faltungs- und Zusammenführungsschichten geben
PD Stefan Bosse - Automatische Schadensdiagnostik - Modul F Faltungsnetzwerke (CNN) :: Zusammenfassung
CNN sind geeignet um ortsunabhängig verschiedene Strukturmerkmale in den Daten zu klassifizieren
Ein CNN beruht auf Matrixalgebra mit Faltungsoperationen
Zum Nachlesen: https://towardsdatascience.com/covolutional-neural-network-cb0883dd6529?gi=521747216671; G. Paaß, Künstliche Intelligenz, Was steckt hinter der Technologie der Zukunft?, Springer
Bekanntes Softwareframework für den Browser: convnet.js https://cs.stanford.edu/people/karpathy/convnetjs
PD Stefan Bosse - Automatische Schadensdiagnostik - Modul F Inverse Modellierung :: Zusammenfassung
Meistens kann ein Modell M(X):X → Y empirisch bestimmt werden
Häufig ist das inverse Modell von Bedeutung: M-1Y: Y → X!
ML bietet Möglichkeit "Prädiktives Modellieren"
Aber wie kann man M-1 aus M ableiten?
PD Stefan Bosse - Automatische Schadensdiagnostik - Modul F Inverse Modellierung :: Inverse Funktionen: Analytische und numerische Ableitung
Gegeben sei eine Funktion f(x): ℝ → ℝ: x → y, z.B.
Die Bestimmung der inversen Funktion kann häutig durch einfache algebraische Umformung generell und exakt berechnet werden:
PD Stefan Bosse - Automatische Schadensdiagnostik - Modul F Inverse Modellierung :: Inverse Funktionen: Analytische und numerische Ableitung
arcsin(z)=∞∑n=0(2n−1)!!z2n+1(2n)!!(2n+1)
Inverse Probleme sind nicht trivial (zu lösen)!
Wie sieht es bei multivariaten Funktionen aus?
PD Stefan Bosse - Automatische Schadensdiagnostik - Modul F Inverse Modellierung :: Multivariate Funktionen
PD Stefan Bosse - Automatische Schadensdiagnostik - Modul F Inverse Modellierung :: Multivariate Funktionen
Intervallarithmetik → D.h. eine Variable x wird nur in einem Intervall [a,b] betrachtet (und f)
Diskretisierung des Intervalls; [a,b] → { a, a+δ , a+2δ ,.., b}
PD Stefan Bosse - Automatische Schadensdiagnostik - Modul F Inverse Modellierung :: Multivariate Funktionen
Problemf(x1,x2) = y = x1+x2x1 = { 1,2,3 }x2 = { 1,2,3 }y = { 2,3,..,6 }Randbedingungen x1 ≥ 1 ∧ x1 ≤ 3 x2 ≥ 1 ∧ x2 ≤ 3 x1 = 1 ∨ x1 = 2 ∨ x1 = 3 x2 = 1 ∨ x2 = 2 ∨ x2 = 3 y = x1+x2
PD Stefan Bosse - Automatische Schadensdiagnostik - Modul F Inverse Modellierung :: Multivariate Funktionen
PD Stefan Bosse - Automatische Schadensdiagnostik - Modul F Inverse Modellierung :: Das Single Layer Perceptron
Ein SLP (künstliches Neuron) besteht aus zwei verbundenen Funktionsblöcken (Summierer und Aktiverungsfunktion)
PD Stefan Bosse - Automatische Schadensdiagnostik - Modul F Inverse Modellierung :: Inverses Problem ML: Naiver Lösungsansatz
PD Stefan Bosse - Automatische Schadensdiagnostik - Modul F Inverse Modellierung :: Inverses Problem ML: Entscheidungsbaum
PD Stefan Bosse - Automatische Schadensdiagnostik - Modul F Inverse Modellierung :: Inverses Problem ML: Entscheidungsbaum
Invertierung eines relationalen und annotierten Entscheidungbaumes (s: Mittelwert der Partition der Variable)
PD Stefan Bosse - Automatische Schadensdiagnostik - Modul F Inverse Modellierung :: Invertierbare ANN
https://hci.iwr.uni-heidelberg.de/vislearn/inverse-problems-invertible-neural-networks/
Ausgangspunkt: Ein- und Ausgabedaten besitzen die gleiche Dimension!
PD Stefan Bosse - Automatische Schadensdiagnostik - Modul F Inverse Modellierung :: Invertierbare ANN
Die Eingabedaten werden augespalten in [u1,u2] und durch die gelernten Funktionen si und ti transformiert und in Wechselanordnung gekoppelt. Die Ausgabe ist die Verkettung der resultierenden Teile [v1,v2]. ⊙ - Elementweise Multiplikation
PD Stefan Bosse - Automatische Schadensdiagnostik - Modul F Inverse Modellierung :: Invertierbare ANN
Invertierung des Netzwerks. Mit einer Umschaltung können [u1,u2] aus [v1,v2] wiederhergestellt werden, um die Umkehrung der gesamten affinen Kopplungsschicht zu berechnen. ∅ - Elementweise Division
PD Stefan Bosse - Automatische Schadensdiagnostik - Modul F Inverse Modellierung :: Invertierbare ANN
Entscheidend ist, dass die Transformationen si und ti selbst nicht invertierbar sein müssen und durch beliebige neuronale Netze dargestellt werden können, die durch standardmäßige Backpropagation entlang des Berechnungsgraphen trainiert werden.
D.h. die Eingabedimension ist wie üblich viel größer als die Ausgabedimension!
PD Stefan Bosse - Automatische Schadensdiagnostik - Modul F Inverse Modellierung :: Invertierbare ANN
Dimensionsreduzierende Abbildung x → y
Mehrdeutigkeit zwischen y und x
Eine zusätzliche latente Variable z wird eingeführt, die die Information erfasst, die sonst im Forward-Prozess verloren gehen würde. Folglich, x ↔ [y,z] wird eine bijektive Zuordnung.
PD Stefan Bosse - Automatische Schadensdiagnostik - Modul F Inverse Modellierung :: Invertierbare ANN
Durch zusätzliche latente Variable z wird die inverse Abbildung "vervollständigt"
z muss unabhängig von y sein und muss einer einfachen Stichprobenverteilung N(0,1) folgen.
PD Stefan Bosse - Automatische Schadensdiagnostik - Modul F Inverse Modellierung :: Invertierbare ANN
Die Verteilung p(x|y) kann angenähert werden, indem einfach wiederholt z abgetastet wird und die rückgerichtete Berechnung des Netzwerks durchgeführt wird, d.h. [y,z] → x.
PD Stefan Bosse - Automatische Schadensdiagnostik - Modul F Inverse Modellierung :: Zusammenfassung
Das Training von Vorwärtsmodellen ist ein Standardverfahren
Häufig - gerade in der Soziologie - ist man an Rückwärtsmodellen interessiert, d.h. die Invertierung der aus empirischen Daten algorithmisch gelernten Modelle
Die Inversion ist schwierig durch Mehrdeutigkeit der Abbildung
Variablenintervalle und Wertdiskretisierung können das Inversionsproblem auf Randbedingsungslösen reduzieren und lösbar machen
Inversion von ANN benötigt eine übergeordnete bidirektionale und umschaltbare Netzwerkstruktur