Maschinelles Lernen und Datenanalyse

In der Mess- und Prüftechnik

PD Stefan Bosse

Universität Bremen - FB Mathematik und Informatik

1 / 37

Stefan Bosse - Maschinelles Lernen - Klassifikation und Regression mit Künstlichen Neuronale Netze -

Klassifikation und Regression mit Künstlichen Neuronale Netze

Zielvariablen: Numerische Variablen

Eigenschaftsvariablen: Numerische Variablen

Modell: Gerichteter Graph (zyklisch oder azyklisch)

Training und Algorithmen: Backpropagation

Klasse: Überwachtes Lernen

2 / 37

Stefan Bosse - Maschinelles Lernen - Klassifikation und Regression mit Künstlichen Neuronale Netze - Künstliche Neuronale Netze

Künstliche Neuronale Netze

  • Ein Künstliches Neuronales Netz (KNN) ist ein gerichteter Graph bestehend aus einer Menge von Knoten N und Kanten E die die Knoten verbinden
    • Knoten: Neuron oder Perzeptron mit einem oder mehreren Eingängen I und einem Ausgang o; Berechnungsfunktion g(I): Io
    • Kanten: Gewichteter Datenfluss vom Ausgang eines Neurons zum Eingang eines anderen (oder des selben) Neurons

Ein KNN ist eine Komposition aus einer Vielzahl von Abbildungsfunktionen G=(g1,g2,..,gm). Es gibt Parallelen zu Regressionsverfahren mit Funktionen.

3 / 37

Stefan Bosse - Maschinelles Lernen - Klassifikation und Regression mit Künstlichen Neuronale Netze - Künstliche Neuronale Netze

  • Zusammengefasst ausgedrückt:

M(X):XY,X={xi},Y={yj}KNN=Nx,Nd,Ny,ENx={ni:ni{xj}},Nd={nd},Ny={nk:nkyk}n=g(p,w,b):po=f(iwipi+b)E={eij:ninjwij} 

  • f ist eine Transferfunktion die die akkumulierten Eingangswerte auf den Ausgangswert o abbildet, und g ist dann die gewichtete und akkumulative Transferfunktion
4 / 37

Stefan Bosse - Maschinelles Lernen - Klassifikation und Regression mit Künstlichen Neuronale Netze - Künstliche Neuronale Netze

  • Unterschied (künstliches) Neuron und Perzeptron:
    • Ein Neuron ist immer eine Elementarzelle
    • Ein Perzeptron kann ein einzelnes Neuron oder ein Netzwerk aus Neuronen beschreiben
  • Daher gibt es:
    • Single Layer Perceptron (SLP) → Nur Eingangs- Nx und Ausgangsneuronen Ny
    • Multi Layer Perceptron (MLP) → + Innere Neuronen Nd
5 / 37

Stefan Bosse - Maschinelles Lernen - Klassifikation und Regression mit Künstlichen Neuronale Netze - Das Neuron

Das Neuron

15 Ein einzelnes Neuron mit einem einzelnen Eingang p und einem Ausgang o. w ist ein Gewichtungsfaktor (ein Gewicht für eingehendes p) und b ist ein Bias (Offset)

6 / 37

Stefan Bosse - Maschinelles Lernen - Klassifikation und Regression mit Künstlichen Neuronale Netze - Das Mehreingangsneuron

Das Mehreingangsneuron

15 Ein einzelnes Neuron mit einem Eingangsvektor p und einem skalaren Ausgang o. w ist ein Gewichtungsfaktorvektor (ein Gewicht für eingehendes p) und b ist ein Bias (Offset)

7 / 37

Stefan Bosse - Maschinelles Lernen - Klassifikation und Regression mit Künstlichen Neuronale Netze - Neuronale Netze und Matrizen

Neuronale Netze und Matrizen

  • Neuronale Netze werden durch eine Graphenstruktur (statische Parameter) und mathematisch durch Matrizen (dynamische Parameter) beschrieben:

15 Ein einzelnes Neuron mit einem Eingangsvektor p und einem skalaren Ausgang o. w ist ein Gewichtungsfaktorvektor (ein Gewicht für eingehendes p) und b ist ein Bias (Offset); jetzt in Matrizenform (Annotation)

8 / 37

Stefan Bosse - Maschinelles Lernen - Klassifikation und Regression mit Künstlichen Neuronale Netze - Schichten von Neuronalen Netzen

Schichten von Neuronalen Netzen

  • I.A. werden Neuronen von neuronalen Netzen in Schichten (Layer) angeordnet und gruppiert
    • Günstig für Matrixalgebra
    • Aber nicht notwendig!

15

Neuronales Netzwerk mit Neuronen in einer Schicht angeordnet

9 / 37

Stefan Bosse - Maschinelles Lernen - Klassifikation und Regression mit Künstlichen Neuronale Netze - Struktur eines KNN

Struktur eines KNN

15 Grundlegende Struktur eines KNN mit Matrizen (blaue Ellipse=1 Neuron)

10 / 37

Stefan Bosse - Maschinelles Lernen - Klassifikation und Regression mit Künstlichen Neuronale Netze - Vereinfachte Form eines KNN

Vereinfachte Form eines KNN

15 Vereinfachte Struktur eines KNN mit Matrizen

11 / 37

Stefan Bosse - Maschinelles Lernen - Klassifikation und Regression mit Künstlichen Neuronale Netze - Klassen von KNN

Klassen von KNN

Vorwärtsgekoppelte Netzwerke
Azyklischer gerichteter Graph, d.h. es gibt nur eine Vorwärtspropagation von einer Schicht zur nächsten (keine Rückkopplung).
  • Diese Netzwerke können rein funktional beschrieben und berechnet werden.
  • Es gibt keinen Zustand!
  • D.h. die aktuellen Ausgangswerte hängen nur von den aktuellen Eingangswerten ab!
12 / 37

Stefan Bosse - Maschinelles Lernen - Klassifikation und Regression mit Künstlichen Neuronale Netze - Klassen von KNN

Rückgekoppelte Netzwerke
Zyklischer gerichteter Graph, d.h. es gibt Rückkopplungen (Ausgang eines Neurons geht in Eingänge der aktuellen oder vorherigen Schichten).
  • Diese Netzwerke können nicht rein funktional beschrieben und berechnet werden!
  • Sie besitzen einen Zustand, d.h. der Ausgangswert hängt von der Historie vergangener Eingabewerte und Berechnungen ab!
13 / 37

Stefan Bosse - Maschinelles Lernen - Klassifikation und Regression mit Künstlichen Neuronale Netze - Rückgekoppelte Netzwerke

Rückgekoppelte Netzwerke

  • Geeignet für Prädiktion auf zeit- und Datenserien D(t)=d0,d1,...,dt

15 Rückgekoppeltes und zustandsbehaftetes KNN mit einer Verzögerungsfunktion (Speicher)

14 / 37

Stefan Bosse - Maschinelles Lernen - Klassifikation und Regression mit Künstlichen Neuronale Netze - Transferfunktion

Transferfunktion

  • Auch Aktivierungsfunktion genannt (in Anlehnung an biologische Vorbild mit stark nichtlinearer Übertragungskennline)

    • Biologisch: Häufig eine Schwellwertfunktion
    • Künstlich / ML: Auch lineare Übertragunsfunktionen!
  • Es gibt eine Vielzahl verschiedener Funktionen

    • Die einfachste wäre (wenn auch wenig in Gebrauch): f(a)=a

Warum ist eine solche Übertragungsfunktion ungeeignet bzw. problematisch?

15 / 37

Stefan Bosse - Maschinelles Lernen - Klassifikation und Regression mit Künstlichen Neuronale Netze - Transferfunktion

  • Welche mathematischen Eigenschaften (Übertragungskurve) sollte wohl eine Transferfunktion besitzen?
    • Zur Erinnerung: Wir nehmen an dass der Wertebereich von einem x ≈ [-1,1] ist. Ebenso für ein y ≈ [-1,1].
16 / 37

Stefan Bosse - Maschinelles Lernen - Klassifikation und Regression mit Künstlichen Neuronale Netze - Transferfunktion

Transferfunktionen besitzen häufig begrenzende Eigenschaften (Sättigungsverhalten), und nicht lineares Übertragungsverhalten

15 Verschiedene gebräuchliche Transferfunktionen f(a)

17 / 37

Stefan Bosse - Maschinelles Lernen - Klassifikation und Regression mit Künstlichen Neuronale Netze - Ein einfaches Neuron - Funktional

Ein einfaches Neuron - Funktional

fsigmoid(a)=11+eag(x1,x2,x3)=fsigmoid(b+wixi)

18 / 37

Stefan Bosse - Maschinelles Lernen - Klassifikation und Regression mit Künstlichen Neuronale Netze - Parametersatz des KNN

Parametersatz des KNN

Statische Parameter

  • Anzahl der Eingangsneuronen (verbunden mit x), abhängig von der Anzahl der Eingabevariablen |x| und der Kodierung (numerisch vs. kategorisch)

  • Anzahl der Ausgangsneuronen (abhängig von der Kodierung). Bei numerischen Zielvariablen y gilt also: |Ny|=|y|

  • Anzahl der inneren verdeckten Neuronen |Nd| und deren Anordnung in Schichten

  • D.h. die Konfiguration des Netwerks ist [c1,c2,..,cm] bei m Schichten und ci Neuronen pro Schicht

19 / 37

Stefan Bosse - Maschinelles Lernen - Klassifikation und Regression mit Künstlichen Neuronale Netze - Parametersatz des KNN

  • Bei vollständig verbundenen Schichten ist keine Angabe der Vernetzung notwendig

Dynamische Parameter

  • Im wesentlichen die Gewichtungsmatrix Wi (Schicht i):

Wi=⎢ ⎢ ⎢ ⎢ ⎢w1,1w1,2w1,Rw2,1w2,2w2,RwS,1wS,2wS,R⎥ ⎥ ⎥ ⎥ ⎥,Bi=⎢ ⎢b1bS⎥ ⎥

Mit S: Anzahl der Neuronen in der Schicht, R: Anzahl der Eingangsvariablen (oder Neuronen der vorherigen Schicht)

20 / 37

Stefan Bosse - Maschinelles Lernen - Klassifikation und Regression mit Künstlichen Neuronale Netze - Parametersatz des KNN

  • Der Ausgangswert eines Neurons nj ist dann gegeben durch einen Wert aus B und die j-te Zeile von W:

o(p)=f(jWTp+bi)

  • Bei mehrschichtigen Netzwerken hat man eine Menge von Gewichtematrizen, die zu einem Tensor zusammengefasst werden können.
21 / 37

Stefan Bosse - Maschinelles Lernen - Klassifikation und Regression mit Künstlichen Neuronale Netze - Training von KNN

Training von KNN

  • Wie bei allen überwachten Lernproblemen gilt es eine Fehlerfunktion zu minimieren:

M(x):xyargminWerr(M)=|y(x)y0(x)|,(x,y0)D

Ziel ist die Minimierung des Fehlers unserer Modellhypothese M(x) durch Anpassung der Gewichtematrix W und evtl. (wenn vorhanden) des Offsetvektors B

22 / 37

Stefan Bosse - Maschinelles Lernen - Klassifikation und Regression mit Künstlichen Neuronale Netze - Fehler

Fehler

LS1

err=yy0err=|yy0|

LS2

err=(yy0)2

23 / 37

Stefan Bosse - Maschinelles Lernen - Klassifikation und Regression mit Künstlichen Neuronale Netze - Fehler

Es ist leicht zu erkennen dass das Training einen hochdimensionalen Parametersatz anpassen muss. Es ist nicht unmittelbar klar wie ein optimales W abgeleitet werden kann!

Erklärbarkeit

  • Der Zusammenhang von y und x (xy) ist schon bei einem einschichtigen Netzwerk nur noch schwer nachvollziehbar!
  • Eine Invertierung (inverses Problem yx) ist ebenso nur schwer möglich
  • Eigentlich ist nur ein einzelnes Neuron erklärbar und verständlich
    • Dort ist die Anpassung (des Gewichtungsvektors w) noch durch multivariate Regression möglich
24 / 37

Stefan Bosse - Maschinelles Lernen - Klassifikation und Regression mit Künstlichen Neuronale Netze - Fehler

Beispiel

  • Trainingsverfahren: Einfache Fehlerückpropagation
  • Problem: x=(a,b), y
  • Netzwerk: Ein Neuron, Sigmoid Transferfunktion
25 / 37

Stefan Bosse - Maschinelles Lernen - Klassifikation und Regression mit Künstlichen Neuronale Netze - Nichtlineare Probleme

Nichtlineare Probleme

SLP können nur lineare Probleme separieren.

15 Nichtlinear separierbare Probleme - nur mit MLP klassifizierbar

26 / 37

Stefan Bosse - Maschinelles Lernen - Klassifikation und Regression mit Künstlichen Neuronale Netze - Nichtlineare Probleme

27 / 37

Stefan Bosse - Maschinelles Lernen - Klassifikation und Regression mit Künstlichen Neuronale Netze - Error Backpropagation Verfahren

Error Backpropagation Verfahren

  • Bekanntes und gängiges Verfahren

https://hmkcode.com/ai/backpropagation-step-by-step

Gradientenverfahren

  • Baut auf dem Minimierungsansatz "Gradient Descent" (GD) auf (Absteigender Gradient)

  • Beim GD Verfahren wird eine Funktion, z.B. f(x,w): xy derart über den Parameter w angepasst so dass der Fehler err=|y-y0| minimal wird

28 / 37

Stefan Bosse - Maschinelles Lernen - Klassifikation und Regression mit Künstlichen Neuronale Netze - Error Backpropagation Verfahren

  • Es wird nun die Änderung des Fehlers beobachtet Δerr und der (oder später die) Parameter w mit der Ableitung des Fehlerwerts ∂err/∂w zu der Änderung des Parameters korrigiert:

w=wαerrw

Zur Berechnung des Fehlergradientens wird die Ableitung der Transferfunktion benötigt.

  • Vereinfacht gilt aber (grobe Näherung):

errwx(yy0)

  • Jetzt wird ein neuronales Netzwerk betrachtet, wo die Neuronen ebenfalls Funktionen mit Eingangsvariablen und Ausgangsvariablen sind
29 / 37

Stefan Bosse - Maschinelles Lernen - Klassifikation und Regression mit Künstlichen Neuronale Netze - Error Backpropagation Verfahren

  • Bei zusammengesetzten Funktionen (z.B. auch Neuronen in inneren Schichten) müssen die Gewichte schrittweise von hinten nach vorne angepasst werden

hmkcode.com/ai/backpropagation-step-by-step Beispiel eines ANN mit Kantengewichten und dem Ansatz der Backpropagation

30 / 37

Stefan Bosse - Maschinelles Lernen - Klassifikation und Regression mit Künstlichen Neuronale Netze - Error Backpropagation Verfahren

  • Die Gewichte werden nun Schicht für Schicht unter Einbeziehung der gewichteten Fehlerpropagation gleichermaßen angepasst

hmkcode.com/ai/backpropagation-step-by-step Backpropagation des Fehlers zu den Eingängen des Beispielnetzwerkes

31 / 37

Stefan Bosse - Maschinelles Lernen - Klassifikation und Regression mit Künstlichen Neuronale Netze - Error Backpropagation Verfahren

Der Einfluss des Ausgabefehlers bei der Rüchpropagation nimmt von Schicht zu Schicht ab. Daher sind mehrschichtige Netzwerke zunächst schwer/langsam (bis gar nicht) trainierbar.

  • Bei Transferfunktionen mit Sättigung (Clipping) kann es zu "toten" Netzwerknoten kommen,

    • d.h. weder eine kleine Änderung am Eingang eines Neurons noch eine kleine Korrektur der Gewichte/des Bias führen zu einer Änderung des Ausgangswertes kommen (gesättigte Netzwerkknoten)
    • Eine weitere Fehlerpropagation wird dadurch verhindert
  • Ausweg: Randomisiertes Drop-out (Abschalten von Neuronen) und Suche nach gesättigten Neuronen mit anschließender Parameterkorrektur so dass der Ausgang der Transferfunktion in den Arbeitsbereich verlegt wird!

32 / 37

Stefan Bosse - Maschinelles Lernen - Klassifikation und Regression mit Künstlichen Neuronale Netze - Kategorische Multiklassen Probleme

Kategorische Multiklassen Probleme

  • Wenn die Ergbnisvariable vom kategorischen Typ ist dann gibt es zwei Möglichkeiten:
One-Hot Kodierung
Jedes Klassensymbol (also ein diskreter Wert vi der Zielvariable y) wird durch ein Ausgangsneuron repräsentiert
Multi-level Kodierung
Jedes Klassensymbol wird durch einen Wert aus dem Wertebereich eines Ausgangsneurons repräsentiert
  • Problem: Nicht lineare Transferfunktion und Sättigungsverhalten
  • Die gleichen Verfahren sind auch auf kategorische Eingabevariablen anwendbar
33 / 37

Stefan Bosse - Maschinelles Lernen - Klassifikation und Regression mit Künstlichen Neuronale Netze - Numerische Prädiktorfunktionen

Numerische Prädiktorfunktionen

  • Neben der Klassifikation lassen sich mit ANN auch numerische (kontinuierliche) Funktionen lernen

  • Damit wird Funktionsapproximation wie bei den Regressionsverfahren möglich

    • Unterschied: Bei der Regression ist die funktionale Struktur von f(x): xy bereits fest und muss vorgegeben sein
    • Die Verwendung eines ANN bietet da auch noch indirekt das Lernen der funktionalen Strukturen neben der Anpassung der Parameter
34 / 37

Stefan Bosse - Maschinelles Lernen - Klassifikation und Regression mit Künstlichen Neuronale Netze - Numerische Prädiktorfunktionen

  • Es können auch mehrdimensionalen Vektorfunktionen (also mit mehreren Ausgabevariablen) approximiert werden durch:
    1. Mehrere Ausgangsneuronen (gekoppeltes Netzwerk)
    2. Mehrere Netzwerke mit jeweils einem Ausgangsneuron (entkoppelte Netzwerke)

Die Wahl der Transferfunktion muss sorgfältig geschehen. Nichtlinearitäten der Transferfunktionen in den Randbereichen des Übertragungsbereichs muss berücksichtigt oder genutzt werden.

  • Die Sigmoid (Log Rregression) Funktion ist abschnittsweise linear - ähnlich einem elektronischen Operationsverstärker ⇒ Analoge Rechner!!

  • Begrenzung/Sättigung schränkt den Lösungsraum ein (gewollt!)

35 / 37

Stefan Bosse - Maschinelles Lernen - Klassifikation und Regression mit Künstlichen Neuronale Netze - Literatur zur Vertiefung

Literatur zur Vertiefung

[1] M. T. Hagan, howard B. Demuth, M. H. Beale, and O. D. Jesus, Neural Network Design. https://hagan.okstate.edu/nnd.html

36 / 37

Stefan Bosse - Maschinelles Lernen - Klassifikation und Regression mit Künstlichen Neuronale Netze - Zusammenfassung

Zusammenfassung

  • Neuronale Netze bestehen aus Neuronen

  • Neuronen sind Funktionen

  • Die Kanten verbinden Ausgänge von Neuronen mit den Eingängen nachfolgender Neuronen mit einer Multiplikation eines Gewichtfaktors

  • Alle Eingänge eines Neurons werden summiert, das Ergebnis einer Transfer/Aktivierungsfunktion übergeben (reduktion eines Vektors auf Skalar)

  • Training ist ein Minimierungsproblem und bedeutet Anpassung der Gewichte um den Ausgangsfehler zu minimieren

    • Gängiges Verfahren: Fehlerrückpropagation und Fehlergradient
37 / 37