PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul I: Inverse Modellierung

Maschinelles Lernen und Datenanalyse

In der Soziologie PD Stefan Bosse

Universität Bremen - FB Mathematik und Informatik

1 / 19

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul I: Inverse Modellierung

Inverse Modellierung

Meistens kann ein Modell M(X):XY empirisch bestimmt werden

Häufig ist das inverse Modell von Bedeutung: M-1Y: YX!

ML bietet Möglichkeit "Prädiktives Modellieren"

Aber wie kann man M-1 aus M ableiten?

2 / 19

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul I: Inverse Modellierung

Inverse Funktionen: Analytische und numerische Ableitung

  • Gegeben sei eine Funktion f(x): ℝ → ℝ: xy, z.B.

    • f(x)1: y = x+a
    • f(x)2: y = x2+a
    • f(x)3: y = sin(x)
  • Die Bestimmung der inversen Funktion kann häutig durch einfache algebraische Umformung generell und exakt berechntet werden:

    • f-1(y)1: x = y-a
    • f-1(y)2: x = { √(y-a),-√(y-a) }
    • f-1(y)3: x = arcsin(y)
3 / 19

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul I: Inverse Modellierung

  • Schon bei der zweiten Funktion gibt es mehr als eine Lösung, und die inverse Sinusfunktion kann nicht exakt analytisch berechnet werden sondern benötigt eine Approximation durch eine geometrische Reihe:

arcsin(z)=n=0(2n1)!!z2n+1(2n)!!(2n+1)

Inverse Probleme sind nicht trivial (zu lösen)!

Wie sieht es bei multivariaten Funktionen aus?

4 / 19

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul I: Inverse Modellierung

Multivariate Funktionen

  • Eine Funktion f: ℝn → ℝ stellte ein Informationskompression dar;
    • Aber i.A. als irreversible Reduktion (Informationsverlust)!
  • Die Inversion einer Funktion f: ℝn → ℝ ergibt eine große Menge an Lösungen da:
    • f-1(y) : ℝ → ℝn (Informationsexpansion bzw. Dekompression)
    • Die Lösungsmenge kann unendlich groß sein!
  • Beispiel: f(x1,x2): y=x1+x2
    • (Unendlich viele) Lösungen für y=0: x={ (0,0),(-1,1),(-2,2),(-3,3),... }
5 / 19

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul I: Inverse Modellierung

Einschränkung des Eingabe- und Lösungsraums

  1. Intervallarithmetik → D.h. eine Variable x wird nur in einem Intervall [a,b] betrachtet (und f)

  2. Diskretisierung des Intervalls; [a,b] → { a, a+δ , a+2δ ,.., b}

Randbedingungslösen

  • Wenn für alle Eingabevariablen und ebenso für die Zielvariable diskrete Werte in einem endlichen Bereich liegen könnten man das Inversionsproblem durch einen Randbedingungslöser (Constraint Solving Problem) lösen
    • Aber auch dieser Ansatz liefert entweder viele oder nur eine Auswahl an Lösungen
6 / 19

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul I: Inverse Modellierung

  • Beispiel eines Erfüllbarkeitsproblems über relationale Ausdrücke:
Problem
f(x1,x2) = y = x1+x2
x1 = { 1,2,3 }
x2 = { 1,2,3 }
y = { 2,3,..,6 }
Randbedingungen
x1 ≥ 1 ∧ x1 ≤ 3
x2 ≥ 1 ∧ x2 ≤ 3
x1 = 1 ∨ x1 = 2 ∨ x1 = 3
x2 = 1 ∨ x2 = 2 ∨ x2 = 3
y = x1+x2
7 / 19

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul I: Inverse Modellierung

8 / 19

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul I: Inverse Modellierung

Das Single Layer Perceptron

Ein SLP (künstliches Neuron) besteht aus zwei verbundenen Funktionsblöcken (Summierer und Aktiverungsfunktion)

9 / 19

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul I: Inverse Modellierung

Inverses Problem ML: Naiver Lösungsansatz

Datentabelle

  • Problem: Die Reversion der Datentabelle liefert einzelne Dateninstanzen
  • Ziel: Das Modell M soll repräsentativ und generalisierbar sein
  • Daher: Auch M-1 sollte möglich nur repräsentative Eingabevektoren liefern
    • Mittelwertbildung der Dateninstanzen und deren Variablen wenig hilfreich!
    • Zwei Instanzen: x=Sonnig, x=Regen ⇒ x=(Sonnig+Regen)/2=wolkig???
    • Majoritäten könnten repräsentative Variablenwerte ergeben!?
10 / 19

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul I: Inverse Modellierung

Inverses Problem ML: Entscheidungsbaum

  • Ein empririsch gelernter Entscheidungsbaum kann ein generalisiertes Modell sein M(x): xy
  • Die Invertierung geschieht durch Rückwärtsiteration startend bei allen Endknoten (Blättern) mit yi=y
  • Es wird i.A. mehr als eine Lösung geben (Repräsentanz?)
  • Die Frage ist die Ableitung des resultierenden Variable x aus den Knoten
    • Bei kategorischen Variablen triviales und eindeutiges Problem
    • Bei numerischen Variablen und einem relationen Baum mit N(x)={ x < ε, x ≥ ε } ist gerade der Teilungswert ε nicht repräsentativ (Rand!!)
11 / 19

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul I: Inverse Modellierung

Invertierbare ANN

https://hci.iwr.uni-heidelberg.de/vislearn/inverse-problems-invertible-neural-networks/

Ausgangspunkt: Ein- und Ausgabedaten besitzen die gleiche Dimension!

label

12 / 19

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul I: Inverse Modellierung

Invertierbare Netzwerkstruktur

  • Es wird ein übergeordnetes reversibles Berechnunsnetzwerk eingeführt (Affine Kopplungsschicht)

label Die Eingabedaten werden augespalten in [u1,u2] und durch die gelernten Funktionen si und ti transformiert und in Wechselanordnung gekoppelt. Die Ausgabe ist die Verkettung der resultierenden Teile [v1,v2]. ⊙ - Elementweise Multiplikation

13 / 19

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul I: Inverse Modellierung

Invertierung

label Invertierung des Netzwerks. Mit einer Umschaltung können [u1,u2] aus [v1,v2] wiederhergestellt werden, um die Umkehrung der gesamten affinen Kopplungsschicht zu berechnen. ∅ - Elementweise Division

14 / 19

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul I: Inverse Modellierung

Entscheidend ist, dass die Transformationen si und ti selbst nicht invertierbar sein müssen und durch beliebige neuronale Netze dargestellt werden können, die durch standardmäßige Backpropagation entlang des Berechnungsgraphen trainiert werden.

Mehrdeutige Abbildungen

D.h. die Eingabedimension ist wie üblich viel größer als die Ausgabedimension!

  • Die Inversion erzeugt Mehrdeutigkeit bei der Abbildung yx.
15 / 19

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul I: Inverse Modellierung

label Dimensionsreduzierende Abbildung xy

label Mehrdeutigkeit zwischen y und x

Transformation in Bijektive Abbildungen

Eine zusätzliche latente Variable z wird eingeführt, die die Information erfasst, die sonst im Forward-Prozess verloren gehen würde. Folglich, x ↔ [y,z] wird eine bijektive Zuordnung.

16 / 19

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul I: Inverse Modellierung

Durch zusätzliche latente Variable z wird die inverse Abbildung "vervollständigt"

label z muss unabhängig von y sein und muss einer einfachen Stichprobenverteilung N(0,1) folgen.

17 / 19

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul I: Inverse Modellierung

  • Beide Bedingungen können mit einem maximalen mittleren Diskrepanzverlust (MMD) erreicht werden, die mit zwei Verteilungen übereinstimmt durch Vergleich von Stichproben.

Die Verteilung p(x|y) kann angenähert werden, indem einfach wiederholt z abgetastet wird und die rückgerichtete Berechnung des Netzwerks durchgeführt wird, d.h. [y,z] → x.

  • Aus p(x|y) wird in eine deterministische Funktion x=f(y,z) mit der "verrauschten" Variable z.
18 / 19

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul I: Inverse Modellierung

Zusammenfassung

  • Das Training von Vorwärtsmodellen ist ein Standardverfahren

  • Häufig - gerade in der Soziologie - ist man an Rückwärtsmodellen interessiert, d.h. die Invertierung der aus empirischen Daten algorithmisch gelernten Modelle

  • Die Inversion ist schwierig durch Mehrdeutigkeit der Abbildung

  • Variablenintervalle und Wertdiskretisierung können das Inversionsproblem auf Randbedingsungslösen reduzieren und lösbar machen

  • Inversion von ANN benötigt eine übgeordnete bidirektionale und umschaltbare Netzwerkstruktur

19 / 19