Maschinelles Lernen und Datenanalyse

In der Soziologie

PD Stefan Bosse

Universität Bremen - FB Mathematik und Informatik

1 / 41

Taxonomie des Maschinellen Lernens

Zielvariablen: Kategorische Klassifikation, Numerische Prädiktorfunktionen, Gruppierung

Modellfunktionen: Mit welchen Daten- und Programmarchitekturen können Eingabevariablen auf Zielvariablen abgebildet werden?

Training und Algorithmen: Wie können die Modellfunktionen an das Problem angepasst werden?

Überwachtes, nicht überwachtes und Agentenlernen

2 / 41

Datenverarbeitung

Die Daten die als Grundlage für die Induktion (Lernen) und die Deduktion (Applikation/Inferenz der Zielvariablen) müssen i.A. vorverabeitet werden → Merkmalsselektion

6 label Maschinelles Lernen ist ein Werkzeug der Datenanalyse und des Data Minings

3 / 41

Die Modellfunktion

Die Modellfunktion soll möglichst genau und effizient die Eingabedaten X auf die Zielvariablen Y abbilden:

$M(\vec{X}) : \vec{X} \rightarrow \vec{Y}, \\ X = \left\{ {\begin{array}{_{20}{l}} {{\text{diskrete kategorische Werte }}ℂ} \\ {{\text{numerische Werte }}\mathbb{N}{\text{,}}\mathbb{R}} \\ \end{array}} \right.,\\ Y = \left\{ {\begin{array}{_{20}{l}} {{\text{diskrete kategorische Werte }}ℂ} \\ {{\text{numerische Werte }}\mathbb{N}{\text{,}}\mathbb{R}} \\ {{\text{Gruppen(X), Netzwerke }}ℚ} \end{array}} \right.$

Die Modellfunktion M approximiert eine i.A. nicht bekannte Funktion F, d.h. eine axiomatisch oder analytisch abgeleitete Modellfunktion (z.B. phys. Gesetze) → M ist Hypothese von F!

4 / 41

Beispiel

100 Kausale vs. Prädiktive Modellbildung und Soziale Netzwerkmodelle versa algorithmisch bestimmte Modelle (Hypothesen)

5 / 41

Lernen

Lernen bedeutet die gewünschte Modellfunktion M möglichst genau zu approximieren so dass min error(|Y₀-Y|) für alle (X,Y₀) Paare gilt (Y₀: Referenzdaten).

I.a. ist M eine parametrisierbare Funktion f(P) oder eine parametrisierbare Datenstruktur
- Der Parametersatz P={p₁,p₂,..,p_i} bestimmt sowohl Funktion als auch Struktur (z.B. eines Entscheidungsbaumes)
Es gibt nicht eine Modellfunktion M, sondern eine große Menge möglicher Funktionen, genannt Hypothesen ℍ.

6 / 41

Lernen bedeutet also die bestmögliche Anpassung des Parametersatzes P um den Fehler zu minimieren und eine geeignet Hypothesenfunktion zu finden.

Man unterscheidet bekannte Referenzwerte der Zielvariablen (und Beziehung zu X) Y₀, auch Labels genannt, und prognostische Werte Y die als Ergebnis von M(X) geliefert werden (Inferenzwerte), d.h. bei der Applikation ist der wahre Wert Y_t unbekannt (Schätzung von Y_t)

$H(\vec{X}) : \vec{X} \rightarrow \vec{Y}, \\ ℍ = \{ M_1^{P1},M_2^{P2},..,M_k^{Pk}\}, \\ error(X,Y_0,M)=|M(X)-Y_0|$

7 / 41

Beispiele

Verschiedene Modellfunktionen M die die (Trainings) Daten repräsentieren

8 / 41

Kreuzvalidierung

Beim Training wird ein Inferenzfehler zunächst aus Trainingsdaten bestimmt → Trugschluß!
Stattdessen müssen auch unabhängigige Testdaten für eine Kreuzvalidierung herangezogen werden, und dann ...

Durch Kreuzvalidierung (CV) werden ungeeignete Hypothesenmodelle erkannt

9 / 41

Fehler (Verlust)

Jede Hypothesenfunktion M ∈ ℍ führt zu einem Informationsverlust durch Appoximation der tatsächlichen und unbekannten Modellfunktione F.

Es gilt also:

$M(x) : x \rightarrow y = F(x)+E(x)$

mit E als eine Fehlerfunktion (i.A. zufälliger Fehler) und $\hat{E}$ als mittlerer Prädiktionsfehler.

10 / 41

Die Hypothesenmenge ℍ ist also tatsächlich eine Approximation eines unbekannten "exakten" Modells (Modellfunktion) M_F, die z.B. mittels physikalischer oder soziologischer Modelle ableitbar wäre.
Genauso wie eine Sensor eine physikalische Größe nur approximieren kann, der tatsächliche Wert der zu messenden Größe ist nicht bekannt

11 / 41

11 Training als Anpassung von Hypothesen für die Abbildungfunktion X → Y mit Trainingsdaten

12 / 41

Parametrisierung

Die Paramater in dem Parametersatz P bestehen aus zwei Klassen:

Statische Parameter P_s: Parameter die die Modellimplementierung (Funktion, Datenstruktur, usw.) festlegen und i.A. während des Trainings und der Applikation unverändert bleiben. (Ausnahme: Evolutionäre Algorithmen) → Konfiguration

Dynamische Parameter P_d: Parameter die während des Trainings verändert (angepasst) werden. Z.B. Funktionsparameter oder Kantengewichte von neuronalen Netzen → Adaption

13 / 41

Beispiele

Numerische Prädiktorfunktionen (T: Temperatur, S: Satisfaction) → Regression

$f(T) : T \rightarrow S = a+bT+cT^2+dT^3, \\ P_s=\{degr:3\}, P_d=\{a,b,c,d\}, S=[0,1] \\ f(T) : T \rightarrow S = a+bT+cT^c+dT^e, \\ P_s=\{terms:4,lin:2,exp:2\}, P_d=\{a,b,c,d,e\}, S=[0,1] \\$

14 / 41

Künstliches Neuronales Netzwerk

15 / 41

Daten

Trainingsdaten D_train: Datentabellen die aus Zeilen mit einer bekannten Beziehung (X,Y) bestehen und verwendet werden die Modellfunktion M durch Veränderung von P zu approximieren

Testdaten D_test: Datentabellen die aus Zeilen mit einer bekannten Beziehung (X,Y) bestehen und verwendet werden die Modellfunktion M auf Genauigkeit und Fehler zu testen. Man spricht auch von einer Kreuzvalidierung da D_test ∩ D_train = ∅ sein sollte.

Inferenzdaten D_inf: Datentabellen die nur aus Zeilen X bestehen (Y ist unbekannt)

16 / 41

Es gilt: D_train ⊆ D_all, D_test ⊆ D_all, D_inf ⊆ D_all aber D_train ∩ D_test = ∅ und D_train ∩ D_test ∩ D_inf ≠ ∅ (Idealfall!)

Die großen Probleme beim algorthmischen/trainierten Modellieren:

Die Trainingsdaten sind nicht repräsentativ (Umfang, Varianz, Qualität)
Die Testdaten sind nicht repräsentativ (Umfang, Varianz, Qualität)
Die Trainingsdaten enthalten schwache Variablen die nicht entfernt wurden (Inkonsistenz und geriner Informationsgewinn)

Generalisierung. Das gelernte Modell M bildet alle drei Datenmengen gleichermaßen gut ab!

17 / 41

Lernverfahren

Überwachtes Lernen: Es gibt Trainingsdaten mit bekannten Beziehungen (X,Y) die verwendet werden um die Modellfunktion mit minimalen Fehler anzupassen. Überwachugn benötigt i.A. einen Experten der die Beziehungen (X,Y) erstellt und analytisch den Fehler bewertet.

Unüberwachtes Lernen: Es gibt Trainingsdaten ohne bekannte beziehung (X,Y), d.h., schon das Lernen führt zu einer automatischen Inferenz der zielvariablen Y, die aber in diesem Fall i.A. nur durch Gruppenmengen ℚ bestehen. Eine Gruppenmenge Q={X_i} ⊆ ℚ bringt verschiedene Eingabewerte in Beziehung. D.h. Y ≡ ℚ.

18 / 41

Belohnungs- und Agentenlernen: Die Abbildungsfunktion f(X): X → Y wird schrittweise durch eine Evaluierung des inferrierten Y mit einem Belohnungswert r=[0,1] gelernt. Training und Inferenz findet gleichzeitig statt.

6 Ablauf Überwachtes Lernen mit Trainings- (Induktion) und Applikationsphasen (Deduktion)

19 / 41

Taxonomie der Verfahren

Abdul Rahid,www.wordstream.com

20 / 41

Überwachte Lernverfahren - Unterklassen

4 Zwei wichtige Unterklassen von überwachten Lernen: Regression (Numerische Zielvariablen) und Klassifikation (Kategorische Zielvariablen)

21 / 41

Dimensionalitätsreduktion

ML kann auch für die Reduktion von Datendimensionalität eingesetzt werden (Informationen sind reduzierte Daten)
- Beispiele: Principle Component Analysis, Single Value Decomposition, ..

4 Abbildung von hochdimensionale Daten Xⁿ auf niederdimensionale X^m mit m < n

22 / 41

Unüberwachtes Lernen - Unterklassen

4 Zwei wichtige Unterklassen von nicht überwachten Lernen: Clustering (Gruppenbildung) und Ausreißerdetektion

23 / 41

Training

Das Training einer Modellfunktion M kann
- monolitisch (alle Dateninstanzen werden "parallel" verwendet), oder
- stapelbasiert (d.h. Gruppen von Instanzen werden "parallel" verarbeitet), oder
- iterativ (Dateninstanzen werden "sequenziell" verwendet), und
- inkrementell (iterativ mit neuen Daten).
Inkrementelle Trainings- und Anpassungsverfahren könnne alte Datensätze verwerfen → Stromldatenlernen!

24 / 41

Nicht jede Modellimplementierung ist geeignet:
- Graphen (Bäume) können i.A. nur monolotisch trainiert = erzeugt werden!
- Regression von math. Funktionen kann monolitisch und/oder iterativ erfolgen;
- Neuronale Netze können monolitisch, stapelbasiert, iterativ, und vor allem inkrementell trainiert werden.

25 / 41

Modellimplementierungen

Es gibt im wesentlichen vier verschiedene Architekturen die Modelle M zu implementieren:

Funktionen: Die Struktur einer mathematischen Funktion wird durch ihre Terme gebildet (Berechnungsknoten), z.B. ax+bx². Zu jedem Term gehört ein dynamischer Parameter der beim Training angepasst wird um den Fehler zu minimieren. Das Ergebnis ist die Zielvariable y.

26 / 41

Gerichtete Graphen: Gerichtete Graphen (oder Entscheidungsbäume) bestehen aus Knoten und Kanten. Die Knoten repräsentieren eine Eingabevariable (Attribute) x ∈ X. Die Kanten beschreiben die Entwicklung eine Graphens beginnend vom Wurzelknoten hin zu den Blättern. Die Blätter enthalten die Werte der Zielvariable(n) y. Der dynamische Paremetersatz ist der Graph (dessen Struktur).

Funktionale Graphen: Hybrid aus gerichteten Graph und Funktion → Künstliche Neuronale Netze. Die Knoten repräsentieren Berechnungsfunktionen, die Kanten verbinden Ausgänge von Funktionen mit Eingängen. Es gibt Eingangsknoten die mit den Eingabevariablen X verbunden sind, und Ausgangsknoten die mit den Ausgangsvariablen Y verbunden sind.

27 / 41

Ungerichtete Graphen: Hier repräsentieren die Knoten Dateninstanzen X, und die Kanten verbinden die nächsten Nachbarn miteinander. Hier geht es um Gruppenbildung (k nächste Nachbarn/kNN Problem).

28 / 41

Verschiedene Modellimplementierungen

29 / 41

Ablauf und Phasen von ML

Statistische Analyse und Bewertung der Daten
Merkmalsselektion
Aufteilung der Daten in Trainings- und Testdaten (i.A. randomisiert) D=D_train ∪D_test
Training einer Modellfunktion M mit bekannten (gelabelten bei ÜL) Trainingsdaten D_train unter Bewertung des Modellfehlers E(X)
Test und Bewertung von M mit bekannten Daten D_test
Applikation (Inferenz) von M auf unbekannten Daten D

30 / 41

Qualitative Kodierung

Qualitative Kodierung ist eine der wichtigsten Techniken, die in der qualitativen Analyse in den Sozialwissenschaften verwendet werden.

Im Allgemeinen bezieht sich die Kodierung auf den Prozess der Zuweisung beschreibender oder inferentieller Annotierungen zu Datenblöcken, die die Entwicklung von Konzepten oder Theorien unterstützen können.

Kodierung ist in der Regel eine sehr arbeitsintensive und zeitaufwendige Aufgabe.

31 / 41

Einsatz von ML

ML Verfahren können zur Automatisierung der Q. Kodierung eingesetzt werden [101]

ML in der Soziologie findet sich vor allem in den ersten Stufen der "Wertschöpfungskette" → Werkzeuge der Datenverarbeitung und Merkmalsselektion

32 / 41

Soziale Analysen aus Texten

Rückschlüsse auf soziales Verhalten und Netzwerkbildung können u.A. aus textuellen Quellen gewonnen werden:
- Soziale Medien (Twitter, Facebook, Blogs, ...)
- Nachrichten
- Wissensdatenbanken
Häufig ist Mustererkennung und Klassifikation zentrale Merkmalsselektion (mit Natural Language Processing NLP)

Einsatz von ML

Textklassifikation und Vorhersage

33 / 41

Soziologische Modellinferenz

Neben der kausalen Modellinferenz können auch prädiktive Modellinferenzverfahren - also ML - eingesetzt werden
Spannende Frage: Wie ist die Korrelation von kausal und prädiktiv gewonnenen Modellen?
Was bedeutet eine Abweichung?

Kernfrage ist die Erklärbarkeit von algorithmisch erzeugten Modellen mit ML Verfahren

34 / 41

Big Data Analysen

Big Data bedeutet nicht groß (wenn auch meistens), sondern die Eingabevariablen sind scheinbar schwach korreliert, gekennzeichnte durch hohes Rauschen und Verzerrung!
Aber mit ML kann auch solch schwachen Daten Informationen abgeleitet werden:
- Genaue Wahlvorhersage
- Demografische Vorhersagen
Kritik: Die Datenvoreverarbeitung und ML Datenkette kann (ungewollt) zu Verzerrung und Offset führen.

35 / 41

Daher: Die "Fehler" in der ML Verarbeitungskette bezüglich sozialer Eigenschaften können nicht technisch gelöst und korrigiert werden. Dazu müssen wiederum Modelle der Soziologie verwendet werden. Der "Theorie Rein - Theorie Raus" Ansatz [102]!!

Die Sozialtheorie hilft bei der Lösung von Problemen, die während des gesamten Aufbaus und der Bewertung von Modellen für maschinelles Lernen für soziale Daten auftreten.

36 / 41

Zusammenfassung Unterschiede Soziologische Verfahren vs ML

Soziologische Theorie ist oft hypothesengetrieben, während maschinelles Lernen Daten sind!
Beim maschinellen Lernen beginnt man mit einem Datensatz, um eine Hypothese aufzustellen, während man in der Soziologie oft mit einer Hypothese beginnt.
Beide verwenden (oder eher ML, beide sollten zumindest) eine Auswertung außerhalb der Stichprobe, um Ihre Hypothesen zu testen.
Beim maschinellen Lernen liegt der Fokus im Allgemeinen auf der Vorhersage, in der Soziologie nicht auf der Vorhersage, ohne zu erklären, warum ein Phänomen Auftritt.

37 / 41

Beim maschinellen Lernen glaubt man nicht, dass das Modell richtig ist, dh. es wird nicht angenommen, dass das Modell der datengenerierende Mechanismus ist.
Modelle werden nur danach ausgewertet, wie gut Sie anhand von Daten Vorhersagen machen, aus denen Sie selber nicht erstellt wurden, und nicht erklären wie sie zu Stande kommen.
In der Soziologie betrachtet man allgemein, ob ein Koeffizient eines linearen Modells von null unterscheidbar ist; dies macht starke Annahmen über den datengenerierenden Mechanismus, den maschinelle Lerner nicht für gültig halten würden.
Der Fokus des maschinellen Lernens lag traditionell nicht auf kausalen Effekten, obwohl Maschinelles lernen bei kausalen inferenzproblemen nützlich sein kann.

38 / 41

Zusammenfassung

Maschinelles Lernen besteht aus:

Modellimplementierungen:
- Funktionen, Gerichtete Graphen, Funktionalen Graphen, Ungerichtete Graphen, also mit/für
- Regression, Entscheidungsbäume, Neuronale Netze, Clustering (kNN)
Aufgaben
- Regression, Klassifikation, Gruppierung (Clustering), Prognostik

39 / 41

Methoden und Verfahren
- Überwachtes, nicht überwachtes, und rückgekoppeltes Belohnungslernen
- Monolitisches, stapelbasiertes, iteratives, und inkrementelles Lernen
- Einzel- versa Multiinstanzlernen
- Enscheidungsbaumlernen (Konstruktion), Support Vector Machines (Regression), Backpropagation in Neuronalen Netze, usw.
ML besteht aus mehreren Phasen:
- Datenerhebung, Datenvorverarbeitung, Statistische Bewertung, Merkmalsselektion, Modellertsellung, Training, Test und Analyse (Kreuzvalidierung), Anwendung/Inferenz

40 / 41

Daten werden unterteilt in:
- Trainingsdaten , Testdaten, Anwendungsdaten
- Trainings- und Testdaten bei ÜL mit (x,y) Beziehungen (Labelling)

41 / 41