PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul C: Taxonomie des Maschinellen Lernens
In der Soziologie
PD Stefan Bosse
Universität Bremen - FB Mathematik und Informatik
PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul C: Taxonomie des Maschinellen Lernens
Zielvariablen: Kategorische Klassifikation, Numerische Prädiktorfunktionen, Gruppierung
Modellfunktionen: Mit welchen Daten- und Programmarchitekturen können Eingabevariablen auf Zielvariablen abgebildet werden?
Training und Algorithmen: Wie können die Modellfunktionen an das Problem angepasst werden?
Überwachtes, nicht überwachtes und Agentenlernen
PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul C: Taxonomie des Maschinellen Lernens
6 Maschinelles Lernen ist ein Werkzeug der Datenanalyse und des Data Minings
PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul C: Taxonomie des Maschinellen Lernens
M(→X):→X→→Y,X={diskrete kategorische Werte Cnumerische Werte N,R,Y=⎧⎪⎨⎪⎩diskrete kategorische Werte Cnumerische Werte N,RGruppen(X), Netzwerke Q
PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul C: Taxonomie des Maschinellen Lernens
100 Kausale vs. Prädiktive Modellbildung und Soziale Netzwerkmodelle versa algorithmisch bestimmte Modelle (Hypothesen)
PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul C: Taxonomie des Maschinellen Lernens
Lernen bedeutet die gewünschte Modellfunktion M möglichst genau zu approximieren so dass min error(|Y0-Y|) für alle (X,Y0) Paare gilt (Y0: Referenzdaten).
I.a. ist M eine parametrisierbare Funktion f(P) oder eine parametrisierbare Datenstruktur
Es gibt nicht eine Modellfunktion M, sondern eine große Menge möglicher Funktionen, genannt Hypothesen ℍ.
PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul C: Taxonomie des Maschinellen Lernens
Lernen bedeutet also die bestmögliche Anpassung des Parametersatzes P um den Fehler zu minimieren und eine geeignet Hypothesenfunktion zu finden.
H(→X):→X→→Y,H={MP11,MP22,..,MPkk},error(X,Y0,M)=|M(X)−Y0|
PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul C: Taxonomie des Maschinellen Lernens
Verschiedene Modellfunktionen M die die (Trainings) Daten repräsentieren
PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul C: Taxonomie des Maschinellen Lernens
13
Durch Kreuzvalidierung (CV) werden ungeeignete Hypothesenmodelle erkannt
PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul C: Taxonomie des Maschinellen Lernens
Jede Hypothesenfunktion M ∈ ℍ führt zu einem Informationsverlust durch Appoximation der tatsächlichen und unbekannten Modellfunktione F.
M(x):x→y=F(x)+E(x)
mit E als eine Fehlerfunktion (i.A. zufälliger Fehler) und ^E als mittlerer Prädiktionsfehler.
PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul C: Taxonomie des Maschinellen Lernens
Die Hypothesenmenge ℍ ist also tatsächlich eine Approximation eines unbekannten "exakten" Modells (Modellfunktion) MF, die z.B. mittels physikalischer oder soziologischer Modelle ableitbar wäre.
Genauso wie eine Sensor eine physikalische Größe nur approximieren kann, der tatsächliche Wert der zu messenden Größe ist nicht bekannt
PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul C: Taxonomie des Maschinellen Lernens
11 Training als Anpassung von Hypothesen für die Abbildungfunktion X → Y mit Trainingsdaten
PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul C: Taxonomie des Maschinellen Lernens
Die Paramater in dem Parametersatz P bestehen aus zwei Klassen:
PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul C: Taxonomie des Maschinellen Lernens
f(T):T→S=a+bT+cT2+dT3,Ps={degr:3},Pd={a,b,c,d},S=[0,1]f(T):T→S=a+bT+cTc+dTe,Ps={terms:4,lin:2,exp:2},Pd={a,b,c,d,e},S=[0,1]
PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul C: Taxonomie des Maschinellen Lernens
PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul C: Taxonomie des Maschinellen Lernens
PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul C: Taxonomie des Maschinellen Lernens
Es gilt: Dtrain ⊆ Dall, Dtest ⊆ Dall, Dinf ⊆ Dall aber Dtrain ∩ Dtest = ∅ und Dtrain ∩ Dtest ∩ Dinf ≠ ∅ (Idealfall!)
Die großen Probleme beim algorthmischen/trainierten Modellieren:
Die Trainingsdaten sind nicht repräsentativ (Umfang, Varianz, Qualität)
Die Testdaten sind nicht repräsentativ (Umfang, Varianz, Qualität)
Die Trainingsdaten enthalten schwache Variablen die nicht entfernt wurden (Inkonsistenz und geriner Informationsgewinn)
Generalisierung. Das gelernte Modell M bildet alle drei Datenmengen gleichermaßen gut ab!
PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul C: Taxonomie des Maschinellen Lernens
PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul C: Taxonomie des Maschinellen Lernens
6 Ablauf Überwachtes Lernen mit Trainings- (Induktion) und Applikationsphasen (Deduktion)
PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul C: Taxonomie des Maschinellen Lernens
Abdul Rahid,www.wordstream.com
PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul C: Taxonomie des Maschinellen Lernens
4 Zwei wichtige Unterklassen von überwachten Lernen: Regression (Numerische Zielvariablen) und Klassifikation (Kategorische Zielvariablen)
PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul C: Taxonomie des Maschinellen Lernens
4 Abbildung von hochdimensionale Daten Xn auf niederdimensionale Xm mit m < n
PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul C: Taxonomie des Maschinellen Lernens
4 Zwei wichtige Unterklassen von nicht überwachten Lernen: Clustering (Gruppenbildung) und Ausreißerdetektion
PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul C: Taxonomie des Maschinellen Lernens
Das Training einer Modellfunktion M kann
Inkrementelle Trainings- und Anpassungsverfahren könnne alte Datensätze verwerfen → Stromldatenlernen!
PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul C: Taxonomie des Maschinellen Lernens
PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul C: Taxonomie des Maschinellen Lernens
Es gibt im wesentlichen vier verschiedene Architekturen die Modelle M zu implementieren:
PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul C: Taxonomie des Maschinellen Lernens
PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul C: Taxonomie des Maschinellen Lernens
PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul C: Taxonomie des Maschinellen Lernens
Verschiedene Modellimplementierungen
PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul C: Taxonomie des Maschinellen Lernens
Statistische Analyse und Bewertung der Daten
Merkmalsselektion
Aufteilung der Daten in Trainings- und Testdaten (i.A. randomisiert) D=Dtrain ∪Dtest
Training einer Modellfunktion M mit bekannten (gelabelten bei ÜL) Trainingsdaten Dtrain unter Bewertung des Modellfehlers E(X)
Test und Bewertung von M mit bekannten Daten Dtest
Applikation (Inferenz) von M auf unbekannten Daten D
PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul C: Taxonomie des Maschinellen Lernens
Qualitative Kodierung ist eine der wichtigsten Techniken, die in der qualitativen Analyse in den Sozialwissenschaften verwendet werden.
Im Allgemeinen bezieht sich die Kodierung auf den Prozess der Zuweisung beschreibender oder inferentieller Annotierungen zu Datenblöcken, die die Entwicklung von Konzepten oder Theorien unterstützen können.
Kodierung ist in der Regel eine sehr arbeitsintensive und zeitaufwendige Aufgabe.
PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul C: Taxonomie des Maschinellen Lernens
ML in der Soziologie findet sich vor allem in den ersten Stufen der "Wertschöpfungskette" → Werkzeuge der Datenverarbeitung und Merkmalsselektion
PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul C: Taxonomie des Maschinellen Lernens
Rückschlüsse auf soziales Verhalten und Netzwerkbildung können u.A. aus textuellen Quellen gewonnen werden:
Häufig ist Mustererkennung und Klassifikation zentrale Merkmalsselektion (mit Natural Language Processing NLP)
PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul C: Taxonomie des Maschinellen Lernens
Neben der kausalen Modellinferenz können auch prädiktive Modellinferenzverfahren - also ML - eingesetzt werden
Spannende Frage: Wie ist die Korrelation von kausal und prädiktiv gewonnenen Modellen?
Kernfrage ist die Erklärbarkeit von algorithmisch erzeugten Modellen mit ML Verfahren
PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul C: Taxonomie des Maschinellen Lernens
Big Data bedeutet nicht groß (wenn auch meistens), sondern die Eingabevariablen sind scheinbar schwach korreliert, gekennzeichnte durch hohes Rauschen und Verzerrung!
Aber mit ML kann auch solch schwachen Daten Informationen abgeleitet werden:
Kritik: Die Datenvoreverarbeitung und ML Datenkette kann (ungewollt) zu Verzerrung und Offset führen.
PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul C: Taxonomie des Maschinellen Lernens
Daher: Die "Fehler" in der ML Verarbeitungskette bezüglich sozialer Eigenschaften können nicht technisch gelöst und korrigiert werden. Dazu müssen wiederum Modelle der Soziologie verwendet werden. Der "Theorie Rein - Theorie Raus" Ansatz [102]!!
PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul C: Taxonomie des Maschinellen Lernens
PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul C: Taxonomie des Maschinellen Lernens
Beim maschinellen Lernen glaubt man nicht, dass das Modell richtig ist, dh. es wird nicht angenommen, dass das Modell der datengenerierende Mechanismus ist.
Modelle werden nur danach ausgewertet, wie gut Sie anhand von Daten Vorhersagen machen, aus denen Sie selber nicht erstellt wurden, und nicht erklären wie sie zu Stande kommen.
In der Soziologie betrachtet man allgemein, ob ein Koeffizient eines linearen Modells von null unterscheidbar ist; dies macht starke Annahmen über den datengenerierenden Mechanismus, den maschinelle Lerner nicht für gültig halten würden.
Der Fokus des maschinellen Lernens lag traditionell nicht auf kausalen Effekten, obwohl Maschinelles lernen bei kausalen inferenzproblemen nützlich sein kann.
PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul C: Taxonomie des Maschinellen Lernens
Maschinelles Lernen besteht aus:
Modellimplementierungen:
Aufgaben
PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul C: Taxonomie des Maschinellen Lernens
Methoden und Verfahren
ML besteht aus mehreren Phasen:
PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul C: Taxonomie des Maschinellen Lernens