Maschinelles Lernen und Datenanalyse

In der Soziologie

PD Stefan Bosse

Universität Bremen - FB Mathematik und Informatik

1 / 38

Daten und Sensoren

Metriken von Daten

Metriken von Aussagen

Sensoren als Datenquellen

2 / 38

Daten

  • Daten sind die Grundlage für die Modellbildung und Modelltestung

  • Daten können aus einer Vielzahl von Quellen stammen

    • Experiment
    • Simulation
    • Feldstudie
    • Abgeleitet aus anderen Datensätzen:
      MapAndReduce(D): DD'
3 / 38

Daten

  • Allgemein kann man Daten und deren Werte unterteilen in:

    • Skalare Werte, wie Temperatur, Alter, usw.
    • Serien von Skalaren Werten, wie Zeitserien
    • Vektorielle Werte wie Bilder
    • Zusammengesetzte Daten, also Datenrecords
  • Daten haben daher eine Dimensionalität 𝕏N, wobei die Wertemenge 𝕏 einer Dimension aus den ganzen ℕ, reelen ℝ, der Zeit 𝕋 oder kategorischen Wertemengen 𝕊 bestehen kann (oder Untermengen davon).

4 / 38

Datenreduktion

  • Ziel der Datenanalyse ist die Reduktion von Eingabedaten bezüglich Größe und Dimensionalität:

P(XN):XNYM|Y|<|X|,M<N

function isStrong(age,weight,length) =
age < 10 ? → false
weight > 200 ? → false
(weight/length) > 30? → false
true

Beispiel einer Datenreduktionsfunktion ℝ3 → 𝔹

5 / 38

Datenklassen

Numerische und Metrische Werte
Das sind Werte die abzählbar sind und wo man Relationen (wie kleiner oder größer) sinnvoll definieren kann, also alle reellen und ganzen Zahlen.
  • Beispiele: Temperatur, Länge, Ort, Zeit
Kategorische Werte
Das sind symbolische Werte für die entweder keine (sinnvolle) Ordnungsrelation existiert oder wo sich wenigstens keine Differenzen bilden lassen.
  • Beispiele: Staatsangehörigkeit, Farbennamen (rot < gelb???), Schadenstyp
6 / 38

Skalierung der numerischen Werte

Intervallskaliert
Für diese Art von Attributen sind nur Unterschiede (Addition oder Subtraktion) sinnvoll. Beispielsweise wird die in °C oder °F gemessene Temperatur intervallskaliert. Wenn es 20 °C an einem Tag und 10 °C am folgenden Tag ist, ist es sinnvoll, über einen Temperaturabfall von 10 °C zu sprechen, aber es ist nicht sinnvoll zu sagen, dass es doppelt so kalt ist wie am Vortag.
Verhältnisskaliert
Hier kann man sowohl Differenzen als auch Verhältnisse zwischen Werten berechnen. Zum Beispiel kann man für das Alter sagen, dass jemand, der 20 Jahre alt ist, doppelt so alt ist wie jemand, der 10 Jahre alt ist.
7 / 38

Ordnungsrelationen

Nominal
Die Attributwerte in der Domäne sind ungeordnet und somit nur Gleichheitsvergleiche sinnvoll. Das heißt, wir können nur überprüfen, ob der Wert des Attributs für zwei bestimmte Instanzen gleich ist oder nicht. Zum Beispiel ist Geschlecht ein nominales Attribut.
Ordinal
Die Attributwerte sind geordnet und somit Gleichheitsvergleiche (ist ein Wert gleich einem anderen?) und relationale Vergleiche (ist ein Wert kleiner oder größer als ein anderer?) sind erlaubt, obwohl es möglicherweise nicht möglich ist, die Differenz zwischen den Werten zu quantifizieren!
8 / 38

Daten

Datensätze als Matrizen

  • Ein Menge von Daten kann in Matrizenform als Matrix D dargestellt werden (Analogie zur Tabellenform) [1]:

9 / 38

  • Die Zeilen sind Rekords der Variablenmenge {Xi|i=1,d} und geben als d-stelliges Tupel je nach Anwendung und Zielsetzung einzelne Beispiele, Instanzen, Experimente, Entitäten, Objekte, und Eigenschaftsvektoren wieder

xi=(xi1,xi2,..,xid)

  • Der Vektor X ist die Menge aller Variablen (Sensoren) und die Spalten der Matrix D:

X=(x1,x2,..,xd)

type row = { X1:number, X2:number, .., Xd:number }
type table = row array;
10 / 38

Eingabe- und Ausgabevariablen

  • Sensoren sind typischerweise Eingabevariablen x

  • Aussagen sind Ausgabevariablen y, also Ergebnisse die sich aus den Eingangsvariablen ableiten lassen können (durch eine Funktion F):

X=(x1,x2,..,xu,y1,y2,..,yv)xi=(xi1,xi2,..,xiu,yi1,yi2,..,yiv)F(x):xy,

mit u+v=d.

11 / 38

Beispiel einer Datenmatrix

  • Medizinischer Datensatz mit Eigenschaften der Augeniris:

12 / 38

Attribute

  • Die gemessenen Variablen X1 bis X4 sind metrische Datenvariablen, die Variable X5=y ist eine kategorische Variable!

  • Die gemessenen Variablen X1 bis X4 (also Sensoren) nennt man Attribute, da sie Eigenschaften und beschreibende Variablen der Zielvariablen y sind

13 / 38

Sensoren

Welche Sensoren und Messdaten kennt ihr:

  • Alter×
  • Geschlecht×
  • Wohnort×
  • Zeit×
  • Beruf×
  • Politik×
  • Schulbildung×
  • Fahrtweg×
  • Arbeit×
  • Konzentration×
  • Position×
  • Kaufverhalten×
  • No search results.
14 / 38

Sensoren

  • Umfragen

    • Umfragevariablen (Antworten auf Fragen) sind Sensoren von einzelnen Menschen
    • Fusionierte Umfragevariablen (z.B. Ensemblemittelwerte) sind Sensoren von Menschengruppen
  • Allgemein verfügbare Daten

    • Soziale Netzwerke und soziale Medien
    • Datenbanken von Behörden usw.
15 / 38

Sensormodell

  • Ein Sensor ist ein Messwandler, auch in der Soziologie (Indikator für eine Eigenschaft die nicht direkt messbar ist)

  • Ein Sensor bildet daher eine i.A. physikalische Größe x auf eine andere Größe y ab:

S(x):xy,K:correct(xy)

  • Es gibt i.A. eine Kalibrierungsfunktion K(f,x,y)

  • Beispiele: Soziale Vernetzung → Numerischer Radiuswert, Wählerstimmen → Politik, d.h., Zuordnung von Zahlen zu Objekten oder Ereignissen nach festgelegten Regeln

16 / 38

Sensordaten

  • Sensoren S sind Datenquellen d von physikalischen, soziologischen oder sonstigen natürlichen nicht direkt erfassbaren Größen x

  • Die Datenwerte (numerisch) werden in einem definierbaren Intervall liegen

    • Die Kenntnis des Werteintervalls ist wichtig für spätere Datenverarbeitung, Analyse, und Maschinelles Lernen!
    • Kategorische Werte werden ebenfalls durch eine Menge definiert

S(x):xdd[a,b]v0,v1,..,vi

17 / 38

Mess- und Sensorische Systeme

Der Ursprung der Daten für Analyse und Maschinelles Lernen!

Ein Sensor kommt selten allein.

18 / 38

Sensoraggregation

Sensorklassen

Physische Sensoren
Physische Sensoren messen direkt eine Größe mit einem Messinstrument (kann auch die Auswertung einer Frage in einem Fragebogen sein), Smartphone
Virtuelle Sensoren
Verwenden Daten (von physischen und anderen virtuellen Sensoren) um neue sensorische Werte zu berechnen (kein Messinstrument) → Aggregatoren!!
19 / 38

Sensoraggregation

Schichtenmodell von Sensorischen Systemen

In sensorischen Systemen werden Sensordaten in verschiedenen Ebenen verarbeitet:

  • Vertikale Ebenen repräsentieren die sensorischen Domainen und die Sensorklassen;

  • Horizontale Ebenen repräsentieren die Datenverarbeitung.

20 / 38

Sensoraggregation

Vertikale Ebenen

Perzeption
Hier findet die Akquisition der rohen Sensordaten statt. Die Sensoren sind räumlich verteilt und werden lokal vorverarbeitet.
Aggregation
Einzelne Sensordaten werden zeitlich und räumlich zusammengeführt und gesammelt (Sensorfusion)
Applikation
Die gesammelten Daten werden nutzbar gemacht: Weitere Datenverarbeitung, Aufbereitung, Eigenschaftsselektion, Informationsgewinnung, Visualisierung
21 / 38

Sensoraggregation

Horizontale Ebenen

  • Die horizontalen Ebenen durchziehen alle vertikalen Ebenen:
    1. Sicherheit
    2. Datenverarbeitung
    3. Kommunikation
    4. Datenspeicherung
    5. Nachrichtenvermittlung
    6. Management
22 / 38

Sensoraggregation

figsenslayers1

Grundlegender Zusammenhang der horizontalen und vertikalen Ebenen in Sensorischen Systemen

23 / 38

Sensoraggregation

figsenslayers2

Räumliche Abbildung der vertikalen Ebenen auf Cloud Computing

24 / 38

Sensoren in den Ebenen

Perzeption
Vorwiegend physische Sensoren
Aggregation
Virtuelle Sensoren, Datenreduktion (Größe und Dimensionalität)
Applikation
Datenanalyse und Modellbildung, Inferenz von Information, Maschinelles Lernen
25 / 38

Umfragen und Crowd Sensing

  • Menschen sind Sensoren

Von klassischen Umfragen zu mobilen Crowd Sensing mit Smartphones

26 / 38

Messfehler und Vertrauen

  • Die Messgrößen können statisch (zeitlich konstant) oder dynamisch (zeitlich veränderlich) sein. Die Wandlung dieser Messgrößen ergeben dann entsprechend Gleich- und Wechselsignale.

  • Auch eine prinzipiell zeitlich unveränderliche Messgröße (bezogen auf die Messung in einem vorgegeben Zeitinterval τ) erzeugt kein konstantes Signal. Ursache: Rauschen

  • Wiederholt man daher eine Messung N-mal unter gleichen Bedingungen, so wird man eine Reihe von verschiedenen Messwerten {s1,s2,...,sn} erhalten.

  • Es gibt systematische und zufällige Fehler bei der Messung, die sich überlagern.

27 / 38

Messfehler und Vertrauen

Systematische Abweichung (systematischer Fehler)

  • Abweichung wird durch den Sensor verursacht
  • z.B.: falsche Eichung, dauernd vorhandene Störungen wie Reibung
  • lässt sich nur durch sorgfältiges Untersuchen der Fehlerquelle beseitigen

Zufällige Abweichung (zufälliger oder statistischer Fehler)

  • Abweichung wird durch unvermeidbare, regellose Störungen verursacht
  • bei wiederholter Messung weichen Einzelergebnisse voneinander ab
  • Einzelergebnisse schwanken um einen Mittelwert
28 / 38

Messfehler und Vertrauen

figmeaserr1

Offset und Präzision bei der Messung einer Variable X

29 / 38

Messfehler und Vertrauen

Systematische Fehler

  • Eine Messgröße X ist meistens durch störende Messgrößen Y,Z,... usw. überlagert:

K(X,Y,Z) : X×Y×ZS,K(x,y,z)mn=0anxn+mn=0bnyn+mn=0cnzn

  • So kann z.B. bei einer Messung von sozialpsychologischen Parametern der Wohnort und die Lebensumgebung Einfluss auf den Sensor und dessen "Übertragungsfunktion" und somit auf das "Messsignal" S haben.
30 / 38

Messfehler und Vertrauen

figinstrmod3

  • Systematische Fehler verfälschen die Kalibrierungsfunktion (z. B. bei Geraden den Offset und Steigung). Sind sie bekannt, können sie kompensiert (rausgerechnet) werden.
  • Systematische Fehler können aber auch während der Datenverarbeitung entstehen, so z.B. durch Rundungsfehler oder Verwendung von Funktionsmodellen außerhalb ihres Spezifikationsbereiches.
31 / 38

Messfehler und Vertrauen

Zufällige Fehler - Streuung

  • Zufällige Fehler beeinflussen die Genauigkeit einer Messung (Rauschen).

  • Wiederholt man eine Messung einer Größe X die durch reine zufälligen Fehler verfälscht wird, so ist die Häufigkeitsverteilung der Messwerte S={s1,s2,...,sn} um einen Mittelwert ¯S durch eine Gaussverteilung gegeben (dabei muss die Anzahl der Messungen N groß sein).

32 / 38

figgaussdist

Häufigkeitsverteilung nach Gauss von Messwerten um einen Mittelwert

33 / 38

Messfehler und Vertrauen

  • Der Mittelwert S repräsentiert die Abschätzung des wahren/wirklichen Wertes Σ der Messgröße X (oder S):

¯S = 1N Ni=1si

  • Die Standardabweichung ist ein Maß für die Zuverlässigkeit (Präzision) der einzelnen Messwerte einer Messreihe {s1,s2,...,sn}:

σ =  1N1 Ni=1(si¯S)2 

34 / 38

Eine Vergrößerung der Anzahl N der Messungen (unter gleichen Bedingungen!) führt zu einer Verbesserung des Mittelwertes ¯S (Grenzfall N → ∞), nicht aber zu einer wesentlichen Verkleinerung der Standardabweichung σ, da die Genauigkeit nicht steigt!

35 / 38

Messfehler und Vertrauen

  • Der wirkliche Mittelwert Σ ist nicht bekannt (nur im Grenzfall N → ∞ ist ¯S=Σ) - Es gibt aber ein Vertrauensintervall mit einer Wahrscheinlichkeit P dass dieser darin enthalten ist:

Σ ∈ [¯S-σ,¯S+σ] mit 68.3%

Σ ∈ [¯S-2σ,¯S+2σ] mit 95.4%

Σ ∈ [¯S-3σ,¯S+3σ] mit 99.73%

36 / 38

Messfehler und Vertrauen

figinstrmodnoise

Rauschquellen bei einer Messung

37 / 38

Beispiele

38 / 38