PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul A: Daten und Sensoren
In der Soziologie
PD Stefan Bosse
Universität Bremen - FB Mathematik und Informatik
PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul A: Daten und Sensoren
Metriken von Daten
Metriken von Aussagen
Sensoren als Datenquellen
PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul A: Daten und Sensoren
Daten sind die Grundlage für die Modellbildung und Modelltestung
Daten können aus einer Vielzahl von Quellen stammen
PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul A: Daten und Sensoren
Allgemein kann man Daten und deren Werte unterteilen in:
Daten haben daher eine Dimensionalität 𝕏N, wobei die Wertemenge 𝕏 einer Dimension aus den ganzen ℕ, reelen ℝ, der Zeit 𝕋 oder kategorischen Wertemengen 𝕊 bestehen kann (oder Untermengen davon).
PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul A: Daten und Sensoren
P(XN):XN→YM|Y|<|X|,M<N
function isStrong(age,weight,length) = age < 10 ? → false weight > 200 ? → false (weight/length) > 30? → false true
Beispiel einer Datenreduktionsfunktion ℝ3 → 𝔹
PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul A: Daten und Sensoren
PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul A: Daten und Sensoren
PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul A: Daten und Sensoren
PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul A: Daten und Sensoren
PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul A: Daten und Sensoren
→xi=(xi1,xi2,..,xid)
→X=(x1,x2,..,xd)
type row = { X1:number, X2:number, .., Xd:number }type table = row array;
PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul A: Daten und Sensoren
Sensoren sind typischerweise Eingabevariablen x
Aussagen sind Ausgabevariablen y, also Ergebnisse die sich aus den Eingangsvariablen ableiten lassen können (durch eine Funktion F):
→X=(x1,x2,..,xu,y1,y2,..,yv)→xi=(xi1,xi2,..,xiu,yi1,yi2,..,yiv)F(→x′):→x′→→y,
mit u+v=d.
PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul A: Daten und Sensoren
PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul A: Daten und Sensoren
Die gemessenen Variablen X1 bis X4 sind metrische Datenvariablen, die Variable X5=y ist eine kategorische Variable!
Die gemessenen Variablen X1 bis X4 (also Sensoren) nennt man Attribute, da sie Eigenschaften und beschreibende Variablen der Zielvariablen y sind
PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul A: Daten und Sensoren
Umfragen
Allgemein verfügbare Daten
PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul A: Daten und Sensoren
Ein Sensor ist ein Messwandler, auch in der Soziologie (Indikator für eine Eigenschaft die nicht direkt messbar ist)
Ein Sensor bildet daher eine i.A. physikalische Größe x auf eine andere Größe y ab:
S(x):x→y,K:correct(x→y)
Es gibt i.A. eine Kalibrierungsfunktion K(f,x,y)
Beispiele: Soziale Vernetzung → Numerischer Radiuswert, Wählerstimmen → Politik, d.h., Zuordnung von Zahlen zu Objekten oder Ereignissen nach festgelegten Regeln
PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul A: Daten und Sensoren
Sensoren S sind Datenquellen d von physikalischen, soziologischen oder sonstigen natürlichen nicht direkt erfassbaren Größen x
Die Datenwerte (numerisch) werden in einem definierbaren Intervall liegen
S(x):x→dd∈[a,b]⇒v0,v1,..,vi
PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul A: Daten und Sensoren
Der Ursprung der Daten für Analyse und Maschinelles Lernen!
Ein Sensor kommt selten allein.
PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul A: Daten und Sensoren
PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul A: Daten und Sensoren
In sensorischen Systemen werden Sensordaten in verschiedenen Ebenen verarbeitet:
Vertikale Ebenen repräsentieren die sensorischen Domainen und die Sensorklassen;
Horizontale Ebenen repräsentieren die Datenverarbeitung.
PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul A: Daten und Sensoren
PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul A: Daten und Sensoren
PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul A: Daten und Sensoren
Grundlegender Zusammenhang der horizontalen und vertikalen Ebenen in Sensorischen Systemen
PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul A: Daten und Sensoren
Räumliche Abbildung der vertikalen Ebenen auf Cloud Computing
PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul A: Daten und Sensoren
PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul A: Daten und Sensoren
Von klassischen Umfragen zu mobilen Crowd Sensing mit Smartphones
PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul A: Daten und Sensoren
Die Messgrößen können statisch (zeitlich konstant) oder dynamisch (zeitlich veränderlich) sein. Die Wandlung dieser Messgrößen ergeben dann entsprechend Gleich- und Wechselsignale.
Auch eine prinzipiell zeitlich unveränderliche Messgröße (bezogen auf die Messung in einem vorgegeben Zeitinterval τ) erzeugt kein konstantes Signal. Ursache: Rauschen
Wiederholt man daher eine Messung N-mal unter gleichen Bedingungen, so wird man eine Reihe von verschiedenen Messwerten {s1,s2,...,sn} erhalten.
Es gibt systematische und zufällige Fehler bei der Messung, die sich überlagern.
PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul A: Daten und Sensoren
PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul A: Daten und Sensoren
Offset und Präzision bei der Messung einer Variable X
PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul A: Daten und Sensoren
K(X,Y,Z) : X×Y×Z→S,K(x,y,z)≈m∑n=0anxn+m∑n=0bnyn+m∑n=0cnzn
PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul A: Daten und Sensoren
PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul A: Daten und Sensoren
Zufällige Fehler beeinflussen die Genauigkeit einer Messung (Rauschen).
Wiederholt man eine Messung einer Größe X die durch reine zufälligen Fehler verfälscht wird, so ist die Häufigkeitsverteilung der Messwerte S={s1,s2,...,sn} um einen Mittelwert ¯S durch eine Gaussverteilung gegeben (dabei muss die Anzahl der Messungen N groß sein).
PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul A: Daten und Sensoren
Häufigkeitsverteilung nach Gauss von Messwerten um einen Mittelwert
PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul A: Daten und Sensoren
¯S = 1N N∑i=1si
σ = ⎷1N−1 N∑i=1(si−¯S)2
PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul A: Daten und Sensoren
Eine Vergrößerung der Anzahl N der Messungen (unter gleichen Bedingungen!) führt zu einer Verbesserung des Mittelwertes ¯S (Grenzfall N → ∞), nicht aber zu einer wesentlichen Verkleinerung der Standardabweichung σ, da die Genauigkeit nicht steigt!
PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul A: Daten und Sensoren
Σ ∈ [¯S-σ,¯S+σ] mit 68.3%
Σ ∈ [¯S-2σ,¯S+2σ] mit 95.4%
Σ ∈ [¯S-3σ,¯S+3σ] mit 99.73%
PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul A: Daten und Sensoren
Rauschquellen bei einer Messung
PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul A: Daten und Sensoren