PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul A: Daten und Sensoren

Maschinelles Lernen und Datenanalyse

In der Mess- und Prüftechnik

PD Stefan Bosse

Universität Bremen - FB Mathematik und Informatik

1 / 37

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul A: Daten und Sensoren

Daten und Sensoren

Metriken von Daten

Metriken von Aussagen

Sensoren als Datenquellen

2 / 37

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul A: Daten und Sensoren

Daten

  • Daten sind die Grundlage für die Modellbildung und Modelltestung

  • Daten können aus einer Vielzahl von Quellen stammen

    • Experiment
    • Simulation
    • Feldstudie
    • Abgeleitet aus anderen Datensätzen:
      MapAndReduce(D): DD'
3 / 37

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul A: Daten und Sensoren

Daten

  • Allgemein kann man Daten und deren Werte unterteilen in:

    • Skalare Werte, wie Temperatur, Alter, usw.
    • Serien von Skalaren Werten, wie Zeitserien
    • Vektorielle Werte wie Bilder
    • Zusammengesetzte Daten, also Datenrecords
  • Daten haben daher eine Dimensionalität 𝕏N, wobei die Wertemenge 𝕏 einer Dimension aus den ganzen ℕ, reelen ℝ, der Zeit 𝕋 oder kategorischen Wertemengen 𝕊 bestehen kann (oder Untermengen davon).

4 / 37

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul A: Daten und Sensoren

Datenreduktion

  • Ziel der Datenanalyse ist die Reduktion von Eingabedaten bezüglich Größe und Dimensionalität:

P(XN):XNYM|Y|<|X|,M<N

function isRaining(temp,sunrad,moisture) =
temp < 0 ? → false
temp > 40 ? → false
(sunrad-moisture) > 30? → false
true

Beispiel einer Datenreduktionsfunktion ℝ3 → 𝔹

5 / 37

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul A: Daten und Sensoren

Datenklassen

Numerische und Metrische Werte
Das sind Werte die abzählbar sind und wo man Relationen (wie kleiner oder größer) sinnvoll definieren kann, also alle reellen und ganzen Zahlen.
  • Beispiele: Temperatur, Länge, Ort, Zeit
Kategorische Werte
Das sind symbolische Werte für die entweder keine (sinnvolle) Ordnungsrelation existiert oder wo sich wenigstens keine Differenzen bilden lassen.
  • Beispiele: Staatsangehörigkeit, Farbennamen (rot < gelb???), Schadenstyp
6 / 37

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul A: Daten und Sensoren

Skalierung der numerischen Werte

Intervallskaliert
Für diese Art von Attributen sind nur Unterschiede (Addition oder Subtraktion) sinnvoll. Beispielsweise wird die in °C oder °F gemessene Temperatur intervallskaliert. Wenn es 20 °C an einem Tag und 10 °C am folgenden Tag ist, ist es sinnvoll, über einen Temperaturabfall von 10 °C zu sprechen, aber es ist nicht sinnvoll zu sagen, dass es doppelt so kalt ist wie am Vortag.
Verhältnisskaliert
Hier kann man sowohl Differenzen als auch Verhältnisse zwischen Werten berechnen. Zum Beispiel kann man für das Alter sagen, dass jemand, der 20 Jahre alt ist, doppelt so alt ist wie jemand, der 10 Jahre alt ist.
7 / 37

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul A: Daten und Sensoren

Ordnungsrelationen

Nominal
Die Attributwerte in der Domäne sind ungeordnet und somit nur Gleichheitsvergleiche sinnvoll. Das heißt, wir können nur überprüfen, ob der Wert des Attributs für zwei bestimmte Instanzen gleich ist oder nicht. Zum Beispiel ist Geschlecht ein nominales Attribut.
Ordinal
Die Attributwerte sind geordnet und somit Gleichheitsvergleiche (ist ein Wert gleich einem anderen?) und relationale Vergleiche (ist ein Wert kleiner oder größer als ein anderer?) sind erlaubt, obwohl es möglicherweise nicht möglich ist, die Differenz zwischen den Werten zu quantifizieren!
8 / 37

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul A: Daten und Sensoren

Daten

Datensätze als Matrizen

  • Ein Menge von Daten kann in Matrizenform als Matrix D dargestellt werden (Analogie zur Tabellenform) [1]:

9 / 37

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul A: Daten und Sensoren

  • Die Zeilen sind Rekords der Variablenmenge {Xi|i=1,d} und geben als d-stelliges Tupel je nach Anwendung und Zielsetzung einzelne Beispiele, Instanzen, Experimente, Entitäten, Objekte, und Eigenschaftsvektoren wieder

xi=(xi1,xi2,..,xid)

  • Der Vektor X ist die Menge aller Variablen (Sensoren) und die Spalten der Matrix D:

X=(x1,x2,..,xd)

type row = { X1:number, X2:number, .., Xd:number }
type table = row array;
10 / 37

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul A: Daten und Sensoren

Eingabe- und Ausgabevariablen

  • Sensoren sind typischerweise Eingabevariablen x

  • Aussagen sind Ausgabevariablen y, also Ergebnisse die sich aus den Eingangsvariablen ableiten lassen können (durch eine Funktion F):

X=(x1,x2,..,xu,y1,y2,..,yv)xi=(xi1,xi2,..,xiu,yi1,yi2,..,yiv)F(x):xy,

mit u+v=d.

11 / 37

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul A: Daten und Sensoren

Beispiel einer Datenmatrix

  • Medizinischer Datensatz mit Eigenschaften der Augeniris:

12 / 37

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul A: Daten und Sensoren

Attribute

  • Die gemessenen Variablen X1 bis X4 sind metrische Datenvariablen, die Variable X5=y ist eine kategorische Variable!

  • Die gemessenen Variablen X1 bis X4 (also Sensoren) nennt man Attribute, da sie Eigenschaften und beschreibende Variablen der Zielvariablen y sind

13 / 37

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul A: Daten und Sensoren

Sensoren

Welche Sensoren und Messdaten kennt ihr:

  • Temperatur×
  • RGB×
  • Druck×
  • Spannung×
  • Licht×
  • E-Modul×
  • Kraft×
  • FarBe×
  • Weg×
  • Strahlung×
  • Ströme×
  • SpektralBereiche×
  • Zeit×
  • No search results.
14 / 37

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul A: Daten und Sensoren

Sensoren

  • Messtechnik

    • Physikalische Größen wie Temperatur, Dehnung, Spannung, Zeit
    • Fusionierte Umfragevariablen (z.B. Ensemblemittelwerte)
  • Bei der Messung mit Sensoren unterscheidet man:

    • Einmalige bzw. einzelne Messungen (single shot)
    • Wiederholte Messungen der gleichen physikalischen Größe (Mittelwertbildung..)
    • Serien von Messwerten, vor allem zeitaufgelöste Datenserien:
      D = {d1,d2,..,dn}, wobei i.A. Δt(di,di+1)=constant
15 / 37

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul A: Daten und Sensoren

Sensormodell

  • Ein Sensor ist ein Messwandler, auch in der Soziologie (Indikator für eine Eigenschaft die nicht direkt messbar ist)

  • Ein Sensor bildet daher eine i.A. physikalische Größe x auf eine andere Größe y ab:

S(x):xy,K:correct(xy)

  • Es gibt i.A. eine Kalibrierungsfunktion K(f,x,y)

  • Beispiele: Druck → Spannung, Strahlung → Strom, usw.

16 / 37

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul A: Daten und Sensoren

Sensordaten

  • Sensoren S sind Datenquellen d von physikalischen, soziologischen oder sonstigen natürlichen nicht direkt erfassbaren Größen x

  • Die Datenwerte (numerisch) werden in einem definierbaren Intervall liegen

    • Die Kenntnis des Werteintervalls ist wichtig für spätere Datenverarbeitung, Analyse, und Maschinelles Lernen!
    • Kategorische Werte werden ebenfalls durch eine Menge definiert

S(x):xdd[a,b]v0,v1,..,vi

17 / 37

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul A: Daten und Sensoren

Mess- und Sensorische Systeme

Der Ursprung der Daten für Analyse und Maschinelles Lernen!

Ein Sensor kommt selten allein.

18 / 37

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul A: Daten und Sensoren

Sensoraggregation

Sensorklassen

Physische Sensoren
Physische Sensoren messen direkt eine Größe mit einem Messinstrument (kann auch die Auswertung einer Frage in einem Fragebogen sein), Smartphone
Virtuelle Sensoren
Verwenden Daten (von physischen und anderen virtuellen Sensoren) um neue sensorische Werte zu berechnen (kein Messinstrument) → Aggregatoren!!
19 / 37

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul A: Daten und Sensoren

Sensoraggregation

Schichtenmodell von Sensorischen Systemen

In sensorischen Systemen werden Sensordaten in verschiedenen Ebenen verarbeitet:

  • Vertikale Ebenen repräsentieren die sensorischen Domainen und die Sensorklassen;

  • Horizontale Ebenen repräsentieren die Datenverarbeitung.

20 / 37

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul A: Daten und Sensoren

Sensoraggregation

Vertikale Ebenen

Perzeption
Hier findet die Akquisition der rohen Sensordaten statt. Die Sensoren sind räumlich verteilt und werden lokal vorverarbeitet.
Aggregation
Einzelne Sensordaten werden zeitlich und räumlich zusammengeführt und gesammelt (Sensorfusion)
Applikation
Die gesammelten Daten werden nutzbar gemacht: Weitere Datenverarbeitung, Aufbereitung, Eigenschaftsselektion, Informationsgewinnung, Visualisierung
21 / 37

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul A: Daten und Sensoren

Sensoraggregation

Horizontale Ebenen

  • Die horizontalen Ebenen durchziehen alle vertikalen Ebenen:
    1. Sicherheit
    2. Datenverarbeitung
    3. Kommunikation
    4. Datenspeicherung
    5. Nachrichtenvermittlung
    6. Management
22 / 37

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul A: Daten und Sensoren

Sensoraggregation

figsenslayers1

Grundlegender Zusammenhang der horizontalen und vertikalen Ebenen in Sensorischen Systemen

23 / 37

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul A: Daten und Sensoren

Sensoraggregation

figsenslayers2

Räumliche Abbildung der vertikalen Ebenen auf Cloud Computing

24 / 37

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul A: Daten und Sensoren

Sensoren in den Ebenen

Perzeption
Vorwiegend physische Sensoren
Aggregation
Virtuelle Sensoren, Datenreduktion (Größe und Dimensionalität)
Applikation
Datenanalyse und Modellbildung, Inferenz von Information, Maschinelles Lernen
25 / 37

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul A: Daten und Sensoren

Messfehler und Vertrauen

  • Die Messgrößen können statisch (zeitlich konstant) oder dynamisch (zeitlich veränderlich) sein. Die Wandlung dieser Messgrößen ergeben dann entsprechend Gleich- und Wechselsignale.

  • Auch eine prinzipiell zeitlich unveränderliche Messgröße (bezogen auf die Messung in einem vorgegeben Zeitinterval τ) erzeugt kein konstantes Signal. Ursache: Rauschen

  • Wiederholt man daher eine Messung N-mal unter gleichen Bedingungen, so wird man eine Reihe von verschiedenen Messwerten {s1,s2,...,sn} erhalten.

  • Es gibt systematische und zufällige Fehler bei der Messung, die sich überlagern.

26 / 37

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul A: Daten und Sensoren

Messfehler und Vertrauen

Systematische Abweichung (systematischer Fehler)

  • Abweichung wird durch den Sensor verursacht
  • z.B.: falsche Eichung, dauernd vorhandene Störungen wie Reibung
  • lässt sich nur durch sorgfältiges Untersuchen der Fehlerquelle beseitigen

Zufällige Abweichung (zufälliger oder statistischer Fehler)

  • Abweichung wird durch unvermeidbare, regellose Störungen verursacht
  • bei wiederholter Messung weichen Einzelergebnisse voneinander ab
  • Einzelergebnisse schwanken um einen Mittelwert
27 / 37

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul A: Daten und Sensoren

Messfehler und Vertrauen

figmeaserr1

Offset und Präzision bei der Messung einer Variable X

28 / 37

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul A: Daten und Sensoren

Messfehler und Vertrauen

Systematische Fehler

  • Eine Messgröße X ist meistens durch störende Messgrößen Y,Z,... usw. überlagert:

K(X,Y,Z) : X×Y×ZS,K(x,y,z)mn=0anxn+mn=0bnyn+mn=0cnzn

  • So kann z.B. bei einer Messung einer Kraft oder einer Dehnung die umgebende Temperatur T oder Strukturschwingungen Einfluss auf den Sensor und dessen Übertragungsfunktion und somit auf das Messsignal S haben.
29 / 37

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul A: Daten und Sensoren

Messfehler und Vertrauen

figinstrmod3

  • Systematische Fehler verfälschen die Kalibrierungsfunktion (z. B. bei Geraden den Offset und Steigung). Sind sie bekannt, können sie kompensiert (rausgerechnet) werden.
  • Systematische Fehler können aber auch während der Signalverarbeitung entstehen, so z. B. Offsetspannungen und zeitlicher Drift von Parametern (Verstärkungsfaktor).
30 / 37

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul A: Daten und Sensoren

Messfehler und Vertrauen

Zufällige Fehler - Streuung

  • Zufällige Fehler beeinflussen die Genauigkeit einer Messung (Rauschen).

  • Wiederholt man eine Messung einer Größe X die durch reine zufälligen Fehler verfälscht wird, so ist die Häufigkeitsverteilung der Messwerte S={s1,s2,...,sn} um einen Mittelwert ¯S durch eine Gaussverteilung gegeben (dabei muss die Anzahl der Messungen N groß sein).

31 / 37

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul A: Daten und Sensoren

figgaussdist

Häufigkeitsverteilung nach Gauss von Messwerten um einen Mittelwert

32 / 37

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul A: Daten und Sensoren

Messfehler und Vertrauen

  • Der Mittelwert S repräsentiert die Abschätzung des wahren/wirklichen Wertes Σ der Messgröße X (oder S):

¯S = 1N Ni=1si

  • Die Standardabweichung ist ein Maß für die Zuverlässigkeit (Präzision) der einzelnen Messwerte einer Messreihe {s1,s2,...,sn}:

σ =  1N1 Ni=1(si¯S)2 

33 / 37

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul A: Daten und Sensoren

Eine Vergrößerung der Anzahl N der Messungen (unter gleichen Bedingungen!) führt zu einer Verbesserung des Mittelwertes ¯S (Grenzfall N → ∞), nicht aber zu einer wesentlichen Verkleinerung der Standardabweichung σ, da die Genauigkeit nicht steigt!

34 / 37

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul A: Daten und Sensoren

Messfehler und Vertrauen

  • Der wirkliche Mittelwert Σ ist nicht bekannt (nur im Grenzfall N → ∞ ist ¯S=Σ) - Es gibt aber ein Vertrauensintervall mit einer Wahrscheinlichkeit P dass dieser darin enthalten ist:

Σ ∈ [¯S-σ,¯S+σ] mit 68.3%

Σ ∈ [¯S-2σ,¯S+2σ] mit 95.4%

Σ ∈ [¯S-3σ,¯S+3σ] mit 99.73%

35 / 37

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul A: Daten und Sensoren

Messfehler und Vertrauen

  • Auch in der Soziologie!

figinstrmodnoise

Rauschquellen bei einer Messung

36 / 37

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul A: Daten und Sensoren

Beispiele

37 / 37