Maschinelles Lernen und Datenanalyse

In der Mess- und Prüftechnik

PD Stefan Bosse

Universität Bremen - FB Mathematik und Informatik

1 / 47

Stefan Bosse - Maschinelles Lernen - Daten und Sensoren -

Daten und Sensoren

Metriken von Daten

Metriken von Aussagen

Sensoren als Datenquellen

Messverfahren und Sensorsysteme

2 / 47

Stefan Bosse - Maschinelles Lernen - Daten und Sensoren - Daten

Daten

  • Daten sind die Grundlage für die Modellbildung und Modelltestung

  • Daten können aus einer Vielzahl von Quellen stammen

    • Experiment
    • Simulation
    • Feldstudie
    • Abgeleitet aus anderen Datensätzen:
      MapAndReduce(D): DD'
3 / 47

Stefan Bosse - Maschinelles Lernen - Daten und Sensoren - Daten

Daten

  • Allgemein kann man Daten und deren Werte unterteilen in:

    • Skalare Werte, wie Temperatur, Alter, usw.
    • Serien von Skalaren Werten, wie Zeitserien
    • Vektorielle Werte wie Bilder
    • Zusammengesetzte Daten, also Datenstrukturen (Records)
  • Daten haben daher eine Dimensionalität 𝕏N, wobei die Wertemenge 𝕏 einer Dimension aus den ganzen ℕ, reelen ℝ, der Zeit 𝕋 oder kategorischen Wertemengen 𝕊 bestehen kann (oder Untermengen davon).

4 / 47

Stefan Bosse - Maschinelles Lernen - Daten und Sensoren - Datenreduktion

Datenreduktion

  • Ziel der Datenanalyse ist die Reduktion von Eingabedaten bezüglich Größe und Dimensionalität:

P(XN):XNYM|Y|<|X|,M<N

  • Materialwissenschaften und Messtechnik:
    • Häufig metrische Eingabevariablen
    • Häufig metrische oder kategorische Ausgabevariablen (inkl. Boolescher Variablen)

function isRaining(temp,sunrad,moisture) =
temp < 0 ? → false
temp > 40 ? → false
(sunrad-moisture) > 30? → false
true

Beispiel aus der Messtechnik mit einer Datenreduktionsfunktion ℝ3 → 𝔹

5 / 47

Stefan Bosse - Maschinelles Lernen - Daten und Sensoren - Datenreduktion

Datenreduktion

  • Sozioalwissenschaften:
    • Häufig kategorische und metrische Eingabevariablen
    • Häufig kategorische Ausgabevariablen (inkl. Boolescher Variablen)
function isStrong(age,weight,length) =
age < 10 ? → false
weight > 200 ? → false
(weight/length) > 30? → false
true

Beispiel einer Datenreduktionsfunktion ℝ3 → 𝔹

6 / 47

Stefan Bosse - Maschinelles Lernen - Daten und Sensoren - Datenreduktion

Datenklassen

Numerische und Metrische Werte
Das sind Werte die abzählbar sind und wo man Relationen (wie kleiner oder größer) sinnvoll definieren kann, also alle reellen und ganzen Zahlen.
  • Beispiele: Temperatur, Länge, Dichte, Porengröße, Dehnung, Kraft, Ort, Zeit
Kategorische Werte
Das sind symbolische Werte für die entweder keine (sinnvolle) Ordnungsrelation existiert oder wo sich wenigstens keine Differenzen bilden lassen.
  • Beispiele: Staatsangehörigkeit, Farbennamen (rot < gelb???), Schadenstyp, charakteristisches Merkmal (Anomalie?)
7 / 47

Stefan Bosse - Maschinelles Lernen - Daten und Sensoren - Datenreduktion

Skalierung der numerischen Werte

Intervallskaliert
Für diese Art von Attributen sind nur Unterschiede (Addition oder Subtraktion) sinnvoll. Beispielsweise wird die in °C oder °F gemessene Temperatur intervallskaliert. Wenn es 20 °C an einem Tag und 10 °C am folgenden Tag ist, ist es sinnvoll, über einen Temperaturabfall von 10 °C zu sprechen, aber es ist nicht sinnvoll zu sagen, dass es doppelt so kalt ist wie am Vortag.
Verhältnisskaliert
Hier kann man sowohl Differenzen als auch Verhältnisse zwischen Werten berechnen. Zum Beispiel kann man für das Alter sagen, dass jemand, der 20 Jahre alt ist, doppelt so alt ist wie jemand, der 10 Jahre alt ist.
8 / 47

Stefan Bosse - Maschinelles Lernen - Daten und Sensoren - Datenreduktion

Ordnungsrelationen

Nominal
Die Attributwerte in der Domäne sind ungeordnet und somit nur Gleichheitsvergleiche sinnvoll. Das heißt, wir können nur überprüfen, ob der Wert des Attributs für zwei bestimmte Instanzen gleich ist oder nicht. Zum Beispiel ist Geschlecht ein nominales Attribut.
Ordinal
Die Attributwerte sind geordnet und somit Gleichheitsvergleiche (ist ein Wert gleich einem anderen?) und relationale Vergleiche (ist ein Wert kleiner oder größer als ein anderer?) sind erlaubt, obwohl es möglicherweise nicht möglich ist, die Differenz zwischen den Werten zu quantifizieren!
9 / 47

Stefan Bosse - Maschinelles Lernen - Daten und Sensoren - Datenklassen (longitudinal)

Datenklassen (longitudinal)

  • Sensor- und Messdatenvariablen (sowohl kategorisch wie auch metrisch) können weiter unterschieden werden in:
Statisch
Die Variable s ist zeitlich nicht veränderlich bzw. ist in einem wesentlichen Zeitintervall t ∈ [t0, t1] als stationär (unveränderlich) anzusehen.
Dynamisch
Zeitlich veränderliche Variable s(t) ist zeitabhängig und bildet eine Datenserie (oder Zeitvektor) s(t)={s0,s1,..st} bei disketer Erfassung, d.h., wir sprechen von longitudinalen Daten.

Ein Sensorsignal ist zeitlich immer diskret, aber die physikalische Variable die der Sensor misst ist zeitlich kontinuierlich (Sampingtheorem beachten)

10 / 47

Stefan Bosse - Maschinelles Lernen - Daten und Sensoren - Daten

Daten

Datensätze als Matrizen

  • Ein Menge von Daten kann in Matrizenform als Matrix D dargestellt werden (Analogie zur Tabellenform) [1]:

11 / 47

Stefan Bosse - Maschinelles Lernen - Daten und Sensoren - Daten

  • Der Vektor X ist die Menge aller Variablen (Sensoren) und die Spalten der Matrix D:

X=(x1,x2,..,xd)

  • Jede Zeile xj ist ein Rekord der Variablenmenge {Xi|i=1,d} mit konkreten Werten und geben als d-stelliges Tupel je nach Anwendung und Zielsetzung einzelne Beispiele, Instanzen, Experimente, Entitäten, Objekte, und Eigenschaftsvektoren wieder:

dj=xj=(xj,1,xj,2,..,xj,d)

// JavaScript
type row = { x1:number|string, x2:number|string, ..,
xd:number|string }
type table = row array;
12 / 47

Stefan Bosse - Maschinelles Lernen - Daten und Sensoren - Eingabe- und Ausgabevariablen

Eingabe- und Ausgabevariablen

  • Die Variablenmenge setzt sich aus Ein- und Ausgabevariablen zusammen

  • Sensoren sind typischerweise Eingabevariablen x

  • Aussagen sind Ausgabevariablen y, also Ergebnisse die sich aus den Eingangsvariablen ableiten lassen können (durch eine Funktion F):

Xxy=(X1,X2,..,Xu,Y1,Y2,..,Yv)X=(X1,X2,..,Xu)Y=(Y1,Y2,..,Yv)dj=(xj,1,xj,2,..,xj,u,yj,1,yj,2,..,yj,v)F(X):XY,

mit u+v=d.

13 / 47

Stefan Bosse - Maschinelles Lernen - Daten und Sensoren - Merkmale und Eigenschaften (Features)

Merkmale und Eigenschaften (Features)

Wir unterscheiden zwei Arten von Merkmalen:

Eingabemerkmale Fti
Das sind Merkmale der Eingabedaten x. Das können z.B. statistische Eigenschaften wie der Mittelwert oder Frequenzen eines Zeitsignals sein. Die Merkmale sollen möglichst die Zielmerkmale verstärken, also eine signfikante (wenn auch noch nicht bekannte) Abhängigkeit Fto(Fti) besitzen
Ziel- und Ausgabemerkamel Fto
Das sind die Ergebnisse der Datenanalyse, z.B. die Antwort auf die Frage Schaden Ja/Nein?, oder eine Schadensposition, eine Überlebenswahrscheinlichkeit. Die Eingabemerkmale sind die starken Variablen für die Modellfunktion M, die wir suchen.
14 / 47

Stefan Bosse - Maschinelles Lernen - Daten und Sensoren - Merkmale und Eigenschaften (Features)

  • Die Merkmalsselektion ist also die Vorstufe und Datenvorverarbeitung, selten werd mit Rohdaten direkt gearbeitet

  • Es muss eine Merkmalsselektionsfunktion MF geben, die automatisch die Merkmale aus den den Daten ableitet:

M(x):xyFtoyMF(x):xFtiMt(Fti):FtiFto

15 / 47

Stefan Bosse - Maschinelles Lernen - Daten und Sensoren - Beispiel einer Datenmatrix

Beispiel einer Datenmatrix

  • Botanischer Datensatz mit geometrischen (numerischen) Eigenschaften einer Pflanze und kategorischer Klassifikation:

1

16 / 47

Stefan Bosse - Maschinelles Lernen - Daten und Sensoren - Beispiel einer Datenmatrix

  • Messdatensatz

Berechnetes Dehnungs-Spannungsdiagramm

www.precifast.de/elastizitaetsmodul-e-modul

Messdaten aus Dehnversuch
 

Dehnung [mm] Kraft [kN]
0 0
0.1 0.2
0.2 0.7
0.3 1.5
0.4 1.7
0.5 1.9
0.6 2.0
0.7 0.2
0.8 -0.5
17 / 47

Stefan Bosse - Maschinelles Lernen - Daten und Sensoren - Beispiel einer Datenmatrix

Attribute

  • Die gemessenen Variablen X1 bis X4 sind metrische Datenvariablen, die Variable X5=y ist eine kategorische Variable!

  • Die gemessenen Variablen X1 bis X4 (also Sensoren) nennt man Attribute, da sie Eigenschaften und beschreibende Variablen der Zielvariablen y sind

18 / 47

Stefan Bosse - Maschinelles Lernen - Daten und Sensoren - Sensoren

Sensoren

Welche Sensoren und Messdaten kennt ihr:

19 / 47

Stefan Bosse - Maschinelles Lernen - Daten und Sensoren - Sensoren

Sensoren

  • Messtechnik

    • Physikalische Größen wie Temperatur, Dehnung, Spannung, Zeit
    • Fusionierte Umfragevariablen (z.B. Ensemblemittelwerte)
  • Bei der Messung mit Sensoren unterscheidet man:

    • Einmalige bzw. einzelne Messungen (single shot)
    • Wiederholte Messungen der gleichen physikalischen Größe (Mittelwertbildung..)
    • Serien von Messwerten, vor allem zeitaufgelöste Datenserien:
      D = {d1,d2,..,dn}, wobei i.A. Δt(di,di+1)=constant
20 / 47

Stefan Bosse - Maschinelles Lernen - Daten und Sensoren - Sensoren

Sensoren

  • Soziotechnische Systeme, Umfragen

    • Umfragevariablen (Antworten auf Fragen) sind Sensoren von einzelnen Menschen
    • Fusionierte Umfragevariablen (z.B. Ensemblemittelwerte) sind Sensoren von Menschengruppen
  • Allgemein verfügbare Daten

    • Soziale Netzwerke und soziale Medien
    • Datenbanken von Behörden usw.
21 / 47

Stefan Bosse - Maschinelles Lernen - Daten und Sensoren - Sensormodell

Sensormodell

  • Ein Sensor ist ein Messwandler, auch in der Soziologie (Indikator für eine Eigenschaft die nicht direkt messbar ist)

  • Ein Sensor bildet daher eine i.A. physikalische Größe x auf eine andere Größe y ab:

S(x):xy,K:correct(xy)

  • Es gibt i.A. eine Kalibrierungsfunktion K(f,x,y)

  • Beispiele:

    • Druck → Spannung, Strahlung → Strom, usw.
    • Soziale Vernetzung → Numerischer Radiuswert, Wählerstimmen → Politik, d.h., Zuordnung von Zahlen zu Objekten oder Ereignissen nach festgelegten Regeln
22 / 47

Stefan Bosse - Maschinelles Lernen - Daten und Sensoren - Sensordaten

Sensordaten

  • Sensoren S sind Datenquellen d von physikalischen, soziologischen oder sonstigen natürlichen nicht direkt erfassbaren Größen x

  • Die Datenwerte (numerisch) werden in einem definierbaren Intervall liegen

    • Die Kenntnis des Werteintervalls ist wichtig für spätere Datenverarbeitung, Analyse, und Maschinelles Lernen!
    • Kategorische Werte werden ebenfalls durch eine Menge definiert

S(x):xdd[a,b]{v0,v1,..,vi}

23 / 47

Stefan Bosse - Maschinelles Lernen - Mess- und Sensorische Systeme - Sensordaten

Mess- und Sensorische Systeme

Der Ursprung der Daten für Analyse und Maschinelles Lernen!

Ein Sensor kommt selten allein.

24 / 47

Stefan Bosse - Maschinelles Lernen - Mess- und Sensorische Systeme - Messverfahren

Messverfahren

Man unterscheidet zwei verschiedene Messverfahren:

Passives Messverfahren
Die sensorischen Werte sind Ergebnis einer intrinsischen Eigenschaft (Dichte) oder bereits existierender externer Größen (Temperatur). Der Stimulus der Messung ist das Bauteil, der Mensch, die Umwelt.
Aktive Messverfahren
Es gibt einen aktiven Stimulus dessen Antwortsignal durch den Sensor erfasst wird. Beispiel ist das Ultraschallmessverfahren mit geführten Wellen. Das Sensorsignal ist immer abhängig vom Stimulus. In der Soziologie ist der Stimulus z.B. ein Fragenkatalog in einer Umfrage, die Antworten sind die Sensorvariablen.
25 / 47

Stefan Bosse - Maschinelles Lernen - Mess- und Sensorische Systeme - Sensoraggregation

Sensoraggregation

Sensorklassen

Physische Sensoren
Physische Sensoren messen direkt eine Größe mit einem Messinstrument (kann auch die Auswertung einer Frage in einem Fragebogen sein), Smartphone
Virtuelle Sensoren
Verwenden Daten (von physischen und anderen virtuellen Sensoren) um neue sensorische Werte zu berechnen (kein Messinstrument) → Aggregatoren!!
26 / 47

Stefan Bosse - Maschinelles Lernen - Mess- und Sensorische Systeme - Sensoraggregation

Sensoraggregation

Schichtenmodell von Sensorischen Systemen

In sensorischen Systemen werden Sensordaten in verschiedenen Ebenen verarbeitet:

  • Vertikale Ebenen repräsentieren die sensorischen Domainen und die Sensorklassen;

  • Horizontale Ebenen repräsentieren die Datenverarbeitung.

27 / 47

Stefan Bosse - Maschinelles Lernen - Mess- und Sensorische Systeme - Sensoraggregation

Sensoraggregation

Vertikale Ebenen

Perzeption
Hier findet die Akquisition der rohen Sensordaten statt. Die Sensoren sind räumlich verteilt und werden lokal vorverarbeitet.
Aggregation
Einzelne Sensordaten werden zeitlich und räumlich zusammengeführt und gesammelt (Sensorfusion)
Applikation
Die gesammelten Daten werden nutzbar gemacht: Weitere Datenverarbeitung, Aufbereitung, Eigenschaftsselektion, Informationsgewinnung, Visualisierung
28 / 47

Stefan Bosse - Maschinelles Lernen - Mess- und Sensorische Systeme - Sensoraggregation

Sensoraggregation

Horizontale Ebenen

  • Die horizontalen Ebenen durchziehen alle vertikalen Ebenen:
    1. Sicherheit
    2. Datenverarbeitung
    3. Kommunikation
    4. Datenspeicherung
    5. Nachrichtenvermittlung
    6. Management
29 / 47

Stefan Bosse - Maschinelles Lernen - Mess- und Sensorische Systeme - Sensoraggregation

Sensoraggregation

figsenslayers1

Grundlegender Zusammenhang der horizontalen und vertikalen Ebenen in Sensorischen Systemen

30 / 47

Stefan Bosse - Maschinelles Lernen - Mess- und Sensorische Systeme - Sensoraggregation

Sensoraggregation

figsenslayers2

Räumliche Abbildung der vertikalen Ebenen auf Cloud Computing

31 / 47

Stefan Bosse - Maschinelles Lernen - Mess- und Sensorische Systeme - Sensoren in den Ebenen

Sensoren in den Ebenen

Erfassung
Vorwiegend physische Sensoren
Aggregation
Virtuelle Sensoren, Datenreduktion (Größe und Dimensionalität)
Applikation
Datenanalyse und Modellbildung, Inferenz von Information, Maschinelles Lernen
32 / 47

Stefan Bosse - Maschinelles Lernen - Mess- und Sensorische Systeme - Umfragen und Crowd Sensing

Umfragen und Crowd Sensing

  • Menschen sind Sensoren

8

Von klassischen Umfragen zu mobilen Crowd Sensing mit Smartphones

33 / 47

Stefan Bosse - Maschinelles Lernen - Mess- und Sensorische Systeme - Messfehler und Vertrauen

Messfehler und Vertrauen

  • Die Messgrößen können statisch (zeitlich konstant) oder dynamisch (zeitlich veränderlich) sein. Die Wandlung dieser Messgrößen ergeben dann entsprechend Gleich- und Wechselsignale.

  • Auch eine prinzipiell zeitlich unveränderliche Messgröße (bezogen auf die Messung in einem vorgegeben Zeitinterval τ) erzeugt kein konstantes Signal. Ursache: Rauschen

  • Wiederholt man daher eine Messung N-mal unter gleichen Bedingungen, so wird man eine Reihe von verschiedenen Messwerten {s1,s2,...,sn} erhalten.

  • Es gibt systematische und zufällige Fehler bei der Messung, die sich überlagern.

34 / 47

Stefan Bosse - Maschinelles Lernen - Mess- und Sensorische Systeme - Messfehler und Vertrauen

Messfehler und Vertrauen

Systematische Abweichung (systematischer Fehler)

  • Abweichung wird durch den Sensor verursacht
  • z.B.: falsche Eichung, dauernd vorhandene Störungen wie Reibung
  • lässt sich nur durch sorgfältiges Untersuchen der Fehlerquelle beseitigen

Zufällige Abweichung (zufälliger oder statistischer Fehler)

  • Abweichung wird durch unvermeidbare, regellose Störungen verursacht
  • bei wiederholter Messung weichen Einzelergebnisse voneinander ab
  • Einzelergebnisse schwanken um einen Mittelwert
35 / 47

Stefan Bosse - Maschinelles Lernen - Mess- und Sensorische Systeme - Messfehler und Vertrauen

Messfehler und Vertrauen

9 figmeaserr1

Offset und Präzision bei der Messung einer Variable X

36 / 47

Stefan Bosse - Maschinelles Lernen - Mess- und Sensorische Systeme - Messfehler und Vertrauen

Messfehler und Vertrauen

Systematische Fehler

  • Eine Messgröße X ist meistens durch störende Messgrößen Y,Z,... usw. überlagert:

K(X,Y,Z) : X×Y×ZS,K(x,y,z)mn=0anxn+mn=0bnyn+mn=0cnzn

So kann z.B. bei einer Messung einer Kraft oder einer Dehnung die umgebende Temperatur T oder Strukturschwingungen Einfluss auf den Sensor und dessen Übertragungsfunktion und somit auf das Messsignal S haben.

37 / 47

Stefan Bosse - Maschinelles Lernen - Mess- und Sensorische Systeme - Messfehler und Vertrauen

Messfehler und Vertrauen

Systematische Fehler

So kann z.B. bei einer Messung von sozialpsychologischen Parametern der Wohnort und die Lebensumgebung Einfluss auf den Sensor und dessen "Übertragungsfunktion" und somit auf das "Messsignal" S haben.

38 / 47

Stefan Bosse - Maschinelles Lernen - Mess- und Sensorische Systeme - Messfehler und Vertrauen

Messfehler und Vertrauen

9 figinstrmod3

  • Systematische Fehler verfälschen die Kalibrierungsfunktion (z. B. bei Geraden den Offset und Steigung). Sind sie bekannt, können sie kompensiert (rausgerechnet) werden.
  • Systematische Fehler können aber auch während der Signalverarbeitung entstehen, so z.B.
    • Offsetspannungen und zeitlicher Drift von Parametern (Verstärkungsfaktor); durch
    • Rundungsfehler oder Verwendung von Funktionsmodellen außerhalb ihres Spezifikationsbereiches.
39 / 47

Stefan Bosse - Maschinelles Lernen - Mess- und Sensorische Systeme - Messfehler und Vertrauen

Messfehler und Vertrauen

Zufällige Fehler - Streuung

  • Zufällige Fehler beeinflussen die Genauigkeit einer Messung (Rauschen).

  • Rauschen beeinflußt die Berechung von Eingabedaten- und Zieleigenschaften (ML Ausgabe)!

  • Wiederholt man eine Messung einer Größe X die durch reine zufälligen Fehler verfälscht wird, so ist die Häufigkeitsverteilung der Messwerte S={s1,s2,...,sn} um einen Mittelwert ¯S durch eine Gaussverteilung gegeben (dabei muss die Anzahl der Messungen N groß sein).

40 / 47

Stefan Bosse - Maschinelles Lernen - Mess- und Sensorische Systeme - Messfehler und Vertrauen

9 figgaussdist

Häufigkeitsverteilung nach Gauss von Messwerten um einen Mittelwert

41 / 47

Stefan Bosse - Maschinelles Lernen - Mess- und Sensorische Systeme - Messfehler und Vertrauen

Messfehler und Vertrauen

  • Der Mittelwert S repräsentiert die Abschätzung des wahren/wirklichen Wertes Σ der Messgröße X (oder S):

¯S = 1N Ni=1si

  • Die Standardabweichung ist ein Maß für die Zuverlässigkeit (Präzision) der einzelnen Messwerte einer Messreihe {s1,s2,...,sn}:

σ =  1N1 Ni=1(si¯S)2 

42 / 47

Stefan Bosse - Maschinelles Lernen - Mess- und Sensorische Systeme - Messfehler und Vertrauen

Eine Vergrößerung der Anzahl N der Messungen (unter gleichen Bedingungen!) führt zu einer Verbesserung des Mittelwertes ¯S (Grenzfall N → ∞), nicht aber zu einer wesentlichen Verkleinerung der Standardabweichung σ, da die Genauigkeit nicht steigt!

43 / 47

Stefan Bosse - Maschinelles Lernen - Mess- und Sensorische Systeme - Messfehler und Vertrauen

Messfehler und Vertrauen

  • Der wirkliche Mittelwert Σ ist nicht bekannt (nur im Grenzfall N → ∞ ist ¯S=Σ) - Es gibt aber ein Vertrauensintervall mit einer Wahrscheinlichkeit P dass dieser darin enthalten ist:

Σ ∈ [¯S-σ,¯S+σ] mit 68.3%

Σ ∈ [¯S-2σ,¯S+2σ] mit 95.4%

Σ ∈ [¯S-3σ,¯S+3σ] mit 99.73%

44 / 47

Stefan Bosse - Maschinelles Lernen - Mess- und Sensorische Systeme - Messfehler und Vertrauen

Messfehler und Vertrauen

  • Auch in der Soziologie!

figinstrmodnoise

Rauschquellen bei einer Messung

45 / 47

Stefan Bosse - Maschinelles Lernen - Mess- und Sensorische Systeme - Beispiele: Statistische Analyse

Beispiele: Statistische Analyse

46 / 47

Stefan Bosse - Maschinelles Lernen - Mess- und Sensorische Systeme - Zusammenfassung

Zusammenfassung

  • Daten können klassifiziert werden in:

    • Kategorische Variablen und Werte
    • Metrische Variablen und Werte
    • Zeitlich statische Variablen
    • Zeitl dynamische Variablen (Zeitserien)
  • Alle Sensorvariablen unterliegen Messfehlern:

    • Rauschen
    • Verzerrung
    • Verschiebung (Bias)
    • Problem der Reproduzierbarkeit und systematische Fehler (Umgebung!)
  • Eine (statistische) Datenanalyse ist häufig erster Schritt im ML Workflow

47 / 47