PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul A: Daten und Sensoren

Maschinelles Lernen und Datenanalyse

In der Mess- und Prüftechnik

PD Stefan Bosse

Universität Bremen - FB Mathematik und Informatik

1 / 37

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul A: Daten und Sensoren

Daten und Sensoren

Metriken von Daten

Metriken von Aussagen

Sensoren als Datenquellen

2 / 37

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul A: Daten und Sensoren

Daten

  • Daten sind die Grundlage für die Modellbildung und Modelltestung

  • Daten können aus einer Vielzahl von Quellen stammen

    • Experiment
    • Simulation
    • Feldstudie
    • Abgeleitet aus anderen Datensätzen:
      MapAndReduce(D): DD'
3 / 37

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul A: Daten und Sensoren

Daten

  • Allgemein kann man Daten und deren Werte unterteilen in:

    • Skalare Werte, wie Temperatur, Alter, usw.
    • Serien von Skalaren Werten, wie Zeitserien
    • Vektorielle Werte wie Bilder
    • Zusammengesetzte Daten, also Datenrecords
  • Daten haben daher eine Dimensionalität 𝕏N, wobei die Wertemenge 𝕏 einer Dimension aus den ganzen ℕ, reelen ℝ, der Zeit 𝕋 oder kategorischen Wertemengen 𝕊 bestehen kann (oder Untermengen davon).

4 / 37

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul A: Daten und Sensoren

Datenreduktion

  • Ziel der Datenanalyse ist die Reduktion von Eingabedaten bezüglich Größe und Dimensionalität:

P(XN):XNYM|Y|<|X|,M<N

function isRaining(temp,sunrad,moisture) =
temp < 0 ? → false
temp > 40 ? → false
(sunrad-moisture) > 30? → false
true

Beispiel einer Datenreduktionsfunktion ℝ3 → 𝔹

5 / 37

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul A: Daten und Sensoren

Datenklassen

Numerische und Metrische Werte
Das sind Werte die abzählbar sind und wo man Relationen (wie kleiner oder größer) sinnvoll definieren kann, also alle reellen und ganzen Zahlen.
  • Beispiele: Temperatur, Länge, Ort, Zeit
Kategorische Werte
Das sind symbolische Werte für die entweder keine (sinnvolle) Ordnungsrelation existiert oder wo sich wenigstens keine Differenzen bilden lassen.
  • Beispiele: Staatsangehörigkeit, Farbennamen (rot < gelb???), Schadenstyp
6 / 37

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul A: Daten und Sensoren

Skalierung der numerischen Werte

Intervallskaliert
Für diese Art von Attributen sind nur Unterschiede (Addition oder Subtraktion) sinnvoll. Beispielsweise wird die in °C oder °F gemessene Temperatur intervallskaliert. Wenn es 20 °C an einem Tag und 10 °C am folgenden Tag ist, ist es sinnvoll, über einen Temperaturabfall von 10 °C zu sprechen, aber es ist nicht sinnvoll zu sagen, dass es doppelt so kalt ist wie am Vortag.
Verhältnisskaliert
Hier kann man sowohl Differenzen als auch Verhältnisse zwischen Werten berechnen. Zum Beispiel kann man für das Alter sagen, dass jemand, der 20 Jahre alt ist, doppelt so alt ist wie jemand, der 10 Jahre alt ist.
7 / 37

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul A: Daten und Sensoren

Ordnungsrelationen

Nominal
Die Attributwerte in der Domäne sind ungeordnet und somit nur Gleichheitsvergleiche sinnvoll. Das heißt, wir können nur überprüfen, ob der Wert des Attributs für zwei bestimmte Instanzen gleich ist oder nicht. Zum Beispiel ist Geschlecht ein nominales Attribut.
Ordinal
Die Attributwerte sind geordnet und somit Gleichheitsvergleiche (ist ein Wert gleich einem anderen?) und relationale Vergleiche (ist ein Wert kleiner oder größer als ein anderer?) sind erlaubt, obwohl es möglicherweise nicht möglich ist, die Differenz zwischen den Werten zu quantifizieren!
8 / 37

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul A: Daten und Sensoren

Daten

Datensätze als Matrizen

  • Ein Menge von Daten kann in Matrizenform als Matrix D dargestellt werden (Analogie zur Tabellenform) [1]:

9 / 37

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul A: Daten und Sensoren

  • Die Zeilen sind Rekords der Variablenmenge {Xi|i=1,d} und geben als d-stelliges Tupel je nach Anwendung und Zielsetzung einzelne Beispiele, Instanzen, Experimente, Entitäten, Objekte, und Eigenschaftsvektoren wieder

xi=(xi1,xi2,..,xid)

  • Der Vektor X ist die Menge aller Variablen (Sensoren) und die Spalten der Matrix D:

X=(x1,x2,..,xd)

type row = { X1:number, X2:number, .., Xd:number }
type table = row array;
10 / 37

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul A: Daten und Sensoren

Eingabe- und Ausgabevariablen

  • Sensoren sind typischerweise Eingabevariablen x

  • Aussagen sind Ausgabevariablen y, also Ergebnisse die sich aus den Eingangsvariablen ableiten lassen können (durch eine Funktion F):

X=(x1,x2,..,xu,y1,y2,..,yv)xi=(xi1,xi2,..,xiu,yi1,yi2,..