Maschinelles Lernen und Datenanalyse

In der Mess- und Prüftechnik

PD Stefan Bosse

Universität Bremen - FB Mathematik und Informatik

1 / 33

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul 0 Überblick ::

Überblick

Anwendungsklassen von Maschinellen Lernen

2 / 33

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul 0 Überblick :: Motivation

Motivation

Dieser Kurs mit interaktiven Übungen soll:

  • Einen anwendungsorientierten Einstieg in die Datenanalyse und Interpretation mit Verfahren des Maschinellen Lernens bieten;

  • Einen Überblick über gängige und weniger gängige Verfahren geben;

  • Interaktive Tutorials und Übungen mit zielgruppenorientierten Fallbeispielen sollen Verfahren begreifbar und erfahrbar machen!

3 / 33

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul 0 Überblick :: Inhalte

Inhalte

  • Die Ontologie des Kurses besteht aus den Bausteinklassen:

    • Modelle (Datenstrukturen)
    • Verfahren (Algorithmen: Training, Test, Inferenz)
    • Überwachtes Training
    • Nichtüberwachtes Training
  • Weiterhin aus den Anwendungs- und Datenklassen:

    • Sensorische und experimentelle Daten (Mess- und Prüftechnik)
    • Erhebungs- und Umfragedaten (Soziologie) ⇒ Der Mensch als Sensor!
    • Metrische und Kategorische Variablen
4 / 33

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul 0 Überblick :: Inhalte

Die Grenzen der Datenklassen sind fließend! Material, Maschine und Mensch als Sensoren!

5 / 33

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul 0 Überblick :: Inhalte

Gemeinsame Verfahren und Modelle → Unterschiedliche Daten, Aussagen, Anwendungen

6 / 33

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul 0 Überblick :: Organisation der Veranstaltung

Organisation der Veranstaltung

  1. Vorlesungen mit integrierten Übungen

    • Vermittlung der Grundlagen
    • Unmittelbare Übung und Anwendung der Grundlagen mit einfachen Übungen
  2. Asynchrone Videos und Tutorials

    • Auch offline seh- und hörbar
  3. Gemeinsame Treffen mit Videokonferenz (Zoom, falls erforderlich)

  4. Interaktive Tutorials und Übungen mit NoteBook und WorkBook (NoteBook-2) im Web Browser!

    • Offline ausführbar (evtl. werden Daten von einem Server geladen)
7 / 33

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul 0 Überblick :: Organisation der Veranstaltung

Organisation der Veranstaltung

  1. Texte und Folien
    • Vorlesungsskript (am Anfang: für jedes Modul/jede Einheit) als Ebook
    • Das Vorlesungsskript gibt die Folieninhalte 1:1 wieder (nur anderes Layout und kompaktiert)
    • Alle Folien im HTML Format (auch offline lesbar)
    • Begleitende Literatur (Bücher im PDF)
8 / 33

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul 0 Überblick :: Services

Services

  1. Web Service: Informationen, Dokumente, Folien, Videos:
    https://edu-9.de/Lehre/ml3k

  2. Dokuwiki: News, Informationen und Links, Chats, Videostreams:
    https://ag-0.de/dokuwiki

    • Registrierung und Login erforderlich
    • Interaktiv!
  1. Videos: https://edu-9.de/Lehre/ml3k
9 / 33

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul 0 Überblick :: Prüfungsleistungen

Prüfungsleistungen

  1. Eine mündliche Abschlussprüfung (20 Minuten); oder alternativ 2.

  2. Eine schriftliche Seminararbeit (Experimentelle Arbeit oder Literaturrecherche)

    • 15-20 Seiten PDF
    • Grundstruktur: Erarbeitung des wissenschaftlichen Standes, Diskussion und Bewertung, Beschreibung und Dokumentation der experimentellen Arbeit, Diskussion von Ergebnissen (bei experimenteller Arbeit), Zusammenfassung
  3. Bearbeitung und Abgabe der digitalen Übungen (JSON Dateien)

    • Punktesystem: 0/1/2 für Aufgaben und gesamten Übungszettel
    • Es muss jeder Übungszettel eingereicht werden und wenigstens einen Punkt erhalten.
10 / 33

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul 0 Überblick :: Literatur

Literatur

  • Zur Vertiefung!

S. Richter, Statistisches und maschinelles Lernen. Springer Spektrum, 2019.

E. Alpaydın, Introduction to Machine Learning. MIT Press, 2010.

11 / 33

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul 0 Überblick :: Literatur

Programmierung

Axel Rauschmayer, JavaScript For Impatient Programmers.

M. Haverbeke, Eloquent JavaScript. 2018.

12 / 33

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul 0 Überblick :: Literatur

Domainspezifische Literatur

J. Bell, Machine Learning - Hands-On for Developers and Technical Professionals. John Wiley & Sons, Ltd, 2015.

P. Attewell and D. B. Monaghan, Data mining for the social sciences : an introduction. University of California Press, 2015.

13 / 33

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul 0 Überblick :: Software

Software

NoteBook

  • Interaktive vorwiegend praktische Übungen werden rein digital im Web Browser mit den NoteBooks durchgeführt

  • Ein digitale Übung (oder Turorial) besteht aus:

    • Textabschnitten
    • Informationsblöcken
    • Aufgaben (mit Lösungen)
    • Editoren für Programmcode
    • Ausführungsterminals für Programmcode
    • uvm.
14 / 33

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul 0 Überblick :: Software

Ein NoteBook im WEB Browser

15 / 33

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul 0 Überblick :: Software

NoteBook Konzept

  • Top-down Bearbeitungsfluss

  • Statische Struktur mit dynamischen Inhalten

  • Alle dynamischen Inhalte können in einer JSON Datei gespeichert und wieder geladen werden

  • Es können Notizzettel überall im NoteBook angeheftet werden (werden auch gespeichert)

  • Musterlösungen (dynamische Inhalte) können eingebettet und mit einem Schlüssel freigeschaltet werden

16 / 33

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul 0 Überblick :: WorkBook

WorkBook

  • Dynamische Struktur mit dynamischen Inhalten

  • Ein WorkBook besteht aus

    • Textabschnitten (MarkDown)
    • Codesnippets mit Editoren und Ausgabekonsolen
    • Speziellen Snippets wie editierbare Tabellen oder allg. Formulare
  • Programmierung in JavaScript, aber menügesteuerte und geführte Auswahl von Ausführungsblöcken mit einer kursspezigischen Bibliothek

  • Alle dynamischen Inhalte und Daten können im JSON Format gespeichert und wieder geladen werden

Die NoteBook Konzepte (Editierbare Aufgaben und Einreichungs-/Hilfefunktion) sind jetzt auch hier integriert

17 / 33

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul 0 Überblick :: WorkBook

Ein WorkBook Beispiel

18 / 33

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul 0 Überblick :: Machinelles Lernen

Machinelles Lernen

Schlüsselwörter und Begriffe

Welche Begriffe werden häufig bei ML genannt:

19 / 33

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul 0 Überblick :: Machinelles Lernen

Anwendungsgebiete

Welche Anwendungsgebiete gibt es:

20 / 33

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul 0 Überblick :: Machinelles Lernen

Fragestellungen

Welche Fragestellungen (zu lösende Probleme) gibt es:

21 / 33

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul 0 Überblick :: Inhalte

Inhalte

  1. Eingabe x: Daten (Attribute) und Eigenschaften (Analyse)

  2. Sensoren: Erfassung von Daten, S(welt): weltx

  3. Ausgabe y: Numerische und kategorische Werte

  4. Metriken und Taxonomie: Grundlagen des Maschinellen Lernens

  5. Algorithmen und Modelle: f(x): xy

  6. Training, Lernen, Prädiktion, Test M(<x,y>): <x,y> → f

  7. Anwendungen

22 / 33

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul 0 Überblick :: Geschichte

Geschichte

www.pinterest.com Die Geschichte fokussiert auf Neuronale Netze. Es gibt mehr.

23 / 33

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul 0 Überblick :: Modelle

Modelle

  1. Entscheidungsbäume (gerichtete Graphen)

  2. Funktionen (z.B. Polynome)

  3. Funktionsgraphen (z.B. künstliche neuronale Netzwerke)

24 / 33

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul 0 Überblick :: Algorithmen

Algorithmen

  1. Entscheidungsbäume: C4.5, ID3, IDT, Regressionsbäume
    • Teilungsverfahren (mit Entropie, Informationsgewinn, usw.)
  2. Lineare und nichtlineare Regression, Support Vector Machines (SVM)
    • Least Square Fit (iterativ, mehrschrittig)
    • Lineare Algebra (numerisch, einschrittig)
  3. Datenanalyse!: Hauptkomponentenanalyse, statistische Methoden
  4. Bayesien Netzwerke mit statistischem Methoden (probabalistische Verfahren)
  5. Rückwärtspropagation von Fehlergradienten (vor allem KNN) aus Vorwärtsberechnung
  6. Überwachte und nichtüberwachte Trainingsverfahren
  7. Zustandsbasierte Funktionen (LSTM) für Datenserien
25 / 33

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul 0 Überblick :: Datenanalyse und Eigenschaftsselektion

Datenanalyse und Eigenschaftsselektion

Wir unterscheiden folgende Klassen von Eigenschaften in der Datenanalyse und Prädiktion (Merkmale, Features):

  1. Eigenschaften der Eingabedaten, vor allem dominante Eigenschaften abgeleitet aus den Eingabedaten x mit starker y Korrelation

    • Beispiel: Charakteristische Signalfrequenz einer Betriebsschwingung die auf einen Schaden hindeutet
  2. Zieleigenschaften, also Werte der Zielvariable y

    • Numerische Eigenschaften (kontinuierlich oder diskret), z.B. Materialdichte, Schadensposition, Bruchdehnung
    • Kategorische Eigenschaften, Z.B. Farbe, Tierart, Schadensklasse, Entscheidungen
26 / 33

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul 0 Überblick :: Datenanalyse und Eigenschaftsselektion

Datenanalyse und Eigenschaftsselektion

Häufig sind die rohen sensorischen Daten(variablen) zu hochdimensional und noch abhängig voneinander (schwache Korrelation mit y)

27 / 33

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul 0 Überblick :: Datenanalyse und Eigenschaftsselektion

Datenanalyse und Eigenschaftsselektion

Häufig sind die rohen sensorischen Daten(variablen) zu hochdimensional und noch abhängig voneinander (schwache Korrelation mit y)

Reduktion auf wesentliche Merkmale kann ML Qualität deutlich verbessern!

28 / 33

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul 0 Überblick :: Datenanalyse und Eigenschaftsselektion

Datenanalyse und Eigenschaftsselektion

Häufig sind die rohen sensorischen Daten(variablen) zu hochdimensional und noch abhängig voneinander (schwache Korrelation mit y)

Reduktion auf wesentliche Merkmale kann ML Qualität deutlich verbessern!

Häufig besitzen einzelne Sensorvariablen keine oder nur geringe Aussagekraft (geringe Entscheidbarkeitsqualität) geringe bis keine Korrelation mit y oder sogar Antikorrelation (Störung)

29 / 33

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul 0 Überblick :: Datenverarbeitung

Datenverarbeitung

  • Die Daten die als Grundlage für die Induktion (Lernen) und die Deduktion (Applikation/Inferenz der Zielvariablen) müssen i.A. vorverarbeitet werden → Merkmalsselektion
30 / 33

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul 0 Überblick :: Datenverarbeitung

Datenverarbeitung

  • Die Daten die als Grundlage für die Induktion (Lernen) und die Deduktion (Applikation/Inferenz der Zielvariablen) müssen i.A. vorverarbeitet werden → Merkmalsselektion

6 Maschinelles Lernen ist ein Werkzeug der Datenanalyse und des Data Minings

31 / 33

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul 0 Überblick :: Modellbildung

Modellbildung

100 Kausale vs. Prädiktive Modellbildung und Physikalische Modelle versa algorithmisch bestimmte Modelle (Hypothesen)

32 / 33

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul 0 Überblick :: Induktion und Deduktion

Induktion und Deduktion

6 Ablauf Überwachtes Lernen mit Trainings- (Induktion) und Applikationsphasen (Deduktion). Aber: Meistens keine Verallgemeinerung!

33 / 33