PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul G: Daten- und Dimensionalitätsreduktion

Maschinelles Lernen und Datenanalyse

In der Soziologie

PD Stefan Bosse

Universität Bremen - FB Mathematik und Informatik

1 / 31

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul G: Daten- und Dimensionalitätsreduktion

Daten- und Dimensionalitätsreduktion

Datenreduktion ist ein wichtiger Schritt in der Datenvorverarbeitung für ML

Ziel: Reduktion der Datenvariablen (Attribute) → Dimensionalitätsreduktion pro Instanz

Ziel: Reduktion der Dateninstanzen (durch kleine Anzahl von Repräsentanteninstanzen) → Datenvolumenreduktion

2 / 31

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul G: Daten- und Dimensionalitätsreduktion

Motivation für Datenreduktion

  1. Die Daten sind sowohl hinsichtlich Dimensionalität des Eingabevektors x als auch hinsichtlich der Anzahl von Dateninstanzen |D| sehr groß

  2. Es gibt Redundanzen

    • a. Von Datenvariablen (lineare Abhängigkeit)
    • b. Von Dateninstanzen (Redundanz und Überlappung)
    • Aber: Reduktion bei b. kann die geforderte Datenvarianz verschlechtern!
  3. Trennung von wenig aussagekräftigen (schwachen) von aussagekräftigen (starken) Variablen

3 / 31

PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul G: Daten- und Dimensionalitätsreduktion

Wenn die Dimensionalität der Eingabedaten x zunimmt, wird jedes Lernproblem immer schwieriger und rechenintensiver!

  • Beispielsweise werden in regelmäßigen Abständen 5 Punkte von [0,1] abgetastet.
    • Das sammeln von Proben auf die gleiche Weise im d-dimensionalen Raum erfordert 5d-Punkte, die exponentiell in Bezug auf d wachsen.

4