PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul G: Daten- und Dimensionalitätsreduktion
In der Soziologie
PD Stefan Bosse
Universität Bremen - FB Mathematik und Informatik
PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul G: Daten- und Dimensionalitätsreduktion
Datenreduktion ist ein wichtiger Schritt in der Datenvorverarbeitung für ML
Ziel: Reduktion der Datenvariablen (Attribute) → Dimensionalitätsreduktion pro Instanz
Ziel: Reduktion der Dateninstanzen (durch kleine Anzahl von Repräsentanteninstanzen) → Datenvolumenreduktion
PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul G: Daten- und Dimensionalitätsreduktion
Die Daten sind sowohl hinsichtlich Dimensionalität des Eingabevektors x als auch hinsichtlich der Anzahl von Dateninstanzen |D| sehr groß
Es gibt Redundanzen
Trennung von wenig aussagekräftigen (schwachen) von aussagekräftigen (starken) Variablen
PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul G: Daten- und Dimensionalitätsreduktion
Wenn die Dimensionalität der Eingabedaten x zunimmt, wird jedes Lernproblem immer schwieriger und rechenintensiver!
4