Übung 5 zu Einführung in Maschinelles Lernen (PD Stefan Bosse)

Datenreduktion mit PCA und DBSCAN

Datenreduktion mit PCA und DBSCAN
Allgemeine Hinweise
Daten
Numerische Daten
Energy efficiency Data Set
Principle Component Analysis
Vorbereitung
PCA im ML Modul
Datenvorverarbeitung
Eigenvektoren berechnen lassen
Reduzierte Datentabelle
Rekonstruktion der Datentabelle
Fehlerberechnung der reduzierten Datentabelle
Dichtebasiertes Clustering (DBSCAN)
Datentransformation
Clustering
Test

Allgemeine Hinweise

this.data=[];
var self=this;
function foo( )  {
  self.push([1,2,3,4])
}

Daten

Numerische Daten

Energy efficiency Data Set

DATA: Variable State.dataIR01 Type: { length : number, width : number, petal_length : number, petal_width : number, species : string } [151]

X1 length
X2 width
X3 petal_length
X4 petal_width
Y1 species
X,Y=species

 ▸ 
 ✗ 
 ≡ 

Principle Component Analysis

Vorbereitung

PCA im ML Modul

  1. Berechnung der Eigenvektoren aus der Datentabelle (nur x)
  2. Berechnung eienr reduzierten Datentabelle x' unter Verwendung mindestens eines Eigenvektors (Reihenfolge beachten: Absteigend nach Einfluss sortiert)
  3. Rekonstruktion der ursprünglichen Datentabelle aus der reduzierten und transformierten Tabelle

Nachfolgend wird gezeigt wie numerischen Datentabellen analysiert und reduziert werden können.

Datenvorverarbeitung

Formattierung der Eingabedaten

 ▸ 
 ✗ 
 ≡ 

Eigenvektoren berechnen lassen

Eigenvektoren mit PCA berechnen

 ▸ 
 ✗ 
 ≡ 

Frage. Wie viele Eigenvektoren werden bestimmt, welche Dimensionalität besitzen sie, und wovon hängen diese Parameter ab?

Reduzierte Datentabelle

Reduzierte Datentabelle berechnen

 ▸ 
 ✗ 
 ≡ 

dataT=Math.Matrix(data).transpose().data;

Frage. Wie verändert sich die reduzierte Datentabelle unter Hinzunahme weiterer Eigenvektoreen? Ausprobieren .. (ML.pca.computeAdjustedData(this.data, this.eigen[0], this.eigen[1], ..))

Rekonstruktion der Datentabelle

Rekonstruktion der Datentabelle berechnen

 ▸ 
 ✗ 
 ≡ 

Frage. Kommt exakt die ursprüngliche Tabelle wieder zustande Wenn alle Eigenvektoren verwendet werden? Ausprobieren ..

Fehlerberechnung der reduzierten Datentabelle

Rekonstruktion der Datentabelle berechnen

 ▸ 
 ✗ 
 ≡ 

Dichtebasiertes Clustering (DBSCAN)

Datentransformation

Eingabedaten für DBSCAN erzeugen

 ▸ 
 ✗ 
 ≡ 

Clustering

Clustergruppen mit DBSCAN berechnen

 ▸ 
 ✗ 
 ≡ 

Frage. Versuche eine optimal verteilte Clusterverteilung und maximal große Clusteranzahl zu erreichn in dem die Parameter variiert werden. Bei welchen Parametersätzen gibt es gute Lösungen?

Test

Analyse der Clustergruppen

 ▸ 
 ✗ 
 ≡ 

Frage. Bestimme die Häufigkeitsverteilungen der Zielvariablewerte in den jeweiligen Clustern. Versuche dem Clusterindex ein Zielvariablenwert zuzuordnen. Ist dieser Clusterer ein (guter) Klassifikator? Und wenn ja, was lässt aus dem Zusammenhang von x mit y folgern?


Hilfe



Prüfen



Bewerten (Lehrer)




Created by the NoteBook Compiler Ver. 1.8.13 (c) Dr. Stefan Bosse (Wed Feb 03 2021 19:35:59 GMT+0100 (CET))