Nachfolgend wird gezeigt wie auf einfachen kategorischen Daten rein programmatisch ein einfacher Klassifikator programmiert (also algorithmisch erzeugt) werden kann.
Zunächst ein einfaches Beispiel mit einer Datentabelle aus zwei Eingabevariablen a und b und einer Zielvariable c
a
b
c
A1
B1
C1
A1
B2
C1
A1
B1
C1
A2
B2
C2
A2
B1
C2
Man sieht sofort dass Variable a eine starke, und b eine schwache variable ist um c zu berechnen, und eine Informationsgewinnanalyse würde dies sofort zeigen.
Beispiel Datentabelle
▸
✗
Nachfolgend zwei beispielhafte Implementierungen der Modellfunktion M(a,b): (a,b) → c:
Beispiel Klassifikator 1 und Test
▸
✗
Beispiel Klassifikator 2 und Test
▸
✗
Ersezte in obigen Beispielen die Eingabevariable und vergleiche das Ergebnis
Aufgabe. 1.
Benutze D=Datensatz 1.
Wähle das beste Attribute aus mit dem sich die Zielvariable mit der höchsten richtig-positiv Quote bestimmen lässt (also höchster Informationsgewinn), bestimme die Symbolmenge dieser Eingabevariable und der Zielvariable ('N','P'!).
Implementiere eine einfache Klassifikationsfunktion um aus x das y zu berechnen
Wende diese Funktion auf alle Instanzen aus D an
Gebe Ergebnisse und Fehler aus
Auswahl der Variable und die berechnete Fehlerrate in das Eingabefeld eintragen.
Klassifikator für Datensatz 1
▸
✗
Hilfe
Einreichung (Assignment #04-18091)
Prüfen
Bewerten (Lehrer)
Created by the NoteBook Compiler Ver. 1.8.8 (c) Dr. Stefan Bosse (Fri Dec 11 2020 15:40:10 GMT+0100 (CET))