In der Mess- und Prüftechnik
PD Stefan Bosse
Universität Bremen - FB Mathematik und Informatik
Stefan Bosse - Maschinelles Lernen - Regression und Support Vector Machines -
Wie funktioniert Regression?
SVM gehören zu den Regressionsverfahren
SVM nutzen aber bei der Parameteranpassung (Training) eine andere Fehlerfunktion (Loss) als bei anderen gängigen Regressionsverfahren (z.B. Least-Square Minimierung)
SVM können primär kategorische und weniger numerische Zielvariablen abbilden
SVM sind aber (zunächst) lineare Klassifikatoren!
Stefan Bosse - Maschinelles Lernen - Regression und Support Vector Machines - Regressionsverfahren
Klassifikationsprobleme sind durch Booleschen Ausgabevariablen gekennzeichnet (Klasse ci={true,false})
Bei Regressionproblemen findet hingegen eine Ausgabe mit kontinuierlichen Variablen statt, idealerweise y ∈ [0,1]
D.h. es gibt Trainingsdaten mit:
D=Xt={→xt,rt}Nt=1
wobei r ∈ ℝ. Wenn Rauschen vernachlässigt wird handelt es sich um ein reines Interpolationsproblem.
Stefan Bosse - Maschinelles Lernen - Regression und Support Vector Machines - Regressionsverfahren
19
Lineare Gerade, Polynome zweiter Ordnung und sechster Ordnung werden an denselben Satz von Punkten angepasst. Die höchste Ordnung ergibt eine perfekte Passform, aber angesichts dieser vielen Daten ist es sehr unwahrscheinlich, dass die reale Kurve so geformt ist. Die zweite Ordnung scheint besser zu sein als die lineare Anpassung bei der Erfassung des Trends in den Trainingsdaten (Extrapolation).
Stefan Bosse - Maschinelles Lernen - Regression und Support Vector Machines - Regressionsverfahren
Es wird immer einen Fehler ε geben:
rt=f(→xt)+ϵ
arg minθ ϵ→E(g∣X)=1N∑(rt−g(→xt))2
Stefan Bosse - Maschinelles Lernen - Regression und Support Vector Machines - Regressionsverfahren
g(→x)=w1x1+w2x2+..+wdxd+w0=d∑j=1wdxd+w0
Schon dieses Problem kann unterbestimmt sein, d.h., es kann unendlich viele Hypothesen g von der unbekannten Funktion f geben!
Stefan Bosse - Maschinelles Lernen - Regression und Support Vector Machines - Regressionsverfahren
g(x)=w0+w1x+w2x2+..+wkxk=k∑j=1wjxj+w0
g(x)=w1x+w0E(w1,w0∣Xt)=1NN∑t=1(rt−(w1xt+w0))2
Stefan Bosse - Maschinelles Lernen - Regression und Support Vector Machines - Regressionsverfahren
w1=∑txtrt−¯¯¯x¯¯¯rN∑t(xt)2−N¯¯¯x2w0=¯¯¯r−w1¯¯¯x¯¯¯x=∑txtN,¯¯¯r=∑trtN
Stefan Bosse - Maschinelles Lernen - Regression und Support Vector Machines - Regressionsverfahren
g(→x)=d∑i=1k∑j=1wi,jxji+w0
Es können auch exponentielle, logarithmische, und sinusoidale Terme hinzukommen!
Ein numerisches Lösen ist meist nicht mehr möglich; daher Verwendung nichtlinearer Randbedingungslöser sowie statistische Verfahren wie randomiserte Monte Carlo Simulation und Simmuliertes Abkühlen (Evolutionäre Algorithmen?)
Stefan Bosse - Maschinelles Lernen - Regression und Support Vector Machines - Regressionsverfahren
Warum können hochdimensionale Polynome nicht mehr mit gradientenbasierten Verfahren numerisch auf einem Computer (gut oder überhaupt) lösbar sein? Hinweis: Wie entwickeln sich Gradienten bei Polynomen sehr hoher Ordnung oder gar Exponentialterme wie bn?
Stefan Bosse - Maschinelles Lernen - Regression und Support Vector Machines - Direkte Lösungsverfahren
4
Erweiterung der Eigenwertanalyse und verwendet Matrixalgebra und Inversionsmethoden
Ansatz: Dekomposition einer (nichtlinearen) Funktion f(x,Θ) mit b Basisfunktionen ϕ, z.B. sin oder ähnlich, mit Parametersatz Θ:
fΘ(→x)=b∑j=1Θjϕj(x)fΘ(→x)=→ΘT→ϕ(x)
Stefan Bosse - Maschinelles Lernen - Regression und Support Vector Machines - Direkte Lösungsverfahren
^Φ=⎛⎜⎝ϕ1(→x1)..ϕb(→x1)………ϕ1(→xn)..ϕb(→xn)⎞⎟⎠
Die Größe der Design Matrix als Ausgangspunkt für SVD/LS Verfahren wächst quadratisch mit der Anzahl der Trainingsdateninstanzen!
Stefan Bosse - Maschinelles Lernen - Regression und Support Vector Machines - Direkte Lösungsverfahren
^ΘLS=(ΦTΦ)−1ΦTy^ΘLS=ΦGy
mit ΦG als generalisierte Inverse der Matrix Φ
Die generalisierte Inverse wird dann mit dem SVD Verfahren mit sogenannten links- und rechtssingulären Vektoren bestimmt.
Vertiefung: M. Sugiyama, Introduction to Statistical Machine Learning. 2016, Kapitel 22.2
Stefan Bosse - Maschinelles Lernen - Regression und Support Vector Machines - Support Vector Machines (SVM)
Obwohl die SVM zu den linearen (oder nichtlinearen) Regressionsverfahren gehören, wird die SVM primär für die binäre Klassifikation eingesetzt!
Stefan Bosse - Maschinelles Lernen - Regression und Support Vector Machines - Binärer Klassifikator
f(→x):→x→y=→wT→x+γ
Dabei sind w und γ die Parameter des Modells die durch das Training an das Problem angepasst werden müssen.
Stefan Bosse - Maschinelles Lernen - Regression und Support Vector Machines - Binärer Klassifikator
4 (Oben) w ist der Normalenvektor und γ die Verschiebung der Trennungsgrenze für zwei Klasseninstanzen (Unten) Verschiedene w/γ Varianten der Trennungsgrenze mit unterschiedlichen Rändern (Sicherheitsbereichen)
Stefan Bosse - Maschinelles Lernen - Regression und Support Vector Machines - Training
f(→xi)yi=(→wT→xi+γ)yi>0,∀i
für alle Dateninstanzen D={(xi,yi)}n.
Da w und γ beliebig gewählt werden können, kann die Randbedingung auch mit (..)yi ≥ 1 gewählt werden.
Weiterhin kann es sinnvoll sein alle Dateninstanzen um den Ursprung des Koordinatensystems zu zentrieren
Stefan Bosse - Maschinelles Lernen - Regression und Support Vector Machines - Training
Wichtig: Die Werte für y liegen im Intervall [-1,1]!
Alle Probleme die (..)yi ≥ 1 erfüllen mit einem (w,γ) sind linear separierbar.
Es gibt unendlich viele Lösungen (also Entscheidungsgrenzen)
Man wählt das (w,γ) aus bei der alle Dateninstanzen die größte Trennung besitzen (breitester Trennbereich, siehe Abb.)
Der Abstand der Dateninstanzen D ist definiert als das Minimum des normalisierten Abstandes:
mi=(→wT→xi+γ)yi/||→w||
Stefan Bosse - Maschinelles Lernen - Regression und Support Vector Machines - Training
mini(→wT→xi+γ)yi||w||=1||w||
Vertiefung: M. Sugiyama, Introduction to Statistical Machine Learning. 2016., Kapitel 27
Stefan Bosse - Maschinelles Lernen - Regression und Support Vector Machines - Training
mini1/2||w||2,(→wT→xi+γ)yi⩾1,∀i
Hier wird aber keine Lösung für w und γ gefunden wenn das Problem nicht strikt linear separierbar ist (also keine einzige Gerade die Klassen trennen kann)
Stefan Bosse - Maschinelles Lernen - Regression und Support Vector Machines - Training
Die SVM mit harten Trennungsbereich erfordert lineare Separierbarkeit der Dateninstanzen
Die weiche Trennung durch eine SVM führt einen Fehlerparametervektor ξ={ξi}n für die Bestimmung des Trennbereichs ein:
min∀i:w,ξ,γ[1/2||w||2+C∑iξi],(→wT→xi+γ)yi⩾1−ξi,ξi⩾0,∀i
Stefan Bosse - Maschinelles Lernen - Regression und Support Vector Machines - Training
4 Weicher Trennbereich einer SVM (Soft margin SVM). Durch ξ werden kleine Klassifikationsfehlerbereiche erlaubt.
Die Ausreißer können durch Rauschen und Messunsicherheit (random. und systematischer Fehler) aber auch aufgrund eines nichtlinear separierbaren Problems entstehen!
Stefan Bosse - Maschinelles Lernen - Regression und Support Vector Machines - Training
Dabei ist C ein einstellbarer Parameter der den Fehler steuert und für den gilt:
C=αi+βi
Größere C Werte machen den Abstandsfehler kleiner und für große C geht die weiche in eine harte SVM über
Stefan Bosse - Maschinelles Lernen - Regression und Support Vector Machines - Multiklassen SVM
Jedes Multiklassenproblem mit m verschiedenen (diskreten) Klassenwerten kann auf m binäre Klassifikationsprobleme transformiert werden
Stefan Bosse - Maschinelles Lernen - Regression und Support Vector Machines - ML Framework API für SVM
ML.learn({ algorithm:ML.ML.SVM, x:number [][], y:number [], // threshold function on output? highest value of multi-svms is winner threshold:boolean, // default : 1.0. C in SVM. C : number, // default : 1e-4. Higher tolerance --> Higher precision tol : number, // default : 20. Higher max_passes --> Higher precision max_passes : number, // default : 1e-5. Higher alpha_tolerance --> Higher precision alpha_tol : number, kernel : { type: 'rbf', sigma: 0.5 } // { type: "polynomial", c: 1, d: 5}}) → model
Stefan Bosse - Maschinelles Lernen - Regression und Support Vector Machines - Beispiel
Stefan Bosse - Maschinelles Lernen - Regression und Support Vector Machines - Beispiel
Sugiyama, ItSML, pp 303
Regressionsverfahren werden auf kontinuierliche Zielvariablen angewendet (der Hypothesenraum kann bei nichtlinearen Problemen sehr groß werden)
Eine SVM wird als binärer Klassifikator verwendet und wird i.A. durch eine lineare Funktion (Kernel) repräsentiert
Multiklassenprobleme werden auf Multi-SVMs zurückgeführt
Das Training einer SVM ist ein Minimierungsproblem dass den Trennbereich maximiert und den Fehler minimiert