In der Mess- und Prüftechnik PD Stefan Bosse
Universität Bremen - FB Mathematik und Informatik
Stefan Bosse - Maschinelles Lernen - Probalistisches Lernen -
Stefan Bosse - Maschinelles Lernen - Probalistisches Lernen - Wahrscheinlichkeiten und Bayes Regel
Witten, DMPMLTaT, pp. 335
Es sei A eine Zufallsvariable mit diskreten Werten {ai}. Dann ist P(A) oder kurz P(a) die Wahrscheinlichkeitsfunktion für das Auftreten eines ai ∈ A!
Es sei x eine Zufallsvariable mit kontinuierlichen Werten [v0,v1]. Dann ist p(x) die Wahrscheinlichkeitsverteilung der Werte x ∈ [v0,v1].
Stefan Bosse - Maschinelles Lernen - Probalistisches Lernen - Wahrscheinlichkeiten und Bayes Regel
Dann ist p(x=xi) die Wahrscheinlichkeit des Auftretens des Wertes xi von x.
Wenn A und B diskrete Zufallsvariablen sind, dann kann man über eine Produktregel die gemeinsame (vereinte) Wahrscheinlichkeit für das Auftreten von A und B bestimmen:
P(A,B)=P(A∣B)P(B)
Die gemeinsame Wahrscheinlichkeit ist ein statistisches Maß, das die Wahrscheinlichkeit berechnet, dass zwei Ereignisse zusammen und gleichzeitig auftreten. Gemeinsame Wahrscheinlichkeit ist die Wahrscheinlichkeit, dass Ereignis B gleichzeitig mit Ereignis A Auftritt.
Stefan Bosse - Maschinelles Lernen - Probalistisches Lernen - Wahrscheinlichkeiten und Bayes Regel
P(A|B) ist die bedingte Wahrscheinlichkeit von A mit dem bedingten Ereignis B (d.h. B muss eintreten damit auch A eintritt): B → A
P(B|A) ist dann das "inverse Problem": A → B
P(B|A)=P(A|B)P(B)P(A)
Stefan Bosse - Maschinelles Lernen - Probalistisches Lernen - Binäre Klassifikation
Hat man ein Experiment n-mal wieder holt (n Fälle oder Dateninstanzen in der Datentabelle), gibt es vier verschiedene Zähler bei einer binären Klassifiation mit y: Inferenz durch Modell/Vorhersage , y0: Vorgabe/Wirklicher Wert:
Stefan Bosse - Maschinelles Lernen - Probalistisches Lernen - Binäre Klassifikation
Accuracy=TP+TNTP+FP+FN+TNPrecision=TPTP+FPRecall=TPTP+FNSpecificity=TNTN+FPf1=2⋅Recall⋅PrecisionRecall+Precision
Stefan Bosse - Maschinelles Lernen - Probalistisches Lernen - Ein Beispiel: Der Mythos des Infektionstests
P(T∣V)=TPTP+FN=9999+1=0.99(CV19:0.5,0.7−0.9,Good20)
P(¬T∣¬V)=TNTN+FP=9898+2=0.98(CV19:0.99,0.999,Good20)
Stefan Bosse - Maschinelles Lernen - Probalistisches Lernen - Ein Beispiel: Der Mythos des Infektionstests
Auracy=TP+TNN=99+98200=0.985
Precision=TPTP+FP=9998+2=0.99
Stefan Bosse - Maschinelles Lernen - Probalistisches Lernen - Ein Beispiel: Der Mythos des Infektionstests
P(V|T)=P(T|V)P(V)P(T),P(T)=P(T,V)+P(T,¬V)=P(T|V)P(V)+(1−P(¬T|¬V))(1−P(V))
P(V|T)=0.99×0.0010.99×0.001+(1−0.98)(1−0.001)=0.047≈P(V)=0.70×0.0010.70×0.001+(1−0.999)(1−0.001)=0.41=0.50×0.0010.50×0.001+(1−0.99)(1−0.001)=0.047
Stefan Bosse - Maschinelles Lernen - Probalistisches Lernen - Ein Beispiel: Der Mythos des Infektionstests
P(¬V|¬T)=P(¬T|¬V)P(¬V)P(¬T),P(¬T)=1−P(T)=P(¬T|¬V)P(¬V)+(1−P(T|V))P(V)
P(¬V|¬T)=0.98×0.9990.98×0.999+(1−0.99)0.001=0.999
Stefan Bosse - Maschinelles Lernen - Probalistisches Lernen - Naiver Bayes Klassifikator
Witten Die Ein- und Ausgabevariablen mit bedingter Verteilung (also Y|X)
Annahme: Alle Eingabevariblen x={Outlook, Temperature, Humidity, Windy} sind unabhängig.
Stefan Bosse - Maschinelles Lernen - Probalistisches Lernen - Naiver Bayes Klassifikator
Wenn es nun eine Messung E=x gibt (Evidenz) mit einer Hypothese vom Ergebnis H=y mit Cy={yes|no}, dann gilt quasi als Training (wir kennen ja den Zusammenhang E ↔ H): P(E|H)
Es wird angenommen dass alle Variablen gleichwertig sind → unbekannte Modellannahme oder a-priori Wissen!
Nun gibt es ein weiteres unbekanntes Beispiel:
P(y=yes)=2/9×3/9×3/9×3/9×9/14=0.0053P(y=no)=3/5×1/5×4/5×3/5×5/14=0.026
Stefan Bosse - Maschinelles Lernen - Probalistisches Lernen - Naiver Bayes Klassifikator
P(C=yes|E)=ΠiP(Ei|C=yes)×P(C=yes)P(E)P(C=no|E)=ΠiP(Ei|C=no)×P(C=no)P(E)
Stefan Bosse - Maschinelles Lernen - Probalistisches Lernen - Naiver Bayes Klassifikator
Es gilt:
c∈C=hbayes(x)=argmaxj=1,mP(cj)∏i=1,nP(xi|cj)
mit c als eine Klasse aus allen möglichen Klassenwerten C der Zielvariable y und x als eine Dateninstanz.
Stefan Bosse - Maschinelles Lernen - Probalistisches Lernen - Bayes Netzwerke
Naive Bayes Netzwerke bieten einen einfachen Ansatz mit klarer Semantik, um probabilistisches Wissen darzustellen, zu verwenden und zu lernen. Naiv ↔ Alle xi sind unabhängig!
Ein bayesisches Netzwerk ist eine Form eines grafischen Modells zur Darstellung multivariater Wahrscheinlichkeitsverteilungen.
Stefan Bosse - Maschinelles Lernen - Probalistisches Lernen - Bayes Netzwerke
Witten Bayes Netzwerke sind eine Kombination aus Bäumen (gerichteten Graphen) und Wahrscheinlichkeitstabellen (Look-up Tabelle) die dann durch bedingte Wahrscheinlichkeiten das Ergebnis (der Hypothese von y) abschätzen.
Stefan Bosse - Maschinelles Lernen - Probalistisches Lernen - Bayes Netzwerke
Witten Ein anderes Bayes Netzwerk für das gleiche Problem!
Stefan Bosse - Maschinelles Lernen - Probalistisches Lernen - Bayes Netzwerke
Barber, BRaML, 2011
Stefan Bosse - Maschinelles Lernen - Probalistisches Lernen - Bayes Netzwerk: Struktur und Parameter
https://www.uib.no/en/rg/ml/119695/bayesian-networks Bayessche Netzwerke bestehen aus Struktur und Parametern
Stefan Bosse - Maschinelles Lernen - Probalistisches Lernen - Bayes Netzwerk: Struktur und Parameter
Die Struktur ist ein gerichteter azyklischer Graph (DAG), der bedingte Unabhängigkeiten und Abhängigkeiten zwischen Random-Variablen ausdrückt, die Knoten zugeordnet sind.
Die Parameter bestehen aus bedingten Wahrscheinlichkeitsverteilungen, die jedem Knoten zugeordnet sind.
Ein Bayessches Netzwerk ist daher eine kompakte, flexible und interpretierbare Darstellung einer gemeinsamen Wahrscheinlichkeitsverteilung.
Es ist auch ein nützliches Werkzeug bei der Wissenserlangung, da gerichtete azyklische Graphen die Darstellung kausaler Beziehungen zwischen Variablen ermöglichen.
Stefan Bosse - Maschinelles Lernen - Probalistisches Lernen - Bayes Netzwerk: Struktur und Parameter
Typischerweise wird ein Bayessches Netzwerk aus Daten gelernt.
Stefan Bosse - Maschinelles Lernen - Probalistisches Lernen - Belief Netzwerke
Ein "Belief" Netzwerk ist eine Verteilung der Form:
p(x1,x2,..,xD)=ΠDi=1p(xi|pa(xi))
mit pa(xi) als die Elternvariable der Variablen xi.
Dargestellt als gerichteter Graph, wobei ein Pfeil von einer Elternvariablen auf eine untergeordnete Variable zeigt.
Ein Belief Netzwerk ist ein gerichteter azyklischer Graph (DAG), wobei der i-te Knoten im Graph dem Faktor p(xi|pa(xi)) entspricht.
Übergang zu Markovschen Entscheidungsprozessen und Graphen!
Stefan Bosse - Maschinelles Lernen - Probalistisches Lernen - Bayes Entscheidungslerner
Es werden zwei Funktionen zum Erlernen der Netzwerke benötigt (Struktur und Berechnung):
Barber, BRaML, 2011, pp. 288
Witten, DMPMLTaT, pp. 335
Stefan Bosse - Maschinelles Lernen - Probalistisches Lernen - Bayes Entscheidungslerner
Ein einfacher und sehr schneller Lernalgorithmus ist K2
Er beginnt mit einer bestimmten Reihenfolge der Attribute (d.h. Knoten).
Dann verarbeitet er jeden Knoten der Reihe nach und wird Kanten von zuvor verarbeiteten Knoten zu dem aktuellen Knoten hinzuzufügen.
In jedem Schritt wird die Kante hinzugefügt, die die Trefferwahrscheinlichekit (Score) des Netzwerks maximiert. Wenn es keine weitere Verbesserung gibt, wird der nächste Knoten bearbeitet.
Als zusätzlicher Mechanismus zur Vermeidung von Überanpassungen kann die Anzahl der Eltern für jeden Knoten auf ein vordefiniertes Maximum beschränkt werden.
Stefan Bosse - Maschinelles Lernen - Probalistisches Lernen - Bayes Entscheidungslerner
Stefan Bosse - Maschinelles Lernen - Probalistisches Lernen - Bayes Entscheidungslerner
Bei Entscheidungsbäumen gibt es keine Information wie "sicher" eine Klassifikation ist (Vorhersage- oder Vertrauenwahrscheinlichkeit), die aber häufig sehr wicht ist!
Bei ANN ist der Ausgangswert eines Neurons zwar ein Indikator für die Aktivierungsstärke, ist aber modellbasiert keine Wahrscheinlichkeit der Vorhersage (höchstens grobe Näherung)
Bei NB Klassifizieren gibt es als Ergebnis immer eine (statistisch) modellbasierte Wahrscheinlichkeit!
Stefan Bosse - Maschinelles Lernen - Probalistisches Lernen - Anwendungen von Naiven Bayes-Algorithmen
Stefan Bosse - Maschinelles Lernen - Probalistisches Lernen - Anwendungen von Naiven Bayes-Algorithmen
Stefan Bosse - Maschinelles Lernen - Probalistisches Lernen - Zusammenfassung
x∼p(x∣y)y∼p(y)
p(y∣x)=p(x∣y)p(y)p(x)
Stefan Bosse - Maschinelles Lernen - Probalistisches Lernen - Zusammenfassung
Bayes Klassifikation erfolgt über die Berechnung bedingter und abhängiger Wahrscheinlichkeitsverteilungen
Das "Training" liefert P(x|y), die Inferenz benötigt die inverse Abhängigkeit und verwendet P(y|x)
Ein naiver Bayes Klassifikator nimmt unabhänge Varibalen xi an → Entspricht nicht immer "physikalischen Modellen und Kausalitäten"!
Ein Bayes Klassifikator muss Tabellen mit bedingten Verteilungen/Wahrscheinlichkeiten verwenden.
Stefan Bosse - Maschinelles Lernen - Probalistisches Lernen - Zusammenfassung