PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul H: Probalistisches Lernen und Textanalyse
In der Soziologie
PD Stefan Bosse
Universität Bremen - FB Mathematik und Informatik
PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul H: Probalistisches Lernen und Textanalyse
PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul H: Probalistisches Lernen und Textanalyse
Witten, DMPMLTaT, pp. 335
Es sei A eine Zufallsvariable mit diskreten Werten {ai}. Dann ist P(A) oder kurz P(a) die Wahrscheinlichkeitsfunktion für das Auftreten eines ai ∈ A!
Es sei x eine Zufallsvariable mit kontinuierlichen Werten [v0,v1]. Dann ist p(x) die Wahrscheinlichkeitsverteilung der Werte x ∈ [v0,v1].
PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul H: Probalistisches Lernen und Textanalyse
Dann ist p(x=xi) die Wahrscheinlichkeit des Auftretens des Wertes xi von x.
Wenn A und B diskrete Zufallsvariablen sind, dann kann man über eine Produktregel die gemeinsame (vereinte) Wahrscheinlichkeit für das Auftreten von A und B bestimmen:
P(A,B)=P(A|B)P(B)
Die gemeinsame Wahrscheinlichkeit ist ein statistisches Maß, das die Wahrscheinlichkeit berechnet, dass zwei Ereignisse zusammen und gleichzeitig auftreten. Gemeinsame Wahrscheinlichkeit ist die Wahrscheinlichkeit, dass Ereignis B gleichzeitig mit Ereignis A Auftritt.
PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul H: Probalistisches Lernen und Textanalyse
P(A|B) ist die bedingte Wahrscheinlichkeit von A mit dem bedingten Ereignis B(d.h. B muss eintreten damit auch A eintritt): B → A
P(B|A) ist dann das "inverse Problem": A → B
P(B|A)=P(A|B)P(B)P(A)
PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul H: Probalistisches Lernen und Textanalyse
P(T|V)=TP/(TP+FN)=99/(99+1)=0.99(CV19:0.5,0.7−0.9,Good20)
P(¬T|¬V)=TN/(TN+FP)=98/(98+2)=0.98(CV19:0.99,0.999,Good20)
PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul H: Probalistisches Lernen und Textanalyse
Accuracy=(TP+TN)/N=(99+98)/200)=0.985
Precision=TP/(TP+FP)=99/(98+2)=0.99
PD Stefan Bosse - Maschinelles Lernen und Datenanalyse - Modul H: Probalistisches Lernen und Textanalyse
P(V|T)=P(T|V)P(V)P(T),P(T)=P(T,V)+P(T,¬V)=P(T|V)P(V)+(1−P(¬T|¬V))(1−P(V))
P(V|T)=0.99×0.0010.99×0.001+(1−0.98)(1−0.001)=0.047≈P(V)=0.70×0.0010.70×0.001+(1−0.999)(1−0.001)=0.41=