Maschinelles Lernen und Datenanalyse

In der Soziologie

PD Stefan Bosse

Universität Bremen - FB Mathematik und Informatik

1 / 41

Probalistisches Lernen

2 / 41

Wahrscheinlichkeiten und Bayes Regel

Witten, DMPMLTaT, pp. 335

  • In einem probalistischen Ansatz sind die Dateninstanzen gemessene Ereignesse oder Beobachtungen.
    • Die Dateninstanzen in D bilden Zufallsvariablen ab!

Es sei A eine Zufallsvariable mit diskreten Werten {ai}. Dann ist P(A) oder kurz P(a) die Wahrscheinlichkeitsfunktion für das Auftreten eines aiA!

Es sei x eine Zufallsvariable mit kontinuierlichen Werten [v0,v1]. Dann ist p(x) die Wahrscheinlichkeitsverteilung der Werte x ∈ [v0,v1].

3 / 41

Dann ist p(x=xi) die Wahrscheinlichkeit des Auftretens des Wertes xi von x.

  • Besondere Rolle nehmen binäre Ereignisse ein (also A={0,1}). Etwas tritt ein oder ist wahr oder nicht.

Wenn A und B diskrete Zufallsvariablen sind, dann kann man über eine Produktregel die gemeinsame (vereinte) Wahrscheinlichkeit für das Auftreten von A und B bestimmen:

P(A,B)=P(A|B)P(B)

Die gemeinsame Wahrscheinlichkeit ist ein statistisches Maß, das die Wahrscheinlichkeit berechnet, dass zwei Ereignisse zusammen und gleichzeitig auftreten. Gemeinsame Wahrscheinlichkeit ist die Wahrscheinlichkeit, dass Ereignis B gleichzeitig mit Ereignis A Auftritt.

4 / 41

  • P(A) ist die Wahrscheinlichkeit eines Ereignisses A
  • P(A|B) ist die bedingte Wahrscheinlichkeit von A mit dem bedingten Ereignis B(d.h. B muss eintreten damit auch A eintritt): BA

  • P(B|A) ist dann das "inverse Problem": AB

Bayes Regel (Umkehr der Schlussfolgerung)

  • Interessant wäre es zu wissen wenn P(A|B) bekannt wie es mit P(B|A) aussieht:

P(B|A)=P(A|B)P(B)P(A)

5 / 41

Ein Beispiel: Der Mythos des Infektionstests

  • Es gibt einen Test auf eine Virusinfektion
    • Dieser wird im Labor getestet: 100 Proben Klasse negativ (kein Virus, ¬V), 100 Proben Klasse positiv (mit Virus, V)
    • Der Test zeigt T (positiv) an, ansonsten ¬T (negativ)
    • Die Analyse der Testexperimente zeigt: TP=99, FP=2, FN=1, TN=98

Sensitivität

P(T|V)=TP/(TP+FN)=99/(99+1)=0.99(CV19:0.5,0.70.9,Good20)

Spezifizität

P(¬T|¬V)=TN/(TN+FP)=98/(98+2)=0.98(CV19:0.99,0.999,Good20)

6 / 41

Genauigkeit

Accuracy=(TP+TN)/N=(99+98)/200)=0.985

Präzision

Precision=TP/(TP+FP)=99/(98+2)=0.99

  • Es gibt eine Vorbedingung (Vorwahrsch.) bei einer Testanwendung: Der Wahrscheinlichkeit einer Infektion P(V) wenn eine Stichprobe gemacht wird (also n=1). Diese wird mit P(V)=0.001 angenommen.
7 / 41

Anwendung der Bayseschen Regel

P(V|T)=P(T|V)P(V)P(T),P(T)=P(T,V)+P(T,¬V)=P(T|V)P(V)+(1P(¬T|¬V))(1P(V))

  • Bei P(V)=0.001 (zufällige Stichprobe ohne Anlass und Differentialdiagnose) ergibt sich:

P(V|T)=0.99×0.0010.99×0.001+(10.98)(10.001)=0.047P(V)=0.70×0.0010.70×0.001+(10.999)(10.001)=0.41=