Crowd Sensing und Social Data Mining mit Mobilen Agenten

Labor und Datenanalyse

PD Stefan Bosse
Universität Bremen - Fachbereich Mathematik und Informatik
SS2020
2020-05-11

Umfragen und Methoden

Das “Howto” und “Do not Do” bei der Durchführung von Umfragen - Statistik und Kochrezepte

Ziele

  1. Entwurf einer Umfrage S (Survey) startet mit der Definition der Zielsetzung von Zielen

  2. Häufig ist die Zielsetzung die Beantwortung einer oder mehrerer übergeordneter Fragen Q um eine Hypothese H zu testen

\[\begin{gathered}
  S = Q \to H\left\{ {\begin{array}{*{20}{c}}
  {true} \\ 
  {false} 
\end{array}} \right. \hfill \\
Q = \{ {q_1},{q_2},..,{q_k}\} \hfill \\
H = \{ {h_1},{h_2},..,{h_l}\}  \hfill \\ 
\end{gathered}
\]

Beispiele

  • Fühlen sich die Menschen auf der Straße sicher?
  • Hat sich die Beschäftigungssituation im Land geändert?
  • Nutzen Menschen das Internet während der Pandemie mehr und anders?

Umfragengestaltung

  1. Die Gestaltung der Umfrage unterteilt sich in weitere Schritte [K]:
  • Die genaue Definition der zu untersuchenden Population (die Zielpopulation)

  • Die Angabe, was gemessen werden muss (die Variablen X) und was geschätzt werden muss (die Populationsmerkmale).

  • Wo die Stichprobe ausgewählt wird (der Stichprobenrahmen)

  • Wie die Stichprobe ausgewählt wird (Stichprobenentwurf und Stichprobengröße).

  • Es ist wichtig die Umfrage sorgsam unter Beachtung obiger Schritte zu planen!

Die Zielpopulation

Die Definition der Zielgruppe der Umfrage ist einer der ersten Schritte in der Phase des Umfragedesigns. Die Zielpopulation ist die Population aus Entitäten, die untersucht werden soll. Es ist auch die Bevölkerung, auf die sich die Ergebnisse der Umfrage beziehen. Die Elemente der Zielgruppe sind häufig Menschen, Haushalte oder Unternehmen. Die Bevölkerung besteht also nicht unbedingt aus Personen.

  • Gerade im Mobilen Crowdsensing nicht genau eingrenzbar!

  • Die Zielpopulation besteht aus der Menge:

\[U = \{ e_1, e_2, .. , e_N \},
\]

mit N als Größe der Population und e als individuelle Entitäten.

Die Ziel- und Hilfsvariablen

  • Es werden zwei Arten von Variablen unterschieden: Zielvariablen und Hilfsvariablen.

Zielvariablen

  • Diese Variablen messen die Eigenschaften der Elemente in der Zielpopulation.
  • Jeder Teilnehmer aus der Zielpopulation nimmt an der Umfrage teil um eine oder mehrere Zielvariablen y zu beantwirten:
\[\begin{gathered}
  Y = \{ {y^1},{y^2},..,{y^t}\}  \hfill \\
  {y^m} = \{ y_1^m,y_2^m,..,y_N^m\}  \hfill \\ 
\end{gathered}
\]
  • Beispiel: qi=“Wie hoch ist das Einkommen?” y1=Antwort von Teilnehmer 1, y2=Antwort Teilnehmer 2 usw.

  • Hilfsvariablen messen häufig die Hintergrundeigenschaften der Elemente.

    • Beispiele für eine Umfrage unter Personen könnten Geschlecht, Alter, Familienstand und Region sein.

Die Ziel- und Hilfsvariablen

Hilfsvariablen

  • Solche Hilfsvariablen können nützlich sein, um die Genauigkeit von Schätzungen zu verbessern

  • Sie spielen auch eine Rolle bei der Korrektur der negativen Auswirkungen von Nichtantworten

  • Darüber hinaus bieten sie Möglichkeiten für eine detailliertere Analyse der Umfrageergebnisse

\[\begin{gathered}
  X = \{ {x^1},{x^2},..,{x^a}\}  \hfill \\
  {x^m} = \{ x_1^m,x_2^m,..,x_N^m\}  \hfill \\ 
\end{gathered}
\]

Populationsparameter

  • Ein Populationsparameter ist ein numerischer Indikator, dessen Wert nur von den Werten y1, y2, , yN einer Zielvariablen y abhängt.
Populationssumme
\[{\tilde y} = \sum\limits_{k = 1}^N {{y_k}}  = {y_1} + {y_2} + ..,{y_N}
\]
Populationsmittelwert
\[\bar y = \frac{1}{N}\sum\limits_{k = 1}^N {{y_k}}  = \frac{{{\tilde y}}}{N}
\]
Populationsvarianz
\[{\sigma ^2_N } = \frac{1}{N}\sum\limits_{k = 1}^N {{{({y_k} - \bar y)}^2}},
{\sigma ^2_{N-1} } = \frac{1}{N-1}\sum\limits_{k = 1}^N {{{({y_k} - \bar y)}^2}},
\]

Erhebungsfenster

img-#figure-samplingframe01


Abb. 1. Samplingframe: Problem der Unter- und Überabdeckung bei einer Umfrage [Bethlehem, 2009]

Erhebungsfenster

  • Ein Stichprobenrahmen ist eine Liste aller Elemente in der Zielpopulation U

  • Für jedes Element in der Liste müssen Informationen zur Kontaktaufnahme mit diesem Element vorhanden sein Erfassung von Metadaten!

  • Solche Kontaktinformationen können Name und Adresse, Telefonnummer oder E-Mail-Adresse umfassen.

  • Solche Listen können in Papierform (ein Kartenverzeichnis für die Mitglieder eines Clubs, ein Telefonverzeichnis) oder digital (eine Datenbank, die ein Register aller Unternehmen enthält) existieren

  • Wenn solche Listen nicht verfügbar sind, werden manchmal detaillierte geografische Informationen und Karten verwendet Mobiles Crowdsensing (GPS, IP)

Erhebungsfenster

  • Beispiele für Erhebungsfenster können Register des Einwohnermeldeamts sein (bzw. die Liste der Entitäten de Population)

  • Aber auch Mitgliederlisten in digitalen sozialen Netzen und Diskussionsforen

Unterabdeckung

  • Tritt auf wenn die Zielpopulation Elemente enthält, die im Stichprobenrahmen kein Gegenstück haben.

  • Solche Elemente können in der Stichprobe niemals ausgewählt werden.

Ein Beispiel für eine Unterdeckung ist die Umfrage, bei der die Stichprobe aus einem Bevölkerungsregister ausgewählt wird. Illegale Einwanderer sind Teil der Bevölkerung, werden jedoch im Stichprobenrahmen nie angetroffen.

Ein weiteres Beispiel ist eine Online-Umfrage, bei der die Befragten über das Internet ausgewählt werden. In diesem Fall kommt es zu einer Unterdeckung, da Personen keinen Internetzugang haben.

Erhebungsfenster

  • Unterabdeckung kann schwerwiegende Folgen haben: Wenn sich die Elemente außerhalb des Stichprobenrahmens systematisch von den Elementen im Stichprobenrahmen unterscheiden, können Schätzungen der Populationsparameter stark verzerrt sein.

  • Ein komplizierender Faktor ist, dass es oft nicht sehr einfach ist, das Vorhandensein einer Unterdeckung festzustellen.

Überabdeckung

  • Situation, in der der Stichprobenrahmen Elemente enthält, die nicht zur Zielpopulation gehören.

  • Wenn solche Elemente in der Stichprobe landen und ihre Daten in der Analyse verwendet werden, können Schätzungen der Populationsparameter beeinflusst (verfälscht) werden.

  • Es sollte ziemlich einfach sein, eine Überdeckung im Feld zu erkennen. Dies sollte aus den Antworten auf die Fragen deutlich werden.

Störgrößen und Störfaktoren

  • Probleme können auftreten, wenn sich die Einheiten im Stichprobenrahmen von denen in der Zielpopulation unterscheiden. Typisch ist der Fall, wenn eine aus Adressen und die andere aus Personen besteht.

  • Weitere Störgrößen bei einer Umfrage können Differenzen zwischen der Zielpopulation und dem Ergebnungsfenster sein, z.B. durch unterschiedliche Erfassungsparamter

Beispiel: Eine Umfrage, bei der Haushalte mit gleichen Wahrscheinlichkeiten ausgewählt werden sollen und der Stichprobenrahmen aus Personen besteht! Dies kann passieren, wenn die Stichprobe aus einem Bevölkerungsregister ausgewählt wird. Jetzt haben große Familien eine größere Auswahlwahrscheinlichkeit als kleinere Familien, da größere Familien mehr Personen im Stichprobenrahmen haben. Tatsächlich ist die Auswahlwahrscheinlichkeit einer Familie proportional zur Größe der Familie.

Repräsentative Umfragen

  • Eine Reihe von Fragen: Gibt es diese überhaupt? Ist Presse repräsentativ und ausgewogen? Wer oder was repräsentiert? Die Staatliche Institution als Repräsentanz der Bevölkerung? Ganz sicher nicht!

Nach Kruskal and Mosteller gilt folgender Kriterienkatalog:

  1. Allgemeine Anerkennung für Daten. Es bedeutet nicht viel mehr als eine allgemeine Zusicherung ohne Beweise, dass die Daten in Ordnung sind. Diese Bedeutung von „repräsentativ“ wird normalerweise von den Medien verwendet, ohne zu erklären, was es genau bedeutet.

  2. Fehlen selektiver Einflussnahme. Bei der Auswahl wurden weder bewusst noch unbewusst Elemente oder Gruppen von Elementen bevorzugt.

  3. Miniaturmodell der Bevölkerung. Die Stichprobe kann als Maßstabsmodell der Bevölkerung angesehen werden. Die Stichprobe hat die gleichen Merkmale wie die Population. Die Stichprobenanteile sind in jeder Hinsicht den Bevölkerungsanteilen ähnlich.

Repräsentative Umfragen

  1. Typische oder ideale Fälle. Die Stichprobe besteht aus Elementen, die für die Bevölkerung „typisch“ sind. Dies sind „repräsentative Elemente“. (Idee des durchschnittlichen Manns - Mittelwert)

  2. Erfassung der Heterogenität der Bevölkerung. Variationen, die in der Population existieren, müssen auch in der Stichprobe angetroffen werden. Die Stichprobe sollte also auch atypische Elemente enthalten.

  3. Bedeutung voin Begriffen. Anfangs wird der Begriff einfach verwendet, ohne zu beschreiben, was er ist. Später wird erklärt, was damit gemeint ist.

  4. Statistik. Es wurde eine spezielle Probenahmemethode angewendet. Es muss eine Form der Wahrscheinlichkeitsstichprobe verwendet worden sein, die jedem Element in der Population gleiche Auswahlwahrscheinlichkeiten gibt.

Repräsentative Umfragen

  1. Gute Schätzung. Alle Merkmale der Population und die Variabilität müssen wieder in der Stichprobe gefunden werden, damit zuverlässige Schätzungen der Populationsparameter berechnet werden können.

  2. Qualität. Gut genug für einen bestimmten Zweck. Jede Probe, die zeigt, dass ein Phänomen, von dem angenommen wird, dass es sehr selten ist oder fehlt, mit einer gewissen Häufigkeit auftritt, reicht aus.

Randomisierung

  • Randomisierung kann genutzt werden um eine möglichst gute statistische Verteilung bei einer Umfrage zu erzielen

  • Zufällige Auswahl von Teilnehmern aus einem Register

  • Aber: Menschen sind ganz schlechte Randomisierer

img-#figure-statrand01[K]


Abb. 2. Menschen sollen eine Zufallszahl zwischen 1..9 nennen!

Randomisierung

  • Ein Randomisierer (Zufallszahlengenerator) ist eine Maschine (elektronisch oder mechanisch) mit folgenden Eigenschaften:

    • Es kann wiederholt verwendet werden
    • Es hat N mögliche Ergebnisse, die mit 1, 2, , N nummeriert sind, wobei N bekannt ist
    • Bei jeder Aktivierung wird eines der N möglichen Ergebnisse erzeugt
    • Bei jeder Aktivierung sind alle möglichen Ergebnisse gleich wahrscheinlich.
  • Ein Randomizer ist ein theoretisches Konzept. Der perfekte Randomizer existiert nicht. Es gibt jedoch Geräte, die einem Randomizer nahe kommen.

  • Und da ist dann auch schon bei digitalen (synthetischen) Zufallszahlengeneratoren Schluß!

  • Ein digitaler (programmatischer/mathematischer) Zufallszahlengenerator erzeugt eine immer gleiche Sequenz von M aus N Zahlen die sich wiederholt!!!!

Randomisierung

figdilbert01

  • Aber: Es gibt statitische Analysemethoden um die Qualität der Randomisierung und von randomiserten Sequenzen zu testen
    • Autokorrelationsanalyse um Sequenzlängen und Wiederholung zu testen
    • Einfache visuelle Analyse (Bilderzeugung aus random. Sequenzen) Muster?
    • Test auf statistische Verteilung (Gauß, Poisson, usw.)

Randomisierung

random.org

Charmaine und Foley empfehlen die folgende Liste aus der NIST suite die auf RANDOM.ORG verwendet wird:

  • Frequency Test: Monobit
  • Frequency Test: Block
  • Runs Test
  • Test for the Longest Runs of Ones in a Block
  • Binary Matrix Rank Test
  • Discrete Fourier Transform (Spectral Test)
  • Non-Overlapping Template Matching Test
  • Overlapping Template Matching Test
  • Maurer's Universal Statistical Test
  • Linear Complexity Test
  • Serial Test
  • Approximate Entropy Test
  • Cumulative Sums Test
  • Random Excursions Test
  • Random Excursions Variant Test
  • chi-square test
  • test of runs above and below the median
  • reverse arrangements test
  • An overlapping sums test
  • A binary rank test for 32×32 matrices

Randomisierung

Beispiel

figrandomorg


Abb. 3. Bitmap von random.org: Die Zufälligkeit kommt von atmosphärischem Rauschen, das für viele Zwecke besser ist als die Pseudozufallszahlenalgorithmen, die typischerweise in Computerprogrammen verwendet werden (90000 Zufallswerte).

Randomisierung

Live Bild des Präsentationsbrowsers (Math.random)

Randomisierung

  • Synthetische (Pseudo) Zufallsgeneratoren berechnen den nächsten “Zufallswert” aus dem vorherigen und es gibt eine (interne) Initialisierung (seed):
\[u_0 = f(seed),
u_{n+1} = f(u_n)
\]
  • Der Beginn einer Pseudozufallsreihe wird von dem seed Wert bestimmt - gleicher seed Wert gleiche Sequenz!

  • Ein einfacher Pseudozufallsgenerator der die Samples aus dem Verlauf einer Sinusfunktion entnimmt:

var seed = 1; var STEP=10000;
function random2() {
    var x = Math.sin(seed++) * STEP;
    return x - Math.floor(x);
}

Randomisierung

Live Bild des Präsentationsbrowsers (my random STEP=10)

Randomisierung

Live Bild des Präsentationsbrowsers (my random STEP=100000)

Sequenzen

  • Bei Sequenzen werden iterativ nach einander Pseudozufallszahlen erzeugt - die Reihenfolge ist wichtig
  • Es sollte keine Gruppen (Teilsequenzen) in der Sequenz geben die sich wiederholen
  • Die längste nicht wiederholende Sequenz sollte möglich lang sein (> 100000)

    Beispiel

Stichproben

  • Aus einer Zielpopulation $U={1,2,3,..,N}$ werden einzelne Stichproben ausgewählt (direkt durch den Erheber oder indirekt durch den Rücklauf der Umfrage - nicht alle Teilnehmer antworten):

  • Eine Stichprobe von einer Population U ist eine Menge von Indikatoren:

\[a = { a_1, a_2, .., a_N }
\]

wobei jeder Indikator ai die Anzahl der ausgewählten Entitäten aus U in der Stichprobe angibt.

  • Beispiel: Lottozahlenziehung (Stichprobe, wiederholt): U={1,2,..,49}, a={5,2,2,..,0}

  • Die gesamte Stichprobengröße ist also:

\[N = \sum\limits_{k = 1}^N {{a_k}}
\]

Stichproben

  • Und ebenso muss für die gesamte Stichprobenwahrscheinlichkeit natürlich gelten:
\[\sum\limits_{k = 1}^N {p({a_k}) = 1}
\]

so dass gilt: 0 p(a) 1. D.h. der Entwurf einer Stichprobennahme (die Selektion) weist jeder Stichprobe a aus U eine Wahrscheinlichkeit p(a) zu.

  • Das Stichprobenauswahlschema beschreibt einen praktischen Algorithmus zum Auswählen von Elementen aus der Grundgesamtheit U mit einem Zufallsgenerator.

  • Die Wahrscheinlichkeit, dass eine Stichprobe ausgewählt wird, muss gleich der Wahrscheinlichkeit p(a) sein, wie sie im Stichprobenentwurf angegeben ist

Stichproben

Beispiele für Stichproben

Population der Größe N=4:
U={1,2,3,4}

Mögliche Stichproben der Größe M=2:
(1, 1) (1, 2) (1, 3) (1, 4) 
(2, 1) (2, 2) (2, 3) (2, 4) 
(3, 1) (3, 2) (3, 3) (3, 4) 
(4, 1) (4, 2) (4, 3) (4, 4)

Stichproben

noch mehr Statistik/Wahrscheinlichkeitsrechnung:

  • Die Menge aller Stichprobenwerte a von U, die eine Wahrscheinlichkeit p(a) ungleich Null haben, unter dem Probennameentwurf p ausgewählt zu werden, ist definiert durch
\[A=\{a|p(a)>0\}
\]
  • Jedes Stichprobendesign kann durch eine Reihe von Einschlusserwartungen erster, zweiter und höherer Ordnung charakterisiert werden.

  • Die Einschlusserwartungen erster Ordnung werden benötigt, um Schätzer für Populationsparameter zu erstellen.

  • Die Einschlusserwartungen zweiter Ordnung werden benötigt, um die Genauigkeit von Schätzern zu berechnen.

Stichproben

Beispiele von Wahrscheinlichkeiten und Stichproben

  • Ein Stichprobe der Größe 2 wird aus einer Population der Größe 6 genommen.
  • Es gibt insgesamt 36 mögliche Stichproben: A= { (1,1),(1,2),..,(6,6) }
  • Jede der möglichen Stichproben hat die Wahrscheinlichkeit p(a)=1/36 gezogen zu werden

Auswahlwahrscheinlichkeit n-ter Ordnung

  • Die Wahrscheinlichkeit dass das bei der i-ten Auswahl (aus der Gesamtmenge) das Element k ausgewählt wird
\[p_k^{(i)}
\]
  • Im einem Beispiel mit der Ziehung einer Zahl aus der Menge {1,2,3,4,5,6} ist p(1) (erster Ordnung) für jedes Element 1/6
  • Die Auswahl eines Elements in einer zweiten Ziehung (nach der ersten) ist eine kombinierte Wahrscheinlichkeit, für das Beispiel ist dann: p(2) = 1/6 × 0 + 5/6 × 1/5 = 1/6

Stichproben

  • Die Wahrscheinlichkeit zwei Element k und l hintereinander zu ziehen ist dann eine bedingte Wahrscheinlichekit:
\[p_{kl}^{(i,j)} = \left\{ {\begin{array}{*{20}{l}}
  {{p_k}{p_l},i \ne j} \\ 
  {0,k \ne l \wedge i = j} \\ 
  {p_{k}, k = l \wedge i = j} 
\end{array}} \right.
\]
  • Im Beispiel die Zahlen 3 und 5: p35(12)=1/6 × 1/5 = 1/30.

Schätzung

Auswahlwahrscheinlichkeiten können ungleichmäßig verteilt und gestört werden (Bias). Die Auswahlwahrscheinlichkeiten beeinflussen die tatsächliche Aussagekraft der Zielvariablen Y

  • Man kann daher nicht die wirklichen Zielvariablen Y bestimmen, sondern nur ein Abschätzung von Y Est(Y)!

Die Schätzung eines Populationsparameters ist eine Statistik t, die zur Schätzung des Populationsparameters y verwendet wird. Angesichts der Grundgesamtheit U und des Stichprobenentwurfs p hängt der Wert der Statistik t nur von der Stichprobe a ab. Daher wird manchmal die Notation t=t(a) verwendet.

Schätzung

  • Die Kombination eines Stichprobenentwurfs p und eines Schätzers t wird als Stichprobenstrategie (p, t) bezeichnet.
  • Der Erwartungswert eines Schätzers t für einen Populationsparameter y ist unter der Stichprobenstrategie (p, t) gleich:
\[E(t) = \sum\limits_{a \in A} {t(a)p(a)}
\]
  • Fazit: Ein Schätzer t für einen Populationsparameter y unter der Stichprobenstrategie (p, t) wird als unverzerrter Schätzer bezeichnet, wenn E(t)=y!

Die Verzerrung und die Einflussgrößen spielen daher eine große Rolle bei der Erhebung (Planung und Durchführung)

Vertiefung

  • J. BETHLEHEM, Applied Survey Methods A Statistical Perspective. John Wiley & Sons, 2009.

Schätzung

Erwartung einer Stichprobeneinbeziehung eines Elements erster Ordnung

  • Die Erwartung (Schätzung) πk der Einbeziehung eines Elements k in eine Stichprobe ist gleich der erwartetenden Häufigkeit des Elements in einer Stichprobe:
\[{\pi _k} = E({a_k}) = \sum\limits_{a \in {A_p}} {{a_k}p(a)}
\]

Erwartung einer Stichprobeneinbeziehung von Elementen zweiter Ordnung

  • Die Erwartung (Schätzung) πkl der Einbeziehung der Elemente k und l in eine Stichprobe ist gleich dem Produkt der erwartetenden Häufigkeit der Elemente in einer Stichprobe:
\[{\pi _{kl}} = E({a_k}{a_l}) = \sum\limits_{a \in {A_p}} {{a_k}{a_l}p(a)}
\]

Schätzung

Beispiele

  • Wieder das Beispiel einer Stichprobe der Größe 2 aus einer Menge U={1,2,3,4,5,6}.

  • Es gibt 36 mögliche Stichproben, 10 davon enthalten eine bestimmte Zahl k aus U einmal, eine einzige entählt die Zahl k zweimal, 25 enhalten die Zahl k überhaupt nicht

  • Es gilt dann πk=(1 × 2 + 10 × 1 + 25 × 0)/36 = 0.333.

  • Und das es nur zwei Stichproben (k,l) und (l,k) aus 36 möglichen gibt ist die Erwartung der Einbeziehung zweier Element πkl=2/36!