Crowd Sensing und Social Data Mining mit Mobilen Agenten

Labor und Datenanalyse

PD Stefan Bosse
Universität Bremen - Fachbereich Mathematik und Informatik
SS2020
2020-05-11

Umfragen und Methoden

Das “Howto” und “Do not Do” bei der Durchführung von Umfragen - Statistik und Kochrezepte

Ziele

  1. Entwurf einer Umfrage S (Survey) startet mit der Definition der Zielsetzung von Zielen

  2. Häufig ist die Zielsetzung die Beantwortung einer oder mehrerer übergeordneter Fragen Q um eine Hypothese H zu testen

\[\begin{gathered}
  S = Q \to H\left\{ {\begin{array}{*{20}{c}}
  {true} \\ 
  {false} 
\end{array}} \right. \hfill \\
Q = \{ {q_1},{q_2},..,{q_k}\} \hfill \\
H = \{ {h_1},{h_2},..,{h_l}\}  \hfill \\ 
\end{gathered}
\]

Beispiele

  • Fühlen sich die Menschen auf der Straße sicher?
  • Hat sich die Beschäftigungssituation im Land geändert?
  • Nutzen Menschen das Internet während der Pandemie mehr und anders?

Umfragengestaltung

  1. Die Gestaltung der Umfrage unterteilt sich in weitere Schritte [K]:
  • Die genaue Definition der zu untersuchenden Population (die Zielpopulation)

  • Die Angabe, was gemessen werden muss (die Variablen X) und was geschätzt werden muss (die Populationsmerkmale).

  • Wo die Stichprobe ausgewählt wird (der Stichprobenrahmen)

  • Wie die Stichprobe ausgewählt wird (Stichprobenentwurf und Stichprobengröße).

  • Es ist wichtig die Umfrage sorgsam unter Beachtung obiger Schritte zu planen!

Die Zielpopulation

Die Definition der Zielgruppe der Umfrage ist einer der ersten Schritte in der Phase des Umfragedesigns. Die Zielpopulation ist die Population aus Entitäten, die untersucht werden soll. Es ist auch die Bevölkerung, auf die sich die Ergebnisse der Umfrage beziehen. Die Elemente der Zielgruppe sind häufig Menschen, Haushalte oder Unternehmen. Die Bevölkerung besteht also nicht unbedingt aus Personen.

  • Gerade im Mobilen Crowdsensing nicht genau eingrenzbar!

  • Die Zielpopulation besteht aus der Menge:

\[U = \{ e_1, e_2, .. , e_N \},
\]

mit N als Größe der Population und e als individuelle Entitäten.

Die Ziel- und Hilfsvariablen

  • Es werden zwei Arten von Variablen unterschieden: Zielvariablen und Hilfsvariablen.

Zielvariablen

  • Diese Variablen messen die Eigenschaften der Elemente in der Zielpopulation.
  • Jeder Teilnehmer aus der Zielpopulation nimmt an der Umfrage teil um eine oder mehrere Zielvariablen y zu beantwirten:
\[\begin{gathered}
  Y = \{ {y^1},{y^2},..,{y^t}\}  \hfill \\
  {y^m} = \{ y_1^m,y_2^m,..,y_N^m\}  \hfill \\ 
\end{gathered}
\]
  • Beispiel: qi=“Wie hoch ist das Einkommen?” y1=Antwort von Teilnehmer 1, y2=Antwort Teilnehmer 2 usw.

  • Hilfsvariablen messen häufig die Hintergrundeigenschaften der Elemente.

    • Beispiele für eine Umfrage unter Personen könnten Geschlecht, Alter, Familienstand und Region sein.

Die Ziel- und Hilfsvariablen

Hilfsvariablen

  • Solche Hilfsvariablen können nützlich sein, um die Genauigkeit von Schätzungen zu verbessern

  • Sie spielen auch eine Rolle bei der Korrektur der negativen Auswirkungen von Nichtantworten

  • Darüber hinaus bieten sie Möglichkeiten für eine detailliertere Analyse der Umfrageergebnisse

\[\begin{gathered}
  X = \{ {x^1},{x^2},..,{x^a}\}  \hfill \\
  {x^m} = \{ x_1^m,x_2^m,..,x_N^m\}  \hfill \\ 
\end{gathered}
\]

Populationsparameter

  • Ein Populationsparameter ist ein numerischer Indikator, dessen Wert nur von den Werten y1, y2, , yN einer Zielvariablen y abhängt.
Populationssumme
\[{\tilde y} = \sum\limits_{k = 1}^N {{y_k}}  = {y_1} + {y_2} + ..,{y_N}
\]
Populationsmittelwert
\[\bar y = \frac{1}{N}\sum\limits_{k = 1}^N {{y_k}}  = \frac{{{\tilde y}}}{N}
\]
Populationsvarianz
\[{\sigma ^2_N } = \frac{1}{N}\sum\limits_{k = 1}^N {{{({y_k} - \bar y)}^2}},
{\sigma ^2_{N-1} } = \frac{1}{N-1}\sum\limits_{k = 1}^N {{{({y_k} - \bar y)}^2}},
\]

Erhebungsfenster

img-#figure-samplingframe01


Abb. 1. Samplingframe: Problem der Unter- und Überabdeckung bei einer Umfrage [Bethlehem, 2009]

Erhebungsfenster

  • Ein Stichprobenrahmen ist eine Liste aller Elemente in der Zielpopulation U

  • Für jedes Element in der Liste müssen Informationen zur Kontaktaufnahme mit diesem Element vorhanden sein Erfassung von Metadaten!

  • Solche Kontaktinformationen können Name und Adresse, Telefonnummer oder E-Mail-Adresse umfassen.

  • Solche Listen können in Papierform (ein Kartenverzeichnis für die Mitglieder eines Clubs, ein Telefonverzeichnis) oder digital (eine Datenbank, die ein Register aller Unternehmen enthält) existieren

  • Wenn solche Listen nicht verfügbar sind, werden manchmal detaillierte geografische Informationen und Karten verwendet Mobiles Crowdsensing (GPS, IP)

Erhebungsfenster

  • Beispiele für Erhebungsfenster können Register des Einwohnermeldeamts sein (bzw. die Liste der Entitäten de Population)

  • Aber auch Mitgliederlisten in digitalen sozialen Netzen und Diskussionsforen

Unterabdeckung

  • Tritt auf wenn die Zielpopulation Elemente enthält, die im Stichprobenrahmen kein Gegenstück haben.

  • Solche Elemente können in der Stichprobe niemals ausgewählt werden.

Ein Beispiel für eine Unterdeckung ist die Umfrage, bei der die Stichprobe aus einem Bevölkerungsregister ausgewählt wird. Illegale Einwanderer sind Teil der Bevölkerung, werden jedoch im Stichprobenrahmen nie angetroffen.

Ein weiteres Beispiel ist eine Online-Umfrage, bei der die Befragten über das Internet ausgewählt werden. In diesem Fall kommt es zu einer Unterdeckung, da Personen keinen Internetzugang haben.

Erhebungsfenster

  • Unterabdeckung kann schwerwiegende Folgen haben: Wenn sich die Elemente außerhalb des Stichprobenrahmens systematisch von den Elementen im Stichprobenrahmen unterscheiden, können Schätzungen der Populationsparameter stark verzerrt sein.

  • Ein komplizierender Faktor ist, dass es oft nicht sehr einfach ist, das Vorhandensein einer Unterdeckung festzustellen.

Überabdeckung

  • Situation, in der der Stichprobenrahmen Elemente enthält, die nicht zur Zielpopulation gehören.

  • Wenn solche Elemente in der Stichprobe landen und ihre Daten in der Analyse verwendet werden, können Schätzungen der Populationsparameter beeinflusst (verfälscht) werden.

  • Es sollte ziemlich einfach sein, eine Überdeckung im Feld zu erkennen. Dies sollte aus den Antworten auf die Fragen deutlich werden.

Störgrößen und Störfaktoren

  • Probleme können auftreten, wenn sich die Einheiten im Stichprobenrahmen von denen in der Zielpopulation unterscheiden. Typisch ist der Fall, wenn eine aus Adressen und die andere aus Personen besteht.

  • Weitere Störgrößen bei einer Umfrage können Differenzen zwischen der Zielpopulation und dem Ergebnungsfenster sein, z.B. durch unterschiedliche Erfassungsparamter

Beispiel: Eine Umfrage, bei der Haushalte mit gleichen Wahrscheinlichkeiten ausgewählt werden sollen und der Stichprobenrahmen aus Personen besteht! Dies kann passieren, wenn die Stichprobe aus einem Bevölkerungsregister ausgewählt wird. Jetzt haben große Familien eine größere Auswahlwahrscheinlichkeit als kleinere Familien, da größere Familien mehr Personen im Stichprobenrahmen haben. Tatsächlich ist die Auswahlwahrscheinlichkeit einer Familie proportional zur Größe der Familie.

Repräsentative Umfragen

  • Eine Reihe von Fragen: Gibt es diese überhaupt? Ist Presse repräsentativ und ausgewogen? Wer oder was repräsentiert? Die Staatliche Institution als Repräsentanz der Bevölkerung? Ganz sicher nicht!

Nach Kruskal and Mosteller gilt folgender Kriterienkatalog:

  1. Allgemeine Anerkennung für Daten. Es bedeutet nicht viel mehr als eine allgemeine Zusicherung ohne Beweise, dass die Daten in Ordnung sind. Diese Bedeutung von „repräsentativ“ wird normalerweise von den Medien verwendet, ohne zu erklären, was es genau bedeutet.

  2. Fehlen selektiver Einflussnahme. Bei der Auswahl wurden weder bewusst noch unbewusst Elemente oder Gruppen von Elementen bevorzugt.

  3. Miniaturmodell der Bevölkerung. Die Stichprobe kann als Maßstabsmodell der Bevölkerung angesehen werden. Die Stichprobe hat die gleichen Merkmale wie die Population. Die Stichprobenanteile sind in jeder Hinsicht den Bevölkerungsanteilen ähnlich.

Repräsentative Umfragen

  1. Typische oder ideale Fälle. Die Stichprobe besteht aus Elementen, die für die Bevölkerung „typisch“ sind. Dies sind „repräsentative Elemente“. (Idee des durchschnittlichen Manns - Mittelwert)

  2. Erfassung der Heterogenität der Bevölkerung. Variationen, die in der Population existieren, müssen auch in der Stichprobe angetroffen werden. Die Stichprobe sollte also auch atypische Elemente enthalten.

  3. Bedeutung voin Begriffen. Anfangs wird der Begriff einfach verwendet, ohne zu beschreiben, was er ist. Später wird erklärt, was damit gemeint ist.

  4. Statistik. Es wurde eine spezielle Probenahmemethode angewendet. Es muss eine Form der Wahrscheinlichkeitsstichprobe verwendet worden sein, die jedem Element in der Population gleiche Auswahlwahrscheinlichkeiten gibt.

Repräsentative Umfragen

  1. Gute Schätzung. Alle Merkmale der Population und die Variabilität müssen wieder in der Stichprobe gefunden werden, damit zuverlässige Schätzungen der Populationsparameter berechnet werden können.

  2. Qualität. Gut genug für einen bestimmten Zweck. Jede Probe, die zeigt, dass ein Phänomen, von dem angenommen wird, dass es sehr selten ist oder fehlt, mit einer gewissen Häufigkeit auftritt, reicht aus.

Randomisierung

  • Randomisierung kann genutzt werden um eine möglichst gute statistische Verteilung bei einer Umfrage zu erzielen

  • Zufällige Auswahl von Teilnehmern aus einem Register

  • Aber: Menschen sind ganz schlechte Randomisierer