PD Stefan Bosse
Universität Bremen - Fachbereich Mathematik und Informatik
SS2020
2020-05-11 sbosse@uni-bremen.de |
Das “Howto” und “Do not Do” bei der Durchführung von Umfragen - Statistik und Kochrezepte
Entwurf einer Umfrage S (Survey) startet mit der Definition der Zielsetzung von Zielen
Häufig ist die Zielsetzung die Beantwortung einer oder mehrerer übergeordneter Fragen Q um eine Hypothese H zu testen
Die genaue Definition der zu untersuchenden Population (die Zielpopulation)
Die Angabe, was gemessen werden muss (die Variablen X) und was geschätzt werden muss (die Populationsmerkmale).
Wo die Stichprobe ausgewählt wird (der Stichprobenrahmen)
Wie die Stichprobe ausgewählt wird (Stichprobenentwurf und Stichprobengröße).
Es ist wichtig die Umfrage sorgsam unter Beachtung obiger Schritte zu planen!
Die Definition der Zielgruppe der Umfrage ist einer der ersten Schritte in der Phase des Umfragedesigns. Die Zielpopulation ist die Population aus Entitäten, die untersucht werden soll. Es ist auch die Bevölkerung, auf die sich die Ergebnisse der Umfrage beziehen. Die Elemente der Zielgruppe sind häufig Menschen, Haushalte oder Unternehmen. Die Bevölkerung besteht also nicht unbedingt aus Personen.
Gerade im Mobilen Crowdsensing nicht genau eingrenzbar!
Die Zielpopulation besteht aus der Menge:
mit N als Größe der Population und e als individuelle Entitäten.
Beispiel: qi=“Wie hoch ist das Einkommen?” → y1=Antwort von Teilnehmer 1, y2=Antwort Teilnehmer 2 usw.
Hilfsvariablen messen häufig die Hintergrundeigenschaften der Elemente.
Solche Hilfsvariablen können nützlich sein, um die Genauigkeit von Schätzungen zu verbessern
Sie spielen auch eine Rolle bei der Korrektur der negativen Auswirkungen von Nichtantworten
Darüber hinaus bieten sie Möglichkeiten für eine detailliertere Analyse der Umfrageergebnisse
Ein Stichprobenrahmen ist eine Liste aller Elemente in der Zielpopulation U
Für jedes Element in der Liste müssen Informationen zur Kontaktaufnahme mit diesem Element vorhanden sein → Erfassung von Metadaten!
Solche Kontaktinformationen können Name und Adresse, Telefonnummer oder E-Mail-Adresse umfassen.
Solche Listen können in Papierform (ein Kartenverzeichnis für die Mitglieder eines Clubs, ein Telefonverzeichnis) oder digital (eine Datenbank, die ein Register aller Unternehmen enthält) existieren
Wenn solche Listen nicht verfügbar sind, werden manchmal detaillierte geografische Informationen und Karten verwendet → Mobiles Crowdsensing (GPS, IP)
Beispiele für Erhebungsfenster können Register des Einwohnermeldeamts sein (bzw. die Liste der Entitäten de Population)
Aber auch Mitgliederlisten in digitalen sozialen Netzen und Diskussionsforen
Tritt auf wenn die Zielpopulation Elemente enthält, die im Stichprobenrahmen kein Gegenstück haben.
Solche Elemente können in der Stichprobe niemals ausgewählt werden.
Ein Beispiel für eine Unterdeckung ist die Umfrage, bei der die Stichprobe aus einem Bevölkerungsregister ausgewählt wird. Illegale Einwanderer sind Teil der Bevölkerung, werden jedoch im Stichprobenrahmen nie angetroffen.
Ein weiteres Beispiel ist eine Online-Umfrage, bei der die Befragten über das Internet ausgewählt werden. In diesem Fall kommt es zu einer Unterdeckung, da Personen keinen Internetzugang haben.
Unterabdeckung kann schwerwiegende Folgen haben: Wenn sich die Elemente außerhalb des Stichprobenrahmens systematisch von den Elementen im Stichprobenrahmen unterscheiden, können Schätzungen der Populationsparameter stark verzerrt sein.
Ein komplizierender Faktor ist, dass es oft nicht sehr einfach ist, das Vorhandensein einer Unterdeckung festzustellen.
Situation, in der der Stichprobenrahmen Elemente enthält, die nicht zur Zielpopulation gehören.
Wenn solche Elemente in der Stichprobe landen und ihre Daten in der Analyse verwendet werden, können Schätzungen der Populationsparameter beeinflusst (verfälscht) werden.
Es sollte ziemlich einfach sein, eine Überdeckung im Feld zu erkennen. Dies sollte aus den Antworten auf die Fragen deutlich werden.
Probleme können auftreten, wenn sich die Einheiten im Stichprobenrahmen von denen in der Zielpopulation unterscheiden. Typisch ist der Fall, wenn eine aus Adressen und die andere aus Personen besteht.
Weitere Störgrößen bei einer Umfrage können Differenzen zwischen der Zielpopulation und dem Ergebnungsfenster sein, z.B. durch unterschiedliche Erfassungsparamter
Beispiel: Eine Umfrage, bei der Haushalte mit gleichen Wahrscheinlichkeiten ausgewählt werden sollen und der Stichprobenrahmen aus Personen besteht! Dies kann passieren, wenn die Stichprobe aus einem Bevölkerungsregister ausgewählt wird. Jetzt haben große Familien eine größere Auswahlwahrscheinlichkeit als kleinere Familien, da größere Familien mehr Personen im Stichprobenrahmen haben. Tatsächlich ist die Auswahlwahrscheinlichkeit einer Familie proportional zur Größe der Familie.
Nach Kruskal and Mosteller gilt folgender Kriterienkatalog:
Allgemeine Anerkennung für Daten. Es bedeutet nicht viel mehr als eine allgemeine Zusicherung ohne Beweise, dass die Daten in Ordnung sind. Diese Bedeutung von „repräsentativ“ wird normalerweise von den Medien verwendet, ohne zu erklären, was es genau bedeutet.
Fehlen selektiver Einflussnahme. Bei der Auswahl wurden weder bewusst noch unbewusst Elemente oder Gruppen von Elementen bevorzugt.
Miniaturmodell der Bevölkerung. Die Stichprobe kann als Maßstabsmodell der Bevölkerung angesehen werden. Die Stichprobe hat die gleichen Merkmale wie die Population. Die Stichprobenanteile sind in jeder Hinsicht den Bevölkerungsanteilen ähnlich.
Typische oder ideale Fälle. Die Stichprobe besteht aus Elementen, die für die Bevölkerung „typisch“ sind. Dies sind „repräsentative Elemente“. (Idee des durchschnittlichen Manns - Mittelwert)
Erfassung der Heterogenität der Bevölkerung. Variationen, die in der Population existieren, müssen auch in der Stichprobe angetroffen werden. Die Stichprobe sollte also auch atypische Elemente enthalten.
Bedeutung voin Begriffen. Anfangs wird der Begriff einfach verwendet, ohne zu beschreiben, was er ist. Später wird erklärt, was damit gemeint ist.
Statistik. Es wurde eine spezielle Probenahmemethode angewendet. Es muss eine Form der Wahrscheinlichkeitsstichprobe verwendet worden sein, die jedem Element in der Population gleiche Auswahlwahrscheinlichkeiten gibt.
Gute Schätzung. Alle Merkmale der Population und die Variabilität müssen wieder in der Stichprobe gefunden werden, damit zuverlässige Schätzungen der Populationsparameter berechnet werden können.
Qualität. Gut genug für einen bestimmten Zweck. Jede Probe, die zeigt, dass ein Phänomen, von dem angenommen wird, dass es sehr selten ist oder fehlt, mit einer gewissen Häufigkeit auftritt, reicht aus.
Randomisierung kann genutzt werden um eine möglichst gute statistische Verteilung bei einer Umfrage zu erzielen
Zufällige Auswahl von Teilnehmern aus einem Register
Aber: Menschen sind ganz schlechte Randomisierer
Ein Randomisierer (Zufallszahlengenerator) ist eine Maschine (elektronisch oder mechanisch) mit folgenden Eigenschaften:
Ein Randomizer ist ein theoretisches Konzept. Der perfekte Randomizer existiert nicht. Es gibt jedoch Geräte, die einem Randomizer nahe kommen.
Und da ist dann auch schon bei digitalen (synthetischen) Zufallszahlengeneratoren Schluß!
Ein digitaler (programmatischer/mathematischer) Zufallszahlengenerator erzeugt eine immer gleiche Sequenz von M aus N Zahlen die sich wiederholt!!!!
Charmaine und Foley empfehlen die folgende Liste aus der NIST suite die auf RANDOM.ORG verwendet wird:
|
|
Der Beginn einer Pseudozufallsreihe wird von dem seed Wert bestimmt - gleicher seed Wert → gleiche Sequenz!
Ein einfacher Pseudozufallsgenerator der die Samples aus dem Verlauf einer Sinusfunktion entnimmt:
var seed = 1; var STEP=10000;
function random2() {
var x = Math.sin(seed++) * STEP;
return x - Math.floor(x);
}
Die längste nicht wiederholende Sequenz sollte möglich lang sein (> 100000)
Aus einer Zielpopulation werden einzelne Stichproben ausgewählt (direkt durch den Erheber oder indirekt durch den Rücklauf der Umfrage - nicht alle Teilnehmer antworten):
Eine Stichprobe von einer Population U ist eine Menge von Indikatoren:
wobei jeder Indikator ai die Anzahl der ausgewählten Entitäten aus U in der Stichprobe angibt.
Beispiel: Lottozahlenziehung (Stichprobe, wiederholt): U={1,2,..,49}, a={5,2,2,..,0}
Die gesamte Stichprobengröße ist also:
so dass gilt: 0 ≤ p(a) ≤ 1. D.h. der Entwurf einer Stichprobennahme (die Selektion) weist jeder Stichprobe a aus U eine Wahrscheinlichkeit p(a) zu.
Das Stichprobenauswahlschema beschreibt einen praktischen Algorithmus zum Auswählen von Elementen aus der Grundgesamtheit U mit einem Zufallsgenerator.
Die Wahrscheinlichkeit, dass eine Stichprobe ausgewählt wird, muss gleich der Wahrscheinlichkeit p(a) sein, wie sie im Stichprobenentwurf angegeben ist
Population der Größe N=4:
U={1,2,3,4}
Mögliche Stichproben der Größe M=2:
(1, 1) (1, 2) (1, 3) (1, 4)
(2, 1) (2, 2) (2, 3) (2, 4)
(3, 1) (3, 2) (3, 3) (3, 4)
(4, 1) (4, 2) (4, 3) (4, 4)
… noch mehr Statistik/Wahrscheinlichkeitsrechnung:
Jedes Stichprobendesign kann durch eine Reihe von Einschlusserwartungen erster, zweiter und höherer Ordnung charakterisiert werden.
Die Einschlusserwartungen erster Ordnung werden benötigt, um Schätzer für Populationsparameter zu erstellen.
Die Einschlusserwartungen zweiter Ordnung werden benötigt, um die Genauigkeit von Schätzern zu berechnen.
Auswahlwahrscheinlichkeiten können ungleichmäßig verteilt und gestört werden (Bias). Die Auswahlwahrscheinlichkeiten beeinflussen die tatsächliche Aussagekraft der Zielvariablen Y
Die Schätzung eines Populationsparameters ist eine Statistik t, die zur Schätzung des Populationsparameters y verwendet wird. Angesichts der Grundgesamtheit U und des Stichprobenentwurfs p hängt der Wert der Statistik t nur von der Stichprobe a ab. Daher wird manchmal die Notation t=t(a) verwendet.
Die Verzerrung und die Einflussgrößen spielen daher eine große Rolle bei der Erhebung (Planung und Durchführung)
Wieder das Beispiel einer Stichprobe der Größe 2 aus einer Menge U={1,2,3,4,5,6}.
Es gibt 36 mögliche Stichproben, 10 davon enthalten eine bestimmte Zahl k aus U einmal, eine einzige entählt die Zahl k zweimal, 25 enhalten die Zahl k überhaupt nicht
Es gilt dann πk=(1 × 2 + 10 × 1 + 25 × 0)/36 = 0.333.
Und das es nur zwei Stichproben (k,l) und (l,k) aus 36 möglichen gibt ist die Erwartung der Einbeziehung zweier Element πkl=2/36!