Statistik und analytische Verfahren

Stichproben

Bei quantitativen Studien spielt die zugrundeliegende Stichprobe eine zentrale Rolle. Sie ist ein wesentlicher Baustein im Forschungsprojekt, der maßgeblich zur Qualität beiträgt. Aus diesem Grund sind Stichproben bei infas ein Thema stetiger Forschung, Optimierung und Innovation.

infas wendet mannigfaltige wissenschaftlich etablierte Verfahren an – oft in Kombination. Ziel ist es, für jedes Forschungsprojekt individuell das inhaltlich aber auch ökonomisch optimale Stichprobenkonzept anzuwenden. Im Folgenden werden die Stichprobenverfahren, die infas bei sozialwissenschaftlichen Studien regelmäßig anwendet, beschrieben.

Der renommierte Arbeitskreis Markt- und Sozialforschungsinstitute e.V. (ADM) ermöglicht es infas, Zufallsstichproben auf Basis eines aktuellen Auswahlrahmens zu ziehen.

infas ist nicht nur Mitglied im Branchenverband ADM, sondern ebenso in der Arbeitsgemeinschaft Stichproben dort aktiv und hat Zugriff auf den jeweils aktuellsten Auswahlrahmen. Damit ist infas eines von wenigen Sozialforschungsinstituten, das bei sozialwissenschaftlichen Untersuchungen den anerkannten und oft in Ausschreibungen vorausgesetzten Auswahlrahmen des ADM nutzen kann. Dieser umfasst mehrere Netze für Face-to-Face-Befragungen über den Random-Route-Ansatz. Zudem werden die Auswahlgesamtheiten für Festnetzstichproben und Mobilfunkstichproben mit jährlicher Aktualisierung zur Verfügung gestellt. 

Untersuchungen, teilweise mit infas-Beteiligung, bestätigen, dass inzwischen rund jeder zweite Anschluss nicht mehr in allgemein zugänglichen Registern gelistet ist. Am höchsten ist der Anteil nicht gelisteter Festnetzanschlüsse in Großstädten. Darüber hinaus sind jüngere Personen, Single-Haushalte und Personen mit niedrigem Bildungsniveau häufiger nicht im Telefonbuch eingetragen als Ältere oder Mehrpersonenhaushalte.

Neben gelisteten (in Telefonregistern eingetragenen) Nummern nutzen wir daher zufällig generierte Nummern bei der Stichprobenziehung und ziehen sie mit entsprechenden Inklusionswahrscheinlichkeiten ein. In Deutschland wurde in diesem Zusammenhang ein Lösungsvorschlag von Häder/Gabler entwickelt, der in der Praxis in großem Maßstab erprobt ist.

Sowohl dem Auswahlrahmen für Festnetznummern, als auch dem Auswahlrahmen für Mobilfunknummern  liegt das Häder/Gabler-Verfahren zu Grunde. Bei diesem Verfahren werden Telefonnummern im Festnetz oder im Mobilfunk synthetisch generiert, da allgemein zugängliche Verzeichnisse wie Telefonbücher auch im Festnetzbereich nur einen unvollständigen Auswahlrahmen bieten. 

 

Eine neuere Herausforderung stellen Haushalte dar, die nur noch über Mobilfunkanschlüsse, nicht aber über einen Festnetzanschluss erreichbar sind (sogenannte „Mobile-Onlys“). Das Dual-Frame-Verfahren ermöglicht es, auch diese Teilgruppe in einer Stichprobe zu berücksichtigen.

Mobile Onlys haben bei einer Ziehung aus dem Festnetzauswahlrahmen keine Inklusionswahrscheinlichkeit. Nach neueren Erhebungen betrifft dies mindestens 20 Prozent der Bevölkerung und etwa 30 Prozent der Haushalte. Da sich diese Haushalte in ihrer Zusammensetzung von denen mit Festnetz deutlich unterscheiden, handelt es sich also um ein systematisches Coverage-Problem, das für viele Untersuchungen nicht ignoriert werden kann.

Die Lücke wird durch eine zusätzliche Mobilfunkstichprobe aus synthetisch generierten Mobilfunknummern geschlossen. Ein Auswahlrahmen dafür wird ebenfalls von der Arbeitsgemeinschaft ADM-Telefonstichproben zur Verfügung gestellt. Auch bei den Mobilfunknummern handelt es sich um generierte Nummern, denn nur die wenigsten Mobilnummern sind in einem Verzeichnis gelistet.

Bei diesem Dual Frame-Ansatz erfolgt die Ziehung also nicht aus einem, sondern aus zwei Frames bzw. Auswahlrahmen, die zusammen die Population vollständig abdecken: Einer mit Telefonnummern ausschließlich aus dem Festnetz und der andere mit Nummern des Mobilfunks. Für die Zusammenführung der beiden Stichproben ist anschließend eine geeignete Designgewichtung notwendig.

Lediglich der verschwindend geringe Anteil der Personen, die weder einen Festnetzanschluss, noch ein Mobiltelefon haben, kann bei diesem Ansatz nicht in die Stichprobe gelangen. Die beiden Stichproben lassen sich in Anlehnung an das von Häder/Gabler vorgeschlagene Verfahren grundsätzlich wie jede Stichprobe aus zwei Frames zusammenführen.

Eine Herausforderung beim Dual-Frame-Ansatz ist das Mischungsverhältnis der beiden Stichproben. Also die Frage, wie hoch der Anteil der Mobilfunknummern und der Festnetznummern sein muss. Hier zeigen ausführliche Simulationsrechnungen mit unterschiedlichen Gewichtungsmodellen zur Zusammenführung der beiden Stichproben, die infas durchgeführt hat, dass es ein optimales Mischungsverhältnis in der realisierten Stichprobe gibt, bei dem die Gewichtungsfaktoren (Designgewichte) die geringste Varianz und die Gewichte die höchste Effektivität haben. Unter Kostengesichtspunkten sind alternative Mischungsverhältnisse denkbar, bei denen die Zunahme der Varianz der Gewichtungsfaktoren und mithin die Steigerung des Stichprobenfehlers vergleichsweise gering sind.

Für die meisten Studien ist heute der Dual-Frame-Ansatz bei der Stichprobe geboten. Nur mit ihm kann gewährleistet werden, dass alle Bevölkerungsteile in der Stichprobe berücksichtigt werden. infas hat in Zusammenarbeit mit dem ADM mit darauf hingewirkt, dass das Dual-Frame-Verfahren wissenschaftlich getestet ist und sich zunehmend in der Markt- und Sozialforschung etabliert.

Bei einer geschichteten Auswahl wird die Grundgesamtheit in einzelne Untergruppen (Schichten) aufgeteilt. Aus jeder (weitgehend homogenen) Schicht werden unabhängige zufällige Stichproben gezogen. Die Schichtungsmerkmale sollten dabei in einem Zusammenhang mit dem Untersuchungsgegenstand stehen.

Wir verwenden bei einer Reihe von Stichproben geschichtete Auswahlverfahren (nicht zu verwechseln mit Quotenstichproben). Standardmäßig werden beispielsweise Festnetzstichproben und Einwohnermeldeamtsstichproben nach regionalen (Bundesland, Kreise etc.) und regionalstrukturellen Merkmalen (Gemeindegrößenklassen, Regionsstrukturtypen etc.) geschichtet. Für die Berechnung der Ergebnisparameter müssen die Schichtergebnisse ihrem jeweiligen Verhältnis entsprechend gewichtet werden.

Ein wesentlicher Vorteil geschichteter Stichproben ist die Reduktion des Stichprobenfehlers. Damit werden die Ergebnisse genauer. Zudem sind auch Aussagen innerhalb der einzelnen Schichten möglich. Die Schichtung kann sowohl proportional entsprechend der Verteilung der Einheiten in der Grundgesamtheit oder disproportional mit einer von der Grundgesamtheit abweichenden Verteilung erfolgen. 

Bei der Klumpenstichprobe wird die Grundgesamtheit in Teilgesamtheiten aufgeteilt, die allerdings in der Regel kleiner sind als bei geschichteten Stichproben. Die Erhebung erfolgt dann nur in zufällig ausgewählte Klumpen.

Die Zugehörigkeit zu einem Klumpen ergibt sich nicht aus einem systematisch ausgewählten Merkmal, sondern aus den vorhandenen Möglichkeiten, die Stichprobeneinheiten aufzuteilen. Dies sind häufig regional angegrenzte Klumpen. Innerhalb der ausgewählten Klumpen werden wiederum Zufallsstichproben für die Befragung gezogen.

infas verwendet geklumpte Stichproben standardmäßig bei Einwohnermeldeamtsstichproben, bei denen Gemeinden oder Stadtteile die Klumpen definieren. 

Die mehrstufige (multistage) Stichprobe ist ein zufälliges Auswahlverfahren, bei dem die Stichproben der zu berücksichtigenden Erhebungseinheiten in zwei oder mehreren Auswahlstufen gezogen werden.

Dazu wird aus der Grundgesamtheit zunächst eine Stichprobe, zumeist aus einer höheren hierarchischen Ebene, gezogen. Dann wird aus dieser Stichprobe eine weitere gezogen. Eine mehrstufige Auswahl ist dann sinnvoll, wenn die Grundgesamtheit hierarchisch strukturiert ist, beispielsweise bei den Ebenen zwischen Bund und Bundesländern oder Bundesländern, Kreisen und Gemeinden.

In der Praxis verwendet infas häufig eine Kombination aus Klumpen-Stichprobe, geschichteter Stichprobe und ADM-Stichprobe. So stellt beispielsweise eine Einwohnermeldeamtsstichprobe eine zweistufige, geklumpte, geschichtete Stichprobe dar. In der ersten Stufe werden zufällig nach dem PPS-Verfahren (Probability Proportional to Size, mit der Anzahl der Zieleinheiten in der Gemeinde als  MOS = Measure of Size bzw. Bedeutungsgewicht) Gemeinden und Sample Points ausgewählt. In der zweiten Stufe wird innerhalb der ausgewählten Sample Points jeweils die gleiche Anzahl an Personen zufällig (meist über systematische Zufallsauswahl) ausgewählt. Die Auswahl der Gemeinden bzw. Sample Points auf der ersten Stufe wird dabei üblicherweise nach regionalen und regionalstrukturellen Merkmalen geschichtet.

Die Einwohnermeldestichprobe gilt als der Königsweg in der empirischen Sozialforschung. infas ist eines der wenigen Sozialforschungsinstitute, das für wissenschaftliche Erhebungen bundesweite Einwohnermeldestichproben ziehen kann.

Die Einwohnermeldestichprobe basiert auf einer Zufallsauswahl auf Basis lokaler Melderegister. Die Daten werden anschließend in eine Klumpenstichprobe überführt. Einwohnermeldestichproben haben zahlreiche Vorteile: Zum einen darf die Datenqualität und Datenvollständigkeit als sehr hoch eingestuft werden. Zum anderen sind Daten von Nichtteilnehmern bekannt, so dass Non-Response-Analysen durchgeführt werden können.

Für die Umsetzung einer Einwohnermeldestichprobe müssen die beteiligten Gemeinden kontaktiert werden, die Daten übernommen und zusammengeführt werden. infas verfügt als eines von wenigen Sozialforschungsinstituten in Deutschland über die Ressourcen und Erfahrungen, bei zahlreichen Ämtern gleichzeitig erfolgreich Adressziehungen zu beantragen und aus den Daten eine Gesamtstichprobe zu erstellen.

Gemeinsam mit der Unternehmensschwester infas 360 GmbH setzt infas bei der Stichprobenkonzeption als bisher einziges Sozialforschungsinstitut in Deutschland Small Area Statistics ein.

Während klassische Stichprobenverfahren die Grundlage für verlässliche statistische Aussagen über großflächige Gebiete liefern, sind für kleinräumige Analysen aufwändige empirische Untersuchungen notwendig, wobei das Problem generell in der Größe der verfügbaren Stichproben liegt. Werden diese räumlich disaggregiert, das heißt geografisch aufgeschlüsselt, erhält man nur kleine Teilstichproben mit geringer statistischer Power in den Subgebieten, so dass die klassischen statistischen Schätzverfahren sehr hohe Standardfehler produzieren.

Durch kleinräumige geografische Bezüge und die Einbeziehung externer Daten können repräsentative Stichproben auch für sehr anspruchsvolle oder komplexe Grundgesamtheiten oder kleinräumige Analysen gewonnen werden. Mit Small Area Statistics können außerdem spezifische Zielgruppen mit deutlich reduziertem Screening-Aufwand gefunden werden. Nicht zuletzt kann die Relaibilität und Validität realisierter Erhebungen überprüft werden (siehe auch Multidata based studies).

Die Unternehmensschwester infas 360 liefert als Datenspezialist für georeferenzieller Bestandsinformationen die erforderlichen Daten und Analysen für Small Area Statistics, Small Area Methods und Smart Research.

Statistische Analyseverfahren

Neben klassischen statistischen Analyseverfahren, die bei infas tägliche Praxis sind, ist unsere Statistikabteilung kontinuierlich auf der Suche nach neuen Verfahren, prüft diese und integriert sie in ihr Portfolio. 

Eine leistungsfähige Statistikabteilung bei infas stellt sicher, dass bei den empirischen Untersuchungen des Sozialforschungsinstituts stets die optimalen statistischen Verfahren angewendet werden. Neben allen Arten etablierter statistischer Analysen werden bei infas akademische Neuentwicklungen kontinuierlich gescannt, geprüft und in das bestehende Statistikportfolio eingebunden. Bei der Anwendung statistischer Verfahren definiert die Fragestellung die statistische Analyse und nicht umgekehrt.

Eine Auswahl der regelmäßig bei infas angewendeten statistischen Verfahren:

  • lineare, ordinale, multinomiale und logistische Regressionsanalysen,
  • Varianz-, Faktoren- und Clusteranalysen,
  • gemischte (hierarchische bzw. Mehrebenen-) Modelle,
  • Panelregressionen,
  • wirkungsanalytische Verfahren (Matching-Verfahren, Differenzenschätzer, Instumentvariablen),
  • Strukturgleichungsmodelle,
  • Small-Area-Schätzverfahren.

Der Öffentliche Nahverkehr spielt für das Erreichen von Klimazielen oder die künftige Sicherstellung der Mobilität in Ballungsräumen und ländlichen Gebieten gleichermaßen eine bedeutende Rolle. Zugleich steht der ÖPNV in starkem Wettbewerb mit dem Individualverkehr und mit den neuen Mobilitätsdienstleistungen.