Selektivität – von MCAR, MAR, NMAR und MARC

Jede Erhebung hat Datenlücken. Zum einen fehlen Datensätze vollständig (Unit-Nonresponse). Zum anderen fehlen Angaben zu einzelnen Merkmalen (Item-Nonresponse). Unit-Nonresponse-Fälle haben in den vergangenen Jahren zugenommen – sei es wegen geringer werdender Erreichbarkeit, sei es aufgrund von sinkender Teilnahmebereitschaft. Welche Auswirkungen haben diese Datenlücken und wie ist damit umzugehen? Letztlich geht es um die Generalisierbarkeit der
Ergebnisse, also um Aussagen, die über die Stichprobe hinaus für die zugrunde liegende Population Gültigkeit besitzen sollen.

Der obsolete Begriff der „Repräsentativität“

Die Generalisierbarkeit der Messung wird dabei vor allem durch einen selektiven Stichprobenausfall gefährdet. Dieser führt zu einer Verzerrung der Studienergebnisse, wenn sich die Teilnehmer von den Nichtteilnehmern in untersuchungsrelevanten Merkmalen unterscheiden. Häufig wird in diesem Zusammenhang mit nebulösen (wissenschaftlich nicht definierten) Begriffen wie „Repräsentativität“ oder vereinfachenden Kenngrößen wie der Ausschöpfung argumentiert. Ersteres soll andeuten, dass die Verteilung der in einer Stichprobe vorliegenden Merkmale deren Verteilung in der Grundgesamtheit entspricht. Die einzige Möglichkeit, diese Übereinstimmung innerhalb berechenbarer Fehlergrenzen sicherstellen zu können, liegt aber in der Verwendung von Zufallsstichproben.

Somit beschreibt der Begriff „Repräsentativität“ häufig eher eine qualitative Eigenschaft der Stichprobe – die Auswahlwahrscheinlichkeit jedes Elementes der Grundgesamtheit muss bekannt sein, da nur auf Basis von Zufallsstichproben gewonnene Populationsschätzer statistisch fixierbare Eigenschaften besitzen. Der Begriff „Repräsentativität“ ist dann freilich obsolet.

Die Zielsetzung einer maximalen Ausschöpfung kann kontraproduktiv sein und Selektivitätseffekte verstärken.

Die Ausschöpfung beschreibt eine quantitative Eigenschaft des Feldverlaufs – den Anteil der realisierten Fälle an den für die Erhebung ausgewählten Fällen. Sie sagt zunächst wenig über die Generalisierbarkeit der Ergebnisse aus und ist ein schwaches Gütekriterium. Angenommen, es wird eine Ausschöpfung von 95 Prozent erreicht, die Nichtteilnehmenden 5 Prozent fallen aber alle in eine interessierende, untersuchungsrelevante Gruppe (beispielsweise sind alle Nichtteilnehmer arbeitslos), dann wird diese Gruppe (die Arbeitslosen) trotz sehr hoher Ausschöpfung deutlich unterschätzt. Das gilt insbesondere für Merkmalsausprägungen mit einer geringen Prävalenz.

Die Zielsetzung einer maximalen Ausschöpfung kann zudem sogar kontraproduktiv sein und Selektivitätseffekte weiter verstärken. So können extrem verstärkte Bemühungen der Realisierung von Interviews, die ohnehin schon überrepräsentierte Gruppe weiter vergrößern, während die unterrepräsentierte Gruppe weiter konsequent eine Teilnahme verweigert oder nicht erreicht wird.

Die Frage der Selektivität ist demnach keine trivial lösbare. Es gilt festzustellen, ob es Selektivitätsef­fekte gibt und wie sich diese Selektivitätseffekte darstellen. Ob solche Ausfälle sich möglicherweise auf Untersuchungsergebnisse auswirken, kann nicht a priori beantwortet werden. Entscheidend hierfür ist das Ausmaß eines statistischen Zusammenhangs zwischen dem Ausfallprozess und den zu untersuchenden Merkmalen.

Rubin hat bereits 1976 eine Klassifikation von Ausfallprozessen vorgenommen und unterscheidet hierbei drei Situationen:

  • Ist der Ausfallmechanismus sowohl von den beobachteten als auch den unbeobachteten Merkmalen statistisch unabhängig, wird dies als „missing completely at random“ (MCAR) bezeichnet,
  • gibt es einen statistischen Zusammenhang des Ausfallmechanismus nur mit beobachteten Merkmalen, die vollständig erhoben wurden, wird von „missing at random“ (MAR) gesprochen,
  • steht der Ausfallmechanismus aber direkt mit dem Untersuchungsgegenstand in einem solchen statistischen Zusammenhang, dass das Fehlen einer Beobachtung mit dem Grund ihres Fehlens korreliert ist, wird dies „not missing at random“ (NMAR) genannt.

Je nachdem, ob der vorliegende Ausfallmechanismus MCAR, MAR oder NMAR ist, können die Analyseergebnisse unverzerrt oder verzerrt sein.

Um die Verallgemeinerbarkeit von Ergebnissen abschätzen zu können, müssen die Verzerrungen aufgrund systematischer Ausfälle bekannt sein.

Ist der Ausfallmechanismus MCAR, entspricht der Selektivitätseffekt einer einfachen Zufallsauswahl und es treten lediglich Effizienzverluste auf. Der Ausfallmechanismus ist also ignorierbar.

Bei einem MAR-Ausfallmechanismus handelt es sich um einen bedingten Ausfallmechanismus: Der Ausfall kann durch beobachtete Werte erklärt werden. Innerhalb einer jeden „Ausfallklasse“ können unverzerrte Schätzer ermittelt werden („missing at random within classes“ = MARC). Gibt es beispielsweise einen statistischen Zusammenhang zwischen der beobachteten Variable „Alter“ und dem Ausfallmechanismus, nicht aber zwischen einer untersuchungsrelevanten Variablen wie „Bildung“ und dem Ausfallmechanismus innerhalb der Altersstufen (Ausfallklassen), dann sind Analysen zur Schätzung der Bildungsverteilung ohne Verzerrungen möglich. Die Ausfälle können hier also ignorierbar gemacht werden. Ist eine bedingte Verteilung für die beobachteten und die aufgrund von feldbedingten Ausfällen nicht beobachteten Personen gleich, können die Parameter dieser Verteilung allein auf Basis der beobachteten Personen geschätzt werden.

Das heißt, es besteht zwar ein Zusammenhang zwischen einem interessierenden Merkmal und dem Ausfall, er kann aber durch Berücksichtigung von beobachteten Kovariaten kontrolliert werden. Der Vergleich univariater Randverteilungen ist dann allerdings nicht mehr  ausreichend, sondern es bedarf multivariater Analyseverfahren, um einen eventuellen kovariierenden Effekt aufdecken zu können. Besteht ein Zusammenhang zwischen unbeobachteten Merkmalen und dem Ausfallmechanismus, können die Ausfälle nicht ignoriert werden, da die Schätzer nicht mehr erwartungstreu sind. Dies ist der Fall, wenn das Fehlen einer Beobachtung nur durch die fehlende Information selbst erklärt werden kann (NMAR). In einem solchen Fall ist eine Korrektur lediglich über komplexe Sample-Selection- oder Heckman-Modelle (o.a.) möglich. Bei diesen wird der Ausfallmechanismus explizit modelliert.

Um also die Verallgemeinerbarkeit der gefundenen Ergebnisse abschätzen zu können, ist es notwendig, Verzerrungen aufgrund systematischer Ausfälle zu kennen und in ihren Auswirkungen auf untersuchungsrelevante Merkmale abschätzen zu können. Die ausschließliche Analyse der Verteilungen in der Stichprobe im Vergleich zu bekannten Verteilungen in der Grundgesamtheit erlaubt lediglich eine Beurteilung des Informationsgehalts der Stichprobe. Enthält die Stichprobe nur wenige Fälle mit interessierenden Merkmalen beziehungsweise Merkmalskombinationen, so ist sie wenig informativ. Zudem sind Abweichungen vom Populationswert zunächst einmal zufällige Abweichungen, die durch die Zufälligkeit der Stichprobenziehung definiert sind. Nicht jede Abweichung ist eine Verzerrung aufgrund von Selektivitätseffekten.

Deshalb werden entsprechende Selektivitätsanalysen durchgeführt, die über mögliche spezifische Realisierungswahrscheinlichkeiten und systematische Verzerrungen der realisierten Stichprobe Aufschluss geben sollen. Selektivitäten werden dabei aufgrund eines Zusammenhangs von Untersuchungsmerkmalen bzw. mit diesen korrelierenden Merkmalen mit der Realisierungswahrscheinlichkeit vermutet. Derartige Analysen sollten idealerweise auf Basis zusätzlicher Informationen durchgeführt werden.
Hierzu zählen Informationen über Nichtteilnehmende, beispielsweise über Nonresponse-Befragungen oder bereits vorhandene Informationen über die Bruttostichprobe, eine genaue Kenntnis des Feldprozesses beispielsweise über detaillierte Kontaktprotokolle ebenso wie im Feldprozess generierte oder aus externen Quellen zugespielte Metadaten. Hierbei gilt es nicht nur, die Stichprobe als Ganzes zu berücksichtigen, sondern nach Möglichkeit auch einzelne Merkmale.

Umgang mit Selektivitätseffekten

Für die Generalisierbarkeit der Ergebnisse, inklusive der Vertrauensintervalle, das heißt der Spannbreite der Schätzungen, ist also relevant, die Frage der Selektivität zu beantworten. Entsprechend der Ergebnisse können diese dann entweder ausgeglichen oder bei Analysen berücksichtigt werden. Im Falle von Unit-Nonresponse wird hierbei häufig auf Gewichtungstechniken, im Falle von Item-Nonresponse auf Imputations­techniken zurückgegriffen.

Während die Berechnung von Designgewichten dem Ausgleich von designbedingten Selekti­vitäten dient, zielt die Verwendung von Nonresponse- und Anpassungs­gewichten auf den Ausgleich einer selektiven Teilnahme. Als Voraussetzung für den Einsatz von Anpassungs­gewichten ist es notwendig, dass die Verteilungen der aktiven Gewichtungsmerkmale in der Population bekannt sind. Zudem sollten die Gewichtungsvariablen mit den untersuchungsrelevanten Merkmalen korrelieren. Bei Nonresponse-Gewichten zum Ausgleich von Ausfällen und bei in Längsschnittstudien verwendeten Wiederteilnahmegewichten zum Ausgleich von Längsschnittausfällen, die ebenfalls selektiv sein können, werden bekannte Merkmale der gesamten Stichprobe (Teilnehmer und Nichtteilnehmer), aber auch Merkmale der Teilnehmer der Vorwelle in einem Ausfallmodell zur Schätzung der bedingten Realisierungswahrscheinlichkeit verwendet.

Allen Methoden ist gemeinsam, dass sie nur dann komplett unverzerrte Schätzer liefern können, wenn die Zielvariablen MARC oder MAR sind, also wenn die Nichtteilnahme oder die Längsschnittausfälle komplett durch die Variablen erklärt werden können, die in die Gewichtung oder die Ausfallmodellierung eingehen. Dies ist in der Praxis nur selten möglich. Die gewichteten Prävalenzschätzer weisen jedoch in der Regel eine geringere Verzerrung auf als ungewichtete.

Die Auswahl der Merkmale für die Randanpassung oder die Ausfallmodellierung sollte sich daher nicht an den zur Verfügung stehenden Merkmalen oder diffusen Konventionen orientieren, sondern auf Basis von Selektivitätsanalysen oder mit direktem Bezug zum Untersuchungsgegenstand erfolgen. Gegenüber den Gewichtungsverfahren, die zumeist bei Unit-Nonresponse Anwendung finden, werden bei ItemNonresponse häufig Imputationsverfahren verwendet. Hierunter werden Verfahren zusammengefasst, mit denen Antwortausfälle auf einzelnen Merkmalen in der Datenmatrix vervollständigt, also aufgefüllt werden. Die Verzerrung durch die Antwortausfälle kann dadurch verringert werden.

Auch hierbei gibt es unterschiedliche Verfahren. Neben den klassischen Imputationsverfahren wie Mittelwertersatz, EM, Hotdeck, Regressionsverfahren etc. können auch multiple Imputationsverfahren zur Anwendung kommen. Während bei den klassischen Imputationsverfahren die Varianzen zumeist (mehr oder weniger stark) unterschätzt werden, liefern neuere multiple Imputationsverfahren validere Schätzungen ohne Varianzverlust.

Weiterlesen
Little, R. J. A. und Rubin, D. B. (2002): Statistical Analysis with Missing Data, Wiley.
Rendtel, U. und Pötter, U. (1992): Über Sinn und Unsinn von Repräsentativitätsstudien. (DIW Diskussionspapier Nr. 61) Berlin: Deutsches Institut für Wirtschaftsforschung.
Rubin, D. B. (1976): Inference and missing data, Biometrika, Vol. 63 (3), 581-592 Schnell, R. und Noack, M. (2015): Stichproben, Nonresponse und Gewichtung für Viktimisierungsstudien.
Guzy, N., Birkel, C. und Mischkowitz R. (Hrsg.)(2015): Viktimisierungsbefragungen in Deutschland. In: Band 2 Methodik und Methodologie, S. 8 – 75, Wiesbaden: BKA