Datenbereinigung mit SPSS: Die Datenbereinigung und der vorherige richtige Umgang mit fehlerhaften statistischen Daten erfordert einiges Hintergrundwissen und praktisches Geschick im Handling der gewählten Auswertungssoftware. Datenfehler können die gesamte Statistik beeinflussen. Extremwerte, Ausreißer oder Dateninkonsistenzen führen zu einer Verzerrung der Teststatistik und bedürfen eines Datenanalyse-Service. Was machst Du, wenn Dir Werte fehlen oder diese fehlerhaft sind und die Daten nachhaltig die Analyse beeinflussen? Wo findest Du extreme Abweichungen einzelner Daten? Wie führst Du anschließend eine Datenbereinigung durch? In diesem Beitrag erfährst Du die wichtigsten Methoden zum Aufspüren und Beheben von Fehlern in der Datenqualität mit der Software SPSS und Strategien zur Datenbereinigung.
Datenbereinigung mit SPSS: Fehler in Daten mit SPSS im Voraus vermeiden
Welche Fehler können also passiert sein? Daten einer Versuchsperson aus Online-Umfragen, für die sich eine Clusteranalyse mit SPSS hervorragend eignet, können beispielsweise unvollständig sein. Der Teilenehmer hat den Webbrowser vorzeitig geschlossen oder hat Fragen unbeantwortet übersprungen. Eine Maschine hat falsche oder nicht vorhandene Daten automatisch in die Datenbank übertragen. Die Handschrift und die Markierungen in einem Paper-Pencil -Test, der klassischen Befragung mit Stift und Papier, kann unleserlich oder doppeldeutig sein. Eine gute Strategie ist es deshalb, Fehler in den Daten in Umfragen von vorneherein weitgehend zu vermeiden.
Dazu können Frageitems verwendet werden, welche die Aufmerksamkeit der Personen beim Beantworten kontrollieren. Beispielsweise können Fragen gestellt werden, die nach korrektem Lesen nur „richtig“ beantwortet werden können. Eine solche Kontrollfrage könnte lauten: „Essen Sie gerne Sand?“ Dann fordert man die Testpersonen auf, die linke Ausprägung „trifft nicht zu“ auf der Antwortskala anzukreuzen. Mit diesem Kniff kannst Du „unaufmerksame“ Rater identifizieren und aus der Analyse ausschließen.
Gut formulierte sowie verständliche Instruktionen oder das Hinzufügen einer „weiß ich nicht“-Kategorie in einer Umfrage können bereits Abhilfe in der Phase der Datenerhebung schaffen. Die Datenbereinigung kann anschließend relativ einfach mittels Filter der entsprechenden Antwortkategorie in SPSS durchgeführt werden (Daten > Fälle auswählen).
Fehlende Werte aufspüren und einordnen
Fehlende Werte oder Missing Values können systematisch, systembedingt auftreten oder auch gewollt sein. SPSS kennzeichnet fehlende Daten mit einem Punkt (.) im Datensatz. Grundsätzlich kann die Anzahl fehlender Werte im ersten Schritt über die deskriptive Statistik für ein Item oder eine Variable angezeigt werden (Analysieren> Deskriptive Statistiken> Häufigkeiten). Du kannst Dir einen Überblick verschaffen, ob und wie viele Daten nicht konsistent sind. Danach könnten sich dann statistische Verfahren anschließen.
Eine einfache und effektive Möglichkeit, um Datenfehlern auf die Spur zu kommen, ist mittels der Suchfunktion in SPSS möglich. Tippfehler oder Datenwerte, die nicht zur Kategorie oder inhaltlich zu dem Item passen, kannst Du so identifizieren, ändern oder eine Datenbereinigung vornehmen.
Fehlende Werte können auch schematisch gekennzeichnet werden. SPSS stellt dazu konfigurierbare Felder in der Variablenansicht zur Verfügung. Durch Einträge von Wertbeträgen, welche die Variable oder das Item nicht beinhalten kann, lassen sich fehlende Werte thematisch und logisch ordnen. Der Eintrag von -999, -888, -777 bei der Variable „Alter“ kann real nicht vorkommen. SPSS filtert, je nach Prozedur, anhand der hinterlegten Werte die als fehlend gekennzeichneten Werte aus, führt die Datenbereinigung durch und erstellt die Statistik.
In der Regel erfolgt die Datenbereinigung durch die Auswahl der Prozedur fall- oder listenweiser Fallausschluss. Fehlen viele Antworten, kannst Du in SPSS Imputationsverfahren anwenden und nicht vorhandene Daten schätzen.
Weitere Informationen zum Umgang mit fehlenden Werten und Datenmanagement kannst Du auf der Webseite der Freien Universität Berlin finden. Zudem ist es möglich, eine Statistik-Beratung in Anspruch zu nehmen.
Abb. 1: Kennzeichnung einzelner fehlender Werte in SPSS für die Datenbereinigung
Ausreißer und Extremwerte für die Datenbereinigung in SPSS identifizieren
Wie kommst Du Ausreißern oder Extremwerten auf die Schliche? Auch dafür gibt es Kniffe in SPSS. Wir zeigen Dir im Folgenden, wie man Ausreißer und Extremwerte findet und eine Datenbereinigung vornimmt, ohne dabei einen Schaden anzurichten.
Ausreißer in SPSS
Sogenannte Ausreißer können einige statistische Verfahren massiv beeinflussen und somit die Statistik verzerren bzw. die Interpretation der Daten beeinträchtigen. Beispielsweise reagiert das arithmetische Mittel sensibel auf Extremwerte. Sprich: Wenige sehr hohe Werte können die Lage des arithmetischen Mittels in Richtung der hohen Werte bewegen, obwohl die meisten Personen aus einer Stichprobe deutlich niedrigere Messwerte aufweisen.
Du kannst jedoch einfache Sichtungstest anhand von Grafiken mit Hilfe von SPSS durchführen und anschließend eine Datenbereinigung vornehmen. Zuerst können Histogramme Informationen über die Art der Verteilung der Daten liefern. Auf diese Art und Weise können beispielsweise Boden- bzw. Deckeneffekte in den Daten gefunden werden. Weiter kann durch Betrachtung des Histogramms geprüft werden, ob die Daten beispielsweise normalverteilt sind. Dies kann sehr hilfreich für die Auswahl der passenden Analysemethode oder eine mögliche Transformation der Daten sein.
Sind Ausreißer vorhanden, kannst Du diese entweder aus der Analyse ausschließen oder auf robuste statistische Verfahren ohne vorhergehende Datenbereinigung zurückgreifen. Der Median gilt beispielsweise als robust gegenüber Ausreißern. Er kann als alternativer Schätzer für den Erwartungswert einer statistischen Verteilung verwendet werden.
Extremwerte in SPSS
Mittels sogenannter Box-Plot-Grafiken werden Extremwerte und Ausreißer allerdings mittels Sternchen (*) oder (o) gekennzeichnet (hier erfolgt keine automatische Datenbereinigung). In der Box der Kastengrafik befinden sich die mittleren 50 % der Fälle. Der breite, schwarze Strich innerhalb der Box ist der Median. Der Boden der Box stellt das 25% Perzentil und die Decke der Box das 75% Perzentil dar. Die Whiskers (Antennen oder T-Bars) sind 1,5-fach höher als die Box. Wenn die Daten normalverteilt sind, liegen ca. 95% der Daten zwischen den Whisker. Eine eingeblendete Zahl neben der Markierung zeigt die Fallnummer im Datensatz an.
Im aufgeführten Beispiel in der Abbildung 2 stellt die Fallnummer 5370 einen Extremwert dar. Dieser hat noch mehr Einfluss auf das Ergebnis der Berechnung eines arithmetischen Mittels als ein „einfacher“ Ausreißer. Der Extremwert ist erkannt und kann gelöscht oder aus dem Datensatz per Prozedur gefiltert werden (händische Datenbereinigung). Beachte aber beim Löschen eines Falles, dass sich auch die Fallreihung ändert. Das ist wichtig zu wissen, da bei mehreren Löschvorgängen von Ausreißer- bzw. Extremwerten die Fallnummern (in der Regel der Zeilenindex bei Wide-Format Datensätzen) in SPSS geändert wird und nicht versehentlich ein passender, gültiger Fall gelöscht wird.
Abb. 2: Verteilung prüfen, Ausreißer und Extremwerte für eine mögliche Datenbereinigung identifizieren
Fehlende Werte, Ausreißer oder Fehler in den Daten können die Statistik beeinflussen und verzerren und somit die Interpretation der Ergebnisse erschweren. Dennoch solltest Du nicht von vornherein auf robuste Verfahren aus der Statistik setzen. Sind beispielsweise keine Ausreißer vorhanden, kann der robuste Schätzer ungenau sein. Es lohnt sich also Ausreißer, extreme Werte und die Datenqualität zu prüfen und die statistischen Daten mit den Möglichkeiten der Statistiksoftware SPSS zu bereinigen. Wenn Du Hilfe brauchst, kannst Du dafür einen Statistik-Service nutzen.
Literatur
Backhaus, Klaus/Erichson, Bernd/ Plinke, Wulff/ Weiber, Rolf (Hrsg.) (2016): Multivariate Analysemethoden. Eine anwendungsorientierte Einführung, 14. Auflage Berlin/Heidelberg.
Brosius, Felix (2018): SPSS. Umfassendes Handbuch zu Statistik und Datenanalyse, 8. Auflage Frechen.
Field, Andy (2017): Discovering Statistics Using IBM SPSS Statistics, 5. Auflage London.