DATENVERTEILUNG in SPSS – Einführung mit Beispielen und Tipps

Inhalt

Skalenniveau der Daten und Datenverteilung
Prüfung auf Normalverteilung bzw. Datenverteilung mittels SPSS
- Daten und Variablen: Beurteilung der Schiefe mittels SPSS
- Grafische Analyse der Daten durch SPSS
Literatur

Datenverteilung in SPSS: Statistische Daten und die SPSS Software gehören zusammen wie Butter und Brot. Doch damit Deine empirische Analyse ein Leckerbissen für Deinen Betreuer und Deine Leser wird, musst Du dann aber einiges beachten. Als erstes verschaffst Du Dir einen Überblick über Deine Daten. Du willst schließlich herausfinden, ob jedes statistische Verfahren genutzt werden kann. Im Wesentlich versuchst Du also herauszufinden, ob eine Normalverteilung Deiner Daten vorliegt. Diese vorbereitenden Schritte werden oft als deskriptive Statistik zusammengefasst.

Skalenniveau der Daten und Datenverteilung

In Deinem Datensatz befinden sich verschiedene Merkmale (Variablen) die ein unterschiedliches Skalenniveau und eine unterschiedliche Datenverteilung besitzen können. SPSS unterscheidet hierbei in drei verschiedene Kategorien mit aufsteigender Informationsdichte – nominal, ordinal und metrisch skaliert. Gut erläutert sind die verschiedenen Niveaus bei der Datenverteilung bei der Hochschule Luzern. In diesem Beitrag wird als Beispiel eine Variable dementsprechend Alter mit metrischen Skalenniveau verwendet.

Über das Menü kannst Du Dir die explorative Datenanalyse der Variable Alter anzeigen lassen. Dazu wähle den Pfad „Analysieren > Deskriptive Statistiken > Explorative Datenanalyse“. SPSS zeigt Dir daraufhin für die ausgewählte(n) Variable(n) eine Übersicht über die wesentlichen statistischen Kennwerte zur Lage und Streuung. Dies hilft Dir einen ersten Überblick über Deine Daten zu erhalten. Alternativ kannst du auch Hilfe bei einem Datenanalyse Service suchen.

Tabelle 1: Deskriptive Statistik

Daten aus der Tabelle lesen

Aus der Tabelle 1 sehen wir, dass der Mittelwert größer ist als der Median (33,33 > 28,00). Daraus folgt, es gibt einige Ausreißer nach oben (vgl. Cleff 2015: 42). Die Verteilung könnte also eine Abweichung von der Normalverteilung haben. Konkreter könnte das ein erstes Anzeichen einer linkssteilen/rechtsschiefen Datenverteilung sein.

Die Standardabweichung beträgt 14,058 und streut damit mit diesem Wert um den Mittelwert. Das ist ein hoher Wert und deutet ebenfalls auf ein Problem bezüglich der Normalverteilung hin.

Das Konfidenzintervall zeigt an, in welchen Bereich sich 95% der Werte der Stichprobe befinden. Dies ist hier im Beispiel im Alter von 31,49 bis 35,18 Jahren.

Auf den ersten Blick sind die Daten eventuell also nicht normalverteilt.

Prüfung auf Normalverteilung bzw. Datenverteilung mittels SPSS

Viele statistische Verfahren zur Überprüfung Deiner Hypothesen haben als zwingende Voraussetzung, dass Deine Daten normalverteilt sind (vgl. Backhaus et al. 2018: 177). Dies kannst Du mit SPSS auf zweierlei Art überprüfen. Einmal durch statistische Tests oder aber durch grafische Darstellung in SPSS. Beide sind jedoch mit Vorsicht zu genießen.

Die Testverfahren nach Kolmogorov-Smirnov oder der Shapiro-Wilk-Test prüfen sehr konservativ, ob es eine signifikante Abweichung von der Normalverteilung gibt. Somit werden sehr schnell falsche Schlussfolgerungen gezogen. Der Kolmogorov-Smirnov-Test auf Normalverteilung ist in SPSS etwas versteckt, er findet sich unter dem Pfad „Analysieren > Nichtparametrische Tests > Alte Dialogfelder > K-S bei einer Stichprobe“.

Alternativ kannst du auch auf Analysieren > Deskriptive Statistiken > Explorative Datenanalyse“ gehen und dort unter Diagramme „Normalverteilungsdiagramm mit Tests“ anklicken.

Abbildung 1: K-S Test in der explorativen Datenanalyse

Bei den grafischen Verfahren dagegen, gibt es die Option mittels eines Histogramms oder Boxplot eine Einschätzung vorzunehmen. Auch hier sind leicht Fehlinterpretationen zur Datenverteilung möglich. Es hat sich bewährt, beide Verfahren zu nutzen und wenn Sie deckungsgleiche Ergebnisse ergeben, diese zu verwenden. Kommt es zu unterschiedlichen Ergebnissen, empfiehlt es sich, die Berechnung der Schiefe aus der Explorativen Analyse anzusehen und damit eine Beurteilung der Verteilung vorzunehmen. Oft ist auch hilfreich, einen Profi bei einer Statistik Beratung um Rat zu fragen.

Daten und Variablen: Beurteilung der Schiefe mittels SPSS

Die Schiefe einer Variablen bewertet, ob diese symmetrisch verteilt ist oder nicht. Liegen die Daten in einer perfekten Normalverteilung vor, wäre die Schiefe der Variable also genau null. Anders ausgedrückt, je höher der Wert der Schiefe, desto wahrscheinlicher handelt es sich um keine Normalverteilung.

Das Vorzeichen zeigt Dir an, in welche Richtung die Datenverteilung verschoben sind. Ist es ein negativer Wert, handelt es sich um eine linksschiefe Verteilung. Hier ist der Mittelwert kleiner als der Median. Ist das Vorzeichen positiv, handelt es sich um eine rechtsschiefe Verteilung, der Mittelwert ist also größer als der Median. Im Beispiel ist dies der Fall. Wir erhalten für die Schiefe einen Wert von 1,486.

Schiefe
Abbildung 2: Schiefe

Lässt man SPSS nun die Verteilung grafisch anzeigen, kann man den Eindruck der Schiefe noch untermauern und die Argumentation bezüglich Annahme oder Ablehnung der Normalverteilung festigen. Dazu wählst Du in SPSS einfach „Analysieren > Deskriptive Statistiken > Explorative Datenanalyse > Diagramme“ an und klickst hier auf Histogramm und Normalverteilungsdiagramm.

Abbildung 3: K-S Test und Histogramm

Die Ausgabe unterstreicht das, was wir eben schon aus der Schiefe abgeleitet haben. Es liegt keine Normalverteilung vor.

Abbildung 4: Ergebnis K-S Test

Der Kolmogorov-Smirnov und der Shapiro-Walk Test sind beide hochsignifikant (p<0.000). Das bedeutet wir können die Hypothese, die Verteilung sei keine Normalverteilung, nicht ablehnen.

Grafische Analyse der Daten in SPSS

Abbildung 5:Histogramm

Im Histogramm ist deutlich zu erkennen, dass sich die Kurve, im Vergleich zu einer Normalverteilung, stark unterscheidet. Wenn Du auf „Diagramme > Veraltete Dialogfelder > Histogramm“ klickst, kannst Du Dir auch das Histogramm anzeigen lassen. Hier gibt es noch die Option sich die Normalverteilungskurve anzuschauen.

Abbildung 6: Normalverteilungskurve auswählen

In der Darstellung sieht man nun wieder das Histogramm, diesmal jedoch mit eingezeichneter Normalverteilungskurve. Die Balken sollten sich bei normalverteilten Daten an der Kurve annähern. Dies ist hier im Beispiel nicht der Fall. Somit kann man nicht von normalverteilten Daten sprechen.

Abbildung 7: Histogramm mit Normalverteilungskurve

Im Boxplot sieht man zusätzlich auch noch die Ausreißer in der Datenverteilung. Diese sind dann für einige Analyseverfahren wie die Varianzanalyse von besonderer Bedeutung, und müssen eventuell genauer untersucht werden. Im Beispiel sieht man schließlich die Punkte die SPSS als Ausreißer definiert, das sind alle Werte die SPSS mit einem Kreis markiert. Sie liegen jedoch mehr als das 1,5-fache des Interquartilsabstandes vom oberen Quartil entfernt. Die Werte die SPSS mit einem Kreuz markiert sind deshalb Extremwerte, diese liegen sogar mehr als 3 Interquartilsabstände vom oberen Quartil entfernt (vgl. Cleff 2015: 55).

Abbildung 8: Datenverteilung in einem Boxplot

Explorative Datenanalyse

Die explorative Datenanalyse gibt Dir eine Fülle an Informationen über den Datensatz den du für deine Analyse verwenden möchtest. Im Wesentlichen solltest Du Dir die Verteilung Deiner Variablen und die Lageparameter, sowie die Streuung anzeigen lassen. Somit erkennst Du, ob die Daten homogen oder stark differenziert sind. Darüber hinaus sind insbesondere die Tests auf Normalverteilung der Variablen elementar. Eine Vielzahl von statistischen Testverfahren benötigt normalverteile Daten, um diese anwenden zu können. Somit kannst Du nach der explorativen Datenanalyse schon feststellen, welche Tests durchführbar sind, oder ob Du den Datensatz noch aufbereiten musst. Ein Statistik Service kann Dir helfen, wenn Du unsicher bist und dir beispielsweise aufzeigen, wann sich eine Clusteranalyse mit SPSS eignet.