Coaching bei Statistikfragen
Statistik Nachhilfe
Hilfe bei Datenauswertung
Datenanalyse Beratung
Prüfungsvorbereitung?
Statistik Service
Home Wissensdatenbank Statistik Statistische Daten

Statistische Daten

Veröffentlicht am . Zuletzt geändert am .
Statistische Daten


Statistische Daten sind die Grundlage jeder quantitativen Analyse. Dabei ist es egal, ob Du Deine Stichprobe beschreiben, Aussagen über ihre Grundgesamtheit treffen, oder neue Zusammenhänge aufdecken möchtest. Deshalb ist es wichtig, bei ihrer Erhebung und Aufbereitung besonders sorgfältig vorzugehen.

Statistische Daten – was ist das?

Statistische Daten nehmen ganz verschiedene Formen an. Es kann sich um Antwortoptionen eines Fragebogens handeln, die geringe oder große Auswahl bieten („Haben Sie einen Hochschulabschluss?“ vs. „Was ist Ihr höchster Bildungsabschluss?“). Bei anderen Fragen muss eine konkrete Zahl oder ein Werteintervall ausgewählt werden. Auch subjektive Einstufungen mittels der sogenannten Likert-Skala kommen häufig zum Einsatz. Bei dieser drückt der Proband seinen Grad der Zustimmung durch Zahlen (zum Beispiel von 1 bis 5) oder Worte („stimmte stark zu“, „teils/teils“, „stimme überhaupt nicht zu“) aus (vgl. Kuckarzt et al. 2013: 244). Ein Beispiel dafür findest du in Abbildung 1.

Statistische Daten: die Likiert-Skala
Abbildung 1: Likert-Skala

Neben solchen einschränkenden Vorgaben gibt es noch sogenannte „offene Fragen“. Hier können beliebige Zeichen, also Buchstaben, Zahlen oder ihre Kombination, eingegeben werden. Weil sich dadurch die Fehlergefahr erhöht, ist es sinnvoll, schon während der Eingabe, spätestens aber bei der Analyse, die Plausibilität der Antworten zu überprüfen.

Welche statistische Daten gibt es noch?

Fragebögen sind ein häufiges, aber bei weitem nicht das einzige Mittel um statistische Daten zu generieren. Zum Beispiel kannst du Fließtexte aus wissenschaftlichen Arbeiten, Zeitungen oder Büchern analysieren. Lässt Stephen King seine Protagonisten häufiger fluchen als Sebastian Fitzek? Welches Wort wurde 2018 besonders häufig in den Schlagzeilen deutscher Tageszeitungen verwendet? Und es gibt noch mehr. Hättest Du gedacht, dass es sich bei Bildern um statistische Daten handelt? Zum Beispiel kann mittels fMRT die Durchblutung verschiedener Gehirnareale dargestellt und durch statistische Verfahren geprüft werden. Auch Bewegungsmuster sind statistische Daten. Welchen Weg wählen Kunden durch einen Supermarkt? Wie bewegt sich mein Stylus über das Tablet, wenn ich meinen Namen schreibe? All das kannst du mit den richtigen Methoden erheben und analysieren. Eine statistische Beratung kann dir bei diesen Fragen übrigens helfen.

Skalen für statistische Daten

Nominalskala

Skalenniveaus sind ein Weg, die Art Deiner Daten näher zu beschreiben. Von ihnen hängt zudem ab, welche Methoden Du für Deine Analyse verwenden darfst. So sind nominalskalierte Daten lediglich für Vergleiche geeignet. Sie gruppieren Deine Daten in Kategorien (z. B. Haarfarben), treffen aber keine Aussage über Ausmaß oder Rangfolge. Daher kannst Du zwar den Modus, jedoch weder Median noch Mittelwert berechnen. Auch viele andere Methoden sind nicht auf nominalskalierte Daten anwendbar. Das bedeutet, der Informationsgehalt deiner Daten steigt mit dem Skalenniveau (vgl. Mayer 2013: 71).

Ordinalskala

Anders sieht das bei ordinalskalierten Daten aus. Hier liegt eine eindeutige Rangfolge vor. Beispielsweise stellt das Abitur einen höheren Bildungsabschluss dar als die Mittlere Reife, Du kannst allerdings keine exakte Aussage über die Abstände zwischen den Kategorien treffen. Das heißt, Du weißt nicht, ob Hauptschulabschluss und Mittlere Reife genauso weit voneinander entfernt liegen, wie Mittlere Reife und Abitur. Daher darfst Du hier den Median bestimmen, jedoch keinen Mittelwert.

Intervallskala

Jetzt kommen intervallskalierte Daten ins Spiel. Auch diese besitzen eine eindeutige Rangfolge, zudem kannst Du nun Aussagen über ihre Abstände treffen, da sie ‚äquidistant‘ sind. Das bedeutet, die aufeinanderfolgenden Werte sind exakt gleich weit voneinander entfernt. Kalenderjahre sind ein gutes Beispiel für intervallskalierte Daten. Das Jahr 2020 ist genauso weit von 2018 entfernt wie das Jahr 2016. Jetzt darfst du auch den Mittelwert berechnen, ebenso wie sämtliche Maßzahlen der niedrigeren Skalenniveaus. Für das nächsthöhere Skalenniveau fehlt uns allerdings noch ein entscheidendes Merkmal: Der natürliche Nullpunkt. Ein Datenanalyse Service kann dir helfen, wenn es hier Probleme gibt.

Verhältnisskala

Kalenderjahre sind nicht verhältnisskaliert, da sie keinen natürlichen Nullpunkt besitzen. Unser Jahr 0 beschreibt schließlich nicht den tatsächlichen Beginn der Zeit, sondern ist in gewisser Weise willkürlich gewählt. Anders sieht es zum Beispiel bei Gewichts- oder Längenmaßen aus. Ein Stein kann keine -4 Kilogramm schwer sein, ein Lineal keine -0,3 Zentimeter lang. Es können sich auch keine -5 Personen in einem Raum aufhalten. Das bedeutet, der Nullpunkt kann hier nicht einfach gewählt werden, sondern ist durch äußere Faktoren vorgegeben – natürlich eben. Deshalb darfst Du ab jetzt Deine Daten nicht nur Multiplizieren und Dividieren (es macht keinen Unterschied, ob Du mit 10 Metern oder 1.000 Zentimetern rechnest), sondern auch Verhältnisse angeben. Befinden sich also zunächst 10 Personen in einem Raum und eine halbe Stunde später 20, hat sich die Zahl der Personen verdoppelt. So simpel diese Aussage zunächst erscheint, für alle anderen Skalen darfst Du sie nicht treffen.

Die Zuordnung von Skalenniveaus ist anfangs oft ungewohnt, aber mit ein wenig Übung hast du den Dreh schnell raus. Über das Servicecenter Lehre der Universität Kassel kannst du dich mal daran versuchen. Bei Schwierigkeiten kann dir ein Statistik Service helfen.

Wie bereitet man statistische Daten auf?

Um Deine Daten sinnvoll auswerten zu können, müssen sie fehlerfrei in der richtigen Form vorliegen. Das klingt erstmal nicht kompliziert, benötigt jedoch häufig eine ganze Reihe an Vorarbeiten. Zunächst brauchst Du natürlich Daten. Hier solltest Du Dich folgendes fragen: Kannst Du auf bereits vorhandene Daten zugreifen? Oder musst Du neue erheben? Falls ja, wie soll diese Erhebung aussehen? Anschließend kannst Du Deine Daten entweder aus bereits existierenden Datenbanken ziehen, oder neu einpflegen. Manchmal kann es vorkommen, dass Du auf verschiedene Datenquellen zugreifen musst. In diesem Fall musst Du Dir überlegen, wie Du diese sinnvoll miteinander verbindest. Auch das Datenformat kann Probleme machen. Eine Word-Datei überfordert die meisten Statistikprogramme und wenn Deine Tabelle aussieht wie in Abbildung 2, werden sie ebenfalls meckern.

Beispieltabelle
Abbildung 2: Beispieltabelle, Quelle: Eigene Darstellung

Fehlerhafte statistische Daten

Abbildung 2 gibt eine gute Vorstellung, was so alles bei statistischen Daten schiefgehen kann. Punkte anstelle von Kommata lassen sich schnell bereinigen, sobald man den Fehler entdeckt hat, schwieriger wird es bei der Angabe „-3“. Soll dieser Wert als fehlend eingetragen werden? Falls ja, wie gehst Du in der weiteren Analyse mit fehlenden Werten um? Noch problematischer wird es, wenn Werte unwahrscheinlich, aber nicht völlig unplausibel sind. Beispielsweise ist ein Monatsgehalt in Höhe von 20.000 € ungewöhnlich, kann aber durchaus vorkommen. Möglicherweise handelt es sich aber auch um einen einfachen Tippfehler. Den Wert im Datensatz zu lassen kann zu Verzerrungen führen, ihn aus den Daten herauszunehmen ebenfalls. Daher musst du bei der Bereinigung Deiner Daten oft Einzelentscheidungen treffen und begründen. Die Datenbereinigung in SPSS ist eine bequeme Möglichkeit Daten anzupassen. Weitere Tipps zum Umgang mit fehlenden Daten findest Du außerdem bei der Freien Universität Berlin.

Statistische Daten sind vielseitig. Es kann sich um Texte, Zahlen, Intervalle oder Bilder handeln. Egal, wie genau sie aussehen: Bevor Du sie analysierst, musst Du sie nicht nur bereinigen und in eine verarbeitbare Form bringen, sondern Dir auch überlegen, welche Aussagen Du mit ihnen überhaupt treffen kannst. Auch, wenn es Dir am Ende um die eigentliche Analyse geht, eine saubere Aufbereitung Deiner Daten ist essenziell. Daher solltest Du für diesen Teil Deiner statistischen Arbeit immer ausreichend Zeit mitbringen.

Literatur

Mayer, Horst (2013): Interview und schriftliche Befragung: Grundlagen und Methoden empirischer Sozialforschung, 6. Auflage Berlin.

Kuckarzt, Udo/Rädiker, Stefan/Ebert, Thomas/Schehl, Julia (2013):  Statistik: Eine verständliche Einführung, 2. Auflage Wiesbaden.

Anderen Studenten hat auch das noch gefallen
Autor: