Wie führt man einen Hypothesentest mit Stata durch?



03 Aug Wie führt man einen Hypothesentest mit Stata durch?

Hypothesentests haben einen wichtigen Grund. Wissenschaftliche Thesen sollten überprüfbar sein, das ist das Prinzip für wissenschaftliches Arbeiten. Hilft ein Wirkstoff wirklich gegen Schmerzen? Wenn ja, sollte sich das auch empirisch nachweisen lassen. Dabei hilft Statistik-Software wie Stata. Aber wie funktioniert ein Hypothesentest mit Stata? Welche Analysemethoden bieten sich an und wie setzt man sie mit Stata um? Das erklärt dieser Beitrag.

Hypothesentest – was ist das?

Nach Karl Poppers Theorie des kritischen Rationalismus gilt es, zunächst Hypothesen theoretisch herzuleiten und diese dann durch eine empirische Arbeit zu überprüfen (Popper 2013).

Dieses Vorgehen grenzt sich nicht nur von den rein theoretischen Arbeitsweisen ab, sondern auch von jenen, bei denen man auf Basis von empirischen Beobachtungen, Interviews oder Umfragen, Theorien aufstellt.

Im kritischen Rationalismus steht deshalb am Anfang nicht die Empirie sondern die Theorie. Diese überprüft man dann im zweiten Schritt empirisch. Dazu leitet man zunächst aus der allgemeinen Theorie eine individuelle Hypothese ab. Diese kann man dann empirisch überprüfen. Vor allem Mittelwerte, Streuungs- und Zusammenhangsmaße spielen dabei eine wichtige Rolle. In einem zweiten Schritt gilt es zu prüfen, ob die Ergebnisse auch signifikant sind.

Anwendungsbeispiel

Ein Pharmazeut hat die Vermutung, dass ein bestimmter Wirkstoff das Schmerzempfinden reduziert. Hierzu muss er zunächst daraus eine überprüfbare Hypothese ableiten. Diese könnte etwa lauten, dass Patienten, die den Wirkstoff erhalten, weniger über Schmerzen klagen als die Kontrollgruppe.

Für den Test des Medikaments gegen Schmerzen im Beispielfall wurden 1.000 Personen untersucht. Sie haben ihre Schmerzen auf einer Skala von 0 bis 10 angegebenn. Dann werden sie in eine Untersuchungs- und eine Kontrollgruppe eingeteilt. Dabei wird darauf geachtet, dass in beiden Gruppen die gleiche Zahl von Menschen mit starken, mittleren oder niedrigen Schmerzen vertreten ist und die Schmerzen im Mittel gleich sind. Außerdem wurden Informationen zu Alter und Geschlecht erhoben. Nach Gabe des Medikaments oder Placebos werden die Schmerzen ein weiteres Mal abgefragt.

Alle Daten wurden mit einer Tabellenkalkulation erfasst. Jede Zeile ist eine Person. In der ersten Spalte steht eine fortlaufende Nummer, in der zweiten eine Null für Patienten, die das Placebo bekamen und eine Eins für solche, die das Medikament erhielten. Dann wird die Stärke der Schmerzen in eine weitere Spalte eingetragen. Weitere Spalten enthalten Geschlecht und Alter. In der ersten Zeile steht der Variablenname, nämlich Nummer, Medikament.

Wozu Stata?

Stata ist eine Statistik-Software bei der auch eine grafische Oberfläche genutzt werden kann. Das bedeutet, dass Befehle nicht als Programmcode eingegeben werden müssen, sondern Nutzer eine Berechnungsmethode im Menü per Mausklick auswählen können. So wie man mit einem modernen Betriebssystem keine Befehle wie read oder load mehr braucht, sondern eine zu öffnende Datei einfach anklicken kann.

Das beginnt schon beim Einlesen der Daten. Beispielsweise kann eine CSV-Datei ähnlich wie in Excel über das Menü ausgewählt und eingelesen werden. Die Übernahme der Spaltennamen als Variablennamen erfolgt weitgehend automatisch.

So wendet man Stata bei unserem Beispiel an

Im Folgenden zeigen wir, wie man Stata also bei unserem Beispiel anwenden kann und verraten dir Befehle, die dir helfen, die gesammelten Daten auch korrekt auszuwerten.

Summarize als Stata-Befehl

Der Befehl Summarize spielt beim Hypothesentest mit Stata eine große Rolle. Denn er erzeugt eine ganze Reihe wichtiger Kennzahlen wie arithmetisches Mittel, Standardabweichung, Minimal- und Maximalwerte. Die Auswertung erfolgt grundsätzlich für alle Variablen, kann durch das Hinzusetzen des Variablennamens aber auf eine beschränkt werden.

Schmerzen würde beispielsweise die Kennzahlen für die Variable Schmerzen auswerten, also die durchschnittliche Stärke der Schmerzen, die Standardabweichung sowie die Werte für die Person mit den wenigsten und für die mit den höchsten Schmerzen.

Daraus lässt sich aber noch kein Unterschied zwischen Untersuchungs- und Kontrollgruppe ableiten. Die Formel by Medikament: summarize Schmerzen würde die Schmerzwerte für die beiden Teilgruppen getrennt auswerten.

Zusammenhänge erkennen: Korrelationen berechnen

Solche einfachen Betrachtungen sind oft hilfreich und sollten nicht unterschätzt werden. Sie sind aber nicht immer ausreichend. Im genannten Beispiel könnte beispielsweise die Frage auftreten, ob ältere Probanden generell mehr Schmerzen empfinden. Sehr beliebt und leicht zu interpretieren ist bei solchen Fragestellungen der Korrelationskoeffizient von Bravais-Pearson. Er kann in Stata mit dem Befehl correlate berechnet werden. Grundsätzlich werden dann alle Korrelationen zwischen den Variablen ausgegeben. Wer gezielt die Korrelation zwischen zwei Variablen berechnen will, kann den Befehl auf diese einschränken, in diesem Fall die Variablen Schmerzen und Alter.

Korrelation: Vorsicht vor Fehlschlüssen

Allerdings wird der Korrelationskoeffizent oft falsch interpretiert. So gibt er keine Auskunft darüber, ob der Zusammenhang relativ (z.B. a ist immer doppelt so groß wie b) oder absolut (z.B. a ist immer 2 größer als b) ist.

Außerdem ist eine Korrelation noch kein Beweis für einen ursächlichen Zusammenhang. Im genannten Beispiel ist die Sache eindeutig, wenn Schmerzen und Alter positiv korrelieren, dann führt ein höheres Alter wohl zu mehr Schmerzen. In anderen Fällen ist die Wirkungsrichtung nicht so eindeutig (Bauer et al. 2014).

Signifikanz testen

Scheinkorrelationen und schlechte Datenqualität sind aber nicht die einzigen Faktoren, die zum Formulieren von statistischen Ergebnissen führen können – und falsch sind. Auch der Zufall kann seine Hand im Spiel haben. Wenn von 500 Patienten, die ein Medikament bekommen haben, mehr gesunden als in der Kontrollgruppe, waren vielleicht einfach besonders viele mit gutem Imunsystem in der Gruppe. Das Medikament hatte dann überhaupt keinen Einfluss. Ergebnisse, die mit einer hohen Wahrscheinlichkeit auf zufälligen Ereignissen beruhen, können keine Aussagekraft beanspruchen.

Hier helfen Signifikanztests. Die meisten prüfen, mit welcher das Ereignis durch Zufall auftreten könnte. Liegt die Wahrscheinlichkeit dafür bei mehr als 5,0 Prozent, ist es nicht signifikant.

Ein Hypothesentest mit Stata bietet deutlich mehr Möglichkeiten als mit einem Tabellenkalkulationsprogramm wie Excel. Mittelwerte lassen sich zwar auch ohne Statistik-Software leicht bestimmen, bei Signifikanztests oder Regressionsanalysen bietet eine gute Software aber viele Vorteile. Das bedeutet nicht, dass man nicht auch mit Stata „einfache“ Kennzahlen wie das arithmetische Mittel, den Median, die Standardabweichung oder die Korrelation untersuchen sollte. Bei Problemen mit Statistik ist eine Statistik Beratung bzw. eine Datenanalyse Beratung oder ein Statistik Service sehr hilfreich. Wer sich auf statistische Fragestellungen vorbereiten möchte, kann außerdem Statistik Nachhilfe in Anspruch nehmen, um später alles selbst meistern zu können.

Literatur

Bauer, Thomas/Gigerenzer, Gerd/Krämer, Walter (2014): Warum Dick nicht doof macht und Genmais nicht tötet, Frankfurt.
(1997): Der Hund, der Eier legt, Reinbek

Popper, Karl (2013): Die Logik der Forschung – überarbeitete Neuauflage, Berlin.

Anderen Studenten hat auch das noch gefallen
Autor: