OUTPUT IN R interpretieren

Inhalt

Output in R interpretieren
Zuerst Pakete auswählen, dann Output in R interpretieren
Erste Schritte mit R: Daten importieren
Grundlegende Analyse: Lageparameter in R
Zusammenhänge erkennen: Korrelation
Literatur

Output in R interpretieren ist schwer? Nicht, wenn man weiß, wie R als Programmiersprache funktioniert. Alles wichtige für die ersten Schritt beim Interpretieren von Output mit R erläutern wir kurz in diesem Beitrag. Außerdem beantworten wir die Frage, ob sich ein Export in eine Tabellenkalkulation lohnt und geben einige allgemeine Tipps um Output in R interpretieren zu können.

Output in R interpretieren – Prolog

Das R Programm ist eine speziell für statistische Auswertungen entwickelte Programmiersprache. Oft bezeichnet man R auch als Statistik-Programm, denn „The R Project vor Statistical Computing“ (www.r-project.de) bietet auch eine Software an, mit der man in R geschriebene Anweisungen ausführen kann. R ist aber trotzdem eine freie und offene Programmiersprache. Deshalb lassen sich in R geschriebene Analysen auch mit anderen Programmen als dem vom R-Project bereitgestellten Compiler ausführen.

Im Gegensatz zur SPSS Software, das auch als Programmiersprache gestartet ist, gibt es für R aber bisher kaum grafische Benutzeroberflächen. Befehle kannst du also nicht per Mausklick auswählen, sondern musst sie als Text eingeben (Wollschläger 2013).

Allerdings gibt es für Privatnutzer kostenlose Programme, mit denen zumindest einige Operationen wie das Einlesen von Dateien per Mausklick möglich sind und die auch das Abspeichern der programmierten Auswertungen einfacher machen. Bekannteste integrierte Entwicklungsumgebung (IDE) für R ist RStudio (Infos dazu unter RStudio.com). Mit RExcel gibt es außerdem ein Plug-In für die Nutzung von R in Excel. Das erleichtert es auch Output in R interpretieren zu können.

Zuerst Pakete auswählen, dann Output in R interpretieren

Eine Besonderheit, wenn man Output in R interpretieren will, ist der Aufbau in viele Pakete. Jedes hat bestimmte Aufgaben und bietet spezielle Befehle. Weil R nicht von einem zentralen Entwicklerteam, sondern von vielen unabhängigen Gruppen erstellt wurde, überschneiden sich die Inhalte teilweise. Viele Kennzahlen lassen sich mit dem einen oder dem anderen Paket berechnen. In Ausnahmefällen kann es auch vorkommen, dass ein Befehl in verschiedenen Paketen unterschiedliche Bedeutungen hat oder die Berechnung sich leicht unterscheidet. Ein Statistik Service kann hier beraten Output in R interpretieren zu können.

Einige Pakete wie „package:stats“ sind bereits in der Standardvariante erhalten. Sie laden sich automatisch. Welche Pakete aktuell geladen sind, erfährt mit dem Befehl search(). Mit library() lässt sich anzeigen, welche Pakete auf dem Rechner installiert, aber nicht aktiviert sind. Durch library(Paketname) werden sie aktiv. Mit install.packages („Paketname“) lassen sich neue Pakete installieren und Output in R interpretieren.

Erste Schritte mit R: Datei importieren

Bevor man Output in R interpretieren kann, muss dieser natürlich geladen werden. Oft liegen die Informationen im Format eines Tabellenkalkulationsprogramms vor. Tatsächlich ist das auch die einfachste Möglichkeit, um beispielsweise Daten aus einem Fragebogen oder einer Umfrage zu kodieren und zu erfassen.

Dabei bietet es sich an, zunächst ein Arbeitsverzeichnis zu definieren, wenn man Output in R interpretieren möchte. Der Befehl getwd() zeigt den aktuell verwendeten Ordner an. Liegt hier die einzulesende Datei, kannst du sie direkt einlesen.

Andernfalls musst du mit setwd(„“) zunächst das richtige Verzeichnis definieren. Liegt die Datei beispielsweise auf dem Laufwerk C unter Documents im Ordner R-Daten, dann lautet der Befehl setwd(„C:/Documents/R-Daten“). Die Anführungszeichen sind dabei wichtig. Hier legst du später auch gespeicherte Dateien ab, wenn du Output in R interpretieren möchtest.

Output-Dateien öffnen und mit Software interpretieren

Jetzt lässt sich die Datei öffnen: eine CSV-Datei beispielsweise über den Befehl read.csv2(Dateiname.csv) – hier jetzt ohne Anführungszeichen, beispielsweise read.csv2(Patientendaten.csv) um Output in R interpretieren zu können.

Eine einfache Möglichkeit, um Output in R interpretieren zu können und etwas zu importieren, ist RStudio. Hier lassen sich die Dateien über eine Schaltfläche einlesen. Sie heißt „Import Dataset“ und findet sich im Fenster Environment. Nach Auswahl der gewünschten Datei per Mausklick öffnet sich ein neues Fenster. Wichtig ist dabei, dass die richtigen Trennzeichen definiert werden, das geht unter „delimiter“. Üblicherweise ist das Komma voreingestellt. Da es im deutschsprachigen Raum als Dezimaltrennzeichen (z.B. bei 1,7) verwendet wird, verwendet Excel hier das Semikolon (;). Entsprechend muss die Auswahl umgestellt werden. Unter „Locale“ muss man dafür „Decimal Mark“ vom Punkt auf das Komma ändern, um Output in R interpretieren zu können.

Natürlich kann man auch über getwd() den aktuellen Arbeitsordner abfragen und die Datei einfach vorübergehend dorthin verschieben. Das ist aber eine etwas unsauberere Möglichkeit um Output in R interpretieren zu können. Außerdem darf man dann nicht vergessen, dort wieder aufzuräumen.

Grundlegende Analyse: Lageparameter in R

Lageparameter gehören fast immer mit dazu, wenn man Output in R interpretieren will. Der bekannteste ist sicher das arithmetische Mittel als Mittelwert, das mit dem Befehl mean berechnet werden kann. Dem Befehl wird noch der Name des Datensets, ein $ sowie der Variablenname anhängt, beispielsweise mean(Patientendaten$Alter) für die Variable Alter. Die Variable (und damit auch das $) kann aber auch weggelassen werden, dann wird das arithmetische Mittel für alle Variablen des Datensatzes bestimmt.

Mit dem Befehl summary können gleich mehrere Lageparameter ausgewertet werden, wenn man Output in R interpretieren möchte. Neben dem arithmetischen Mittel gibt er auch gleich noch den Median aus (der genau in der Mitte liegende Wert), den kleinsten und größten Wert sowie die Grenze zwischen dem ersten und dem zweiten sowie dem dritten und dem vierten Viertel.

Zusammenhänge erkennen: Korrelation

Wichtig ist oft auch die Korrelation zwischen verschiedenen Variablen. Eine Korrelation in SPSS ist besonders einfach zu berechnen. Ein maximaler positiver Zusammenhang (wenn a steigt, steigt auch b) wird durch einen Korrelationskoeffizienten (nach Bravais-Pearson) von 1,0 angezeigt, ein maximal negativer mit -1,0 (wenn a steigt, fällt b). Je näher der Koeffizient an 0,0 ist, desto geringer der Zusammenhang (Bamberger et al. 2008).

R kennt dafür den Befehl cor, der in den Basispaketen enthalten ist. Alternativ gibt es im Paket psych auch cor.test. Dabei führt man auch gleich noch einen Signifikanztest durch.

Allerdings können weitere Einflüsse zu Scheinzusammenhängen führen (Beck-Bornholdt/Dubben 2001). Eine sogenannte Partialkorrelation hilft, um diesen Effekt zu vermeiden. Das ist in R mit dem Befehl r.part möglich.

Output in R interpretieren setzt etwas Einarbeitung voraus. Um die Software nutzen zu können, müssen Nutzer nämlich die entsprechenden Befehle kennen. Dazu gehört auch die Art und Weise, wie man diese schreibt. Mit dem für Studierende und Privatnutzer kostenlosen RStudio ist das einfacher möglich als mit dem vom R Project selbst bereitgestellten Compiler. Auch wenn R mehr Wissen voraussetzt als beispielsweise SPSS, so bietet die Software doch auch Vorteile. Als freie und quelloffene Programmiersprache ist sie weitaus flexibler als kommerzielle Anwendungen. Output in R interpretieren ist also sinnvoll und auch für Anfänger praktikabel. Braucht man dabei Hilfe, ist eine statistische Beratung sinnvoll. Wer Output in R interpretieren von Anfang an lernen möchte, ist mit Statistik-Nachhilfe gut beraten.