Home Wissensdatenbank Statistik R Programm – Einführung in die R Software

R Programm – Einführung in die R Software

Statistikprogramm R


30 Okt R Programm – Einführung in die R Software

R Programm – Statistik mit der R Statistik Software: Statistik ist wohl eines der Module an der Uni, die am meisten polarisieren. Egal ob Soziologie, Wirtschaftswissenschaften oder Medizin, fast jeder Studierende muss sich früher oder später mit Statistik auseinandersetzen und dann bei Problemen eine Statistik-Beratung in Anspruch nehmen. Dieser Blogartikel soll nicht versuchen, Dir das Modul oder einzelne Theorien schmackhaft zu machen. Für viele ist der Start in die Welt der Statistik ungewohnt. Dieser Artikel soll einen Schritt weiter gehen und Dir zeigen, wie viele Möglichkeiten sich Dir eröffnen sobald Du deine ersten Schritte in jene Welt gewagt hast. Der richtige Umgang mit R ist der Schlüssel dazu.

Warum das R Programm?

Im Jahr 2009 beschrieb Hal Varian, der damalige und heutige Chefökonom von Google, den Job des Statistikers als den „sexy job“ der nächsten 10 Jahre. Im Angesicht der heutigen Debatten um Schlagworte wie „Big Data“ oder „Maschinelles Lernen“ hatte er mit seiner Ansicht wohl nicht Unrecht. Doch warum wurde Statistik besonders in den vergangenen Jahren so wichtig?

Viele Grundlagen der Statistik stammen bereits aus dem 18. und 19. Jahrhundert und auch heutige Statistikvorlesungen starten eher mit Namen wie Gauß oder Bayes. Ein Erklärungsansatz liegt in der deutlich verbesserten Zugänglichkeit von Rechenpower. Berechnungen, die vor nur wenigen Jahrzehnten nur von großen Unternehmen und Bildungseinrichtungen verarbeitet werden konnten, sind mit heutigen Computern für Jeden zugänglich. Hier kommt das R Programm ins Spiel.

Grundlagen – R Programm für Statistik

Da dieser Text nur als eine Einführung in das Statistikprogramm R dienen soll, liegt der Fokus der folgenden Beschreibungen nicht auf technischer Präzision, sondern auf der verständlichen Darstellung. Für den Anfang kannst du die Eingaben in das Statistikprogramm R in drei grobe Kategorien einteilen.

R Rechenoperatoren

Du kannst das Statistikprogramm R im Prinzip wie einen Taschenrechner nutzen. +, -, * und / ergeben in R dieselben Ergebnisse wie sonst auch.

Variablen in R

Hier entstehen oft die ersten Ungenauigkeiten. Mit Variablen meint man die Aufbewahrung von Daten (z.B. Zahlen). Der einfachste Fall ist die Aufbewahrung von einzelnen Zahlen. Mit x <- 3 weist du dem Buchstaben “x”, die Zahl 3 zu. Wenn du nun x nutzt, behandelt R dies als 3. Du kannst beispielsweise x + 4 eingeben und wirst 7 erhalten. Variablen im Statistikprogramm R können jedoch weit mehr als nur einzelne Zahlen aufbewahren. Eindimensionale Vektoren, zweidimensionale Matrizen oder sogar noch höherdimensionale Datenstrukturen können gespeichert und verarbeitet werden.

Funktionen mit R

Daten speichern im Statistikprogramm R ist sehr hilfreich aber kein Selbstzweck. Durch die Nutzung von Funktionen kannst du die Daten verarbeiten. Funktionen lassen sich durch Klammern am Ende erkennen. Das Spektrum von Funktionen ist riesig. Angefangen mit einfachen Funktionen wie der Summe sum(), bis zu komplexen Algorithmen. Ein mächtiges Werkzeug in diesem Statistikprogramm ist die Möglichkeit, selbst Funktionen zu schreiben. Im alltäglichen Gebrauch wird nur selten direkt R genutzt, da die Benutzeroberfläche sehr rudimentär ist. Verbreiteter ist die Nutzung sogenannter IDEs (Integrierte Entwicklungsumgebung). Obwohl es zahlreiche dieser IDEs für R gibt, ist die wohl bekannteste RStudio. Wie auch im Statistikprogramm R , kann die Grundversion von RStudio kostenlos genutzt werden.

Ausgabe der Console
Abb. 1: Ausgabe der Console

Packages in der R Software

Das Statistikprogramm R ist eine Opensource Software. Dies bedeutet nicht nur einen freien Zugriff, sondern auch die Möglichkeit selbst einen Beitrag zur Erweiterung von R zu leisten. Falls du noch wenig Erfahrung im Umgang mit Programmiersprachen hast, klingt dies vielleicht als wäre jahrelange Erfahrung nötig, doch genau dies ist nicht der Fall, um selbst ein Package zu schreiben.

Ein Package ist lediglich eine Ansammlung von Funktionen für einen bestimmten Bereich. Es gibt sehr wirkungsvolle und verbreitete Packages, wie ggplot2, dplyr oder shiny mit sehr komplexen Funktionen. Andererseits gibt es auch viele kleinere Packages mit weniger komplexen Inhalten.

Wir haben uns bereits mit den Funktionen beschäftigt und erwähnt, dass auch sehr leicht eigene Funktionen geschrieben werden können. Solltest Du im Laufe deiner Arbeit also mehrere dieser Funktionen geschrieben haben und der Meinung sein, dass auch anderen diese Funktionen helfen könnten, kannst du sie in einem eigenen Package zusammenstellen und anderen zur Verfügung stellen. Dadurch gibt es mittlerweile mehrere Tausend Packages, die kontinuierlich weiterentwickelt werden.

Outputs mit dem R Programm

Wie bereits angesprochen, stehen im Statistikprogramm R viele Funktionen zur Verfügung. Manche dieser Funktionen geben lediglich einfache Rechenoperationen wie den Mittelwert oder eine Summe wieder. Andere Funktionen können jedoch auch in Windeseile statistische Modelle berechnen. Brauchst du Hilfe, kannst du dich auch an einen Statistik-Service wenden.

Ein Beispiel hierfür ist die Regressionsanalyse. Klassischerweise interessieren uns bei der Berechnung dieses Modells zunächst Achsenabschnitt (Intercept) und Steigungsparameter (Slope). Die R-Funktion lm(y ~ x), berechnet jedoch nicht nur die Schätzer unseres Modells, sondern auch zahlreiche hilfreiche Parameter wie den R² oder die Signifikanz der jeweiligen Schätzer. Dies ist Fluch und Segen zugleich. Mit etwas Übung lassen sich mit wenig Aufwand viele Erkenntnisse gewinnen. Lass Dich hierbei nicht von den Outputs in R verwirren und beachte zunächst nur Werte, mit denen du vertraut bist. In diesem Beispiel liegt der geschätzte Wert des Intercepts bei 30 und der Schätzer des Steigungsparameters bei -0.068. Wir erwarten also, dass ein PS mehr, die Reichweite (Miles per Gallon) durchschnittlich um 0.068 Meilen verringert c.p.

Berechnung eines Lineare Modells in R
Abb. 2: Berechnung eines Lineare Modells in R

Visualisierungen mit R

Eine der wohl größten Stärken des Statistikprogramms R sind die Plots. Grafische Darstellungen in SPSS sind auch vielseitig, aber kaum ein anderes Statistikprogramm bietet dir eine größere Vielfalt an Visualisierungsmöglichkeiten als R. Viele Visualisierungsarten sind bereits im Grundpaket von R enthalten und lassen sich mit wenig Übung umsetzen.

BasisplotEin Basisplot über den Zusammenhang von Horsepower und Miles per Gallon
Abb. 3: Ein Basisplot über den Zusammenhang von Horsepower und Miles per Gallon.

Sobald Du mit den grundlegenden Visualisierungen vertraut bist, kannst Du Dich an eines der beliebtesten Packages im Statistikprogramm R wagen: ggplot2. Auf den ersten Blick kann Dir der Aufbau von ggplot2-Befehlen ungewohnt erscheinen, doch nach kurzer Zeit wirst Du merken, dass ggplot2 sehr systematisch strukturiert ist und Dir außerdem viele Möglichkeiten bietet, individuelle und wunderschöne Graphiken zu erstellen. Weitere Inspiration findest du zudem bei r-statistics.

ggplot2Plot beim Statistikprogramm R wie zuvor mit dem Package ggplot2
Abb. 4: Plot beim Statistikprogramm R wie zuvor mit dem Package ggplot2.

Es ist wohl zu anmaßend, den einen besten Weg zum Erlernen dieses Statistikprogramms zu benennen. Wenn Du allerdings gut mit Büchern lernst, gibt es zahlreiche Angebote von Verlagen wie beispielwiese O’Reilly. Auch Online gibt es jedoch viele Angebote, wie Videokurse oder individuelle Nachhilfe, z.B mit unserem Datenanalyse-Service. Eine weitere kostenlose Alternative ist zudem das in diesem Statistikprogramm integrierte Package swirl. Am Ende ist es jedoch wie so oft, Übung macht den Meister!

Anderen Studenten hat auch das noch gefallen
Autor: