DISKRIMINANZANALYSE IN SPSS

Inhalt

Idee der Diskriminanzanalyse in SPSS
Durchführung der Diskriminanzanalyse mit SPSS
Test der Prognosequalität Deiner Diskriminanzanalyse
Literatur

Diskriminanzanalyse mit SPSS: Die Diskriminanzanalyse bei SPSS bildet eine statistische Analyse mit dem Ziel, die Gruppenzugehörigkeit von Subjekten oder Objekten anhand Ihrer Ausprägungen von zwei oder mehr metrischen Merkmalen zu prognostizieren. Anders ausgedrückt, bestimmt sie die Abhängigkeit eines nominalskalierten Merkmals mit zwei oder mehr Ausprägungen von zwei oder mehr metrischen unabhängigen Variablen (vgl. auch Backhaus et. al. 2013).

Eine Voraussetzung für die Durchführung einer Diskriminanzanalyse ist es, dass die metrischen Variablen in den Gruppen normalverteilt sind, mit gleichen Varianzen und Kovarianzen. Insbesondere bei kleinen Datensätzen musst Du diese Annahme daher im Vorfeld überprüfen. Vorab liegt es jedoch nahe, sich einen Überblick über die allgemeine statistische Datenanalyse in SPSS zu verschaffen.

Idee der Diskriminanzanalyse in SPSS

Eine Bank entscheidet im Allgemeinen über die Kreditwürdigkeit ihrer Kunden anhand deren finanzieller Gesamtsituation. Beispielsweise nimmt der Abteilungsleiter an, es handle sich dabei im Wesentlichen um zwei interessante Einflussfaktoren, nämlich das monatliche Nettoeinkommen und die Ausgaben für die Wohnung.

Er möchte die Entscheidung über die Kreditwürdigkeit beschleunigen. Also entscheidet er sich, anhand dieser letzten 20 Entscheidungen seiner Abteilung eine Diskriminanzanalyse mit SPSS durchzuführen. Zunächst einmal sollte man sich dem Daten Importieren in SPSS widmen.

Abb. 1: Datensatz für die Prüfung der Kreditwürdigkeit

Erstellt er nun aus Monatseinkommen und Wohnungskosten ein gruppiertes Streudiagramm als grafische Darstellung in SPSS, so erhält er folgendes Bild. Dabei sind Fälle, bei denen die Prüfung auf Kreditwürdigkeit positiv ausgefallen ist, blau eingezeichnet, die anderen Fälle sind grün eingezeichnet.

Abb. 2: Gruppiertes Streudiagramm für den Datensatz mit eingezeichneter Diskriminanz-Achse

Auch intuitiv leuchtet es ein, dass weder das Monatseinkommen allein noch die Höhe der Wohnungskosten für sich als Entscheidungskriterium für die Kreditwürdigkeit dienen kann. Vielmehr muss dem Kreditsuchenden nach Begleichung seiner Wohnungskosten noch genug Spielraum bleiben, um den Kredit zurückzuzahlen.

Anstelle also anhand der einzelnen Einflussgrößen eine Trennung zwischen den bearbeiteten Fällen zu suchen, legt er hier die rote Gerade so in das Streudiagramm, dass sie die Kategorien möglichst gut voneinander abtrennt. Bis auf einen grünen und einen blauen Punkt gelingt das hier auch exemplarisch.

Diskriminanzfunktion bildet eine Linearkombination

Jetzt kann er alle Punkte auf die Orthogonale zur roten Achse rechtwinklig projizieren. Punkte, deren Projektion unterhalb des Schnittpunktes mit der roten Achse liegen, werden demnach als „kreditwürdig“ eingestuft. Liegt die Projektion oberhalb der roten Achse, so lautet die Entscheidung anhand der Diskriminanzwerte folglich „nicht kreditwürdig“. Wem die Interpretation schwerfällt, dem bietet sich die Möglichkeit der Statistik Nachhilfe.

Die hier schwarz-gestrichelt eingezeichnete Linie bezeichnet man als Diskriminanzfunktion. Sie ist eine Linearkombination aus Monatseinkommen und Wohnungskosten. Ihre Koeffizienten werden so bestimmt, dass der Quotient aus der Streuung zwischen den Gruppen und der Streuung innerhalb der Gruppen maximiert wird.

Eine anschauliche formale Darstellung der Diskriminanzanalyse findest Du etwa bei den Materialien der Universität Jena.

Durchführung der Diskriminanzanalyse mit SPSS

Für die Berechnung der Diskriminanzfunktion mit SPSS wählst Du innerhalb der SPSS Syntax die Menüfolge „Analysieren/Klassifizieren/Diskriminanzanalyse“.

Abb. 2: Menüfolge für die Diskriminanzanalyse mit SPSS

Anschließend öffnet sich dadurch eine Dialogbox, in der Du die abhängige und die unabhängigen Variablen aus Deinem Datensatz auswählen kannst. Hier sind die unabhängigen Variablen „Monatseinkommen“ und „Wohnungskosten“, sowie als Gruppierungsvariable die Kreditwürdigkeit angegeben.

Dabei musst Du beachten, dass die nominalskalierte Gruppierungsvariable im Datensatz unbedingt numerisch codiert sein muss.

Abb. 3: Dialogbox für die Zuordnung der Variablen

Zunächst stehen in der Dialogbox hinter den Gruppierungsvariablen 2 Fragezeichen. Wenn Du auf „Bereich definieren“ klickst, so gelangst Du in die Dialogbox der Abbildung 4, in der Du die beiden Ausprägungen der Variablen, hier 1 für „kreditwürdig“ und 2 für „nicht kreditwürdig“ eingeben kannst.

Abb. 4: Definition des Bereichs der Gruppierungsvariablen.

Klicken auf „Weiter“ und dann auf „OK“ ergibt im SPSS-Output unter anderem die standardisierten kanonischen Diskriminanzkoeffizienten.

Abb. 5: Standardisierte Diskriminanzkoeffizienten im SPSS-Output

Abbildung 5 zeigt das erwartete Ergebnis: Die Höhe des Monatseinkommens wirkt sich positiv, die der Wohnungskosten negativ auf die Kreditwürdigkeit aus.

Test der Prognosequalität Deiner Diskriminanzanalyse mit SPSS

Im ersten Schritt Deiner Analyse hast Du also aus einem Datensatz mit bereits klassifizierten Daten Deine Diskriminanzfunktion bestimmt. Sie ist eine Linearkombination der unabhängigen metrischen Variablen, die die erfolgte Klassifizierung möglichst gut abbildet.

Im zweiten Schritt prüfst Du nun, ob Deine Analyse eine signifikante Trennung bewirkt. Nur dann nämlich ist sie für eine Prognose brauchbar.

Die dazu erforderlichen Berechnungen findest Du bereits in Deinem Output der SPSS Software. Alternativ bietet sich dir natürlich der Datenanalyse Service.

Zunächst sind dort die Eigenwerte der Diskriminanzfunktion angegeben. Multiplizierst Du eine (mxm)-dimensionale quadratische Matrix mit einem m-dimensionalen Vektor, so erhältst Du wieder einen m-dimensionalen Vektor. Falls der neue Vektor gerade das λ-fache des vorherigen Vektors ist, so bezeichnet man den ersten Vektor als Eigenvektor und λ als Eigenwert der Matrix. Du kannst den Eigenwert dann quasi als „Streckfaktor“ der Matrix interpretieren. Je größer ein Eigenwert ist, umso höher ist also die Güte der Trennung bei der Klassifizierung. Da es sich hier um eine Diskriminanzfunktion handelt, erfasst diese die gesamte Varianz (vgl. Janssen/Laatz, 2017).

Abb. 6: SPSS-Output der Diskriminanzanalyse

Nächster Schritt: Deine Hypothese testen

Mit dem nächsten Teil Deines Outputs testest Du die Hypothese, die durch Deine Diskriminanzachse vorgenommene Trennung sei nicht signifikant. Wilks Lambda ist der Anteil der nicht erklärten Streuung an der Gesamtstreuung der Beobachtungen. Je kleiner Lambda ausfällt, umso besser ist entsprechend die Trennung. Lambda kann sodann in eine Chi-Quadrat-verteilte Prüfgröße überführt werden. Die Nullhypothese wird dann verworfen, wenn die berechnete Signifikanz des Prüfwertes kleiner als Deine gewählte Irrtumswahrscheinlichkeit, üblicherweise 5%, ist. Mit 0,05 > 0,006 verwirfst Du die Nullhypothese der Diskriminanzanalyse und schließt auf eine signifikante Trennung.

Demnach war die Idee des Abteilungsleiters gut: Zukünftig können die Kreditanträge vorab einer Sortierung mittels der Diskriminanzanalyse unterzogen werden. Der Statistik-Service kann diese Prozedur auf eine simple Art und Weise herunterbrechen.

Die Diskriminanzanalyse berechnet eine Diskriminanzfunktion als Linearkombination von metrischen unabhängigen Variablen. Diese führt eine Zuordnung der Objekte in die verschiedenen Ausprägungen der abhängigen Variablen durch. Falls etwaige statistische Tests für eine signifikante Trennung sprechen, kannst Du die Diskriminanzfunktion zukünftig für die Prognose verwenden.

Literatur

Janssen, Jürgen/Laatz, Wilfried (2017): Statistische Datenanalyse mit SPSS. Eine anwendungsorientierte Einführung in das Basissystem und das Modul Exakte Tests, 9. Auflage, Berlin.

Backhaus, Klaus/Erichson, Bernd/Plinke, Wulff/Schuchard-Ficher, Christiane/Weiber, Rolf (2013): Multivariate Analysemethoden. Eine anwendungsorientierte Einführung, 5. revidierte Auflage, Berlin, Heidelberg.

Anderen Studenten hat auch das noch gefallen