Einer der wichtigsten Parameter zur Beurteilung von Regressionsmodellen ist der Adjusted R². Er sagt, wieviel der Varianz in der abhängigen Variable y durch die linearen Terme der unabhängigen Variablen x1, x2, x3, etc … erklärt werden kann. Hier soll ohne Verlust der Allgemeinheit nur eine unabhängige Variable x betrachtet werden. Bei einem perfekten mathematischen Zusammenhang wie zum Beispiel y = 0.5*x ergibt sich stets R² = 1 = 100 %. Der Wert von y lässt sich vollständig durch den gegebenen Wert von x erklären. Entsprechend würde man bei R² = 25 % sagen, dass die Variable x wohl 25 % der Varianz in der Variable y erklärt. Und somit 75 % der Varianz von y unerklärt bleibt. Zumindest ist das die gängige Perspektive. Jedoch ist dieser Ansatz nicht ganz ohne Probleme.
Hier ein kleines Experiment. Ich habe in SPSS Werte für x von -2 bis 2 erzeugen lassen, in feinen Stufen, und y aus y = 0.5*x berechnen lassen. Eine lineare Regression zeigt R² = 100 %. Dann habe ich neue Variable x1 berechnet, die sich aus x plus einem Zufallswert von -0,25 bis 0,25 zusammensetzt. Dasselbe für eine neue Variable y1, also y1 = y + Zufallswert. Die Zufallswerte sollen hier Messunsicherheiten simulieren, dazu gleich mehr. Eine Regression mit x1 als unabhängiger und y1 als abhängiger Variable liefert typischerweise R² = 95 %. Trotz des perfekten mathematischen Zusammenhangs zwischen x und y, von dem immer noch ausgegangen wird, führen Messunsicherheiten also dazu, dass ein R² von 100 % nicht mehr erreicht werden kann. Man erreicht unter Annahme eines uniformen Fehlers von -0,25 bis 0,25 nur noch maximal R² = 95 %. Unter Annahmen eines uniformen Fehlers -0,5 bis 0,5 sinkt das sogar auf einen maximal möglichen R²-Wert von 78 %.
Woher können diese Unsicherheiten kommen? Als Beispiel nehme ich eine 4-Punkte Likert-Skala. Die Punkte entsprechen oft den Standardabweichungen z = -1,5, -0,5, +0,5, +1,5. Es besteht durch die grobe Unterteilung einmal ein Repräsentationsfehler. Ist die gemessene Variable kontinuierlich, so kann ein Teilnehmer bei +0,7 liegen, muss sich aber mit der Wahl von +0,5 zufrieden geben. Solch ein Fehler kann maximal 0,5 Standardabweichungen ausmachen (Ränder ignoriert), mit einem Mittel von 0,25. Dazu kommen noch mögliche Einschätzungsfehler. Statt den realen Wert +0,7 auf den nächsten Skalenwert +0,5 zu runden, könnte die Wahl des Teilnehmers auf +1,5 fallen. Maximal dürfte dieser Fehler im Bereich 1,0 Standardabweichungen liegen, mit einem Mittel entsprechend der Fehlerrate p. Alleine an dieser knappen Übersicht sieht man, dass Fehler 0,25+p = 0,3 bis 0,6 Standardabweichungen bei einer 4-Punkte-Skala durchaus typisch sein könnten.
Das alles hat Konsequenzen für die Interpretation des R²-Werts. Nimmt man an, dass R² aufgrund der Unsicherheit maximal 80 % betragen kann, dann muss die Interpretation “R² = 25 % heißt 25 % erklärt und 75 % nicht erklärt” scheitern. Für eine realistischere Einschätzung sollte der ermittelte R² immer auf den maximal möglichen R² bezogen werden. Ein R² = 25 % bei einem maximal möglichen R² = 80 % (erreichbar nur mit perfektem mathematischen Zusammenhang) übersetzt sich demnach in den folgenden Best Guess: Die unabhängige Variable x erklärt 25/80 = 32 % in der Varianz der abhängigen Variable y und es bleibt der Anteil 55/80 = 68 % der Varianz unerklärt. Das Modell erklärt also mehr, als es eine naive Interpretation vermuten lässt.
Der große Unterschied zum naiven Ansatz ist, dass hier der Benchmark zu einem realistischeren Vergleichswert verschoben wird. Weg vom Benchmark des perfekten Zusammenhangs unter perfekten Bedingungen (keine Unsicherheiten) hin zum Benchmark des perfekten Zusammenhangs unter Berücksichtigung der unvermeidbaren Unsicherheiten bei der Messung. Der perfekte Zusammenhang bleibt der ultimative Vergleichswert. Aber es wird berücksichtigt, dass auch der perfekte Zusammenhang gegeben den Unsicherheiten Einbußen im R²-Wert erfahren würde.
[…] der Skala für politische Einstellung. Der adjusted R² liegt bei 0,14, womit die Persönlichkeit etwa 20 % der Varianz erklärt. Die Persönlichkeit hat einen Einfluss, ist jedoch weit davon entfernt, […]
LikeLike
[…] adjusted R² beträgt mickrige 11 %. Das Modell erklärt somit nur grob 15 % der Varianz, die sich unter Berücksichtung von Messunsicherheiten maximal erklären ließe. Gefunden wurden leider nur Nebeneffekte. Die bestimmenden Faktoren […]
LikeLike