Was ist eine Standardabweichung? Was sind Z-Werte?

Der Mittelwert m ist die populärste Kennzahl der Statisik und sie ist i.d.R. das Erste, was berechnet wird, wenn man Daten beurteilen bzw. zusammenfassen möchte. Die Standardabweichung s fristet im Gegensatz dazu eher ein Schattendasein und das, obwohl sie genauso wichtig und nützlich bei der Beurteilung von Daten ist. Während der Mittelwert angibt, welche Werte man im Mittel erwarten kann, gibt die Standardabweichung an, wie weit die Werte um diesen Mittelwert streuen.

Eine Welt, in der die Körpergröße eine hohe Standardabweichung besitzt, würde sehr anders aussehen als eine, in der man nur eine geringe Standardabweichung hat. Und das selbst dann, wenn man in beiden Fällen denselben Mittelwert hat. Angenommen es leben auf Insel A Menschen, die im Mittel eine Körpergröße von m = 180 cm und eine Standardabweichung von s = 7 cm haben. In diesem Szenario würde man erwarten, dass circa 70 % (siehe Faustregeln unten) der Menschen eine Körpergröße zwischen 180-7 = 173 cm und 180+7 = 187 cm besitzen. Und 95 % der Menschen auf Insel A liegen zwischen 180-2*7 = 166 cm und 180+2*7 = 194 cm. Menschen unter einer Größe von 160 cm oder über 200 cm wären also auf dieser Insel eine ziemliche Seltenheit. Bei einer Stichprobe mit sehr vielen Menschen würde man auch Menschen mit solch extremen Körpergrößen finden, aber sie würden deutlich aus der Masse herausstechen. Diese Körpergrößen liegen auf Insel A weit außerhalb der gewöhnlichen Schwankungsbreite.

Anders wäre das auf Insel B mit demselben Mittelwert m = 180 cm und einer Standardabweichung s = 15 cm. Hier haben circa 70 % der Menschen eine Körpergröße 165 cm bis 195 cm. Und 95 % eine Körpergröße 150 cm bis 210 cm. Menschen um die 160 cm oder 200 cm Körpergröße würden hier nicht sonderlich herausstechen, trotz der deutlichen Entfernung zum Mittelwert. Extreme Körpergrößen beginnen hier eher ab 140 cm für das eine Ende der Skala und 220 cm für das andere Ende. Um beurteilen zu können, welche Werte innerhalb normaler Schwankungen liegen und welche Werte extrem sind, ist es also unbedingt notwendig die Standardabweichung zu kennen. Der Mittelwert gibt keinen Auskunft darüber. Als Faustformel kann man sich merken:

  • 70 % der Werte liegen zwischen Mittelwert minus einer Standardabweichung (m-s) und Mittelwert plus einer Standardabweichung (m+s)
  • 95 % der Werte liegen zwischen Mittelwert minus zwei Standardabweichungen (m-2*s) und Mittelwert plus zwei Standardabweichungen (m+2*s)

Das gilt zwar strikt nur dann, wenn die Werte normalverteilt sind, aber auch für andere Verteilungen (sofern nicht radikal verschieden) sind es verlässliche Richtwerte. Noch ein weiteres Beispiel, gefolgt von einem Argument dafür, wieso man am besten gleich den Schritt zum “Z-Wert” machen sollte. Angenommen es wird ein Test zur Messung von Selbstbewusstsein entworfen. 30 Fragen, je nach Antwort gibt es pro Frage 0-3 Punkte. Je höher die Punktzahl, desto besser das Selbstbewusstsein. Die Gesamtzahl der Punkte kann also zwischen 0 und 90 liegen. Angenommen man würde den Test 1000 Leuten vorlegen und fände einen Mittelwert von 60 Punkten. Wie ist das Selbstbewusstsein einer Person zu beurteilen, die nur 50 Punkte erreicht hat? Normale Schwankung? Grund zur Sorge?

Das hängt offensichtlich davon ab, wie weit die Punktzahl für gewöhnlich schwankt. Ohne die Standardabweichung zu kennen, lässt sich diese Frage nicht beantworten. Beträgt die Standardabweichung s = 10 Punkte, so gäbe es keinen Grund zur besonderen Sorge. Man darf erwarten, dass 70 % der Resultate (gegeben wie zukünftig) zwischen 50 und 70 Punkten liegen. Und 95 % der Resultate im Bereich von 40 bis 80. Wo genau man den Punkt “Grund zu besonderer Sorge” anlegt, ist natürlich nirgendwo definiert, aber die Punktzahl 50 liegt noch klar in der Zone normaler Schwankungen.

Solche Diskussionen werden deutlich einfacher und einheitlicher, wenn man statt der beiden Begriffe Mittelwert und Standardabweichung den Begriff Z-Wert heranzieht. Der Z-Wert gibt direkt an, wo ein Wert im Bezug auf den Mittelwert unter Berücksichtigung der Schwankungsbreite liegt. Die Punktzahl 50 entspricht dem Z-Wert z = -1 weil dieser genau eine Standardabweichung unter dem Mittel liegt. Die Punktzahl 40 entspricht analog z = -2. Für die andere Richtung hat man z = 0 für die Punktzahl 60 (der Mittelwert), z = 1 für die Punktzahl 70 und z = 2 für die Punktzahl 80.

Auch bei der Körpergröße lassen sich leicht Z-Werte angeben. Nochmal zu Insel A mit einem Mittelwert m = 180 cm und einer Standardabweichung s = 7 cm. Eine Körpergröße von 180 cm entspricht z = 0, die Größe 187 cm entspricht z = 1, die Größe 173 cm entspricht z = -1, die Größe 194 cm entspricht z = 2, die Größe 166 cm entspricht z = -2, und so weiter. Eine Diskussion in Z-Werten ist sehr nützlich weil man nicht immer an den exakten Skalenwerten interessiert ist und sich die Berechnung der Schwankungsbereiche erspart. Angenommen Wissenschaftler entwickeln eine Skala für Narzissmus. Den Leser interessiert der Mittelwert m = 4,1 und die Standardabweichung s = 0,4 i.d.R. recht wenig. Diese Werte haben keine klare direkte Interpretation und würden sich außerdem auch ändern, wenn man die Skala modifiziert. Etwa indem man mehr Fragen hinzunimmt oder die Anzahl erreichbarer Punkte pro Frage verändert.

Was aber trotzdem eine direkte Aussagekraft behält sind die Z-Werte. Weiß man, dass ein Teilnehmer ein Resultat entsprechend z = 2 erhalten hat, dann weiß man dass dies einer ziemlich deutlichen Erhöhung von Narzissmus entspricht. Weiß man, dass ein ein Teilnehmer ein Resultat entsprechend z = 2 bei der Selbstbewusstseinskala erhalten hat, dann weiß man dass dies einer ziemlich deutlichen Erhöhung des Selbstbewusstseins entspricht. Und weiß man, dass ein Mensch eine Körpergröße entsprechend z = 2 hat, dann weiß man dass dies einer ziemlich deutlichen Erhöhung der Größe entspricht. Egal welche Skala verwendet wird, es lohnt sich in Z-Werten zu denken, weil hier Mittelwert und Schwankungsbreite schon sinnvoll verarbeitet sind.

Die Z-Werte meiner Persönlichkeit sind grob:

  • Extraversion: z = +0,5
  • Sozialverträglichkeit / Empathie: z = +1,5
  • Gewissenhaftigkeit: z = -1,5
  • Offenheit: z = +2,0
  • Stabilität: z = -1,0

Diese Werte machen Sinn und lassen sich gut beurteilen ohne die jeweiligen Mittelwerte und Standardabweichungen der Big-Five-Skalen zu kennen. Eine Diskussion mit Mittelwerten und Schwankungsbreiten wäre deutlich aufwendiger gewesen und hätte den Blick auf das Zentrale wohl nur verwaschen. Die Z-Werte machen die Einordnung so klar wie möglich.

Zurück zur Standardabweichung. Sie eignet sich also gut zur Beurteilung von Abweichungen zum Mittelwert, ist jedoch auch bei der Beurteilung von Effektstärken extrem nützlich. Angenommen man möchte wissen, wie groß der Einfluss von Koffeinkonsum auf die Einschlafdauer ist. Dazu sammelt man Daten (Wieviel Koffein trinkst du pro Tag? Wie lange brauchst du normalerweise zum Einschlafen?) und führt eine Regression durch. Der Königsweg zur Beurteilung der Effektstärke läuft über den standardisierten Regressionskoeffizienten Beta. Beta hat eine sehr klare und nützliche Interpretation. Der Wert gibt an, um wieviel Standardabweichungen sich Y ändert, wenn man X um genau eine Standardabweichung erhöht. Für unseren Fall: Um wieviele Standardabweichungen sich die Einschlafdauer ändert, wenn man den Koffeinkonsum um eine Standardabweichung erhöht.

Angenommen man fände Beta = 0,5. Man kann dann sagen, dass Leute, deren Koffeinkonsum z = 1 Standardabweichung erhöht ist, eine Erhöhung der Einschlafdauer um z = 0,5 Standardabweichungen haben. Und Leute, deren Koffeinkonsum z = 2 Standardabweichungen über dem Konsum-Mittelwert liegt, müssen mit einer Erhöhung der Einschlafdauer um z = 1 Standardweichung über dem Einschlafdauer-Mittelwert rechnen. Leute, die es schaffen ihren Koffeinkonsum um z = 3 Standardabweichungen zu senken, werden mit einer Senkung der der Einschlafdauer um z = 1,5 Standardabweichungen belohnt. Der Wert Beta erfasst also sehr klar die Stärke des Zusammenhangs, ohne auf die Details der jeweiligen Skalen eingehen zu müssen.

In diesem speziellen Fall wäre es tatsächlich sinnvoll, etwas weiterzurechnen, um die obigen Aussagen in bekannte Einheiten umzurechnen (z.B. Minuten Reduktion in der Einschlafdauer bei Reduktion es Konsums um 100 ml). Aber das ist nicht immer so. Man denke z.B. an den Zusammenhang zwischen emotionaler Stabilität und Gedächtnis. Oder Zustimmung zu Verschwörungstheorien und Angst vor Kontrollverlust. Hier gäbe es keine gängigen Einheiten zur Umrechnung. Der standardisierte Regressionskoeffizient Beta, und somit die Interpretation über Standardabweichungen, ist der Königsweg weil der Wert so schön skalenunabhängig ist. Und die Diskussion um Effektstärken somit auch einfach und einheitlich macht.

Man könnte hier noch einen Hinweis zum p-Wert anfügen. Das Statistik-Programm spuckt zu jedem Beta noch einen p-Wert raus. Dieser Wert sagt nichts über die Stärke eines Effekts. Er ist nur die Verlässigkeit des Resultats gegeben den Daten. Ein Wert p < 0,001 oder auch p < 0,01 sagt, dass man sich recht sicher sein darf, dass der Beta-Wert und alle Schlussfolgerungen daraus der Realität entsprechen. Es sind also genügend Daten vorhanden um der Regression “blind” glauben zu schenken. p < 0,05 ist schon etwas kritischer. Man kann den Wert Beta nehmen und seine Schlussfolgerungen ziehen, sollte sich der Sache aber nicht zu sicher sein. Eventuell interpretiert man hier eine zufällige Schwankung in den Daten als einen Effekt, der in der Realität gar nicht existiert. Und für p > 0,05 sollte man den Wert Beta verwerfen. Eventuell gibt es diesen Effekt. Aber man hat definitiv nicht genügend Daten, um sich dessen sicher zu sein.

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out /  Change )

Google photo

You are commenting using your Google account. Log Out /  Change )

Twitter picture

You are commenting using your Twitter account. Log Out /  Change )

Facebook photo

You are commenting using your Facebook account. Log Out /  Change )

Connecting to %s