Das Wartezeitparadoxon

In der Theorie der Warteschlangen kann man ein ziemlich cooles und allgemein weniger bekanntes Paradoxon finden, dass auf den ersten Blick im harten Konflikt zur intuitiven Erwartung steht, sich aber mit einem kleinem Zusatz glücklicherweise schnell auflöst. Im Englischen wird das Paradoxon auch gerne als Hitchhiker’s Paradox (Anhalter-Paradoxon) bezeichnet, im Buch “Queueing Systems” von Kleinrock, wo ich es zum ersten Mal gesehen habe, läuft es unter dem Namen Hippie Paradoxon. Persönlich bevorzuge ich den Namen Zustandsparadoxon, weil das Paradoxon, obwohl durch Wartezeiten gut verdeutlicht, viel grundlegender als das ist. Es tritt bei jedem System auf, welches in verschiedene Zustände wechselt.

Angenommen man installiert eine Lichtschranke an einer Straße und misst kontinuierlich den zeitlichen Abstand zwischen den vorbeifahrenden Autos. Nach einer Phase der Beobachtung kennt man den mittleren zeitlichen Abstand zwischen zwei Autos recht genau, sagen wir 60 Sekunden. So lange dauert es, bis nach dem Vorbeifahren eines Autos das nächste Auto durchfährt. Es ist natürlich nur ein Mittelwert – manchmal ist der Abstand länger, manchmal kürzer. Aber im Mittel beträgt diese Zeit 60 Sekunden.

Angenommen man geht zu einem zufälligen Zeitpunkt an diese Straße. Wie lange muss man im Mittel warten, bis ein Auto vorbeifährt? Bei echter Zufälligkeit scheint die Antwort 30 Sekunden unvermeidbar. Um im Mittel weniger als 30 Sekunden zu warten, müsste man sich schon in irgendeiner Weise mit dem Verkehr abstimmen. Man könnte etwa, sobald man gehört hat, wie ein Auto vorbeifährt, eine gewisse Zeit warten und erst dann an die Straße gehen. So könnte man die mittlere Wartezeit drücken.

Umgekehrt könnte man sich natürlich mit dem Verkehr auch so abstimmen, dass die Wartezeit im Mittel mehr als 30 Sekunden beträgt. Wieso man das wollte sei dahingestellt, aber es wäre machbar. Ganz ohne Abstimmung jedoch, also bei echter Zufälligkeit, wird man im Mittel wohl 30 Sekunden warten müssen bis das nächste Auto kommt. Alles andere wäre ohne eine Form der Abstimmung mit dem Verkehr ein ziemlich seltsames Resultat.

Zum Glück muss man nicht raten. Ein Experiment bringt Klarheit. Man geht zufällig an die Straße und hält die Zeit bis zum nächsten Auto fest. Das wiederholt man zehntausend Mal und berechnet dann den Mittelwert. Die mittlere Wartezeit wäre … Trommelwirbel … 40 Sekunden. Nicht 30 Sekunden, sondern länger. Das gilt ganz allgemein. Geschehen zwei Ereignisse im Mittel mit den Zeitabständen T, dann wäre bei zufälliger Ankunft die Wartezeit bis zum nächsten Ereignis immer größer als T/2.

Das steht auf den ersten Blick auf sehr deutlichem Kriegsfuß mit der Intuition. Beispiel Verkehrslücken. Das Paradoxon sichert zu, dass die Verkehrslücke, die man bei Anfahren an eine Kreuzung bekommt, im Mittel größer ist die mittlere Verkehrslücke zwischen den Autos (etwa gemessen vom Helikopter aus). Und der verbliebene, zum Einfahren nutzbare Teil der Verkehrslücke, die man bei Anfahren vorfindet, wird im Mittel größer sein als die Hälfte der mittleren Verkehrslücke im System. Klingt ein bisschen wie Magie.

Die Erklärung ist sehr einfach: Die Stichprobe ist nicht so fair, wie sie erst scheint. Größere Lücken nehmen einen größeren Anteil der Straße ein. Und somit trifft man auch eher auf solche, wenn man zufällig an die Straße anfährt. Vom Helikopter aus lassen sich die Lücken kontinuierlich messen und man kann so den wahren Mittelwert der Lückengröße ermitteln. Beim zufälligen Anfahren werden jedoch große Lücke bevorzugt selektiert. Das ist der zentrale Punkt. Man kommt bei Messung mittels Anfahren also zu einem anderen, größeren Mittelwert. Entsprechend bleibt zum Einfahren auch mehr als die Hälfte der wahren mittleren Lücke im System, da man die Hälfte einer größeren Lücke zur Verfügung hat.

Ähnlich ist es mit dem zeitlichen Abstand der Autos. Wenn man zufällig an die oben beschriebene Straße tritt, wird man im Mittel dann ankommen, wenn die Lücke zwischen den Autos größer als 60 Sekunden ist. Solche Lücken nehmen anteilig schlicht mehr Raum. Entsprechend wird die mittlere Wartezeit bis zum nächsten Auto größer als 30 Sekunden sein. Die mittlere Wartezeit von 40 Sekunden war also kein Widerspruch zur Zufälligkeit, sondern ein sehr logisches Resultat.

Die Mathematik dahinter ist “relativ schmerzfrei”. Gegeben ein System mit den Zuständen 1, 2, 3 … Die Wahrscheinlichkeit, dass das System nach Beendigung eines Zustands auf Zustand k wechselt, sei pk. Die Dauer von Zustand k sei tk. Die mittlere Dauer T eines Zustands ist E(T) = [Summe über k] pk*tk. Es werden N Zustände beobachtet. Die gesamte vergangene Zeit ist N*E(T). Die Zeit in Zustand k ist N*pk*tk. Der Anteil der Zeit, den das System in Zustand k verbringt, ist also qk = pk*tk/E(T). Das entspricht auch der Wahrscheinlichkeit, das System bei zufälliger Messung in Zustand k vorzufinden. Die mittlere Dauer eines zufällig vorgefundenen Zustands ist E(T’) = [Summe über k] qk. Eingesetzt erhält man:

E(T’) = [Summe über k] pk*tk² / [Summe über k] pk*tk

E(T’) = E(T²) / E(T)

Wobei E(T²) der Erwartungswerts der quadratischen Dauer* eines Zustands ist. Mit der Varianz s² (Standardabweichung s) lässt sich das noch sehr deutlich vereinfachen. Eine zentrale Gleichung der Mathematik von Wahrscheinlichkeiten ist s² = E(T²) – E(T)². Es ist somit E(T’) = E(T)+s²/E(T). Die mittlere verbliebene Zeit im vorgefundenen Zustand E(V), das entspricht der mittleren Wartezeit bis zum nächsten Zustandswechsel, ist die Hälfte der Dauer des vorgefundenen Zustands, also E(V) = (1/2)*E(T’). Somit:

E(V) = (1/2)*(E(T) + s²/E(T)) > (1/2)*E(T)

Damit ist gezeigt: In jedem System mit von null verschiedener Varianz ist die verbliebene Zeit im angetroffenen Zustand im Mittel größer als die Hälfte der mittleren Dauer der Zustände. Mal zwei gerechnet kann man es auch einfacher formulieren, wobei aber der Bezug zur Wartezeit verloren geht: Der vorgefundene Zustand ist im Mittel länger als die mittlere Dauer eines Zustands im System. Das ist eine sehr grundlegende Feststellung. Es gilt für jedes System mit einem Mittelwert E(T) kleiner als unendlich und einer Varianz ungleich Null (also eigentlich alle realen Systeme).

Das Paradoxon ist nicht nur intellektuell spannend, sondern auch für praktische Zwecke ziemlich nützlich. In der Theorie der Warteschlangen wird das Ergebnis verwendet, um M/M/1 Warteschlangen (Ankunftszeiten und Servicezeiten exponentialverteilt) auf M/G/1 (Ankunftszeiten exponentialverteilt, Servicezeiten beliebig verteilt) zu verallgemeinern. Das Paradoxon erlaubt also, die strikte Annahme exponentialverteilter Servicezeiten fallen zu lassen und stattdessen mit einer beliebigen Verteilung mit Mittelwert m und Standardabweichung s zu arbeiten. Das wiederum führt zu sehr nützlichen Ergebnissen, mit denen man relativ leicht die mittlere Wartezeit, die mittlere Länge einer Schlange, etc … in Abhängigkeit von der Ankunftsrate von Kunden berechnen kann.

* Noch eine Anmerkung zu E(T²). E(T) ist der Erwartungswert der Dauer. Man misst n-Mal die Dauer und berechnet dann über E(T) = (1/n)*(T1+T2+T3+…+Tn) den gewöhnlichen Mittelwert / Erwartungswert. E(T²) ist der Erwartungswert der quadratischen Dauer. Man misst n-Mal die Dauer, quadriert diese jeweils und berechnet den Mittelwert dieser Quadrate E(T²) = (1/n)*(T1²+T2²+T3²+…+Tn²). Wieso sollte das sinnvoll sein? Beispiel Gasmechanik. Jedes Teilchen in einem Gas fliegt mit einer gewissen Geschwindigkeit v umher. Die kinetische Energie des Teilchens ist K = (1/2)*m*v². Was ist die mittlere kinetische Energie eines Teilchens? Naheliegend ist der folgende Ansatz: Man misst alle Geschwindigkeiten, berechnet die mittlere Geschwindigkeit E(V) und sagt E(K) = (1/2)*m*E(V)². Das Ergebnis wäre aber falsch. Für die mittlere kinetische Energie kann man nicht einfach die mittlere Geschwindigkeit quadrieren. Man müsste die Geschwindigkeiten messen, das Ergebnis jeder Einzelmessung quadrieren und den Mittelwert dieser Quadrate berechnen, also E(V²). Die korrekte mittlere kinetische Energie ist E(K) = (1/2)*m*E(V²). Es gilt in jedem System mit Varianz ungleich Null: E(V²) > E(V)². Mit dem ersten Ansatz hätte man die mittlere kinetische Energie, und somit etwa die Temperatur des Gases, unterschätzt.

Advertisement

Radarkontrollen, Wetter und Zufallsvariablen

Man liest immer mal wieder, dass bei einer Radarkontrolle in einer 100 Km/h Zone ein besonders enthusiastischer Autofahrer mit 180 oder 200 Km/h geblitzt wurde. Für den Betroffenen ist das eine ziemlich teuere Angelegenheit. Aber es führt auf ein sehr interessantes mathematisches Problem, welches sich auch zufriedenstellend lösen lässt. Angenommen wir beginnen eine Messung der Geschwindigkeit. Welche maximal gemessene Geschwindigkeit würden wir nach der Messung von 100 Autos erwarten? Von 1000 Autos? Von 10.000 Autos? Es ist also die Frage nach dem typischen Rekordwert. Die Lösung lässt sich natürlich auf viele Bereiche übertragen, zum Beispiel Rekordwerte beim Wetter. Angenommen wir beginnen täglich zu messen, wie groß wird die maximale gemessene Temperatur nach zehn Jahren Messung sein? Wie groß nach 100 Jahren?

Die Mathematik dahinter ist anspruchsvoll, deshalb kommt erst das Ergebnis inklusive Beispiele und dann die komplette Herleitung. Basis der Rechnung ist die Annahme, dass die gemessene Variable einer Normalverteilung mit Mittelwert m und Standardabweichung s folgt. Für die Geschwindigkeit in einer 100 Km/h Zone ist grob m = 100 Km/h und s = 7 Km/h. Der Mittelwert gibt an, wo man auf lange Sicht landet, wenn man alle Messwerte summiert und durch die Anzahl Messungen teilt. Die Standardabweichung ist ein Maß für die Streuung. Würden alle Autos exakt 100 Km/h fahren, dann wäre s = 0. Würden alle Autos sehr nah an der 100 Km/h fahren, etwa nur im Bereich 95 bis 105 Km/h, dann wäre s zwar nicht Null, aber recht klein, circa s = 3 Km/h. Realistischer sind Variationen um s = 7 Km/h.

Angenommen man entnimmt einer Normalverteilung mit Mittelwert m und Standardabweichung s durch unverzerrte und unabhängige Messung n Werte. Eine Rechnung zeigt, dass sich der Median des maximalen Messwerts für n gegen unendlich aus folgender Formel ergibt:

xmax = m + 0,59*s*ln(n)

Mit dem natürlichen Logarithmus ln. Der Minimalwert ist:

xmin = m – 0,59*s*ln(n)

Folgen die Geschwindigkeiten einer Normalverteilung mit m = 100 Km/h und s = 7 Km/h, dann würde man nach Messung von n = 100 Autos die Rekordwerte 81 Km/h und 119 Km/h erwarten. Nach n = 1000 Messungen 71 Km/h und 129 Km/h. Nach 10.000 Messungen 62 Km/h bis 138 Km/h. Man erkennt, dass Rekordwerte sich eher langsam verschieben. Der Schritt von 1000 zu 10.000 Messungen, eine Verzehnfachung, bringt das erwartete Maximum nur von 129 Km/h auf 138 Km/h. Das liegt an der Abhängigkeit zum Logarithmus, eine Funktion, die notorisch langsam wächst.

Ein weiteres Beispiel: Laut Statista beträgt die mittlere Größe eines Mannes in D etwa m = 177 cm. Werte für die Standardabweichung sind etwas schwieriger zu finden, aber von dem, was ich gesehen habe, sollte s = 5 cm ziemlich gut hinkommen. Welche maximale Körpergröße erwartet man bei einem Publikum von 1000 Leuten? Und welchen Maximalwert für Deutschland insgesamt, mit 83 Mio Einwohnern? Für 1000 Leuten ergibt sich xmax = 197 cm, hier landet man also noch etwas unter der Zwei-Meter-Grenze. Für Deutschland als Ganzes erhält man xmax = 231 cm, etwas mehr, aber doch noch relativ nah an diesem deutschen Big Chungus (Yannik Könecke, wohnhaft in der Nähe von Hannover, stolze 224 cm).

Auch die Umkehrung ist möglich und bietet einen schnellen und nützlichen Weg, die Standardabweichung aus einer Messreihe zu schätzen. Werden bei n Messungen die Rekordwerte xmax und xmin festgehalten, dann ist das vereinbar mit Annahme, dass die gemessene Variable einer Normalverteilung mit m und s folgt:

m = (xmin+xmax)/2

s = (xmax-m)/(0,59*ln(n))

Der Zusatz n gegen unendlich wurde schon erwähnt. Da sich die Dichtefunktion der Normalverteilung analytisch nicht integrieren lässt, existiert keine analytische Lösung des Problems. Man muss sich mit einer Funktion begnügen, die sich für n gegen unendlich an das Ergebnis des Integral anschmiegt. Eine gute (und mit steigendem n auch immer besser werdende) Näherung erhält man somit über die obigen Formeln erst für n > 20 Messungen. Das dürfte in den meisten Fällen kein Hindernis sein.

Zur Herleitung: Gegeben seien n Zufallsvariablen X1 , X2 , … , XN. Jede Zufallsvariable wird unverzerrt und unabhängig derselben Verteilung entnommen, ausgedrückt durch die kumulierte Verteilungsfunktion F(x). Man könnte auch mit der Dichtefunktion f(x) beginnen, aber F(x) vereinfacht die Argumentation. Die Wahrscheinlichkeit, dass XK einen Wert kleiner als x hat, ist P(XK < x) = F(x). Die Wahrscheinlichkeit, dass jedes XK kleiner als x ist, und somit auch der maximale Wert kleiner als x ist, folgt aus P(xmax < x) = F(x)^n. Diese Formel gehört zum Bereich Order Statistics und lässt sich zum Beispiel auch hier finden. Beim Median gilt stets P(X < x) = 0,5. Der Median des maximalen Werts ist dann:

xmax = F(-1)(0,5^(1/n))

Wobei F(-1) die Umkehrfunktion von F ist. Das gilt für alle Verteilungen. Speziell für die Normalverteilung kann man für alle z-Werte die sehr nützliche Näherung F(z) = 1/(1+exp(-1,7*z)) verwenden, welche für z gegen unendlich gegen die exakte Verteilungsfunktion geht. Die Umkehrfunktion folgt durch Umstellung des Ansatzes y = F(z) nach z. Es ist z = F(-1)(y) = 0,59*ln(y/(1-y)). Es folgt mit y = 0,5^n:

zmax = F(-1)(0,5^(1/n))

zmax = 0,59*ln(1/(2^(1/n)-1))

Im Prinzip könnte man hier aufhören, aber für n gegen unendlich lässt sich diese sperrige Formel noch deutlich vereinfachen. Die Taylor-Reihe für 2^x für x gegen Null ist 1+x*ln(2). Entsprechend gilt für n gegen unendlich 2^(1/n)-1 = (1/n)*ln(2). Eingesetzt in die Formel ergibt sich:

zmax = 0,59*ln(n/ln(2)) = 0,59*(ln(n)-ln(2))

Für n gegen unendlich ist ln(n) >> ln(2), so dass man die ln(2) einfach wegfallen lassen kann. Es folgt noch die Umrechnung des z-Werts in den x-Wert mittels z = (x-m)/s:

zmax = (xmax-m)/s = 0,59*ln(n)

xmax = m + 0,59*s*ln(n)

Es wurde hier die Normalverteilung vorrausgesetzt, aber jede Verteilung mit einem Erwartungswert m kleiner als unendlich und einem beliebigen s geht für große n gegen die Normalverteilung mit Erwartungswert m und Standardabweichung s. Sofern n groß genug ist, wird also auch jede andere Verteilung Rekordwerte nach xmax = m + 0,59*s*ln(n) produzieren. Für die Minimalwerte kann man die Herleitung mit dem Ansatz P(xmin < x) = 1-(1-F(x))^n wiederholen. Bei symmetrischen Verteilungen geht es aber auch einfacher, nämlich über m-xmin = xmax-m (gleiche Abstände zum Mittelwert). Es folgt daraus xmin = 2*m-xmax.

Messung von Ungleichheit: Der Gini-Koeffizient

Der Gini-Koeffizient bekommt sehr wenig Liebe. Nur sehr selten berichten Medien darüber, was diese Zahl bedeutet, wie sie sich von Land zu Land unterscheidet und wie sie sich von Jahr zu Jahr ändert. Das ist enttäuschend, denn der Gini-Koeffizient macht einen zentralen Aspekt der Gesellschaft sichtbar: Die Ungleichheit. In der Regel die Ungleichheit im Einkommen, aber der Gini lässt sich auch für Wohlstand und Bildung berechnen.

Wie kann man Ungleichheit messbar machen? Ausgangspunkt ist die Lorentz-Verteilung. Angenommen man kenne das Einkommen jeder einzelnen Person im Land: I1, I2, I3, … , IN (insgesamt N Personen). Durch Addition kommt man zum Gesamteinkommen im Land: I = I1+I2+I3+…+IN. Zur Vereinfachung nehmen wir an, dass die Einkommen schon der Größe nach geordnet sind, also I1 < I2 < I3 < … < IN.

Uns interessiert jetzt, welcher Anteil p des gesamten Einkommens auf die 10 % der Bevölkerung fällt, die das geringste Einkommen haben. 10 % der Bevölkerung sind L = 0,1*N Leute. Wir addieren also das Einkommen der L Leute mit dem geringsten Einkommen, I10% = I1+I2+I3+…+IL, und teilen diesen Wert durch das gesamte Einkommen: p = I10% / I. Damit wissen wir, welcher Anteil p des Gesamteinkommens auf die unteren 10 % fällt. Hätte jede Person im Land dasselbe Einkommen, dann wäre p = 10 %. In der Praxis fällt aber auf die unteren 10 % deutlich weniger als 10 % des Gesamteinkommens.

Die Lorentz-Verteilung gibt an, wieviel Prozent p des Gesamteinkommens auf die unteren x Prozent der Bevölkerung fällt. In guter Näherung folgt die Verteilung in jedem Land der Formel:

p = x^a

Mit dem Parameter a, der als einziger zusätzlicher Input benötigt wird und sich aus einer Datenerhebung im Land ergibt (zur Schätzung später mehr). In Deutschland ist a = 1,9. Auf die unteren 10 % der Bevölkerung fällt der Anteil p = 0,1^1,9 = 0,013 = 1,3 % des Gesamteinkommens. Auf die unteren 20 % fällt p = 0,2^1,9 = 0,047 = 4,7 %. Und so weiter. Noch extremer ist der Unterschied etwa in Zimbabwe, wo a = 3 gilt. Auf die unteren 10 % fällt hier der Anteil p = 0,1^3 = 0,001 = 0,1 % des Gesamteinkommens. Auf die unteren 20 % fällt p = 0,2^3 = 0,008 = 0,8 %. Und so weiter.

Diese Werte geben schon einen guten Einblick in die Ungleichheit in einem Land, aber es wäre nützlich, die Ungleichheit in einer einzigen Zahl zu sammeln. Und diese Zahl dann auch leicht interpretierbar zu machen. Der Gini-Koeffizient schafft all das. Hier ein Graph aus dem Wiki-Eintrag für den Gini-Koeffizienten, den man für nicht-kommerzielle Zwecke verwenden darf:

Wie schon erwähnt ergibt sich für den Fall, dass jede Person im Land dasselbe Einkommen hat, eine Gleichheit von p und x, also p = x. Auf die unteren 10 % fällt 10 % des Gesamteinkommen, auf die unteren 20 % fällt 20 %, etc … Das ist die Gerade im Graphen. Die tatsächliche Verteilung ist durch die Lorentz-Kurve gegeben. Man sieht (durch grobes Ablesen), dass in diesem Beispiel auf die unteren 50 % etwa 20 % des gesamten Einkommens fällt. Es lassen sich hier zwei Flächen abgrenzen. Die Fläche A zwischen Gerade und Lorentz-Verteilung und die Fläche B unter der Lorentz-Verteilung. Die Gesamtfläche ist A+B.

Bei sehr geringer Ungleichheit wird die Lorentz-Verteilung nah an der Geraden liegen und die Fläche A wird klein im Verhältnis zur Gesamtfläche sein. Bei großer Ungleichheit gibt es hingegen viel Abstand zwischen der Geraden p = x und der tatsächlichen Verteilung des Einkommens p = x^a und entsprechend nimmt A einen höheren Anteil an der Gesamtfläche ein. Bei extremer Verteilung des Einkommens, alle Leute außer einer Person haben das Einkommen Null, würde A die gesamte Fläche einnehmen. Es bietet sich also an, die Ungleichheit durch das Verhältnis Fläche A zu Gesamtfläche A+B auszudrücken. Genau so ist der Gini-Koeffizient definiert:

G = Diskrepanzfläche/Gesamtfläche

G = A/(A+B)

Da die Anteile x und p zahlenmäßig jeweils im Bereich 0 bis 1 liegen müssen, ist die Gesamtfläche leicht zu berechnen. Es ist ein Dreieck mit Grundseite 1 und Höhe 1, also A+B = (1/2)*1*1 = 0,5. Für die Fläche A muss man von der Gesamtfläche die Fläche unter der Lorentz-Kurve abziehen:

A = 0,5 – [Integral 0 bis 1] x^a dx

Daraus folgt für den Gini-Koeffizient:

G = (a-1)/(a+1)

Und für den umgekehrten Weg, von Gini zu Lorentz:

a = (1+G)/(1-G)

Für Deutschland mit a = 1,9 erhält man also G = 0,9/2,9 = 0,31, für Zimbabwe mit a = 3 folgt G = 2/4 = 0,5. Die Regel lautet: Je kleiner der Gini-Koeffizient, desto kleiner die Ungleichheit im Land. Der internationale Vergleich zeigt, dass Werte unter 0,3 exzellent sind, Werte unter 0,35 ganz gut, Werte über 0,4 problematisch und Werte über 0,45 kritisch. Auch der Zeitverlauf ist nützlich. In Deutschland gab es schon vor der Pandemie einen Trend zu mehr Ungleichheit, die Pandemie hat das beschleunigt.

Zur besseren Interpretation eines Gini-Wertes empfehle ich die Berechnung des folgenden Verhältnisses. Zuerst berechnet man aus dem gegebenen Gini G den Lorentz-Exponent a, siehe vorherige Formel. Auf die unteren 10 % der Bevölkerung fällt p = 0,1^a des Gesamteinkommens, auf die oberen 10 % fällt der Anteil p = 1-0,9^a (also 100 % des Gesamteinkommens minus das, was auf die unteren 90 % fällt). Das Verhältnis der Anteile von Top 10 % zu Bottom 10 % ist somit:

r = (1-0,9^a)/0,1^a

In Deutschland mit G = 0,32 / a =1,9 fällt auf die Top 10 % der Bevölkerung r = 16 mal mehr am Gesamteinkommen als auf die Bottom 10 %. In Zimbabwe mit G = 0,5 / a = 3 fällt auf die Top 10 % der Bevölkerung sogar r = 271 mal mehr (kein Schreibfehler) als auf die Bottom 10 %. Man erkennt an diesem Verhältnis, wie enorm der Schritt von G = 0,32 zu G = 0,5 wirklich ist. Deshalb lohnt es sich auch, den Gini zur Interpretation in r umzurechnen.

Achtung: Hier tappt man leicht in eine Falle. Das Verhältnis r drückt aus, wie das Verhältnis der Anteile am Gesamteinkommen von Top 10 % zu Bottom 10 % liegt. Das ist nicht identisch zum Verhältnis der mittleren Einkommen von Top 10 % zu Bottom 10 %, also das, was man bekommt, wenn man das mittlere Einkommen in der Gruppe der Top 10 % Verdiener durch das mittlere Einkommen in den Bottom 10 % teilt. Es lässt sich zeigen, dass für das Verhältnis des mittleren Einkommens von Top 10 % zu Bottom 10 % in in guter Näherung gilt:

r’ = 19^(a-1)

In Deutschland gerundet r’ = 14 und in Zimbabwe r’ = 361. Die Herleitung davon führt schlussendlich zu einer weiteren wichtigen Formel, nämlich der Berechnung des Anteils der Bevölkerung, die unterhalb eines bestimmten Einkommens liegt. Die Lorentz-Formel sagt, dass auf die unteren x Prozent der Bevölkerung x^a Prozent des Gesamteinkommens I fällt. Das summierte Einkommen der unteren x Prozent der Bevölkerung ist also I*x^a. Die unteren x Prozent der Bevölkerung sind N*x Personen. Das Einkommen PRO PERSON in den unteren x Prozent ist demnach I*x^a / (N*x) = (I/N)*x^(a-1). Dabei ist I/N = i einfach das mittlere Einkommen über die gesamte Bevölkerung. Das mittlere Einkommen einer Person in den unteren x Prozent lässt sich damit wie folgt schreiben:

q = i*x^(a-1)

Um sinnvolle Vergleiche zwischen verschiedenen Gruppen der Bevölkerung machen zu können, muss man noch einen Schritt weiter gehen. Es soll das mittlere Einkommen einer Person berechnet werden, die zwischen den Perzentilen x bis x+h liegt, mit h einem kleinen Schritt. Die unteren x+h Prozent haben das summierte Einkommen I*(x+h)^a, die unteren x Prozent das summierte Einkommen I*x^a. Die Leute zwischen x und x+h verdienen insgesamt I*((x+h)^a-x^a). In diesem Bereich sind x+h-x = h Prozent aller Leute, also h*N Menschen. Das Einkommen pro Person jener zwischen x und x+h ist also:

m(h) = i*((x+h)^a-x^a)/h

Wer schon viel mit Differentialrechnung zu tun hatte, hat jetzt vielleicht ein Deja-Vu-Moment. Alles hinter dem i ist der Differenzquotient bei Ableitung von x^a. Mit Grenzwert h -> 0 kommt man zum Differentialquotient. Dieser drückt das mittlere Einkommen einer Person BEIM Perzentil x aus.

m = lim(h->0) m(h) = i*a*x^(a-1)

Das mittlere Einkommen einer Person beim Perzentil x = 0,95 im Verhältnis zum mittleren Einkommen einer Person beim Perzentil x = 0,05 ist:

r’ = (i*a*0,95^(a-1))/(i*a*0,05^(a-1)) = 19^(a-1)

Daher kommt die obige Näherung für das Verhältnis des mittleren Einkommens von Top 90 % zu Bottom 10 %. Es lässt sich aber auch mehr damit machen. Eine wichtige Frage ist, welcher Anteil der Bevölkerung unter einer gewissen Einkommensgrenze Ig fällt. Damit könnte man zum Beispiel aus dem Gini (mit Umweg über Lorentz) auch den Anteil der Bevölkerung in Armut berechnen, sofern die Einkommensgrenze für Armut bekannt ist. Das mittlere Einkommen Ig wird beim Perzentil Ig = i*a*xg^(a-1) erreicht. Daraus ergibt sich für den Anteil Leute unter der Einkommensgrenze Ig:

xg = (Ig/(i*a))^(1/(a-1))

Es fehlt jetzt noch ein wichtiger Punkt, nämlich: Wie bekommt man den Gini-Index praktisch aus gegebenen Daten?

In der Regel kennt man eine handvoll Datenpunkte im Stile: Die unteren x1 Prozent haben p1 Prozent des Gesamteinkommens, die unteren x2 haben p2, die unteren x3 haben p3, etc … Eine naheliegende Möglichkeit ist der Fit der Daten an die Kurve p = x^a, wobei sich jener Exponent a ergibt, der die Summe der quadratischen Abstände von Punkte zu Kurve minimiert. Steht nur die lineare Regression zur Verfügung, was in den vielen Statistik-Paketen der Fall ist, so kann man einfach die Daten mit y = ln(x) und q = ln(p) transformieren. Es ist dann: q = a*y. Der Exponent a ergibt sich in diesem Fall also aus der Steigung der q-y-Kurve. G folgt stets aus G = (a-1)/(a+1).

Ein schnellerer Ansatz ist, für jeden Datenpunkt den Exponenten zu berechnen und das geometrische Mittel der Exponenten für a zu verwenden. Aus jedem Paar xk und pk folgt ak = ln(pk)/ln(xk). Das Produkt aller ak ist (ln(p1)/ln(x1))*(ln(p1)/ln(x1))*… Bei insgesamt n Datenpunkte davon noch die n-te Wurzel bzw. das hoch 1/n für das geometrische Mittel:

a = ( (ln(p1)/ln(x1))*(ln(p1)/ln(x1))*… )^(1/n)

Ein Beispiel: In einer Bevölkerung haben die unteren x1 = 10 % den Anteil p1 = 0,8 % des gesamten Einkommens, x2 = 20 % den Anteil p2 = 3 % und x3 = 50 % den Anteil 16 %. Über das geometrische Mittel ergibt sich für den Lorentz-Exponenten:

a = ( ln(0,008)/ln(0,1)*ln(0,03)/ln(0,2)*ln(0,16)/ln(0,5) )^(1/3)

a = (2,1*2,2*2,6)^(1/3) = 2,3

Und für den entsprechenden Gini:

G = (a-1)/(a+1) = 1,3/3,3 = 0,39

Der Gini-Koeffizient macht messbar, was sonst nur schwer in Zahlen zu fassen ist, aber für das Funktionieren einer Gesellschaft sehr wichtig ist: Die Ungleichheit. G > 0,4 ist ein guter Indikator dafür, dass ein großer Teil des Geldes in den Taschen weniger verschwindet und beim Rest der Gesellschaft ein gefährlicher Mangel entsteht. Das ist typisch für Länder mit viel Korruption. G um 0,3 drückt hingegen eine gesunde Ungleichheit aus. Eine Ungleichheit, bei der es sich für das Individuum lohnt, mehr Einsatz zu zeigen um mehr Wohlstand zu erhalten, ohne dass die Gefahr besteht, dass Teile der Gesellschaft in Armut abrutschen. G < 0,2 (nirgends beobachtet, aber theoretisch möglich) würde die Motivation für mehr Einsatz jedoch zerstören. Es gäbe dann soviel Umverteilung, dass das Plus, welches man aus dem Einsatz erhält, den Einsatz nicht Wert wäre. Der Gini-Index kann somit als Aussage über die Umverteilung betrachtet werden. Bei G um 0,3 ist das richtige Maß erreicht, für höhere Werte sollte die Umverteilung angekurbelt, für geringere Werte gebremst werden.

Hier noch der Hinweis, dass der Gini, wenn auch gerne auf das Einkommen angewandt, Ungleichheit für jede beliebige Lorentz-verteilte Variable messen kann. Lorentz-verteilt sind zum Beispiel viele der Variablen, die der 80/20-Regel folgen. Etwa: 20 % der Kunden nehmen 80 % der Zeit des Servicepersonals ein. Die 80/20-Regel ist, bei Annahme von Lorentz-Verteilung, identisch mit der Aussage a = 7,2 bzw. G = 0,76 und es gilt alles, was aus den obigen Formel dafür folgt. Auch die Anwendung auf Bundesebene ist kein Muss. Der Gini kann seperat für Regionen und gar einzelne Firmen berechnet werden. Bei all dem sollte man beachten, dass die Faustregel “G um 0,3 ist ideal” dann keine Gültigkeit mehr hat. Diese Grenze ergibt sich aus Erfahrungswerten bei der Anwendung des Gini auf das Einkommen auf Ebene von Ländern. Andere Variablen und andere Entitäten bringen andere Erfahrungswerte.

Bad Luck Protection

In diesem Youtube-Video über Suchtverhalten bei Computerspielen wird erwähnt, dass manche Hersteller bei der Monetisierung ihres Spiels eine “Bad Luck Protection” (Schutz vor schlechtem Glück) bieten. Hinter dieser Anmerkung steckt ein interessantes mathematisches Problem.

Bei vielen Spielen gibt es mittlerweile Microtransactions. Statt etwa lange nach einem bestimmten, wertvollen Gegenstand im Spiel zu suchen, kann man sich gegen echtes Geld eine virtuelle Lootbox kaufen und diese öffnen. Mit einer gewissen Wahrscheinlichkeit w hat man Glück und die Box enthält den Gegenstand. Oder man geht leer aus und muss, sofern man den Gegenstand unbedingt möchte, eine weitere Lootbox kaufen. Im Mittel wird man e = 1/w solcher Boxen kaufen müssen bevor man den Gegenstand erhält. Bei w = 0,2 = 20 % also e = 1/0,2 = 5 Boxen. Das e steht für Erwartungswert. Natürlich könnte es schon beim ersten Mal enthalten sein. Oder erst beim zwanzigsten Mal.

Die “Bad Luck Protection” soll absichern, dass letzteres nicht passieren kann. So könnte der Code zum Beispiel garantieren, dass nach neun erfolglosen Versuchen der zehnte Versuch immer funktioniert. Diese Versicherung ist ein Eingriff in die Verteilung der Wahrscheinlichkeiten und ändert entsprechend den Erwartungswert auf einen neuen Wert, der hier mit e’ bezeichnet wird.

Sei n die Anzahl Versuche bis Erfolg. n = 1 soll heißen, dass es beim ersten Versuch schon geklappt hat, n = 2 Erfolg beim zweiten Versuch, etc … Die Wahrscheinlichkeit des Eintretens des Szenarios “Erfolg nach n Versuchen” sei p(n). Die entsprechende Verteilung dieser Wahrscheinlichkeiten nach Implementierung der Bad Luck Protection sei q(n). Die Bad Luck Protection soll Erfolg nach m Versuchen garantieren. Damit gilt für die Verteilung q(n):

  • q(n) = p(n) für n < m
  • q(m) = p(m)+p(m+1)+p(m+2)+…
  • q(n) = 0 für n > m

Sei w die Wahrscheinlichkeit, dass die Lootbox den Gegenstand enthält. Es ist dann:

  • p(1) = w
  • p(2) = w*(1-w)
  • p(3) = w*(1-w)^2
  • p(n) = w*(1-w)^(n-1)

Für den Erwartungswert folgt tatsächlich e = 1*p(1)+2*p(2)+3*p(3)+… = 1/w. Das lässt sich so zeigen. Mit der Abkürzung x = 1-w um sich das Leben etwas einfacher zu machen und mit Zuhilfenahme der Formel unter “Verwandte Summenformel 1” in diesem Wiki-Eintrag ergibt sich:

e = 1*p(1)+2*p(2)+3*p(3)+… = w*(1*1+2*x+3*x^2+…)

e = (w/x)*(1*x+2*x^2+3*x^3+…) = (w/x)*(x/(1-x)^2)

e = w/(1-x)^2 = w/w^2 = 1/w

Was ist der Erwartungswert nach Implementierung der Bad Luck Protection? Die Berechnung geht nach ähnlichem Prinzip, ist aber ziemlich aufwendig. Der Ansatz ist:

e’ = 1*q(1)+2*q(2)+…+(m-1)*q(m-1)+m*q(m)

e’ = (w/x)*(1*x+2*x^2+3*x^3+…+(m-1)*x^(m-1))+m*(p(m)+p(m+1)+…)

Nach sehr viel Algebra kommt man auf:

e’= e*(1-(1-w)^(m-1))

Der Erwartungswert reduziert sich durch die Garantie von Erfolg nach m Versuchen also um den Faktor 1-(1-w)^(m-1). Ein Beispiel: Sei die Wahrscheinlichkeit, dass die Lootbox den Gegenstand enthält, w = 0,1 = 10 %. Im Mittel benötigt ein Spieler e = 1/w = 10 Versuche, um den Gegenstand zu erhalten. Bei Garantie auf Erfolg nach maximal m = 20 Versuchen sinkt dieser Erwartungswert auf e’ = 8,6 Versuche. Selbst wenn man die Bad Luck Protection also recht spät ansetzt (nur sehr ungünstige Ausgänge ausschließt), zeigt sich schon ein nennenswerter Einfluss auf den Erwartungswert. Bei Garantie nach m = 15 Versuchen wäre der Erwartungswert e’ = 7,7 Versuche, bei m = 10 wäre e’ = 6,1 Versuche.

Dass Computerspiele mehr und mehr zu Glücksspiel-Automaten verkommen ist natürlich traurig. Vor allem großen Herstellern wie EA geht es vor allem darum, den Spielern mit solchen Mechaniken soviel Geld wie möglich aus der Tasche zu ziehen. Es kostet den Hersteller nichts, einen wichtigen Gegenstand im Spiel extrem selten zu machen. Dafür muss nur eine Zahl im Code geändert werden. So kann man die Spieler vor die Wahl setzen, endlos in der Spielewelt zu “grinden” oder diese Mühe mit dem Kauf einer Lootbox sofort zu beenden. Leider hat sich dieser manipulative Ansatz als sehr lukrativ erwiesen und wird in der Spieleindustrie mittlerweile breit eingesetzt.

Random Walk mit Boden

Bei einem eindimensionalen Random Walk bewegt sich ein Punkt entlang einer Achse, das sei hier eine Höhenachse, wobei der Punkt bei jedem Zeitschritt mit einer Wahrscheinlichkeit 50 % eine Einheit nach oben und einer Wahrscheinlichkeit 50 % eine Einheit nach unten geht. Ein Höhen-Zeit-Diagramm würde einen Verlauf zeigen, der einem Börsenkurs ähnlich ist. Also eine Abfolge von Zacken nach oben und unten, mit jeweils zufälliger Länge. Die Berechnung von Random Walks (in drei Dimensionen) ist zum Beispiel in der Mechanik von Gasen von Bedeutung.

Eine interessante Variation, wenn auch ohne naheliegenden physikalischen Bezug, ist der Random Walk mit Boden. Hier geht der Punkt bei jedem Zeitschritt mit der Wahrscheinlichkeit p nach oben und 1-p nach unten, wobei p < 50 % sein soll (Tendenz zu Abstieg). Zusätzlich gilt, dass sobald die Höhe h = 0 erreicht wird, der Punkt mit der Wahrscheinlichkeit p auf die Höhe h = 1 steigt oder mit der Wahrscheinlichkeit 1-p auf der Höhe h = 0 bleibt (kein weiterer Abstieg möglich). Angenommen man lässt diesen Random Walk beginnend ab h = 0 laufen und prüft zu einem späteren Zeitpunkt die Höhe. Wie wahrscheinlich ist es, den Punkt auf Höhe h = 0 zu finden? Auf Höhe h = 1? Auf Höhe h = 2?

Das Problem lässt sich gut lösen, wenn man die Übergänge zwischen den Zuständen genauer betrachtet. Die Wahrscheinlichkeit, auf Höhe h zu sein, sei q(h). Auf diese Höhe kann der Punkt einmal durch Aufstieg aus der Höhe h-1 kommen oder durch Abstieg aus der Höhe h+1. Die Wahrscheinlichkeit, dass der Punkt auf Höhe h-1 ist und dann aufsteigt, ist q(h-1)*p. Die Wahrscheinlichkeit, auf Höhe h+1 zu sein und abzusteigen, ist q(h+1)*(1-p). Es gilt also für alle h außer h = 0:

q(h) = q(h-1)*p + q(h+1)*(1-p)

Die Höhe h = 0 wird nur durch Verbleiben auf h = 0 mit Wahrscheinlichkeit 1-p und Abstieg aus Höhe h = 1 erreicht. Daraus ergibt sich analog:

q(0) = q(0)*(1-p) + q(1)*(1-p)

Das lässt sich iterativ lösen. Alternativ und eleganter kann man den exponentiellen Ansatz q(h) = q(0)*x^h machen und erhält durch Einsetzen in die Gleichung für q(h) eine quadratische Gleichung für x, aus welcher x = p/(1-p) folgt. Die Wahrscheinlichkeit, den Punkt auf Höhe h zu finden, ist also:

q(h) = q(0)*(p/(1-p))^h

Das Problem ist noch nicht gelöst. Die Wahrscheinlichkeit des Aufstiegs p ist als bekannt vorrausgesetzt. Die Höhe h wird jeweils gewählt. Unbekannt ist aber noch die Wahrscheinlichkeit, den Punkt auf der Höhe h = 0 vorzufinden, q(0). Ist dieser Wert einmal bekannt, folgen die Wahrscheinlichkeiten für alle anderen Höhen. q(0) lässt sich durch eine einfache Überlegung ermitteln. Zu jedem Zeitpunkt muss der Punkt auf einer Höhe sein. Die Summe aller Wahrscheinlichkeiten muss also 1 = 100 % sein (Normierung).

[Summe über alle h] q(h) = q(0)*(1+x+x^2+x^3+…) = 1

Mit der Summenformel für die geometrische Reihe:

q(0)*(1+x+x^2+x^3+…) = q(0)*1/(1-x) = 1

Mit x = p/(1-p) und Umformung nach q(0):

q(0) = (1-2*p)/(1-p)

Damit ist das Problem gelöst. Aus der Wahrscheinlichkeit des Aufstiegs p lässt sich berechnen, mit welcher Wahrscheinlichkeit man den Punkt auf Höhe h = 0 vorfindet (oder etwas schöner gesagt, welchen Anteil der Zeit der Punkt auf der Höhe h = 0 verbringt) und daraus lässt wiederum der entsprechende Wert für jede andere Höhe berechnen. Vor einem Beispiel noch die Herleitung der mittleren Höhe. Da bekannt ist, mit welcher Wahrscheinlichkeit eine bestimmte Höhe eingenommen wird, lässt sich relativ schmerzlos die mittlere Höhe des Punktes berechnen:

m = 0*q(0)+1*q(1)+2*q(2)+3*q(3)+…

m = q(0)*(1*x+2*x^2+3*x^3+…)

Aus der Summenformel für Summen über Terme der Form h*x^h, siehe im verlinkten Wiki-Eintrag im Abschnitt “Verwandte Summenformel 1”, folgt die kompakte Form:

m = q(0)*x/(x-1)^2

Mit x = p/(1-p) und viel Umformung:

m = p/(1-2*p)

Ein Beispiel: Ein Punkt bewegt sich nach den Regeln des Random Walks mit Boden entlang einer Höhenachse, wobei der Punkt bei jedem Zeitschritt mit einer Wahrscheinlichkeit p = 0,4 = 40 % aufsteigt und mit 1-p = 0,6 = 60 % absteigt. Der Punkt wird damit q(0) = (1-2*0,4)/(1-0,4) = 0,33 = 33 % der Zeit auf der Höhe h = 0 verbringen. Die Zeit auf beliebiger Höhe h ist q(h) = 0,33*(0,4/(1-0,4))^n = 0,33*0,67^h. Auf Höhe h = 1 wird er also 22 % der Zeit verbringen, auf h = 2 den Anteil 15 % der Zeit, etc … Die mittlere Höhe des Punktes im Laufe der Bewegung ist m = 0,4/(1-2*0,4) = 2.

Der obige Lösungsansatz ist in derselben Form häufig in der Theorie von Warteschlangen zu finden. Auch dort erfolgen die Übergänge stets in benachbarte Zustände. In den Zustand n Kunden in der Schlange kommt man entweder durch Zugang eines Kunden aus dem Zustand n-1 Kunden oder Abfertigung eines Kunden aus dem Zustand n+1 Kunden, wobei im Gegensatz zum Random Walk hier auch der Verbleib im Zustand n Kunden möglich ist. Der Ansatz für die iterative Ermittlung der Wahrscheinlichkeiten des Auffindens der Schlange im Zustand n Kunden hat die Form:

q(n) = q(n)*pv + q(n-1)*pz + q(n+1)*pa

Wobei die Wahrscheinlichkeiten für Verbleib pv, Zuwachs pz oder Abnahme pa wiederum aus der Ankunftsrate und Abfertigungsrate der Kunden berechnet werden und darüber hinaus auch andere Effekte modellieren können (z.B. Tendenz von Kunden zu Vermeidung langer Schlangen). Nimmt man zu der iterativen Gleichung noch die Normierung [Summe über alle n] q(n) = 1 hinzu, dann lässt sich das Problem in der Regel vollständig lösen.

Neurotizismus von Eltern zu Kind

Ich habe vor kurzem zwei Umfragen im Harvard Dataverse gefunden, in welchen die Big-Five der Teilnehmer gemessen und zusätzlich dazu viele Aspekte der Kindheit erfasst wurden. Einer dieser Aspekte war die emotionale Labilität (Neurotizismus) der Eltern. Das hat erlaubt zu prüfen, ob ein Zusammenhang zwischen dem Neurotizismus der Eltern und ihren Kindern besteht. Die Erwartung ist, dass es einen solchen Zusammenhang gibt, da Neurotizismus, wie auch alle anderen Dimensionen der Big-Five, vererbt werden kann. Siehe hier unter Heritability.

In beiden Umfragen habe ich Neurotizismus in eine Ja/Nein-Variable umcodiert. Jeder Teilnehmer mit einem Neurotizismus-Score 0,75 Standardabweichungen über der Norm wurde als “neurotisch” und alle anderen als “nicht-neurotisch” klassifiziert. Diese Variable wurde dann als Zielvariable für ein allgemeines lineares Modell mit den vier unabhängigen Variablen Alter, Geschlecht, Neurotizismus Mutter und Neurotizismus Vater verwendet. Beim Output wurden die Anteile neurotischer Teilnehmer festgehalten.

Man erkennt, dass in beiden Umfragen der Anteil neurotischer Teilnehmer in der Gruppe mit emotional stabiler Mutter ein gutes Stück geringer war als in der Gruppe mit emotional labiler Mutter. Das gleiche Bild ergibt sich für den Vater. Gepoolt ergibt sich das Ergebnis, dass eine emotional labile Mutter das Risiko für hohen Neurotizismus im späteren Leben des Kindes um 90 % erhöht, mit einem 95 % Konfidenzintervall von 30 % bis 170 %. Die statistische Signifikanz des Ergebnisses ist sehr hoch (p < 0,001). Ein emotional labiler Vater erhöht das Risiko für hohen Neurotizismus um 40 %, mit einem Konfidenzintervall von 10 % bis 80 %. Die Signifikanz ist mäßig, aber noch annehmbar (p < 0,05).

Überraschend finde ich, dass diese vier Variablen recht wenig in der Varianz erklären. Nur 10-15 % wird durch das Modell erklärt. Basierend auf der hohen Tendenz der Vererbung von Neurotizismus, wie sie in Studien ermittelt wurde, hätte man mehr Erklärungskraft erwarten können. Ein Grund ist sicherlich die grobe Unterteilung der Skalen. Man kann davon ausgehen, dass man mit einer feineren Unterteilung noch gut auf 20 % kommen könnte. Aber auch das ist noch überraschend wenig.

Inklusion der Beziehung der Eltern untereinander ändert das Ergebnis etwas, aber nicht fundamental. Es bleibt auch danach noch ein 70 % erhöhtes Risiko für hohen Neurotizismus bei einer labilen Mutter und 20 % bei einem labilen Vater. Ein wenig harmonisches Elternhaus bringt aber zusätzliche Erklärungskraft. Bereinigt nach allem anderen im Modell erhöhen zerstrittene Eltern das Risiko für Neurotizismus beim Kind gepoolt um etwa 35 % (p < 0,05). Insgesamt bleibt die erklärte Varianz aber auch damit noch ziemlich niedrig. Von einem umfassenden Modell ist es weit entfernt.

Effekt der Pandemie auf Gewicht, Psyche, Finanzen und Alkoholkonsum

Eine kürzliche Umfrage mit n = 401 Teilnehmern (US-Amerikaner, mittleres Alter 43 Jahre, Spanne von 21 bis 78 Jahre) gibt einen Einblick auf den Effekt der Pandemie auf einige wichtige Aspekte des Lebens. Generell ergibt sich für jede der abgefragten Kategorien im Mittel eine Verschlechterung.

  • Gewicht

Für den Großteil der Teilnehmer hat sich das Gewicht nicht oder nur etwas verändert. 58 % geben keine Veränderung an, 17 % ein Plus von 5 kg und 7 % ein Minus von 5 kg. Das macht insgesamt 82 % der Teilnehmer mit nur geringen Veränderungen. Bei den restlichen Teilnehmern berichten 14 % von einem Plus >= 10 kg und 4 % von einem Minus >= 10 kg. Es gibt also eine klare Verzerrung in Richtung Zunahme. Auf jeden Teilnehmer mit starker Abnahme kommen 3,5 Teilnehmer mit starker Zunahme.

Korrelativ zeigt sich Neurotizismus (emotionale Labilität) als Risikofaktor für Zunahme während der Pandemie. Bei jenen mit geringem Score auf der Neurotizismus-Skala ist das Verhältnis 3,1 : 1 für starke Zunahme zu starker Abnahme, bei jenen mit hohem Score sind es hingegen 4,9 : 1. Die Signifikanz des Unterschieds ist p < 0,01.

  • Psychische Gesundheit

Eine sehr deutliche Verzerrung gibt es auch bei der selbstberichteten Veränderung der psychischen Gesundheit. 48 % berichten keine Veränderung. 10 % und 2 % nennen eine moderate bis deutliche Verbesserung, 33 % und 7 % eine moderate bis deutliche Verschlechterung. Auf jeden Teilnehmer, der eine Verbesserung bei sich festgestellt hat, kommen also 3,3 Teilnehmer, die eine Verschlechterung erlebt haben.

Hier sind Geschlecht und Neurotizismus die größten Risikofaktoren. Bei Männern beträgt das Verhältnis von Verschlechterung zu Verbesserung 2,8 : 1, bei Frauen ist es 4,0 : 1 (p < 0,01). Bei Neurotizismus beträgt das Verhältnis 2,6 : 1 unter jenen mit geringem Score und 3,8 : 1 (p < 0,001) unter jenen mit hohem Score. Die Verschlechterung scheint also vor allem unter jenen, die schon vor der Pandemie emotionale Schwierigkeiten hatten, besonders ausgeprägt.

  • Finanzen

Bei 50 % der Teilnehmer hat die Pandemie keine Veränderung der finanziellen Situation gebracht. Eine moderate und deutliche Verbesserung haben 14 % und 3 % erlebt, eine moderate und deutliche Verschlechterung 23 % und 9 %. Macht ein Verhältnis 1,9 : 1 für Verschlechterung zu Verbesserung.

Hier scheint vor allem die Bildung einen großen Einfluss zu haben. Bei jenen, deren höchster formaler Abschluss das High School Diplom ist, liegt das Verhältnis bei 2,8 : 1 Verschlechterung zu Verbesserung. Bei Teilnehmern mit einem Master’s oder höher ist es hingegen 0,9 : 1 (p < 0,001). In dieser Gruppe gab es demnach sogar leicht mehr Teilnehmer mit Verbesserung statt Verschlechterung.

  • Alkohol

59 % der Teilnehmer haben keine Veränderung im Alkoholkonsum bemerkt. Moderat und deutlich weniger haben 12 % und 5 % getrunken. Moderat und deutlich mehr 19 % und 6 %. Auf jeden mit Konsumreduktion kommen also knapp 1,5 Teilnehmer mit einer Konsumsteigerung.

Die Veränderung zeigt eine sehr klare Altersabhängigkeit. In der Gruppe 20-29 Jahre ist das Verhältnis von Steigerung zu Reduktion 3,1 : 1. In der Gruppe der 60+ Jahre liegt es recht exakt bei 1 : 1 (p < 0,001). Ein massiver Unterschied.

  • Interkorrelationen

Die verschiedenen Veränderungen zeigen auch untereinander Korrelationen. Nennenswert ist vor allem die Korrelation zwischen Veränderung psychischer Gesundheit und Veränderung von Finanzen (r = 0,31 mit p < 0,01). Diese beiden Variablen scheinen besonders häufig Hand in Hand zu gehen, im Guten wie im Schlechten. Auch recht eng ist die Korrelation zwischen Veränderung psychischer Gesundheit und Veränderung des Alkoholkonsums (r = 0,25 mit p < 0,01). Die Korrelation zwischen Finanzen und Alkoholkonsum ist hingegen recht schwach (r = 0,14 mit p < 0,05). Die Veränderung des Gewichts zeigt mit keiner der anderen Variablen eine nennenswerte Assoziation (r < 0,15 für alle möglichen Paare).