Radarkontrollen, Wetter und Zufallsvariablen

Man liest immer mal wieder, dass bei einer Radarkontrolle in einer 100 Km/h Zone ein besonders enthusiastischer Autofahrer mit 180 oder 200 Km/h geblitzt wurde. Für den Betroffenen ist das eine ziemlich teuere Angelegenheit. Aber es führt auf ein sehr interessantes mathematisches Problem, welches sich auch zufriedenstellend lösen lässt. Angenommen wir beginnen eine Messung der Geschwindigkeit. Welche maximal gemessene Geschwindigkeit würden wir nach der Messung von 100 Autos erwarten? Von 1000 Autos? Von 10.000 Autos? Es ist also die Frage nach dem typischen Rekordwert. Die Lösung lässt sich natürlich auf viele Bereiche übertragen, zum Beispiel Rekordwerte beim Wetter. Angenommen wir beginnen täglich zu messen, wie groß wird die maximale gemessene Temperatur nach zehn Jahren Messung sein? Wie groß nach 100 Jahren?

Die Mathematik dahinter ist anspruchsvoll, deshalb kommt erst das Ergebnis inklusive Beispiele und dann die komplette Herleitung. Basis der Rechnung ist die Annahme, dass die gemessene Variable einer Normalverteilung mit Mittelwert m und Standardabweichung s folgt. Für die Geschwindigkeit in einer 100 Km/h Zone ist grob m = 100 Km/h und s = 7 Km/h. Der Mittelwert gibt an, wo man auf lange Sicht landet, wenn man alle Messwerte summiert und durch die Anzahl Messungen teilt. Die Standardabweichung ist ein Maß für die Streuung. Würden alle Autos exakt 100 Km/h fahren, dann wäre s = 0. Würden alle Autos sehr nah an der 100 Km/h fahren, etwa nur im Bereich 95 bis 105 Km/h, dann wäre s zwar nicht Null, aber recht klein, circa s = 3 Km/h. Realistischer sind Variationen um s = 7 Km/h.

Angenommen man entnimmt einer Normalverteilung mit Mittelwert m und Standardabweichung s durch unverzerrte und unabhängige Messung n Werte. Eine Rechnung zeigt, dass sich der Median des maximalen Messwerts für n gegen unendlich aus folgender Formel ergibt:

xmax = m + 0,59*s*ln(n)

Mit dem natürlichen Logarithmus ln. Der Minimalwert ist:

xmin = m – 0,59*s*ln(n)

Folgen die Geschwindigkeiten einer Normalverteilung mit m = 100 Km/h und s = 7 Km/h, dann würde man nach Messung von n = 100 Autos die Rekordwerte 81 Km/h und 119 Km/h erwarten. Nach n = 1000 Messungen 71 Km/h und 129 Km/h. Nach 10.000 Messungen 62 Km/h bis 138 Km/h. Man erkennt, dass Rekordwerte sich eher langsam verschieben. Der Schritt von 1000 zu 10.000 Messungen, eine Verzehnfachung, bringt das erwartete Maximum nur von 129 Km/h auf 138 Km/h. Das liegt an der Abhängigkeit zum Logarithmus, eine Funktion, die notorisch langsam wächst.

Ein weiteres Beispiel: Laut Statista beträgt die mittlere Größe eines Mannes in D etwa m = 177 cm. Werte für die Standardabweichung sind etwas schwieriger zu finden, aber von dem, was ich gesehen habe, sollte s = 5 cm ziemlich gut hinkommen. Welche maximale Körpergröße erwartet man bei einem Publikum von 1000 Leuten? Und welchen Maximalwert für Deutschland insgesamt, mit 83 Mio Einwohnern? Für 1000 Leuten ergibt sich xmax = 197 cm, hier landet man also noch etwas unter der Zwei-Meter-Grenze. Für Deutschland als Ganzes erhält man xmax = 231 cm, etwas mehr, aber doch noch relativ nah an diesem deutschen Big Chungus (Yannik Könecke, wohnhaft in der Nähe von Hannover, stolze 224 cm).

Auch die Umkehrung ist möglich und bietet einen schnellen und nützlichen Weg, die Standardabweichung aus einer Messreihe zu schätzen. Werden bei n Messungen die Rekordwerte xmax und xmin festgehalten, dann ist das vereinbar mit Annahme, dass die gemessene Variable einer Normalverteilung mit m und s folgt:

m = (xmin+xmax)/2

s = (xmax-m)/(0,59*ln(n))

Der Zusatz n gegen unendlich wurde schon erwähnt. Da sich die Dichtefunktion der Normalverteilung analytisch nicht integrieren lässt, existiert keine analytische Lösung des Problems. Man muss sich mit einer Funktion begnügen, die sich für n gegen unendlich an das Ergebnis des Integral anschmiegt. Eine gute (und mit steigendem n auch immer besser werdende) Näherung erhält man somit über die obigen Formeln erst für n > 20 Messungen. Das dürfte in den meisten Fällen kein Hindernis sein.

Zur Herleitung: Gegeben seien n Zufallsvariablen X1 , X2 , … , XN. Jede Zufallsvariable wird unverzerrt und unabhängig derselben Verteilung entnommen, ausgedrückt durch die kumulierte Verteilungsfunktion F(x). Man könnte auch mit der Dichtefunktion f(x) beginnen, aber F(x) vereinfacht die Argumentation. Die Wahrscheinlichkeit, dass XK einen Wert kleiner als x hat, ist P(XK < x) = F(x). Die Wahrscheinlichkeit, dass jedes XK kleiner als x ist, und somit auch der maximale Wert kleiner als x ist, folgt aus P(xmax < x) = F(x)^n. Diese Formel gehört zum Bereich Order Statistics und lässt sich zum Beispiel auch hier finden. Beim Median gilt stets P(X < x) = 0,5. Der Median des maximalen Werts ist dann:

xmax = F(-1)(0,5^(1/n))

Wobei F(-1) die Umkehrfunktion von F ist. Das gilt für alle Verteilungen. Speziell für die Normalverteilung kann man für alle z-Werte die sehr nützliche Näherung F(z) = 1/(1+exp(-1,7*z)) verwenden, welche für z gegen unendlich gegen die exakte Verteilungsfunktion geht. Die Umkehrfunktion folgt durch Umstellung des Ansatzes y = F(z) nach z. Es ist z = F(-1)(y) = 0,59*ln(y/(1-y)). Es folgt mit y = 0,5^n:

zmax = F(-1)(0,5^(1/n))

zmax = 0,59*ln(1/(2^(1/n)-1))

Im Prinzip könnte man hier aufhören, aber für n gegen unendlich lässt sich diese sperrige Formel noch deutlich vereinfachen. Die Taylor-Reihe für 2^x für x gegen Null ist 1+x*ln(2). Entsprechend gilt für n gegen unendlich 2^(1/n)-1 = (1/n)*ln(2). Eingesetzt in die Formel ergibt sich:

zmax = 0,59*ln(n/ln(2)) = 0,59*(ln(n)-ln(2))

Für n gegen unendlich ist ln(n) >> ln(2), so dass man die ln(2) einfach wegfallen lassen kann. Es folgt noch die Umrechnung des z-Werts in den x-Wert mittels z = (x-m)/s:

zmax = (xmax-m)/s = 0,59*ln(n)

xmax = m + 0,59*s*ln(n)

Es wurde hier die Normalverteilung vorrausgesetzt, aber jede Verteilung mit einem Erwartungswert m kleiner als unendlich und einem beliebigen s geht für große n gegen die Normalverteilung mit Erwartungswert m und Standardabweichung s. Sofern n groß genug ist, wird also auch jede andere Verteilung Rekordwerte nach xmax = m + 0,59*s*ln(n) produzieren. Für die Minimalwerte kann man die Herleitung mit dem Ansatz P(xmin < x) = 1-(1-F(x))^n wiederholen. Bei symmetrischen Verteilungen geht es aber auch einfacher, nämlich über m-xmin = xmax-m (gleiche Abstände zum Mittelwert). Es folgt daraus xmin = 2*m-xmax.

Leave a comment