Quartile, Quantile, Perzentile etc.
“Was hat das eigentlich mit den Quartilen, Quantilen und so weiter auf sich?” Diese Frage kommt ab und zu in Vorlesungen zur Statistik vor. Dabei ist die Antwort recht einfach.
Quantile
Definitorische Antwort
Für eine gegebene reelle Zufallsvariable \(X\) heißt eine reelle Zahl \(x_p\) ein p-Quantil (von \(X\)), falls gilt:
\[P(X \leq x_p) \leq p \quad \text{ und }\quad P(x_p \leq X) \geq 1-p.\]
Was bedeutet das denn nun konkret?
Nun, ein Quantil ist ein Schwellenwert. Ein bestimmter Anteil der Werte ist kleiner als das Quantil, der Rest ist größer. Das 25-%-Quantil beispielsweise ist der Wert, für den gilt, dass 25 % aller Werte kleiner sind als dieser Wert. Quantile formalisieren praktische Aussagen wie „25 % aller Frauen sind kleiner als 1,62 m“ –- wobei 1,62 m hier das 25-%-Quantil ist.
Spezielle Quantile sind der Median, die Quartile, die Quintile, die Dezile und die Perzentile:
Wir betrachten dazu in den Bespielen die Datenreihe dr
an:
# Die Zahlen von 0 bis 600
dr <- 0:600
Median
Der Median (von lat. Medium für „Mitte, Mittelpunkt“ abgeleiteter Begriff mit der Bedeutung “in der Mitte gelegen”) die das 50-%-Quantil. Der Wert, welcher die Datenreihe (bestenfalls) in zwei (etwa) gleich große Abschnitte trennt. Sehr oft schreibt man \(x_{med}\), \(x_{50\%}\), \(x_{Med}\) oder \(Q_2\) für den Median
median(dr)
## [1] 300
Terzile
Als Terile (von lat. tertius “der Dritte”) werden die beiden Quantile mit \(p=1/3\) und \(p=2/3\) bezeichnet. Sie teilen die Datenreihe in drei Abschnitte.
quantile(dr, probs = seq(0, 1, 1/3))
## 0% 33.33333% 66.66667% 100%
## 0 200 400 600
Quartile
Die Quartile (von lat. quartus „der Vierte“) werden die Quantile mit \(p=25\%\), \(p=50\%\) und \(p=75\%\) bezeichnet. Sie teilen die Datenreihe in vier Abschnitte. Dabei schreibt man oft: \(Q_1 = x_{0{,}25}\), \(x_{Med} = Q_2 = x_{0{,}50}\) und \(Q_3 = x_{0{,}75}\) für die drei Quantile.
quantile(dr) # oder auch: quantile(dr, probs=seq(0, 1, 1/4))
## 0% 25% 50% 75% 100%
## 0 150 300 450 600
Quintile
Quintile (von lat. quintus “der Fünfte”) werden die Quantile mit \(p=20\%\), \(p=40\%\), \(p=60\%\) und \(p=80\%\) bezeichnet. Sie teilen die Datenreihe in fünf Abschnitte.
quantile(dr, probs = seq(0, 1, 1/5))
## 0% 20% 40% 60% 80% 100%
## 0 120 240 360 480 600
Dezile
Die Quantile für vielfache von \(0{,}1\) also für \(p=0{,}1;0{,}2;\dots ;0{,}9\) werden Dezile (von mittellateinisch decimalis, zu lat. decem „zehn“) genannt. Dabei heißt das \(0{,}1\)-Quantil das erste Dezil, das \(0{,}2\)-Quantil das zweite Dezil usw. Unterhalb des ersten Dezils liegen 10 % der Stichprobe, oberhalb entsprechend 90 % der Stichprobe. Ebenso liegen 40 % der Stichprobe unterhalb des vierten Dezils und 60 % oberhalb.
quantile(dr, probs = seq(0, 1, 1/10))
## 0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100%
## 0 60 120 180 240 300 360 420 480 540 600
Perzentile
Als Perzentile (von lat.-ital. per centum “von Hundert, Hundertstel”) werden die Quantile von \(\displaystyle 0{,}01\) bis $ 0{,}99$ in Schritten von \(0{,}01\) bezeichnet.
quantile(dr, probs = seq(0, 1, 1/100))
## 0% 1% 2% 3% 4% 5% 6% 7% 8% 9% 10% 11% 12% 13% 14% 15%
## 0 6 12 18 24 30 36 42 48 54 60 66 72 78 84 90
## 16% 17% 18% 19% 20% 21% 22% 23% 24% 25% 26% 27% 28% 29% 30% 31%
## 96 102 108 114 120 126 132 138 144 150 156 162 168 174 180 186
## 32% 33% 34% 35% 36% 37% 38% 39% 40% 41% 42% 43% 44% 45% 46% 47%
## 192 198 204 210 216 222 228 234 240 246 252 258 264 270 276 282
## 48% 49% 50% 51% 52% 53% 54% 55% 56% 57% 58% 59% 60% 61% 62% 63%
## 288 294 300 306 312 318 324 330 336 342 348 354 360 366 372 378
## 64% 65% 66% 67% 68% 69% 70% 71% 72% 73% 74% 75% 76% 77% 78% 79%
## 384 390 396 402 408 414 420 426 432 438 444 450 456 462 468 474
## 80% 81% 82% 83% 84% 85% 86% 87% 88% 89% 90% 91% 92% 93% 94% 95%
## 480 486 492 498 504 510 516 522 528 534 540 546 552 558 564 570
## 96% 97% 98% 99% 100%
## 576 582 588 594 600