Das wunderbare Skript von Sebastian Sauer et al für das Modul ‘Praxis der Datenanalyse’ im FOM Masterstudiengang ‘Wirtschaftspsychologie und Consulting’
Der Zentrale Grenzwertsatz der Statistik bei identischer Verteilung. Zentraler Grenzwertsatz Seien (X_1, X_2, …, X_n) unabhänige und identisch verteilte Zufallsvariablen mit bekanntem Erwartungswert (E(X_i) = \mu) und bekanter Varianz (Var(X_i)=\sigma^2).
Für die Summe (Sn = \sum{i=1}^n X_i) ist dann der Erwartungswert (E(S_n)= n \cdot \mu) und die Varianz (Var(S_n)= n \cdot \sigma^2).
Dann gilt für die standardisierte Zufallsvariable
[ Zn = \frac{\sum{i=1}^n X_i - n \cdot \mu}{\sqrt{n\cdot \sigma^2}} = \frac{S_n - n \cdot \mu}{\sigma \cdot \sqrt{n}} = \frac{\bar{X_n}-\mu}{\sigma / \sqrt{n}} = \frac{\bar{X_n}-\mu}{\sigma} \cdot \sqrt{n}, ]
Die Geschichte der Newcomb-Benford-Analyse Nach Wikipedia wurde das Newcomb-Benford-Gesetz (im engl. oft mit NBL für “Newcomb-Benford’s Law” abgekürzt) schon 1881 vom Astronomen und Mathematiker Simon Newcomb entdeckt und im American Journal of Mathematics veröffentlicht. Aber erst im Jahre 1938 wurde sie vom Elektroingenieur und Physiker Frank Banford wiederentdeckt und erneut publiziert.
Bendford-Verteilung Für eine gegebene Menge von Zahlen, welche dem NBL gehorchen, gilt für die Wahrscheinlichkeit des Auftretens der Ziffer (d) zur Basis (B) an der (n)-ten Stelle (gezählt von vorne und mit 0 startend):
Wie jeder Statistiker weiß, gibt es zwei Varianzen und damit zwei Standardabweichungen, die einem über den Weg laufen können.
R benutzt dabei zur Berechung von Var(x) die empirische Schätzung (vgl. @Schira2005 S 428ff): $$ \frac{1}{n-1} \sum \left(x - \bar{x}\right)^2 $$
wie man leicht an dem Beispiel nachrechnen kann:
> x <- c(1, 2, 3, 4, 5) > var(x) [1] 2.5 > 1⁄4 * sum( (x-mean(x))^2) [1] 2.5 Will man aber die Varianz einer beobachteten statistischen Reihe (vgl @Schira2005 S.
Der p-Wert an Hand eines Beispiels In der Vorlesung “Datenerhebung und Statistik” wird versucht den p-Wert zu erklären.
Die Situation ist die Folgende:
Wir nehmen an, der IQ sei normalverteilt mit dem Mittelwert 100 und der Standardabweichung 15.
Schaut man sich nun das Histogramm der Mittelwerte von 10.000 Stichproben mit Hilfe von R an
library(mosaic) # für den Befehl "do" vieleStichproben <- do(10000) * mean(rnorm(n=30, mean=100, sd=15)) qplot(vieleStichproben$mean, main="Viele Mittelwerte von normalverteilten Zufallszahlen mit µ=100 und σ=15", xlab="Stichproben Mittelwerte", ylab="abs.
Der folgende Text stammt aus einer Mitteilung an meine Studierende. Ich muss den Text für diese Seite vielleicht noch anpassen.
Exkurs: Warum Histogramme, die 10000 wiederholten Stichproben und dieser Wert bei 9500? Mir ist bei der Nachbereitung der Vorlesung aufgefallen, dass einige von Ihnen noch nicht so ganz wissen, wieso wir eine Zeile wie
Simulation <- do(10000)*mean(rnorm(n=200, mean=100, sd=50)) schreiben, kurz, wieso wir simulieren und vor allem was wir simulieren und wie das ganze nun mit den Hypothesentests zusammenhängt.