Statistik

Praxis der Datenanalyse

Das wunderbare Skript von Sebastian Sauer et al für das Modul ‘Praxis der Datenanalyse’ im FOM Masterstudiengang ‘Wirtschaftspsychologie und Consulting’

Der Zentrale Grenzwertsatz

Der Zentrale Grenzwertsatz der Statistik bei identischer Verteilung. Zentraler Grenzwertsatz Seien (X_1, X_2, …, X_n) unabhänige und identisch verteilte Zufallsvariablen mit bekanntem Erwartungswert (E(X_i) = \mu) und bekanter Varianz (Var(X_i)=\sigma^2). Für die Summe (Sn = \sum{i=1}^n X_i) ist dann der Erwartungswert (E(S_n)= n \cdot \mu) und die Varianz (Var(S_n)= n \cdot \sigma^2). Dann gilt für die standardisierte Zufallsvariable [ Zn = \frac{\sum{i=1}^n X_i - n \cdot \mu}{\sqrt{n\cdot \sigma^2}} = \frac{S_n - n \cdot \mu}{\sigma \cdot \sqrt{n}} = \frac{\bar{X_n}-\mu}{\sigma / \sqrt{n}} = \frac{\bar{X_n}-\mu}{\sigma} \cdot \sqrt{n}, ]

Newcomb-Benford-Analyse

Die Geschichte der Newcomb-Benford-Analyse Nach Wikipedia wurde das Newcomb-Benford-Gesetz (im engl. oft mit NBL für “Newcomb-Benford’s Law” abgekürzt) schon 1881 vom Astronomen und Mathematiker Simon Newcomb entdeckt und im American Journal of Mathematics veröffentlicht. Aber erst im Jahre 1938 wurde sie vom Elektroingenieur und Physiker Frank Banford wiederentdeckt und erneut publiziert. Bendford-Verteilung Für eine gegebene Menge von Zahlen, welche dem NBL gehorchen, gilt für die Wahrscheinlichkeit des Auftretens der Ziffer (d) zur Basis (B) an der (n)-ten Stelle (gezählt von vorne und mit 0 startend):

Semantische Analyse von Texten

Die Sache mit der Varianz und Standardabweichung in R

Wie jeder Statistiker weiß, gibt es zwei Varianzen und damit zwei Standardabweichungen, die einem über den Weg laufen können. R benutzt dabei zur Berechung von Var(x) die empirische Schätzung (vgl. @Schira2005 S 428ff): $$ \frac{1}{n-1} \sum \left(x - \bar{x}\right)^2 $$ wie man leicht an dem Beispiel nachrechnen kann: > x <- c(1, 2, 3, 4, 5) > var(x) [1] 2.5 > 14 * sum( (x-mean(x))^2) [1] 2.5 Will man aber die Varianz einer beobachteten statistischen Reihe (vgl @Schira2005 S.

Die Sache mit dem p-Wert

Der p-Wert an Hand eines Beispiels In der Vorlesung “Datenerhebung und Statistik” wird versucht den p-Wert zu erklären. Die Situation ist die Folgende: Wir nehmen an, der IQ sei normalverteilt mit dem Mittelwert 100 und der Standardabweichung 15. Schaut man sich nun das Histogramm der Mittelwerte von 10.000 Stichproben mit Hilfe von R an library(mosaic) # für den Befehl "do" vieleStichproben <- do(10000) * mean(rnorm(n=30, mean=100, sd=15)) qplot(vieleStichproben$mean, main="Viele Mittelwerte von normalverteilten Zufallszahlen mit µ=100 und σ=15", xlab="Stichproben Mittelwerte", ylab="abs.

Daten laden mit dem Paket readr

Ich wurde heute gefragt, wie man aus einer Textdatei, in welcher die Einträge in fixen Abständen vorliegen, Daten nach R importiert.

Das Problem war dabei, dass Datumsangaben und kategorielle Einträge von R bzw. RStudio nicht sofort richtig erkannt und zugeordnet wurden.

Meine unsortierte Linkliste

Eine total chaotische, unsortierte und schlecht gewartete Linkliste!

Viele Daten für die Datenanalyse mit R

Hier sammle ich eine kleine Liste von Webseiten auf denen man Daten findet, mit denen man sich an der Datenanalyse versuchen kann.

Histogramme und Hypothesen

Der folgende Text stammt aus einer Mitteilung an meine Studierende. Ich muss den Text für diese Seite vielleicht noch anpassen. Exkurs: Warum Histogramme, die 10000 wiederholten Stichproben und dieser Wert bei 9500? Mir ist bei der Nachbereitung der Vorlesung aufgefallen, dass einige von Ihnen noch nicht so ganz wissen, wieso wir eine Zeile wie Simulation <- do(10000)*mean(rnorm(n=200, mean=100, sd=50)) schreiben, kurz, wieso wir simulieren und vor allem was wir simulieren und wie das ganze nun mit den Hypothesentests zusammenhängt.