Statistik

Nur ein wenig lineare Regression

Der tipping Datensatz wird oft analysiert. Das Verhältnis von Trinkgeld (tip) und Rechnungsbetrag (total_bill) steht dabei im Vordergrund einer lineare Regressionsanalyse. So auch hier. Wir wollen die einzelnen Angaben von R dabei in den Fokus rücken und einmal Hinterfragen, was wir bei der Ausgabe von R eigentlich genau sehen, woher es kommt und wie man es interpretieren kann. Zunächst laden wir dazu die tipping Daten mittels library(mosaic) download.file("https://goo.gl/whKjnl", destfile = "tips.

Prognose-, Konfidenz- und Fiduzialintervalle

*WORK IN PROGRESS Dieser Eintrag ist noch nicht fertig und wird in der Zukunft erweitert! Konfidenzintervalle Definition von Konfidenzintervallen1 Für unabhängig identisch verteilte Zufallsvariablen (X_1,\dotsc, X_n) mit unbekanntem reellen Verteilungsparameter (\vartheta) kann unter bestimmten Umständen zwei Stichprobenfunktionen (U) und (V) angeben, so dass [P(U < \vartheta < V) \geq \gamma] gilt, mit (\gamma \in (0,1)). Dann heißt das (stochastische) Intervall ([U, V]) ein Konfidenzintervall für (\vartheta) zum Konfidenzniveau (\gamma) (auch: ein (\gamma)-Konfidenzintervall).

Konfidenzintervalle

Zentrales Schwankungsintervall

Der Zentrale Grenzwertsatz

Der Zentrale Grenzwertsatz der Statistik bei identischer Verteilung. Zentraler Grenzwertsatz Seien (X_1, X_2, …, X_n) unabhänige und identisch verteilte Zufallsvariablen mit bekanntem Erwartungswert (E(X_i) = \mu) und bekanter Varianz (Var(X_i)=\sigma^2). Für die Summe (Sn = \sum{i=1}^n X_i) ist dann der Erwartungswert (E(S_n)= n \cdot \mu) und die Varianz (Var(S_n)= n \cdot \sigma^2). Dann gilt für die standardisierte Zufallsvariable [ \begin{align} Zn &= \frac{\left(\sum\limits{i=1}^n X_i\right) - n \cdot \mu}{\sqrt{n\cdot \sigma^2}} = \frac{S_n - n \cdot \mu}{\sigma \cdot \sqrt{n}} = \frac{n \cdot \bar{X}_n-n \cdot \mu}{\sigma \cdot n / \sqrt{n}} \ &= \frac{\bar{X}_n - \mu}{\sigma / \sqrt{n}} = \frac{\bar{X}_n - \mu}{\sigma} \cdot \sqrt{n}, \end{align} ]