Data Science

Der Zentrale Grenzwertsatz

Der Zentrale Grenzwertsatz der Statistik bei identischer Verteilung. Zentraler Grenzwertsatz Seien (X_1, X_2, …, X_n) unabhänige und identisch verteilte Zufallsvariablen mit bekanntem Erwartungswert (E(X_i) = \mu) und bekanter Varianz (Var(X_i)=\sigma^2). Für die Summe (Sn = \sum{i=1}^n X_i) ist dann der Erwartungswert (E(S_n)= n \cdot \mu) und die Varianz (Var(S_n)= n \cdot \sigma^2). Dann gilt für die standardisierte Zufallsvariable [ Zn = \frac{\sum{i=1}^n X_i - n \cdot \mu}{\sqrt{n\cdot \sigma^2}} = \frac{S_n - n \cdot \mu}{\sigma \cdot \sqrt{n}} = \frac{\bar{X_n}-\mu}{\sigma / \sqrt{n}} = \frac{\bar{X_n}-\mu}{\sigma} \cdot \sqrt{n}, ]

Datenanalyse

Von Präsmissen und Signifizanzniveaus Eine Prämisse ist eine Annahme, Voraussetzung (eines Schlusses). Der Begriff ist im 19. Jahrhundert von lateinisch praemissio wörtlich: „das Vorausgeschickte“ entlehnt. (vgl. https://de.wiktionary.org/wiki/Prämisse) Sehr oft lese ich Sätze wie “Die Hypothesen werden im Folgenden unter der Prämisse von $\alpha =$0,05 getestet.” Hinter dem $\alpha$ vesteckt sich aber keine Prämisse, sondern ein Signifikanzniveau! Unter signifikant verstehen wir wie unwahrscheinlich es ist, dass ein Ergebnis durch Zufall zustande gekommen ist.

Semantische Analyse von Texten