Posts

Wider der Geschwätzigkeit im Tidyverse!

Gerade beim Einlesen mit dem readr fällt es oft auf: Im Tidyverse wird viel Wert darauf gelegt dem Benutzer mitzuteilen was genau er gerade getan hat. Das ist bei der Entwicklung wichtig, später aber eher lästig! Schaue wir uns an, was passiert, wenn wir eine CSV-Datei laden wollen: library(readr) df <- read_csv("https://raw.githubusercontent.com/NMarkgraf/Daten_Unterricht/master/Affairs.csv") ## Warning: Missing column names filled in: 'X1' [1] ## Parsed with column specification: ## cols( ## X1 = col_integer(), ## affairs = col_integer(), ## gender = col_character(), ## age = col_double(), ## yearsmarried = col_double(), ## children = col_character(), ## religiousness = col_integer(), ## education = col_integer(), ## occupation = col_integer(), ## rating = col_integer() ## ) Die ganzen Zeilen, die einen nur darüber informieren wollen wie jede Spalte von readr interprätiert worden ist, sind im laufenden Betrieb bestenfalls unnütz, wenn nicht gar störend.

Frequentismus oder Bayesanismus?

Frequentismus oder Bayesianismus, das ist hier die Frage!

Es dreht sich vordergründig üm die Frage, was ist Wahrscheinlichkeit?

Der Frequentist sagt: “Wahrscheinlichkeit ist der Grenzwert einer relativen Häufigkeit, wenn man das Experiment unendlich oft wiederholt.”

Der Bayesainer sagt: “Wahrscheinlichkeit ist die Chance, die man dem Eintreten eines Zustandes in einem Experiment zubilligt.”

Lange Ausgaben von R in zwei Spalten setzen. (Dirty Workaround!)

Bei meinen in RMarkdown geschriebenen Presentationen kommt es ab und zu vor, dass die Ausgabe von R zu lange für eine Seite wird. Eine Ausgabe wie Mod3 <- lm(tip ~ total_bill + sex + smoker + day + time + size, data = tips) summary(Mod3)

## Call:

lm(formula = tip ~ total_bill + sex + smoker + day + time + size, ## data = tips)

## Residuals:

Min 1Q Median 3Q Max ## -2.

Der Zentrale Grenzwertsatz

Der Zentrale Grenzwertsatz der Statistik bei identischer Verteilung. Zentraler Grenzwertsatz Seien (X_1, X_2, …, X_n) unabhänige und identisch verteilte Zufallsvariablen mit bekanntem Erwartungswert (E(X_i) = \mu) und bekanter Varianz (Var(X_i)=\sigma^2). Für die Summe (Sn = \sum{i=1}^n X_i) ist dann der Erwartungswert (E(S_n)= n \cdot \mu) und die Varianz (Var(S_n)= n \cdot \sigma^2). Dann gilt für die standardisierte Zufallsvariable [ Zn = \frac{\sum{i=1}^n X_i - n \cdot \mu}{\sqrt{n\cdot \sigma^2}} = \frac{S_n - n \cdot \mu}{\sigma \cdot \sqrt{n}} = \frac{\bar{X_n}-\mu}{\sigma / \sqrt{n}} = \frac{\bar{X_n}-\mu}{\sigma} \cdot \sqrt{n}, ]

R, Rcmdr und der gute Mac

R, R Commander und die R.app unter Macs machen ab und zu Porbleme. Der Grund dafür ist mir leider nicht wirklich klar. Das Problem Startet man den R Commander in der R.app und … R version 3.3.3 (2017-03-06) – "Another Canoe" Copyright © 2017 The R Foundation for Statistical Computing Platform: x86_64-apple-darwin13.4.0 (64-bit) R ist freie Software und kommt OHNE JEGLICHE GARANTIE. Sie sind eingeladen, es unter bestimmten Bedingungen weiter zu verbreiten.

Datenanalyse

Von Präsmissen und Signifizanzniveaus Eine Prämisse ist eine Annahme, Voraussetzung (eines Schlusses). Der Begriff ist im 19. Jahrhundert von lateinisch praemissio wörtlich: „das Vorausgeschickte“ entlehnt. (vgl. https://de.wiktionary.org/wiki/Prämisse) Sehr oft lese ich Sätze wie “Die Hypothesen werden im Folgenden unter der Prämisse von $\alpha =$0,05 getestet.” Hinter dem $\alpha$ vesteckt sich aber keine Prämisse, sondern ein Signifikanzniveau! Unter signifikant verstehen wir wie unwahrscheinlich es ist, dass ein Ergebnis durch Zufall zustande gekommen ist.

Zinsen

Sehr oft spielt bei Zinsen die Zinstage eine entscheidende Rolle. Wie ist die Situation in Deutschland? Das BGB als Quelle für Zinstage Zwar gibt es mit dem §248 BGB einen für die Zinsen nicht ganz unwichtigen Paragraphen. § 248 Zinseszinsen (1) Eine im Voraus getroffene Vereinbarung, dass fällige Zinsen wieder Zinsen tragen sollen, ist nichtig. (2) Sparkassen, Kreditanstalten und Inhaber von Bankgeschäften können im Voraus vereinbaren, dass nicht erhobene Zinsen von Einlagen als neue verzinsliche Einlagen gelten sollen.

Newcomb-Benford-Analyse

Die Geschichte der Newcomb-Benford-Analyse Nach Wikipedia wurde das Newcomb-Benford-Gesetz (im engl. oft mit NBL für “Newcomb-Benford’s Law” abgekürzt) schon 1881 vom Astronomen und Mathematiker Simon Newcomb entdeckt und im American Journal of Mathematics veröffentlicht. Aber erst im Jahre 1938 wurde sie vom Elektroingenieur und Physiker Frank Banford wiederentdeckt und erneut publiziert. Bendford-Verteilung Für eine gegebene Menge von Zahlen, welche dem NBL gehorchen, gilt für die Wahrscheinlichkeit des Auftretens der Ziffer (d) zur Basis (B) an der (n)-ten Stelle (gezählt von vorne und mit 0 startend):

Semantische Analyse von Texten

Textmining

Nicht nur schnöde Zahlen lassen sich statistisch aufbereiten, auch an sich unstruturiertes Material, wie zum Beipsiel Texte, kann man Analysieren.

Grundlegendes

Die Sache mit der Varianz und Standardabweichung in R

Wie jeder Statistiker weiß, gibt es zwei Varianzen und damit zwei Standardabweichungen, die einem über den Weg laufen können. R benutzt dabei zur Berechung von Var(x) die empirische Schätzung (vgl. @Schira2005 S 428ff): $$ \frac{1}{n-1} \sum \left(x - \bar{x}\right)^2 $$ wie man leicht an dem Beispiel nachrechnen kann: > x <- c(1, 2, 3, 4, 5) > var(x) [1] 2.5 > 14 * sum( (x-mean(x))^2) [1] 2.5 Will man aber die Varianz einer beobachteten statistischen Reihe (vgl @Schira2005 S.