R

Wider der Geschwätzigkeit im Tidyverse!

Gerade beim Einlesen mit dem readr fällt es oft auf: Im Tidyverse wird viel Wert darauf gelegt dem Benutzer mitzuteilen was genau er gerade getan hat. Das ist bei der Entwicklung wichtig, später aber eher lästig! Schaue wir uns an, was passiert, wenn wir eine CSV-Datei laden wollen: library(readr) df <- read_csv("https://raw.githubusercontent.com/NMarkgraf/Daten_Unterricht/master/Affairs.csv") ## Warning: Missing column names filled in: 'X1' [1] ## Parsed with column specification: ## cols( ## X1 = col_integer(), ## affairs = col_integer(), ## gender = col_character(), ## age = col_double(), ## yearsmarried = col_double(), ## children = col_character(), ## religiousness = col_integer(), ## education = col_integer(), ## occupation = col_integer(), ## rating = col_integer() ## ) Die ganzen Zeilen, die einen nur darüber informieren wollen wie jede Spalte von readr interprätiert worden ist, sind im laufenden Betrieb bestenfalls unnütz, wenn nicht gar störend.

Lange Ausgaben von R in zwei Spalten setzen. (Dirty Workaround!)

Bei meinen in RMarkdown geschriebenen Presentationen kommt es ab und zu vor, dass die Ausgabe von R zu lange für eine Seite wird. Eine Ausgabe wie Mod3 <- lm(tip ~ total_bill + sex + smoker + day + time + size, data = tips) summary(Mod3)

## Call:

lm(formula = tip ~ total_bill + sex + smoker + day + time + size, ## data = tips)

## Residuals:

Min 1Q Median 3Q Max ## -2.

R, Rcmdr und der gute Mac

R, R Commander und die R.app unter Macs machen ab und zu Porbleme. Der Grund dafür ist mir leider nicht wirklich klar. Das Problem Startet man den R Commander in der R.app und … R version 3.3.3 (2017-03-06) – "Another Canoe" Copyright © 2017 The R Foundation for Statistical Computing Platform: x86_64-apple-darwin13.4.0 (64-bit) R ist freie Software und kommt OHNE JEGLICHE GARANTIE. Sie sind eingeladen, es unter bestimmten Bedingungen weiter zu verbreiten.

Datenanalyse

Von Präsmissen und Signifizanzniveaus Eine Prämisse ist eine Annahme, Voraussetzung (eines Schlusses). Der Begriff ist im 19. Jahrhundert von lateinisch praemissio wörtlich: „das Vorausgeschickte“ entlehnt. (vgl. https://de.wiktionary.org/wiki/Prämisse) Sehr oft lese ich Sätze wie “Die Hypothesen werden im Folgenden unter der Prämisse von $\alpha =$0,05 getestet.” Hinter dem $\alpha$ vesteckt sich aber keine Prämisse, sondern ein Signifikanzniveau! Unter signifikant verstehen wir wie unwahrscheinlich es ist, dass ein Ergebnis durch Zufall zustande gekommen ist.

Newcomb-Benford-Analyse

Die Geschichte der Newcomb-Benford-Analyse Nach Wikipedia wurde das Newcomb-Benford-Gesetz (im engl. oft mit NBL für “Newcomb-Benford’s Law” abgekürzt) schon 1881 vom Astronomen und Mathematiker Simon Newcomb entdeckt und im American Journal of Mathematics veröffentlicht. Aber erst im Jahre 1938 wurde sie vom Elektroingenieur und Physiker Frank Banford wiederentdeckt und erneut publiziert. Bendford-Verteilung Für eine gegebene Menge von Zahlen, welche dem NBL gehorchen, gilt für die Wahrscheinlichkeit des Auftretens der Ziffer (d) zur Basis (B) an der (n)-ten Stelle (gezählt von vorne und mit 0 startend):

Semantische Analyse von Texten

Die Sache mit der Varianz und Standardabweichung in R

Wie jeder Statistiker weiß, gibt es zwei Varianzen und damit zwei Standardabweichungen, die einem über den Weg laufen können. R benutzt dabei zur Berechung von Var(x) die empirische Schätzung (vgl. @Schira2005 S 428ff): $$ \frac{1}{n-1} \sum \left(x - \bar{x}\right)^2 $$ wie man leicht an dem Beispiel nachrechnen kann: > x <- c(1, 2, 3, 4, 5) > var(x) [1] 2.5 > 14 * sum( (x-mean(x))^2) [1] 2.5 Will man aber die Varianz einer beobachteten statistischen Reihe (vgl @Schira2005 S.

Die Sache mit dem p-Wert

Der p-Wert an Hand eines Beispiels In der Vorlesung “Datenerhebung und Statistik” wird versucht den p-Wert zu erklären. Die Situation ist die Folgende: Wir nehmen an, der IQ sei normalverteilt mit dem Mittelwert 100 und der Standardabweichung 15. Schaut man sich nun das Histogramm der Mittelwerte von 10.000 Stichproben mit Hilfe von R an library(mosaic) # für den Befehl "do" vieleStichproben <- do(10000) * mean(rnorm(n=30, mean=100, sd=15)) qplot(vieleStichproben$mean, main="Viele Mittelwerte von normalverteilten Zufallszahlen mit µ=100 und σ=15", xlab="Stichproben Mittelwerte", ylab="abs.

Etwas R am Abend

Vortrag zur Einführung in R für Studierende

Etwas R am Nachmittag

Vortrag zur Einführung in R für Dozenten