Statistik: Grundlagen [MA2402]

Während sich die Wahrscheinlichkeitstheorie mit Modellen für unsichere Ereignisse und deren Aussagen beschäftigt, versucht die Statistik, Beobachtungen eines Zufallsmechanismus systematisch zusammenzufassen, um dadurch Rückschlüsse auf das zugrunde liegende Modell zu ziehen. Mögliche Aufgabenstellungen der Statistik können beispielsweise sein, die Zuverlässigkeit einer Maschine herauszufinden, den Anteil der Bevölkerung mit einer bestimmten Krankheit ausfindig zu machen, ein Medikament auf seine Wirksamkeit zu testen, die Entwicklungen an Finanzmärkten geeignet vorherzusagen oder die Struktur von sozialen Netwerken zu verstehen. Diese Vorlesung wird dabei grundlegende Fragestellungen und Methoden der Statistik vorstellen.

Die wichtigsten Themen dieser Vorlesung sind:

  • Deskriptive Statistik: Wie verarbeitet man systematisch gesammelte Daten und welche Informationen liefern sie?
  • Parameterschätzung: Wie schätzt man aus Beobachtungen heraus unbekannte Parameter im Modell?
  • Konfidenzintervalle: Wie gut bzw. genau sind die verwendeten Schätzer?
  • Testen von Hypothesen: Wie bestätigt oder widerlegt man Vermutungen auf quantitativer Basis mit Methoden der Statistik?

 

Deskriptive Statistik: Es werden verschiedene Methoden diskutiert, die gesammelten Beobachtungen eines Datensatzes zu analysieren. Abhängig vom jeweiligen Messniveau der Daten kann es z.B. sinnvoll sein, sich ein erstes Bild durch ein Balkendiagramm oder ein Histogramm zu verschaffen. Weiterführende Informationen erhält man dann beispielsweise durch die Berechnung des empirischen Mittelwertes, der empirischen Standardabweichung oder durch die Erstellung eines Boxplots. Ein besonderer Augenmerk liegt dabei auf dem Erlernen und Verwenden der Statistiksoftware R.

Der Datensatz besteht aus der Länge der 141 wichtigsten Flüsse in Nordarmerika. Histogramm der Flusslängen (rechts).
Empirische Verteilungsfunktion und Boxplot der Flusslängen.

Parameterschätzung: Ausgehend von einem statistischen Modell versucht man geeignete Schätzer für den wahren Parameterwert zu konstruieren. Gütekriterien für Schätzer (Erwartungstreue, mittlerer quadratischer Fehler und Konsistenz) werden eingeführt und an Beispielen diskutiert. Unter anderem werden klassische Methoden wie die Maximum-Likelihood-Methode, die Momentenmethode oder die Methode der kleinsten Quadrate vertieft behandelt.

Histogramm von 500, 1000, 10000 und 50000 Simulationen einer Weibullverteilung zusammen mit der mittels Maximum-Likelihood-Methode geschätzten Dichte.

Konfidenzintervalle: Punktschätzer werden meistens nie den wahren Parameter des zugrunde liegenden Modells treffen. Man benötigt daher Angaben zur Präzision des Schätzers, was zum Begriff der Intervallschätzer bzw. Konfidenzintervalle führt. Sie geben an, in welchem Bereich sich der wahre Parameter mit einer gegebenen Wahrscheinlichkeit befindet. Unter anderem werden wir Konfidenzintervalle für den Erwartungswert einer Normalverteilung bzw. einer Binomialverteilung berechnen.

Empirische Mittelwerte mit zugehörigem zweiseitigen 95% Konfidenzintervalle von 30 normalverteilten Stichproben mit Erwartungswert 5.

Testen von Hypothesen: Nach der Einführung von generellen Begriffen (Null- und Gegenhypothese, Signifikanzniveau, p-Wert, Gütefunktion) werden verschiedene Testprobleme im Konkreten betrachtet: Gauß- und t-Test für den Erwartungswert einer Normalverteilung, Zweistichprobentests (t- und F-Tests), χ2-Anpassungstest und χ2-Unabhängigkeitstest. Die Theorie von Neyman-Pearson und der damit verbundene Likelihood-Quotienten-Test wird dabei eine zentrale Rolle einnehmen.

Kontingenztabelle für die Merkmale Haar- und Augenfarbe von 592 Studenten.
Erwartete Häufigkeitsverteilung der Merkmale Haar- und Augenfarbe unter Unabhängigkeit.
> chisq.test(HaarAugenfarbe)
##
## Pearson's Chi-squared test
##
## data: h
## X-squared = 138.29, df = 9, p-value < 2.2e-16

R Code zu den obigen Grafiken.

Literatur

  1. Michael Crawley. Statistics: An Introduction Using R. Wiley, Chichester, 2005.
  2. Claudia Czado und Thorsten Schmidt. Mathematische Statistik. Springer, Berlin, 2011.
  3. Andy Field, Jeremy Miles und Zoë Field. Discovering Statistics Using R. Sage, London, 2012.
  4. Hans-Otto Georgii. Stochastik. Walter de Gruyter, Berlin, 2007.
  5. John Verzani. Using R for Introductory Statistics. Chapman & Hall, Boca Raton, 2005.