1,436 26 4MB
Pages 362 Page size 198.48 x 300.96 pts Year 2009
Springer-Lehrbuch
Helge Toutenburg · Michael Schomaker Malte Wißmann · Christian Heumann
Arbeitsbuch zur deskriptiven und induktiven Statistik Zweite, aktualisierte und erweiterte Auflage
123
Professor Dr. Dr. Helge Toutenburg Dipl.-Stat. Michael Schomaker Priv.-Doz. Dr. Christian Heumann Institut für Statistik Ludwig-Maximilians-Universität München Akademiestraße 1 80799 München
Dipl.-Volksw. Malte Wißmann Wirtschaftswissenschaftliches Zentrum Abteilung Quantitative Methoden Universität Basel Postfach 517 CH-4003 Basel [email protected]
[email protected] [email protected] [email protected]
ISBN 978-3-540-89035-5
e-ISBN 978-3-540-89036-2
DOI 10.1007/978-3-540-89036-2 Springer-Lehrbuch ISSN 0937-7433 Bibliografische Information der Deutschen Nationalbibliothek Die Deutsche Nationalbibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Internet über http://dnb.d-nb.de abrufbar. c 2009, 2006 Springer-Verlag Berlin Heidelberg Dieses Werk ist urheberrechtlich geschützt. Die dadurch begründeten Rechte, insbesondere die der Übersetzung, des Nachdrucks, des Vortrags, der Entnahme von Abbildungen und Tabellen, der Funksendung, der Mikroverfilmung oder der Vervielfältigung auf anderen Wegen und der Speicherung in Datenverarbeitungsanlagen, bleiben, auch bei nur auszugsweiser Verwertung, vorbehalten. Eine Vervielfältigung dieses Werkes oder von Teilen dieses Werkes ist auch im Einzelfall nur in den Grenzen der gesetzlichen Bestimmungen des Urheberrechtsgesetzes der Bundesrepublik Deutschland vom 9. September 1965 in der jeweils geltenden Fassung zulässig. Sie ist grundsätzlich vergütungspflichtig. Zuwiderhandlungen unterliegen den Strafbestimmungen des Urheberrechtsgesetzes. Die Wiedergabe von Gebrauchsnamen, Handelsnamen, Warenbezeichnungen usw. in diesem Werk berechtigt auch ohne besondere Kennzeichnung nicht zu der Annahme, dass solche Namen im Sinne der Warenzeichen- und Markenschutz-Gesetzgebung als frei zu betrachten wären und daher von jedermann benutzt werden dürften. Herstellung: le-tex publishing services oHG, Leipzig Umschlaggestaltung: WMXDesign GmbH, Heidelberg Gedruckt auf säurefreiem Papier 987654321 springer.de
Vorwort
Seit der Ver¨ offentlichung der ersten Auflage haben uns zahlreiche Vorschl¨age und Anregungen der Leser erreicht. Mit dieser zweiten, aktualisierten und erweiterten Auflage haben wir die aus unserer Sicht wichtigsten und am h¨ aufigsten genannten Punkte integriert: am Ende jedes Kapitels werden noch einmal wichtige Resultate, zus¨ atzliche Hinweise, wie auch weiterf¨ uhrende Literatur in Form eines Kastens hervorgehoben. Viele neue Aufgaben wurden hinzugef¨ ugt und bereits bestehende Aufgaben wurden didaktisch neu aufbereitet. Aus unserer Sicht besonders wertvoll f¨ ur die Wiederholung und das Verst¨andnis des Stoffes ist ein eigenst¨ andiges Kapitel mit Multiple-Choice-Aufgaben, das durch den kommentierten L¨ osungsteil einen etwas anderen Blickwinkel auf den Stoff wirft und somit nicht nur zur reinen Pr¨ ufungsvorbereitung dient. Ein zus¨ atzliches Kapitel zur Datenanalyse (Autor: Christian Heumann) soll dem Leser einen ersten Einblick geben, wie die Themen des Buches strukturiert f¨ ur eigene Projekte und Auswertungen verwendet werden k¨onnen. Weiterhin dient dieses Buch vor allem der Erg¨anzung der Lehrb¨ ucher“Deskriptive Statistik” und “Induktive Statistik” von Helge Toutenburg und Christian Heumann. Die Datens¨ atze zum Buch finden sich unter http://www.statistik.lmu.de/institut/ag/toutenb/daten/ und k¨ onnen mit Hilfe der statistischen Software SPSS ge¨offnet werden. Wir danken Frau Ingrid Kreuzmair f¨ ur ihre vielen hilfreichen Anmerkungen und Verbesserungsvorschl¨ age zu den Aufgaben und ihren Musterl¨osungen. Wir hoffen, dass die Neuerungen bei den Lesern Anklang finden und nehmen alle weiteren Anregungen gerne entgegen ([email protected]). Unser Dank gilt insbesondere auch Frau Lilith Braun vom Springer-Verlag f¨ ur die stets freundliche und kooperative Zusammenarbeit.
Die Autoren
M¨ unchen und Basel, im Januar 2009
Inhaltsverzeichnis
1.
Grundlagen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.1 Merkmal oder statistische Variable . . . . . . . . . . . . . . . . . . . . . . . . 1.1.1 Qualitative und Quantitative Merkmale . . . . . . . . . . . . . 1.1.2 Diskrete und Stetige Merkmale . . . . . . . . . . . . . . . . . . . . . 1.1.3 Skalierung von Merkmalen . . . . . . . . . . . . . . . . . . . . . . . . . 1.2 Weitere Hinweise . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.3 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1 1 2 2 3 4 4
2.
H¨ aufigkeitsverteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.1 Absolute und relative H¨ aufigkeiten . . . . . . . . . . . . . . . . . . . . . . . . 2.2 Empirische Verteilungsfunktion . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.3 Grafische Darstellungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.3.1 Stab- oder Balkendiagramme . . . . . . . . . . . . . . . . . . . . . . 2.3.2 Kreisdiagramme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.3.3 Stamm-und-Blatt-Diagramme . . . . . . . . . . . . . . . . . . . . . . 2.3.4 Histogramme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.4 Weitere Hinweise . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.5 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
7 7 8 8 9 9 10 11 12 13
3.
Maßzahlen f¨ ur eindimensionale Merkmale . . . . . . . . . . . . . . . . 3.1 Lageparameter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.1.1 Modus oder Modalwert . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.1.2 Median und Quantile . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.1.3 Arithmetisches Mittel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.1.4 Geometrisches Mittel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2 Streuungsmaße . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2.1 Spannweite und Quartilsabstand . . . . . . . . . . . . . . . . . . . 3.2.2 Varianz und Standardabweichung . . . . . . . . . . . . . . . . . . . 3.2.3 Variationskoeffizient . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.3 Box-Plots . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.4 Konzentrationsmaße . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.4.1 Lorenzkurven . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.4.2 Gini-Koeffizient . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.5 Weitere Hinweise . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
27 27 27 27 29 31 32 32 33 34 35 36 37 38 39
VIII
Inhaltsverzeichnis
3.6 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 4.
Analyse des Zusammenhangs zweier Merkmale . . . . . . . . . . . 4.1 Darstellung der Verteilung zweidimensionaler Merkmale . . . . . 4.1.1 Kontingenztafeln bei diskreten Merkmalen . . . . . . . . . . . 4.1.2 Grafische Darstellung bei zwei diskreten Merkmalen . . 4.1.3 Grafische Darstellung der Verteilung gemischt stetig-diskreter Merkmale . . . . . . . . . . . . . . . . . . . . . . . . . 4.1.4 Grafische Darstellung der Verteilung zweier stetiger Merkmale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2 Maßzahlen f¨ ur den Zusammenhang zweier diskreter Merkmale 4.2.1 Pearsons Chi-Quadrat-Statistik . . . . . . . . . . . . . . . . . . . . 4.2.2 Phi-Koeffizient . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2.3 Kontingenzmaß von Cramer . . . . . . . . . . . . . . . . . . . . . . . 4.2.4 Kontingenzkoeffizient C . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2.5 Der Odds-Ratio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.2.6 Rangkorrelationskoeffizient von Spearman . . . . . . . . . . . 4.3 Zusammenhang zwischen zwei stetigen Merkmalen . . . . . . . . . . 4.4 Weitere Hinweise . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.5 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
69 69 69 71
5.
Lineare Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.1 Einleitung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.1.1 Das Modell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.1.2 Grafische Vor¨ uberlegungen . . . . . . . . . . . . . . . . . . . . . . . . 5.2 Prinzip der kleinsten Quadrate . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.2.1 Eigenschaften der Regressionsgeraden . . . . . . . . . . . . . . . 5.3 G¨ ute der Anpassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.3.1 Varianzanalyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.3.2 Die Rolle der Korrelation in der Regression . . . . . . . . . . 5.4 Lineare Regression mit kategorialen Regressoren . . . . . . . . . . . . 5.5 Weitere Hinweise . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.6 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
95 95 95 96 97 99 101 101 103 104 108 109
6.
Kombinatorik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.1 Einleitung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.2 Permutationen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.2.1 Permutationen ohne Wiederholung . . . . . . . . . . . . . . . . . 6.2.2 Permutationen mit Wiederholung . . . . . . . . . . . . . . . . . . 6.3 Kombinationen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.3.1 Kombinationen ohne Wiederholung und ohne Ber¨ ucksichtigung der Reihenfolge . . . . . . . . . . . . . . . . . . . 6.3.2 Kombinationen ohne Wiederholung, aber mit Ber¨ ucksichtigung der Reihenfolge . . . . . . . . . . . . . . . . . . .
121 121 122 122 123 123
71 72 72 73 74 75 75 76 77 78 80 81
124 124
Inhaltsverzeichnis
6.3.3 Kombinationen mit Wiederholung, aber ohne Ber¨ ucksichtigung der Reihenfolge . . . . . . . . . . . . . . . . . . . 6.3.4 Kombinationen mit Wiederholung und mit Ber¨ ucksichtigung der Reihenfolge . . . . . . . . . . . . . . . . . . . 6.4 Weitere Hinweise . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.5 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
IX
125 126 126 127
7.
Elemente der Wahrscheinlichkeitsrechnung . . . . . . . . . . . . . . . 7.1 Einleitung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.2 Zuf¨ allige Ereignisse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.3 Relative H¨ aufigkeit und Laplacesche Wahrscheinlichkeit . . . . . 7.4 Axiome der Wahrscheinlichkeitsrechnung . . . . . . . . . . . . . . . . . . 7.4.1 Folgerungen aus den Axiomen . . . . . . . . . . . . . . . . . . . . . . 7.4.2 Rechenregeln f¨ ur Wahrscheinlichkeiten . . . . . . . . . . . . . . 7.5 Bedingte Wahrscheinlichkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.5.1 Motivation und Definition . . . . . . . . . . . . . . . . . . . . . . . . . 7.5.2 Der Satz von Bayes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.6 Unabh¨ angigkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.7 Weitere Hinweise . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.8 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
131 131 131 135 136 137 138 138 138 139 140 142 143
8.
Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149 8.1 Einleitung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149 8.2 Verteilungsfunktion einer Zufallsvariablen . . . . . . . . . . . . . . . . . . 149 8.3 Diskrete Zufallsvariablen und ihre Verteilungsfunktion . . . . . . 151 8.4 Stetige Zufallsvariablen und ihre Verteilungsfunktion . . . . . . . . 152 8.5 Erwartungswert und Varianz einer Zufallsvariablen . . . . . . . . . 155 8.5.1 Erwartungswert . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155 8.5.2 Rechenregeln f¨ ur den Erwartungswert . . . . . . . . . . . . . . . 156 8.5.3 Varianz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 156 8.5.4 Rechenregeln f¨ ur die Varianz . . . . . . . . . . . . . . . . . . . . . . . 157 8.5.5 Standardisierte Zufallsvariablen . . . . . . . . . . . . . . . . . . . . 158 8.5.6 Erwartungswert und Varianz des arithmetischen Mittels158 8.5.7 Ungleichung von Tschebyschev . . . . . . . . . . . . . . . . . . . . . 159 8.6 Zweidimensionale Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . . . . 159 8.6.1 Zweidimensionale diskrete Zufallsvariablen . . . . . . . . . . . 160 8.6.2 Zweidimensionale stetige Zufallsvariablen . . . . . . . . . . . . 161 8.6.3 Momente von zweidimensionalen Zufallsvariablen . . . . . 163 8.6.4 Korrelationskoeffizient . . . . . . . . . . . . . . . . . . . . . . . . . . . . 165 8.7 Weitere Hinweise . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 166 8.8 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 166
X
9.
Inhaltsverzeichnis
Diskrete und stetige Standardverteilungen . . . . . . . . . . . . . . . . 9.1 Spezielle diskrete Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . 9.1.1 Die diskrete Gleichverteilung . . . . . . . . . . . . . . . . . . . . . . . 9.1.2 Die Einpunktverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . 9.1.3 Die Null-Eins-Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . 9.1.4 Die Binomialverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9.1.5 Die hypergeometrische Verteilung . . . . . . . . . . . . . . . . . . 9.2 Spezielle stetige Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9.2.1 Die stetige Gleichverteilung . . . . . . . . . . . . . . . . . . . . . . . . 9.2.2 Die Normalverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9.3 Weitere diskrete und stetige Verteilungen . . . . . . . . . . . . . . . . . . 9.3.1 Die Poissonverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9.3.2 Die Multinomialverteilung . . . . . . . . . . . . . . . . . . . . . . . . . 9.3.3 Die Exponentialverteilung . . . . . . . . . . . . . . . . . . . . . . . . . 9.4 Pr¨ ufverteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9.4.1 Die χ2 -Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9.4.2 Die t-Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9.4.3 Die F -Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9.5 Weitere Hinweise . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9.6 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
175 175 175 176 177 178 179 180 180 181 185 185 186 187 188 188 188 189 190 190
10. Sch¨ atzung von Parametern . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10.1 Einleitung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10.2 Punktsch¨ atzung von Parametern . . . . . . . . . . . . . . . . . . . . . . . . . 10.2.1 Punktsch¨ atzung f¨ ur μ bei einer normalverteilten Zufallsvariable . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10.2.2 Punktsch¨ atzung f¨ ur σ 2 bei einer normalverteilten Zufallsvariable . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10.2.3 Punktsch¨ atzung von p bei einer binomialverteilten Zufallsvariable . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10.3 Konfidenzsch¨ atzungen von Parametern . . . . . . . . . . . . . . . . . . . . 10.3.1 Grundlagen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10.3.2 Konfidenzsch¨ atzung des Erwartungswerts einer Normalverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10.3.3 Konfidenzsch¨ atzung einer Binomialwahrscheinlichkeit . 10.4 Weitere Hinweise . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10.5 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
199 199 200
11. Pr¨ ufen statistischer Hypothesen . . . . . . . . . . . . . . . . . . . . . . . . . . 11.1 Einleitung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.2 Grundlegende Begriffe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.2.1 Ein- und Zweistichprobenprobleme . . . . . . . . . . . . . . . . . 11.2.2 Ein- und Zweiseitige Tests . . . . . . . . . . . . . . . . . . . . . . . . . 11.2.3 Allgemeines Vorgehen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.2.4 Fehler 1. und 2. Art . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
209 209 209 209 210 211 211
200 201 201 202 202 202 204 205 205
Inhaltsverzeichnis
11.3 Einstichprobenprobleme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.3.1 Pr¨ ufen des Mittelwerts bei bekannter Varianz (einfacher Gauss-Test) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.3.2 Pr¨ ufung des Mittelwertes bei unbekannter Varianz (einfacher t-Test) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.4 Zweistichprobenprobleme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.4.1 Pr¨ ufen der Gleichheit der Varianzen (F-Test) . . . . . . . . 11.4.2 Pr¨ ufen der Gleichheit der Mittelwerte zweier unabh¨ angiger normalverteilter Zufallsvariablen . . . . . . . 11.4.3 Pr¨ ufen der Gleichheit der Mittelwerte aus einer verbundenen Stichprobe (paired t-Test) . . . . . . . . . . . . . 11.5 Pr¨ ufen von Hypothesen u ¨ber Binomialverteilungen . . . . . . . . . . 11.5.1 Pr¨ ufen der Wahrscheinlichkeit f¨ ur das Auftreten eines Ereignisses (Binomialtest f¨ ur p) . . . . . . . . . . . . . . . . . . . . 11.5.2 Pr¨ ufen der Gleichheit zweier Binomialwahrscheinlichkeiten . . . . . . . . . . . . . . . . . . . . . . 11.6 Testentscheidung mit p–values . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.7 Weitere Hinweise . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.8 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
XI
212 212 215 216 216 219 221 222 222 223 225 225 226
12. Nichtparametrische Tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12.1 Einleitung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12.2 Anpassungstests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12.2.1 Chi-Quadrat-Anpassungstest . . . . . . . . . . . . . . . . . . . . . . . 12.2.2 Kolmogorov–Smirnov–Anpassungstest . . . . . . . . . . . . . . . 12.3 Homogenit¨ atstests f¨ ur zwei unabh¨ angige Stichproben . . . . . . . . 12.3.1 Kolmogorov-Smirnov-Test im Zweistichprobenproblem 12.3.2 Mann-Whitney-U -Test . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12.4 Weitere Hinweise . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12.5 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
241 241 241 242 244 245 245 246 248 248
13. Multiple lineare Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13.1 Einleitung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13.2 Modellannahmen der multiplen Regression . . . . . . . . . . . . . . . . . 13.3 Sch¨ atzung der Parameter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13.4 Pr¨ ufen von linearen Hypothesen . . . . . . . . . . . . . . . . . . . . . . . . . . 13.5 Weitere Hinweise . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13.6 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
259 259 259 260 260 265 266
14. Analyse von Kontingenztafeln . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14.1 Zweidimensionale kategoriale Zufallsvariablen . . . . . . . . . . . . . . 14.2 Unabh¨ angigkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . angigkeitstest . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14.3 χ2 -Unabh¨ 14.4 Die Vierfeldertafel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14.5 Weitere Hinweise . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
273 273 275 276 277 281
XII
Inhaltsverzeichnis
14.6 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 281 15. Datenanalyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15.1 Univariate deskriptive Analyse . . . . . . . . . . . . . . . . . . . . . . . . . . . 15.1.1 Merkmal Zustellzeit“ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ” 15.1.2 Merkmal Temperatur der Pizza bei Anlieferung“ . . . . ” 15.1.3 Merkmal Filiale“ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ” 15.1.4 Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15.1.5 Weiteres Vorgehen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15.2 Bivariate deskriptive Analyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15.2.1 Bivariate Analyse von Zustellzeit“ und Filiale“ . . . . . ” ” 15.2.2 Bivariate Analyse von Temperatur“ und Filiale“ . . . . ” ” 15.2.3 Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15.3 Trivariate deskriptive Analyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15.4 Induktive Analyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15.4.1 Mann–Whitney–U–Tests . . . . . . . . . . . . . . . . . . . . . . . . . . angigkeitstest . . . . . . . . . . . . . . . . . . . . . . . . . . . 15.4.2 χ2 –Unabh¨
287 288 288 291 293 293 294 295 295 297 299 300 301 303 305
16. Multiple-Choice Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 309 16.1 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 309 16.2 L¨ osungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 321 A. Tabellenanhang . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 339 Literaturverzeichnis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 351 Sachverzeichnis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 353
1. Grundlagen
Statistik ist die wichtigste Methodik zur Datenanalyse. Daten werden von Beh¨ orden, Institutionen, Firmen und Forschern erhoben: Beh¨ orden
⇒
Institute Firmen Forscher
⇒ ⇒ ⇒
Geburten, Todesf¨ alle, Einb¨ urgerungen, Steuereinnahmen,... Wetterdaten, Politbarometer, Exporterl¨ose,... Umsatz, Kosten, Werbung, Pensionskosten,... klinische Daten bei Medikamentenstudien, Erdbebenvorhersage, Ozonschicht,...
Ausgangspunkt der Datenerhebung ist eine spezifische Fragestellung: • • • • • •
Ist ein Medikament A wirkungsvoller als ein Medikament B? Gef¨ ahrdet Rauchen die Gesundheit? Liefert eine Maschine M signifikant mehr Ausschuss als eine Maschine N? Bewirkt eine spezielle Di¨ at tats¨ achlich eine Gewichtsabnahme? Ist das Heiratsalter bei M¨ annern h¨ oher als bei Frauen? Ver¨ andert sich die Parteienpr¨ aferenz?
1.1 Merkmal oder statistische Variable Bei einer statistischen Aufgabenstellung ist zun¨achst die Datenbasis zu kl¨ aren. Die Objekte, auf die sich eine statistische Analyse bezieht, heißen Untersuchungseinheiten. Die Zusammenfassung aller Untersuchungseinheiten bildet die Grundgesamtheit. Bestimmte Aspekte oder Eigenschaften einer Untersuchungseinheit bezeichnet man als Merkmal oder statistische Variable X. Beide Begriffe sind gleichwertig. Meist wird der Begriff Variable im Umgang mit konkreten Zahlen, also bei der Datenerhebung und -auswertung verwendet, w¨ahrend der Begriff Merkmal im theoretischen Vorfeld, also bei der Begriffsbildung und bei der Planung der Erhebungstechnik verwendet wird. Bei jeder Untersuchungseinheit nimmt das Merkmal X eine m¨ogliche Auspr¨ agung x aus dem Merkmalsraum (Menge der m¨ oglichen x-Werte) an.
2
1. Grundlagen
Beispiele. • Sei X der Familienstand, so sind m¨ ogliche Auspr¨agungen: ledig, verheiratet, geschieden, verwitwet. • Sei X das Herstellungsland eines Autos, so sind beispielsweise USA, Japan und Europa m¨ ogliche Auspr¨ agungen. • Beschreibt X das Studienfach, so sind m¨ ogliche Merkmalsauspr¨agungen x: Medizin, Jura, Politik 1.1.1 Qualitative und Quantitative Merkmale Qualitative Merkmale werden auch als artm¨ aßige Merkmale bezeichnet, da sie sich durch die verschiedenartigen Auspr¨ agungen charakterisieren lassen. Qualitative Merkmale sind zum Beispiel • die Augenfarbe einer Person, • die Branchenzugeh¨ origkeit eines Unternehmens, • die Wahl des Verkehrsmittels auf dem Weg zur Arbeit. Quantitative Merkmale sind messbar und werden durch Zahlen erfasst. Wir bezeichnen sie daher auch als zahlenm¨ aßige Merkmale. Die Auspr¨agungen des Merkmals lassen sich in eine eindeutige Rangfolge bringen. Beispiele hierf¨ ur w¨aren • • • •
Schuhgr¨ oße Wohnungsmiete Semesterzahl Umsatz eines Betriebes.
Anmerkung. Gelegentlich werden qualitative Merkmale durch Zahlen kodiert. So k¨ onnte man beispielsweise f¨ ur das Merkmal ’Geschlecht’ die Auspr¨agungen ’m¨ annlich’ und ’weiblich’ mit ’0’ bzw. ’1’ kodieren. Solche Merkmale sind aber auf keinen Fall als quantitativ anzusehen, da die Auspr¨agungen in keine eindeutige Reihenfolge gebracht werden k¨onnen, vergleiche insbesondere Kapitel 5.4. 1.1.2 Diskrete und Stetige Merkmale Im Bereich der quantitativen Merkmale unterscheiden wir zwischen diskreten und stetigen Merkmalen. Ein Merkmal heißt diskret, wenn die Anzahl der Auspr¨ agungen abz¨ ahlbar ist, ansonsten sprechen wir von stetigen Merkmalen. In Bezug auf unser vorheriges Beispiel w¨ urde dies heißen, dass Schuhgr¨oße und Semesterzahl diskret quantitative Merkmale sind, w¨ahrend Wohnungsmiete und der Umsatz eines Betriebes stetig quantitative Merkmale sind. Qualitative Merkmale sind stets diskret.
1.1 Merkmal oder statistische Variable
3
Merkmale PP PP P
) Qualitative
PP q P
Quantitative PPP P ) q P diskret stetig
1.1.3 Skalierung von Merkmalen ¨ Basierend auf unseren Uberlegungen zu diskreten und stetigen Merkmalen definieren wir folgende Skalen (Skalenniveaus), die keineswegs nur Formalismus sind, sondern uns sp¨ ater helfen werden, statistische Werkzeuge zielgenau einzusetzen: Nominalskala. Die Auspr¨ agungen eines nominalskalierten Merkmals k¨onnen nicht geordnet werden (zum Beispiel: Merkmal ’Geschlecht einer Person’ mit den Auspr¨ agungen ’m¨ annlich’ und ’weiblich’). Der einzig m¨ogliche Vergleich ist die Pr¨ ufung auf Gleichheit der Merkmalsauspr¨agungen zweier Untersuchungseinheiten ⇒ ’Studienfach’, ’Herkunftsland’. Ordinal- oder Rangskala. Die Merkmalsauspr¨agungen k¨onnen gem¨aß ihrer Intensit¨ at geordnet werden. Eine Interpretation der Rangordnung ist m¨ oglich, Abst¨ ande zwischen den Merkmalsauspr¨agungen k¨onnen jedoch nicht interpretiert werden ⇒ ’Schulnote’, ’Zufriedenheit’. Metrische Skala. Unter den Merkmalsauspr¨agungen kann eine Rangordnung definiert werden, zus¨ atzlich k¨ onnen Abst¨ande zwischen den Merkmalsauspr¨ agungen gemessen und interpretiert werden. Wir k¨onnen die metrisch skalierten Merkmale weiter unterteilen in: Intervallskala. Es sind nur Differenzbildungen zwischen den Merkmalsauspr¨ agungen zul¨ assig. Daher k¨ onnen nur Abst¨ande verglichen werden ⇒ ’Temperatur’. Verh¨ altnisskala. Es existiert zus¨ atzlich ein nat¨ urlicher Nullpunkt. Die Bildung eines Quotienten ist zul¨ assig, Verh¨altnisse sind damit sinnvoll interpretierbar ⇒ ’Geschwindigkeit’. Absolutskala. Es kommt zus¨ atzlich eine nat¨ urliche Einheit hinzu. Die Absolutskala ist damit ein Spezialfall der Verh¨altnisskala ⇒ ’Semesterzahl’. Anmerkung. Mit Ausnahme der Nominalskala lassen sich die Werte xi von X der Gr¨ oße nach ordnen: x(1) ≤ x(2) ≤ ... ≤ x(n) . Dabei wird x(i) als i-te Ordnungsstatistik bezeichnet.
4
1. Grundlagen
1.2 Weitere Hinweise Merke:
Die Skalierung von Merkmalen ist kein reiner Formalismus, sondern die Voraussetzung zum sachgerechten Einsatz statistischer Verfahren. Dies gilt insbesondere bei der Zusammenhangsanalyse (Kapitel 4), statistischen Tests (Kapitel 11 und 12) und der linearen Regression (Kapitel 5 und 13).
Stetige Merkmale, die nur diskret gemessen werden k¨onnen (z.B. monet¨ are Gr¨ oßen, die nur als Vielfaches der Einheit ’Cent’ vorkommen) oder klassiert vorliegen, werden oft auch als quasi-stetig bezeichnet.
Diskrete Merkmale, die nur zwei Auspr¨agungen besitzen, werden als bin¨ ar bezeichnet.
1.3 Aufgaben Aufgabe 1.1: In einer Studie soll die Nachtaktivit¨at von L¨owen untersucht werden. Dabei wurden mehrere L¨ owen eines Nationalparks mit einem Ger¨at ausgestattet, das K¨ orpertemperatur und gelaufene Kilometer erfassen kann. Erl¨ autern Sie anhand dieses Beispiels die Begriffe Grundgesamtheit, Untersuchungseinheit, Merkmal und Auspr¨ agung! L¨ osung: Die Grundgesamtheit w¨ are in diesem Beispiel ’alle L¨owen’, die Untersuchungseinheit sind die mit einem Ger¨ at ausgestatteten L¨owen des Nationalparks. Die Merkmale, die im Zuge der Studie erhoben werden sind ’K¨orpertemperatur’ bzw. ’gelaufene Kilometer’. Folglich w¨aren m¨ogliche Auspr¨agungen ’35 Grad Celsius, 36 Grad Celsius, usw.’ bzw. ’0.5 Kilometer, 1 Kilometer, usw.’. Aufgabe 1.2: Welche der folgenden Merkmale sind quantitativ, welche sind qualitativ? Welche der quantitativen Merkmale sind diskret, welche stetig? Schuhgr¨ oße, Mensapreis f¨ ur ein Standardgericht, Parteienpr¨aferenz, ben¨otigte Fahrzeit bei Urlaubsfahrt, Augenfarbe, Geschlecht, Wellenl¨ange des Lichtes, Kundenzufriedenheit auf einer Skala von Eins bis Zehn, Lieferzeit eines Internetbuchhandels, Blutgruppe, Anzahl Tore in der Handball-Bundesliga, ¨ K¨orpergr¨ oße eines Menschen, Verwendungszweck bei einer Uberweisung
1.3 Aufgaben
5
L¨ osung: Qualitative Merkmale sind: Quantitativ und diskret sind: Quantitativ und stetig sind:
Parteienpr¨ aferenz, Augenfarbe, Geschlecht, Blutgruppe, Verwendungszweck Schuhgr¨ oße, Kundenzufriedenheit, Anzahl Tore Fahrzeit, Mensapreis, Wellenl¨ange, Lieferzeit, K¨ orpergr¨oße
Aufgabe 1.3: Geben Sie an, auf welchem Skalenniveau die folgenden Merkmale gemessen werden: a) b) c) d) e) f) g) h) i) j) k)
Parteienpr¨ aferenz bei einer Bundestagswahl Schwierigkeitsgrad bei einem Computerspiel Herstellungsdauer eines Bauteils Alter von Tieren im Zoo Kalenderzeit ab Christi Geburt Preis einer T¨ ute Bonbons in e Matrikelnummer eines Studenten Platzierung bei einem Sch¨ onheitswettbewerb Intensit¨ at von Luftstr¨ omungen Intelligenzquotient eines Studenten Schulnoten
L¨ osung: a) Die Parteienpr¨ aferenz kann als nominal angesehen werden. Beispiele f¨ ur m¨ ogliche Auspr¨ agungen sind: SPD, CDU, Gr¨ une, FDP, Linkspartei, Sonstige. b) Wir haben hier ein ordinalskaliertes Merkmal. Level 10 wird beispielsweise schwerer, aber nicht unbedingt doppelt so schwer wie Level 5 sein. c) Das Skalenniveau des Merkmals ’Herstellungsdauer eines Bauteils’ ist metrisch (Verh¨ altnisskala). Gemessen wird in Zeiteinheiten (s, min, Tage, etc.). Nullpunkt ist dabei der Produktionsbeginn. d) Das Skalenniveau ist hier metrisch (Verh¨ altnisskala). Gemessen wird meist in Jahren, Nullpunkt ist die Geburt des Tieres. e) Das Skalenniveau f¨ ur die Kalenderzeit ist metrisch (Intervallskala). Gemessen wird in Jahren. Da wir einen nicht nat¨ urlichen Nullpunkt (Christi Geburt) haben, d¨ urfen wir nicht die Verh¨ altnisskala verwenden. f) Das Skalenniveau ist offensichtlich metrisch (Verh¨altnisskala).
6
1. Grundlagen
g) Das Niveau des Merkmals ’Matrikelnummer’ ist nominal. Die Matrikelnummer selbst besteht zwar aus Zahlen, wir k¨onnen jedoch nicht davon ausgehen, dass zum Beispiel die Nummer ’112233’ einen halb so großen Nutzen oder Wert besitzt wie die Nummer ’224466’. h) Das Skalenniveau ist hier ordinal, da beispielsweise die zweitplatzierte Teilnehmerin nicht doppelt so sch¨ on ist wie die Viertplatzierte. i) Auch dieses Merkmal ist ordinalskaliert. j) Der Intelligenzquotient ist metrisch skaliert (Intervallskala), da sich die Differenzen interpretieren lassen, nicht aber die Verh¨altnisse. k) Schulnoten sind ordinalskaliert. Es ist zwar eine klare Rangfolge im Notensystem enthalten, man kann aber beispielsweise nicht behaupten, dass die Note ’2’ doppelt so gut ist wie die Note ’4’. .
2. H¨ aufigkeitsverteilungen
2.1 Absolute und relative H¨ aufigkeiten Bei nominalen und ordinalen Merkmalen ist die Anzahl k der beobachteten Merkmalsauspr¨ agungen aj in der Regel viel kleiner als die Anzahl n der Beobachtungen. Anstatt die n Beobachtungen x1 , . . . , xn anzugeben, gehen wir dazu u aufigkeiten der einzelnen Merkmalsauspr¨agungen festzu¨ber, die H¨ halten. Die absolute H¨ aufigkeit nj ist die Anzahl der Untersuchungseinheiten, die die Merkmalsauspr¨ agung aj , j = 1, . . . , k besitzen. Die Summe der absoluten H¨ aufigkeitenaller Merkmalsauspr¨ agungen ergibt die Gesamtzahl n der Beobk ur den (vom Stichprobenumfang unabh¨angigen) achtungen: j=1 nj = n. F¨ Vergleich von Untersuchungen ben¨ otigt man die relativen H¨ aufigkeiten fj : nj , j = 1, . . . , k. (2.1) fj = f (aj ) = n Sie geben den Anteil der Untersuchungseinheiten an, die die Auspr¨agung aj besitzen. Bei stetigen Merkmalen ist die Anzahl k der beobachteten Merkmalsauspr¨agungen sehr groß oder sogar gleich der Anzahl der Beobachtungen n, so dass die relativen H¨ aufigkeiten fj in der Regel gleich n1 sind. Um eine interpretierbare Verteilung zu erhalten, fassen wir mehrere Merkmalsauspr¨agungen zu einem Intervall zusammen. Als Repr¨ asentant w¨ahlt man z.B. aj als Klassenmitte. Die H¨ aufigkeitstabelle stellt die Verteilung des Merkmals dar: a1 n1 f1
a2 n2 f2
Dabei gelten die Restriktionen: n =
... ... ... i
an nn fn
ni und
i
fi = 1.
8
2. H¨ aufigkeitsverteilungen
Beispiel 2.1.1. Beschreibe das Merkmal X die Wahl des Studienfachs: Jura P olitik M edizin ni 400 300 1300 fi 0.20 0.15 0.65 Dabei ist n = i ni = 2000 und i fi = 1.
2.2 Empirische Verteilungsfunktion Sind die Beobachtungen x1 , . . . , xn des Merkmals X der Gr¨oße nach als x(1) ≤ x(2) ≤ . . . ≤ x(n) geordnet und ist das Datenniveau mindestens ordinal (also nicht nominal), so ist die empirische Verteilungsfunktion an der Stelle x die kumulierte relative H¨ aufigkeit aller Merkmalsauspr¨agungen aj , die kleiner oder gleich x sind: F (x) = f (aj ) . (2.2) aj ≤x
Beispiel 2.2.1. In der Saison 2004/2005 der Fußball-Bundesliga wurden die geschossenen Tore aller 18 Mannschaften u ur die ¨ber die Saison notiert. F¨ Analyse wurde folgende ordinale Klassierung vorgeschlagen: 1 “sehr wenig Tore” ([30, 40)), 2 “wenig Tore” ([40, 50)), 3 “moderate Tore” ([50, 60)), 4 “viele Tore” ([60, 70)), 5 “sehr viele Tore” [70, 80), Folgende Tabelle zeigt wieviele Mannschaften (nj ) eine bestimmte Toranzahl (aj ) geschossen haben: Tore (aj ) nj fj Fj
1 5 5/18 5/18
2 4 4/18 9/18
3 6 6/18 15/18
4 2 2/18 17/18
5 1 1/18 1
Die empirische Verteilungsfunktion f¨ ur dieses Beispiel ist in Abbildung 2.1 dargestellt. Das stetige Merkmal ’Anzahl der Tore’ liegt in diesem Beispiel nur klassiert vor (siehe auch Kapitel 2.3.4), weswegen es h¨aufig auch als quasi-stetig bezeichnet wird. Dies ist aus technischer Sicht kein Problem; die empirische Verteilungsfunktion ist bei solchen klassierten Daten st¨ uckweise linear.
2.3 Grafische Darstellungen Die H¨ aufigkeitstabelle ist eine erste M¨ oglichkeit zur Veranschaulichung der Daten. Sie liefert leicht verst¨ andliche Informationen ‘auf einen Blick‘. In diesem Kapitel sollen einache, aber hilfreiche Instrumente zur grafischen Veranschaulichung von Variablen vorgestellt werden. Zu beachten ist stets, dass bei Grafiken vergleichbarer Sachverhalte die gleiche Achsenskalierung gew¨ahlt werden sollte, vergleiche insbesondere Toutenburg und Heumann (2008a, Kapitel 4.6).
9
0.0
0.2
0.4
F(x)
0.6
0.8
1.0
2.3 Grafische Darstellungen
0
1
2
3
4
5
6
Anzahl Tore
Abb. 2.1. Empirische Verteilungsfunktion f¨ ur das Beispiel “geschossene Tore in der Saison“
2.3.1 Stab- oder Balkendiagramme Die einfachste grafische Darstellungsm¨ oglichkeit ist das Stab- oder Balkendiagramm. Dieser Diagrammtyp l¨ asst sich sinnvoll nur f¨ ur nominale und ordinale Merkmale verwenden. Jeder Merkmalsauspr¨agung wird ein Strich oder Balken zugeordnet, dessen L¨ ange der absoluten oder relativen H¨aufigkeit entspricht. Die Anordnungsreihenfolge der Balken ist bei nominalen Merkmalen beliebig. Bei mindestens ordinalskalierten Merkmalen existiert eine ‘nat¨ urliche’ Anordnungsreihenfolge der Merkmalsauspr¨agungen, falls die Kodierung entsprechend gew¨ahlt wird. 2.3.2 Kreisdiagramme Kreisdiagramme eignen sich zur Darstellung von H¨aufigkeiten nominaler bzw. ordinaler Merkmale. Die Aufteilung des Kreises in die einzelnen Sektoren, die die Merkmalsauspr¨ agungen repr¨ asentieren, ist dabei proportional zu den absoluten bzw. relativen H¨ aufigkeiten. Die Gr¨ oße eines Kreissektors, also sein Winkel, kann damit aus der relativen H¨ aufigkeit fj gem¨aß Winkel = fj · 360◦ bestimmt werden.
10
2. H¨ aufigkeitsverteilungen
Anmerkung. In einem Kreisdiagramm wird nie die Rangfolge der einzelnen Auspr¨ agungen wiedergegeben. Bei der Darstellung der Auspr¨agungen eines beispielsweise ordinalskalierten Merkmals ist daher ein Stab- oder Balkendiagramm dem Kreisdiagramm vorzuziehen.
0.5
Beispiel 2.3.1. Die Sch¨ uler eines Gymnasiums d¨ urfen in der Oberstufe ein zus¨ atzliches Fach aus einem Wahlbereich w¨ ahlen. Zur Auswahl stehen hierbei: Psychologie, Philosophie, Russisch, Darstellende Geometrie, Astronomie und Chor. Abb. 2.2 zeigt die Wahl der Sch¨ uler - veranschaulicht in einem Kreisund Balkendiagramm.
0.4
Psychologie(34,5%)
Russisch(6,9%)
0.3
Chor(20.7%) 0.1
Darstellende Geometrie(10,3%)
0.2
relative Häufigkeit
Philosophie(13,8%)
0.0
Astronomie(13,8%)
Psychologie
Philos.
Russisch
Geometrie
Astronom.
Chor
Abb. 2.2. Kreis- und Balkendiagramm f¨ ur die Wahl des Fachs
2.3.3 Stamm-und-Blatt-Diagramme Sei das Datenniveau metrisch und seien die Daten der Gr¨oße nach geordur die Erstellung eines Stamm-und-Blattnet: x(1) ≤ x(2) ≤ ... ≤ x(n) . F¨ Diagramms gehen wir in folgenden Schritten vor: 1. Wir unterteilen den Wertebereich in Intervalle gleicher Breite, wobei wir die Breite jeweils als das 0.5–, 1–, oder 2–fache einer Zehnerpotenz w¨ahlen. 2. Die beobachteten Merkmalsauspr¨ agungen werden in einen Stamm- und einen Blattanteil zerlegt. 3. Die so gefundenen Werte sowie die zugeh¨ origen H¨aufigkeiten werden aufgetragen. Beispiel 2.3.2. Es sei die L¨ ange von Filmen w¨ahrend eines Filmfestivals notiert worden. Folgendes Stamm-und-Blatt-Diagramm erl¨autert die Datensituation. Dabei wird der Stamm durch 10-Minuten-Einheiten gebildet, das Blatt repr¨ asentiert 1-Minuten-Einheiten:
2.3 Grafische Darstellungen
Frequency
Stamm &
2.00 6.00 8.00 2.00 1.00 2.00 1.00 2.00 1.00
7 8 9 10 11 12 13 14 15
. . . . . . . . .
11
Blatt 04 044889 22235588 12 5 05 0 15 0
In der ersten Zeile k¨ onnten wir beispielsweise die beobachteten Filml¨angen von 70 und 74 Minuten ablesen. Es folgen Filme der L¨ange 80,84,84,88,88 Minuten usw. Der l¨ angste Film dauerte 150 Minuten. 2.3.4 Histogramme Liegt ein metrisches Merkmal vor, so kann die H¨aufigkeitsverteilung nicht von vornherein durch ein Balkendiagramm dargestellt werden, da hier im Allgemeinen sehr viele Balken entstehen w¨ urden, die fast alle die H¨ohe 1/n h¨ atten. Um eine sinnvolle H¨ aufigkeitsverteilung zu erhalten, muss das Merkmal zun¨ achst klassiert werden. Die hieraus resultierende H¨aufigkeitsverteilung kann dann in einem Histogramm grafisch veranschaulicht werden. Die Histogrammfl¨ achen sind proportional zu den relativen H¨aufigkeiten fj , die H¨ ohe hj des Rechtecks u ¨ber der j-ten Klasse berechnet sich somit gem¨aß hj =
fj , dj
mit der Klassenbreite dj = ej − ej−1 . Dabei ist ej die obere Klassengrenze des j-ten Intervalls und ej−1 die untere. Beispiel 2.3.3. Wir betrachten erneut die L¨ ange von Filmen w¨ahrend eines Filmfestivals (vgl. Beispiel 2.3.2). In Abbildung 2.3 ist das den Daten zugeh¨ orige Histogramm dargestellt. Anmerkung. Bei Verwendung von SPSS zur Histogrammdarstellung kann die Festlegung der Klassengrenzen variiert werden. Damit ist eine interaktive explorative Analyse der Verteilung eines Merkmals m¨oglich. SPSS-Histogramme lassen jedoch nur gleich breite Klassen zu. Damit sind die Rechtecksh¨ohen hj stets proportional zu den relativen und absoluten H¨aufigkeiten. Ist die Klassenbreite gleich 1, so ist die Rechtecksh¨ ohe gleich der relativen H¨aufigkeit.
12
2. H¨ aufigkeitsverteilungen
Abb. 2.3. Histogramm zur Filml¨ ange der Festivalfilme
2.4 Weitere Hinweise Merke:
Histogramm und Balkendiagramm sind nicht dasselbe! Balkendiagramme sind zur grafischen Veranschaulichung diskreter Merkmale konzipiert, Histogramme zur Veranschaulichung stetiger Merkmale. Im Unterschied zum Balkendiagramm muss bei einem Histogramm die x-Achse immer eine Skala sein, deren Werte geordnet und gleichabst¨ andig sind.
Eine weitere M¨ oglichkeit der grafischen Veranschaulichung einer H¨ aufigkeitsverteilung bietet der Boxplot (Kapitel 3.3).
Die empirirsche Verteilungsfunktion kann nur sinnvoll f¨ ur ordinale und metrische Daten verwendet werden.
Bei Balkendiagrammen k¨ onnen auf der y-Achse wahlweise die relativen oder die absoluten H¨ aufigkeiten abgetragen werden.
2.5 Aufgaben
13
2.5 Aufgaben Aufgabe 2.1: Bei der Bundestagswahl 2002 in Deutschland ergab sich folgende Sitzverteilung f¨ ur den Bundestag: Partei SPD CDU CSU Gr¨ une FDP PDS
Anzahl Sitze 251 190 58 55 47 2
Erstellen Sie ein Balken- und ein Kreisdiagramm! L¨ osung: Die zur Berechnung des Kreisdiagramms ben¨ otigten Gr¨oßen befinden sich in folgender Tabelle.
fi Winkel
SPD
CDU
CSU
Gr¨ une
FDP
PDS
251 603
190 603
58 603
55 603
47 603
2 603
◦
149.85
◦
◦
113.43
◦
34.63
◦
32.84
1 ◦
28.06
1.19
360◦
250
Abbildung 2.4 zeigt sowohl das Kreis- als auch das Balkendiagramm zur Sitzverteilung im Bundestag.
150 100
PDS FDP
Anzahl Sitze
200
SPD
GRÜNE
50
CDU
0
CSU
SPD
CDU
CSU
GRÜNE
FDP
PDS
Parteien
Abb. 2.4. Kreis- und Balkendiagramm f¨ ur die Sitzverteilung im Bundestag
14
2. H¨ aufigkeitsverteilungen
Aufgabe 2.2: Bei einem Eignungstest f¨ ur angehende Psychologiestudenten konnten maximal 14 Punkte erreicht werden. Insgesamt nahmen 100 Personen an diesem Eignungstest teil. Folgende Tabelle veranschaulicht die erreichten Punktzahlen der Teilnehmer: aj nj
0 1
1 3
2 5
3 7
4 3
5 5
6 13
7 5
8 8
9 16
10 7
11 6
12 11
13 8
14 2
a) Stellen Sie die H¨ aufigkeitsverteilung mit den absoluten H¨aufigkeiten grafisch dar! b) Bestimmen Sie die relativen H¨ aufigkeiten sowie die Werte der empirischen Verteilungsfunktion und zeichnen Sie diese. c) Wie groß ist der Anteil der Studenten, die eine geforderte H¨ urde von 9 Punkten oder mehr schaffen? L¨ osung:
0.6 F(x) 0.4
10 0
0.0
0.2
5
absolute Häufigkeiten
15
0.8
1.0
20
a) In Abb. 2.5 (links) sind die absoluten H¨ aufigkeiten in einem Balkendiagramm dargestellt. Wir sehen, dass die h¨ aufigsten Auspr¨agungen bei sechs, neun und zw¨ olf Punkten liegen.
0
1
2
3
4
5
6
7
8
Anzahl Punkte
9
10
11
12
13
14
0
5
10
15
erreichte Punkte
Abb. 2.5. Erzielte Punkte beim Eignungstest (Balkendiagramm und Verteilungsfunktion)
2.5 Aufgaben
15
b) Die H¨ aufigkeitstabelle ergibt sich wie folgt: j 1 2 3 4 5 6 7 8
aj 0 1 2 3 4 5 6 7
nj 1 3 5 7 3 5 13 5
fj 0.01 0.03 0.05 0.07 0.03 0.05 0.13 0.05
j 9 10 11 10 11 12 13
F (x) 0.01 0.04 0.09 0.16 0.19 0.24 0.37 0.42
aj 8 9 10 11 12 13 14
nj 8 16 7 6 11 8 2 100
fj 0.08 0.16 0.07 0.06 0.11 0.08 0.02 1.00
F (x) 0.50 0.66 0.73 0.79 0.90 0.98 1.00
Die entsprechende empirische Verteilungsfunktion ist in Abb. 2.5 (rechts) dargestellt. c) Mit Formel (2.2) ergibt sich: F (X ≥ 9) = 1 − F (8) = 1 −
1 50 = 100 2
Die H¨ alfte der Psychologiestudenten besteht den Test. Aufgabe 2.3: Bei der Fußball-WM 2006 fanden 64 Spiele statt. Unter Verwendung der folgenden Kodierung • • • •
0: 1: 2: 3:
Unentschieden Spielentscheidung nach 90 Minuten inkl. Nachspielzeit Spielentscheidung nach 120 Minuten inkl. Nachspielzeit Elfmeterschießen
erhalten wir den folgenden Datensatz. 1 0 0 1
1 1 1 1
1 1 1 1
1 1 0 1
1 0 1 1
1 1 0 3
1 1 0 1
0 0 1 1
1 1 1 3
1 1 1 1
0 1 1 3
1 0 0 1
1 1 1 2
1 1 1 1
1 1 1 1
1 1 1 3
Es ist klar, dass die Auspr¨ agung ’Unentschieden’ nur in den ersten 48 Spielen beobachtet werden konnte, w¨ ahrend die Auspr¨agungen ’nach 120 Minuten’ und ’Elfmeter’ nur in den 16 Spielen der k.o.-Runde aufgetaucht sind. a) Wie ist das Merkmal ’Spielentscheidung’ skaliert und warum? b) Erstellen Sie die H¨ aufigkeitstabelle. c) Zeichnen Sie das Paretodiagramm. (Hinweis: Ein Paretodiagramm ist ein Stabdiagramm, bei dem die Auspr¨ agungen nach ihren H¨ aufigkeiten sortiert werden.) d) Wie wurde am h¨ aufigsten das Spiel entschieden? e) Wie gross ist der Anteil der Spiele, die mit einem Unentschieden ausgingen?
16
2. H¨ aufigkeitsverteilungen
f) Warum kann keine empirische Verteilungsfunktion f¨ ur dieses Merkmal berechnet werden? L¨ osung: a) Nominal: Man kann nur vergleichen wie die einzelnen Spiele ausgegangen sind. Eine Ordnung zwischen den Auspr¨ agungen ist dabei nicht zu beobachten. b) Die H¨ aufigkeitstabelle ist in Abbildung 2.6 dargestellt.
Entscheidung
Gültig
Unentschieden nach 90 Minuten nach 120 Minuten Elfmeterschiessen Gesamt
Häufigkeit 11 48 1 4 64
Prozent 17.2 75.0 1.6 6.3 100.0
Abb. 2.6. H¨ aufigkeitstabelle f¨ ur das Merkmal ’Spielentscheidung’
c) Das Paretodiagramm ist ein Stab- bzw. Balkendiagramm, in dem die St¨ abe bzw. Balken nach ihrer H¨ aufigkeit sortiert werden, vergleiche Abbildung 2.7.
Prozent
60
50 75 48 40
50 30
20
Absolute Werte
25 10
11
4
0 nach 90 Minuten
0
Elfmeterschiessen Unentschieden
nach 120 Minuten
Entscheidung
Abb. 2.7. Paretodiagramm f¨ ur das Merkmal ’Spielentscheidung’
2.5 Aufgaben
17
d) Am h¨ aufigsten wurden die Spiele nach 90 Minuten entschieden. Dieser Wert heißt Modus eines Datensatzes (vgl. Kapitel 3). e) Aus der H¨ aufigkeitstabelle entnehmen wir 0.172. Sprich 17.2 % der Spiele wurden durch ein Unentschieden beendet. f) Da man die Auspr¨ agungen hier nicht ordnen kann, das Merkmal ’Spielentscheidung’ also nominal ist, kann keine Verteilungsfunktion bestimmt werden. Anmerkung. Eigentlich hat man es in diesem Fall mit 2 verschiedenen Gruppen von Spielen zu tun. Die Spiele die unentschieden ausgehen k¨onnen (die ersten 48) k¨ onnen nicht verl¨ angert werden und nur die Spiele die verl¨angert werden (die letzten 16) k¨ onnen ins Elfmeterschießen kommen. Eigentlich m¨ usste diese Gruppenbildung beachtet werden. Um das Beispiel aber einfach zu halten wurde dies hier nicht getan. Der interessierte Leser kann gerne die H¨ aufigkeitsstrukturen der beiden Gruppen anhand der relativen H¨aufigkeiten vergleichen und u ufen, ob ein a ¨berpr¨ ¨hnlicher Anteil an Spielen in beiden Gruppen nach 90 Minuten entschieden wurde. Aufgabe 2.4: Betrachten wir nun erneut Aufgabe 2.3 sowie die Anzahl der Tore, die w¨ ahrend der WM pro Spiel geschossen wurden. Tore die w¨ahrend eines Elfmeterschießens erzielt wurden, werden dabei nicht mitgez¨ahlt. 6 0 0 2
2 5 2 3
1 4 5 1
3 1 4 1
3 0 3 1
3 2 0 0
1 3 2 3
0 2 2 4
2 3 2 2
1 2 2 3
4 2 4 0
2 2 4 1
3 2 4 2
1 3 4 1
6 4 1 4
3 1 1 2
a) Wie ist das Merkmal ’X: Anzahl der Tore’ skaliert und warum? Ist es diskret oder stetig? b) Erstellen Sie die H¨ aufigkeitstabelle. c) Zeichnen Sie das Stabdiagramm mit den relativen H¨aufigkeiten. d) Bestimmen und zeichnen Sie die empirische Verteilungsfunktion. e) Bestimmen Sie die folgenden Anteile: • H(X ≤ 3) • H(X > 2) • H(1 ≤ X < 5) f) Wie viele Tore wurden in 60% der Spiele h¨ochstens erzielt? L¨ osung: a) Metrisch: Die Merkmalsauspr¨ agungen k¨ onnen geordnet werden und die agungen k¨ onnen interpretiert werden. Abst¨ ande zwischen den Auspr¨ Diskret: Zwischen einem Tor und zwei Toren liegen keine weiteren Auspr¨ agungen.
18
2. H¨ aufigkeitsverteilungen
tore insgesammt (mit Verlängerung)
Gültig
Häufigkeit 7 13 18 12 10 2 2 64
0 1 2 3 4 5 6 Gesamt
Kumulierte Prozente 10.9 31.3 59.4 78.1 93.8 96.9 100.0
Prozent 10.9 20.3 28.1 18.8 15.6 3.1 3.1 100.0
Abb. 2.8. H¨ aufigkeitstabelle f¨ ur das Merkmal ’Anzahl der Tore’
b) Die H¨ aufigkeitstabelle ist in Abb. 2.8 dargestellt.
0.00
0.05
0.10
f
0.15
0.20
0.25
c) Das Stabdiagramm ist besonders geeignet f¨ ur diskrete Merkmale mit einer u agungsanzahl, vergleiche Abb. 2.9. ¨bersichtlichen Auspr¨
0
1
2
3
4
5
6
Tore
Abb. 2.9. Stabdiagramm f¨ ur das Merkmal ’Anzahl der Tore’
d) Im Fall eines diskreten Merkmals erh¨ alt man eine Treppenfunktion, vergleiche Abb. 2.10. e) Bestimmung der verschiedenen Anteile: • H(X ≤ 3) = F (3) = 0.781 • H(X > 2) = 1 − F (2) = 1 − 0.594 = 0.406 • H(1 ≤ X < 5) = F (4) − F (0) = 0.938 − 0.109 = 0.829
19
0.0
0.2
0.4
F(x)
0.6
0.8
1.0
2.5 Aufgaben
0
1
2
3
4
5
6
7
Anzahl Tore
Abb. 2.10. Verteilungsfunktion f¨ ur das Merkmal ’Anzahl der Tore’
Anmerkung. F¨ ur die Berechnung des dritten Anteils gibt es mehrere M¨ oglichkeiten. Die hier pr¨ asentierte L¨ osung ist die Einfachste. Es lohnt sich aber auch alle M¨ oglichkeiten durchzugehen, um die verschiedenen Kombinationen und Zusammenh¨ ange zu sehen. f) Hier wird ein sogenanntes Quantil, siehe Kapitel 3.1.2 gesucht, genauer das 0.6 Quantil x0.6 , also der Wert der von 60% der Beobachtungen nicht u ¨berschritten wird. Formal bedeutet dies, dass F (x0.6 ) = 0.6 gelten muss, wobei F (x) die empirische Verteilungsfunktion ist. Schauen wir in die Tabelle der Verteilungsfunktion (Abbildung 2.8), so finden wir F (2) = 0.594 und F (3) = 0.781, genau treffen wir die 0.6 nicht. Wie sollen wir also weitermachen? Eine M¨ oglichkeit ist zu argumentieren, dass 0.594 aufgerundet 0.6 ergibt, dann erhielte man 2 Tore als Antwort. Eine andere M¨oglichkeit ist, das Wissen u ¨ber die Verteilungsfunktion auszunutzen. F (2) = 0.594 bedeutet inhaltlich, dass in 59.4 % der beobachteten Spiele 2 oder weniger Tore erzielt wurden. Sprich: der n¨ achste Wert, der n¨otig ist, um einen Verteilungsfunktionswert von 0.6 zu bekommen, ist 3. Damit erh¨alt man 3 Tore als Antwort. Um also Quantile aus der empirischen Verteilungsfunktion zu gewinnen, ur das gilt: bietet sich die folgende Regel an: xp ist das kleinste x f¨ F (x) ≥ p. Aufgabe 2.5: Nun wollen wir noch ein weiteres Merkmal der WM 2006 statistisch zusammenfassen. Sei das Merkmal X die Spielzeit bis zum ersten Tor. Dabei wurden nur die Spiele gez¨ ahlt in denen auch Tore innerhalb von 90 Minuten (mit Nachspielzeit) erzielt wurden.
20
2. H¨ aufigkeitsverteilungen
6 23 44 70
24 10 49 4
91 28 34 6
8 4 2 60
4 63 33 23
25 6 9 955
3 60 16 28
83 5 55 49
89 40 23 6
34 2 13 57
25 22 23 33
24 26 4 56
18 23 8 7
6 26 26
a) Wie ist das Merkmal X skaliert und warum? Ist es diskret oder stetig? b) Erstellen Sie die H¨ aufigkeitstabelle. W¨ ahlen Sie dabei folgende Klassen: [0, 15), [15, 30), [30, 45), [45, 60), [60, 75), [75, 90), [90, 96) c) Zeichnen Sie das Histogramm. d) Bestimmen und zeichnen Sie die empirische Verteilungsfunktion. e) Bestimmen Sie die folgenden Anteile: • H(X ≤ 45) • H(X ≥ 22) • H(20 ≤ X ≤ 65) f) In welcher Zeit wurde in 80% der Spiele das erste Tor erzielt? g) Zeichnen Sie das Stamm- und Blatt-Diagramm. h) Was ist der Unterschied zwischen einem Histogramm und einem Balkendiagramm bzw. Stabdiagramm? L¨ osung: a) Metrisch: Die Merkmalsauspr¨ agungen k¨ onnen geordnet werden und die Abst¨ ande zwischen den Auspr¨ agungen k¨ onnen interpretiert werden. Stetig: Zeit ist immer eine stetige Gr¨ oße. b) Die Klassengrenzen wurde nach sachlogischen Aspekten gew¨ahlt, jede Halbzeit wurde dabei in drei 15 Minuten lange Teile unterteilt. Die Obergrenze der letzten Klasse wurde so gew¨ ahlt, dass die l¨angste Zeit, die man auf das erste Tor warten musste gerade noch enthalten ist. Die Tabelle erhalten wir wie folgt: j
[ej−1 , ej )
nj
fj
dj
hj
F (x)
1
[0, 15)
20
15
2
[15, 30)
17
3
[30, 45)
6
4
[45, 60)
5
5
[60, 75)
4
6
[75, 90)
2
[90, 96)
2
1 42 17 840 1 140 1 168 1 210 1 420 1 168
5 14 37 56 43 56 6 7 13 14 27 28
7
5 14 17 56 3 28 5 56 1 14 1 28 1 28
56
1
15 15 15 15 15 6
1
2.5 Aufgaben
21
c) Das Histogramm ist in Abb. 2.11 dargestellt.
0.000
0.005
0.010
h
0.015
0.020
Histogram of WM$Zeit
0
20
40
60
80
Zeit
Abb. 2.11. Histogramm
d) Bei klassierten Daten wird die Verteilungsfunktion als Polygonzug dargestellt, siehe Abb. 2.12. e) Die verschiedenen Anteile werden mit Hilfe der Formel F (x) = F (ej−1 ) +
fj (x − ej−1 ) dj
(2.3)
bestimmt, f¨ ur Details und Herleitung siehe Toutenburg und Heumann (2008a, Kapitel 2.2.2). • H(X ≤ 45) = F (45) = 43 56 = 0.769 5 17 + 840 (22 − 15)) = 0.501 • H(X ≥ 22) = 1 − F (22) = 1 − ( 14 6 1 5 17 5 − ( 14 + 840 5) = • H(20 ≤ X ≤ 65) = F (65) − F (20) = 7 + 210 = 0.423
37 42
−
11 24
f) Das 0.8-Quantil ist gesucht. Es gilt f¨ ur klassierte Daten nach (2.3) F (xp ) = p = F (ej−1 ) + hj (xp − ej−1 ). osste Klassengrenze, wo F (ej−1 ) < p ist und j ist die Dabei ist ej−1 die gr¨ Klasse in der sich das gesuchte Quantil befinden muss.
2. H¨ aufigkeitsverteilungen
0.0
0.2
0.4
F(x)
0.6
0.8
1.0
22
0
20
40
60
80
100
Zeit
Abb. 2.12. Verteilungsfunktion
Anmerkung. Ist F (ej−1 ) = p, so ist nat¨ urlich xp = ej−1 der einfache Fall. Ein Umstellen der Formel nach xp ergibt xp = ej−1 +
p − F (ej−1 ) . hj
Der Leser sollte dies zeigen k¨ onnen. Nach der empirischen Verteilung sind 80 % der ersten Tore zwischen der 45. und 60. Minute gefallen. Damit ist ej−1 = 45 und x0.8 = 45 +
0.8 −
1 168
43 56
= 50.4.
Danach sind 80 % der ersten Tore in den ersten 50.4 Minuten der Spiele gefallen. Anmerkung. Wenn man das Quantil mit Hilfe der Urliste bestimmt bekommt man die 49. Minute (Pr¨ ufen Sie diesen Wert nach!). Somit liefert die L¨ osung aus den klassierten Daten f¨ ur diesen Wert eine gute Approximation. g) F¨ ur das Stamm- und Blatt-Diagramm wird der Datensatz sortiert: 2 8 26 57
2 3 4 4 4 4 5 5 6 6 6 6 6 7 8 9 10 13 16 18 22 23 23 23 23 23 24 24 25 25 26 26 28 28 33 33 34 34 40 44 49 49 55 56 60 60 63 70 83 89 91 95
2.5 Aufgaben
23
Als ‘Stammbreite’ wird 10 gew¨ ahlt. Dann erhalten wir folgendes Stammund Blatt-Diagramm: The decimal point is 1 digit(s) to the right of the | freq stem & leaf 18 0 | 223444455666667889 4 1 | 0368 15 2 | 233333445566688 4 3 | 3344 4 4 | 0499 3 5 | 567 3 6 | 003 1 7 | 0 2 8 | 39 2 9 | 15 Wir erhalten also ein Diagramm, das die H¨ aufigkeitsverteilung eines Merkmals beschreibt und die einzelnen Werte der Urliste enth¨alt. h) Balkendiagramm bzw. Stabdiagramm: Geeignet f¨ ur nominale, ordinale und teilweise auch f¨ ur metrisch ’diskrete’ (mit u ¨berschaubarer Auspr¨ agungsmenge) Merkmale. Es werden Auspr¨agungen gegen ihre relativen H¨ aufigkeiten abgetragen. Ein Stabdiagramm ist wegen des geringeren zeichnerischen Aufwands dem Balkendiagramm vorzuziehen. In Softwarepaketen wie SPSS ist das Balkendiagramm implementiert. Bei Benutzung dieses Diagrammtyps muss man leider stark darauf achten, wie SPSS die x-Achse skaliert. Histogramm: Geeignet f¨ ur metrische Merkmale, da eine grosse Auspr¨agungsmenge Klassenbildung erfordert. Das Prinzip der Fl¨achentreue verlangt, dass u ¨ber einer Klasse ein Balken mit der Fl¨ache entsprechend der relativen H¨ aufigkeit abgetragen wird. In SPSS ist es leider sehr undurchsichtig, welche H¨ohen f¨ ur die Histogramme verwendet werden. Aufgabe 2.6: F¨ ur ein stetiges Merkmal erhalten wir nach Festlegung der Klassen folgende Kenndaten, die das Zeichnen eines Histogramms erlauben: Klasse j 1 2 3 4
Klassenbreite dj 1 3 3 1
H¨ohe hj 0.125 0.125 0.125 0.125
24
2. H¨ aufigkeitsverteilungen
a) Bestimmen Sie die relativen H¨ aufigkeiten in den Klassen! b) Wie groß sind die absoluten H¨ aufigkeiten, wenn zur Bestimmung der Kenndaten 2000 Werte zur Verf¨ ugung standen? L¨ osung: a) F¨ ur die Klassen 1 und 4 betragen die relativen H¨aufigkeiten jeweils 0.125 ur die anderen beiden Klassen betr¨agt die rela(H¨ ohe (hj )· Breite (dj )), f¨ tive H¨ aufigkeit aufgrund der gr¨ oßeren Breite 3 · 0.125 = 0.375. b) F¨ ur die Klassen 1 und 4 betragen die absoluten H¨aufigkeiten jeweils 250 (2000 · 0.125), f¨ ur die Klassen 2 und 3 betragen die absoluten H¨aufigkeiten jeweils 750 (2000 · 0.375). Aufgabe 2.7: An einer Universit¨ at wurden 500 Studenten nach der Gr¨oße ihrer Wohnung in Quadratmetern gefragt. Das Ergebnis wurde in folgender Tabelle festgehalten: Klasse 1 2 3 4 5
Wohnungsgr¨ oße in Quadratmetern ej−1 ≤ x < ej 8 − 14 14 − 22 22 − 34 34 − 50 50 − 82
F (x) 0.25 0.40 0.75 0.97 1.00
a) Berechnen Sie die absoluten H¨ aufigkeiten des Merkmals ‘Wohnungsgr¨oße’ ! b) Wieviel Prozent der Studenten haben eine Wohnung von mindestens 34 Quadratmetern? L¨ osung: a) Die absoluten H¨ aufigkeiten nj lassen sich aus folgender Tabelle entnehmen: Klasse 1 2 3 4 5
ej−1 8 14 22 34 50
ej 14 22 34 50 82
F (ej ) 0.25 0.40 0.75 0.97 1.00
fj 0.25 0.15 0.35 0.22 0.03
nj (= fj n) 0.25 · 500 = 125 75 175 110 15
dj 6 8 12 16 32
aj 11 18 28 42 66
b) Der gesuchte Wert kann einfach aus der Tabelle abgelesen werden, da er eine Klassengrenze ist. F¨ ur andere Anteile muss (2.3) verwendet werden. F (X > 34) = 1 − F (34) = 1 − 0.75 = 0.25
2.5 Aufgaben
25
Aufgabe 2.8: Im Gebiet ¨ ostlich des Etosha-Nationalparks in Namibia wurde im Zuge wissenschaftlicher Arbeiten das Gewicht (in kg) von 24 ElandAntilopen erhoben: 450 730 700 600 620 660 850 520 490 670 700 820 910 770 760 620 550 520 590 490 620 660 940 790 Erstellen Sie ein Stamm-und-Blatt-Diagramm! L¨ osung: Gewicht Stem-and-Leaf Plot Frequency 3.00 4.00 7.00 6.00 2.00 2.00 Stem width:
Stamm &
Blatt
4 5 6 7 8 9
599 2259 0222667 003679 25 14
. . . . . .
100.00
Aufgabe 2.9: Im Folgenden sind die Fahrzeiten (in Minuten) 24 verschiedener Urlauber notiert, die von M¨ unchen bis Bozen (Italien) gefahren sind: 181 158 220 205 307 222 190 179 198 208 230 267 182 190 178 168 212 230 242 198 197 185 223 261 a) Erstellen Sie ein Histogramm. W¨ ahlen Sie daf¨ ur als Klassenbreite ein Intervall von 30 Minuten und als erste Klassenmitte 165 Minuten! b) W¨ ahlen Sie nun als erste Klassenmitte 160 Minuten und 3 Intervalle a 20 Minuten, sowie 2 Intervalle a 50 Minuten! L¨ osung: In Abbildung 2.13 sind die Histogramme dargestellt. In der linken Abbildung erkennen wir das Histogramm aus Aufgabenteil a), in der rechten Abbildung das Histogramm aus Aufgabenteil b). Beide Histogramme deuten auf eine schiefe, linkssteile Verteilung des Merkmals ’Fahrzeit nach Bozen’ hin.
26
2. H¨ aufigkeitsverteilungen
150
180
210
240
270
Fahrtzeit nach Bozen
300
330
150
170
190
210
260
Fahrtzeit nach Bozen
Abb. 2.13. Histogramme zur “Fahrzeit nach Bozen“
310
3. Maßzahlen fu ¨ r eindimensionale Merkmale
3.1 Lageparameter Lageparameter beschreiben generell das Zentrum einer H¨aufigkeitsverteilung. Beispiele hierf¨ ur sind die mittlere K¨ orpergr¨oße (m¨annlich/weiblich), die Durchschnittstemperatur im Juli in M¨ unchen, das am h¨aufigsten gew¨ahlte Studienfach, die beliebteste TV-Sendung im Jahr 2008, das normale Heiratsalter, das Durchschnittseinkommen, etc.. Im folgenden wollen wir die bekanntesten und wichtigsten Lageparameter vorstellen: Modus, Median, arithmetisches Mittel. 3.1.1 Modus oder Modalwert Als Modus oder Modalwert x ¯M bezeichnet man den h¨aufigsten Wert einer Verteilung. Voraussetzung ist dabei eine eingipflige Verteilung. Das Skalenniveau ist beliebig. F¨ ur nominalskalierte Daten ist der Modus der einzige zul¨ assige Lageparameter. x ¯M = aj ⇔ nj = max {n1 , n2 , . . . , nk } .
(3.1)
Beispiel 3.1.1. Es wird die K¨ orpergr¨ oße von M¨annern und Frauen gemessen. (siehe Abb. 3.1). Betrachtet man die Verteilung der K¨orpergr¨oße insgesamt, so sind zwei Gipfel zu erkennen. Damit ist eine modale K¨orpergr¨oße nicht sinnvoll definiert. Bei den M¨ annern entspricht der Modus x ¯M dem Intervall [180, 182.5), bei den Frauen [165, 167.5). 3.1.2 Median und Quantile Das Merkmal X sei ordinal oder metrisch und die Stichprobe sei geordnet: x(1) ≤ . . . ≤ x(n) . Der Median teilt den geordneten Datensatz in zwei (im Idealfall gleich große) Bereiche. Er wird mit x ˜0.5 bezeichnet und durch die Forderung F (˜ x0.5 ) = 0.5 definiert. Der Median x ˜0.5 wird in der Stichprobe wie folgt berechnet: falls n ungerade x x ˜0.5 = 1 ((n+1)/2) (x + x ) falls n gerade. (n/2) (n/2+1) 2
(3.2)
28
3. Maßzahlen f¨ ur eindimensionale Merkmale
Abb. 3.1. K¨ orpergr¨ oße der M¨ anner und Frauen (links), sowie Verteilung der K¨ orpergr¨ oße insgesamt (rechts)
F¨ ur ungerades n ist der Median der mittlere Wert der Beobachtungsreihe, also ein tats¨ achlich beobachteter Wert. F¨ ur gerades n ist der Median im Fall x(n/2) = x(n/2+1) ein beobachteter Wert, ansonsten ist er kein beobachteter Wert. Beispiel 3.1.2. Zur Veranschaulichung der Berechnung des Medians betrachten wir folgende Beispiele: a) Es liegen die geordneten Werte 3,5,7,9,11 vor. Dann berechnet sich der Median wie folgt: x ˜0.5 = x(5+1)/2 = x(3) = 7. b) Seien nun die geordneten Werte 3,5,7,9,11,25, dann ist der Median: x ˜0.5 =
1 1 (x(6/2) + x(6/2)+1 ) = (7 + 9) = 8. 2 2
Quantile. Eine Verallgemeinerung der Idee des Medians sind die Quantile. Sei α eine Zahl zwischen Null und Eins. Das α-Quantil x ˜α wird durch die Forderung F (˜ xα ) = α definiert. Bei diskreten Daten bedeutet dies, dass h¨ochstens nα Werte kleiner oder gleich x ˜α sind und h¨ochstens n(1 − α) Werte gr¨ oßer oder gleich x ˜α sind. Wie wir sehen, ist der Median gerade das ur feste Werte von α werden die α-Quantile oft auch als 0.5-Quantil x ˜0.5 . F¨ α · 100 %-Quantile bezeichnet (z. B. 10 %-Quantil f¨ ur α = 0.1). Sei wieder x(1) ≤ . . . ≤ x(n) die geordnete Beobachtungsreihe, so bestimmt man als α-Quantil x ˜α dieser Daten den Wert ⎧ ⎪ falls nα keine ganze Zahl ist, ⎨ x(k) k ist dann die kleinste ganze Zahl > nα, (3.3) x ˜α = ⎪ ⎩ 1 (x (nα) + x(nα+1) ) falls nα ganzzahlig ist. 2
3.1 Lageparameter
29
Beispiel 3.1.3. Erneut betrachten wir die Werte aus Beispiel 3.1.2: a) F¨ ur die Werte 3,5,7,9,11 soll das 30%-Quantil bestimmt werden. Mit nα = 5 · 0.3 = 1.5 folgt k = 2. Das heißt: x ˜0.3 = x(2) = 5. b) Werden nun die sechs geordneten Werte 3,5,7,9,11,25 betrachtet, so errechnet sich mit k = 6 · 0.3 = 1.8 das 30%-Quantil wie folgt: x ˜0.3 = x(2) = 5 Quantil-Quantil-Diagramme (Q-Q-Plots). Wir gehen jetzt davon aus, dass wir zwei Erhebungen desselben Merkmals (z. B. ‘Punktwerte’ xi von Physik-Studenten, ‘Punktwerte’ yi von Informatik-Studenten bei einer Mathematikklausur) zur Verf¨ ugung haben und diese grafisch vergleichen wollen. Dazu ordnen wir beide Datens¨ atze jeweils der Gr¨oße nach: x(1) ≤ x(2) ≤ . . . ≤ x(n)
und
y(1) ≤ y(2) ≤ . . . ≤ y(m) . Wir bestimmen f¨ ur ausgew¨ ahlte Anteile αi die Quantile x ˜αi und y˜αi und tragen sie in ein x-y-Koordinatensystem ein. Als αi -Werte w¨ahlt man standardm¨ aßig die Werte 0.1, 0.2, . . ., 0.9 oder 0.25, 0.50, 0.75. Diese Darstellung heißt Quantil-Quantil-Diagramm oder kurz Q-Q-Plot. Q-Q-Plots werden zum Vergleich der Lage zweier Variablen (Stichproben) verwendet und k¨onnen eine Vielzahl von Mustern aufweisen. Wir w¨ahlen folgende vier interessante Spezialf¨ alle aus: a) Alle Quantilpaare liegen auf der Winkelhalbierenden. Dies deutet auf u ¨bereinstimmung zwischen den beiden Stichproben hin. b) Die y-Quantile sind kleiner als die x-Quantile, und damit die y-Werte kleiner als die x-Werte. c) Die x-Quantile sind kleiner als die y-Quantile, und damit die y-Werte kleiner als die x-Werte d) Bis zu einem Breakpoint sind die y-Quantile kleiner als die x-Quantile, danach sind die y-Quantile gr¨ oßer als die x-Quantile. In Abbildung 3.1.2 werden die vier Situationen (von links nach rechts) noch einmal verdeutlicht. 3.1.3 Arithmetisches Mittel Ist das Skalenniveau einer Variable X metrisch, so errechnet sich ihr arithmetische Mittel x ¯ als Durchschnittswert aller Beobachtungen:
30
3. Maßzahlen f¨ ur eindimensionale Merkmale
Abb. 3.2. Typische Quantil-Quantil Diagramme
1 xi . n i=1 n
x ¯=
(3.4)
Falls die Daten bereits in der komprimierten Form einer H¨aufigkeitstabelle vorliegen: Merkmalsauspr¨ agung : a1 , a2 , . . . ak H¨ aufigkeit : n1 , n2 , . . . nk , vereinfacht sich die Berechnung von x ¯ zu 1 nj aj = fj aj n j=1 j=1 k
x ¯=
k
(3.5)
n
mit fj = nj (relative H¨ aufigkeit von aj ). Diese Form bezeichnet man als gewogenes oder gewichtetes arithmetisches Mittel. Eigenschaften des arithmetischen Mittels. (i) Die Summe der Abweichungen der Beobachtungen von ihrem arithmetischen Mittel ist Null: n i=1
(xi − x ¯) =
n
xi − n¯ x = n¯ x − n¯ x = 0.
(3.6)
i=1
(ii) F¨ ur eine lineare Transformation der Daten gem¨aß yi = a + bxi gilt y¯ = a + b¯ x. Beispiel 3.1.4. Ein Musiker misst die L¨ ange von 11 Didgeridoos seiner Kollegen. Es ergaben sich die folgenden Werte (in cm): 124 130 111 122 119 117 118 128 140 123 124 Der Modus ist der am h¨ aufigsten vorkommende Wert x ¯M = 124. Der Median ist in diesem Fall der 6. Wert der Ordnungsstatistik: x ˜0.5 = x(6) = 123. Das 1 (124 + 130 + ... + 124) = arithmetische Mittel berechnet sich durch: x ¯ = 11 123.27. Werde nun die L¨ ange nicht mehr in cm sondern in Zoll (inch) angegeben so liegt eine lineare Transformation vor: 1cm entspricht 0.3937 Zoll. Das arithmetische Mittel berechnet sich nun als: y¯ = a + b¯ x = 0.3937·123.27 = 48.53 Zoll.
3.1 Lageparameter
31
3.1.4 Geometrisches Mittel Sei das Skalenniveau metrisch und liegen die Beobachtungen (Wachstumsdaten) x1 , . . . , xT mit xt > 0 f¨ ur alle t vor, so ist das geometrische Mittel definiert als
T T
1
T T x ¯G = xt = xt , (3.7) t=1
t=1
Wir definieren einen Anfangsbestand B0 zu einem Zeitpunkt 0. In den folgenden Zeitpunkten t=1,...,T liege jeweils der Bestand Bt vor. Dann ist xt =
Bt Bt−1
der sogenannte t-te Wachstumsfaktor. Als Wachstumsrate rt bezeichnet man die prozentuale Abweichung des Wachstumsfaktors xt von Eins rt = (xt − 1) · 100 % = δt · 100 % . Wir fassen einen Wachstumsprozess in der folgenden Tabelle zusammen: Zeit t 0 1 2 .. .
Bestand Bt B0 B1 B2 .. .
Wachstumsfaktor xt — x1 = B1 /B0 x2 = B2 /B1 .. .
T
BT
xT = BT /BT −1
Ein Bestand Bt (t = 1, . . . , T ) l¨ asst sich direkt mit Hilfe der tats¨achlichen Wachstumsfaktoren bestimmen Bt = B0 · x1 · . . . · xt . Der durchschnittliche Wachstumsfaktor von B0 bis BT wird mit dem geometrischen Mittel der Wachstumsfaktoren berechnet: √ x ¯G = T x1 · . . . · xT T B0 · x1 · . . . · xT = B0 BT = T . (3.8) B0 Damit k¨ onnen wir den Bestand Bt zum Zeitpunkt t berechnen als Bt = ¯tG . B0 · x
32
3. Maßzahlen f¨ ur eindimensionale Merkmale
Beispiel 3.1.5. Wir betrachten im folgenden Beispiel die Jahresbestleistungen der deutschen Siebenk¨ ampferin Sabine Braun in den Jahren 1987 bis 1992 (xt gerundet auf zwei Stellen nach dem Komma). Jahr
Punktzahl
1987 1988 1989 1990 1991 1992
5621 6432 6575 6688 6672 6985
Wachstumsfaktor 1.14 1.02 1.02 1.00 1.05
Wachstumsrate 14% 2% 2% 0% 5%
Der mittlere Wachstumsfaktor kann jetzt wie folgt berechnet werden: 1
x ¯G = (1.14 · 1.02 · 1.02 · 1.00 · 1.05) 5 = 1.045.
3.2 Streuungsmaße Lageparameter allein charakterisieren die Verteilung nur unzureichend. Dies wird deutlich, wenn wir folgende Beispiele betrachten: • Die beiden Studenten Christine und Andreas notieren ihre Ankunft vor bzw. nach dem Professor in der Statistik-Vorlesung u ¨ber die Semesterwochen: W1 W2 W3 W4 W5 W6 W7 W8 W9 W10 W11 W12 Christine 0 0 0 0 0 0 0 0 0 0 0 0 Andreas −10 +10 −10 +10 −10 +10 −10 +10 −10 +10 −10 +10
Christine war immer p¨ unktlich. Andreas kam jedoch im Wechsel immer 10 Minuten zu fr¨ uh oder zu sp¨ at, ‘im Mittel‘ war er aber genauso p¨ unktlich wie Christine. • Ein Zulieferer der Autoindustrie soll T¨ uren der Breite 1.00 m liefern. Seine T¨ uren haben die Maße 1.05, 0.95, 1.05, 0.95, . . . Er h¨alt also im Mittel die Forderung von 1.00 m ein, seine Lieferung ist jedoch v¨ollig unbrauchbar. Zus¨ atzlich zur Angabe eines Lagemaßes wird eine Verteilung durch die Angabe von Streuungsmaßen charakterisiert. Diese k¨onnen jedoch nicht bei nominal skalierten Merkmalen verwendet werden, da Abst¨ande gemessen und interpretiert werden m¨ ussen. 3.2.1 Spannweite und Quartilsabstand Das Skalenniveau sei metrisch oder ordinal. Der Streubereich einer Verteilung ist der Bereich, in dem die Merkmalsauspr¨agungen liegen. Die Angabe
3.2 Streuungsmaße
33
des kleinsten und des gr¨ oßten Wertes beschreibt ihn vollst¨andig. Die Breite des Streubereichs nennt man Spannweite oder Range einer H¨aufigkeitsverteilung. Sie ist gegeben durch R = x(n) − x(1) ,
(3.9)
oßten Wert der geordneten Beobachwobei x(1) den kleinsten und x(n) den gr¨ tungsreihe bezeichnet. Der Quartilsabstand ist gegeben durch ˜0.75 − x ˜0.25 . dQ = x
(3.10)
Er definiert den zentralen Bereich einer Verteilung, in dem 50% der Werte liegen. Beispiel 3.2.1. F¨ ur die geordneten Werte 3,5,7,9,11,25 aus Beispiel 3.1.2b) berechnen sich Spannweite und Quartilsabstand als: R = x(n) − x(1) = x(6) − x(1) = 25 − 3 = 22, dQ = x ˜0.75 − x ˜0.25 = x(5) − x(2) = 11 − 5 = 6. 3.2.2 Varianz und Standardabweichung Sei das Skalenniveau metrisch, dann misst die Varianz s2 die mittlere quadratische Abweichung vom arithmetischen Mittel x ¯: 1 (xi − x ¯)2 . n i=1 n
s2 =
(3.11)
Eine Umformung ergibt den Verschiebungssatz f¨ ur die Varianz: 1 1 2 (xi − x ¯)2 = x −x ¯2 . n i=1 n i=1 i n
s2 =
n
(3.12)
Die Standardabweichung s ist die positive Wurzel aus der Varianz:
n
1 s= (xi − x ¯)2 . n i=1
(3.13)
Die Standardabweichung ist ein Streuungsmaß in der gleichen Maßeinheit wie x. Wird X z. B. in kg gemessen, so sind x ¯ und s ebenfalls in kg angegeben, s2 jedoch in kg2 , was nicht zu interpretieren ist. Des weiteren gibt die Standardabweichung an, um wieviel die Beobachtungen vom Mittelwert abweichen. Ein kleiner Wert bedeutet dabei, dass die Beobachtungen nahe am Mittelwert liegen.
34
3. Maßzahlen f¨ ur eindimensionale Merkmale
Beispiel 3.2.2. Wir betrachten erneut das Beispiel der beiden Studenten Christine und Andreas zu ihrer P¨ unktlichkeit in der Vorlesung (siehe 3.2). Die Streuung ist: 12bei Christine 1 1 2 2 2 (x − x ¯ ) = s2Chr = 12 i=1 i 12 ((0 − 0) + ... + (0 − 0) ) = 0. Betrachten wir nun Andreas, so berechnet sich die Streuung wie folgt: 12 1 1 ¯)2 = 12 ((−10 − 0)2 + ... + (10 − 0)2 ) = 100. s2And = 12 i=1 (xi − x Lineare Transformation der Daten. F¨ uhrt man eine lineare Transformation yi = a + bxi (b = 0) der Originaldaten xi (i = 1, . . . , n) durch, so gilt f¨ ur das arithmetische Mittel der transformierten Daten y¯ = a + b¯ x und f¨ ur ihre Varianz s2y =
n n 1 b2 (yi − y¯)2 = (xi − x ¯)2 n i=1 n i=1
= b2 s2x .
(3.14)
Beispiel 3.2.3. Wird die Zeitmessung von Stunden auf Minuten umgestellt, d. h., f¨ uhren wir die lineare Transformation yi = 60 xi durch, so gilt s2y = 2 2 60 sx . Standardisierung. Ein Merkmal Y heißt standardisiert, falls y¯ = 0 und s2y = 1 gilt. Ein beliebiges Merkmal X mit Mittelwert x ¯ und Varianz s2x wird in ein standardisiertes Merkmal Y mittels folgender Transformation u uhrt: ¨bergef¨ ¯ xi − x x ¯ 1 yi = = − + xi = a + bxi . sx sx sx Beispiel 3.2.4. Es beschreibe das Merkmal X die Feinstaubbelastung (in μg/m3 ) an 10 Tagen in einer großen deutschen Stadt: 30
25
12
45
50
52
38
39
45
33
Dadurch l¨ asst sich ein arithmetisches Mittel von x ¯ = 36.9 berechnen. Die Varianz betr¨ agt s2x = 151.2. Damit ist die Standardabweichung sx = 12.3. Um ein standardisiertes Merkmal Y zu bekommen, gehen wir wie folgt vor: yi =
1 ¯ xi − x x ¯ 1 36.9 + xi = −3 + 0.08xi . = − + xi = − sx sx sx 12.3 12.3
3.2.3 Variationskoeffizient Varianz und Standardabweichung benutzen als Bezugspunkt das arithmetische Mittel x ¯. Sie werden jedoch nicht in Relation zu x ¯ gesetzt. Die Angabe der Varianz ohne Angabe des arithmetischen Mittels ist demnach f¨ ur den
3.3 Box-Plots
35
Vergleich zweier Beobachtungsreihen oft nicht ausreichend. Der Variationskoeffizient v ist ein von x ¯ bereinigtes Streuungsmaß. Es ist nur sinnvoll definiert, wenn ausschließlich positive Merkmalsauspr¨agungen vorliegen (und x ¯ = 0 ist). Der Variationskoeffizient ist definiert als s (3.15) v= . x ¯ Dies ist ein dimensionsloses Streuungsmaß, das insbesondere beim Vergleich von zwei oder mehr Messreihen desselben Merkmals eingesetzt wird.
3.3 Box-Plots Box-Plots stellen als Werkzeug zur grafischen Analyse eines Datensatzes die Lage • des Medians • der 25 %- und 75 %-Quantile (unteres und oberes Quartil) und • der Extremwerte und Ausreißer dar. In Abbildung 3.3 sind die einzelnen Elemente eines Box-Plots erkl¨art. ∗ ∗
Extremwerte
◦
Ausreisser
x ˜0.75
Median x ˜0.5
x ˜0.25
◦ ◦
Ausreisser
∗ ∗
Extremwerte
Abb. 3.3. Komponenten eines Box-Plots
Die untere bzw. obere Grenze der Box ist durch das untere bzw. obere Quartil gegeben, d. h., die H¨ alfte der beobachteten Werte liegt in der Box. ˜0.75 − x ˜0.25 . Die L¨ ange der Box ist somit der Quartilsabstand dQ = x
36
3. Maßzahlen f¨ ur eindimensionale Merkmale
Die Linie innerhalb der Box gibt die Lage des Medians wieder. Die Werte außerhalb der Box werden dargestellt als • Extremwerte (mehr als 3 Box-L¨ angen vom unteren bzw. oberen Rand der Box entfernt), wiedergegeben durch einen ‘∗’ und • Ausreißer (zwischen 1.5 und 3 Box-L¨ angen vom unteren bzw. oberen Rand der Box entfernt), wiedergegeben durch einen ‘◦’. Der kleinste und der gr¨ oßte beobachtete Wert, die nicht als Ausreißer eingestuft werden, sind durch die a ¨ußeren Striche dargestellt. Box-Plots eignen sich besonders zum Vergleich zweier oder mehrerer Gruppen einer Gesamtheit in Bezug auf ein Merkmal.
3.4 Konzentrationsmaße F¨ ur ein metrisches Skalenniveau unter der Bedingung, dass alle xi > 0 sind, n betrachten wir die Merkmalssumme i=1 xi und fragen danach, wie sich dieser Gesamtbetrag aller Merkmalswerte auf die einzelnen Beobachtungseinheiten aufteilt. Beispiel. In einer Gemeinde in Niedersachsen wird bei allen landwirtschaftlichen Betrieben die Gr¨ oße der Nutzfl¨ ache in ha erfasst. Von Interesse ist nun die Aufteilung der Nutzfl¨ ache auf die einzelnen Betriebe. Haben alle Betriebe ann¨ ahernd gleich große Nutzfl¨ achen oder besitzen einige wenige Betriebe fast die gesamte Nutzfl¨ ache der Gemeinde? Wir betrachten dazu folgendes Zahlenbeispiel. Die Gemeinde umfasst eine landwirtschaftliche Nutzfl¨ ache von 100 ha. Diese Fl¨ache teilt sich auf 5 Betriebe wie folgt auf: Betrieb i 1 2 3 4 5
xi (Fl¨ ache in ha) 20 20 20 20 20 5 x = 100 i i=1
Die Nutzfl¨ ache ist also gleichm¨ aßig auf alle Betriebe verteilt, es liegt keine Konzentration vor. In einer anderen Gemeinde liegt dagegen folgende Situation vor: Betrieb i xi (Fl¨ ache in ha) 1 0 2 0 3 0 4 0 5 100 5 i=1 xi = 100
3.4 Konzentrationsmaße
37
Die gesamte Nutzfl¨ ache konzentriert sich auf einen Betrieb. Ein sinnvolles Konzentrationsmaß m¨ usste dem ersten Fall die Konzentration Null, dem zweiten Fall die Konzentration Eins zuweisen. 3.4.1 Lorenzkurven Zur grafischen Darstellung der Konzentration der Merkmalswerte verwenden wir die Lorenzkurve. Dazu werden die Gr¨ oßen ui = und
i
vi =
j=1 n
i , n
i = 0, . . . , n
(3.16)
x(j) ,
i = 1, . . . , n; v0 := 0
(3.17)
x(j)
j=1
aus den der Gr¨ oße nach geordneten Beobachtungswerten 0 ≤ x(1) ≤ x(2) ≤ . . . ≤ x(n) berechnet. Die vi sind die Anteile der Merkmalsauspr¨agungen der Untersuchungseinheiten (1), . . . , (n) an der Merkmalssumme aller Untersuchungseinheiten. F¨ ur gruppierte Daten mit Klassenmitten a1 < a2 < . . . < ak verwenden wir u ˜i und v˜i gem¨ aß u ˜i =
i
fj ,
i = 1, . . . , k; u ˜0 := 0
(3.18)
j=1
und i
v˜i =
j=1 k
i
fj aj = fj aj
nj aj
j=1
n¯ x
,
i = 1, . . . , k; v˜0 := 0.
(3.19)
j=1
Die Lorenzkurve ergibt sich schließlich als der Streckenzug, der durch die Punkte (u0 , v0 ), (u1 , v1 ), . . . , (un , vn ) verl¨ auft (vgl. Abbildung 3.4). Die Lorenzkurve stimmt mit der Diagonalen u ¨berein, wenn keine Konzentration vorliegt (im obigen Beispiel: alle Betriebe bearbeiten jeweils die gleiche Nutzfl¨ ache). Mit zunehmender Konzentration h¨angt die Kurve durch“ ” (unabh¨ angig von dem Bereich der Konzentration). Ein Punkt der Lorenzkurve (ui , vi ) beschreibt den Zusammenhang, dass auf ui · 100 % der Untersuchungseinheiten vi · 100 % des Gesamtbetrags aller Merkmalsauspr¨agungen entf¨ allt.
38
3. Maßzahlen f¨ ur eindimensionale Merkmale v5 = 1
v5 = 1 v4
u0 = 0 u1
u2
u3
v4
v3
v3
v2
v2
v1
v1 v0 = 0 u5 = 1
u4
u0 = 0 u1
u2
u3
v0 = 0 u4 u5 = 1
Abb. 3.4. Beispiel f¨ ur Lorenzkurven
3.4.2 Gini-Koeffizient Der Gini-Koeffizient ist ein Maß f¨ ur die Konzentration. Er ist definiert als G = 2 · F,
(3.20)
wobei F die Fl¨ ache zwischen der Diagonalen und der Lorenzkurve ist (vgl. Abbildung 3.5).
F vi Fi vi−1 ui−1
ui
Abb. 3.5. Gini-Koeffizient
F¨ ur die praktische Berechnung von G aus den Wertepaaren (ui , vi ) stehen folgende Formeln zur Verf¨ ugung: 2 G=
n
ix(i) − (n + 1)
i=1
n
n i=1
n i=1
x(i)
x(i) (3.21)
3.6 Aufgaben
oder alternativ
1 (vi−1 + vi ). n i=1
39
n
G=1−
(3.22)
F¨ ur den Gini-Koeffizienten gilt stets n−1 , n weswegen auch der normierte Gini-Koeffizient 0≤G≤
G+ =
n G n−1
(3.23)
(3.24)
betrachtet wird. Durch die Normierung hat G+ Werte zwischen 0 (keine Konzentration) und 1 (vollst¨ andige Konzentration).
3.5 Weitere Hinweise Merke:
Weisen die Daten einen oder mehrere Ausreißer bzw. Extremwerte auf, so ist der Median dem arithmetischem Mittel vorzuziehen.
Bei der Berechnung von Warenk¨ orben oder Durchschnittstemperaturen sollte das harmonische Mittel verwendet werden, vergleiche Toutenburg und Heumann (2008), Induktive Statistik.
QQ-Plots werden nicht nur, wie in diesem Kapitel beschrieben, zum Vergleich zweier Stichproben verwendet. In der Regressionsanalyse (Kapitel 13) tr¨ agt man beobachtete und ’theoretische’ Quantile gegeneinander ab, um Annahmen eines Regressionsmodells zu u ufen. ¨berpr¨
Bei einer geringen Anzahl an Beobachtungseinheiten i liefert die Lorenzkurve bzw. der Gini-Koeffizient - je nach Anwendungsgebiet - oft keine realit¨ atsnahen Ergebnisse.
3.6 Aufgaben Wiederholungsaufgabe mit SPSS. In der folgenden Aufgabe haben Sie noch einmal die M¨ oglichkeit Ihr Wissen der vergangenen drei Kapitel zu wiederholen. Sie ben¨otigen daf¨ ur das statistische Software-Paket SPSS, f¨ ur eine Einf¨ uhrung siehe Toutenburg und Heumann (2008a, Kapitel 9) und Toutenburg und Heumann (2008b, Kapitel 14). Auf der im Vorwort angegebenen
40
3. Maßzahlen f¨ ur eindimensionale Merkmale
Homepage finden Sie den Datensatz, sowie dessen Beschreibung. Sollten Sie keine M¨ oglichkeit haben auf das Programm zuzugreifen, so empfiehlt es sich dennoch den Stoff anhand der Aufgabenl¨osung zu rekapitulieren. An verschiedenen Stellen dieses Buches werden wir noch einmal auf dieses Beispiel zur¨ uckgreifen. Aufgabe 3.1: Seit einiger Zeit spielen Jupp und Horst ein bekanntes Gesellschaftsspiel. Mit Hilfe eines weißen und eines schwarzen W¨ urfels wird dabei in jedem Zug bestimmt, welche Ressourcen den einzelnen Spielern zustehen. Die Summe der Augenzahlen ist f¨ ur diese Ressourcenverteilung Ausschlag gebend. Aus Neugierde haben sich die beiden in 6 Partien alle W¨ urfe notiert und sie erhielten 230 Augenpaare. Diese sind im Datensatz ’wuerfel.sav’ abgespeichert. a) Betrachten Sie zuerst die einzelnen W¨ urfelergebnisse. Berechnen Sie die H¨ aufigkeitstabelle und stellen Sie diese grafisch dar. Entsprechen die Ergebnisse Ihren Erwartungen bez¨ uglich des Vorgangs des W¨ urfelwurfs? b) Bestimmen Sie noch Mittelwert, Median, Varianz und Standardabweichung und kommentieren Sie die Ergebnisse. c) Nun sollen Sie die Summe der beiden W¨ urfel berechnen und a) und b) mit diesen Summen durchf¨ uhren. Charakterisieren Sie die H¨aufigkeitsverteilung der Summe. d) H¨ atte man den Mittelwert auch anders als aus den Rohdaten der Summen berechnen k¨ onnen? Wenn ja, wie? e) Bestimmen Sie den Anteil der Summen zwischen “6” und “8” (6 ≤ Summe ≤ 8) und den Anteil, der echt kleiner als “6” ist. L¨ osung: a) Augenzahlen des weißen W¨ urfels:
1 2 3 4 5 6 Gesamt
H¨ aufigkeit 38 37 41 34 43 37 230
Prozent 16.5 16.1 17.8 14.8 18.7 16.1 100.0
Kumulierte Prozente 16.5 32.6 50.4 65.2 83.9 100.0
3.6 Aufgaben
41
Augenzahlen des schwarzen W¨ urfels:
1 2 3 4 5 6 Gesamt
H¨ aufigkeit 34 38 34 39 40 45 230
Prozent 14.8 16.5 14.8 17.0 17.4 19.6 100.0
Kumulierte Prozente 14.8 31.3 46.1 63.0 80.4 100.0
Abb. 3.6. Die Balkendiagramme der beiden W¨ urfel
Jede der Auspr¨ agungen ’1-6’ hat eine ¨ ahnlich hohe relative H¨aufigkeit. Die beiden W¨ urfel sehen fair aus. b) Wir erhalten folgende Ergebnisse von SPSS:
N G¨ ultig Fehlend Mittelwert Median Standardabweichung Varianz
Weißer W¨ urfel 230 0 3.51 3.00 1.707 2.915
Schwarzer W¨ urfel 230 0 3.64 4.00 1.727 2.982
Man sieht, dass sich die beiden W¨ urfel in den Maßzahlen kaum unterscheiden. Einzig die Mediane unterscheiden sich. Ein Blick auf die empirische Verteilung der W¨ urfel erkl¨ art dies, beim weißen W¨ urfel waren 50% der W¨ urfe kleiner gleich “3” und beim schwarzen waren hingegen 50% der
42
3. Maßzahlen f¨ ur eindimensionale Merkmale
W¨ urfe kleiner gleich “4”. c) F¨ ur die Summe der beiden W¨ urfel erhalten wir folgende Tabelle: H¨ aufigkeit 5 18 13 21 30 36
2 3 4 5 6 7
8 9 10 11 12 Gesamt
Prozent 2.2 7.8 5.7 9.1 13.0 15.7
H¨ aufigkeit 33 34 23 11 6 230
Kumulierte Prozente 2.2 10.0 15.7 24.8 37.8 53.5
Prozent 14.3 14.8 10.0 4.8 2.6 100.0
Kumulierte Prozente 67.8 82.6 92.6 97.4 100.0
SUMME 20
Prozent
10
0 2
3
4
5
6
7
8
9
10
11
12
SUMME
Abb. 3.7. Das Balkendiagramm der Summe
Die Summe zweier W¨ urfel ist symmetrisch um die ‘7’ verteilt. Das zeigen sowohl die H¨ aufigkeitstabelle als auch das Balkendiagramm in Abbildung 3.7. Des weiteren berechnen wir mit SPSS:
3.6 Aufgaben
N G¨ ultig Fehlend Mittelwert Median Standardabweichung Varianz
43
Summe beider W¨ urfel 230 0 7.16 7.00 2.419 5.853
Auch die Maßzahlen deuten auf Symmetrie, da Median und Mittelwert dicht beieinander liegen. Die Standardabweichung deutet daraufhin, dass die beobachteten Summen im Mittel um ca. 2.4 vom Mittelwert abweichen, also konzentrieren sich im einfachen Streubereich von 4.8 bis 9.5 ein Großteil der Beobachtungen. d) Man kann einfach die beiden Mittelwerte der einzelnen W¨ urfel addieren, da der Mittelwert einer Summe die Summe der Mittelwerte ist. e) H(6 ≤ X ≤ 8) = F (8) − F (6) + f (6) = 0.678 − 0.378 + 0.13 = 0.435 Etwa 44% der beobachteten Summen realisieren sich zwischen den Augenzahlen ‘6’ und ‘8’. H(X < 6) = F (5) = 0.248 Rund 25% der beobachteten Summen sind echt kleiner als “6”. Rechenaufgaben. Wie gewohnt k¨ onnen Sie nun auch hier Ihr Wissen u ¨ber das vorangegangene Kapitel anhand verschiedener Rechen- und Verst¨andnisaufgaben u ufen. ¨berpr¨ Aufgabe 3.2: Der Bundesligist VfB Stuttgart hat in den ersten 10 Spieltagen der Bundesligasaison 2004/2005 jeweils die folgende Anzahl von Toren geschossen: 4
1
3
2
0
3
2
2
0
1
a) Berechnen Sie den Modus und ein weiteres geeignetes Lagemaß! b) Erstellen Sie einen Box-Plot und interpretieren Sie Ihr Ergebnis! L¨ osung: a) Zahlen ordnen: 0 0 1 1 2 2 2 3 3 4 (1) Modus: x ¯M = 2 (2) Median: x ˜0.5 = 12 (x(5) + x(6) ) = 2 ¨ Die Ubereinstimmung der beiden Maßzahlen deutet auf Symmetrie hin. Im Mittel schoss der VfB 2 Tore in den ersten 10 Spieltagen
44
3. Maßzahlen f¨ ur eindimensionale Merkmale
b) Das untere Quartil, das 0.25-Quantil, und das obere Quartil, 0.75-Quantil, werden noch f¨ ur den Boxplot ben¨ otigt. Es berechnet sich: x ˜0.25 = x(3) = 1. Da 0.25 · 10 = 2.5 keine ganze Zahl ist, wird k = 3 gew¨ ahlt. Man kann alternativ das untere Quartil auch als Median der unteren H¨ alfte der Daten berechnen. Außerdem ergibt sich: x ˜0.75 = x(8) = 3. Auch hier ist 0.75 · 10 = 7.5 keine ganze Zahl, somit wird k = 8. Analog kann man das obere Quartil als Median der oberen H¨ alfte der Daten bestimmen.
2 0
1
Anzahl Tore
3
4
Mit den eben bestimmten Quartilen (unteres Quartil, Median, oberes Quartil) und dem Minimum sowie dem Maximum ergibt sich der BoxPlot (vgl. Abbildung 3.8).
Abb. 3.8. Boxplot zur geschossenen Anzahl der Tore des VfB Stuttgart
Auch der Boxplot zeigt, dass die Tore des VfB Stuttgart symmetrisch um die 2 verteilt sind. Es gab an den ersten 10 Spieltagen keine Spiele mit außergew¨ ohnlich vielen Toren. Die Null stellt bei diesem Merkmal eine nat¨ urliche Barriere dar, weniger als Null Tore werden nicht geschossen. In der Regel erwartet man Schiefe bei Daten mit Barrieren, da man nur in eine Richtung grosse Werte erwarten kann. Erzielt der VfB zum Beispiel in den folgenden Spielen auch mal 5 oder mehr Tore, so hat man direkt einen sogenannten rechtsschiefen oder auch linkssteilen Datensatz. Aufgabe 3.3: Ein Formel–1–Fahrer notiert die Anzahl seiner Startplatzierungen aus den letzten 11 Rennen: 1
5
2
3
1
4
5
2
1
3
4
3.6 Aufgaben
45
a) Berechnen Sie den Modus und ein weiteres geeignetes Lagemaß! b) Berechnen Sie geeignete Streuungsmaße und interpretieren Sie diese! L¨ osung: a) Zahlen ordnen: 1 1 1 2 2 3 3 4 4 5 5 (1) Modus: x ¯M =1 (2) Median: x ˜0.5 = x(6) = 3 Die Abweichung von Modus und Median deutet auf einen schiefen Datensatz hin. Der h¨ aufigste Wert liegt links von dem Wert, der die Daten in zwei H¨ alften teilt. Also haben wir es voraussichtlich mit rechtsschiefen Daten zu tun. Wieder sehen wir den Einfluss von nat¨ urlichen Barrieren. Wir k¨onnen nur Auspr¨ agungen gr¨ oßer als Null beobachten, somit ziehen alle großen Beobachtungen die Verteilung unserer Daten nach rechts. b) F¨ ur ordinale Daten sind Quartilsabstand und Spannweite geeignete Streuungsmaße. Die empirische Varianz w¨ urde Differenzenbildung bei den Daten erfordern. Diese Abst¨ ande sind aber f¨ ur Ordnungszahlen nicht definiert und somit nicht interpretierbar. Die Abst¨ ande der Daten im geordneten Datensatz hingegen sind interpretierbar. Sie bedeuten, dass die jeweiligen Datenwerte um den Wert des Maßes voneinander entfernt liegen. Wobei wir nicht sagen k¨onnen, dass dieser Abstand bedeutet, dass die eine Auspr¨agung zum Beispiel doppelt so gross ist wie die andere. ˜0.75 − x ˜0.25 = x(9) − x(3) = 4 − 1 = 3 Quartilsabstand: dQ = x Der zentrale Streubereich des Boxenstopps liegt also 3 Startplatzierungen voneinander entfernt. Spannweite: R = x(11) − x(1) = 5 − 1 = 4 Der gesamte Streubereich betr¨ agt damit 4 Boxenstopps. Aufgabe 3.4: Wir wollen nun die wichtigen Maßzahlen zu den geschossenen Toren aus Aufgabe 2.4 berechnen. a) Bestimmen Sie die mittlere Anzahl an Toren in den Vorrundenspielen. b) Bestimmen Sie die Varianz und die Standardabweichung der Tore in den Vorrundenspielen. c) Bestimmen Sie die mittlere Anzahl der Tore in der k.o.-Runde. d) Bestimmen Sie die Varianz und die Standardabweichung der k.o.-Runde. e) In welcher Phase des Turniers wurden mehr Tore erzielt? Was ist beim Vergleich der Streuungen zu beachten? Wo ist die Streuung h¨oher? f) Bestimmen Sie Mittelwert, Varianz und Standardabweichung aller Spiele.
46
3. Maßzahlen f¨ ur eindimensionale Merkmale
g) Bestimmen die den Median und die Quartile der Torzahlen. Verwenden Sie dazu einmal die empirische Verteilungsfunktion und einmal die Daten der Urliste. Welches Verfahren ist hier vorzuziehen? h) Zeichnen Sie den Boxplot. L¨ osung: a) Die Spiele der Vorrunde waren die ersten 48 (siehe Aufgabe 2.3). Der Mittelwert davon betr¨ agt 1 48 (6
x ¯v =
+ 2 + . . . + 1) =
117 48
= 2.4375.
b) Die Varianz berechnen wir mit Hilfe des Verschiebungssatzes s2v =
1 n
n i=1
x2vi − x ¯2v = x2 v − x ¯2v ,
mit x2 v =
395 48
= 8.229.
Damit ist die Varianz s2v = 8.229 − 2.43752 = 2.2878 und die Standardabweichung s2v =
√
2.2878 = 1.5125.
Also weichen die geschossenen Tore der Vorrunde im Mittel um rund 1.5 vom Mittelwert ab. c) Die Spiele der k.o.-Runde waren die letzten 16. Der Mittelwert davon betr¨ agt x ¯k.o. =
30 16
= 1.875.
d) Die Varianz erhalten wir analog wie oben mit s2k.o. =
80 16
− 3.5156 = 1.484.
Damit ist die Standardabweichung sk.o. = 1.218. Die geschossenen Tore der k.o.-Runden weichen im Mittel um rund 1.2 vom Mittelwert ab. e) In der Vorrunde wurden im Mittel wesentlich mehr Tore pro Spiel geschossen. Ein Vergleich der Varianzen ist deshalb nicht durchf¨ uhrbar, da diese von den verschiedenen Mittelwerten abh¨angen. Zum Vergleich wird deshalb der Variationskoeffizient ν = xs¯ genutzt.
3.6 Aufgaben
47
Anmerkung. Alle Beobachtungen m¨ ussen positiv sein, dann ist x ¯ ungleich Null und ν > 0! νv = 1.5125 2.4375 = 0.6210 νk.o. = 0.6496 Danach ist die Streuung bezogen auf den Mittelwert in der k.o.-Runde h¨ oher. f) Eine wichtige Beziehung im Umgang mit Mittelwerten ist die folgende Umformung n xi = n¯ x. i=1
Die Summe aller Beobachtungen ist gleich dem Stichprobenumfang multipliziert mit dem Mittelwert der Stichprobe. So erhalten wir den Mittelwert aller Spiele u ¨ber x ¯=
48·2.4375+16·1.875 64
= 2.297.
Nat¨ urlich kann man auch einfach die Summen aus a) und c) addieren und durch 64 dividieren oder man rechnet den langen Weg aus der Urliste. Anmerkung. Aus der H¨ aufigkeitstabelle (ein etwas k¨ urzerer langer Weg!) l¨ asst sich der Mittelwert auch berechnen u ber ¨ x ¯v =
1 48 (0
· 7 + 1 · 13 + 2 · 18 + . . . + 6 · 2) = 2.297.
Man kann aber auch die Auspr¨ agungen mit der relativen H¨aufigkeiten multiplizieren und aufsummieren um den Mittelwert aus einer H¨aufigkeitstabelle zu erhalten. Die Varianz kann man u ¨ber den langen Weg aus allen Daten ausrechnen (bzw. aus der H¨ aufigkeitstabelle) oder man nimmt die bisherigen Zwischenergebnisse und verkn¨ upft diese u ¨ber s2 = s2zwischen + s2innerhalb . Dabei ist s2zwischen =
1 n
k
nj (¯ xj − x ¯)2
j=1
und s2innerhalb =
1 n
k j=1
nj s2j ,
wobei wir hier k = 2 Gruppen vorliegen haben. Schrittweise erhalten wir damit die Gesamtvarianz und -standardabweichung.
48
3. Maßzahlen f¨ ur eindimensionale Merkmale 1 s2zwischen = 64 (48(2.4375 − 2.297)2 + 16(1.875 − 2.297)2 ) = 0.0593 1 2 (48 · 2.2878 + 16 · 1.484) = 2.0869 sinnerhalb = 64 2 s = 0.0593 + 2.0869 = 2.1462 s = 1.465
g) Der geordnete Datensatz ist: 0 1 2 3
0 1 2 3
0 1 2 4
0 1 2 4
0 2 2 4
0 2 2 4
0 2 3 4
1 2 3 4
1 2 3 4
1 2 3 4
1 2 3 4
1 2 3 4
1 2 3 5
1 2 3 5
1 2 3 6
1 2 3 6
Der Median ist x ˜=
1 2 (x(32)
+ x(33) ) =
2+2 2
= 2.
Die beiden Quartile erhalten wir u ¨ber x0.25 =
1 2 (x(16)
+ x(17) ) =
1+1 2
= 1
x0.75 =
1 2 (x(48)
+ x(49) ) =
3+3 2
= 3.
und
Rufen wir uns nochmal die Tabelle der empirischen Verteilungsfunktion aus Abbildung 2.8 und die Definition eines Quantils ins Ged¨achtnis (xp := F (xp ) = p). Danach ist F (0) < 0.25 und F (1) > 0.25, also ist 1 das untere Quartil. Analog erhalten wir die 2 als Median und die 3 als oberes Quartil. Beide Verfahren liefern bei diesem Beispiel die gleichen Ergebnisse (was nicht immer so ist!) aber wenn man die Verteilungsfunktion kennt ist das zweite Verfahren mit weniger Aufwand verbunden (einfaches Ablesen aus der Verteilungsfunktion). Bei kleinen Datens¨atzen ist sicherlich das erste Verfahren auch wenig aufwendig, da man die Quartile einfach aus dem geordneten Datensatz ablesen kann. Verwendet man statistische Software, so kann man in der Beschreibung nachlesen nach welchen Definitionen Quantile bestimmt werden. h) Man erkennt in Abb. 3.9, dass die geschossenen Tore eine schiefe Verteilung ohne Ausreißer aufweisen. Aufgabe 3.5: Betrachten wir die Zeit bis zum ersten Tor aus Aufgabe 2.5. a) Bestimmen Sie die mittlere Zeit einmal aus der H¨aufigkeitstabelle und einmal aus der Urliste. b) Bestimmen Sie die Varianz aus der H¨ aufigkeitstabelle und aus der Urliste. c) Bestimmen Sie die Quartile mit Hilfe der empirischen Verteilungsfunktion. d) Zeichnen Sie den Boxplot.
49
0
1
2
3
4
5
6
3.6 Aufgaben
Abb. 3.9. Boxplot zu Aufgabe 3.4
¨ e) Die Quartile der Urliste sind x0.25 = 6.5, x0.25 = 23.5, x0.75 = 42 (Uberpr¨ ufen Sie die Werte!). Nehmen Sie die Quartile als Klassengrenzen und zeichnen Sie das Histogramm erneut. Vergleichen Sie diese Darstellung mit dem Boxplot, der sich mit diesen Quartilen ergibt. L¨ osung: a) Den Mittelwert bei klassierten Daten erh¨ alt man mit Hilfe der Klassenmitten mj . Dazu und f¨ ur die sp¨ ater folgenden Aufgabenteile erstellen wir folgende Arbeitstabelle. j
[ej−1 , ej )
nj
mj
mj nj
m2j nj
hj
F (x) )
1 42 17 840 1 140 1 168 1 210 1 420 1 168
5 14 37 56 43 56 6 7 13 14 27 28
1
[0, 15)
20
7.5
150
1125
2
[15, 30)
17
22.5
328.5
8606.25
3
[30, 45)
6
37.5
225
8437.5
4
[45, 60)
5
52.5
262.5
13781.25
5
[60, 75)
4
67.5
270
18225
6
[75, 90)
2
82.5
165
13612.5
7
[90, 96)
2
93
186
17298
1641
81085.5
56
Damit ist die mittlere Zeit bis zum ersten Tor 1641 56
= 29.3.
Nutzen wir die Urliste erhalten wir den genauen Mittelwert
1
50
3. Maßzahlen f¨ ur eindimensionale Merkmale
x ¯=
1616 56
= 28.86.
Die Unterschiede sind vernachl¨ assigbar klein. Im Mittel wird das erste Tor nach rund 30 Minuten erzielt. b) F¨ ur die Varianz erweitern wir die obige Arbeitstabelle um den Term m2j nj . Damit ergibt sich s2 =
1 56 81085.5
− 29.32 = 589.465.
Die Standardabweichung ist dann 24.28. Aus der Urliste erhalten wir s2 =
1 56 80968
− 28.862 = 612.9575
und s = 24.76. c) Die Quartile erhalten wir mit der Formel xp = ej−1 +
p− F (ej−1 ) hj
f¨ ur p = (0.25, 0.5, 0.75). Das untere Quartil befindet sich in der ersten Klasse (0.25 < 5/14). Also ist x0.25 = (0.25 − 0) · 42 = 10.5. Der Median befindet sich in der zweiten Klasse (5/14 < 0.5 < 37/56), dann ist x0.5 = 15 +
(0.5− 5/14)840 17
= 22.06
der Median. Das obere Quartil ist in der dritten Klasse (37/56 < 0.75 < 43/56) und es ergibt sich x0.75 = 30 + (0.75 − 37/56)140 = 42.5. Nehmen wir die Urliste erhalten wir folgende Werte, x0.25 = 6.5, x0.5 = 23.5, x0.75 = 42. (Wie immer u ufen!) Hier sind die Unterschiede zwischen den genauen ¨berpr¨ Werten aus der Urliste und den klassierten Werten doch schon erheblicher, gerade beim unteren Quartil, was zeigt, dass die Annahme der Gleichverteilung in der ersten Klasse nicht erf¨ ullt ist. d) Der abgebildete Boxplot, Abb. 3.10 (links), ist mit den Quartilen aus der Urliste gezeichnet, die eingezeichneten Linien sind die Quartile aus den klassierten Daten. Er zeigt eine schiefe Verteilung und es gibt keine Ausreißer. e) Zun¨ achst die Hilfsgr¨ oßen f¨ ur das Histogramm. Die relativen H¨aufigkeiten sollten offensichtlich sein (warum?).
3.6 Aufgaben
51
60
80
Boxplot
0
20
40
60
80
60
80
40
Zeit
hi
0
0.00
0.01
0.02
20
0.03
0.04
Histogramm
0
20
40 Zeit
Abb. 3.10. Boxplot vs. Histogramm (Aufgabe 3.5)
j
[ej−1 , ej )
fj
dj
hj
1
[0, 6.5)
0.25
6.5
2
[6.5, 23.5)
0.25
17
3
[23.5, 42)
0.25
18.5
4
[42, 96)
0.25
54
1 26 1 68 1 74 1 216
In Abb. 3.10 (rechts) sieht man recht gut die Vorteile des Boxplots. Er zeigt in diesem Fall die gleichen Informationen wie das Histogramm, nur dass er ohne die Dimension ’H¨ ohe der Balken’ auskommt. Aufgabe 3.6: Die folgenden f¨ unf Temperaturwerte (in ◦ C) seien beobachtet worden: 7 2 −2 3 0 a) Berechnen Sie die zur Bestimmung eines Box-Plots notwendigen Gr¨oßen! b) Angenommen, Sie beobachten zus¨ atzlich die zwei weiteren Werte 1.7 und 17.9. Wie sieht der Box-Plot jetzt aus? (Begr¨ undung!) L¨ osung: a) Die f¨ unf wichtigen Zahlen f¨ ur den Boxplot sind: x ˜0.5 = x(3) = 2 x ˜0.25 = x(0.25·5) = x(2) = 0 x ˜0.75 = x(0.75·5) = x(4) = 3 xmin = x(1) = −2
52
3. Maßzahlen f¨ ur eindimensionale Merkmale
xmax = x(5) = 7 ˜0.75 − x ˜0.25 = 3 − 0 = 3 Quartilsabstand: dQ = x Keine Ausreißer und Extremwerte (Pr¨ ufen Sie das nach!) b) Der Median ver¨ andert sich nicht, da an beiden Seiten jeweils ein Wert hinzukommt. Das untere Quartil bleibt ebenfalls gleich, 0.25 · 7 bleibt aufgerundet 2 und die Null ist weiterhin die zweite Zahl im geordneten ˜0.25 gleich. Datensatz. Also bleiben hier x ˜0.5 und x Das obere Quartil ver¨ andert sich hingegen zu x ˜0.75 = x(6) = 7. Der Quartilsabstand ver¨ andert sich auf dQ = 7, weil sich das obere Quartil ge¨ andert hat. Es gibt einen Ausreißer mit 17.9. Der Toleranzbereich f¨ ur Ausreißer nach oben betr¨ agt 17.5, dieser ergibt sich als Summe von 10.5 (1.5 mal den Quartilsabstand oder Boxl¨ ange) und 7 (oberes Quartil). Als Extremwert bezeichnen wir Werte, die jenseits der dreifachen Boxl¨ange liegen, hier w¨ aren also Werte, die gr¨ oßer als 26 sind, Extremwerte nach oben. Es gibt also keine Extremwerte. Aufgabe 3.7: Wir betrachten ein gr¨ oßeres amerikanisches Unternehmen und interessieren uns f¨ ur die Variablen X = Dienstalter (in Monaten), Y = Einstiegsgehalt (in US$/Jahr) und Z = Geschlecht.
95 90 85 80 65
4000
70
75
Quantile von ’Dienstalter der Frauen’
10000 8000 6000
Quantile von ’Gehalt der Frauen’
12000
a) Wir splitten unsere Daten gem¨ aß der Variable Z = Geschlecht in zwei Datens¨ atze und betrachten die QQ-Plots ’Gehalt m¨annlich/Gehalt weiblich’ und ’Dienstalter m¨ annlich/ Dienstalter weiblich’. Wie sind diese zu interpretieren?
4000
6000
8000
10000
Quantile von ’Gehalt der Maenner’
12000
65
70
75
80
85
90
95
Quantile von ’Dienstalter der Maenner’
Abb. 3.11. QQ-Plots der Variablen ’Gehalt m¨ annlich/Gehalt weiblich’ und ’Dienstalter m¨ annlich/ Dienstalter weiblich’
3.6 Aufgaben
53
b) Betrachten wir nun die Boxplots der Variablen ’Einstiegsgehalt’ und ’Dienstalter’, aufgesplittet nach dem Geschlecht (Abbildung 3.12). Wie w¨ urden Sie diese interpretieren? Ergibt sich ein ¨ahnliches Bild wie in Aufgabenteil a)?
Abb. 3.12. Boxplots der Variablen ’Einstiegsgehalt’ und ’Dienstalter’ , aufgesplittet nach Geschlecht
c) Betrachten wir zuletzt noch die deskriptiven Statistiken (Abbildung 3.13). Best¨ atigt sich der bisher gewonnene Eindruck?
Abb. 3.13. Deskriptive Statistiken zu ’Einstiegsgehalt’ und ’Dienstalter’, aufgesplittet nach Geschlecht
L¨ osung: a) Wir betrachten zuerst den QQ-Plot der Variablen ’Gehalt m¨annlich’ und ’Gehalt weiblich’. Die Quartile sind ausschließlich unterhalb der Winkelhalbierenden zu finden, damit ergibt sich eine Situation wie in Abbildung
54
3. Maßzahlen f¨ ur eindimensionale Merkmale
3.1.2 (zweites Bild von links). Die Quartile der M¨anner liegen deutlich u ¨ber denen der Frauen, dies deutet auf ein Ungleichgewicht in der Einkommensstruktur hin. M¨ anner scheinen in diesem Unternehmen ein h¨oheres Einstiegsgehalt zu bekommen. Der zweite QQ-Plot bez¨ uglich der ’Dienstalter M¨anner’ und ’Dienstalter Frauen’ ergibt eine Situation wie in Abbildung 3.1.2 (erstes Bild von links). Die Punkte liegen in etwa auf der Winkelhalbierenden. Dies deutet darauf hin, dass sich die Struktur des Dienstalters in den Gruppen der M¨ anner und der Frauen nicht unterscheidet. b) Betrachten wir die beiden Boxplots so best¨atigt sich unsere Vermutung. Die Box des Gehalts der M¨ anner (und damit das untere Quartil, der Median und das obere Quartil) liegt deutlich u ¨ber der der Frauen. Bei den M¨ annern scheint die Streuung etwas gr¨ oßer zu sein, dies best¨atigen auch die verh¨ altnism¨ aßig vielen Ausreißer und Extremwerte. Beim ’Dienstalter’ erkennt man in den Boxplots nur marginale Unterschiede. c) Die deskriptiven Statistiken liefern uns vor allem noch das arithmetische Mittel. Es war zu erwarten, dass M¨ anner im Schnitt mehr verdienen als Frauen und das Dienstalter in etwa gleich hoch ist. Dies best¨atigt noch einmal unsere bisher gewonnenen Erkenntnisse. Aufgabe 3.8: In einer Studie wurde die Zeit vor dem Fernseher im Sommer an einem Schultag von 6 j¨ ahrigen Kindern in Minuten erhoben. Eine Stichprobe von 9 Kindern ergab folgende Werte f¨ ur M¨ adchen und Jungen. M¨ adchen Jungen
70 50
30 80
120 100
150 320
50 500
300 280
210 90
220 130
60 10
a) Bestimmen Sie die f¨ unf wichtigen Zahlen f¨ ur die Boxplots. b) Zeichnen und vergleichen Sie die Boxplots. c) Zeichnen Sie ein QQplot mit den Quartilen und dem Maximum sowie dem Minimum. L¨ osung: a) Die sortierten Datens¨ atze und dazu die f¨ unf Kennziffern des Boxplots erhalten wir wie folgt: M¨ adchen Jungen 5 Zahlen
30 10 xmin
50 50
60 80 x0.25
70 90
120 100 x0.5
150 130
210 280 x0.75
220 320
300 500 xmax
b) Die vergleichenden Boxplots sind in Abb. 3.14 (links) zu sehen. Beide Datens¨ atze sind rechtsschief. Jungen schauen etwas mehr fern.
100
200
300
400
500
55
0
0
100
200
Zeit Mädchen
300
400
500
3.6 Aufgaben
Zeit Mädchen
Zeit Jungen
0
100
200
300
400
500
Zeit Jungen
Abb. 3.14. Vergleichende Boxplots und QQ-Plot
c) Beim QQplot werden Quantile zweier Datens¨atze gegeneinander abgetragen. H¨ aufig werden dazu die Perzentlie (0.1, 0.2, . . . , 0.9) verwendet. Wir verwenden hier das Minimum, die Quartile, sowie das Maximum (0, 0.25, 0.5, 0.75, 1), siehe Abb. 3.14 (rechts). Die meisten Punkte (Minimum und Median nicht) liegen unterhalb der Winkelhalbierenden. Demnach schauen die M¨adchen etwas weniger fern als die Jungen. Aufgabe 3.9: Die erreichten Punktzahlen in einer Statistik-Klausur von 22 zuf¨ allig ausgew¨ ahlten Studierenden der Statistik an den Universit¨aten M¨ unchen und Dortmund lauten wie folgt (50 Punkte waren h¨ochstens zu erreichen). Uni M¨ unchen: Uni M¨ unchen Stem-and-Leaf plot Frequency
Stem & Leaf
1.00 4.00 3.00 3.00 1.00
0. 1. 2. 3. 4.
0 6899 556 468 4
Stem width: Each leaf:
10.00 1 case(s)
56
3. Maßzahlen f¨ ur eindimensionale Merkmale
Uni Dortmund: 12
17
0
23
26
40
0
15
16
31
a) Berechnen Sie aus diesen Angaben f¨ ur die Uni in M¨ unchen und in Dortmund jeweils das arithmetische Mittel und den Median der Punktzahlen! Berechnen Sie das arithmetische Mittel aller Punktzahlen! b) Berechnen Sie f¨ ur beide Verteilungen jeweils die Standardabweichung! Ist ein direkter Vergleich der beiden Werte fair? c) Welches Streuungsmaß schlagen Sie vor? Berechnen Sie dieses Streuungsmaß! Zu welchem Ergebnis kommen Sie bez¨ uglich des Vergleichs des Streuungsmaßes? L¨ osung: Betrachten wir zuerst die geordneten Werte der beiden Universit¨aten: i M¨ unchen Dortmund
1 0 0
2 16 0
3 18 12
4 19 15
5 19 16
6 25 17
7 25 23
8 26 26
9 34 31
10 36 40
11 38
12 44
a) Die entsprechenden arithmetischen Mittel ergeben sich zu 300 1 x ¯M = (0 + 16 + 18 + . . . + 44) = = 25, 12 12 180 1 (0 + 0 + 12 + . . . + 40) = = 18. x ¯D = 10 10 Die mittlere Punktzahl der Studierenden aus M¨ unchen betr¨agt 25 und die der Studierenden aus Dortmund betr¨ agt 18. F¨ ur den Mittelwert beider Universit¨ aten erhalten wir daher: 300 + 180 x ¯M ∪D = = 21.82 . 22 Der Median der Punktzahlen der Uni M¨ unchen betr¨agt x ˜0.5 = 12 (x(6) + x(7) ) = 12 (25 + 25) = 25. F¨ ur die Uni Dortmund erhalten wir folgenden Median: x ˜0.5 = 12 (x(5) + x(6) ) = 12 (16 + 17) = 16.5. b) F¨ ur die Standardabweichungen erhalten wir: (0 − 25)2 + (16 − 25)2 + (18 − 25)2 + . . . + (44 − 25)2 sM = 12 1560 √ = 130 = 11.4018 = 12 1440 √ = 144 = 12 sD = 10
3.6 Aufgaben
57
Nein, der Vergleich ist nicht fair, da das Streuungsmaß s vom Mittelwert abh¨ angig ist. Das heißt die Unterschiede in s k¨onnen durch Unterschiede in den mittleren Punktzahlen zustande kommen. Ein geeigneteres Streuungsmaß f¨ ur den Vergleich zweier Messreihen desselben Merkmals ist der Variationskoeffizient. Er ist in Relation zum Mittelwert berechnet und damit unabh¨ angig davon. vM =
11.4018 25
vD =
12 18
= 0.4561
= 0.6667
Die Uni in M¨ unchen hat eine geringere Streuung bezogen auf die mittlere Punktzahl. Aufgabe 3.10: In einer Absolventenstudie wurden 250 Personen, die vor 5 Jahren ihr Studium abgeschlossen haben, gefragt, in welchem Alter sie ihr Studium abgeschlossen haben. Das Ergebnis ist in folgender Tabelle dargestellt: Alter bei Studienabschluss [22, 24) [24, 28) [28, 30) [30, 34) [34, 40)
Anzahl der Personen 13 122 71 38 6
Dabei bedeutet zum Beispiel [30, 34) “30 bis unter 34 Jahre”. a) Zeichnen Sie das Histogramm f¨ ur das Merkmal Alter bei Studienab” schluss“. b) Berechnen und zeichnen Sie die empirische Verteilungsfunktion. c) Berechnen Sie das arithmetische Mittel f¨ ur das Merkmal “Alter bei Studienabschluss”! d) Berechnen Sie die Varianz f¨ ur das Merkmal Alter bei Studienabschluss“! ” L¨ osung: a) Berechnung der H¨ aufigkeitstabelle f¨ ur das Alter, mit allen Hilfsgr¨ossen f¨ ur das Histogramm:
58
3. Maßzahlen f¨ ur eindimensionale Merkmale
j 1 2 3 4 5
Alter [22, 24) [24, 28) [28, 30) [30, 34) [34, 40)
ej−1 22 24 28 30 34
ej 24 28 30 34 40
dj 2 4 2 4 6
nj 13 122 71 38 6
fj 0.052 0.488 0.284 0.152 0.024
hj 0.026 0.122 0.142 0.038 0.004
F (x) 0.052 0.54 0.824 0.976 1
aj 23 26 29 32 37
0.0
0.00
0.02
0.2
0.04
0.4
0.06
Dichte
F(Alter)
0.08
0.6
0.10
0.8
0.12
0.14
1.0
Die folgende Grafik 3.15 (links) zeigt das Histogramm.
25
30
35 Alter
40
0
10
20
30
40
50
Alter
Abb. 3.15. Das Histogramm und die empirische Verteilung zur Absolventenstudie
b) Aus der obigen Tabelle entnehmen wir die Werte der Verteilungsfunktion. Die grafische Darstellung erfolgt in Bild 3.15 (rechts). c) Der Mittelwert f¨ ur eine klassierte H¨ aufigkeitstabelle wird mit Hilfe der Klassenmitten bestimmt. Dabei wird angenommen, dass die Auspr¨agungen innerhalb einer Klasse gleichverteilt sind. Mit Hilfe von Formel 3.5 ergibt sich:
x ¯=
k
fj aj = 0.052 · 23 + ... + 0.024 · 37 = 27.872 .
j=1
Im Mittel waren die Absolventen bei ihrem Abschluss also 27.87 Jahre alt. d) Ebenso wie der Mittelwert wird auch die Varianz mit den Klassenmitten ermittelt.
3.6 Aufgaben
59
1 s = nj (aj − x ¯)2 n j=1 k
2
=
1 (13(23 − 27.872)2 + ... + 6(37 − 27.872)2 ) ≈ 7.90 250
Die mittlere quadrierte Abweichung vom mittleren Alter betr¨agt 7.9. Aufgabe 3.11: Gegebenseien n Beobachtungen x1 , . . . , xn , der Mittelwert der n Beobachtungen x ¯ = n1 i=1 xi und die Konstanten a, b ε R. a) Bestimmen Sie a so, dass der folgende Ausdruck minimiert wird. n 2 i=1 (xi − a) . n ¯) = 0 ist. b) Zeigen Sie, dass i=1 (xi − x n 1 c) Zeigen Sie, dass n i=1 (xi − x ¯)2 = x2 − x ¯2 ist. Dies ist der sogenannte Verschiebungssatz der Varianz. x gilt. d) Zeigen Sie, dass a + bxi = a + b¯ L¨ osung: a) Das Problem ist hier a so zu bestimmen, dass die Summe der quadrierten Abweichungen von a minimiert wird, also n min (xi − a)2 . a
i=1
Die erste Ableitung ist nach der Kettenregel n 2 (xi − a)(−1). i=1
Die Bedingung erster Ordnung f¨ ur ein Minimum ist, dass diese Ableitung gleich Null ist, also n −2 (xi − a) = 0. i=1
Au߬ osen der Summe und Division durch 2 ergibt n xi . na = i=1
Somit erhalten wir a = x ¯ als m¨ ogliches Minimum. Nun gilt es noch eine hinreichende Bedingung f¨ ur das Minimum zu finden, durch die Untersuchung Kr¨ ummung der Zielfunktion. Dies kann z.B. mit Hilfe der 2. Ableitung geschehen. Hinreichend f¨ ur ein Minimum ist, dass die Zielfunktion konvex ist. Die Zielfunktion hat die Form n u2i (mit ui = xi − a) i=1
60
3. Maßzahlen f¨ ur eindimensionale Merkmale
und wird somit als Summe von nach oben ge¨offneten Parabeln gebildet. Diese Parabeln sind bekanntlich konvexe Funktionen. Damit ist die Zielfunktion als Summe von konvexen Funktionen auch konvex was hinreichend f¨ ur ein Minimum ist. (Pr¨ ufen Sie diese Zusammenh¨ange mit Hilfe ¨ Ihrer Kenntnisse aus der Mathematik nach und pr¨ ufen Sie zur Ubung noch die hinreichende Bedingung mit der 2. Ableitung!) b) Diese L¨ osung ist schnell hingeschrieben. n
(xi − x ¯) =
i=1
n
xi − n¯ x = n¯ x − n¯ x = 0.
i=1
Wichtig dabei ist, die Zusammenh¨ ange zwischen dem Mittelwert und der Summe aller Beobachtungen im Kopf zu haben. c) F¨ ur diese Aufgabe ben¨ otigen wir die 2. binomische Formel. Damit erhalten wir n n 1 (xi − x ¯)2 = n1 (x2i − 2xi x ¯+x ¯2 ). n i=1
i=1
Summe in die Klammer ziehen und Einsetzen der Beziehung
n
xi = n¯ x
i=1
ergibt 1 2 n (nx
Anmerkung. F¨ ur
n i=1
− 2n¯ xx ¯ + n¯ x2 ).
x2i ist nat¨ urlich dann nx2 einzusetzen.
Nach weiterem Zusammenfassen und Division durch n erhalten wir x2 − x ¯2 . d) Nun soll der Mittelwert einer linearen Kombination a + bxi bestimmt werden. n a + bxi = n1 (a + bxi ) i=1
Durch Aufl¨ osen der Summe nach den Summenregeln (wenn Ihnen diese Regeln nicht mehr gel¨ aufig sind sollten Sie sie unbedingt nachschlagen!) sind wir schon fast am Ziel n 1 xi ) n (na + b i=1
Aufl¨ osen der Klammer ergibt dann a + b¯ x. ¨ Als Ubung sollten Sie zeigen, dass wenn yi = a + bxi ist, dass dann s2y = 2 2 b sx ist!
3.6 Aufgaben
61
Aufgabe 3.12: Die Anzahl der Mitglieder eines Kleintierz¨ uchtervereins betrug im Verlauf von 4 Jahren: Jahr Mitgliederzahl zum 31.12.
2005 1300
2006 1321
2007 1434
2008 1489
a) Wie groß ist die durchschnittliche Wachstumsrate? b) Welche Mitgliederzahl w¨ are aufgrund dieser durchschnittlichen Rate zum 31.12.2009 zu erwarten? L¨ osung: a) Als erstes berechnen wir f¨ ur das geometrische Mittel (den durchschnittlichen Wachstumsfaktor) die einzelnen Wachstumsfaktoren. Jahr Wachstumsfaktoren
2005
2006
2007
2008
-
1321 1300
1434 1321
1489 1434
Das geometrische Mittel ist dann 1434 1489 3 1321 x ¯G = 1300 · 1321 · 1434 = 1.046. Damit ergibt sich als durchschnittliche Wachstumsrate (¯ xG − 1) · 100% = 4.6% . b) Zum 31.12.2009 w¨ urde man 1300 · 1.0464 = 1556.217 ≈ 1556 Mitglieder erwarten. Aufgabe 3.13: Die Anzahl der Mitglieder eines Million¨arclubs betrug im Verlauf der letzten 6 Jahre: Jahr Mitgliederzahl zum 31.12.
2001 23
2002 24
2003 27
2004 25
2005 30
2006 28
a) Wie groß ist die durchschnittliche Wachstumsrate? b) Welche Mitgliederzahl w¨ are aufgrund dieser durchschnittlichen Rate zum 31.12.2008 zu erwarten? L¨ osung: a) Der Zeitraum betr¨ agt 6 Jahre also T = 5 Werte f¨ ur die Berechnung von xG . i) Der lange Weg: Bt /Bt−1 = (−, 1.04, 1.125, 0.925, 1.2, 0.9¯3) 3)1/5 = (1.21)1/5 = 1.04 xG = (1.04 · 1.125 · 0.925 · 1.2 · 0.9¯ ii) Alternativ und einfacher: 1/5 = 1.04 xG = ( 28 23 ) r = 1.04 − 1 = 0.04
62
3. Maßzahlen f¨ ur eindimensionale Merkmale
Die durchschnittliche Wachstumsrate betr¨ agt damit ca 4%. b) B08 = xG B07 B07 = xG B06 ⇒ B08 = x2G B06 B08 = 1.042 · 28 = 30.28 ≈ 31 Mitglieder! Hier runden wir immer auf! Aufgabe 3.14: In einem Institut einer Universit¨at gibt es 20 Arbeitszimmer. In der H¨ alfte der Zimmer sitzen jeweils zwei Assistenten, in einem Viertel der Zimmer sitzt jeweils nur ein Assistent und in dem anderen Viertel sitzen jeweils nur drei Assistenten. a) Die Konzentration der Assistenten auf die 20 Arbeitszimmer kann in einer Lorenzkurve dargestellt werden. Zeichnen Sie diese! b) In welcher Weise m¨ ussten sich die Assistenten auf die 20 Haushalte verteilen, damit das Maß f¨ ur die Konzentration in c) gleich Null wird? Skizzieren Sie die zugeh¨ orige Lorenzkurve! L¨ osung: a) Es sind insgesamt 10 · 2 + 5 · 1 + 5 · 3 = 40 Assistenten in dem Institut t¨ atig. Folgende Arbeitstabelle (gruppierte Daten!) stellt die Hilfsgr¨ oßen dar, die f¨ ur die Lorenzkurve ben¨otigt werden.
1
5
5
2
10
20
3
5
15
hj h 1 4 1 2 1 4
h = 20
s = 40
1
aj
hj
sj
uj 1 4 3 4
1
sj s 1 8 1 2 3 8
vj 1 8 5 8
1
1
Somit erhalten wir folgende Wertepaare (ui , vi ) f¨ ur die Lorenzkurve: (0, 0), ( 14 , 18 ), ( 34 , 58 ), (1, 1) Damit k¨ onnen wir die Kurve dann zeichnen (siehe Abbildung 3.16, links).
Man erkennt leichte Konzentration. Wenig Assistenten arbeiten alleine, die meisten arbeiten zu zweit oder zu dritt.
63
0.0
0.0
0.2
0.2
0.4
0.4
vi
vi
0.6
0.6
0.8
0.8
1.0
1.0
3.6 Aufgaben
0.0
0.2
0.4
0.6
0.8
0.0
1.0
0.2
0.4
0.6
0.8
1.0
ui
ui
Abb. 3.16. Lorenzkurven f¨ ur Aufgabenteil a) und b)
b) Alle 40 Assistenten m¨ ussten in 20 Arbeitszimmer gleichm¨assig verteilt werden, also 2 pro Arbeitszimmer, vergleiche auch Abbildung 3.16, rechts.
Aufgabe 3.15: An einem Gymnasium in Portugal wurden 5 Sch¨ uler zwischen 14 und 16 Jahren nach ihrem monatlichen Taschengeld befragt. Man erhielt folgende Werte: Sch¨ uler Tachengeld (in Euro)
1 20
2 40
3 50
4 65
5 80
a) Berechnen Sie ein Maß f¨ ur die Konzentration des Taschengeldes! b) Stellen Sie die Situation grafisch dar! c) a uler 10 Euro pro Mo¨ndert sich das Konzentrationsmaß, wenn jeder Sch¨ nat mehr bekommt? Wenn ja, wie, wenn nein, warum nicht? d) Statt 5 Sch¨ ulern betrachten wir jetzt 485 Sch¨ uler. ¨andert sich das Konzentrationsmaß, wenn 97 Sch¨ uler ein monatliches Taschengeld von 30 Euro, 97 Sch¨ uler ein Taschengeld von 40 Euro, 97 Sch¨ uler ein Taschengeld von 50 Euro, 97 Sch¨ uler ein Taschengeld von 65 Euro und 97 Sch¨ uler ein Taschengeld von 80 Euro bekommen? Wenn ja, wie?
64
3. Maßzahlen f¨ ur eindimensionale Merkmale
L¨ osung: a) F¨ ur den Gini-Koeffizient und die Lorenzkurve ben¨otigen wir folgende Hilfsgr¨ oßen: i
x(i)
ui =
1
20
2
40
3
50
4
65
5
80 255
1 5 2 5 3 5 4 5 5 5
i n
vi =
= 0.2 = 0.4 = 0.6 = 0.8 = 1.0
i j=1 n j=1
x(j) x(j)
vi−1 + vi
20 255 = 0.078 60 255 = 0.235 110 255 = 0.431 175 255 = 0.686 255 255 = 1
0.078 0.313 0.666 1.117 1.000
Der Gini-Koeffizient l¨ asst sich auf zwei Arten berechnen: 1. M¨ oglichkeit:
G= =
2
n i=1
ix(i) − (n + 1) n n i=1 x(i)
n i=1
x(i)
=
2(1 · 20 + ... + 5 · 80) − 6 · 255 ≈ 0.23 5 · 255
2.M¨ oglichkeit: 1 G = 1− (vj−1 + vj ) = n j=1 n
1 = 1 − (0.078 + 0.313 + 0.666 + 1.117 + 1.686) ≈ 0.23 5 Jetzt muss der Koeffizient nur noch normiert werden und wir erhalten n G = 54 0.23 = 0.2875 als Konzentrationsmaß. Inhaltlich deutet G+ = n−1 dies auf eine sehr schwache Konzentration hin, da das Maß kleiner als 0.5 ist. b) Nun zeichnen wir noch die Lorenzkurve: c) Das Konzentrationsmaß ¨ andert sich folgendermaßen: G=
=
G+ =
2(1 · 30 + 2 · 50 + 3 · 60 + 4 · 75 + 5 · 90) − 6 · 305 5 · 305 2120 − 1830 ≈ 0.19 1525 5 n G = 0.19 = 0.2375 n−1 4
65
0.2
0.4
vi
0.6
0.8
1.0
3.6 Aufgaben
0.2
0.4
0.6
0.8
1.0
ui
Abb. 3.17. Lorenzkurve zu Aufgabenteil b)
Die Konzentration nimmt ab. d) Das Konzentrationsmaß ¨ andert sich nicht, weil die prozentuale Aufteilung der Taschengeldbetr¨ age auf die 485 Sch¨ uler die selbe ist wie die Aufteilung 97 = 15 . auf die 5 Sch¨ uler, z.B. 485 Aufgabe 3.16: F¨ unf Freunde gr¨ unden eine GmbH. Dabei t¨atigen sie die folgenden Einlagen. Person Einlage in hundert e
1 120
2 56
3 570
4 1230
5 80
a) Zeichnen Sie die Lorenzkurve. b) Berechnen Sie die Konzentration. Interpretieren Sie Ihr Ergebnis. L¨ osung: a) Die Summe der Einlagen ist
n
xi = 2056.
i=1
F¨ ur die Berechnung der vi m¨ ussen die Personen ihrer Einlage nach geordnet werden.
66
3. Maßzahlen f¨ ur eindimensionale Merkmale
Folgende Tabelle enth¨ alt die Hilfsgr¨ oßen f¨ ur die Lorenzkurve: 1 56 1/5 1/5 0.027 0.027
2 80 1/5 2/5 0.039 0.066
3 120 1/5 3/5 0.058 0.124
4 570 1/5 4/5 0.277 0.401
5 1230 1/5 1 0.598 1
0.0
0.2
0.4
vi
0.6
0.8
1.0
i Einlage Personen ui relative Einlage vi
0.0
0.2
0.4
0.6
0.8
1.0
ui
Abb. 3.18. Lorenzkurve zu den Einlagen
Abb. 3.18 zeigt eine relativ starke Konzentration in den Einlagen. b) Der Gini-Koeffizient berechnet sich wie folgt: n (vi−1 + vi ) G = 1 − n1 i=1
G = 1 − 15 [(0 + 0.027) + (0.027 + 0.066) + (0.066 + 0.124) + (0.124 + 0.401) + (0.401 + 1)] = 1 − 15 · 2.236 = 0.5528 Problem: Der Gini-Koeffizient ist keine normierte Masszahl, es gilt 0 ≤ G ≤ n−1 n . Ausweg: normierter Gini-Koeffizient: n G, 0 ≤ G+ ≤ 1 G+ = n−1 Hier betr¨ agt er: G+ = 54 · 0.5528 = 0.691.
3.6 Aufgaben
67
Also ist G+ = 0.69 und relativ nahe an 1, damit liegt hier eine starke Konzentration vor. Aufgabe 3.17: Kommen wir nochmal zu dem Millon¨arsclub aus Aufgabe 3.13 zur¨ uck . Im Jahr 2005 hatten alle Mitglieder des Clubs ein Gesamtverm¨ogen von 250 Mio e an der B¨ orse investiert. 10 Mitglieder haben insgesamt nur 16% des Gesamtverm¨ ogens investiert, 8 Mitglieder haben schon 60 Mio e zum Gesamtbetrag beigetragen. Weitere 8 Mitglieder haben 70 Mio e an der B¨ orse investiert und die letzten 4 Mitglieder haben f¨ ur den restlichen Betrag spekuliert. a) Zeichnen Sie die Lorenzkurve. b) Berechnen Sie die Konzentration f¨ ur die B¨orsenausgaben. Interpretieren Sie Ihr Ergebnis. L¨ osung: a) Das investierte Gesamtverm¨ ogen ist
n
xi = 250 (in Mio e).
i=1
Es liegen gruppierte Daten vor. Zum Beispiel haben 10 Mitglieder haben 40 (in Mio e) investiert, wobei wir die genaue Aufteilung dieser Investition auf die einzelnen Mitglieder dieser Gruppe nicht kennen. i Betr¨ age Investorengruppe u ˜i relativer Betrag pro Gruppe vi
1 40 1/3 1/3 4/25 4/25
2 60 4/15 3/5 6/25 2/5
3 70 4/15 13/15 7/25 17/25
4 80 2/15 1 8/25 1
Abb. 3.19 zeigt eine geringe, nicht starke Konzentration. b) Der Gini-Koeffizient: G = 1−1/30(10(0+4/25)+8(4/25+2/5)+8(2/5+17/25)+4(17/25+1)) = 1 − 268/375 = 107/375 = 0.285¯ 3 G+ = 30/29 · 107/375 = 214/725 = 0.2952 aher an Null als an 1, damit schwache Konzentration bei den G+ ist n¨ B¨ orsenausgaben der Million¨ are!
0.2
0.4
vi
0.6
0.8
1.0
3. Maßzahlen f¨ ur eindimensionale Merkmale
0.0
68
0.0
0.2
0.4
0.6
0.8
1.0
ui
Abb. 3.19. Lorenzkurve zu Aufgabenteil a)
4. Analyse des Zusammenhangs zweier Merkmale
In vielen F¨ allen werden zwei oder mehr Merkmale gleichzeitig erhoben. In diesem Kapitel behandeln wir Maßzahlen, welche die St¨arke und – falls dies sinnvoll interpretierbar ist – die Richtung des Zusammenhangs zweier Merkmale angeben, sowie Grafiken, die diese Zusammenh¨ange veranschaulichen. Diese Maßzahlen h¨ angen vom Skalenniveau der beiden Merkmale ab.
4.1 Darstellung der Verteilung zweidimensionaler Merkmale 4.1.1 Kontingenztafeln bei diskreten Merkmalen Seien x1 , . . . , xk die Merkmalsauspr¨ agungen von X und y1 , . . . , yl die Merkmalsauspr¨ agungen von Y (nominal, ordinal), dann k¨onnen die gemeinsamen Merkmalsauspr¨ agungen (xi , yj ) und ihre jeweiligen absoluten H¨aufigkeiten nij , i = 1, . . . , k; j = 1, . . . , l in der folgenden k×l-Kontingenztafel (Tabelle 4.1) angegeben werden. Tabelle 4.1. Schema einer k×l-Kontingenztafel
Merkmal X
x1 .. . xi .. . xk
y1 n11 .. . ni1 .. . nk1 n+1
Merkmal yj ··· n1j .. . ··· nij .. . ··· nkj ··· n+j
Y ··· ··· ··· ···
yl n1l .. . nil .. . nkl n+l
n1+ .. . ni+ .. . nk+ n
Die Notation ni+ bezeichnet die i-te Zeilensumme, d.h. Summation u ¨ber l den Index j gem¨aß ni+ = n . Analog erh¨ a lt man die j-te Spaltenij j=1 k summe n+j durch Summation u ¨ber den Index i als n+j = i=1 nij . Der Gesamtumfang aller Beobachtungen ist dann
70
4. Analyse des Zusammenhangs zweier Merkmale
n=
k
ni+ =
i=1
l j=1
n+j =
k l
nij .
i=1 j=1
Vier-Felder-Tafeln. Ein Spezialfall ist die Vier-Felder-Tafel bzw. 2×2Kontingenztafel. Die beiden Merkmale sind in diesem Fall bin¨ar. Man verwendet hier eine spezielle Notation (Tabelle 4.2). Tabelle 4.2. Schema einer 2×2-Kontingenztafel
Merkmal X
x1 x2
Merkmal Y y2 y1 a b c d a+c b+d
a+b c+d n
Gemeinsame Verteilung, Randverteilung und bedingte Verteilung. In der Kontingenztafel in Tabelle 4.1 sind die absoluten H¨aufigkeiten angegen ben. Alternativ k¨ onnen auch die relativen H¨ aufigkeiten fij = nij verwendet werden. Die H¨ aufigkeiten nij bzw. fij , i = i, . . . , k; j = 1, . . . , l stellen die gemeinsame Verteilung des zweidimensionalen Merkmals dar. Die H¨aufigaufigkeiten der Randverteilung von X, die keiten ni+ bzw. fi+ sind die H¨ aufigkeiten der Randverteilung von Y . H¨aufigkeiten n+j bzw. f+j sind die H¨ Die Randverteilungen sind dabei nichts anderes als die jeweiligen Verteilungen der Einzelmerkmale. Beispiel 4.1.1. Folgende Tabelle 4.3 zeigt die Anzahl verkaufter Blumend¨ unger eines Baumarkts aufgesplittet nach Preis der D¨ unger und Geschlecht der K¨aufer. Die Betrachtung der Randverteilung des Merkmals “Geschlecht” l¨asst Tabelle 4.3. Kontingenztabelle des verkauften Blumend¨ ungers
Merkmal Geschlecht
m
w
Merkmal Preis billig normal teuer 22 46 35 24 25 4 46 71 39
103 53 156
darauf schließen, dass deutlich mehr M¨ anner (103) als Frauen (53) D¨ unger im Baumarkt gekauft haben. Werden die Randh¨aufigkeiten des Merkmals “Preis” betrachtet, so scheint der D¨ unger der “normalen” Preiskategorie insgesamt am meisten verkauft zu werden. Im Folgenden betrachten wir die (i) diskret - diskret (ii) diskret - stetig (gemischt) (iii) stetig - stetig
grafische Darstellung zweier Merkmale → Kapitel 4.1.2 → Kapitel 4.1.3 → Kapitel 4.1.4
4.1 Darstellung der Verteilung zweidimensionaler Merkmale
71
4.1.2 Grafische Darstellung bei zwei diskreten Merkmalen Im Fall der Betrachtung zweier diskreter Merkmale empfiehlt es sich ein zweidimensionales Balkendiagramm anzuschauen: innerhalb jeder Auspr¨agung des ersten Merkmals werden die verschiedenen Auspr¨agungen des anderen Merkmals angegeben. Beispiel 4.1.2. In einer abendlichen Verkehrskontrolle registriert die Polizei insgesamt 70 Personen mit erh¨ ohtem Alkoholspiegel. Folgendes Balkendiagramm listet die S¨ under aufgesplittet nach Geschlecht und Alter auf:
Abb. 4.1. Alkohols¨ under aufgesplittet nach Geschlecht und Alter
4.1.3 Grafische Darstellung der Verteilung gemischt stetig-diskreter Merkmale Ist eines der Merkmale diskret und ein anderes stetig, so ist die Darstellung der bedingten Verteilung der Darstellung der gemeinsamen Verteilung vorzuziehen. Hierzu verwenden wir Histogramme bzw. Box-Plots aufgesplittet nach dem diskreten Merkmal. Beispiel 4.1.3. Wir betrachten erneut das Beispiel der “K¨orpergr¨oße” bei M¨ annern und Frauen. Abbildung 4.2 (links) zeigt die beiden Histogramme des stetigen Merkmals ‘K¨ orpergr¨ oße‘ in Abh¨ angigkeit des diskreten Merkmals ‘Geschlecht‘. In Abb.4.2 (rechts) ist der gleiche Sachverhalt als Boxplot aufgesplittet nach dem Geschlecht dargestellt.
72
4. Analyse des Zusammenhangs zweier Merkmale
Abb. 4.2. K¨ orpergr¨ oße von M¨ annern und Frauen veranschaulicht in Histogramm und Boxplot
4.1.4 Grafische Darstellung der Verteilung zweier stetiger Merkmale Zur Darstellung der gemeinsamen Verteilung von X,Y (jeweils stetig) verwendet man den sogenannten Scatterplot (Streudiagramm). Hier werden die Wertepaare (xi , yi ) in ein X-Y -Koordinatensystem eingezeichnet. Beispiel 4.1.4. Ein Gesch¨ aft hat sich auf den Verkauf von Pudelm¨ utzen spezialisiert. In folgender Tabelle ist der Umsatz (in 100 Euro) abh¨angig vom Monat und dessen Durchschnittstemperatur dargestellt: Monat Temperatur Umsatz
Jan 2.4 28.2
Feb 6.8 22.8
M¨ ar 10.2 20.1
Apr 12.2 5.5
Mai 13.5 2.2
Aug 19.7 0.8
Sep 14.8 4.9
Okt 12.1 10.8
Nov 8.2 26.4
Dez 5.4 29.6
Jun 16.8 0.8
Jul 18.8 0.4
Das Streudiagramm in Abbildung 4.3 veranschaulicht die Situation der beiden Merkmale “Temperatur” und “Umsatz”:
4.2 Maßzahlen fu ¨ r den Zusammenhang zweier diskreter Merkmale Da bei nominalen Merkmalen die Anordnung der Merkmalsauspr¨agungen willk¨ urlich ist, geben Maßzahlen nur an, ob ein Zusammenhang vorliegt oder nicht. So ist bei einem Zusammenhang zwischen nominalen Merkmalen beispielsweise die Angabe einer Richtung im Gegensatz zu ordinalen oder metrischen Merkmalen nicht m¨ oglich. Man spricht daher allgemein von Assoziation. Eine Ausnahme stellt die Vier-Felder-Tafel dar. Da es nur jeweils
4.2 Maßzahlen f¨ ur den Zusammenhang zweier diskreter Merkmale
73
Abb. 4.3. Streudiagramm zum Umsatz des Pudelm¨ utzengesch¨ aftes
zwei Auspr¨ agungen gibt, kann die Art des Zusammenhangs in diesem Fall zus¨ atzlich durch eine Richtungsangabe beschrieben werden. Unabh¨ angigkeit. Wir werden zwei Merkmale als voneinander unabh¨angig betrachten, wenn die Auspr¨ agung eines Merkmals keinen Einfluss auf die Auspr¨ agung des anderen Merkmals hat. Damit gilt im Fall der Unabh¨angigkeit, dass die gemeinsame Verteilung gleich dem Produkt der Randverteilungen ist (4.1) fij = fi+ f+j . Die mit Hilfe von (4.1) berechneten relativen H¨aufigkeiten bezeichnet man auch als (unter der Annahme der Unabh¨ angigkeit) erwartete relative H¨ aufigkeiten. Die erwarteten absoluten H¨ aufigkeiten berechnen sich daraus als ni+ n+j ni+ n+j = . nij = n fij = n n n n Beispiel 4.2.1. Wir betrachten erneut das Beispiel des verkauften Blumend¨ ungers im Baumarkt (siehe Kap 4.1.1). Folgende Kreuztabelle 4.4 stellt noch einmal die Anzahl der verkauften Blumend¨ unger - aufgesplittet nach Preis und Geschlecht - dar. Dabei sind in Klammern jeweils die erwarteten H¨ aufigkeiten angegeben. Beispielsweise berechnet sich die erwartete H¨aufigkeit f¨ ur die Anzahl des an M¨ anner verkauften billigen D¨ ungers wie folgt: n11 = 46·103 = 30.37. Die anderen Werte sind auf die gleiche Art und Weise 156 zu berechnen. Da die zu erwartenden H¨ aufigkeiten nicht mit den tats¨achlichen H¨ aufigkeiten u ¨bereinstimmen, kann nicht von Unabh¨angigkeit ausgegangen werden. 4.2.1 Pearsons Chi-Quadrat-Statistik Die χ2 -Statistik ist eine Maßzahl f¨ ur den Zusammenhang in der Kontingenztabelle. Es wird der quadratische Abstand zwischen beobachteten und erwar-
74
4. Analyse des Zusammenhangs zweier Merkmale
Tabelle 4.4. Absolute und erwartete H¨ aufigkeiten beim verkauften Blumend¨ unger
Merkmal Geschlecht
m w
billig 22 (30.37) 24 (15.63) 46
Merkmal Preis normal teuer 46 (46.90) 35 (25.75) 25 (24.12) 4 (13.25) 71 39
103 53 156
teten Zellh¨ aufigkeiten in Relation zu den erwarteten H¨aufigkeiten berechnet:
2 n n k l nij − i+n +j χ2 = . (4.2) ni+ n+j i=1 j=1 n In der speziellen Notation der Vier-Felder-Tafel (vgl. Tabelle 4.2) erhalten wir f¨ ur die χ2 -Statistik (4.2) χ2 =
n(ad − bc)2 . (a + b)(c + d)(a + c)(b + d)
(4.3)
Es gilt:
0 ≤ χ2 ≤ n(min(k, l) − 1). Die χ2 -Statistik ist ein symmetrisches Maß, d. h. der χ2 -Wert ist invariant gegen eine Vertauschung von X und Y . Beispiel 4.2.2. F¨ ur das Beispiel des verkauften Blumend¨ ungers (Tabelle 4.4) berechnet sich Pearsons χ2 -Statistik wie folgt: χ2 =
(4 − 13.25)2 (22 − 30.37)2 + ... + = 16.6. 30.37 13.25
Der maximal m¨ ogliche χ2 -Wert liegt hier bei 156(2 − 1) = 156. Da der Wert 16.6 deutlich geringer als 156 ist, kann von einem geringen Zusammenhang der beiden Merkmale ausgegangen werden. 4.2.2 Phi-Koeffizient Der Phi-Koeffizient Φ bereinigt die Abh¨ angigkeit der χ2 -Statistik vom Erhebungsumfang n durch folgende Normierung χ2 . (4.4) Φ= n Der Phi-Koeffizient nimmt im Fall der Unabh¨angigkeit ebenso wie die χ2 Statistik den Wert Null an. Der Maximalwert des Phi-Koeffizienten ist n(min(k,l)−1) = min(k, l) − 1. n
4.2 Maßzahlen f¨ ur den Zusammenhang zweier diskreter Merkmale
75
Beispiel 4.2.3. Betrachten wir erneut das Beispiel 4.3 und den Zusammenhang der beiden Merkmale “Geschlecht” und “Preis”. Der Phi-Koeffizient berechnet sich hier als: χ2 16.6 = ≈ 0.3262 . (4.5) Φ= n 156 Da der Wert von 0.3262 n¨ aher an der Null als an der Eins (= min(3, 2) − 1) liegt, kann von einem schwachen bis mittleren Zusammenhang ausgegangen werden. 4.2.3 Kontingenzmaß von Cramer Das Kontingenzmaß V von Cramer bereinigt den Phi-Koeffizienten zus¨atzlich um die Dimension der Kontingenztafel. V ist definiert als χ2 . (4.6) V = n(min(k, l) − 1) Das Kontingenzmaß liegt bei allen Kontingenztafeln zwischen 0 und 1 und erf¨ ullt damit alle w¨ unschenswerten Eigenschaften einer Maßzahl f¨ ur die Assoziation zwischen zwei nominalen Merkmalen. Im Fall der Vier-Felder-Tafel ist das Kontingenzmaß gleich dem Absolutbetrag des Phi-Koeffizienten. Beispiel 4.2.4. F¨ ur unser “D¨ ungerbeispiel” berechnet sich das Kontingenzmaß wie folgt: χ2 16.6 V = = ≈ 0.3262. (4.7) n(min(k, l) − 1) 156(2 − 1) Es ist analog zu Beispiel 4.2.3 zu interpretieren. 4.2.4 Kontingenzkoeffizient C Eine alternative Normierung der χ2 -Statistik bietet der Kontingenzkoeffizient C nach Pearson. Der Kontingenzkoeffizient C ist definiert als χ2 . (4.8) C= χ2 + n Der Wertebereich von C ist das Intervall [0,1). Der Maximalwert Cmax von C ist ebenso wie der Maximalwert beim Phi-Koeffizienten abh¨angig von der Gr¨ oße der Kontingenztafel. Es gilt min(k, l) − 1 . (4.9) Cmax = min(k, l)
76
4. Analyse des Zusammenhangs zweier Merkmale
Deshalb verwendet man den sogenannten korrigierten Kontingenzkoeffizienten min(k, l) χ2 C , (4.10) = Ckorr = 2 Cmax min(k, l) − 1 χ + n der bei jeder Tafelgr¨ oße als Maximum den Wert Eins annimmt. Mit Ckorr k¨onnen Kontingenztafeln verschiedener Dimension bez¨ uglich der St¨arke ihres Zusammenhangs verglichen werden, d. h. der korrigierte Kontingenzkoeffizient besitzt alle w¨ unschenswerten Eigenschaften einer Maßzahl. Beispiel 4.2.5. Erneut betrachten wir das Beispiel des “D¨ ungerkaufs” aus Kap 4.1.1. Es berechnet sich: χ2 16.6 C= = ≈ 0.31 2 χ +n 16.6 + 156 min(k, l) − 1 2−1 = ≈ 0.707 Cmax = min(k, l) 2 Ckorr =
C 0.31 = 0.4385. = Cmax 0.707
Auch wenn der Wert des korrigierten Kontingenzkoeffinzienten h¨oher liegt als bei den vorherigen Koeffizienten, so kann auch hier nur von einem schwachen bis mittleren Zusammenhang ausgegangen werden. 4.2.5 Der Odds-Ratio Der Odds-Ratio ist eine Maßzahl, die das Verh¨altnis der Chancen zwischen zwei “Subpopulationen” widerspiegelt. Er ist nur f¨ ur die Vier-Felder-Tafel definiert und lautet (vgl. Notation aus Tabelle 4.2): OR =
ad . bc
(4.11)
Im Fall der Unabh¨ angigkeit nimmt der Odds-Ratio den Wert 1 an. Falls eine hohe u ¨bereinstimmung zwischen X und Y dahingehend vorliegt, dass die gleichgerichteten Paare (x1 , y1 ) und (x2 , y2 ) h¨aufiger als die gegenl¨aufigen Paare (x1 , y2 ) und (x2 , y1 ) beobachtet werden, so liegt ein positiver Zusammenhang zwischen X und Y vor. Der Odds-Ratio ist dann gr¨oßer 1. Liegt ein negativer Zusammenhang vor, d. h. die gegenl¨aufigen Paare (x1 , y2 ) und (x2 , y1 ) werden h¨ aufiger beobachtet als die gleichgerichteten Paare (x1 , y1 ) und (x2 , y2 ), so ist der Odds-Ratio kleiner 1. Es gilt: 0 ≤ OR < ∞. Beispiel 4.2.6. Wir betrachten folgende Vier-Felder-Tafel, bei der das Merkmal X das Vorhandensein einer speziellen Krankheit und das Merkmal Y erh¨ ohten Alkoholkonsum bei einer Versuchsperson in einer Studie bedeuten.
4.2 Maßzahlen f¨ ur den Zusammenhang zweier diskreter Merkmale
77
Tabelle 4.5. Anzahl der Kranken in Abh¨ angigkeit vom Alkoholkonsum
Alkohol (Y)
OR =
ja nein
Krankheit (X) ja nein 62 96 14 188 76 284
158 202 360
62 · 188 ad = ≈ 8.67. bc 14 · 96
Der Odds-Ratio gibt das Verh¨ altnis der Chancen zwischen der ersten Population (Personen mit erh¨ ohtem Alkoholkonsum) und der zweiten Population (Personen mit gew¨ ohnlichem Alkoholkonsum) an. Menschen mit erh¨ohtem Alkoholkonsum haben in diesem Beispiel also fast 9 mal so hohe Chancen (Risiko) die spezielle Krankheit zu bekommen. 4.2.6 Rangkorrelationskoeffizient von Spearman Ist die Kontingenztafel d¨ unn besetzt, d. h., in jede Zelle fallen nur wenige oder gar keine Beobachtungen, so ist die Darstellung in einer Kontingenztafel wenig aussagekr¨ aftig. Wenn X und Y ordinalskaliert sind, kann eine geeignete Maßzahl f¨ ur den Zusammenhang nur die Information der Rangordnung nutzen. F¨ ur die Beobachtungen des Merkmals (X, Y ) sind zun¨achst f¨ ur jede Komponente die R¨ ange zu vergeben. Dabei bezeichne RiX = R(xi ) den Rang der X-Komponente der i-ten Beobachtung und RiY = R(yi ) den Rang der Y Komponente. Haben zwei oder mehr Beobachtungen die gleiche Auspr¨agung des Merkmals X oder Y , so liegt eine sogenannte Bindung vor. Als Rang der einzelnen Beobachtungen wird dann der Mittelwert der zu vergebenden R¨ange genommen. Die Maßzahl f¨ ur den Zusammenhang vergleicht nun die jeweiligen X- und Y -R¨ ange. Da auf Grund des ordinalen Skalenniveaus keine Abst¨ande definiert sind, basiert der Rangkorrelationskoeffizient von Spearman nur auf der Differenz di = R(xi ) − R(yi ) der X- bzw. Y -Rangordnung. Liegen keine Bindungen vor, so ist der Rangkorrelationskoeffizient definiert als 6 R=1−
n
d2i
i=1 n(n2 −
1)
.
(4.12)
Der Wertebereich von R liegt in den Grenzen von −1 bis +1, wobei bei R = +1 zwei identische Rangreihen vorliegen. Ist R = −1, so liegen zwei gegenl¨ aufige Rangreihen vor. Aus dem Vorzeichen von R lassen sich also Aussagen u ¨ber die Richtung des Zusammenhangs ableiten.
78
4. Analyse des Zusammenhangs zweier Merkmale
Beispiel 4.2.7. Sechs zuf¨ allig ausgew¨ ahlte Mehrk¨ampfer belegten bei einem Wettbewerb folgende R¨ ange beim Weitsprung und beim Sprint: Athlet Platz Weitsprung Platz Sprint
1 10 8
2 3 1
3 4 2
4 6 7
5 7 9
6 5 4
Wenn wir nun den Rangkorrelationskoeffizienten von Spearman zum Zusammenhang zwischen der Platzierung im Weitsprung und im Sprint berechnen, so ben¨ otigen wir erst einige Hilfsgr¨ oßen: i 1 2 3 4 5 6
xi 10 3 4 6 7 5
R(xi ) 6 1 2 4 5 3
yi 8 2 1 7 9 4
R(yi ) 5 2 1 4 6 3
di 1 -1 1 0 -1 0
d2i 1 1 1 0 1 0 4
Nun k¨ onnen wir den Korrelationskoeffizienten berechnen: 6 R = 1− = 1−
n
d2i
i=1 n(n2 −
1)
6·4 = 0.8857. 6 · 35
Es scheint also einen stark positiven Zusammenhang zwischen den Ergebnissen beim Sprint und beim Weitsprung zu geben. Anmerkung. W¨ ahrend der Begriff ‘Assoziation’ f¨ ur einen beliebigen Zusammenhang steht, legt der Begriff ‘Korrelation’ die Struktur des Zusammenhangs – eine lineare Beziehung – fest. Da diese lineare Beziehung bei ordinalen Daten nur auf den R¨ angen basiert, sprechen wir vom Rangkorrelationskoeffizienten.
4.3 Zusammenhang zwischen zwei stetigen Merkmalen Sind die beiden Merkmale X und Y metrisch skaliert, so sind die Abst¨ande zwischen den Merkmalsauspr¨ agungen interpretierbar und k¨onnen bei der Konstruktion eines Zusammenhangsmaßes ber¨ ucksichtigt werden. Liegt ein exakter positiver Zusammenhang vor, so erwartet man, dass bei Erh¨ohung des einen Merkmals um eine Einheit sich auch das andere Merkmal um das Vielfache seiner Einheit erh¨ oht. Der Zusammenhang l¨asst sich also durch eine lineare Funktion der Form y = a + b x beschreiben. Wir sprechen daher
4.3 Zusammenhang zwischen zwei stetigen Merkmalen
79
auch von Korrelation und wollen damit ausdr¨ ucken, dass es sich um einen linearen Zusammenhang handelt. Abbildung 4.4 zeigt die drei typischen Situationen. Links oben erkennt man einen stark positiven, rechts oben einen stark negativen Zusammenhang. Der untere Plot zeigt absolut keinen Zusammenhang, er wird auch als Chaosplot bezeichnet.
Abb. 4.4. Stark positive, schwach negative bzw. keine Korrelation
Der Korrelationskoeffizient von Bravais-Pearson ist definiert als r(X, Y ) = r mit n
r=
(xi − x ¯)(yi − y¯)
i=1 n
(xi − x ¯)2 ·
i=1
=
n
(yi − y¯)2
i=1
Sxy . Sxx Syy
(4.13)
Dabei sind Sxx =
n
(xi − x ¯)2
i=1
bzw.
Syy =
n
(yi − y¯)2
(4.14)
i=1
die Quadratsummen und Sxy =
n i=1
(xi − x ¯)(yi − y¯)
(4.15)
80
4. Analyse des Zusammenhangs zweier Merkmale
die Summe der gemischten Produkte. Der Korrelationskoeffizient ist ein dimensionsloses Maß, in das beide Merkmale X und Y symmetrisch eingehen, d. h. es gilt r(X, Y ) = r(Y, X). Der Korrelationskoeffizient r liegt zwischen den Grenzen −1 und +1. Ist r = +1 oder r = −1, so liegt ein exakter linearer Zusammenhang zwischen X und Y vor, d. h. es gilt Y = a + b X. Dies gilt speziell f¨ ur a = 0 und b = 1, d.h. Y = X. Jede stetige Variable ist mit sich selbst mit r(X, X) = 1 korreliert. Im Fall a = 0 und b = −1 folgt Y = −X und r(X, −X) = −1. Beispiel 4.3.1. Wir betrachten erneut das Beispiel 4.1.4. Wir m¨ochten nun den Korrelationskoeffizienten f¨ ur die beiden Merkmale “Temperatur” und “Umsatz” bestimmen. Nach Berechnung von sT = 28.94, sU = 139.22 und sT U = −59.03 folgt: −59.03 sT U ≈ −0.93 . =√ r== √ sT sU 28.94 · 139.22 Die beiden Merkmale scheinen also tats¨ achlich stark negativ miteinander zusammenzuh¨ angen. Je h¨ oher die Temperatur, desto geringer der Umsatz!
4.4 Weitere Hinweise Merke:
Sinnvolle Verwendung der vorgestellten Zusammenhangsmaße: 2 nominale Merkmale
→
Pearsons χ2 , Φ-Koeffizient, OddsRatio, Cramers V , C und Ckorr
2 ordinale Merkmale
→
Rangkorrelationskoeffizient Spearman
2 metrische Merkmale
→
Korrelationskoeffizient nach Bravais-Pearson
nach
Sind die Skalenniveaus der Merkmale verschieden, also z.B. metrisch/ordinal oder ordinal/nominal, so ist jeweils das Maß f¨ ur das ‘niedrigere’ Skalenniveau zu verwenden.
Gemischt stetig-diskrete Merkmale k¨ onnen auch u ¨ber aufgesplittete Konfidenzintervalle (Intervallplots, Error-Plots) dargestellt werden, vergleiche Kapitel 10.
4.5 Aufgaben
81
4.5 Aufgaben Aufgabe 4.1: Ein kleines Freibad notiert sich an 14 aufeinanderfolgenden Tagen den Umsatz von Eis (in EUR) sowie die jeweilige Niederschlagsmenge (in mm): Niederschlag Umsatz Niederschlag Umsatz
10 170 35 60
0 207 34 63
8 167 4 140
15 132 6 192
20 126 0 190
25 80 8 155
27 82 16 140
a) Zeichnen und interpretieren Sie das Streudiagramm der beiden Merkmale ‘Umsatz‘ und ‘Niederschlag‘! b) Berechnen Sie den Korrelationskoeffizienten von Bravais-Pearson! c) Zeichnen Sie zwei Boxplots des Merkmals ‘Umsatz‘, aufgesplittet nach einer Niederschlagsmenge < 16mm und ≥ 16 mm. L¨ osung: a) Abbildung 4.5 zeigt das Streudiagramm. Es scheint einen negativen linearen Zusammenhang zwischen “Niederschlag” und “Umsatz” zu geben.
Abb. 4.5. Streudiagramm der Merkmale ‘Umsatz‘ und ‘Niederschlag‘
b) Mit den Mittelwerten x ¯N = 14.86, x ¯U = 136, sowie den Quadratsummen sN U = −7104, sN = 1805.714 und sU = 30876 folgt: −7104 sN U ≈ −0.95. =√ r(N, U ) = √ sN sU 1805.714 · 30876
82
4. Analyse des Zusammenhangs zweier Merkmale
Der Wert −0.95 liegt sehr nahe bei −1, was den Verdacht des stark negativen Zusammenhangs der beiden Merkmale noch einmal best¨atigt. c) Auch in den Boxplots ist der negative Zusammenhang der beiden Merkmale deutlich zu erkennen:
Abb. 4.6. Boxplots f¨ ur den Umsatz
Aufgabe 4.2: F¨ ur eine lokale Studentenzeitschrift wurden von zwei Testpersonen in 5 Schwabinger Caf´es die Cappuccini gekostet. Zur Bewertung der Qualit¨ at wurde ein Punkteschema von 1 (= miserabel) bis 10 (= ausgezeichnet) eingef¨ uhrt. Die jeweiligen Urteile der Testtrinker X und Y sind aus der folgenden Tabelle zu entnehmen: Caf´e i 1 2 3 4 5
xi 3 8 7 9 5
yi 6 7 10 8 4
Beurteilen Sie die Wertungen der beiden Testtrinker zueinander mit Hilfe des Rangkorrelationskoeffizienten von Spearman.
4.5 Aufgaben
83
L¨ osung: Caf´e i 1 2 3 4 5
xi 3 8 7 9 5
R(xi ) 1 4 3 5 2
yi 6 7 10 8 4
R(yi ) 2 3 5 4 1
di -1 1 -2 1 1
d2i 1 1 4 1 1
n 6 i=1 d2i 6(1 + 1 + 4 + 1 + 1) =1− = 1 − 0.4 = 0.6. R= 2 n(n − 1) 5(25 − 1) Der Rangkorrelationskoeffizient deutet, mit einem Wert von 0.6, auf einen mittelstarken positiven Zusammenhang der Wertungen der Testtrinker hin. Man kann also davon ausgehen, dass wenn der eine Testtrinker den Cappuccino hoch bewertet, dass dies nicht auch gleich f¨ ur den anderen Testtrinker gelten muss. Aufgabe 4.3: An einer Tankstelle wurden 150 Kunden nach dem Fahrzeugtyp gefragt, den sie am meisten benutzen, und der Zufriedenheit mit ihrer KFZVersicherung. Die nachfolgende Tabelle enth¨ alt das Ergebnis der Erhebung: Typ des Fahrzeugs Auto mit Benzinmotor Auto mit Dieselmotor Motorrad
zufrieden 33 29 12
unzufrieden 25 31 20
a) Berechnen Sie die unter der Annahme der Unabh¨angigkeit der beiden Merkmale ’Fahrzeugtyp’ und ’Zufriedenheit’ zu erwartenden H¨aufigkeiten und berechnen Sie eine geeignete Maßzahl, die eine Aussage u ¨ber den Zusammenhang zwischen den Merkmalen ’Fahrzeugtyp’ und ’Zufriedenheit’ liefert. b) Welcher Zusammenhang ergibt sich, wenn nur noch zwischen Autos und Motorr¨ adern unterschieden wird? c) Vergleichen und interpretieren Sie die Ergebnisse aus a) und b). L¨ osung: a) Tabelle unter Unabh¨ angigkeit: Typ des Fahrzeugs Auto mit Benzinmotor Auto mit Dieselmotor Motorrad
zufrieden 28.61 29.6 15.79
unzufrieden 29.39 30.4 16.21
84
4. Analyse des Zusammenhangs zweier Merkmale
χ2 =
k l (nij −
ni+ n+j 2 ) n ni+ n+j n
i=1 j=1
(25 − 29.39)2 (29 − 29.6)2 (33 − 28.61)2 + + 28.61 29.39 29.6 (12 − 15.79)2 (20 − 16.21)2 (31 − 30.4)2 + + + 30.4 15.79 16.21 = 0.6736 + 0.6557 + 0.0122 + 0.0112 + 0.9097 + 0.8861 =
= 3.1485. Da der Maximalwert der χ2 -Statistik hier bei 150(2 − 1) = 150 liegt, ist der Zusammenhang als sehr schwach einzustufen. Ferner l¨ asst sich berechnen: Cramers V: V =
χ2 = n(min(k, l) − 1)
3.1485 = 0.14 150(2 − 1)
Ckorr :
Ckorr =
min(k, l) min(k, l) − 1
χ2 = +n
χ2
√ √ 2 3.1485 = = 2 0.02056 1 3.1485 + 150 ≈ 0.20. Die beiden Maße zeigen auch, dass zwischen den Merkmalen ’Fahrzeugtyp’ und ’Zufriedenheit’ kaum ein Zusammenhang besteht. Sie sind also eher unabh¨ angig. b) F¨ ur diesen Fall ergibt sich: Typ des Fahrzeugs Auto Motorrad
χ2 =
=
zufrieden 62 12
unzufrieden 56 20
n(ad − bc)2 = (a + d)(c + d)(a + c)(b + d) 48393600 150(1240 − 672)2 = ≈ 2.2788. 118 · 32 · 74 · 76 21236224
4.5 Aufgaben
OR =
85
62 · 20 1240 ad = = ≈ 1.845 bc 12 · 56 672
c) Nach Zusammenfassung wird der Zusammenhang zwischen den Variablen noch schw¨ acher. Der Wert von χ2 ist noch kleiner und der Odds-Ratio ist nahe bei Eins. Dies l¨ asst auf ’falsches’ Zusammenfassen schließen. Aufgabe 4.4: Gegeben seien n Punktepaare (xi , yi ), i = 1, . . . , n. a) F¨ ur jedes i gilt yi = a + bxi mit b > 0. Zeigen Sie, dass gilt: r = 1. b) F¨ ur jedes i gilt yi = a + bxi mit b < 0. Zeigen Sie, dass gilt: r = −1. L¨ osung: a) Der Korrelationskoeffizient ist bekanntlich durch (4.13) gegeben. Wenn wir nun f¨ ur yi den Ausdruck a + bxi einsetzen und uns dann noch u ¨berlegen, dass y¯ gerade a + b¯ x ist, erhalten wir n
r=
(xi − x ¯)(a + bxi − (a + b¯ x))
i=1 n
(xi − x ¯)2
i=1
n
. (a + bxi − (a + b¯ x))2
i=1
Nachdem wir die Klammern au߬ osen und umstellen ergibt sich n
r=
(xi − x ¯)(b(xi − x ¯))
i=1 n
(xi −
x ¯)2
i=1
.
n
(b(xi −
x ¯))2
i=1
Da b nicht von i abh¨ angt, darf es vor die Summen gezogen werden, so erhalten wir den Term
(x −¯x) (x −¯x) b (x −¯ x) b
rx,y =
n
i=1
2
n
i=1
i
2
i
2
n
i=1
i
. 2
Durch Wurzelziehen und K¨ urzen erhalten wir nun r = 1. b) F¨ ur b < 0 m¨ ussen wir analog vorgehen. Im letzten Schritt hat man im urlich positiv ist. Zieht man also die Wurzel aus Nenner b2 stehen, was nat¨ alt man |b| = −b, da b negativ ist. Also wird b durch −b dividiert b2 erh¨ und wir erhalten r = −1.
86
4. Analyse des Zusammenhangs zweier Merkmale
Aufgabe 4.5: In der folgenden Tabelle finden Sie f¨ ur das Jahr 1986 die Geschwindigkeitsbeschr¨ ankung auf Landstraßen (in Meilen pro Stunde) (x) und die Anzahl der Toten pro 100 Millionen Autokilometer (y) in 5 L¨andern. Land D¨ anemark Japan Kanada Holland Italien
H¨ ochstgeschwindigkeit 55 55 60 60 75
Anzahl Tote 4.1 4.7 4.3 5.1 6.1
a) Zeichnen Sie das Streudiagramm. b) Bestimmen Sie den Korrelationskoeffizienten von Bravais-Pearson und interpretieren Sie ihn. c) Wie ¨ andert sich der Wert des Korrelationskoeffizienten von Bravais- Pearson, wenn die Geschwindigkeitsbeschr¨ ankung nicht in Meilen pro Stunde, sondern in Kilometern pro Stunde bestimmt wird? d) In England betrug die Geschwindigkeitsbeschr¨ankung im Jahr 1986 70 Meilen pro Stunde. Die Todesrate lag bei 3.5. i) Ber¨ ucksichtigen Sie diesen Wert im Streudiagramm. ii) Wie a ¨ndert sich der Wert des Korrelationskoeffizienten von BravaisPearson, wenn Sie den Wert von England ber¨ ucksichtigen? L¨ osung: a) Betrachten wir zuerst das Streudiagramm, Abbildung 4.7 (links), f¨ ur den Zusammenhang von Geschwindigkeitsbegrenzungen und Verkehrstoten.
Abb. 4.7. Streudiagramm der Merkmale ’Geschwindigkeitsbegrenzung’ und ’Verkehrstote’
Man erkennt eine steigende Struktur. Je h¨ oher das Tempolimit desto mehr Verkehrstote hat das Land. Italien sticht ein wenig hervor mit seinem sehr hohem Tempolimit von 75 mph und den entsprechend vielen Verkehrstoten. Man kann Italien als
4.5 Aufgaben
87
den strukturgebenden Punkt charakterisieren. Ohne Italien w¨are der Zusammenhang nicht sehr deutlich. b) Mit x ¯ = 61, y¯ = 4.86 erhalten wir Sxx = 270 und Syy = 2.512 und Sxy = S 23.2 als Quadratsummen. Damit kann r(x, y) = √ xy folgendermaßen Sxx Syy
23.2 berechnet werden: r(x, y) = √270·2.512 = 0.891. Das Korrelationsmaß ist nahe 1, somit deutet es auf einen positiven Zusammenhang hin.
c) Wenn wir die Daten f¨ ur England hinzunehmen erhalten wir den in Abb. 4.7 (rechts) dargestellten Zusammenhang. Man sieht, dass die Briten trotz des hohen Tempolimits wenig Verkehrstote zu beklagen haben im Jahr 1986. Die Hinzunahme der englischen Daten schw¨ acht den Zusammenhang also deutlich ab. d) Der Korrelationskoeffizient wird deutlich abnehmen, da England ein f¨ ur die g¨ angige Struktur untypisches Punktepaar ist. Die Hilfsgr¨oßen f¨ ur den Korrelationskoeffizienten sind: x ¯ = 62.5, y¯ = 4.6333, Sxx = 337.5, Syy = 4.0533, Sxy = 13. Das ergibt r = 0.3515, was auf einen sehr schwachen, bis kaum vorhandenen positiven Zusammenhang hindeutet. Aufgabe 4.6: Die folgenden Tabelle zeigt die Anzahl St¨orche pro Hektar (x) und die Geburtenzahlen pro tausend Einwohner (y) verschiedener Regionen. St¨ orche/Hektar 20 30 40 50 60 70
Geburten/Tausend 13 24 43 51 57 77
a) Zeichnen Sie das entsprechende Streudiagramm. b) Bestimmen Sie den Korrelationskoeffizienten von Bravais-Pearson. c) K¨ onnen Sie anhand des Ergebnisses ableiten, dass St¨orche vielleicht doch die Babies bringen? L¨ osung: a) Das Streudiagramm ist in Abb. 4.8 dargestellt. Eine steigende Struktur ist zu erkennen, mit steigender Storchenanzahl steigen auch die Geburten.
88
4. Analyse des Zusammenhangs zweier Merkmale
Abb. 4.8. Streudiagramm der Merkmale ’St¨ orche’ und ’Geburten’
b) F¨ ur das Storchenproblem erhalten wir als Hilfsgr¨oßen zur Berechnung des Korrelationskoeffizienten x ¯ = 45, y¯ = 44.1667 und damit erhalten wir Sxx = 1750 und Syy = 2668.833 und Sxy = 2135. Somit ergibt sich r(x, y) = √
2135 = 0.9879. 1750 · 2668.833
Es gibt also einen sehr starken Zusammenhang zwischen den Merkmalen ’St¨ orche’ und ’Geburten’. c) Die Datenreihen Anzahl der St¨ orche und Geburten weisen also eine starke positive Korrelation auf. Doch dies bedeutet nicht, wie jeder weiß, dass der Storch die Babies bringt. Hier haben wir es vielmehr mit einer Scheinkorrelation zu tun, die nicht eine Kausalit¨at wiederspiegelt sondern eher als ein statistisches Artefakt zu interpretieren ist. Aufgabe 4.7: Von den Passagieren auf der Titanic waren 337 in der ersten Klasse, 285 in der zweiten Klasse und 721 in der dritten Klasse. Es waren 885 Besatzungsmitglieder an Bord. Von den Passagieren der ersten Klasse wurden nach dem Ungl¨ uck 135 vermisst, von denen der zweiten Klasse 160, von denen der dritten Klasse 541 und von der Besatzung 674. a) Erstellen Sie eine Kontingenztabelle. Berechnen Sie die relativen H¨aufigkeiten bezogen auf die Spaltensumme. Was sagen Ihnen diese Anteile? b) Bestimmen Sie die Kontingenztabelle unter Unabh¨angigkeit. c) Berechnen Sie zwei Kontingenzmaße. Gibt es einen Zusammenhang zwischen der sozialen Herkunft der Menschen auf der Titanic und dem Merkmal ’Gerettet/Vermisst’ ? d) Fassen Sie die erste und zweite Klasse zu einer Gruppe zusammen und die dritte Klasse und Besatzung zu einer weiteren Gruppe. Bestimmen Sie die Maße aus c) und den Odds-Ratio. Interpretieren Sie Ihr Ergebnis.
4.5 Aufgaben
89
L¨ osung: a) Wenn man die Angaben aus der Aufgabenstellung tabellarisch zusammenfasst erh¨ alt man folgende Tabelle. x\ y 1.Klasse 2.Klasse 3.Klasse Besatzung Gerettet 202 125 180 211 718 Vermisst 135 160 541 674 1510 337 285 721 885 2228 Die Tabelle der relativen H¨ aufigkeiten erh¨ alt man, wenn man die Werte der gemeinsamen Verteilung (innerhalb der Tabelle) durch die Spaltensumme (die Randverteilung ) dividiert. x\ y Gerettet Vermisst
1.Klasse 0.5994 0.4006
2.Klasse 0.4386 0.5614
3.Klasse 0.2497 0.7503
Besatzung 0.2384 0.7616
Man erkennt recht deutlich, dass man als Passagier der ersten Klasse die ¨ h¨ ochste Uberlebenschance des Ungl¨ ucks hatte. Auch von den Passagieren der zweiten Klasse wurden noch viele gerettet. Die Passagiere der dritten Klasse und die Besatzungsmitglieder hatten sehr a¨hnliche Anteile, so dass man annehmen kann, dass sie zu einer Gruppe geh¨oren. b) Die Tabelle unter Unabh¨ angigkeit wird wie gehabt berechnet. x\ y Gerettet Vermisst
1.Klasse 108.6 228.4 337
2.Klasse 91.8 193.2 285
3.Klasse 232.4 488.6 721
Besatzung 285.2 599.8 885
718 1510 2228
Man erkennt recht hohe Unterschiede zwischen den Werten unter Unabh¨ angigkeit und den Ausgangswerten. c) Berechnen wir nun die χ2 −Statistik und z.B. Cramer‘s V. 2
χ =
k l (nij − i=1 j=1
ni+ n+j 2 ) n ni+ n+j n
=
(125 − 91.8)2 (202 − 108.6)2 + 108.6 91.8
(211 − 285.2)2 (135 − 228.4)2 (180 − 232.4)2 + + 232.4 285.2 228.4 (541 − 488.6)2 (674 − 599.8)2 (160 − 193.2)2 + + + 193.2 488.6 599.8 = 80.33 + 12.01 + 11.82 + 19.30 + 38.19 + 5.71 + 5.62 + 9.18 = 182.16. +
90
4. Analyse des Zusammenhangs zweier Merkmale
Der Maximalwert liegt hier bei 2228(2 − 1) = 2228. Da 183.22 n¨aher an der Null liegt als an der 2228 ist der Zusammenhang eher schwach. Doch die relativen H¨ aufigkeiten zeigen ein anderes Bild. Berechnen wir noch Cramer‘s V, so erhalten wir χ2 182.16 = = 0.286. V = n(min(k, l) − 1) 2228 Man sieht, dass Cramer‘s V bei Tabellen mit 2 Zeilen bzw. Spalten dem φ-Koeffizienten entspricht. Cramer‘s V ist auch eher nahe 0, was auch auf Unabh¨angigkeit bzw. einen schwachen Zusammenhang schließen l¨ asst. d) Durch die Zusammenfassung erhalten wir folgende Tabelle. x\ y Gerettet Vermisst
1. und 2.Klasse 327 295 622
3.Klasse und Besatzung 391 1215 1606
718 1510 2228
Das χ2 f¨ ur 4 Feldertafeln erhalten wir mit 2228(327 · 1215 − 295 · 391)2 = 163.55. 718 · 1510 · 622 · 1606 Cramer‘s V bzw. der φ-Koeffizient ist 163.55 2228 = 0.271. Der Zusammenhang ist schw¨ acher geworden durch die Zusammenfassung. χ2 =
397305 Der Odds-Ratio ist OR = a·d oßer als Eins. b·c = 115345 = 3.444. Dieser ist gr¨ Somit ist ein positiver Zusammenhang zwischen den zusammengefassten Merkmalen zu erkennen.
Wenn man noch mal u ¨ber die Situation auf der Titanic nachdenkt, ist ein gewisser Zusammenhang nachvollziehbar. Die Passagiere in der ersten und zweiten Klasse hatten ihre Kabinen im oberen Teil des Schiffes. Sie konnten deshalb die Rettungsboote viel einfacher erreichen. Die Passagiere der dritten Klasse sowie die Mannschaft waren im Rumpf des Schiffes, die Passagiere hatten dort ihre Kabinen und der Großteil der Besatzung arbeitete im Maschinenraum. Somit waren sie zum Zeitpunkt der Katastrophe direkt von dem eindringenden Wasser bedroht. Aufgabe 4.8: In einer Studie soll der Zusammenhang zwischen der durchschnittlichen Monatstemperatur und der Hotelauslastung an drei Orten untersucht werden. Als typischer Wintersportort wurde Davos gew¨ahlt, f¨ ur den Sommerurlaub Polenca auf Mallorca und als Stadt- und Gesch¨aftsreiseziel
4.5 Aufgaben
91
Basel. Es wurden in den Monaten des Jahres 2002 die Durchschnittstempeuber sowie die Hotelauslastungen in % (Y ) erhoben. raturen in ◦ C (X) tags¨ Monat Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec
Davos X -6 -5 2 4 7 15 17 19 13 9 4 0
Y 91 89 76 52 42 36 37 39 26 27 68 92
Polenca X 10 10 14 17 22 24 26 27 22 19 14 12
Y 13 21 42 64 79 81 86 92 36 23 13 41
Basel X 1 0 5 9 14 20 23 24 21 14 9 4
Y 23 82 40 45 39 43 50 95 64 78 9 12
a) Berechnen Sie den Korrelationskoeffizienten r(X, Y ). Gibt es einen linea36 ¯ = 12.22, y¯ = 51.28, ren Zusammenhang? (Hinweis: i=1 xi yi = 22776, x s2x = 79.15 und s2y = 727.18) b) Abbildung 4.9 zeigt das Streudiagramm f¨ ur alle Werte von X und Y . Dabei wurden Markierungen f¨ ur die jeweiligen Orte gemacht. Interpretieren Sie die Grafik. Gehen Sie dabei insbesondere auf die m¨oglichen Gruppen ein und die Strukturen innerhalb der Gruppen. c) Zeichnen und interpretieren Sie die Streudiagramme f¨ ur die einzelnen Ortschaften. Ist der Zusammenhang von Temperatur und Hotelauslastung abh¨ angig von dem Ort? d) Berechnen Sie nun mit Hilfe der SPSS Outputs aus Abbildung 4.10 und 4.11 die Korrelation zwischen der Temperatur und der Auslastung f¨ ur alle Orte. Interpretieren Sie Ihre Ergebnisse.
L¨ osung:
a) Mit den angegebenen Hinweisen ergibt sich der Korrelationskoeffizient 36 xy¯ S 216.9 √ xi2yi −36¯ √2 2 = i=1 = 22776−36·12.22·51.28 = 36√79.15·727.18 = r = √S xyS 2 XX
216.9 8636.72
YY
= 0.025.
nsX nsY
n
sX sY
92
4. Analyse des Zusammenhangs zweier Merkmale
Abb. 4.9. Streudiagramm zwischen Temperatur und Hotelauslastung
Abb. 4.10. Verschiedene deskriptive Statistiken zum Aufgabenteil d)
Es scheint also keinen linearen Zusammenhang zwischen den Temperaturen und der Auslastung zu geben. b) Das Streudiagramm der gesamten Daten best¨atigt das Ergebnis des Korrelationskoeffizienten und zeigt keine direkten Strukturen. Durch die Markierungen erkennt man aber, dass die Orte eine entscheidende Rolle spielen. Die Punktepaare, die z.B. zu Polenca auf Mallorca geh¨oren, weisen eine steigende Struktur auf. c) Es sollten also die Daten nach den Orten aufgeteilt werden. Die Streudiagramme haben dann die Gestalt wie in Abbildung 4.12. Die Streudiagramme zeigen f¨ ur Davos einen negativen Zusammenhang zwischen der Temperatur und der Hotelauslastung, f¨ ur Mallorca zeigt sich ein positiver Zusammenhang und f¨ ur Basel erkennt man eine leicht steigende Struktur.
4.5 Aufgaben
93
Abb. 4.11. Korrelationen und Kovarianzen zu Aufgabenteil d)
Abb. 4.12. Streudiagramme ’Temperatur-Hotelauslastung’ aufgesplittet nach ’Ort’
d) Im SPSS Output 4.10 sind die Mittelwerte und Standardabweichungen f¨ ur die Orte gegeben. Desweiteren sind Quadratsummen und die Kovarianzen f¨ ur die drei Orte in Output 4.11 zu finden. Also kann der Korrelationskoeffizient wie oben bestimmt werden.
94
4. Analyse des Zusammenhangs zweier Merkmale
Mit r =
sxy sx sy
i) rD = ii) rP = iii) rB =
erh¨ alt man:
−183.432 8.262·25.506 148.523 6.112·29.696 97.182 8.602·27.211
= −0.87 = 0.818 = 0.415
Die Werte stimmen offensichtlich mit denen aus Abbildung 4.11 u ¨berein.In Davos ist ein starker negativer linearer Zusammenhang erkennbar: je niedriger die Temperatur desto h¨ oher die Hotelauslastung. In Mallorca ist der Zusammenhang nat¨ urlich umgekehrt: je h¨oher die Temperatur desto h¨ oher die Auslastung. In Basel hingegen hat man nur einen leichten positiven Zusammenhang. St¨ adtetouristen und Gesch¨ aftsreisende lassen sich nicht so stark vom Wetter beeinflussen wie Wintersportler und Sommertouristen.
5. Lineare Regression
5.1 Einleitung In diesem Kapitel diskutieren wir Methoden zur Analyse und Modellierung des Einflusses eines quantitativen Merkmals X auf ein anderes quantitatives Merkmal Y . Wir setzen voraus, dass an einer Beobachtungseinheit (Person, Firma, Geldinstitut usw.) zwei Merkmale X und Y gleichzeitig beobachtet werden. Diese Merkmale seien metrisch. Es werden also n Beobachtungen (xi , yi ), i = 1, . . . , n des zweidimensionalen Merkmals (X, Y ) erfasst. Diese Daten werden in einer Datenmatrix zusammengestellt. i 1 2 .. . n
X x1 ⎜ x2 ⎜ ⎜ .. ⎝ . ⎛
xn
Y ⎞ y1 y2 ⎟ ⎟ .. ⎟ . ⎠ yn
Beispiel 5.1.1. M¨ogliche Kausalit¨ atsbeziehungen zwischen X und Y • K¨ orpergr¨ oße (X) und Gewicht (Y ) einer Person i • Geschwindigkeit (X) und Bremsweg (Y ) eines PKW i • Einsatz von Werbung in EURO (X) und Umsatz in EURO (Y ) in einer Filiale i • D¨ ungermenge (X) und Ernteertrag (Y ) eines Feldes i • Durchschnittstemperatur (X) und Hotelauslastung (Y ) eines Ferienortes i 5.1.1 Das Modell Neben der grafischen Darstellung eines zweidimensionalen quantitativen Merkmals (X, Y ) in Form eines Scatterplots (Kapitel 4.1.4) kann man die St¨arke und die Richtung des linearen Zusammenhangs zwischen den beiden Merkmalskomponenten X und Y durch den Korrelationskoeffizienten erfassen (Kapitel 4.3). Wir gehen nun einen Schritt weiter und versuchen, den linearen Zusammenhang zwischen X und Y durch ein statistisches Modell zu erfassen. Dazu
96
5. Lineare Regression
setzen wir voraus, dass X als gegeben angesehen wird, w¨ahrend Y als Reaktion auf X beobachtet wird. Dies ist die allgemeine Struktur einer UrsacheWirkungs-Beziehung zwischen X und Y . Ein einfaches Modell ist die lineare Gleichung Y = a + bX . (5.1) Das Merkmal X ist fest gegeben. Das Merkmal Y wird zu vorgegebenem X beobachtet und weist im allgemeinen eine nat¨ urliche Streuung auf. Aus diesem Grund werden die Werte von Y nicht exakt auf der Geraden (5.1) liegen. Deshalb bezieht man ein Fehlerglied oder Residuum e in den linearen Zusammenhang mit ein: Y = a + bX + e . (5.2) Auf die genaue Bedeutung des Residuums e gehen wir in Kapitel 13 detailliert ein. 5.1.2 Grafische Vor¨ uberlegungen Bevor man an die Modellierung einer Ursache-Wirkungs-Beziehung geht, sollte man sich durch grafische Darstellungen eine Vorstellung vom m¨oglichen Verlauf des Modells (5.2) verschaffen. Die Streudiagramme aus Abbildung 5.1 stellen Extremsituationen von stark positivem, negativem bzw. keinem linearen Zusammenhang dar.
Abb. 5.1. Stark positiver, schwach negativer bzw. kein linearer Zusammenhang
M¨ ochte man ein geeignetes Modell der Form (5.2) finden, so ist offensichtlich klar, dass im linken oberen Bild der Parameter b positiv sein sollte, im
5.2 Prinzip der kleinsten Quadrate
97
rechten oberen Bild negativ und im unteren Bild in etwa Null. Wir wollen im folgenden Kapitel das Prinzip zur Sch¨ atzung geeigneter a und b vorstellen, das Prinzip der kleinsten Quadrate.
5.2 Prinzip der kleinsten Quadrate Seien die n Beobachtungen Pi = (xi , yi ), i = 1, . . . , n, des zweidimensionalen Merkmals P = (X, Y ) als Punktwolke (bivariater Scatterplot) in das x-yKoordinatensystem eingetragen. Es soll nun eine Ausgleichsgerade yˆ = a+bx gefunden werden, die den Zusammenhang zweier Merkmale linear beschreibt. Dabei sollen der Achsenabschnitt a und der Anstieg b m¨oglichst g¨ unstig gesch¨ atzt werden. Dazu verwenden wir das Prinzip der kleinsten Quadrate, das die Gerade mit den kleinsten quadratischen Abweichungen zu den Datenpunkten w¨ ahlt (siehe auch Abb. 5.2). Wir greifen nun einen beliebigen Beobachtungspunkt Pi = (xi , yi ) heraus. Ihm entspricht der Punkt Pˆi = (xi , yˆi ) auf der Geraden, d. h. es gilt yˆi = a + bxi . Vergleicht man den beobachteten Punkt (xi , yi ) mit dem durch die Gerade alt man als Differenz (in y-Richtung) das angepassten Punkt (xi , yˆi ), so erh¨ sogenannte Residuum oder Fehlerglied ei = yi − yˆi = yi − a − bxi .
yˆ = a + bx
y3 e3
y4 y1
y2
(5.3)
e1
Anstiegswinkel e4
e2
a
x1
x2
x3
x4
Abb. 5.2. Regressionsgerade, Beobachtungen yi und Residuen ei
98
5. Lineare Regression
Die Residuen ei (i = 1, . . . , n) messen die Abst¨ande der beobachteten Punktwolke Pi = (xi , yi ) zu den angepassten Punkten (xi , yˆi ) l¨angs der yAchse (siehe auch Abb. 5.2). Je gr¨ oßer die Residuen ei insgesamt sind, um so schlechter ist die Anpassung der Regressionsgeraden an die Punktwolke. Als globales Maß f¨ ur die G¨ ute der Anpassung w¨ ahlt man: n
e2i .
(5.4)
i=1
Die durch das Optimierungsproblem min a,b
n
e2i = min a,b
i=1
n (yi − a − bxi )2
(5.5)
i=1
gewonnenen L¨ osungen a ˆ und ˆb heißen empirische Kleinste-QuadrateSch¨ atzungen von a und b, auch KQ-Sch¨ atzungen. Die damit gebildete Gerade yˆ = a ˆ + ˆbx heißt (empirische) Regressionsgerade von Y nach X. Die Kleinste-Quadrate-Sch¨ atzungen von a und b lauten explizit: ˆb = Sxy Sxx (5.6) a ˆ = y¯ − ˆb¯ x Beispiel 5.2.1. In einer Stadt wird eine neue Finnbahn f¨ ur Jogger errichtet. In einer Umfrage werden die ersten zw¨ olf Jogger nach ihrem Alter und der Dauer ihres Laufes (in Minuten) gefragt. Es ergab sich folgende Datensituation: i xi (Alter) yi (Laufdauer)
1 24 90
2 35 65
3 64 30
4 20 60
5 33 60
6 27 80
7 42 45
8 41 45
9 22 80
10 50 35
11 36 50
12 31 45
In Abb. 5.3 ist das Streudiagramm der beiden Merkmale dargestellt, das auf einen negativen Einfluss des Alters auf die Laufdauer hindeutet. M¨ ochten wir nun ein lineares Modell sch¨ atzen, so m¨ ussen wir zuallererst einige Terme berechnen: Mit x ¯ = 35.41 und y¯ = 57.08 ergeben sich die notwendigen Terme, wie in Tabelle 5.1 zu sehen. Nun lassen sich ohne weiteres die beiden Sch¨atzer a ˆ und ˆb berechnen: −x ¯)(yi − y¯) −2125.65 ˆb = Sxy = (x i ≈ −1.22 = 2 (xi − x Sxx ¯) 1748.94 a ˆ = y¯ − ˆb¯ x = 57.08 − (−1.215) · 35.41 = 100.28 Damit ergibt sich also eine Regressionsgerade von yˆ = 100.28 − 1.22 · x
5.2 Prinzip der kleinsten Quadrate
99
Abb. 5.3. Streudiagramm und Regressionsgerade f¨ ur die Merkmale ’Laufdauer’ und ’Alter’ Tabelle 5.1. Notwendige Hilfsgr¨ oßen f¨ ur Beispiel 5.2.1 i 1 2 3 4 5 6 7 8 9 10 11 12
xi − x ¯ -11.41 -0.41 28.59 -15.41 -2.41 -8.41 6.59 5.59 -13.41 14.59 0.59 -4.41
yi − y¯ 32.92 7.92 -27.08 2.92 2.92 22.92 -12.08 -12.08 22.92 -22.08 -7.08 -12.08
(xi − x ¯)(yi − y¯) -375.61 -3.25 -774.22 -45.00 -7.27 -192.75 -79.61 -67.53 -307.36 -322.14 -4.18 53.27 -2125.65
(xi − x ¯)2 130.19 0.17 817.39 237.47 5.81 70.73 43.43 31.25 179.83 212.87 0.35 19.45 1748.94
Unsere Sch¨ atzung f¨ ur einen linearen Zusammenhang zwischen Alter und Laufdauer w¨ urde also beispielsweise f¨ ur ein Alter von 38 eine Laufdauer von 100.28 − 1.22 · 38 = 53.92 Minuten voraussagen. Des weiteren prognostiziert ein ˆb von -1.22, dass wenn das Alter um ein Jahr steigt, die Laufzeit um 1.22 Minuten unter sonst gleichen Bedingungen abnimmt. Der Parameter a ˆ dient zur Normierung und ist hier nicht sinnvoll interpretierbar. 5.2.1 Eigenschaften der Regressionsgeraden Wir wollen nun einige interessante Eigenschaften der linearen Regression festhalten:
100
5. Lineare Regression
(i) Generell ist festzuhalten, dass die Regressionsgerade yˆi = a ˆ + ˆbxi nur sinnvoll im Wertebereich [x(1) , x(n) ] der x-Werte zu interpretieren ist. (ii) Aus (5.6) folgt f¨ ur die Werte Pˆi = (xi , yˆi ) die Beziehung yˆi = a ˆ + ˆbxi = y¯ + ˆb(xi − x ¯) .
(5.7)
(iii) Setzt man xi = x ¯, so wird yˆi = y¯, d. h. der Punkt (¯ x, y¯) liegt auf der Regressionsgeraden. (iv) Die Summe der gesch¨ atzten Residuen ist Null. Die gesch¨atzten Residuen sind eˆi = yi − yˆi = yi − (ˆ a + ˆbxi ) = yi − (¯ y + ˆb(xi − x ¯)) .
(5.8)
Damit erhalten wir f¨ ur ihre Summe n
eˆi =
i=1
n i=1
yi −
n
y¯ − ˆb
n
i=1
(xi − x ¯)
i=1
= n¯ y − n¯ y − ˆb(n¯ x − n¯ x) = 0 .
(5.9)
Die Regressionsgerade ist also fehlerausgleichend in dem Sinne, dass die Summe der negativen Residuen (absolut genommen) gleich der Summe der positiven Residuen ist. (v) Die durch die Regression angepassten Werte yˆi haben das gleiche arithmetische Mittel wie die Originaldaten yi : 1 1 y + ˆb(n¯ x − n¯ x)) = y¯ . y¯ ˆ= yˆi = (n¯ n i=1 n n
(5.10)
(vi) Nun wollen wir den Zusammenhang zwischen der KQ-Sch¨atzung ˆb und dem Korrelationskoeffizienten r betrachten. Der Korrelationskoeffizient der beiden Messreihen (xi , yi ), i = 1, . . . , n, ist (vgl. (4.13)) r=
Sxy . Sxx Syy
Damit gilt folgende Relation zwischen ˆb und r Syy Syy ˆb = Sxy = √ Sxy · =r . Sxx S S Sxx Syy xx xx
(5.11)
5.3 G¨ ute der Anpassung
101
Die Richtung des Anstiegs, d. h. der steigende bzw. fallende Verlauf der Regressionsgeraden, wird durch das positive bzw. negative Vorzeichen des Korrelationskoeffizienten r bestimmt. Der Anstieg ˆb der Regressionsgeraden ist also direkt proportional zum Korrelationskoeffizienten r. Der Anstieg ˆb ist andererseits proportional zur Gr¨oße des Anstiegswinkels selbst. Sei der Korrelationskoeffizient r positiv, so dass die Gerade steigt. Der Einfluss von X auf Y ist dann um so st¨arker je gr¨oßer ˆb ist. Die Gr¨ oße von ˆb wird gem¨ aß (5.11) aber nicht nur vom Korrelationskoeffizienten r sondern auch vom Faktor Syy /Sxx bestimmt, so dass eine h¨ ohere Korrelation nicht automatisch einen steileren Anstieg ˆb bedeutet. Andererseits bedeutet eine identische Korrelation nicht den gleichen Anstieg ˆb.
5.3 Gu ¨ te der Anpassung 5.3.1 Varianzanalyse Wir wollen nun ein Maß f¨ ur die G¨ ute der Anpassung der Regressionsgeraden an die Punktwolke (xi , yi ), i = 1, . . . , n, herleiten und analysieren deshalb die gesch¨ atzten Residuen eˆi = yi − yˆi . Es gilt: n i=1
(yi − y¯)2 =
n
(ˆ yi − y¯)2 +
i=1
n (yi − yˆi )2 .
(5.12)
i=1
Die Quadratsumme Syy auf der linken Seite von Gleichung (5.12) misst die totale Variabilit¨ at der y-Messreihe bezogen auf das arithmetische Mittel y¯. Sie wird auch mit SQTotal bezeichnet. Die beiden Quadratsummen auf der rechten Seite haben folgende Bedeutung: SQResidual =
n
(yi − yˆi )2
(5.13)
i=1
misst die Abweichung (l¨ angs der y-Achse) zwischen der Originalpunktwolke und den durch die Regression angepassten, also durch die Gerade vorhergesagten Werten. Die Quadratsumme (5.12) SQRegression =
n
(ˆ yi − y¯)2
(5.14)
i=1
misst den durch die Regression erkl¨ arten Anteil an der Gesamtvariabilit¨at. Damit lautet die fundamentale Formel der Streuungszerlegung: SQTotal = SQRegression + SQResidual .
(5.15)
102
5. Lineare Regression
Ausgehend von dieser Gleichung definiert man folgendes Maß f¨ ur die G¨ ute der Anpassung SQRegression SQResidual =1− . (5.16) R2 = SQTotal SQTotal R2 heißt Bestimmtheitsmaß. Es gilt 0 ≤ R2 ≤ 1. R2 gibt den Anteil der von der Regression erkl¨ arten Streuung in den Daten wieder. aher R2 an 1 liegt, desto besser ist die Je kleiner SQResidual ist, d. h. je n¨ mit der Regression erzielte Anpassung an die Punktwolke. Wir betrachten die beiden m¨ oglichen Grenzf¨ alle. urden, w¨are (i) Falls alle Punkte (xi , yi ) auf der Regressionsgeraden liegen w¨ yi = yˆi , (i = 1, . . . , n) und damit SQResidual = 0 und R2 =
SQRegression =1. SQTotal
Diesen Grenzfall bezeichnet man als perfekte Anpassung (vgl. Abbildung 5.4). Beispiel 5.3.1. Eine Firma zahlt Geh¨ alter nach dem Schl¨ ussel Grund” betrag a plus Steigerung in Abh¨ angigkeit von der Dauer der Betriebszugeh¨ origkeit“, d. h. nach dem linearen Modell Gehalt = a + b · Dauer der Betriebszugeh¨origkeit . angigkeit von der Dauer der Betriebszugeh¨origkeit Die Geh¨ alter yi in Abh¨ xi liegen damit exakt auf einer Geraden (Abbildung 5.4).
5000 4000 3000 2000 1000 0 0
1
2
3
4
5
Abb. 5.4. Perfekte Anpassung, alle Punkte liegen auf der Regressionsgeraden
5.3 G¨ ute der Anpassung
103
(ii) Der andere Grenzfall R2 = 0 (Null-Anpassung) tritt ein, falls SQRegression = 0, bzw. ¨ aquivalent SQResidual = SQTotal ist. Dies bedeutet yˆi = y¯ f¨ ur alle i und ˆb = 0 . Die Regressionsgerade verl¨auft dann parallel zur x-Achse, so dass zu jedem x-Wert derselbe yˆ-Wert, n¨amlich y¯, geh¨ort. Damit hat X u ¨berhaupt keinen Einfluss auf Y , es existiert also keine Ursache-Wirkungs-Beziehung. Beispiel 5.3.2. Wir erheben die Merkmale X ‘Punktzahl in der Mathematikklausur’ und Y ‘Punktzahl in der Deutschklausur’ bei n = 4 Sch¨ ulern. Mit den beobachteten Wertepaaren (10, 20), (40, 10), (50, 40) und (20, 50) erhalten wir x ¯ = 30, y¯ = 30, Sxy = 0 und ˆb = 0 und damit 2 R = 0. Es besteht also kein Zusammenhang zwischen beiden Merkmalen (siehe auch Abb. 5.5).
50 40 30 20 10
10
20
30
40
50
Abb. 5.5. Kein Zusammenhang zwischen X und Y (Beispiel 5.3.2)
5.3.2 Die Rolle der Korrelation in der Regression Die G¨ ute der Anpassung der Regression an die Daten wird durch R2 gemesarker ist eine lineare Ursache-Wirkungs-Beziehung sen. Je gr¨ oßer R2 , desto st¨ zwischen X und Y ausgepr¨ agt. Andererseits gibt auch der Korrelationskoeffizient r Auskunft u arke des linearen Zusammenhangs zwischen X ¨ber die St¨ und Y . Das Bestimmtheitsmaß R2 und der Korrelationskoeffizient r stehen in folgendem direkten Zusammenhang: R2 = r 2 .
(5.17)
In der einfachen linearen Regression wird die G¨ ute der Anpassung durch das Quadrat des Korrelationskoeffizienten von X und Y bestimmt.
104
5. Lineare Regression
Beispiel 5.3.3. Wir betrachten erneut das Beispiel der Jogger und ihrer Laufdauer (siehe Kap 5.2). Wir haben bereits die Regressionsgerade berechnet und m¨ochten nun wissen, wie die G¨ ute des linearen Modells ist. Dazu m¨ ussen wir zu allererst erneut einige wichtige Terme berechnen: i 1 2 3 4 5 6 7 8 9 10 11 12
yi 90 65 30 60 60 80 45 45 80 35 50 45
yˆi 70.84 57.42 22.04 75.72 59.86 67.18 48.88 50.10 73.28 39.12 56.20 62.30
yi − y¯ 32.92 7.92 -27.08 2.92 2.92 22.92 -12.08 -12.08 22.92 -22.08 -7.08 -12.08
(yi − y¯)2 1083.73 62.73 733.33 8.53 8.53 525.33 145.93 145.93 525.33 487.53 50.13 145.93 3922.96
yˆi − y¯ 13.76 0.34 -35.04 18.64 2.78 10.10 -8.2 -6.83 16.20 -17.96 -0.88 5.22
yˆi − y¯2 189.34 0.12 1227.80 347.45 7.73 102.01 67.24 48.72 262.44 322.56 0.72 27.25 2603.43
Das Bestimmtheitsmaß l¨ asst sich nun wie folgt berechnen: n (ˆ yi − y¯)2 SQRegression 2603.43 2 = 0.66. R = = i=1 = n 2 SQTotal 3922.96 (y − y ¯ ) i=1 i Der Anteil der erkl¨ arten Varianz an der Gesamtvarianz liegt damit bei 66% und l¨ asst auf eine mittlere G¨ ute des Modells schließen.
5.4 Lineare Regression mit kategorialen Regressoren In den bisherigen Ausf¨ uhrungen haben wir Y und X stets als quantitativ stetig vorausgesetzt. Wir wollen nun den in Anwendungen ebenfalls wichtigen Fall behandeln, dass der Regressor X kategoriales Skalenniveau besitzt. Kategorial bedeutet: diskret mit mindestens zwei Auspr¨agungen. Wir betrachten zun¨ achst einige Beispiele f¨ ur kategoriale Regressoren: Beispiel 5.4.1. Kategoriale Regressoren sind zum Beispiel • • • •
Geschlecht: m¨ annlich, weiblich Familienstand: ledig, verheiratet, geschieden, verwitwet Pr¨ adikat des Diplomzeugnisses: sehr gut, gut, befriedigend, ausreichend Windrichtung: Ost, S¨ ud, Nord, West
Regressoren mit kategorialem Skalenniveau erfordern eine spezifische Behandlung. Die kodierten Merkmalsauspr¨ agungen wie z. B. ‘ledig’=1, ‘verheiratet’=2, ‘geschieden’=3, ‘verwitwet’=4 k¨ onnen wir nicht wie reelle Zahlen
5.4 Lineare Regression mit kategorialen Regressoren
105
in die Berechnung der Parametersch¨ atzungen a ˆ und ˆb einbeziehen, da den Kodierungen wie z. B. beim nominalen Merkmal ‘Familienstand’ nicht notwendig eine Ordnung zugrunde liegt und Abst¨ande bei nominalen Merkmalen nicht definiert sind. Um diesem Problem zu begegnen, m¨ ussen kategoriale Regressoren umkodiert werden. Hierf¨ ur gibt es zwei M¨oglichkeiten: Dummyund Effektkodierung. Dabei wird ein kategorialer Regressor mit k m¨oglichen Merkmalsauspr¨ agungen in k − 1 neue Regressoren (Dummys) umgewandelt. Eine der Originalkategorien (Merkmalsauspr¨ agungen) wird dabei als sogenannte Referenzkategorie ausgew¨ ahlt. Dummykodierung. Ein kategoriales Merkmal X mit k m¨oglichen Merkmalsauspr¨ agungen wird durch k − 1 Dummys Xi kodiert. Nach Wahl einer Referenzkategorie j ∈ {1, . . . , k} ergeben sich die Dummys Xi , i = 1, . . . , k, i = j wie folgt: 1 falls Kategorie i vorliegt, xi = (5.18) 0 sonst. Effektkodierung. Ein kategoriales Merkmal X mit k m¨oglichen Merkmalsauspr¨ agungen wird durch k − 1 Dummys Xi kodiert. Nach Wahl einer Referenzkategorie j ∈ {1, . . . , k} ergeben sich die Dummys Xi , i = 1, . . . , k, i = j wie folgt: ⎧ ⎨ 1 falls Kategorie i vorliegt, (5.19) xi = −1 falls Kategorie j vorliegt, ⎩ 0 sonst. Beispiel 5.4.2. Betrachten wir das Merkmal X ‘mathematische Vorkenntnisse’ innerhalb der Auswertung einer Studentenbefragung. Es besitzt vier m¨ ogliche Merkmalsauspr¨ agungen (‘keine’, ‘Mathe-Grundkurs’, ‘Mathe-Leistungskurs’ und ‘Vorlesung Mathematik’), die mit 1, 2, 3 und 4 kodiert sind. Wir verwenden die letzte Kategorie, d. h. die Kategorie 4 ‘Vorlesung Mathematik’, als Referenzkategorie. Damit erhalten wir die Dummys X1 , X2 und X3 wie in folgender Tabelle angegeben. Merkmalsauspr¨ agung von X 1 ‘keine’ 2 ‘Mathe-Grundkurs’ 3 ‘Mathe-Leistungskurs’ 4 ‘Vorlesung Mathematik’
Wert von X 1 X2 X3 1 0 0 0 1 0 0 0 1 0 0 0
F¨ ur die Effektkodierung erhalten wir Merkmalsauspr¨ agung von X 1 ‘keine’ 2 ‘Mathe-Grundkurs’ 3 ‘Mathe-Leistungskurs’ 4 ‘Vorlesung Mathematik’
Wert von X 1 X2 X3 1 0 0 0 1 0 0 0 1 −1 −1 −1
106
5. Lineare Regression
Wir wollen die Berechnung der Parametersch¨atzungen an einem Rechenbeispiel demonstrieren. Dazu betrachten wir die bei der Statistikklausur erreichten Punktzahlen (Merkmal Y ) abh¨ angig vom Studienfach (Merkmal X). Ein Ausschnitt der Daten ist in der folgenden Datenmatrix angegeben. ⎛ 1 2⎜ ⎜ 3⎜ ⎜ 4⎜ ⎜ 5⎝ .. .
Punkte 34 78 30 64 71 .. .
Studienfach ⎞ Physik Physik ⎟ ⎟ Sonstige ⎟ ⎟ Chemie ⎟ ⎟ Chemie ⎠ .. .
Mit der Kodierung Physik=1, Chemie=2, Sonstige=3 erhalten wir mit Wahl der Referenzkategorie 3 (Sonstige) zwei Dummys X1 (f¨ ur Physik) und X2 (f¨ ur Chemie) gem¨ aß folgendem Schema Merkmalsauspr¨ agung von X 1 ‘Physik’ 2 ‘Chemie’ 3 ‘Sonstige’
Wert X1 1 0 0
von X2 0 1 0
Die Datenmatrix wird damit zu y ⎛ 1 34 2 ⎜ 78 ⎜ 3 ⎜ 30 ⎜ 4 ⎜ 64 ⎜ 5 ⎝ 71 .. .. . .
x1 1 1 0 0 0 .. .
x2 ⎞ 0 0 ⎟ ⎟ 0 ⎟ ⎟ 1 ⎟ ⎟ 1 ⎠ .. .
Wir berechnen die Sch¨ atzungen a ˆ, ˆb1 und ˆb2 mit SPSS und erhalten die Ausgabe in Abbildung 5.6. Aus den Parametersch¨atzungen erhalten wir die angepassten Werte yˆ gem¨ aß yˆ = a ˆ + ˆb1 X1 + ˆb2 X2 . Diese entsprechen gerade den durchschnittlichen Punktzahlen der Studenten der verschiedenen Fachrichtungen. Wir erhalten f¨ ur Physik yˆ = a ˆ + ˆb1 · 1 + ˆb2 · 0 = 62.800 + 1.083 = 63.883 , Chemie yˆ = a ˆ + ˆb1 · 0 + ˆb2 · 1 = 62.800 + (−6.229) = 56.571 , Sonstige yˆ = a ˆ + ˆb1 · 0 + ˆb2 · 0 = 62.800 .
5.4 Lineare Regression mit kategorialen Regressoren
107
Coefficientsa
Model 1
(Constant) x_1 x_2
Unstandardized Coefficients Std. Error B 62.800 7.432 1.083 7.501 -6.229 9.731
Standardized Coefficients Beta .013 -.058
t 8.450 .144 -.640
Sig. .000 .885 .523
a. Dependent Variable: PUNKTE
Abb. 5.6. Berechnungen der Parametersch¨ atzungen bei Dummykodierung in Beispiel 5.4.2 mit SPSS
Verwenden wir nun die Effektkodierung zur Berechnung der Parametersch¨ atzungen, wobei wir wieder als Referenzkategorie die Kategorie 3, Sonstige, verwenden, so erhalten wir folgende Datenmatrix y 1 34 2 ⎜ 78 ⎜ 3 ⎜ 30 ⎜ 4 ⎜ 64 ⎜ 5 ⎝ 71 .. .. . . ⎛
x1 1 1 −1 0 0 .. .
x2 ⎞ 0 0 ⎟ ⎟ −1 ⎟ ⎟ 1 ⎟ ⎟ 1 ⎠ .. .
Wir berechnen ebenfalls die Sch¨ atzungen a ˆ, ˆb1 und ˆb2 mit SPSS und erhalten die Ausgabe in Abbildung 5.7. Aus den Parametersch¨atzungen erhalten wir die angepassten Werte yˆ wiederum gem¨ aß yˆ = a ˆ + ˆb1 X1 + ˆb2 X2 , nun aber mit anderen Parametersch¨ atzungen. Die angepassten Werte yˆ entsprechen auch bei Effektkodierung den durchschnittlichen Punktzahlen der verschiedenen Fachrichtungen. Wir erhalten: Physik yˆ = a ˆ + ˆb1 · 1 + ˆb2 · 0 = 61.085 + 2.798 = 63.883 , Chemie yˆ = a ˆ + ˆb1 · 0 + ˆb2 · 1 = 61.085 + (−4.513) = 56.571 , Sonstige yˆ = a ˆ + ˆb1 · (−1) + ˆb2 · (−1) = 61.085 − 2.798 + 4.513 = 62.800 . Wie wir sehen liefern Dummy- und Effektkodierung die gleichen Ergebnisse f¨ ur die mittleren erreichten Punktzahlen der verschiedenen Fachrichtungen. Die Interpretation der Parameter ist jedoch verschieden. Bei der Dummykodierung sind die Parameter als Abweichung zur Referenzkategorie zu verstehen. Hier bedeutet ˆb1 = 1.083, dass die Physik-Studenten um 1.083 Punkte besser abgeschnitten haben als die Studenten sonstiger Fachrichtungen, die die Referenzkategorie bilden. Bei der Effektkodierung sind
108
5. Lineare Regression
die Parameter als Abweichung zu einer mittleren Kategorie zu verstehen. Hier bedeutet ˆb1 = 2.798, dass die Physik-Studenten um 2.798 Punkte besser abgeschnitten haben als Studenten einer ‘mittleren’ Fachrichtung, also ‘durchschnittliche’ Studenten, bei denen der Effekt des Studienfachs herausgerechnet ist.
Coefficientsa
Model 1
(Constant) x_1 x_2
Unstandardized Coefficients Std. B Error 61.085 3.261 2.798 3.313 -4.513 4.877
Standardized Coefficients Beta .051 -.056
t 18.731 .845 -.925
Sig. .000 .399 .356
a. Dependent Variable: PUNKTE
Abb. 5.7. Berechnungen der Parametersch¨ atzungen bei Effektkodierung in Beispiel 5.4.2 mit SPSS
5.5 Weitere Hinweise Merke:
Wir haben in diesem Kapitel die Regression aus rein deskriptiver Sicht beschrieben. F¨ ur ein detailliertes Verst¨andnis und weitere Beispiele lesen Sie bitte Kapitel 13.
Der Parameter b im Regressionsmodell Y = a + bX + e kann wie folgt interpretiert werden: “F¨ ur jede Einheit um die X steigt, steigt Y um b Einheiten.”
Der Parameter a im Regressionsmodell Y = a + bX + e dient im Wesentlichen der Normierung und wird nur sehr selten interpretiert. Wenn, dann geschieht dies in der folgenden Form: “Ist X = 0, so erhalten wir ein Y von a.”
Eine weitere M¨ oglichkeit die Parameter a und b zu sch¨atzen bietet das Maximum-Likelihood-Prinzip, vergleiche hierzu auch Rao et al. (2008).
5.6 Aufgaben
109
5.6 Aufgaben Aufgabe 5.1: Die folgende Tabelle Jahre. i 1 2 3 Aktie X 9 15 -5 Aktie Y 9 8 -3
enth¨ alt die Renditen zweier Aktien f¨ ur 10 4 3 2
5 10 6
6 20 14
7 7 4
8 9 8
9 15 9
10 10 11
a) Zeichnen Sie das Streudiagramm! Gibt es einen Zusammenhang zwischen den beiden Aktien? Ist er positiv oder negativ? b) Berechnen Sie den Korrelationskoeffizienten nach Bravais-Pearson! c) Berechnen Sie die KQ-Sch¨ atzungen a ˆ und ˆb der linearen Regression von Aktie Y auf Aktie X und das Bestimmtheitsmaß. ur ein zuk¨ unftiges x11 = 8? d) Wie lautet der Sch¨ atzwert yˆ11 f¨ L¨ osung: a) Im Streudiagramm l¨ asst sich ein positiver Zusammenhang erkennen:
Abb. 5.8. Streudiagramm der beiden Merkmale Aktie X und Aktie Y
b) Wir berechnen die notwendigen Gr¨ oßen: i 1 2 3 4 5 6 7 8 9 10
xi 9 15 -5 3 10 20 7 9 15 10
yi 9 8 -3 2 6 14 4 8 9 11
xi − x ¯ -0.3 5.7 -14.3 -6.3 0.7 10.7 -2.3 -0.3 5.7 0.7
yi − y¯ 2.2 1.2 -9.8 -4.8 -0.8 7.2 -2.8 1.2 2.2 4.2
vi -0.66 6.84 140.14 30.24 -0.56 77.04 6.44 -0.36 12.54 2.94 274.6
(xi − x ¯)2 0.09 32.49 204.49 39.69 0.49 114.49 5.29 0.09 32.49 0.49 430.1
(yi − y¯)2 4.84 1.44 96.04 23.04 0.64 51.84 7.84 1.44 4.84 17.64 209.6
110
5. Lineare Regression
Bezeichne vi das Produkt (xi − x ¯)(yi − y¯), dann folgt mit x ¯ = 9.3 und y¯ = 6.8: 10
−x ¯)(yi − y¯) 274.6 = 0.9146 . =√ 10 430.1 · 209.6 ¯)2 i=1 (yi − y¯)2 i=1 (xi − x
r = 10
i=1 (xi
c) Die KQ-Sch¨ atzungen lauten: −x ¯)(yi − y¯) 274.6 ˆb = (x i = 0.638 = (xi − x ¯)2 430.1 a ˆ = y¯ − ˆb · x ¯ = 6.8 − 0.638 · 9.3 = 0.866. Steigt der Aktienkurs X also um eine Geldeinheit, so steigt der Aktienkurs Y um 0.638 Geldeinheiten. R2 = r2 = 0.91462 = 0.836. Da der Wert sehr nahe bei Eins liegt, kann von einem sehr starken positiven Zusammenhang der beiden Merkmale ausgegangen werden. ˆ + ˆb · x11 = 0.862 + 0.638 · 8 = 5.966. d) yˆ11 = a Aufgabe 5.2: In einer Studie zur Untersuchung von Herzkreislauferkrankungen wurde bei sechs M¨ annern der BodyMassIndex (BMI) ermittelt. Zus¨atzlich wurde deren systolischer Blutdruck gemessen, da vermutet wurde, dass u ¨bergewicht Bluthochdruck hervorruft. Bezeichne X den BMI und Y die Systole. Es wurden die folgenden Werte gemessen: BMI Systole
26 170
23 150
27 160
28 175
24 155
25 150
a) Bestimmen Sie die Regressionsgerade der Systole in Abh¨angigkeit vom BodyMassIndex und interpretieren Sie die gesch¨atzten Parameter. b) Berechnen Sie das Bestimmtheitsmaß. L¨ osung: a) Man erh¨ alt: x ¯ = 25.5 und y¯ = 160
BMI xi 26 23 27 28 24 25 153
xi − x ¯ 0.5 -2.5 1.5 2.5 -1.5 -0.5
(xi − x ¯)2 0.25 6.25 2.25 6.25 2.25 0.25 17.5
Systole yi 170 150 160 175 155 150 960
yi − y¯ 10 -10 0 15 -5 -10
(yi − y¯)2 100 100 0 225 25 100 550
vi 5 25 0 37.5 7.5 5 80
5.6 Aufgaben
111
Mit i vi = i (xi − x ¯) · (yi − y¯) = 80 erhalten wir Sxx = 17.5, Syy = 550 ur die Parametersch¨atzungen: und Sxy = 80. Es folgt f¨ ˆb = Sxy = 80 ≈ 4.57 Sxx 17.5 ˆ a ˆ = y¯ − b¯ x = 160 − 4.57 · 25.5 = 43.465 Der gesch¨ atzte Parameter ˆb bedeutet hier, dass bei einer Erh¨ohung des BMI um eine Einheit sich der systolische Blutdruck um etwa 4.6 erh¨oht. Der Parameter a ˆ sollte hier nicht interpretiert werden, da ein BMI von Null eigentlich nicht m¨ oglich ist. b) Das Bestimmtheitsmaß lautet 2 2 80 Sxy 2 2 R =r = = √ ≈ 0.66. Sxx Syy 17.5 · 550 Die Regression erkl¨ art also 66% der Streuung der Daten. Das Modell ist damit von mittlerer G¨ ute. Aufgabe 5.3: Ein Kinderpsychologe vermutet, dass h¨aufiges Fernsehen sich negativ auf das Schlafverhalten von Kindern auswirkt. Um dieser Frage nachzugehen, wurde bei neun zuf¨ allig ausgew¨ ahlten Kindern gleichen Alters die Dauer (Y ) der Tiefschlafphasen einer Nacht in Stunden gemessen. Außerdem wurde ebenfalls in Stunden erhoben, wie lange das Kind am Tag ferngesehen hat (X). Es ergeben sich folgende Beobachtungen: Kind i Fernsehzeit xi (in h) Tiefschlafdauer yi (in h)
1 0.3 5.8
2 2.2 4.4
3 0.5 6.5
4 0.7 5.8
5 1.0 5.6
6 1.8 5.0
7 3.0 4.8
8 0.2 6.0
9 2.3 6.1
a) Berechnen Sie die Regressionsgerade des Merkmals “Tiefschlaf“ in Abh¨angigkeit von der Fernsehzeit! b) Berechnen Sie den Wert von R2 ! L¨ osung: a) Mit x ¯ = 1.333, y¯ = 5.556, 281.5 ergibt sich:
n i=1
xi yi = 62.96; ,
n i=1
x2i = 24.24,
n xy¯ −3.695 i=1 xi yi − n¯ ≈ −0.45 ≈ βˆ = n 2 − n¯ 2 8.248 x x i=1 i α ˆ = y¯ − βˆx ¯ = 5.556 + 0.45 · 1, 333 ≈ 6.16 yˆi = 6.16 − 0.45xi
n i=1
yi2 =
112
5. Lineare Regression
W¨ urde ein Kind also gar nicht fernsehen, so w¨ urde unser Modell eine Tiefschlafzeit von 6.16 Stunden (= a ˆ) voraussagen. Mit jeder Stunde, die das Kind mehr fernsieht, verringert sich die Tiefschlafzeit um 0.45 × 1 Std = 27 Minuten. b) Mit Sxx ≈ 8.248, Sxy ≈ −3.695, Syy = R2 = r 2 =
n i=1
yi2 − n¯ y 2 ≈ 3.678 folgt:
2 Sxy (−3.695)2 ≈ 0.45 . = Sxx Syy 8.241 · 3.678
Bei einer erkl¨ arten Streuung von 45% kann nur von einer mittleren G¨ ute des Modells ausgegangen werden. Aufgabe 5.4: In einer Umfrage im WS 04/05 wurden Studenten einer Schweizer Universit¨ at nach ihrem Gewicht (in kg) und ihrer Gr¨oße (in cm) befragt. Daraus wurden die Daten von 17 Studentinnen zuf¨allig ausgew¨ahlt. Studentin i Gewicht yi Gr¨ oße xi Studentin i Gewicht y Gr¨ oße x
1 68 174 10 53 160
2 58 164 11 53 163
3 53 164 12 50 157
4 60 165 13 64 168
5 59 170 14 77 179
6 60 168 15 60 170
7 55 167 16 63 168
8 62 166 17 69 170
9 58 160
a) Zeichnen Sie das Streudiagramm. Welcher Zusammenhang ist zwischen ’Gewicht’ und ’Gr¨ oße’ zu erkennen? b) Berechnen Sie den f¨ ur das Skalenniveau angemessenen n Korrelationskoeffizienten und interpretieren Sie diesen. (Hinweis: i=1 xi yi = 170821, n n x ¯ = 166.65, y¯ = 60.12, i=1 yi2 = 62184, i=1 x2i = 472569) c) Wir wollen nun die Variable ’Gewicht’ als lineare Funktion der ’Gr¨oße’ modellieren. Berechnen Sie die Parameter des Modells und das Bestimmtheitsmaß. Interpretieren Sie die Ergebnisse. d) Welches Gewicht hat nach Ihrem Modell eine Studentin mit einer Gr¨oße von 175 cm? e) Zeichnen Sie die von Ihnen gesch¨ atzte Gerade in das Streudiagramm ein. f) Zwei weitere Punktepaare der Erhebung sind (x18 , y18 ) = (175, 55) und (x19 , y19 ) = (150, 75). Zeichnen Sie diese beiden Punkte in Ihr Streudiagramm. Was wird mit dem linearen Zusammenhang aus a)- c)? g) Bestimmen Sie das Modell und das Bestimmtheitsmaß unter Ber¨ ucksichtigung dieser beiden ’untypischen’ Punktepaare. (Hinweis: xy = 10089.26, s2y = 51.92, s2x = 42.17) h) Nehmen Sie anhand dieses Beispiels Stellung zu der Aussage, dass lineare Regressionen ausreißerempfindlich seien.
5.6 Aufgaben
113
L¨ osung:
65 50
55
60
Gewicht
70
75
a) Das Streudiagramm der 17 Punktepaare ist in Abbildung 5.9 dargestellt. Man erkennt einen positiven Zusammenhang. Von der Struktur der Punk-
160
165
170
175
Groesse
Abb. 5.9. Streudiagramm von Gr¨ oße und Gewicht
tewolke kann man von einem linearen Zusammenhang ausgehen. b) Die Daten haben ein metrisches Skalenniveau, also ist der Korrelationskoeffizienten von Bravais-Pearson zu berechnen. Anhand der gegebenen Hilfsgr¨ oßen berechnen wir den Koeffizienten am besten u ¨ber die Quadratsummen S rx,y = √ xy
Syy Sxx
.
Also ist rx,y = √
170821−17·166.65·60.12 (62184−17·60.122 )(472569−17·166.652 )
=
√
498.03 738.955·441.22
= 0.87,
was auf einen stark positiven linearen Zusammenhang hindeutet. c) Das Modell lautet also ‘Gewicht = a + b · Gr¨oße + e’. Gewicht ist eine lineare Funktion der Gr¨ oße plus einen St¨ orterm. Die beiden Parameter a, b werden nach dem Prinzip der kleinsten Quadrate gesch¨atzt. ˆb = 498.03 = 1.129 441.22
Wenn die Gr¨ oße um einen Zentimeter zunimmt, steigt unter sonst gleichen Bedingungen das Gewicht um 1.129 Kilogramm. a ˆ = 60.12 − 166.65 · 1.129 = −128.03
114
5. Lineare Regression
Eine Studentin mit einer Gr¨ oße von 0 cm hat ein Gewicht von -128.03 kg, sprich die Interpretation des Absolutgliedes a ergibt hier keinen inhaltlichen Sinn. Im Fall der Regression mit nur einer Variable ist das Bestimmtheitsmaß 2 zu bestimmen: sehr einfach u ¨ber R2 = rx,y R2 = 0.76. Also werden rund 76% der Streuung im Gewicht durch das berechnete Modell erkl¨ art. Die Anpassung ist gut. d) Nach dem Modell hat eine Studentin mit einer Gr¨oße von 175 cm ein Gewicht von −128.03 + 1.129 · 175 = 69.545kg.
75 70 65 50
55
60
Gewicht
65 50
55
60
Gewicht
70
75
e) F¨ ur das Zeichnen einer Geraden ben¨ otigen wir zwei Punktepaare (x, y). Da h¨ atten wir zum einen (175, 69.545) aus Aufgabenteil d) und zum anderen (166.65, 60.12), weil die Mittelwerte immer auf der Regressionsge¨ raden liegen (Als Ubung k¨ onnen Sie diese Behauptung allgemein zeigen!).
160
165
170 Groesse
175
150
155
160
165
170
175
180
Groesse
Abb. 5.10. Die Regressionsgerade und das Streudiagramm mit Ausreißer
f) Das Streudiagramm mit den beiden neuen Punktepaaren (dunkel markiert) ist in Abbildung 5.10 dargestellt. Diese beiden Punktepaare sind untypische Punkte f¨ ur die vorher aufgedeckte Struktur. Man kann sie als Ausreißer bezeichnen, der lineare Zusammenhang wird durch sie abgeschw¨ acht.
5.6 Aufgaben
115
g) Mit den hier gegebenen Hinweisen l¨ asst sich ˆb am besten u ¨ber die empirische Kovarianz berechnen. Dazu werden allerdings noch die neuen Mittelwerte ben¨ otigt, was aber dank unseres bislang erarbeiteten Wissens kein Problem sein sollte. 1 (17 · 166.65 + 150 + 175) = 166.21 x ¯ = 19 1 (17 · 60.12 + 75 + 55) = 60.63 y¯ = 19
Damit erhalten wir ˆb =
10089.26−166.21·60.63 42.17
= 0.28.
Der Steigungsparameter ist wesentlich kleiner geworden, das heißt unsere Modellgerade wird sehr viel flacher verlaufen und der lineare Zusammenhang wird schw¨ acher. Der Vollst¨ andigkeit halber berechnen wir noch a ˆ = 14.09. F¨ ur das Bestimmtheitsmaß bestimmen wir zuerst den Korrelationskoeffizienten und quadrieren diesen anschließend. rx,y =
10089.26−166.21·60.63 √ 51.92·42.17 2
= 0.26
R = 0.065
W¨ ahrend wir ohne die beiden neuen Punkte eine gute Anpassung erzielten, haben wir jetzt nur noch eine kaum vorhandene Anpassung der Regressionsgeraden an die Daten. h) Man sieht in diesem Beispiel recht deutlich welchen Einfluss untypische Daten oder Ausreißer auf das Instrument Regression haben. Die Parameter und das Bestimmtheitsmaß reagieren beide empfindlich. In der robusten Statistik werden daher Sch¨ atzungen verwendet, die Ausreißer heruntergewichten. Aufgabe 5.5: Um den Einfluss der Variable Geschlecht auf die Gr¨oße zu sch¨ atzen, wurden zuf¨ allig 4 M¨ anner und 4 Frauen befragt. Es ergaben sich folgende Werte. i Gr¨ oße Geschlecht
1 179 m
2 182 m
3 168 w
4 184 m
5 172 w
6 191 w
7 155 m
8 169 w
a) Formulieren Sie ein Regressionsmodell f¨ ur die Gr¨oße. Modellieren Sie dabei das Geschlecht u ¨ber einen Dummy. W¨ahlen Sie ’weiblich’ als Referenzkategorie. b) Sch¨ atzen Sie den Parameter. Was f¨ allt auf und woran liegt es? c) Wie w¨ urden Sie weiter vorgehen um den Effekt von ‘m/w’ zu sch¨atzen? Setzten Sie Ihren Plan in die Tat um!
116
5. Lineare Regression
L¨ osung: a) Die Variablen sind: y: Gr¨ oße, x: Geschlecht. Das Modell ist yi = a + bxi + ε, mit
x=
1 falls Geschlecht = m . 0 sonst
b) Mit ˆb =
sxy s2x
und x ¯ = 12 , y¯ = 1400/8 = 175,
1 n
n
xi yi = 700/8 = 87.5
i=1
erhalten wir ⇒ sxy =
1 n
n
xi yi − y¯x ¯=0
i=1
⇒ ˆb = 0 Es gibt hier also keinen geschlechtsspezifischen Effekt. Frauen und M¨anner waren hier im Mittel gleich gross. Es gilt: ˆ = y¯. yˆi = a Dies kann z.B. an den extremen Werten liegen. Eine Frau war mit 191 cm u ¨berdurchschnittlich gross und ein Mann war mit 155 cm sehr klein. Die Kleinste Quadrate Sch¨ atzung ist sehr ausreißerempfindlich. c) Zwei M¨ oglichkeiten sollen hier erw¨ ahnt werden: a) man entfernt die extremen Werte b) man unterstellt einen Fehler in der Datenerfassung, d.h. die Gr¨oße 191 geh¨ orte einem Mann und 155 einer Frau. Bei nur 8 Datenpunkten ist b) eher unwahrscheinlich, so dass hier Strategie a) angewendet wird. x ¯ = 12 , y¯ = 1054/6 = 175.6667,
1 n
n
xi yi = 545/6 = 90.8333,
i=1 2
s2x = 1/2 − (1/2) = 1/4 ⇒ sxy =
1 n
n
xi yi − y¯x ¯≈3
i=1
⇒ ˆb = 3 · 4 = 12 M¨ anner sind im Schnitt 12 cm gr¨ oßer als Frauen. Die mittlere Gr¨oße der Frauen betr¨ agt:
5.6 Aufgaben
117
a ˆ = 175.6667 − 12/2 = 169.6667cm. Anmerkung: Man sollte bei der Entfernung von Ausreißern immer beachten, dass man vielleicht wichtige f¨ ur die Untersuchung charakteristische Informationen entfernt. Dann kann man falsche Schl¨ usse ziehen, weil vielleicht die vermeintlichen Ausreißer die ’typischen’ Daten waren. Aufgabe 5.6: Wir kehren noch einmal zur Aufgabe 4.8 zur¨ uck. Dort waren bei separater Betrachtung der drei Orte Davos, Polenca und Basel verschiedene korrelative Zusammenh¨ ange zwischen Temperatur und Hotelauslastung erkannt worden. Wir wollen nun die kategoriale Variable ’Ort’ in Dummy- und Effektkodierung in einem Regressionsmodell als Einflussgr¨oße verwenden. Die Variable X (also der ’Ort’) hat k = 3 Auspr¨agungen, also ben¨otigen wir ahlen ’Basel’ als Referenzkategorie, X1 k − 1 = 2 Dummys X1 und X2 . Wir w¨ steht f¨ ur Davos, X2 f¨ ur Polenca. a) Wir w¨ ahlen als abh¨ angige Variable die ’Temperatur’. Mit SPSS erhalten wir folgendes Regressionsmodell: Model 1
Regression Residual Total
Model 1
SS 794.389 1975.833 2770.222
(Constant) Dummy1 Dummy2
β 12.000 -5.417 6.083
df 2 33 35
Mean Sq 397.194 59.874
Std.Error 2.234 3.159 3.159
F 6.634
t 5.372 -1.715 1.926
Sig. .004
Sig. .000 .096 .063
Interpretieren Sie den Output. Wie lautet das Modell? Wie lauten die Durchschnittstemperaturen von Basel, Davos und Polenca? b) Wir w¨ ahlen als abh¨ angige Variable ’Hotelauslastung’ und erhalten folgendes Regressionsmodell mit SPSS: Model 1
Regression Residual Total
Model 1
SS 450.056 25001.167 25451.222
(Constant) Dummy1 Dummy2
β 48.333 7.917 .917
df 2 33 35
Mean Sq 225.028 757.611
Std.Error 7.946 11.237 11.237
F .297
t 6.083 .705 .082
Sig. .745
Sig. .000 .486 .935
Interpretieren Sie den Output. Wie lautet das Modell? Welche Hotelauslastungen sagt das Modell f¨ ur Basel, Davos und Polenca voraus?
118
5. Lineare Regression
L¨ osung: a) Wir erhalten folgendes Modell: T emperatur = 12.000 − 5.417 · X1 (Davos) + 6.083 · X2 (P olenca) F¨ ur die Durchschnittstemperaturen (Jahresmittel) erhalten wir: Temp (Basel) = 12.000 Temp (Davos) = 12.000 - 5.417 = 6.583 Temp (Polenca) = 12.000 + 6.083 = 18.083
(X1 = 0, X2 = 0) (X1 = 1, X2 = 0) (X1 = 0, X2 = 1)
b) Wir erhalten folgendes Regressionsmodell: Hotelauslastung = 48.333 + 7.917 · X1 (Davos) + 0.917 · X2 (P olenca) F¨ ur die Hotelauslastungen erhalten wir (in %): Auslastung (Basel) = 48.333 Auslastung (Davos) = 48.333 + 7.917 = 56.250 Auslastung (Polenca) = 48.333 + 0.917 = 49.250
(X1 = 0, X2 = 0) (X1 = 1, X2 = 0) (X1 = 0, X2 = 1)
Aufgabe 5.7: Die Zeitschrift PCWorld (Februar 2003) hat Drucker getestet. Die Tabelle 5.2 zeigt die Top 5 der Drucker f¨ ur kleine B¨ uros und die Top 5 der Drucker f¨ ur grosse Unternehmen. Darin wurde die Geschwindigkeit in Seite pro Minute (x) und der Preis in Euro (y) dargestellt. Name Minolta-QMS PagePro 1250W Brother HL-1850 Lexmark E320 Minolta-QMS PagePro 1250W HP Laserjet 1200 Xerox Phaser 4400/N Brother HL-2460N IBM Infoprint 1120n Lexmark W812 Oki Data B8300n
Typ Small Office Small Office Small Office Small Office Small Office Corporate Corporate Corporate Corporate Corporate
Geschwindigkeit 12 10 12.2 10.3 11.7 17.8 16.1 11.8 19.8 28.2
Preis 199 499 299 299 399 1850 1000 1387 2089 2200
Tabelle 5.2. Leistung von Druckern
a) Nehmen Sie zuerst an, dass alle Drucker aus einer Gruppe stammen und bestimmen Sie das Regressionsmodell und das G¨ utemaß. Nehmen Sie dabei Preis als die zu erkl¨ arende Variable. b) Zeichnen Sie das Streudiagramm mit der Geraden und markieren Sie die beiden Gruppen. c) Generieren Sie ‘Typ’ als Dummy und bestimmen Sie das Modell f¨ ur Typ (x) und Preis (y).
5.6 Aufgaben
119
L¨ osung: a) Wir erhalten die folgenden Arbeitstabelle: i 1 2 3 4 5 6 7 8 9 10
xi 12 10 12.2 10.3 11.7 17.8 16.1 11.8 19.8 28.2 149.9
yi 199 499 299 299 399 1850 1000 1387 2089 2200 10221
xi yi 2388 4990 3647.8 3079.7 4668.3 32930 16100 16366.6 41362.2 62040 187572.6
x2i 144 100 148.84 106.09 136.89 316.84 259.21 139.24 392.04 795.24 2538.39
yi2 39601 249001 89401 89401 159201 3422500 1000000 1923769 4363921 4840000 16176795
Damit bestimmen wir die folgenden Werte: x ¯ = 14.99 y¯ = 1022.1 Sxy = 187572.6 − 10 · 14.99 · 1022.1 = 34359.81 Sxx = 2538.39 − 10 · 14.992 = 291.39 Syy = 16176795 − 10 · 1022.1 = 5729911 So k¨ onnen wir direkt unser Regressionsmodell sch¨atzen. ˆb = 34359.81 = 117.92 291.39 a ˆ = 1022.1 − 117.92 · 14.99 = −745.52 34359.81 rxy = √ = 0.84 291.39 · 5729911 R2 = 0.71
Wenn also die Leistung um ein Blatt pro Minute zunimmt, dann steigt der Preis um 117.92. Der Achsenabschnitt ist nicht sinnvoll interpretierbar. Rund 71% der Streuung in den Preisen wird durch dieses Modell erkl¨art. b) Die Gerade yˆi = −745.52 + 117.92xi ist in Abbildung 5.11 dargestellt. Man sieht recht deutlich die beiden Gruppen der Drucker. Die Drucker f¨ ur kleine B¨ uros weisen eher einen negativen Zusammenhang auf w¨ahrend die f¨ ur grosse Unternehmen einen positiven Zusammenhang zwischen Geschwindigkeit und Leistung aufweisen.
120
5. Lineare Regression
Abb. 5.11. Die Druckerdaten
c) Um die Gruppen zu trennen f¨ uhren wir einen Dummy f¨ ur den Typ ein. Dieser ist Eins, wenn der Drucker f¨ ur ein grosses Unternehmen bestimmt ist, wir nennen ihn di . 1 n
n
d = 12 ,
di yi = 8526/10 i=1 s2d = 1/2 − (1/2)2
= 852.6, = 1/4
⇒ sdy = 852.6 − 12 · 1022.1 = 341.55 ⇒ ˆb = 341.55 · 4 = 1366.20 Drucker f¨ ur grosse Unternehmen sind im Schnitt 1366.20 Euro teurer als Drucker f¨ ur kleine Unternehmen. Damit trennt ein deutlicher Preisunterschied die beiden Gruppen. Wir berechnen die Konstante: a ˆ = 1022.1 − 1366.2/2 = 339. Dies ist der mittlere Preis der Drucker f¨ ur kleine B¨ uros. Das Modell ist dann yˆi = 339 + 1366.2di , mit di = 0, also yˆi = 339.
6. Kombinatorik
6.1 Einleitung Grundlage vieler statistischer Methoden ist die zuf¨allige Auswahl von m Elementen aus einer Grundgesamtheit von n Elementen. Diese Zufallsauswahl heißt Stichprobe. Es stellen sich folgende Fragen: • Mit wievielen M¨ oglichkeiten kann man m Elemente aus n Elementen ausw¨ ahlen? ⇒ Kombinationen m aus n • Auf wieviele Arten kann man m Elemente anordnen? ⇒ Permutation von m Elementen Als theoretische Grundlage f¨ ur die Stichprobe kann das Urnenmodell betrachtet werden. Man nehme eine Urne, in der sich n Kugeln befinden. Diese k¨ onnen – je nach Fragestellung – entweder alle verschieden sein, oder es k¨ onnen sich mehrere Gruppen von gleichartigen Kugeln in der Urne befinden. Als das Resultat des Ziehens von Kugeln aus der Urne erhalten wir eine Auswahl (Stichprobe) von Kugeln aus der Gesamtheit aller in der Urne vorhandenen Kugeln. Wir unterscheiden dabei zwischen der ungeordneten und der geordneten Auswahl von Elementen. Definition 6.1.1. Eine Auswahl von Elementen heißt geordnet, wenn die Reihenfolge der Elemente von Bedeutung ist, anderenfalls heißt die Auswahl von Elementen ungeordnet. Beispiele. • geordnete Auswahl: – Einlauf der ersten drei Autos beim Formel 1-Rennen mit Sieger, Zweitem und Drittem – Wahl eines Vorsitzenden und seines Stellvertreters in einem Sportverein • ungeordnete Auswahl – Ziehungsergebnis im deutschen Lotto ‘6 aus 49’ (ohne Zusatzzahl) – qualifizierte Fußballmannschaften f¨ ur die Weltmeisterschaft 2010 ¨ Bei den obigen Beispielen will man sich eine Ubersicht u ¨ber die Zahl der verschiedenen Auswahlm¨ oglichkeiten verschaffen, d. h., man fragt nach
122
6. Kombinatorik
der Zahl der m¨ oglichen Einl¨ aufe der ersten drei Autos bei z. B. acht Autos im Wettbewerb, nach der Anzahl der m¨ oglichen Wahlausg¨ange in einem Sportverein, nach den verschiedenen Tippergebnissen beim Lotto, nach den verschiedenen Teilnehmerfeldern f¨ ur die Weltmeisterschaft 2010 (bei n = 207 Mitgliedern der FIFA) usw..
6.2 Permutationen Definition 6.2.1. Gegeben sei eine Menge mit n Elementen. Jede Anordnung dieser Elemente in einer bestimmten Reihenfolge heißt Permutation dieser Elemente. Bei Permutationen k¨ onnen wir zwei F¨ alle unterscheiden: Sind alle n Elemente verschieden (also unterscheidbar), so spricht man von Permutationen ohne Wiederholung. Sind einige Elemente gleich, so handelt es sich um Permutationen mit Wiederholung. 6.2.1 Permutationen ohne Wiederholung Sind alle n Elemente verschieden, so gibt es n!
(6.1)
verschiedene Anordnungen dieser Elemente. Definition 6.2.2. Der Ausdruck n! heißt n Fakult¨ at und ist f¨ ur ganzzahliges n ≥ 0 wie folgt definiert: 1 f¨ ur n = 0 n! = (6.2) 1 · 2 · 3 · · · n f¨ ur n > 0 So ist beispielsweise 1! = 1,
2! = 1 · 2 = 2,
3! = 1 · 2 · 3 = 6 .
Beispiel 6.2.1. Nach den ersten Ausscheidungsk¨ampfen gibt es noch n=3 St¨adte, die sich f¨ ur die Olympischen Spiele 2012 bewerben: London, Paris, und New York. F¨ ur diese drei St¨ adte ergeben sich vor dem letzten Wahlgang folgende 3! = 6 M¨ oglichkeiten f¨ ur den Wahlausgang: (L,P,NY), (P,NY,L),
(L,NY,P), (NY,L,P),
(P,L,NY) (NY,P,L)
6.3 Kombinationen
123
6.2.2 Permutationen mit Wiederholung Sind nicht alle Elemente verschieden, sondern gibt es n1 gleichartige Elemente E1 , n2 gleichartige – aber von E1 verschiedene – Elemente E2 , . . ., und – Elemente schließlich ns gleichartige – aber von E1 , . . . , Es−1 verschiedene s Es , so haben wir folgende Struktur von insgesamt n = i=1 ni Elementen: Gruppe 1: n1 Elemente E1 Gruppe 2: n2 Elemente E2 .. .. . . Gruppe s: ns Elemente Es Die Anzahl der m¨ oglichen (unterscheidbaren) Permutationen mit Wiederholung ist n! . (6.3) n1 ! n2 ! n3 ! · · · ns ! Beispiel 6.2.2. In einer neu er¨ offneten Bibliothek sind nach dem ersten Tag n = 10 Mitglieder verzeichnet, davon sind 6 Sch¨ uler und 4 Berufst¨atige. Nach (6.1) gibt es 10! verschiedene Permutationen der verzeichneten Mitglieder. Ist bei einer solchen Anordnung nur wichtig, ob ein Mitglied Sch¨ uler ist oder nicht, so sind dabei 4! Permutationen bez¨ uglich der Berufst¨atigen und 6! Permutationen bez¨ uglich der Sch¨ uler nicht unterscheidbar. Also ist die Anzahl der (unterscheidbaren) Permutationen mit Wiederholung nach (6.3) gleich 10! 10 · 9 · 8 · 7 · 6! 10 · 9 · 8 · 7 5040 = = = = 210 . 4! 6! 4! 6! 4! 24
6.3 Kombinationen Definition 6.3.1. Eine Auswahl von m Elementen aus einer Gesamtmenge von n (unterscheidbaren) Elementen (mit n ≥ m) heißt Kombination mter Ordnung aus n Elementen. Definition 6.3.2. Der Binomialkoeffizient ist f¨ ur ganzzahlige n ≥ m ≥ 0 definiert als n n! = . (6.4) m m! (n − m)! (Der Binomialkoeffizient wird als “ n u ¨ber m” oder “ m aus n” gelesen).
124
6. Kombinatorik
Es gilt n = 1, 0
n = n, 1
n n = . m n−m
Wir unterscheiden zwischen vier verschiedenen Modellen f¨ ur Kombinationen, abh¨ angig von der Bedeutung der Reihenfolge und den Wiederholungen: 1) 2) 3) 4)
Kombinationen Kombinationen Kombinationen Kombinationen
ohne Wdh. und ohne Ber¨ ucksichtigung der Reihenfolge ohne Wdh. und mit Ber¨ ucksichtigung der Reihenfolge mit Wdh. und ohne Ber¨ ucksichtigung der Reihenfolge mit Wdh. und mit Ber¨ ucksichtigung der Reihenfolge
In den folgenden Kapiteln 6.3.1-6.3.4 wollen wir n¨aher auf diese Modelle eingehen. 6.3.1 Kombinationen ohne Wiederholung und ohne Ber¨ ucksichtigung der Reihenfolge Die Anzahl der Kombinationen ohne Wiederholung und ohne Ber¨ ucksichtigung der Reihenfolge betr¨ agt n . (6.5) m Man stelle sich vor, die n Elemente werden in zwei Gruppen unterteilt: die Gruppe der ausgew¨ ahlten m = n1 Elemente und die Gruppe der nicht ausgew¨ ahlten restlichen n − m = n2 Elemente. Die Reihenfolge innerhalb der beiden Gruppen interessiert dabei nicht. Damit kann (6.5) mit (6.3) gleichgesetzt werden: n! n n! = . (6.6) = m! (n − m)! n1 ! n2 ! m Beispiel 6.3.1. Aus n = 50 Studenten sollen zuf¨allig m = 5 Studenten nach ihrer Meinung zum Professor befragt werden. Es gibt dann 50 50! = 2118760 = 5 5!45! verschiedene Stichproben (ohne Wiederholung: kein Student doppelt in der Stichprobe, Reihenfolge in der Stichprobe bleibt unber¨ ucksichtigt). 6.3.2 Kombinationen ohne Wiederholung, aber mit Ber¨ ucksichtigung der Reihenfolge Sollen zwei Kombinationen, die genau dieselben m Elemente enthalten, aber in verschiedener Anordnung, als verschieden gelten, so spricht man von Kombination mit Ber¨ ucksichtigung der Reihenfolge. Die Anzahl betr¨agt
6.3 Kombinationen
n! = (n − m)!
n m! . m
125
(6.7)
Die Ber¨ ucksichtigung der Anordnung der m Elemente erh¨oht also die Anzahl der Kombinationen um den Faktor m! (vgl. (6.5)), d. h. um die Kombinationen, die vorher als gleich galten. Wir ziehen aus der Urne also m verschiedene Kugeln ohne Zur¨ ucklegen, halten aber die Reihenfolge fest, in der sie gezogen wurden. Beispiel 6.3.2. Ber¨ ucksichtigt man bei der Dreiereinlaufwette die Reihenfolge der ersten drei Pferde, so gibt es bei n = 20 gestarteten Pferden 20! = 20 · 19 · 18 = 6840 (20 − 3)! verschiedene Einlaufergebnisse. 6.3.3 Kombinationen mit Wiederholung, aber ohne Ber¨ ucksichtigung der Reihenfolge L¨ asst man zu, dass Elemente mehrfach in der Kombination auftreten, so spricht man von Kombination mit Wiederholung. Die Anzahl der Kombinationen mit Wiederholung, aber ohne Ber¨ ucksichtigung der Reihenfolge betr¨ agt n+m−1 (n + m − 1)! . (6.8) = m m! (n − 1)! Im Vergleich zum Fall der Kombinationen ohne Wiederholung (6.5) vergr¨ oßert sich die Menge, aus der ausgew¨ ahlt wird, um m − 1 Elemente. Im Urnenmodell entspricht dies dem Ziehen mit Zur¨ ucklegen, aber ohne Ber¨ ucksichtigung der Reihenfolge. ¨ Beispiel 6.3.3. Ein Hersteller f¨ ur Oko-Produkte besitzt zwei große Felder. Aus n = 4 verschiedenen Gem¨ usesorten (a,b,c,d) lassen sich 4+2−1 5 3! · 4 · 5 5! = = 10 = = 2 2 2! 3! 1 · 2 · 3! Paare (m = 2) von Gem¨ usesorten auf den beiden Feldern anbauen, bei denen Wiederholungen (einer Sorte) zugelassen sind und die Reihenfolge unber¨ ucksichtigt bleibt: (a,a)
(a,b) (b,b)
(a,c) (b,c) (c,c)
(a,d) (b,d) (c,d) (d,d)
126
6. Kombinatorik
6.3.4 Kombinationen mit Wiederholung und mit Ber¨ ucksichtigung der Reihenfolge Die Anzahl der Kombinationen mit Wiederholung und mit Ber¨ ucksichtigung der Reihenfolge betr¨ agt (6.9) nm . In diesem Modell gibt es f¨ ur jede der m Auswahlstellen n m¨ogliche Elemente. Beispiel 6.3.4. Im Spiel “Super 6” wird eine sechsstellige Zahl gezogen. Stimmt diese mit der Spielscheinnummer eines Teilnehmers vollst¨andig u ¨berein, so bekommt dieser den Hauptgewinn. F¨ ur jede Stelle dieser Zahl findet ein eigener Ziehvorgang statt, in dem eine Zahl zwischen 0 und 9 gezogen wird. Es gibt also n = 10 M¨ oglichkeiten f¨ ur jede Ziehung. Insgesamt wird m = 6 mal gezogen. Die Anzahl der m¨ oglichen Kombinationen ist also: nm = 106 = 1000000.
6.4 Weitere Hinweise Merke:
Die kombinatorischen Regeln dieses Kapitels lassen sich wie folgt zusammenfassen: Kombinationen ohne Reihenfolge mit Reihenfolge
ohne Wiederholung n m n m! m
mit Wiederholung
n+m−1 m
nm
Kombinationen ohne Wiederholung werden h¨aufig auch als Kombinationen ohne Zur¨ ucklegen bezeichnet, Kombinationen mit Wiederholung auch als Kombinationen mit Zur¨ ucklegen.
F¨ ur die Permutationen gilt: ohne Wiederholung Permutationen
n!
mit Wiederholung n! n1 ! · · · ns !
6.5 Aufgaben
127
6.5 Aufgaben Aufgabe 6.1: Bei Familie M¨ uller (Mutter, Vater, 3 Kinder) steht der j¨ahrliche Fr¨ uhjahrsputz an. Insgesamt gibt es dieses Jahr 5 gr¨oßere Arbeiten zu erledigen. Ungl¨ ucklicherweise werden der a ¨lteste Sohn und der Vater der Familie aus unerkl¨ arlichen Umst¨ anden krank. Die Familie beschließt daher nur drei der urspr¨ unglich 5 Arbeiten zu erledigen. Die Aufgaben werden an die Mutter und die beiden T¨ ochter zuf¨ allig per Los verteilt. Zuerst bekommt die Mutter eine Aufgabe zugeteilt, dann die erste Tochter, dann die zweite! Wieviele m¨ ogliche Aufteilungen der 5 Fr¨ uhjahrsputzarbeiten auf die drei gesunden Mitglieder der Familie gibt es insgesamt? L¨ osung: Insgesamt gibt es n = 5 Arbeiten, die auf m = 5 − 2 = 3 Personen zuf¨ allig aufgeteilt werden. Die Reihenfolge spielt eine Rolle, das heißt, es gibt 5! ogliche Aufgabenaufteilungen. (5−3)! = 60 m¨ Aufgabe 6.2: Ein Lateinlehrer sorgt sich um die Vokabelkenntnisse seiner Sch¨ uler. Um das Vokabellernen zu forcieren, droht er seiner Klasse (25 Sch¨ uler) damit, regelm¨ aßig zu Beginn der Unterrichtsstunde 5 Sch¨ uler abzufragen. Wieviele Anordnungsm¨ oglichkeiten von abzufragenden Sch¨ ulern gibt es, wenn a) kein Sch¨ uler mehrmals pro Stunde abgefragt werden kann? b) ein Sch¨ uler auch mehrmals pro Stunde abgefragt werden kann? L¨ osung: Im Allgemeinen kann davon ausgegangen werden, dass die Reihenfolge hier nicht von Bedeutung ist, da es beim abgefragten Sch¨ uler keine Rolle spielt an welcher Stelle er abgefragt wird. oglicha) In diesem Fall gibt es mit n = 25 und m = 5 genau 25 5 = 53130 M¨ keiten. b) Hier gibt es
25+5−1 5
=
29 5
= 118755 M¨ oglichkeiten der Abfrage.
Aufgabe 6.3: ’Gobang’ ist ein Spiel bei dem zwei Spieler abwechselnd auf einem Spielfeld mit 381 Knotenfeldern einen Spielstein platzieren. Sieger ist wer zuerst f¨ unf Spielsteine in einer Reihe legen kann. Nach einem bestimmten Prinzip d¨ urfen Steine auch geschlagen werden. Nehmen Sie an, dass sich bei einem angefangenen Spiel bereits 64 Spielsteine auf dem Feld befinden. Wieviele m¨ ogliche Aufteilungen f¨ ur die Steine auf dem Spielfeld gibt es insgesamt?
128
6. Kombinatorik
L¨ osung: Wir haben insgesamt n = 361 Spielfelder. Wir k¨onnen hier vom ’Ziehen ohne Zur¨ ucklegen’ (also ohne Wdh.) ausgehen, da jeder Knotenpunkt des Spielfeldes nur einmal belegt werden kann. Wir wollen nun m = 64 Steine auf dem Spielfeld platzieren. Da hier die Reihenfolge keine spielt, erhalten n Rolle 73 = 381 wir f¨ ur die Anzahl der m¨ oglichen Kombinationen m 64 ≈ 4.35 · 10 . Aufgabe 6.4: Ein Getr¨ ankemarkt bietet als Spezialangebot den ’M¨ unchner Kasten’ an. Dabei d¨ urfen sich die Kunden aus sechs Bieren der sechs großen M¨ unchner Brauereien ein beliebiges Sortiment zusammenstellen. Ein Kasten fasst dabei 20 Flaschen. a) Wie viele Kombinationsm¨ oglichkeiten bei der Zusammenstellung eines Kastens gibt es insgesamt? b) Ein Kunde m¨ ochte auf alle F¨ alle mindestens eine Flasche pro Brauerei in seinem Kasten haben. Wie viele Kombinationsm¨oglichkeiten f¨ ur den Kasten gibt es jetzt? L¨ osung: a) Beim Ziehen der Flaschen kann davon ausgegangen werden, dass ’mit Zur¨ ucklegen’ (also mit Wdh.) gezogen wird, da sich der Kunde an jeder Stelle des Kastens zwischen allen sechs Bieren entscheiden kann. Die Reihenfolge der Flaschen spielt keine Rolle. Damit berechnen sich die Kombinationsm¨ oglichkeiten als n+m−1 6 + 20 − 1 25 = = = 53130 . m 20 20 b) M¨ ochte der Kunde mindestens eine Flasche pro Brauerei in seiner Auswahl haben, so sind sechs der insgesamt 20 Pl¨ atze des Kastens bereits belegt. ¨ F¨ ur die u atze stellen wir die gleichen Uberlegungen wie in ¨brigen 14 Pl¨ Aufgabenteil a) an und erhalten damit f¨ ur die Anzahl der Kombinationen: n+m−1 6 + 14 − 1 19 = 11628 . = = 14 m 14 Aufgabe 6.5: Bei der Fußball WM 2010 nehmen insgesamt 32 Mannschaften teil. Wieviele M¨ oglichkeiten f¨ ur die Belegung des Siegerpodestes (Pl¨atze 1-3) gibt es, wenn a) die Reihenfolge der Pl¨ atze eine Rolle spielt, b) die Reihenfolge der Pl¨ atze keine Rolle spielt? L¨ osung: a) Mit n = 32 und m = 3 ergeben sich genau destverteilungen. b) Es gibt
32 3
32! (32−3)!
= 4960 verschiedene M¨ oglichkeiten.
= 29760 m¨ogliche Po-
6.5 Aufgaben
129
Aufgabe 6.6: Ein B¨ ucherversand vergibt an seine Mitglieder Mitgliedsnummern in Form einer vierstelligen Buchstabenkombination. M¨ogliche Buchstaben auf der Mitgliedskarte sind “A” bis “L”. Die Buchstaben k¨onnen dabei auch mehrfach auftreten. Durch eine Pr¨ amienaktion vergr¨oßert der Buchclub seine Mitgliederzahl von 18200 auf 20500. K¨ onnen unter diesen Umst¨anden noch genug neue Mitgliedsnummern vergeben werden oder muss sich der Buchclub ein neues System u ¨berlegen? L¨ osung: Insgesamt gibt es n = 12 verschiedene Buchstaben f¨ ur jede der m = 4 Stellen der Mitgliedsnummer. Da die Buchstaben auch doppelt verwendet werden d¨ urfen, gibt es insgesamt nm = 124 = 20736 Kombinationsm¨oglichkeiten. Jedem der 20500 Mitglieder kann also eine eigene Buchstabenkombination u ¨bergeben werden. Aufgabe 6.7: Im alten Wertungssystem zum Eiskunstlauf und Eistanzen, das bis zum Jahr 2004 g¨ ultig war, vergaben 9 zuf¨ allig ausgeloste Preisrichter Noten auf einer Skala von 0 bis 6. Die Noten mussten dabei nicht ganzzahlig sein, sondern konnten auch bis auf die erste Dezimalstelle abgestuft werden. Wieviele Kombinationsm¨ oglichkeiten an Bewertungen gab es damit insgesamt? L¨ osung: Insgesamt gab es ter: 0 0.1 1 1.1 . . 5 5.1 6
folgende 61 M¨ oglichkeiten der Bewertung pro Preisrich0.2 1.2
0.3 1.3
0.4 1.4
5.2
5.3
5.4
0.5 1.5 . . 5.5
0.6 1.6
0.7 1.7
0.8 1.8
5.6
5.7
5.8
0.9 1.9 . . 5.9
Da verschiedene Preisrichter auch gleiche Bewertungen vergeben d¨ urfen, k¨ onnen wir von einem ’Ziehen mit Zur¨ ucklegen’ (also mit Wdh.) ausgehen. Jede Note ist mit einem bestimmten Preisrichter ’verbunden’, d.h. die Reihenfolge spielt eine Rolle. Daher ist die Menge aller Kombinationsm¨oglichkeiten gegeben durch nm = 619 ≈ 1.17 · 1016 . Aufgabe 6.8: Im Pascalschen Dreieck (Abbildung 6.1, links) kann jeder Eintrag als Summe der beiden dar¨ uberstehenden Eintr¨age aufgefasst werden. Die Eintr¨ age des Dreiecksk¨ onnen ferner auch als geometrische Darstellung des Binomialkoeffizienten nk interpretiert werden (Abbildung 6.1, rechts). Dabei beschreibt k = 0, 1, 2, . . . den Spaltenindex und n = 0, 1, 2, . . . den Zeilenindex. a) Pr¨ ufen Sie nach, dass sich die Eintr¨ age ur die markierte dritte Diagonale f¨ stets u ¨ber den Binomialkoeffizienten n2 darstellen lassen!
130
6. Kombinatorik 0 0
1 1 1
1
2 3
1 1
1 3
6
4 5
1
10
4 10
3 0
1
5
1
5 0
4 0
1
2 0
1 0
1 1
2 1
3 1
4 1
5 1
3 2
4 2
5 2
2 2
5 3
3 3
4 3
4 4
5 4
5 5
Abb. 6.1. Auszug aus dem Pascalschen Dreieck (links), sowie seine Darstellung in Form der Binomialkoeffizienten (rechts)
b) Zeigen Sie, dass die Summe zweier aufeinanderfolgenden Binomialkoeffizienten aus der fett gedruckten, dritten Diagonale stets eine Quadratzahl ergibt. L¨ osung: a) Man erh¨ alt f¨ ur die einzelnen Eintr¨ age: 2 n 2 3 n 3 =1↔ = = 1; =3↔ = =3 0 2 2 1 2 2 4 n 4 5 n 5 =6↔ = = 6; = 10 ↔ = = 10 2 2 2 3 2 2 b) Aus Aufgabenteil a) folgt, dass sich jede Zahl der Diagonale als n2 beschreiben asst. Die Summe zweier aufeinanderfolgenden Zahlen ist somit n+1l¨ n + alt man: 2 2 . Dann erh¨ n n+1 n(n − 1) (n + 1)n + + = 2 2 2 2 n · 2n n(n − 1 + n + 1) = = n2 . = 2 2
7. Elemente der Wahrscheinlichkeitsrechnung
7.1 Einleitung Ziel jeder wissenschaftlichen Untersuchung ist es, bei beobachteten Zusammenh¨ angen, Effekten oder Trends zu pr¨ ufen, ob diese beobachteten Effekte systematisch oder zuf¨ allig sind. Die Statistik bezeichnet dies als signifikant oder nicht signifikant. Statistische Erhebungen sind mit einem Experiment vergleichbar, dessen Ergebnis vor seiner Durchf¨ uhrung nicht bekannt ist. Versuche oder Experimente, die bei Wiederholungen unter gleichen Bedingungen zu verschiedenen Ergebnissen f¨ uhren k¨ onnen, heißen zuf¨ allig. Zuf¨ alliges Experiment Regenschirm dabei Werfen eines W¨ urfels Befragen eines Studenten Einsatz von Werbung
Beispiel 7.1.1. M¨ ogliche Ergebnisse Regen (ja,nein) Augenzahl z (z = 1, 2, . . . , 6) bestandene Pr¨ ufung (ja, nein) Umsatz¨ anderung x (in%) (x = 0, ±1, ±2, . . .)
7.2 Zuf¨ allige Ereignisse Ein zuf¨ alliges Ereignis ist eine Menge von Ergebnissen {ω1 , . . . , ωk } eines Zufallsexperiments. Man sagt, das zuf¨ allige Ereignis A = {ω1 , . . . , ωk } tritt ein, wenn mindestens eines der zuf¨ alligen Ereignisse {ωi } eingetreten ist. Ereignisse, die nur aus der einelementigen Menge {ωi } bestehen, heißen Elementarereignisse. Ein Elementarereignis ist ein Ereignis, das sich nicht ucken l¨asst. Der Ereignisraum als Vereinigung mehrerer Ergebnisse ωi ausdr¨ oder Grundraum Ω ist die Menge aller Elementarereignisse. Beispiel 7.2.1 (W¨ urfelwurf ). Beim einmaligen Werfen eines W¨ urfels sind die m¨ oglichen Ergebnisse die Augenzahlen 1, . . . , 6. Damit besteht der Ereignisraum aus den Elementarereignissen ω1 = 1“, ω2 = 2“,. . ., ω6 = 6“: ” ” ” Ω = {1, . . . , 6}. Das Ereignis A = {ω2 , ω4 , ω6 } tritt ein, falls eines der Elementarereignisse ω2 , ω4 oder ω6 eingetreten ist. In diesem Fall ist A das zuf¨ allige Ereignis gerade Augenzahl beim einmaligen W¨ urfeln“. ”
132
7. Elemente der Wahrscheinlichkeitsrechnung
Beim zweifachen W¨ urfelwurf sind die Elementarereignisse ω1 , . . . , ω36 die Paare (1, 1) bis (6, 6). Damit hat Ω die Gestalt {(1, 1), (1, 2), (1, 3), (1, 4), (1, 5), (1, 6) (2, 1), (2, 2), ... (2, 6) Ω= .. .. . . (6, 1), ... (6, 5), (6, 6)} Das unm¨ ogliche Ereignis ∅ ist das Ereignis, das kein Elementarereignis enth¨ alt. Das sichere Ereignis ist die Menge Ω = {ω1 , . . . , ωn } aller Elementarereignisse. Das sichere Ereignis tritt in jeder Wiederholung des Zufallsexperiments ein. Beispiel 7.2.2. • f¨ ur das sichere Ereignis: – Beim Befragen eines Studenten wird der Professor mit einer Note zwischen 1 und 5 bewertet. – Eine Kunde eines Supermarktes ist mit dem dortigen Angebot “sehr zufrieden”, “zufrieden”, “unzufrieden” oder “ohne Meinung”. • f¨ ur das unm¨ ogliche Ereignis: – Die gezogene Zahl z = −1, z = 5.5 oder z = 51 bei der Ziehung im Lotto ‘6 aus 49’. – “Gerade Augenzahl in beiden W¨ urfen” und “ungerade Augensumme beim zweifachen W¨ urfelwurf”. Das Komplement¨ arereignis A¯ ist das Ereignis, das genau dann eintritt, wenn A nicht eintritt. Beispiel 7.2.3. • Beim M¨ unzwurf ist “Wappen” das zu “Zahl” komplement¨are Ereignis. • F¨ ur das zuf¨ allige Ereignis A: “Professor beliebt” ist das komplement¨are ¯ “Professor nicht beliebt”. Ereignis A: Wie bereits erw¨ ahnt, kann man bei Zufallsexperimenten an einem Elementarereignis ωi interessiert sein oder auch an einem zusammengesetzten allige Ereignisse Mengen von ElementarEreignis A = {ω2 , ω5 , . . .}. Da zuf¨ ereignissen sind, sind folgende Mengenoperationen von Interesse, die in den Abbildungen 7.1 und 7.2 veranschaulicht werden.
7.2 Zuf¨ allige Ereignisse
A∪B
A∩B
A\B
A¯
133
Das zuf¨ allige Ereignis A ∪ B ist die Vereinigungsmenge aller Elementarereignisse aus A und B, wobei gemeinsame Elementarereignisse nur einmal aufgef¨ uhrt werden. Das Ereignis A oder ” B“ tritt genau dann ein, wenn mindestens eines der beiden Ereignisse A oder B eintritt. Beispiel W¨ urfel: A = {ω2 , ω4 , ω6 } (gerade Zahl), B = {ω3 , ω6 } (durch 3 teilbar), A ∪ B = {ω2 , ω3 , ω4 , ω6 } (gerade oder durch 3 teilbar). Das zuf¨ allige Ereignis A ∩ B ist die Durchschnittsmenge aller Elementarereignisse aus A und B. Das Ereignis A und B“ tritt ” genau dann ein, wenn sowohl A als auch B eintreten. Beispiel W¨ urfel: A = {ω2 , ω4 , ω6 } (gerade Zahl), B = {ω3 , ω6 } (durch 3 teilbar), A ∩ B = {ω6 } (gerade und durch 3 teilbar). Das zuf¨ allige Ereignis A\B enth¨alt alle Elementarereignisse aus A, die nicht gleichzeitig in B enthalten sind. Das Ereignis A aber ” nicht B“ oder A minus B“ tritt genau dann ein, wenn A aber ” ¯ nicht B eintritt. Es gilt A\B = A ∩ B Beispiel W¨ urfel: A = {ω2 , ω4 , ω6 } (gerade Zahl), B = {ω3 , ω6 } (durch 3 teilbar), A\B = {ω2 , ω4 } (gerade, aber nicht durch 3 teilbar). Das zuf¨ allige Ereignis A¯ enth¨ alt alle Elementarereignisse aus Ω, die nicht in A vorkommen. Das zu A komplement¨are Ereignis Nicht-A“ oder A quer“ tritt genau dann ein, wenn A nicht ein” ” tritt. Beispiel W¨ urfel: A = {ω2 , ω4 , ω6 } (gerade Zahl), A¯ = {ω1 , ω3 , ω5 } (ungerade Zahl).
A
B
A
B
Abb. 7.1. A ∪ B und A ∩ B
Anmerkung. Folgende Schreibweisen sind ebenfalls u ¨blich: A+B AB A−B
f¨ ur A ∪ B f¨ ur A ∩ B f¨ ur A\B
Betrachten wir ein Ereignis A, so sind folgende Zusammenh¨ange von Interesse:
134
7. Elemente der Wahrscheinlichkeitsrechnung
A
B
A
A¯
¯ = Ω\A Abb. 7.2. A\B und A
A∪A=A A∪Ω =Ω A∪∅=A A ∪ A¯ = Ω
A∩A=A A∩Ω =A A∩∅=∅ A ∩ A¯ = ∅
Definition 7.2.1. Zwei zuf¨ allige Ereignisse A und B heißen unvereinbar oder disjunkt, falls ihr gleichzeitiges Eintreten unm¨ oglich ist, d.h., falls A ∩ B = ∅ gilt. Damit gilt nat¨ urlich insbesondere, dass A und A¯ disjunkt sind. Beispiel 7.2.4 (Einfacher W¨ urfelwurf ). Die zuf¨alligen Ereignisse ungerade ” Augenzahl“ A = {ω1 , ω3 , ω5 } und gerade Augenzahl“ B = A¯ = {ω2 , ω4 , ω6 } ” sind disjunkt. Wir k¨ onnen einen zuf¨ alligen Versuch durch die Menge der Elementarereignisse Ω = {ω1 , . . . , ωn } oder durch Mengen von zuf¨alligen Ereignissen ugen. A1 , . . . , Am (m ≤ n) beschreiben, die folgender Definition gen¨ Definition 7.2.2. Die zuf¨ alligen Ereignisse A1 , . . . , Am bilden ein vollst¨ andiges System bzw. eine vollst¨ andige Zerlegung von Ω genau dann, wenn A1 ∪ A2 ∪ · · · ∪ Am = Ω und Ai ∩ Aj = ∅
(f¨ ur alle i = j).
Beispiel 7.2.5 (Einmaliger W¨ urfelwurf ). Die Elementarereignisse ω1 , . . . , ω6 bilden in jedem Fall ein vollst¨ andiges System. Weitere m¨ogliche vollst¨andige Systeme sind z.B.: • A1 = {ω1 , ω3 , ω5 } A2 = {ω2 , ω4 , ω6 } • A1 = {ω1 } A2 = {ω2 , . . . , ω6 } • A1 = {ω1 , ω2 , ω3 } A2 = {ω4 , ω5 , ω6 }.
7.3 Relative H¨ aufigkeit und Laplacesche Wahrscheinlichkeit
135
7.3 Relative H¨ aufigkeit und Laplacesche Wahrscheinlichkeit Ein zuf¨ alliger Versuch wird durch die Angabe der m¨oglichen Versuchsausg¨ ange beschrieben (Augenzahlen 1 bis 6 beim W¨ urfelwurf). Dar¨ uber hinaus ist eine Quantifizierung der Versuchsergebnisse von Interesse. Die Quantifizierung mit Hilfe der relativen H¨ aufigkeit zielt auf die Absch¨atzung der Realisierungschancen eines Versuchsergebnisses ab. Man betrachtet deshalb einen zuf¨ alligen Versuch mit den m¨ oglichen Ergebnissen A1 , A2 , . . . , Am , der n-fach unabh¨ angig wiederholt wird, und registriert die absoluten H¨aufigkeiten ni = n(Ai ) der Ereignisse Ai . Beispiel 7.3.1 (Roulette). Beim Roulette betrachten wir das zuf¨allige (Elementar-) Ereigniss A1 : Rot“, A2 : Schwarz“ und A3 : Zero“. Die Anzahl ” ” ” der Wiederholungen sei n = 500. In 300 F¨ allen sei A1 , in 180 F¨allen A2 und in 20 F¨ allen A3 aufgetreten, d.h. es ist n1 = n(A1 ) = 300, n2 = n(A2 ) = 180 und n3 = n(A3 ) = 20. Die relative H¨ aufigkeit fi = f (Ai ) eines zuf¨alligen Ereignisses Ai bei n Wiederholungen berechnet sich gem¨ aß fi = f (Ai ) =
ni , n
wobei • fi = f (Ai ) die relative H¨ aufigkeit eines Ereignisses Ai , aufigkeit eines Ereignisses Ai und • ni = n(Ai ) die absolute H¨ • n die Anzahl der Versuchswiederholungen ist. F¨ ur das obige Beispiel gilt also: 300 180 = 0.6 , f2 = f (A2 ) = = 0.36, 500 500 20 f3 = f (A3 ) = = 0.04. 500 f1 = f (A1 ) =
Anmerkung. Es zeigt sich, dass die relative H¨aufigkeit f (A) f¨ ur hinreichend großes n unter gewissen Voraussetzungen eine Stabilit¨at aufweist in dem Sinne, dass f (A) gegen einen f¨ ur das Ereignis A typischen Wert strebt. Diese Konstante werden wir als Wahrscheinlichkeit des Ereignisses A bezeichnen, die Schreibweise ist P (A). Beispiel 7.3.2. Man erwartet beim wiederholten Roulettespiel, dass die relative H¨ aufigkeit f (Rot) gegen 18 37 strebt, sofern der Einsatz auf Rot sehr oft wiederholt wird. Voraussetzung bleibt jedoch, dass die Versuchsbedingungen konstant gehalten werden.
136
7. Elemente der Wahrscheinlichkeitsrechnung
Einen der H¨ aufigkeitsinterpretation sehr ¨ ahnlichen Ansatz stellt der Laplacesche Wahrscheinlichkeitsbegriff dar. Ein Laplace-Experiment ist ein Zufallsexperiment mit einer endlichen Ergebnismenge, bei dem alle Ergebnisse gleichwahrscheinlich sind. Die Wahrscheinlichkeit eines beliebigen zuf¨alligen Ereignisses ist dann wie folgt definiert: Definition 7.3.1. Der Quotient P (A) =
Anzahl der f¨ ur A g¨ unstigen F¨ alle |A| = |Ω| Anzahl der m¨ oglichen F¨ alle
(7.1)
wird als Laplace-Wahrscheinlichkeit bezeichnet (hierbei ist |A| die Anzahl der Elemente von A und |Ω| die Anzahl der Elemente von Ω). Die M¨ achtigkeiten |A| und |Ω| in der Laplaceschen Wahrscheinlichkeitsdefinition k¨ onnen mit Hilfe der in Kapitel 6 eingef¨ uhrten kombinatorischen Regeln bestimmt werden.
7.4 Axiome der Wahrscheinlichkeitsrechnung Die relative H¨ aufigkeit, die Laplacesche Wahrscheinlichkeit und andere Ans¨atze zur Definition des Begriffs Wahrscheinlichkeit“ sind zwar anschaulich ” und nachvollziehbar, eine formale Grundlage bietet jedoch erst das Axiomensystem der Wahrscheinlichkeitsrechnung von A.N. Kolmogorov (1933): Axiom 1: Jedem zuf¨ alligen Ereignis A eines zuf¨alligen Versuchs ist eine Wahrscheinlichkeit P (A) zugeordnet, die Werte zwischen 0 und 1 annehmen kann: 0 ≤ P (A) ≤ 1. Axiom 2: Das sichere Ereignis hat die Wahrscheinlichkeit 1: P (Ω) = 1. Axiom 3: Sind A1 und A2 disjunkte Ereignisse, so ist P (A1 ∪ A2 ) = P (A1 ) + P (A2 ). Anmerkung. Axiom 3 gilt f¨ ur drei oder mehr disjunkte Ereignisse analog und wird als Additionssatz f¨ ur disjunkte Ereignisse bezeichnet. Beispiel 7.4.1. • Beim einmaligen M¨ unzwurf sind die Ereignisse A1 : Wap” oglich. A1 und A2 sind disjunkt. Das zuf¨allige Erpen“ und A2 : Zahl“ m¨ ” eignis A1 ∪ A2 : Wappen oder Zahl“ hat dann die Wahrscheinlichkeit ” P (A1 ∪ A2 ) = P (A1 ) + P (A2 ) = 1/2 + 1/2 = 1. • Beim einmaligen W¨ urfeln hat jede Zahl die gleiche Wahrscheinlichkeit P (1) = P (2) = · · · = P (6) = 1/6. Die Wahrscheinlichkeit, eine gerade Zahl zu erhalten, ist also P ( gerade Zahl“) = P (2) + P (4) + P (6) = 1/6 + 1/6 + 1/6 = 1/2. ”
7.4 Axiome der Wahrscheinlichkeitsrechnung
137
7.4.1 Folgerungen aus den Axiomen Wir wissen bereits, dass A ∪ A¯ = Ω (sicheres Ereignis) gilt. Da A und A¯ disjunkt sind, gilt nach Axiom 3 die grundlegende Beziehung ¯ = P (A) + P (A) ¯ = 1. P (A ∪ A) Damit erhalten wir Folgerung 1: Die Wahrscheinlichkeit f¨ ur das zu A komplement¨are Ereignis A¯ ist ¯ = 1 − P (A). P (A) (7.2) Diese Regel wird h¨ aufig dann benutzt, wenn die Wahrscheinlichkeit von A ¯ bekannt ist oder leichter zu berechnen ist als die von A. Beispiel 7.4.2. Max kauft sich eine Schachtel Pralinen in der sechs Geschmacksrichtungen enthalten seien. Von jeder Geschmacksrichtung gibt es 5 Pralinen. Sei A = {“M arzipan“}. Die Wahrscheinlichkeit bei blindem Hineingreifen eine Marzipanpraline zu erwischen, betr¨agt P (“M arzipan ) = ¯ keine Marzipan5/30. Dann ist die Wahrscheinlichkeit f¨ ur das Ereignis A: ” praline“ P (“keine Marzipanpraline“) = 1 − P (“M arzipan“) = 25/30. Folgerung 2: Die Wahrscheinlichkeit des unm¨ oglichen Ereignisses ∅ ist gleich Null: ¯ = 1 − P (Ω) = 0 . P (∅) = P (Ω) Folgerung 3: Die Wahrscheinlichkeit, dass von zwei Ereignissen A1 und A2 , die sich nicht notwendig gegenseitig ausschließen, mindestens eines eintritt, ist (7.3) P (A1 ∪ A2 ) = P (A1 ) + P (A2 ) − P (A1 ∩ A2 ). Gleichung (7.3) wird als Additionssatz f¨ ur beliebige Ereignisse bezeichnet. Beispiel 7.4.3. In einem Ruderbootrennen (Achter mit Steuermann) sind die vier L¨ ander Schweiz (CH), Deutschland, USA und Australien vertreten. Einer der 36 Ruderer wird zuf¨ allig ausgew¨ ahlt. Damit gilt: P (Steuermann oder CH) = P (Steuermann) + P (CH) − P (Steuermann-CH) 4 9 1 12 = + − = . 36 36 36 36 Falls ein Ereignis A vollst¨ andig in einem Ereignis B enthalten ist (B hat also dieselben Elementarereignisse wie A plus m¨oglicherweise weitere), so ist die Wahrscheinlichkeit f¨ ur B mindestens so groß wie die von A:
138
7. Elemente der Wahrscheinlichkeitsrechnung
Folgerung 4: F¨ ur A ⊆ B gilt stets P (A) ≤ P (B). Der Beweis benutzt die Darstellung B = A ∪ (A¯ ∩ B) mit den disjunkten Mengen A und A¯ ∩ B. Damit gilt nach Axiom 3 und Axiom 1 P (B) = P (A) + P (A¯ ∩ B) ≥ P (A) . 7.4.2 Rechenregeln f¨ ur Wahrscheinlichkeiten ¨ Wir fassen die Axiome und die Folgerungen 1 bis 5 in der folgenden Ubersicht zusammen: (1)
0 ≤ P (A) ≤ 1
(2)
P (Ω) = 1
(3)
P (∅) = 0
(4)
¯ = 1 − P (A) P (A)
(5)
P (A1 ∪ A2 ) = P (A1 ) + P (A2 ) − P (A1 ∩ A2 )
(6)
P (A1 ∪ A2 ) = P (A1 ) + P (A2 ), falls A1 und A2 disjunkt sind.
7.5 Bedingte Wahrscheinlichkeit 7.5.1 Motivation und Definition Wir betrachten nun die Situation, dass von zwei Ereignissen A und B z.B. das Ereignis A eine Vorinformation dahingehend liefert, dass sein Eintreten den m¨ oglichen Ereignisraum von B reduziert. Formal gesehen betrachten wir einen zuf¨ alligen Versuch mit n Elementarereignissen, d.h., es gelte Ω = {ω1 , . . . , ωn }, und zwei zuf¨ allige Ereignisse A (mit nA Elementarereignissen) und B (mit nB Elementarereignissen). Ferner enthalte das Ereignis A ∩ B nAB Elementarereignisse. Nach den bisherigen Regeln (vgl. z.B. (7.1)) gilt dann nB nAB nA , P (B) = , P (A ∩ B) = . P (A) = n n n Nach Realisierung des Versuchs sei bekannt, dass A eingetreten ist. Damit stellt sich die Frage, wie groß dann unter dieser Zusatzinformation die Wahrscheinlichkeit daf¨ ur ist, dass auch B eingetreten ist. Hierzu gehen wir von Ω zur reduzierten Menge A mit nA Elementen u ¨ber. Nun gibt es unter den nA m¨ oglichen Ereignissen nur noch m f¨ ur B g¨ unstige Ereignisse. Bei diesen m Ereignissen ist immer auch A eingetreten, so dass m = nAB gilt. Die Laplace-Wahrscheinlichkeit ist dann P (A ∩ B) m nAB /n = . = nA nA /n P (A) Dies f¨ uhrt zur folgenden Definition
(7.4)
7.5 Bedingte Wahrscheinlichkeit
139
Definition 7.5.1. Sei P (A) > 0, so ist P (B|A) =
P (A ∩ B) P (A)
(7.5)
die bedingte Wahrscheinlichkeit von B unter der Bedingung, dass A eingetreten ist. Vertauschen wir die Rollen von A und B und sei P (B) > 0, so ist die bedingte Wahrscheinlichkeit von A unter der Bedingung, dass B eingetreten ist, gleich P (A ∩ B) P (A|B) = . (7.6) P (B) L¨ osen wir (7.5) und (7.6) jeweils nach P (A ∩ B) auf, so folgt Theorem 7.5.1 (Multiplikationssatz). F¨ ur zwei beliebige Ereignisse A und B gilt P (A ∩ B) = P (B|A)P (A) = P (A|B)P (B) . (7.7) Theorem 7.5.2 (Satz von der totalen Wahrscheinlichkeit). Bilden die Ereignisse A1 , . . . , Am eine vollst¨ andige Zerlegung von Ω = ∪m i=1 Ai in paarweise disjunkte Ereignisse, so gilt f¨ ur ein beliebiges Ereignis B P (B) =
m
P (B|Ai )P (Ai ) .
(7.8)
i=1
7.5.2 Der Satz von Bayes Der Satz von Bayes untersucht den Zusammenhang zwischen P (A|B) und P (B|A). F¨ ur beliebige Ereignisse A und B mit P (A) > 0 und P (B) > 0 gilt mit (7.5) und (7.6) P (A ∩ B) P (A) P (A ∩ B) = P (B) P (A) P (B) P (B|A)P (A) . = P (B)
P (A|B) =
(7.9)
Bilden die Ai eine vollst¨ andige Zerlegung von Ω und ist B irgendein Ereignis, so gilt mit (7.8) und (7.9) P (B|Aj )P (Aj ) . P (Aj |B) = i P (B|Ai )P (Ai )
(7.10)
Die P (Ai ) heißen a-priori Wahrscheinlichkeiten , die P (B|Ai ) Modellwahrscheinlichkeiten und die P (Aj |B) a-posteriori Wahrscheinlichkeiten.
140
7. Elemente der Wahrscheinlichkeitsrechnung
Beispiel 7.5.1. Ein Kunde leiht sich regelm¨ assig Filme aus zwei verschiedenen Videotheken aus. Ab und zu passiert es jedoch, dass ein von ihm ausgeliehener Film nicht zur¨ uckgespult wurde. Wir betrachten folgende zuf¨allige Ereignisallige Ereignis Der Film wird aus Videothek i se: Ai (i = 1, 2) sei das zuf¨ ” ausgeliehen“, B sei das zuf¨ allige Ereignis Der Film wurde zur¨ uckgespult“. ” Wenn wir wissen, dass P (A1 ) = 0.6 und P (A2 ) = 0.4 sowie P (B|A1 ) = ur die Wahrscheinlichkeit, dass ein Film 0.95, P (B|A2 ) = 0.75, dann folgt f¨ zur¨ uckgespult ist: P (B) = P (B|A1 )P (A1 ) + P (B|A2 )P (A2 ) = 0.6 · 0.95 + 0.4 · 0.75 = 0.87.
[nach (7.8)]
Interessiert uns die Wahrscheinlichkeit, dass ein ausgew¨ahlter Film aus Videothek 1 ist und außerdem zur¨ uckgespult wurde ist, dann folgt: P (B ∩ A1 ) = P (B|A1 )P (A1 ) = 0.95 · 0.6
[nach (7.7)]
= 0.57.
Sei ein zuf¨ allig ausgew¨ ahlter Film zur¨ uckgespult. Wie groß ist die Wahrscheinlichkeit, dass dieser Film aus der ersten Videothek stammt? P (A1 |B) =
0.57 P (A1 ∩ B) = = 0.6552. P (B) 0.88
[nach (7.6)]
¯ tritt ein). Sei ein zuf¨ allig ausgew¨ ahlter Film nicht zur¨ uckgespult (d.h. B Die Wahrscheinlichkeit, dass dieser aus der ersten Videothek stammt, ist mit ¯ 2 ) = 0.25 f¨ ¯ 1 ) = 0.05 und P (B|A ur Videothek 2 P (B|A ¯ 1 )P (A1 ) P (B|A ¯ ¯ 2 )P (A2 ) P (B|A1 )P (A1 ) + P (B|A 0.05 · 0.6 = = 0.2308. 0.05 · 0.6 + 0.25 · 0.4
¯ = P (A1 |B)
[nach (7.9)]
7.6 Unabh¨ angigkeit Sind zwei zuf¨ allige Ereignisse A und B unabh¨angig in dem Sinne, dass das Eintreten des Ereignisses B keinen Einfluss auf das Eintreten von A hat, so erwartet man, dass ¯ = P (A) P (A|B) = P (A) und P (A|B)
7.6 Unabh¨ angigkeit
141
gilt. Mit (7.6) erhalten wir in dieser Situation P (A ∩ B) P (B) ¯ P (A ∩ B) ¯ . = P (A|B) = ¯ P (B)
P (A|B) =
(7.11)
Durch Umformen erhalten wir die zu (7.11) ¨ aquivalente Beziehung ¯ = P (A ∩ B)P ¯ (B) P (A ∩ B)P (B) ¯ (B) P (A ∩ B)(1 − P (B)) = P (A ∩ B)P ¯ + P (A ∩ B))P (B) P (A ∩ B) = (P (A ∩ B) P (A ∩ B) = P (A)P (B) .
(7.12)
Dies f¨ uhrt zur Definition der (stochastischen) Unabh¨angigkeit. Definition 7.6.1. Zwei zuf¨ allige Ereignisse A und B heißen genau dann voneinander (stochastisch) unabh¨ angig, wenn P (A ∩ B) = P (A)P (B)
(7.13)
gilt, d.h., wenn die Wahrscheinlichkeit f¨ ur das gleichzeitige Eintreten von A und B gleich dem Produkt der beiden Einzelwahrscheinlichkeiten ist. Der Begriff der Unabh¨ angigkeit kann auf den Fall von mehr als zwei Ereignissen verallgemeinert werden. Definition 7.6.2. n Ereignisse A1 , . . . , An heißen (stochastisch) unabh¨ angig, falls f¨ ur jede Auswahl Ai1 , . . . , Aim (m ≤ n) P (Ai1 ∩ · · · ∩ Aim ) = P (Ai1 ) · . . . · P (Aim )
(7.14)
gilt. Ein schw¨ acherer Begriff ist der Begriff der paarweisen Unabh¨angigkeit. Wenn die Bedingung (7.14) nur f¨ ur jeweils zwei beliebige Ereignisse (m = 2) erf¨ ullt werden muß, so heißen die Ereignisse paarweise unabh¨ angig. Der Unterschied zwischen paarweiser Unabh¨ angigkeit und stochastischer Unabh¨ angigkeit wird an folgendem Beispiel erl¨ autert. Beispiel 7.6.1. In einer Urne befinden sich vier Kugeln mit den aufgedruckten Zahlenkombinationen 110, 101, 011, 000. Es werde eine Kugel aus der Urne gezogen. Wir definieren dabei die folgenden Ereignisse: A1 : Die gezogene Kugel hat an der ersten Stelle eine Eins. A2 : Die gezogene Kugel hat an der zweiten Stelle eine Eins. A3 : Die gezogene Kugel hat an der dritten Stelle eine Eins.
142
7. Elemente der Wahrscheinlichkeitsrechnung
Da jedes dieser Ereignisse zwei g¨ unstige F¨ alle hat, gilt 1 2 P (A1 ) = P (A2 ) = P (A3 ) = = . 4 2 Das gemeinsame Auftreten aller drei Ereignisse ist jedoch unm¨oglich, da es keine Kugel mit der Kombination 111 gibt. Damit sind die drei Ereignisse nicht stochastisch unabh¨ angig, da gilt 1 P (A1 )P (A2 )P (A3 ) = = 0 = P (A1 ∩ A2 ∩ A3 ) . 8 Es gilt jedoch P (A1 ∩ A2 ) = 14 = P (A1 )P (A2 ) , P (A1 ∩ A3 ) = 14 = P (A1 )P (A3 ) , P (A2 ∩ A3 ) = 14 = P (A2 )P (A3 ) so dass die drei Ereignisse paarweise unabh¨ angig sind.
7.7 Weitere Hinweise Merke:
Wir fassen noch einmal die wichtigsten S¨atze des Kapitels zusammen: • Als Laplace-Wahrscheinlichkeit bezeichnet man den Quotienten P (A) =
Anzahl der f¨ ur A g¨ unstigen F¨alle |A| = . |Ω| Anzahl der m¨oglichen F¨alle
• Der Satz von der totalen Wahrscheinlichkeit lautet P (B) =
m
P (B|Ai )P (Ai ) .
i=1
• Der Satz von Bayes lautet P (B|Aj )P (Aj ) . P (Aj |B) = i P (B|Ai )P (Ai ) • n Ereignisse A1 , . . . , An heißen (stochastisch) unabh¨angig, wenn P (A1 ∩ · · · ∩ An ) = P (A1 ) · . . . · P (An ) .
angigkeitstest vorgestellt, der In Kapitel 14 wird der χ2 -Unabh¨ pr¨ uft, ob zwei diskrete Zufallsvariablen (vgl. Kapitel 8) unabh¨ angig sind.
7.8 Aufgaben
143
7.8 Aufgaben Aufgabe 7.1: Fr¨ uher war in Deutschland das Tippspiel “6 aus 45” sehr popul¨ ar. Aus 45 Fußballbegegnungen sollten die sechs Begegnungen mit den h¨ ochsten Unentschieden getippt werden. Betrachten wir das Ereigniss A: “Spiel i endet Unentschieden, i = 1, ..., 45”. Formulieren Sie je ein Beispiel f¨ ur ein komplement¨ ares Ereignis und ein unm¨ ogliches Ereignis! L¨ osung: Das Komplement¨ arereignis stellt hier einen “Heim- oder Ausw¨artssieg” in der Begegnung i dar. Beispiel f¨ ur ein unm¨ ogliches Ereignis w¨are der Sieg beider Mannschaften. Aufgabe 7.2: Bei einer Pr¨ ufung in zwei F¨ achern sind 25% der Pr¨ uflinge in Mathematik, 15% in Chemie und 10% in Chemie und Mathematik durchgefallen. Einer der Pr¨ uflinge wird zuf¨ allig ausgew¨ ahlt. Wie groß ist die Wahrscheinlichkeit, dass er a) b) c) d)
in mindestens einem der beiden F¨ acher durchgefallen ist? nur in Mathematik durchgefallen ist? in keinem Fach durchgefallen ist? in genau einem Fach durchgefallen ist?
L¨ osung: Gegeben sei: • M: Mathe durchgefallen, • C: Chemie durchgefallen, • P (M ∩ C) = 0.1
P (M ) = 0.25 P (C) = 0.15
a) P (M ∪ C) = P (M ) + P (C) − P (M ∩ C) = 0.25 + 0.15 − 0.1 = 0.3 Mit 30% Wahrscheinlichkeit ist der Pr¨ ufling in mindestens einem Fach durchgefallen. b) P (M \C) = P (M ) − P (M ∩ C) = 0.25 − 0.1 = 0.15 Mit einer Wahrscheinlichkeit von 15% ist er in Mathe durchgefallen. c) P (M ∪ C) = 1 − P (M ∪ C) = 1 − 0.3 = 0.7 Mit einer Wahrscheinlichkeit von 70% hat er beide F¨ acher bestanden. d) P (M \C ∪ C\M ) = P (M ∪ C) − P (C ∩ M ) = 0.3 − 0.1 = 0.2 Genau ein Fach hat er mit einer Wahrscheinlichkeit von 20% nicht geschafft. Aufgabe 7.3: Auf einer Spielemesse muss bei einem neu erschienenen Spiel mit einem Dodekaeder (W¨ urfel mit 12 Seiten) gew¨ urfelt werden. Betrachten wir die f¨ ur das Spiel relevanten Ereignisse A: “gerade Zahl gew¨ urfelt” und B: “Die Zahl ist gr¨ oßer als neun”. Wie hoch ist die Wahrscheinlichkeit bei einmaligem Werfen des Dodekaeders
144
a) b) c) d)
7. Elemente der Wahrscheinlichkeitsrechnung
eine eine eine eine
gerade Zahl zu werfen? Zahl gr¨ oßer als neun zu werfen? gerade Zahl, die gr¨ oßer als neun ist zu werfen? gerade Zahl oder eine Zahl gr¨ oßer als neun zu werfen?
L¨ osung: Die Anzahl aller m¨ oglichen Ereignisse betr¨ agt |Ω| = 12 a) Die Anzahl der g¨ unstigen Ereignisse betr¨ agt hier |A|= 6 (die Zahlen 2, 4, 6 = 12 . 6, 8, 10, 12). Damit ist P (A) = 12 b) Die Anzahl der g¨ unstigen Ereignisse betr¨ agt hier |B|= 3 (die Zahlen 10, 3 = 14 . 11, 12). Damit ist P (B) = 12 c) Die Anzahl der g¨ unstigen Ereignisse betr¨ agt hier 2 (die Zahlen 10, 12). 2 = 16 . Damit ist P (A ∩ B) = 12 d) Die Anzahl der g¨ unstigen Ereignisse betr¨ agt hier 7 (die Zahlen 2, 4, 6, 8, 7 . 10, 11, 12). Damit ist P (A ∪ B) = 12 Aufgabe 7.4: Unter dem Dach von Familie Maier leben 6 Personen: Mutter, Vater, 2 Kinder, Oma und Großtante. Wie jedes Jahr feiert die Familie Weihnachten zusammen. Insgesamt liegen dieses Jahr 12 Geschenke unterm Weihnachtsbaum - f¨ ur jedes Familienmitglied sind zwei der Geschenke vorgesehen. Durch einen Wasserschaden, den der j¨ ungste Sohn verursacht hat, sind die Namen auf den Geschenken jedoch unleserlich geworden. Oma schl¨agt vor, dass sich jeder zuf¨ allig 2 Geschenke nimmt. Wie hoch ist die Wahrscheinlichkeit, dass der Vater a) genau seine beiden Geschenke zieht? b) keines der f¨ ur ihn vorgesehenen Geschenke erwischt? L¨ osung: Die Anzahl aller m¨ oglichen F¨ alle, zwei Geschenke aus insgesamt zw¨olf zu ziehen (also |Ω|), betr¨ agt genau 12 2 . a) Hier betr¨ agt die Anzahl der g¨ unstigen F¨ alle genau eins, da nur eine gezogene Kombination genau die zwei richtigen Geschenke garantiert. Mit Hilfe von (7.3) folgt: P (“beide Geschenke ) =
|A| |Ω|
1 ≈ 0.015 . (12 2) 2 b) Die Anzahl der g¨ unstigen F¨ alle betr¨ agt hier 10 2 0 , da aus den 10 “falschen Geschenken“ genau zwei gezogen werden, w¨ahrend aus den zwei “richtigen“ keines gezogen wird. Es ergibt sich also:
P (“kein Geschenk ) =
|A| |Ω|
=
=
2 (10 2 ) ( 0) ≈ 0.682 . (12 ) 2
7.8 Aufgaben
145
Aufgabe 7.5: Ein ber¨ uhmter Fernsehkoch versalzt seine K¨ urbissuppe mit einer Wahrscheinlichkeit von 0.2. Ist er jedoch verliebt - und in diesem Zustand befindet er sich mit einer Wahrscheinlichkeit von 0.3 - so versalzt er seine Suppen mit einer Wahrscheinlichkeit von 0.6. a) Geben Sie die Wahrscheinlichkeitstabelle f¨ ur die Merkmale ’Fernsehkoch verliebt/nicht verliebt’ und ’Suppe versalzen/nicht versalzen’ mit den zugeh¨ origen Randwahrscheinlichkeiten an. b) Sind die beiden Ereignisse unabh¨ angig? L¨ osung: a) Laut Angabe versalzt der Koch die Suppe mit einer Wahrscheinlichkeit von 0.2, das heißt wir erhalten die Randwahrscheinlichkeiten: P (V ) = 0.2 ⇒ P (V¯ ) = 0.8 . aquivalent erhalten wir f¨ ur die (Rand-)Wahrscheinlichkeiten des Verliebt¨ seins: ¯ = 0.7 . P (L) = 0.3 ⇒ P (L) Des weiteren k¨ onnen wir berechnen: P (V ∩ L) = P (V |L) · P (L) = 0.6 · 0.3 = 0.18 P (V¯ ∩ L) = P (L) − P (V ∩ L) = 0.3 − 0.18 = 0.12 ¯ = P (V ) − P (V ∩ L) = 0.2 − 0.18 = 0.02 P (V ∩ L) ¯ = P (V¯ ) − P (V¯ ∩ L) = 0.8 − 0.12 = 0.68 P (V¯ ∩ L) Wir erhalten damit folgende Tabelle:
L ¯ L
V 0.18 0.02 0.2
V¯ 0.12 0.68 0.8
0.3 0.7 1
b) Die beiden Ereignisse sind nicht unabh¨ angig, da z.B. P (V ) · P (L) = 0.3 · 0.2 = 0.06 = 0.18 = P (V ∩ L). Aufgabe 7.6: Gegeben seien zwei disjunkte Ereignisse, A und B, mit P (A) = 0.3 und P (B) = 0.4. a) Bestimmen Sie die Wahrscheinlichkeit f¨ ur die Vereinigungsmenge von A und B. b) Bestimmen Sie P (A | B). c) Was muss gelten, damit zwei beliebige disjunkte Ereignisse unabh¨angig sind?
146
7. Elemente der Wahrscheinlichkeitsrechnung
L¨ osung: a) A und B sind disjunkt, also ist P (A ∩ B) = 0. P (A ∪ B) = 0.3 + 0.4 = 0.7 b) P (A | B) = P P(A∩B) angig. (B) = 0 = P (A), A und B sind nicht unabh¨ c) A und B disjunkt → P (A ∩ B) = 0 A und B unabh¨ angig → P (A ∩ B) = P (A)P (B) Zusammen: P (A ∩ B) = 0 = P (A)P (B) nur dann, wenn P (A) und/oder P (B) Null sind. Aufgabe 7.7: Herr O. bittet seinen Nachbarn Herrn P., w¨ahrend seiner Abwesenheit sein geliebtes Basilikum zu gießen. Allerdings muss er davon ausgehen, dass Herr P. seine Pflanze mit einer Wahrscheinlichkeit von 13 nicht gießt. Das Basilikum geht mit einer Wahrscheinlichkeit von 12 ein, wenn es gegossen wird und mit einer Wahrscheinlichkeit von 34 wenn es nicht gegossen wird. a) Wie hoch ist die Wahrscheinlichkeit, dass das Basilikum w¨ahrend der Abwesenheit von Herrn O. eingeht? b) Das Basilikum geht w¨ ahrend der Abwesenheit von Herrn O. tats¨achlich ein! Wie hoch ist die Wahrscheinlichkeit, dass Herr P. die Pflanze nicht gegossen hat? L¨ osung: ¯ = Basilikum wird nicht gegossen a) G = Basilikum wird gegossen, G ¯ E = Basilikum geht ein, E = Basilikum geht nicht ein ¯ = 1 ⇒ P (G) = 2 ; P (G) 3 3
P (E|G) =
1 ; 2
¯ =3 P (E|G) 4
Mit dem Satz von der totalen Wahrscheinlichkeit gilt: ¯ · P (G) ¯ P (E) = P (E|G) · P (G) + P (E|G) =
1 1 7 1 2 3 1 · + · = + = ≈ 0.58 . 2 3 4 3 3 4 12
b) Mit dem Satz von Bayes gilt: ¯ P (G|E) =
¯ · P (G) ¯ P (E|G) ¯ · P (G) ¯ + P (E|G) · P (G) = P (E|G)
3 4
· 7 12
1 3
=
3 ≈ 0.43 . 7
Aufgabe 7.8: Eine lokale Bank will aufgrund von hohen Ausfallrisiken ihre Kreditkartenpolitik ver¨ andern. Erfahrungsgem¨ass fallen 5 % der Kreditkarteninhaber komplett aus. Weiter bezahlen Karteninhaber die nicht ausfallen mit einer Wahrscheinlichkeit von 20 % ihre monatliche Rechnung nicht. a) Wie gross ist die Wahrscheinlichkeit, dass ein beliebiger Karteninhaber seine monatliche Rechnung nicht bezahlt?
7.8 Aufgaben
147
b) Ein Karteninhaber bezahlt seine monatliche Rechnung nicht. Wie gross ist die Wahrscheinlichkeit, dass er ausf¨ allt? c) Soll die Bank ihre Karte zur¨ uckfordern, wenn ein Konsument eine monatliche Rechnung nicht bezahlt? L¨ osung: Wir definieren folgende Ereignisse und Wahrscheinlichkeiten: ¯ = 0.95 • A: Komplettausfall, P (A) = 0.05 ⇒ P (A) • M: Monatliche Rechnung wird nicht bezahlt, P (M ) =? ¯ = 0.2 • P (M |A) a) Die L¨ osung erhalten wir mit dem Satz der totalen Wahrscheinlichkeit. ¯ (A) ¯ P (M ) = P (M |A)P (A) + P (M |A)P Wie gross ist die Wahrscheinlichkeit, dass ein Kreditkarteninhaber der ausf¨ allt seine Rechnung nicht bezahlt? Nat¨ urlich 1, schließlich f¨allt er ja total aus und zahlt somit nichts mehr. Also P (M ) = 0.05 + 0.2 · 0.95 = 0.24. Nach diesen Angaben zahlen 24 % der Kreditkarteninhaber ihre monatliche Rechnung nicht. b) L¨ osung mit dem Satz von Bayes: P (A | M ) =
P (A)P (M |A) P (M )
=
0.05 0.24
= 0.208
c) Wenn eine monatliche Rechnung nicht bezahlt wurde, so ist die Wahrscheinlichkeit, dass der Kreditkarteninhaber ausf¨allt circa 21 % und 20% aller Kreditkartenbesitzer zahlen ihre monatliche Rechnung nicht regelm¨ assig. Ersteres bedeutet, dass die Wahrscheinlichkeit, gegeben eine nicht bezahlte Rechnung, dass ein Kreditkarteninhaber nicht ausf¨allt 78.2 % (P (A¯ | M ) = 1 − P (A | M )) betr¨ agt. Eine Maßnahme, in etwa 79 % ‘Unschuldige’ zu treffen, ist nicht im Sinne der Kundenbindung, da sicher einige Kunden abspringen werden, nachdem ihre Karte wegen einer vers¨ aumten Zahlung zur¨ uckgerufen wurde. Aufgabe 7.9: In einer Tierklinik wurden n = 200 Pferde auf eine bestimmte Krankheit untersucht. Das Ergebnis jeder Untersuchung wird durch die ¯ Pferd ist krank“ auszuf¨ alligen Ereignisse B Pferd ist nicht krank“ bzw. B ” ” gedr¨ uckt. Gleichzeitig wurde untersucht, ob die Pferde ein bestimmtes Futter hatten oder nicht. Dies ist durch die Ereignisse A1 Pferd frisst spezielles Fut” ter“ und A2 Pferd frisst spezielles Futter nicht“ festgehalten. Die absoluten ” H¨ aufigkeiten f¨ ur die eintretenden Ereignisse findet man in folgender Tabelle: ¯ B B A1 40 60 100 A2 20 80 100 60 140 200
148
7. Elemente der Wahrscheinlichkeitsrechnung
Wie hoch ist die Wahrscheinlichkeit a) ein gesundes Pferd zu haben, das das spezielle Futter gefressen hat? b) ein gesundes Pferd zu haben, unter der Bedingung, dass es das spezielle Futter gefressen hat (bzw. nicht)? L¨ osung: a) Mit P (A1 ) = folgt:
100 200
= P (A2 ), P (B) =
60 200 ,
P (B ∩ A1 ) =
¯ = sowie P (B)
140 200
= 1−P (B)
40 200
b) Wir erhalten außerdem: 40/200 40 P (B ∩ A1 ) = = P (A1 ) 100/200 100 20/200 20 P (B ∩ A2 ) = = P (B|A2 ) = P (A2 ) 100/200 100
P (B|A1 ) =
Mit diesen Ergebnissen l¨ asst sich P (B) auch mit Hilfe des Satzes von der totalen Wahrscheinlichkeit (7.8) berechnen: P (B) = P (B|A1 )P (A1 ) + P (B|A2 )P (A2 ) = 0.40 · 0.50 + 0.20 · 0.50 = 0.30 .
8. Zufallsvariablen
8.1 Einleitung Mit dem Konstrukt einer (diskreten) Zufallsvariable k¨onnen Versuchsergebnisse, die zun¨ achst in qualitativer Form vorliegen ( Wappen“ oder Zahl“ ” ” beim M¨ unzwurf, Augenzahl“ beim einmaligen W¨ urfelwurf etc.), durch re” elle Zahlen verschl¨ usselt werden. Dies ist das formale ¨aquivalent zu den tats¨ achlich durchgef¨ uhrten Zufallsexperimenten. So kann beispielsweise der einmalige M¨ unzwurf mit den m¨ oglichen Ergebnissen Wappen“ oder Zahl“ ” ” durch eine Zufallsvariable X ersetzt werden, die ebenfalls nur zwei Werte (z. B. 0 oder 1) annehmen kann. Dieselbe Variable beschreibt auch alle anderen zuf¨ alligen Versuche mit zwei m¨ oglichen Ergebnissen (Geschlecht eines Neugeborenen: m¨annlich/weiblich, Ergebnis eines Studenten bei einer Klau¨ sur: bestanden/nicht bestanden). Erst der Ubergang vom zuf¨alligen Versuch zur Zufallsvariablen erm¨ oglicht eine einheitliche mathematische Handhabung der statistischen Datenanalyse. Allgemein heißt eine Funktion X eine (reelle) Zufallsvariable, wenn ihre Werte reelle Zahlen sind und als Ergebnis eines zuf¨ alligen Versuchs interpretiert werden k¨ onnen. Da die Werte der Zufallsvariablen das formale ¨ aquivalent der zuf¨ alligen Experimente darstellen, muss auch den Werten der Zufallsvariablen – den reellen Zahlen – eine Wahrscheinlichkeit zuzuordnen sein. Diese Wahrscheinlichkeit muss mit der Wahrscheinlichkeit der entsprechenden zuf¨ alligen Ereignisse u ¨bereinstimmen und es m¨ ussen die Axiome der Wahrscheinlichkeitsrechnung gelten. Wir stellen in diesem Kapitel diskrete und stetige Zufallsvariablen vor. Beispiel 8.1.1. In Tabelle 8.1 sind Beispiele f¨ ur diskrete Zufallsvariablen angegeben. Es sind jeweils das zu Grunde liegende Zufallsexperiment und die dazugeh¨ origen Ereignisse sowie die Realisationen der Zufallsvariablen X angegeben.
8.2 Verteilungsfunktion einer Zufallsvariablen Neben den m¨ oglichen Werten der Zufallsvariablen X ben¨otigen wir zur statistischen Beschreibung von X die Angabe der Wahrscheinlichkeiten, mit denen die Werte x1 , x2 , . . . realisiert werden.
150
8. Zufallsvariablen Tabelle 8.1. Beispiele f¨ ur diskrete Zufallsvariablen zuf¨ alliger Versuch
zuf¨ alliges Ereignis
Realisation der Zufallsvariablen X x=1 x=2 x=0
Roulette (Ein Spiel)
A1 : Rot A2 : Schwarz A3 : Zero
Lebensdauer eines Fernsehers
Ai : Lebensdauer betr¨ agt i Monate (i = 1, 2, . . .)
x=i
Einmaliges W¨ urfeln (mit einem W¨ urfel)
urfelt Ai : Zahl i gew¨ (i = 1, . . . , 6)
x=i
Beispiel 8.2.1. Beim einmaligen M¨ unzwurf mit den zuf¨alligen Elementarereignissen Wappen“ und Zahl“ war P (W ) = P (Z) = 1/2. Die zugeord” ” nete Zufallsvariable X sei definiert durch ihre Werte X(W ) = x1 = 0 und ur i = 1, 2. X(Z) = x2 = 1 mit den Wahrscheinlichkeiten P (X = xi ) = 1/2 f¨ Eine Zufallsvariable X wird also durch ihre Werte xi und die zugeh¨origen Wahrscheinlichkeiten P (X = xi ) eindeutig beschrieben. Alternativ k¨onnen wir anstelle der Wahrscheinlichkeiten P (X = xi ) auch die kumulierten Wahrscheinlichkeiten P (X ≤ xi ) verwenden. Dazu ben¨otigen wir die folgende Definition: Definition 8.2.1. Die Verteilungsfunktion einer Zufallsvariablen X ist definiert durch F (x) = P (X ≤ x) = P (−∞ < X ≤ x) .
(8.1)
Die Verteilungsfunktion F (x) beschreibt die Verteilung von X eindeutig und vollst¨ andig. Sie ist schwach monoton wachsend, d.h., f¨ ur x1 ≤ x2 folgt F (x1 ) ≤ F (x2 ). Die Werte einer Verteilungsfunktion F (x) liegen stets zwischen 0 und 1. D.h., es gilt: 0 ≤ F (x) ≤ 1. Rechenregeln f¨ ur Verteilungsfunktionen Die Verteilungsfunktion F (x) = P (X ≤ x) erm¨ oglicht es uns, die Wahrscheinlichkeit f¨ ur Wertebereiche der Zufallsvariablen X zu berechnen. Es gilt: P (X ≤ a) = F (a) ,
(8.2)
P (X < a) = P (X ≤ a) − P (X = a) = F (a) − P (X = a) .
(8.3)
F¨ ur die Wahrscheinlichkeiten P (X > a) und P (X ≥ a) der zu (8.3) und (8.3) komplement¨ aren Wertebereiche gilt:
8.3 Diskrete Zufallsvariablen und ihre Verteilungsfunktion
151
P (X > a) = 1 − P (X ≤ a) = 1 − F (a) ,
(8.4)
P (X ≥ a) = 1 − P (X < a) = 1 − F (a) + P (X = a) .
(8.5)
Damit k¨ onnen wir Rechenregeln f¨ ur allgemeine Intervalle der Form (a; b), (a; b], [a; b) und [a; b] angeben: P (a ≤ X ≤ b) = P (X ≤ b) − P (X < a) = F (b) − F (a) + P (X = a) .
(8.6)
Folglich ergibt sich dann auch: P (a < X ≤ b) = F (b) − F (a)
(8.7)
P (a < X < b) = F (b) − F (a) − P (X = b) P (a ≤ X < b) = F (b) − F (a) − P (X = b) + P (X = a) .
(8.8) (8.9)
Anmerkung. F¨ ur stetige Zufallsvariablen X (vgl. Kapitel 8.4) ist P (X = a) = P (X = b) = 0, so dass sich obige Formeln vereinfachen.
8.3 Diskrete Zufallsvariablen und ihre Verteilungsfunktion Definition 8.3.1. Eine Zufallsvariable heißt diskret, wenn sie nur endlich origen Wahrviele (oder abz¨ ahlbar viele) Werte x1 , . . . , xn mit den zugeh¨ scheinlichkeiten p1 , . . . , pn annehmen kann. Die Menge {x1 , . . . , xn } heißt Tr¨ ager von X. Es gilt n
pi = 1 .
(8.10)
i=1
Definition 8.3.2. Die Zuordnung P (X = xi ) = pi
i = 1, . . . , n
heißt Wahrscheinlichkeitsfunktion von X, sofern (8.10) erf¨ ullt ist. Damit hat die Verteilungsfunktion von X die Gestalt F (x) =
n
1{xi ≤x} pi .
i=1
ur die Dies ist die Summe der Wahrscheinlichkeiten pi derjenigen Indizes i, f¨ oglichen Werte xi einer diskreten Zufallsvariablen X heixi ≤ x gilt. Die m¨ ohen ßen Sprungstellen und die Wahrscheinlichkeiten pi heißen Sprungh¨ der Verteilungsfunktion F (x). Der Zusammenhang wird klar, wenn man sich das Bild der Verteilungsfunktion F (x) in Abbildung 8.1 ansieht. Nur an den Stellen xi erfolgt ein Sprung der Funktion und zwar um den Wert pi . Die Verteilungsfunktion einer diskreten Zufallsvariablen ist eine Treppenfunktion.
152
8. Zufallsvariablen
Beispiel 8.3.1 (W¨ urfelwurf ). Die zuf¨ alligen Elementarereignisse beim einurfelt“ (i = 1, . . . , 6). Die Zufallsvamaligen W¨ urfeln sind ωi : Zahl i gew¨ ” riable X kann die Werte x1 = 1, x2 = 2, . . . , x6 = 6 annehmen, wobei P (X = xi ) = 1/6 gilt. Dann hat die Verteilungsfunktion F (x) die Gestalt ⎧ 0 −∞ < x < 1 ⎪ ⎪ ⎪ ⎪ 1/6 1≤x 0, kurz X ∼ P o(λ). Es gilt E(X) = Var(X) = λ. Die Intensit¨ atsrate k¨ onnen wir damit interpretieren als die durchschnittliche Anzahl von Ereignissen innerhalb eines Kontinuums.
186
9. Diskrete und stetige Standardverteilungen
Beispiel 9.3.1. In einer Autolackiererei werden Kotfl¨ ugel zun¨achst mit einer Grundierung und danach mit einem Deckglanzlack lackiert. Im Durchschnitt werden bei der Grundierung 4 Staubpartikel je Kotfl¨ ugel eingeschlossen (Zufallsvariable X). Wie groß ist die Wahrscheinlichkeit, nach der Grundierung auf einem Kotfl¨ ugel zwei Staubpartikel zu finden? P (X = 2) =
42 λx exp(−λ) = exp(−4) = 0.146525 . x! 2!
9.3.2 Die Multinomialverteilung Im Gegensatz zu den bisherigen Verteilungen betrachten wir nun Zufallsexperimente, bei denen k disjunkte kEreignisse A1 , A2 , . . . , Ak mit den Wahrscheinlichkeiten p1 , p2 , . . . , pk mit i=1 pi = 1 eintreten k¨onnen (d.h., die Ai bilden eine vollst¨ andige Zerlegung von Ω). Wird der Versuch n-mal unabh¨angig wiederholt, so interessiert die Wahrscheinlichkeit des zuf¨alligen Ereignisses n1 -mal A1 , n2 -mal A2 , . . . , nk -mal Ak
mit
k
ni = n .
i=1
Sei Xi (i = 1, . . . k) die Zufallsvariable Ai beobachtet“ und X = (X1 , . . . , Xk ) ” der k-dimensionale Zufallsvektor. Definition 9.3.2. Der Zufallsvektor X = (X1 , . . . , Xk ) mit der Wahrscheinlichkeitsfunktion n! · pn1 · · · pnk k P (X1 = n1 , . . . , Xk = nk ) = (9.18) n1 !n2 ! · · · nk ! 1 heißt multinomialverteilt, kurz X ∼ M (n; p1 , . . . , pk ). Der Erwartungswert von X ist der Vektor E(X) = (E(X1 ), . . . , E(Xk )) = (np1 , . . . , npk ) . Die Kovarianzmatrix V (X) hat die Elemente npi (1 − pi ) f¨ ur i = j Cov(Xi , Xj ) = . ur i = j −npi pj f¨ Beispiel 9.3.2. Eine Urne enthalte 50 Kugeln, davon 25 rote, 15 weiße und 10 schwarze. Wir ziehen mit Zur¨ ucklegen, so dass bei jeder Ziehung die Wahragt. Anascheinlichkeit daf¨ ur, dass die Kugel rot ist, gleich p1 = 25 50 = 0.5 betr¨ log gilt f¨ ur die beiden anderen Wahrscheinlichkeiten p2 = 0.3 und p3 = 0.2. Wir f¨ uhren n = 4 unabh¨ angige Ziehungen durch. Die Wahrscheinlichkeit f¨ ur das zuf¨ allige Ereigniss ’2 mal rot, 1 mal weiß, 1 mal schwarz’ ist: 4! (0.5)2 (0.3)1 (0.2)1 = 0.18. P (X1 = 2, X2 = 1, X3 = 1) = 2!1!1! Anmerkung. F¨ ur k = 2 geht die Multinomialverteilung in die Binomialverteilung u ucklegen. ¨ber. Es handelt sich um Ziehen mit Zur¨
9.3 Weitere diskrete und stetige Verteilungen
187
9.3.3 Die Exponentialverteilung Wir betrachten die (stetige) Wartezeit bis zum Eintreten eines Ereignisses. Es wird gefordert, dass die weitere Wartezeit unabh¨angig von der bereits verstrichenen Wartezeit ist. Definition 9.3.3. Eine Zufallsvariable X mit der Dichte λ exp(−λx) f¨ ur x ≥ 0 f (x) = 0 sonst
(9.19)
heißt exponentialverteilt mit Parameter λ, kurz X ∼ expo(λ). Der Erwartungswert einer exponentialverteilten Zufallsvariablen X ist E(X) =
1 , λ
f¨ ur die Varianz gilt 1 . λ2 Den Zusammenhang zwischen der Exponentialverteilung (Wartezeit zwischen zwei Ereignissen) und der Poissonverteilung (Anzahl der Ereignisse) dr¨ ucken wir in dem folgenden zentralen Satz aus: Var(X) =
Theorem 9.3.1. Die Anzahl der Ereignisse Y innerhalb eines Kontinuums ist poissonverteilt mit Parameter λ genau dann, wenn die Wartezeit zwischen zwei Ereignissen exponentialverteilt mit Parameter λ ist. Beispiel 9.3.3. Die Zufallsvariable Y : ’Zugriffe auf eine Internetsuchmaschine pro Sekunde’ ist poissonverteilt mit dem Parameter λ = 10 (d.h. E(Y ) = 10, Var(Y ) = 10), da die Zufallsvariable X: ’Wartezeit auf einen weiteren Zugriff’ exponentialverteilt ist mit Parameter λ = 10. Damit gilt E(X) =
1 1 , Var(X) = 2 . 10 10
Betrachten wir als Kontinuum eine Sekunde, so erhalten wir f¨ ur die erwartete Anzahl der Zugriffe E(Y ) = 10 Zugriffe pro Sekunde und f¨ ur die zu erwartende Wartezeit zwischen zwei Zugriffen E(X) = 1/10 Sekunde.
188
9. Diskrete und stetige Standardverteilungen
9.4 Pru ¨ fverteilungen Aus der Normalverteilung lassen sich drei wesentliche Verteilungen – die sogenannten Pr¨ ufverteilungen – gewinnen. Diese Verteilungen werden in Kapitel 11 z.B. zum Pr¨ ufen von Hypothesen u ¨ber • die Varianz σ 2 einer Normalverteilung: χ2 -Verteilung, • den Erwartungswert einer normalverteilten Zufallsvariablen mit unbekannter Varianz bzw. zum Vergleich der Mittelwerte zweier normalverteilter Zufallsvariablen mit unbekannter, aber gleicher Varianz: t-Verteilung, • das Verh¨ altnis von Varianzen zweier normalverteilter Zufallsvariablen: F Verteilung eingesetzt . 9.4.1 Die χ2 -Verteilung angige und identisch Definition 9.4.1. Es seien Z1 , . . . , Zn n unabh¨ n N (0, 1)verteilte Zufallsvariablen. Dann ist die Summe ihrer Quadrate i=1 Zi2 χ2 -verteilt mit n Freiheitsgraden. Die χ2 -Verteilung ist nicht symmetrisch. Eine χ2 -verteilte Zufallsvariable nimmt nur Werte gr¨ oßer oder gleich Null an. Die Quantile der χ2 -Verteilung sind in Tabelle A.2 f¨ ur verschiedene n angegeben. Theorem 9.4.1 (Additionssatz). Die Summe zweier unabh¨ angiger χ2n 2 2 verteilter bzw. χm -verteilter Zufallsvariablen ist χn+m -verteilt. Als wesentliches Beispiel f¨ ur eine χ2 -verteilte Zufallsvariable ist die Stichprobenvarianz einer normalverteilten Grundgesamtheit zu nennen: 1 ¯ 2. (Xi − X) n − 1 i=1 n
2 = SX
(9.20)
ur die F¨ ur unabh¨ angige Zufallsvariablen Xi ∼ N (μ, σ 2 ) (i = 1, . . . , n) gilt f¨ 2 Stichprobenvarianz SX 2 (n − 1)SX ∼ χ2n−1 . (9.21) σ2 9.4.2 Die t-Verteilung Definition 9.4.2. Sind X und Y unabh¨ angige Zufallsvariablen, wobei X ∼ N (0, 1) und Y ∼ χ2n verteilt ist, so besitzt der Quotient X ∼ tn Y /n eine t-Verteilung (Student-Verteilung) mit n Freiheitsgraden.
9.4 Pr¨ ufverteilungen
189
Im Anhang ist Tabelle A.3 mit den Quantilen der t-Verteilung enthalten. Wird von einer N (μ, σ 2 )-verteilten Zufallsvariablen X eine Stichprobe vom Umfang n realisiert, so bilden wir die Zufallsvariablen arithmetisches ¯ und Stichprobenvarianz S 2 , f¨ ur die wir folgenden zentralen Satz Mittel X X angeben. iid.
Theorem 9.4.2 (Student). Sei X = (X1 , . . . , Xn ) mit Xi ∼ N (μ, σ 2 ), so ¯ und S 2 unabh¨ angig. Der folgende Quotient ist tn−1 -verteilt sind X X ¯ − μ)√n ¯ − μ)√n (X (X = ∼ tn−1 . (9.22) SX 1 ¯ 2 (X − X) i i n−1 9.4.3 Die F-Verteilung Definition 9.4.3. Sind X und Y unabh¨ angige χ2m bzw. χ2n -verteilte Zufallsvariablen, so besitzt der Quotient X/m ∼ Fm,n Y /n
(9.23)
die Fisher’sche F-Verteilung mit (m, n) Freiheitsgraden. Ist X eine χ21 -verteilte Zufallsvariable, so ist der Quotient F1,n -verteilt. Die Wurzel aus dem Quotienten ist dann tn -verteilt, da die Wurzel aus einer χ21 -verteilten Zufallsvariablen N (0, 1)-verteilt ist. Als wichtiges Anwendungsbeispiel sei die Verteilung des Quotienten der Stichprobenvarianzen zweier Stichproben vom Umfang m bzw. n von unbzw. Y ∼ abh¨ angigen normalverteilten Zufallsvariablen X ∼ N (μX , σ 2 ) m n 1 2 2 2 ¯ bzw. S 2 = 1 N (μY , σ ) genannt: SX = m−1 i=1 (Xi − X) Y i=1 (Yi − n−1 2 ¯ Y ) . F¨ ur das Verh¨ altnis beider Stichprobenvarianzen gilt (im Falle gleicher Varianzen σ 2 ) 2 SX ∼ Fm−1,n−1 . SY2 Anmerkung. Ist eine Zufallsvariable W nach Fm,n -verteilt, so ist 1/W nach Fn,m -verteilt. Deshalb sind die Tabellen A.4 der Fm,n -Verteilung im allgemeinen auf den Fall m ≤ n beschr¨ ankt.
190
9. Diskrete und stetige Standardverteilungen
9.5 Weitere Hinweise Merke:
Einige wichtige diskrete Verteilungen: Binomial {B(n, p)}
mit
n
P (X = k) =
pk (1 − p)n−k
k
Var(X) = np(1 − p)
E(X) = np, Poisson {P o(λ)}
mit
λx −λ x! e
P (X = x) = E(X) = λ,
Gleichverteilung
mit
∀i = 1, . . . , k
P (X = xi ) = k1 , E(X) =
Var(X) = λ
k+1 2 ,
Var(X) =
Einige wichtige stetige Verteilungen: Normal {N (μ, σ 2 )}
mit
f (x) =
√1 σ 2π
2 exp − (x−μ) 2σ 2 Var(X) = σ 2
E(X) = μ, Exponential {Exp(λ)}
mit
f (x) =
1 λ,
Gleichverteilung
mit
f (x) = E(X) =
λe−λx f¨ ur x ≥ 0 0
E(X) =
k2 −1 12
sonst Var(X) =
1 b−a
1 λ2
f¨ ur a ≤ x ≤ b
0 sonst a+b 2 ,
Var(X) =
(b−a)2 12
In Kapitel 10 werden wir die Parameter dieser Verteilungen sch¨ atzen, in Kapitel 11 Hypothesen bez¨ uglich dieser Parameter testen.
9.6 Aufgaben Aufgabe 9.1: Ein bekannter Hersteller von Keksen verspricht seinen Kunden eine Extra¨ uberraschung in jeder sechsten Keksschachtel. Voller Freude kauft ein u ¨bereifriger Vater gleich 20 Schachteln. a) Wie hoch ist die Wahrscheinlichkeit unter den 20 Schachteln genau 4 u ¨berraschungen zu finden?
9.6 Aufgaben
191
b) Wie hoch ist die Wahrscheinlichkeit u ¨berhaupt keine u ¨berraschung zu bekommen? c) Tats¨ achlich befinden sich in diesen zwanzig Schachteln genau drei u ¨berraschungen. Wie hoch ist die Wahrscheinlichkeit, dass sich in den 5 Schachteln die des Vaters j¨ ungster Sohn bekommt, zwei der drei u ¨berraschungen verbergen? L¨ osung: a) Man kann bei der Zufallsvariable X: “Anzahl der Keksschachteln mit Extra¨ uberraschung“ von einer binomialverteilten Variable ausgehen: Es wird bei n = 20 Versuchen jedes Mal mit einer Wahrscheinlichkeit von p = 16 eine Extra¨ uberraschung gezogen. Damit folgt: 20 1 4 5 16 n k ≈ 0.20 . P (X = 4) = p (1 − p)n−k = 4 k 6 6 b) P (X = 0) =
20 1 0 5 20 n k = 1 · 1 · 0.026 = 0.026 . p (1 − p)n−k = 0 6 6 k
c) Hier kann von einer hypergeometrischen Verteilung ausgegangen werden. Es gibt in den N = 20 Schachteln M = 3 u ¨berraschungen und N −M = 17 Schachteln ohne Zusatz¨ uberraschung. Insgesamt werden n = 5 Schachteln ohne Zur¨ ucklegen gezogen, von denen x = 2 eine u ¨berraschung enthalten sollen. Damit folgt: M N −M 3 17 P (X = 2) =
x
Nn−x n
=
20 3
2
≈ 0.13 .
5
Aufgabe 9.2: Im Zuge einer Studie u ¨ber die Brutv¨ogel Europas wurden mehrere Merkmale, welche die Eigenschaften verschiedener Vogeleier wiedergeben, erhoben. Unter anderem wurde dabei die Eil¨ange (in mm) gemessen. Wenn man davon ausgeht, dass es sich bei der Eil¨ange um ein normalverteiltes Merkmal mit μ = 42.1 und σ 2 = 20.82 handelt, wie hoch ist dann die Wahrscheinlichkeit a) ein Ei mit einer L¨ ange von mehr als 50 mm zu finden? b) ein Ei mit einer L¨ ange von mehr als 30 mm, aber weniger als 40 mm zu finden? L¨ osung: Ist das Merkmal X: “L¨ ange Vogelei” normalverteilt, also X ∼ N (42.1, 20.82 ), dann folgt:
192
9. Diskrete und stetige Standardverteilungen
a) x − μ 50 − 42.1 =1−φ σ 20.8 = 1 − φ(0.37) = 1 − 0.6443 = 0.3557 .
P (X ≥ 50) = 1 − P (X ≤ 50) = 1 − φ
b) P (30 ≤ X ≤ 40) = P (X ≤ 39) − P (X ≤ 30) 30 − 42.1 39 − 42.1 −φ =φ 20.8 20.8 = φ(−0.15) − φ(−0.58) = 1 − 0.5596 − 1 + 0.7190 = 0.1594 = 15.94% . Aufgabe 9.3: Die Zufallsvariable X beschreibe “die Augenzahl beim einmaligen W¨ urfeln mit einem Dodekaeder (W¨ urfel mit 12 Seiten)“. Wie ist X verteilt? Berechnen Sie E(X) und V ar(X)! L¨ osung: Die Zufallsvariable X ist diskret gleichverteilt, da die Wahrscheinlichkeits1 funktion an jeder Auspr¨ agung xi den gleichen Wert (pi = 12 ) annimmt. Erwartungswert und Varianz berechnen sich deshalb als: 12 + 1 k+1 = = 6.5, 2 2 1 V ar(X) = (122 − 1) ≈ 11.92 . 12 Aufgabe 9.4: Felix behauptet erkennen zu k¨ onnen, ob der Kaffee einer Tasse von der Marke ’Hochland’ oder der Marke ’Goldener Genuss’ stammt. Ein Freund f¨ ullt, um dies zu testen, 10 Tassen mit Kaffee und bittet Felix je Tasse einen Tipp abzugeben. Nehmen Sie an, dass Felix seinen Mund zu voll genommen hat und bei jeder Tasse nur r¨at, also mit einer Wahrscheinlichkeit von p = 0.5 auf den richtigen Kaffee tippt. Wie hoch ist dann die Wahrscheinlichkeit, dass er mindestens acht Tassen richtig erkennt? E(X) =
L¨ osung: Mindestens acht mal richtig zu tippen ist gleichbedeutend mit h¨ochstens zwei mal falsch zu tippen. Die Wahrscheinlicheit f¨ ur einen richtigen Tipp ist identisch mit der Wahrscheinlichkeit f¨ ur einen falschen Tipp (p = 0.5, 1−p = 0.5). Mit X ∼ B(10; 0.5) folgt: 10 P (X = 0) = 0.50 (1 − 0.5)10 ≈ 0.000977 0 10 P (X = 1) = 0.51 (1 − 0.5)9 ≈ 0.009766 1 10 P (X = 2) = 0.52 (1 − 0.5)8 ≈ 0.043945 2
9.6 Aufgaben
193
Damit berechnen wir: P (X ≤ 2) = P (X = 0) + P (X = 1) + P (X = 2) = 0.000977 + 0.009766 + 0.043945 ≈ 0.0547 . Aufgabe 9.5: Eine Leuchtreklame wird mit vielen Gl¨ uhbirnen beleuchtet. Fast t¨ aglich fallen Gl¨ uhbirnen aus. Wenn mehr als 5 Gl¨ uhbirnen ausfallen, l¨asst der Betreiber der Leuchtreklame die Birnen ersetzen. An 30 aufeinanderfolgenden Tagen wurde gez¨ahlt, wieviele Birnen pro Tag ausgefallen sind. Er erhielt folgende H¨ aufigkeitstabelle. defekte Birnen ni
0 6
1 8
2 8
3 5
4 2
5 1
a) Wie ist die Zufallsvariable X: ’Anzahl der Gl¨ uhbirnenausf¨alle an einem Tag’ verteilt? b) Wieviele Birnen sind im Mittel an einem Tag ausgefallen und wie groß ist die Varianz? c) Berechnen Sie die theoretischen Wahrscheinlichkeiten mit Hilfe der in a) angenommenen Verteilung. Nutzen Sie als Parameter den Mittelwert und den aufgerundeten Mittelwert. Vergleichen Sie die Wahrscheinlichkeiten mit den relativen H¨ aufigkeiten. Mit welchem Parameterwert erzielt man die bessere Anpassung? d) Wie gross ist die Wahrscheinlichkeit, dass innerhalb eines Tages genug Birnen ausfallen, so dass man diese auswechseln muss? e) Wie oft musste der Betreiber die Birnen innerhalb der 30 Tage auswechseln lassen? f) Betrachten Sie nun die Zufallsvariable Y : Wartezeit bis zum n¨achsten Ausfall einer Gl¨ uhbirne. Wie ist Y verteilt und mit welchem Parameter? g) Wie lange wartet man nach dem Modell im Mittel bis die n¨achste Birne ausf¨ allt? L¨ osung: a) X ist poissonverteilt, falls die Wahrscheinlichkeit f¨ ur den Ausfall einer Birne nur von der L¨ ange des Zeitintervalls abh¨angt und nicht von der Lage auf der Zeitachse. Damit ist gemeint, dass das Ereignis ’Birne f¨allt aus’ nicht davon beeinflusst werden darf, wie der Tag gemessen wird, z.B. von 8:00-8:00 oder von 10:00 bis 10:00. Weiter muss gelten, dass der Ausfall von Birnen an zwei Tagen unabh¨ angig voneinander ist. Die Wahrscheinlichkeit des Ausfalls einer Birne h¨ angt dann nur von den Intensit¨atsrate λ ab. b) Zuerst wird der Mittelwert bestimmt: 1 (0 + 1 · 8 + 2 · 8 + . . . + 5 · 1) = 52 x ¯ = 30 30 = 1.7333. etwa 1.7 Birnen fallen im Mittel t¨ aglich aus.
194
9. Diskrete und stetige Standardverteilungen
Mit diesem Wert wird die Varianz u ¨ber 1 (0 + 12 · 8 + 22 · 8 + . . . + 52 · 1) − 1.73332 = s2 = 30 berechnet.
142 30
− 3.0044 = 1.72889
Varianz und Mittelwert liegen dicht beieinander, was charakteristisch f¨ ur die Poissonverteilung ist. c) Die zu vergleichenden Wahrscheinlichkeiten werden tabellarisch dargestellt. ai 0 1 2 3 4 5
fi 0.2 0.267 0.267 0.167 0.067 0.033
P o(1.73) 0.177 0.307 0.265 0.153 0.067 0.023
P o(2) 0.135 0.27 0.27 0.18 0.09 0.036
Man sieht, dass sich die Daten sehr gut an die beiden vorgeschlagenen Poissonverteilungen anpassen. Rein von den Abst¨anden zwischen den Wahrscheinlichkeiten und relativen H¨ aufigkeiten erzielt man mit λ = 1.73 die bessere Anpassung. d) Die defekten Birnen werden ausgewechselt, wenn mehr als 5 Birnen ausfallen. Die Wahrscheinlichkeit daf¨ u r ist i 5 P (X > 5) = 1 − P (X ≤ 5) = 1 − i=0 λi! exp(−λ). Wir w¨ ahlen λ = 1.73 und erhalten 0 1.731 1.735 P (X > 5) = 1 − exp(−1.73)( 1.73 0! + 1! + . . . + 5! ) = 1 − 0.99 = 0.01. Nur in einem Prozent der Tage fallen an einem Tag genug Birnen aus, dass sie ausgewechselt werden. e) Ab 6 defekten Birnen wird ausgewechselt. In den 30 Tagen waren insgesamt 52 Birnen defekt, somit musste 52/6 = 8.667 mal Birnen ausgetauscht werden. f) Ist X poissonverteilt, so ist nach Theorem 9.3.1 Y , als Wartezeit zwischen zwei Ausf¨ allen, exponentialverteilt mit λ = 1.73. g) Der Erwartungswert der Exponentialverteilung ist 1 = 0.578. E(Y ) = 1.73 Somit wartet man im Mittel u ¨ber einen halben Tag bis eine Birne ausf¨allt.
9.6 Aufgaben
195
Aufgabe 9.6: Gegeben sei eine exponentialverteilte Zufallsvariable X. a) Bestimmen Sie die Verteilungsfunktion der Exponentialverteilung. b) Zeigen Sie, dass E(X) = λ1 gilt. L¨ osung: a) Die Verteilungsfunktion der Exponentialverteilung erh¨alt man durch Integrierender Dichtefunktion x F (X) = 0 λexp(−λt)dt. Die Konstante λ kann dabei vor das Integral gezogen werden. Die Stammfunktion zu der Exponentialfunktion ist die Exponentialfunktion, wobei noch x die Kettenregel beachtet werden muss λ 0 exp(−λt)dt = λ[− λ1 exp(−λt)]x0 . K¨ urzen, Einsetzen der Grenzen und Umstellen liefert die Verteilungsfunktion F (X) = 1 − exp(−λx). b) Den Erwartungswert erh¨ alt man durch partielle Integration von ∞ E(X) = 0 xλexp(−λx)dx. Bei der partiellen Integration muss man eine Funktion w¨ahlen, die man gut integrieren kann, hier v = λexp(−λx) ⇒ v = −exp(−λx), und eine Funktion die man gut differenzieren kann, hier u = x ⇒ u = 1. Damit kann durchf¨ uhren: ∞ ∞ man eine partielle Integration ∞ xλexp(−λx)dx = [−exp(−λx)x]0 − 0 −exp(−λx)dx. 0 F¨ ur x → ∞ geht exp(−λx) gegen Null. Somit vereinfacht sich der Ausdruck ∞zu 0 + 0 exp(−λx)dx = [− λ1 exp(−λt)]∞ 0 . Durch die Betrachtung der Stammfunktion an den Grenzen erh¨alt man den Erwartungswert E(X) = λ1 . Aufgabe mit SPSS. In der n¨ achsten Aufgabe haben Sie die M¨oglichkeit ’ein Gef¨ uhl’ f¨ ur verschiedenste Verteilungen zu bekommen. Sie lernen wie man mit Hilfe von SPSS Verteilungsmodelle simulieren kann. Aufgabe 9.7: Um verschiedene Verteilungsmodelle zu visualisieren, k¨onnen Zufallszahlen hilfreich sein. Ziehen Sie sich 20 Zufallszahlen aus einer Binomialverteilung mit n = 10 und p = 0.5, einer Standardnormalverteilung, einer Poissonverteilung mit λ = 1 und einer Exponentialverteilung, ebenfalls mit λ = 1.
196
9. Diskrete und stetige Standardverteilungen
a) Berechnen Sie die Mittelwerte und Standardabweichungen und vergleichen Sie die Ergebnisse mit denen die Sie unter den gegebenen Parameterkonstellationen erwarten w¨ urden. Was f¨ allt auf und woran liegt es? b) Zeichnen Sie f¨ ur jede Stichprobe das Stabdiagramm bzw. das Histogramm. Haben die Grafiken die zu erwartende Form? c) Erh¨ ohen Sie nun den Stichprobenumfang systematisch und wiederholen Sie die Berechnungen a) und b) mit i) 40 Beobachtungen ii) 80 Beobachtungen iii) 160 Beobachtungen iv) 320 Beobachtungen. Beschreiben Sie, was Ihnen w¨ahrend des Prozesses auff¨ allt. d) Ver¨ andern Sie nun nach Belieben die Parameter der obigen Verteilungen und analysieren Sie den Einfluss dieser Parameterver¨anderungen auf die jeweiligen Verteilungen. L¨ osung: Um diese Aufgabe effizient zu l¨ osen sollten Sie die M¨oglichkeiten des Syntaxfiles von SPSS nutzen. Zur Kontrolle des Stichprobenumfangs wird eine Variable ’stpr’ definiert, die f¨ ur die erste Untersuchung 20 mal die Ziffer 1 enth¨ alt. F¨ ur die Ziehung der Zufallszahlen w¨ahlen Sie unter ’Transformieren’ den Men¨ upunkt ’Berechnen...’. Zufallszahlen werden in SPSS durch die Funktion ’RV.’ generiert, es stehen Zufallszahlengeneratoren f¨ ur verschiedene Verteilungen zur Verf¨ ugung. Uns interessieren hier nur die Funktionen ’RV.BINOM’, ’RV.NORMA’, ’RV.POISSON’, ’RV.EXP’. Benennen Sie nun eine Variable f¨ ur die binomialverteilten Zufallsvariablen und weisen Sie ihr den Ausdruck ’RV.BINOM(10,0.5)’ zu. Gehen Sie nun auf ’Einf¨ ugen’ um die Berechnung in das Syntaxfile aufzunehmen. Anschließend definieren Sie eine Variable f¨ ur die normalverteilten Zufallszahlen und weisen Sie ihr die Funktion ’RV.NORMAL(0,1)’ zu. F¨ ugen Sie die Berechnung wieder dem Syntaxfile zu. Wiederholen Sie den Vorgang f¨ ur die Poisson- und die Exponentialverteilung. a) Nun berechnen Sie die deskriptiven Statistiken f¨ ur Ihre 4 Variablen und f¨ ugen Sie diese Berechnung ebenfalls dem Syntaxfile zu. Wir erhalten hier in unserem SPSS-Output folgende Tabelle:
Binomial,n = 10, p = 0.5 Standardnormal Poisson, λ = 1 exponential, λ = 1
N 20 20 20 20
Min. 3.00 -1.52 .00 .03
Max. 9.00 2.52 4.00 6.37
mean 5.5000 .3776 1.5500 1.4073
St.dev. 1.50438 1.07588 1.23438 1.70075
Es f¨ allt auf, dass unsere simulierten Werte noch recht stark von den theoretischen abweichen. Beispielsweise sollten Mittelwert und Standardabweichung bei der Standardnormalverteilung bei ’Null’ und ’Eins’ liegen.
9.6 Aufgaben
197
Die berechneten Werte von 0.3776 und 1.07 liegen davon ein großes St¨ uck entfernt. Bei der Poissonverteilung erwarten wir einen Erwartungswert und eine Varianz von λ1 = 11 = 1. Erneut liegen die empirischen Werte deutlich davon entfernt. Bisher haben wir nur 20 Werte simuliert. Eine Erh¨ohung der Anzahl an Zufallszahlen k¨ onnte uns m¨ oglicherweise bessere Werte liefern! b) Jetzt brauchen Sie nur noch die Grafiken. Nutzen Sie die Option ’Balken...’ f¨ ur die diskreten Zufallszahlen und ’Histogramm...’ f¨ ur die stetigen Zufallszahlen. Vergessen Sie nicht die Grafiken auch in das Syntaxfile einzuf¨ ugen. Ausf¨ uhren des Syntaxfiles sollte Ihnen nun 4 Stichproben vom Umfang 20 erzeugen, im Ausgabefenster sollten eine Tabelle mit den deskriptiven Statistiken und die vier Grafiken erscheinen. Die Abbildungen 9.5 und 9.6 zeigen die Ergebnisse unserer Auswertung. Die Visualisierung unserer Daten best¨ atigt erneut unsere Vermutung, dass die simulierten Daten noch nicht allzu gut mit unseren theoretischen Verteilungen u ¨bereinstimmen.
Abb. 9.5. Simulierte Verteilungen f¨ ur N=20 (Binomial, Normal)
Abb. 9.6. Simulierte Verteilungen f¨ ur N=20 (Poisson, Exponential)
198
9. Diskrete und stetige Standardverteilungen
c) Zum Erh¨ ohen des Stichprobenumfangs m¨ ussen Sie nun lediglich die Einsen der Variable ’stpr’ kopieren und unten an die Variable einf¨ ugen. Wenn Sie jetzt das Syntaxfile wiederum ausf¨ uhren, so haben Sie die Analyse f¨ ur den Stichprobenumfang 40 gemacht. Weiteres Erh¨ohen des Umfang geschieht analog. Eine Erh¨ ohung der Anzahl der Zufallszahlen wirkt sich sukzessive auf eine u ¨bereinstimmung von theoretischer und simulierter Verteilung aus. In Abbildung 9.7 und 9.8 sind die Daten f¨ ur jeweils 320 Zufallszahlen visualisiert. Der Vergleich mit N = 20 spricht f¨ ur sich. Simulierte und theoretische Verteilung scheinen nun sehr gut miteinander u ¨bereinzustimmen. Dies veranschaulicht auch die Tabelle unserer Ergebnisse f¨ ur N = 320: Binomial,n = 10, p = 0.5 Standardnormal Poisson, λ = 1 exponential, λ = 1
N 320 320 320 320
Min. 1.00 -3.21 .00 .00
Max. 9.00 2.75 4.00 6.56
mean 4.9219 .0560 .9656 1.0223
St.dev. 1.57274 .98401 .96103 1.02528
Abb. 9.7. Simulierte Verteilungen f¨ ur N=320 (Binomial, Normal)
Abb. 9.8. Simulierte Verteilungen f¨ ur N=320 (Poisson, Exponential)
d) Die Interpretation weiterer Ergebnisse wird dem interessierten Leser u ¨berlassen.
10. Sch¨ atzung von Parametern
10.1 Einleitung Die bisher vorgestellten Verteilungen f¨ ur die Beschreibung von Zufallsvariablen h¨ angen von Parametern ab (Erwartungswert μ, Varianz σ 2 , Wahrscheinlichkeit p der Null-Eins- und der Binomialverteilung), die unbekannt sind. Aus einer Stichprobe k¨ onnen Maßzahlen (Stichprobenmittelwert x ¯, Stichprobenaufigkeit k/n) ermittelt werden, die wir als Sch¨ atzvarianz s2 , relative H¨ werte der Parameter μ, σ 2 , p der Grundgesamtheit bezeichnen. Beispiel 10.1.1. Das Gewicht X von zehnj¨ ahrigen Kindern einer amerikanischen Kleinstadt sei normalverteilt, X ∼ N (μ, σ 2 ). Der Erwartungswert μ repr¨ asentiert das mittlere (durchschnittliche) Gewicht der Kinder. Aus einer Stichprobe ermittelt man den Wert von x ¯ (mittleres Gewicht der zehnj¨ahrigen Kinder in der Stichprobe) als Sch¨ atzung des Parameters μ der zehnj¨ahrigen Kinder in der Kleinstadt. Die konkreten Sch¨ atzwerte als Realisierungen von Zufallsvariablen werden von Stichprobe zu Stichprobe verschieden sein, sie streuen um den unbekannten Parameter (im Beispiel μ). Je nachdem, ob nur ein einziger Zahlenwert als Sch¨ atzgr¨ oße oder ein Intervall angegeben wird, spricht man von einer Punktsch¨ atzung
bzw. von einer
Intervallsch¨ atzung.
Unter einer Stichprobe verstehen wir allgemein bei endlicher Grundgesamtheit eine zuf¨allige Auswahl von n Elementen aus den N Elementen der Grundgesamtheit, analog zu den Urnenmodellen der vorangegangenen Kapitel. Bei einem Zufallsexperiment erh¨ alt man die Stichprobe durch n-fache Wiederholung des Experiments. Falls alle Xi unabh¨angig und identisch verteilt sind, bezeichnen wir X = (X1 , . . . , Xn ) als i.i.d. Stichprobe. Die Schreibweise X = (X1 , . . . , Xn ) bezeichnet die Stichprobe (als Zufallsgr¨oße), die Xi sind Zufallsvariablen. Nach Durchf¨ uhrung der Stichprobenziehung, d.h., nach Realisierung der Zufallsvariablen Xi in einem zuf¨alligen Versuch, erh¨alt man die konkrete Stichprobe x = (x1 , . . . , xn ) mit den realisierten Werten xi der Zufallsvariablen Xi . Anmerkung. Wenn wir von Stichprobe sprechen, meinen wir stets die i.i.d. Stichprobe. Bei endlicher Grundgesamtheit sichert man die i.i.d. Eigenschaft
200
10. Sch¨ atzung von Parametern
durch Ziehen mit Zur¨ ucklegen, bei Zufallsexperimenten durch geeignete Versuchspl¨ ane (i.i.d.: independently identically distributed) ab.
10.2 Punktsch¨ atzung von Parametern Im Allgemeinen stellt sich das Problem der Sch¨atzung von Parametern der Verteilung einer Zufallsvariablen X durch geeignete Maßzahlen. Ziel der Punktsch¨ atzung ist es, den unbekannten Parameter (z.B. μ) der Verteilung mittels einer Stichprobe vom Umfang n “m¨ oglichst gut” zu sch¨atzen. Um festzulegen was unter “m¨ oglichst gut” zu verstehen ist, brauchen wir G¨ utekriterien, die Aussagen u ute der Sch¨atzung liefern. Im Folgenden ¨ber die G¨ wollen wir aber nicht n¨ aher auf diese G¨ utekriterien eingehen (siehe daf¨ ur z.B. Toutenburg, Induktive Statistik ), sondern in einer knappen Zusammenfassung die Punktsch¨ atzungen einiger wichtiger F¨ alle auff¨ uhren und analysieren: • Punktsch¨ atzung f¨ ur μ bei einer normalverteilten Zufallsvariable • Punktsch¨ atzung f¨ ur σ 2 bei einer normalverteilten Zufallsvariable • Punktsch¨ atzung von p bei einer binomialverteilten Zufallsvariable . 10.2.1 Punktsch¨ atzung f¨ ur μ bei einer normalverteilten Zufallsvariable Die Zufallsvariable X sei normalverteilt mit X ∼ N (μ, σ 2 ). Es liege eine unabh¨ angige und identisch verteilte (i.i.d.) Stichprobe X1 , X2 , ..., Xn vor. Dann ist die Punktsch¨ atzung μ ˆ (lies: μ Hut oder μ Dach) von μ gegeben durch: ¯= 1 Xi . μ ˆ=X n i=1 n
(10.1)
Suchen wir also eine “m¨ oglichst gute” Sch¨ atzung f¨ ur den Erwartungswert einer normalverteilten Zufallsvariable, so betrachten wir ganz einfach das arithmetische Mittel. Beispiel 10.2.1. Wir betrachten erneut Beispiel 10.1.1. In der Stadt sei nun eine Stichprobe vom Umfang n = 20 gezogen worden. Es ergaben sich folgende Werte (in kg): 40.2, 32.8, 38.2, 43.5, 47.6, 36.6, 38.4, 45.5, 44.4, 40.3 34.6, 55.6, 50.9, 38.9, 37.8, 46.8, 43.6, 39.5, 49.9, 34.2 Um nun eine Sch¨ atzung f¨ ur den Mittelwert in der gesamten Kleinstadt zu bekommen, betrachten wir den Mittelwert des K¨orpergewichtes in der Stichprobe: 1 1 (40.2 + 32.8 + ... + 34.2) = 41.97 . xi = n i=1 20 n
μ ˆ=x ¯=
10.2 Punktsch¨ atzung von Parametern
201
10.2.2 Punktsch¨ atzung f¨ ur σ 2 bei einer normalverteilten Zufallsvariable Die Zufallsvariable X sei normalverteilt mit X ∼ N (μ, σ 2 ). Es liege eine unabh¨ angige und identisch verteilte (i.i.d.) Stichprobe X1 , X2 , ..., Xn vor. Dann ist die Punktsch¨ atzung f¨ ur σ 2 gegeben durch: 1 ¯ 2. (Xi − X) n − 1 i=1 n
σ ˆ 2 = s2X =
(10.2)
F¨ ur eine “gute” atzung der Varianz betrachten wir also die Stichprobenn Sch¨ 1 ¯ 2 ) mit der Ver¨ anderung von “ n1 zu “ n−1 ”. varianz ( n1 i=1 (Xi − X) Beispiel 10.2.2. Wir betrachten erneut Beispiel 10.1.1. Um einen m¨oglichst guten Sch¨ atzwert f¨ ur die Varianz des K¨ orpergewichts aller Kinder in der Kleinstadt zu bekommen, betrachten wir die Punktsch¨atzung: 1 (xi − x ¯)2 n − 1 i=1 n
σ ˆ 2 = s2x =
1 ((40.2 − 41.97)2 + ... + (34.2 − 41.97)2 ) ≈ 36.85 . 19 Die Wurzel hieraus, also etwa 6.07, ergibt den Sch¨atzwert f¨ ur die Standardabweichung. =
10.2.3 Punktsch¨ atzung von p bei einer binomialverteilten Zufallsvariable Sei X eine binomialverteilte Zufallsvariable mit X ∼ B(n; p). Es liege eine unabh¨ angige und identisch verteilte (i.i.d.) Stichprobe X1 , X2 , ..., Xn vor. Dann ist die Punktsch¨ atzung der unbekannten Wahrscheinlichkeit gegeben durch: 1 Xi . n i=1 n
pˆ =
(10.3)
Die “beste” Sch¨ atzung f¨ ur die Binomialwahrscheinlichkeit ist demnach nichts anderes als die relative H¨ aufigkeit. Anmerkung. F¨ ur np(1 − p) ≥ 9 gilt: pˆ ∼ N (p, p(1−p) ). n Beispiel 10.2.3. Eine Bibliothek zieht aus ihrer Kundendatei zuf¨allig n = 100 Kunden, um festzustellen welcher Anteil ihrer Mitglieder schon eine Strafe f¨ ur zu sp¨ ates Zur¨ uckbringen von B¨ uchern zahlen musste. Dabei wurden unter den 100 Mitgliedern 39 gefunden, die bereits eine Strafe gezahlt haben. Als Sch¨ atzung f¨ ur die unzuverl¨ assigen Kunden der gesamten Bibliothek ergibt sich damit: n 39 1 1 · 39 = = 0.39 . xi = pˆ = n i=1 100 100
202
10. Sch¨ atzung von Parametern
10.3 Konfidenzsch¨ atzungen von Parametern 10.3.1 Grundlagen Eine Punktsch¨ atzung hat den Nachteil, dass kein Hinweis auf die Genauigkeit dieser Sch¨ atzung gegeben wird. Die Abweichung zwischen Punktsch¨atzung und wahrem Parameter (z.B. |¯ x − μ|) kann erheblich sein, insbesondere bei kleinem Stichprobenumfang. Aussagen u ¨ber die Genauigkeit einer Sch¨atzung liefert die Konfidenzmethode. Bei ihr wird ein Zufallsintervall mit den Grenzen Iu (X) und Io (X) bestimmt, das den unbekannten Parameter θ (z.B. den Erwartungswert μ) mit vorgegebener Wahrscheinlichkeit von mindestens 1−α u ¨berdeckt: (10.4) Pθ (Iu (X) ≤ θ ≤ Io (X)) ≥ 1 − α . Die Wahrscheinlichkeit 1 − α heißt Konfidenzniveau, Iu (X) heißt untere und Io (X) obere Konfidenzgrenze. H¨ aufigkeitsinterpretation: Wenn N unabh¨ angige Stichproben X(j) aus derselben Grundgesamtheit gezogen werden und dann jeweils Konfidenzintervalle der Form [Iu (X(j) ), Io (X(j) )] berechnet werden, so u ¨berdecken bei hinreichend großem N etwa N (1 − α) aller Intervalle (10.4) den unbekannten, wahren Wert. Wir m¨ ochten also anstelle eines festen Wertes ein Intervall f¨ ur die Sch¨atzung eines Parameters einer Verteilung angeben. Dazu betrachten wir folgende n¨ utzliche und wichtige Beispiele: • Konfidenzsch¨ atzung f¨ ur den Erwartungswert einer normalverteilten Zufallsvariable • Konfidenzsch¨ atzung f¨ ur die Wahrscheinlichkeit p einer binomialverteilten Zufallsvariable. 10.3.2 Konfidenzsch¨ atzung des Erwartungswerts einer Normalverteilung Konfidenzsch¨ atzung f¨ ur μ (σ 2 = σ02 bekannt) Gegeben sei eine i.i.d. Stichprobe der N (μ, σ 2 )-verteilten Zufallsvariablen X. n 1 ¯ ur μ und konWir verwenden die Punktsch¨ atzung X = n i=1 Xi aus (10.4) f¨ struieren ein Konfidenzintervall, das symmetrisch um μ liegen soll. Die Punkt¯ besitzt unter H0 (vgl. Kapitel 11) eine N (μ, σ 2 /n)-Verteilung. sch¨ atzung X 0 √ ¯ X−μ Damit ist σ0 n ∼ N (0, 1), und es gilt ¯ X − μ√ α n ≤ z1− 2 = 1 − α . Pμ σ0
(10.5)
10.3 Konfidenzsch¨ atzungen von Parametern
203
(z1−α/2 bezeichnet das (1 − α/2)-Quantil der N (0, 1)-Verteilung.) Wir l¨osen diese Ungleichung nach μ auf und erhalten das gesuchte Konfidenzintervall f¨ ur μ dann als
σ0 ¯ σ0 ¯ − z1−α/2 √ , X + z1−α/2 √ . [Iu (X), Io (X)] = X (10.6) n n Anmerkung. F¨ ur α = 0.05 gilt z1− α2 = z0.975 = 1.96. Beispiel 10.3.1. Wir betrachten erneut Beispiel 10.1.1. Nehmen wir an, wir w¨ ussten, dass die Varianz der gesamten Kleinstadt bei 49 liegt. Dann l¨asst sich das 95%-Konfidenzintervall f¨ ur das Gewicht der Kinder wie folgt berechnen: √ σ0 49 ¯ Iu (X) = X − z1−α/2 √ = 41.97 − 1.96 √ ≈ 38.90 , n 20 √ σ ¯ + z1−α/2 √0 = 41.97 − 1.96 √49 ≈ 45.04 . Io (X) = X n 20 Damit erhalten wir ein Konfidenzintervall von [Iu (X), Io (X)] = [38.90, 45.04]. Mit 95%-iger Sicherheit liegt also der wahre unbekannte Parameter μ im Intervall [38.90, 45.04]. Konfidenzsch¨ atzung f¨ ur μ (σ 2 unbekannt) Wenn die Varianz σ 2 unbekannt ist, sch¨ atzen wir sie durch die Stichprobenvarianz und erhalten (vgl. (9.20)) 2 1 ¯ 2 ∼ σ χ2 . (Xi − X) n − 1 i=1 n − 1 n−1 n
2 SX =
¯ und S 2 unabh¨ angig sind, ist Da X X ¯ − μ√ X n ∼ tn−1 SX t-verteilt mit n − 1 Freiheitsgraden (vgl. (9.22)). Daraus folgt:
SX ¯ SX ¯ − tn−1;1−α/2 · √ , X + tn−1;1−α/2 · √ . [Iu (X), Io (X)] = X n n
(10.7)
F¨ ur gleiches α und gleichen Stichprobenumfang n ist das Intervall (10.7) im allgemeinen breiter als das Intervall (10.6), da der unbekannte Parameter 2 gesch¨ atzt werden muss, was zus¨atzliche Unsicherheit hereinσ 2 durch SX bringt.
204
10. Sch¨ atzung von Parametern
Beispiel 10.3.2. Wir betrachten erneut das Beispiel des Gewichts der zehnj¨ahrigen Kinder. In Abschnitt 10.2 haben wir bereits die Punktsch¨atzer f¨ ur Varianz und Erwartungswert berechnet. Mit diesen Werten, einem α von 0.05 (95%-Konfidenzintervall), t19;0.975 = 2.093 (aus Tabelle A.3) und n − 1 = 19 Freiheitsgraden folgt f¨ ur das Konfidenzintervall: sX Iu (X) = x ¯ − t19;0.975 · √ = 41.97 − 2.093 · n sX Io (X) = x ¯ + t19;0.975 · √ = 41.97 − 2.093 · n
6.07 √ ≈ 39.13 20 6.07 √ ≈ 44.81 20
Damit erhalten wir ein Konfidenzintervall von [Iu (X), Io (X)] = [39.13, 44.81]. 10.3.3 Konfidenzsch¨ atzung einer Binomialwahrscheinlichkeit In Kapitel 10.2.3 haben wir bereits den Punktsch¨atzer f¨ ur die Binomialwahrscheinlichkeit p kennengelernt. Er berechnet sich als: X 1 = Xi . n n i=1 n
pˆ =
Da X die Varianz np(1 − p) besitzt, lautet die Varianz der Sch¨atzung pˆ Var(ˆ p) =
p(1 − p) n
und sie wird gesch¨ atzt durch: Sp2ˆ =
pˆ(1 − pˆ) . n
M¨ ochte man exakte Konfidenzintervalle f¨ ur die Binomialwahrscheinlichkeit bestimmen, so ben¨ otigt man die Hilfe der Tafeln der Binomialverteilung. Ist die Bedingung np(1 − p) ≥ 9 erf¨ ullt, so kann man eine N¨aherung verwenden, die die Binomialverteilung durch die Normalverteilung approximiert: Z= also gilt
P
pˆ − z1−α/2
pˆ − p pˆ(1 − pˆ)/n
approx.
∼
pˆ(1 − pˆ) ≤ p ≤ pˆ + z1−α/2 n
N (0, 1) ,
pˆ(1 − pˆ) n
(10.8)
≈ 1 − α,
und wir erhalten das Konfidenzintervall f¨ ur p pˆ(1 − pˆ) pˆ(1 − pˆ) , pˆ + z1−α/2 . pˆ − z1−α/2 n n
(10.9)
(10.10)
10.5 Aufgaben
205
Beispiel 10.3.3. Wir betrachten erneut das Beispiel der Bibliothekskunden (siehe Beispiel 10.2.3). Nun m¨ ochten wir f¨ ur den bereits gesch¨atzten Parameter ein 95%-Konfidenzintervall erstellen. Mit nˆ p(1 − pˆ) = 100 · 0.39 · 0.61 = 23.79 > 9 ist die notwendige Voraussetzung f¨ ur die Verwendung der Normalapproximation erf¨ ullt. Wir erhalten mit z1−α/2 = z0.975 = 1.96 und pˆ = 0.39 0.39 · 0.61 0.39 · 0.61 , 0.39 + 1.96 0.39 − 1.96 = [0.294, 0.486] 100 100 das Konfidenzintervall f¨ ur das unbekannte p.
10.4 Weitere Hinweise Merke:
Wir haben in diesem Kapitel wichtige Punktsch¨atzer f¨ ur normalund binomialverteilte Zufallsvariablen kennengelernt: x ¯ f¨ ur μ,
s2X f¨ ur σ 2 ,
pˆ f¨ ur p
Die Wahl dieser Punktsch¨ atzer ist keineswegs willk¨ urlich, sondern erfolgt bestimmten Optimierungsprinzipien, wie dem MaximumLikelihood-, Bayes-, oder Kleinste-Quadrate-Prinzip, vergleiche auch Toutenburg und Heumann (2008), Induktive Statistik.
Eine Konfidenzsch¨ atzung beschreibt die Aufgabenstellung, f¨ ur einen unbekannten Parameter einer Verteilung anhand einer Stichprobe ein Intervall anzugeben, welches den Parameter mit einer Wahrscheinlichkeit 1 − α u ¨berdeckt. Konfidenzsch¨atzungen werden h¨aufig nach dem Prinzip √ Punktsch¨ atzer ± Quantil · Varianz des Punktsch¨atzers konstruiert.
10.5 Aufgaben Aufgabe 10.1: Wir betrachten erneut Aufgabe 2.8. Im Gebiet ¨ostlich des Etosha-Nationalparks in Namibia sei im Zuge wissenschaftlicher Arbeiten das Gewicht (in kg) von 24 Eland-Antilopen erhoben worden: 450 730 700 600 620 660 850 520 490 670 700 820 910 770 760 620 550 520 590 490 620 660 940 790
206
10. Sch¨ atzung von Parametern
Gehen Sie davon aus, dass es sich bei dem K¨orpergewicht um ein normalverteiltes Merkmal handelt und berechnen Sie a) die Punktsch¨ atzer f¨ ur μ und σ 2 , b) das Konfidenzintervall f¨ ur μ (α = 0.05) . L¨ osung: a) Die Punktsch¨ atzung von μ erhalten wir u ¯: ¨ber x 1 1 (450 + ... + 790) = 667.92 . xi = n i=1 24 n
μ ˆ=x ¯=
Die Sch¨ atzung von σ 2 erhalten wir u ¨ber s2 : 1 (xi − x ¯)2 σ ˆ =s = n − 1 i=1 n
2
2
=
1 ((450 − 667.92)2 + ... + (790 − 667.92)2 ) ≈ 18035 . 23
b) Mit t23;0.975 = 2.07, α = 0.05 und den aus Aufgabenteil a) berechneten Werten erhalten wir folgende Intervallgrenzen: √ 18035 s ≈ 611.17 , Iu (X) = x ¯ − tn−1;1−α/2 · √ = 667.92 − t23;0.975 · √ n 24 √ 18035 s ≈ 724.66 . Io (X) = x ¯ + tn−1;1−α/2 · √ 667.92 − t23;0.975 · √ n 24 Damit erhalten wir ein Konfidenzintervall von [611.17; 724.66] Aufgabe 10.2: Wir betrachten das Merkmal ’K¨orpergr¨oße’ bei Spielern der Basketballteams ’GHP Bamberg’ und ’Bayer Giants Leverkusen’, sowie bei Spielern der Fußballmannschaft ’SV Werder Bremen’. SPSS liefert uns folgende deskriptiven Statistiken: Bamberg Leverkusen Bremen
N 16 14 23
Minimum 185 175 178
Maximum 211 210 195
Mittelwert 199.06 196.00 187.52
Std. abw. 7.047 9.782 5.239
Berechnen Sie ein 95%-Konfidenzintervall f¨ ur jedes Team und interpretieren Sie Ihre Ergebnisse!
10.5 Aufgaben
207
L¨ osung: • Wir betrachten zuerst die Spieler des ’GHP Bamberg’. Mit t15;0.975 = 2.1314 und α = 0.05 berechnen wir die Grenzen des Konfidenzintervalls: s Iu (Ba) = x ¯ − tn−1;1−α/2 · √ = 199.06 − t15;0.975 · n s Io (Ba) = x ¯ + tn−1;1−α/2 · √ = 199.06 + t15;0.975 · n
7.047 √ = 195.305 , 16 7.047 √ = 202.815 . 16
Damit erhalten wir ein Konfidenzintervall von [195.305; 202.815]. • F¨ ur Leverkusen erhalten wir mit t13;0.975 = 2.1604 und α = 0.05: s Iu (L) = x ¯ − tn−1;1−α/2 · √ = 196 − t13;0.975 · n s Io (L) = x ¯ + tn−1;1−α/2 · √ = 196 + t13;0.975 · n
9.782 √ = 190.352 , 14 9.782 √ = 201.648 . 14
Damit erhalten wir ein Konfidenzintervall von [190.352; 201.648]. • F¨ ur die Fußballmannschaft des SV Werder Bremen berechnen wir die Grenzen wie folgt (t22,0.975 = 2.0739): s Iu (Br) = x ¯ − tn−1;1−α/2 · √ = 187.52 − t22;0.975 · n s Io (Br) = x ¯ + tn−1;1−α/2 · √ = 187.25 + t22;0.975 · n
5.239 √ = 185.255 , 23 5.239 √ = 189.786 . 23
Damit erhalten wir ein Konfidenzintervall von [185.255; 189.786]. • Die Werte der Konfidenzintervalle sind bei den beiden Basketballteams erwartungsgem¨ aß h¨ oher. Bei beiden Teams ist der untere Wert des Konfidenzintervalls h¨ oher als der oberste Wert des Konfidenzintervalls f¨ ur Bremen. Die Intervalle u ¨berdecken sich also nicht. In Kapitel 11 werden wir von einem signifikanten Unterschied zwischen der mittleren Gr¨oße der Basketballteams und der Fußballmannschaft sprechen. Aufgabe 10.3: Ein Ehepaar wirft nach jedem Essen eine M¨ unze um zu bestimmen, wer den Abwasch zu erledigen hat. Zeigt die M¨ unze “Wappen”, so hat sich der Mann um den Abwasch zu k¨ ummern, bei “Zahl” ist es die Aufgabe der Frau. Nach insgesamt 98 W¨ urfen fiel die M¨ unze 59 mal auf Zahl. a) Sch¨ atzen Sie die Wahrscheinlichkeit daf¨ ur, dass die Frau den Abwasch zu erledigen hat! b) Erstellen Sie f¨ ur den gesch¨ atzten Parameter ein passendes 95%-Konfidenzintervall. Wie interpretieren Sie Ihre Ergebnisse?
208
10. Sch¨ atzung von Parametern
L¨ osung: a) Mit n = 98 folgt: 59 1 1 · 59 = ≈ 0.602 Xi = n i=1 98 98 n
pˆ =
b) Wir wissen, dass nˆ p(1 − pˆ) = 98 · 0.602 · 0.398 = 23.48 > 9 ist, und k¨onnen daher die Normalapproximation verwenden. Mit z1−α/2 = z0.975 = 1.96 erhalten wir: 0.602 · 0.398 = 0.505 , Iu (X) = 0.602 − 1.96 98 0.602 · 0.398 Io (X) = 0.602 + 1.96 = 0.699 . 98 Damit erhalten wir ein Konfidenzintervall von [0.505, 0.699], das die Wahrscheinlichkeit von p = 0.5 nicht u unze aber ¨berdeckt, was bei einer fairen M¨ zu erwarten w¨ are. Der Verdacht, dass die M¨ unze unfair ist, liegt nahe. Die Frau ist also beim Abwasch-Auslosen benachteiligt. Aufgabe 10.4: An einer Hamburger Schule haben 93 von 104 Sch¨ ulern die Abiturpr¨ ufung im Jahr 2007 bestanden. a) Erstellen Sie ein 95%-Konfidenzintervall f¨ ur den Anteil der durchgefallenen Sch¨ uler! b) Die Durchfallquote im Bundesland Hamburg lag im Jahr 2007 bei 3.2%. Kann man sagen, dass die Sch¨ uler der betrachteten Hamburger Schule schlechter als der Bundeslanddurchschnitt sind? L¨ osung: 11 ≈ 0.106. a) Der gesch¨ atzte Anteil durchgefallener Sch¨ uler liegt bei pˆ = 104 Mit n = 104 und z1−α/2 = z0.975 = 1.96 erh¨alt man das Konfidenzintervall zu 0.106 · 0.894 = [0.047; 0.165] . 0.106 ± 1.96 · 104
b) Betrachtet man die Punktsch¨ atzungen, so ist die Durchfallquote von 10.6% deutlich gr¨ oßer als der Bundeslanddurchschnitt von 3.2%. Es l¨asst sich also vermuten, dass die betrachteten Sch¨ uler tats¨achlich schlechter abschneiden als der Schnitt. Ein Blick auf die Konfidenzsch¨atzung best¨atigt dieses Bild. Das Konfidenzintervall betr¨ agt [0.047; 0.165] und u ¨berdeckt also nicht den uns interessierenden Wert von 3.2%. Dies bedeutet, dass die Hamburger Schule also tats¨ achlich eine signifikant h¨ohere Durchfallquote als 3.2% besitzt. Der genaue Nachweis erfolgt mit Hilfe des Binomialtests (Kapitel 11.5.1).
11. Pru ¨ fen statistischer Hypothesen
11.1 Einleitung Im vorausgegangenen Kapitel haben wir Sch¨atzungen f¨ ur unbekannte Parameter von Verteilungen zuf¨ alliger Variablen betrachtet. Nun ist es aber oft von Interesse, ob bestimmte Vermutungen u ¨ber einen Parameter in der Grundgesamtheit zutreffen oder nicht. Beispielsweise k¨ onnte ein Forscher bereits eine Hypothese u ¨ber einen Sachverhalt besitzen und m¨ ochte seine Vermutung anhand einer Stichprobe best¨atigen. M¨ oglicherweise hat er die Hypothese, dass m¨annliche S¨auglinge im Mutterleib aktiver sind als weibliche, oder dass Studenten einer Hochschule A im Mittel besser bei einem Test abschneiden als solche einer Hochschule B. In der Regel wird der Forscher aber nicht alle notwendigen Daten zur Verf¨ ugung haben. So kann er nat¨ urlich nicht die Aktivit¨ at aller S¨auglinge einer Grundgesamtheit betrachten, sondern nur die eines Teils, also einer Stichprobe. Wir m¨ ochten also anhand einer Stichprobe zu einer Entscheidung u ¨ber eine aufgestellte Hypothese bez¨ uglich einer Grundgesamtheit gelangen. Es soll u uckschluss auf die gesamte Population ¨ber einen Teil einer Population ein R¨ gezogen werden.
11.2 Grundlegende Begriffe 11.2.1 Ein- und Zweistichprobenprobleme Da in der Praxis verschiedenste Frage- und Problemstellungen auftreten, m¨ ussen wir uns zu allererst klar werden, mit welchen Testproblemen wir uns besch¨ aftigen k¨ onnen. Zuerst unterschieden wir die F¨alle des Einstichprobenproblems und des Zweistichprobenproblems. Beim Einstichprobenproblem liegen uns Daten aus einer Stichprobe vor, anhand derer wir einen R¨ uckschluss auf einen Lageparameter ziehen wollen. Beim Zweistichprobenproblem dagegen betrachten wir die Daten aus zwei Stichproben und vergleichen z.B. einen Lageparameter zwischen den beiden Stichproben. Anmerkung. Die beiden Stichproben k¨ onnen unabh¨angig (z.B. das Gewicht von M¨ anner und Frauen) oder verbunden sein (z.B. das Gewicht einer Person vor/nach einer Di¨ at).
210
11. Pr¨ ufen statistischer Hypothesen
Beispiel 11.2.1. Es liegen die Ergebnisse von je 10 Sch¨ ulern der 6. Klasse zweier Gymnasien im Weitsprung vor. Eine m¨ogliche Hypothese innerhalb des Einstichprobenproblems w¨ are, dass die Sch¨ uler des ersten Gymnasiums im Mittel 3.50 Meter weit springen. F¨ ur das Zweistichprobenproblem w¨are eine zu untersuchende Fragestellung, ob die Sch¨ uler des ersten Gymnasiums im Mittel weiter springen als die des zweiten. 11.2.2 Ein- und Zweiseitige Tests Die zu testende Hypothese, die wir innerhalb eines Sachverhalts formuliert haben, wird auch als Nullhypothese H0 bezeichnet. Die Alternativhypothese wird H1 genannt. Haben wir ein Testproblem mit einer Null- und Alternativhypothese, so unterscheiden wir zwischen einseitigem Testproblem und zweiseitigem Testproblem. F¨ ur einen unbekannten Parameter θ (z.B. μ) und einen festen Wert θ0 (z.B. 5) stellt sich die Situation wie folgt dar: Fall (a) (b) (c)
Nullhypothese θ = θ0 θ ≥ θ0 θ ≤ θ0
Alternativhypothese θ = θ0 θ < θ0 θ > θ0
zweiseitiges Testproblem einseitiges Testproblem einseitiges Testproblem
Beispiel 11.2.2. Einstichprobenprobleme pr¨ ufen als Nullhypothese H0 , ob Sollwerte/Standards eingehalten werden oder nicht: • • • • •
Abf¨ ullgewichte (1kg Mehl, 1kg Zucker) Langj¨ ahrige mittlere Julitemperatur in M¨ unchen (22◦ C) Bisherige Frauenquote im Fach Statistik (57%) Anteil der Verkehrsunf¨ alle unter Alkohol (12%) K¨ orpergr¨ oße (M¨ anner) = 178 cm .
Bei Einstichprobenproblemen beinhalten die Alternativ- oder Arbeitshypothesen H1 Abweichungen vom Sollwert/Standard: • • • • •
Unterschreitung des Abf¨ ullgewichts Anstieg der Temperatur Anstieg der Frauenquote R¨ uckgang der Alkoholunf¨ alle K¨ orpergr¨ oße (M¨ anner) = 178 cm .
Zweistichprobenprobleme pr¨ ufen als Nullhypothese H0 , ob zwei unabh¨angige Stichproben gleiche Parameter besitzen: • mittleres Abf¨ ullgewicht bei Maschine 1 gleich mittleres Abf¨ ullgewicht bei Maschine 2 • mittlere Punktzahl Soziologie = mittlere Punktzahl Psychologie (in der Statistikklausur) • Durchschnittstemperatur (Juli) in M¨ unchen und in Basel gleich
11.2 Grundlegende Begriffe
211
• Varianz der K¨ orpergr¨ oße (M¨ anner) = Varianz der K¨orpergr¨oße (Frauen) • Anteil p(A) s¨aumiger Ratenzahler im Versandhaus A = Anteil p(B) s¨ aumiger Ratenzahler im Versandhaus B, also p(A) = p(B) = p oder p(A) − p(B) = 0 . Bei Zweistichprobenproblemen beinhalten die Alternativ- oder Arbeitshypothesen H1 ein- oder zweiseitige Abweichungen von der Gleichheit dieser Parameter: • mittleres Abf¨ ullgewicht (Maschine 1) < mittleres Abf¨ ullgewicht (Maschine 2) • mittlere Punktzahl (Soziologie) = mittlere Punktzahl (Psychologie) • Durchschnittstemperatur (Juli) in M¨ unchen > Durchschnittstemperatur (Juli) in Basel • Varianz der K¨ orpergr¨ oße (M¨ anner) = Varianz der K¨orpergr¨oße (Frauen) • p(A) − p(B) > 0. 11.2.3 Allgemeines Vorgehen Bei einem Test geht man wie folgt vor: 1) 2) 3) 4)
Verteilungsannahme u ¨ber die Zufallsvariable X. Formulierung der Nullhypothese und der Alternativhypothese. Vorgabe einer Irrtumswahrscheinlichkeit α. Konstruktion einer geeigneten Testgr¨ oße T (X) = T (X1 , . . . , Xn ) als Funktion der Stichprobenvariablen X, deren Verteilung unter der Nullhypothese vollst¨ andig bekannt sein muss. 5) Wahl eines kritischen Bereichs K aus dem m¨oglichen Wertebereich von T (X) derart, dass Pθ (T (X) ∈ K) ≤ α gilt. 6) Berechnung der Realisierung t = T (x1 , . . . , xn ) der Testgr¨oße T (X) anhand der konkreten Stichprobe (x1 , . . . , xn ). ur die konkrete 7) Entscheidungsregel: Liegt der Wert t = T (x1 , . . . , xn ) f¨ Stichprobe im kritischen Bereich K, so wird die Nullhypothese abgelehnt. Ist t nicht im kritischen Bereich, so wird die Nullhypothese nicht abgelehnt: t ∈ K : H0 ablehnen ⇒ H1 ist statistisch signifikant, t ∈ K : H0 nicht ablehnen.
11.2.4 Fehler 1. und 2. Art Bei der Durchf¨ uhrung eines statistischen Tests k¨onnen zwei Arten von Fehlern gemacht werden: • Die Hypothese H0 ist richtig und wird abgelehnt; diesen Fehler bezeichnet man als Fehler 1. Art.
212
11. Pr¨ ufen statistischer Hypothesen
• Die Hypothese H0 wird nicht abgelehnt, obwohl sie falsch ist; dies ist der Fehler 2. Art. Insgesamt gibt es also folgende vier Situationen. H0 wird nicht abgelehnt H0 wird abgelehnt
H0 ist richtig richtige Entscheidung Fehler 1. Art
H0 ist nicht richtig Fehler 2. Art richtige Entscheidung
Bei der Konstruktion eines Tests haben wir uns immer ein Signifikanzniveau α vorgegeben (z. B. α = 0.05) das nicht u ¨berschritten werden darf. Dieses entspricht dem Fehler 1. Art, d.h. P(H1 |H0 ) = α.
11.3 Einstichprobenprobleme 11.3.1 Pr¨ ufen des Mittelwerts bei bekannter Varianz (einfacher Gauss-Test) Wir wollen im Folgenden pr¨ ufen, ob der unbekannte Erwartungswert μ einer N (μ, σ 2 )-verteilten Zufallsvariablen X einen bestimmten Wert μ = μ0 besitzt bzw. u ¨ber- oder unterschreitet. Dabei sei zun¨achst die Varianz σ 2 = σ02 bekannt. Wir werden nun zuerst gem¨ aß dem Schema aus Kapitel 11.2.3 das Vorgehen des Tests schildern und dann anhand eines Beispiels noch einmal verdeutlichen. 1. Verteilungsannahme: Die Zufallsvariable X ist N (μ, σ02 )-verteilt mit bekannter Varianz σ02 . 2. Festlegen von H0 und H1 : H0 : μ = μ0 gegen H1 : μ = μ0 , H0 : μ ≤ μ0 gegen H1 : μ > μ0 ,
zweiseitig einseitig
H0 : μ ≥ μ0
einseitig.
gegen
H1 : μ < μ0 ,
3. Vorgabe der Irrtumswahrscheinlichkeit α: In der Regel w¨ahlt man α = 0.05. 4. Konstruktion der Testgr¨ oße: Wir sch¨ atzen den unbekannten Erwartungswert durch das arithmetische Mittel der Stichprobenwerte (Stichprobenmittelwert) n σ2 H ¯= 1 X Xi ∼0 N (μ0 , 0 ) n i=1 n und bilden durch Standardisierung daraus die unter H0 N (0, 1)-verteilte Pr¨ ufgr¨ oße ¯ − μ0 √ H0 X n ∼ N (0, 1). T (X) = σ0
11.3 Einstichprobenprobleme
213
5. Kritischer Bereich: Wir wissen, dass die Testgr¨oße standardnormalverteilt ist. Daraus ermitteln wir folgende kritische Bereiche: Fall (a) (b) (c)
H0 μ = μ0 μ ≥ μ0 μ ≤ μ0
H1 μ =
μ0 μ < μ0 μ > μ0
Kritischer Bereich K K = (−∞, −z1−α/2 ) ∪ (z1−α/2 , ∞) K = (−∞, zα = −z1−α ) K = (z1−α , ∞)
Im Fall (a) mit H0 : μ = μ0 und H1 : μ = μ0 interessieren wir uns f¨ ur beide Enden der Verteilung der Testgr¨ oße. Ist der standardisierte Wert unserer Stichprobe deutlich kleiner als vermutet, so spricht das gegen unsere Hypothese, ist der Wert deutlich gr¨ oßer, so spricht auch dies gegen unsere Vermutung. F¨ ur α = 0.05 beispielsweise w¨ urde dies bedeuten, dass 2.5% des rechten ¨ außeren Endes sowie 2.5% des linken ¨außeren Endes f¨ ur Werte stehen, die “zu unwahrscheinlich” sind um f¨ ur unsere Nullhypothese zu sprechen (siehe dazu auch Abbildung 11.1). F¨ ur α = 0.05 ist z1− α2 =1.96.
zα/2 = −z1−α/2
z1−α/2
Abb. 11.1. Kritischer Bereich f¨ ur den zweiseitigen einfachen Gauss-Test H0 : μ = μ0 gegen H1 : μ = μ0 . Der kritische Bereich K = (−∞, −z1−α/2 ) ∪ (z1−α/2 , ∞) achen dargestellte Wahrscheinlichkeitsmasbesitzt unter H0 die durch die grauen Fl¨ se α.
F¨ ur den Fall (c) dagegen ist nur eine “Richtung” entscheidend. Nur ein sehr hoher Wert der Testgr¨ oße kann unsere Hypothese H0 widerlegen, ein sehr kleiner Wert dagegen spricht f¨ ur H0 . Dazu betrachten wir auch Abbildung 11.2 in der dies noch einmal verdeutlicht wird. Durch analoge u ¨berlegungen bekommen wir dann auch den kritischen Bereich f¨ ur Fall (b). F¨ ur α = 0.05 ist z1−α =1.64. 6. Realisierung der Testgr¨ oße: Aus einer konkreten Stichprobe x1 , . . . , xn wird der Stichprobenmittelwert 1 xi n i=1 n
x ¯=
214
11. Pr¨ ufen statistischer Hypothesen
z1−α Abb. 11.2. Kritischer Bereich f¨ ur den einseitigen einfachen Gauss-Test H0 : μ ≤ μ0 gegen H1 : μ > μ0 . Der kritische Bereich K = (z1−α , ∞) besitzt unter H0 die durch die graue Fl¨ ache dargestellte Wahrscheinlichkeitsmasse α.
und daraus die Realisierung t = T (x1 , . . . , xn ) der Testgr¨oße T (X) ermittelt t=
x ¯ − μ0 √ n. σ0
7. Testentscheidung: Liegt die Testgr¨ oße innerhalb des kritischen Bereichs, so muss die Nullhypothese verworfen werden. Daraus folgt: Fall (a) (b) (c)
H0 μ = μ0 μ ≥ μ0 μ ≤ μ0
H1 μ =
μ0 μ < μ0 μ > μ0
Lehne H0 ab, wenn |t| > z1−α/2 t < zα t > z1−α
Beispiel 11.3.1. Eine große Firma liefert tiefgefrorene Torten an Superm¨arkte. Die (in kg gemessene) Masse X der Torten sei dabei normalverteilt. Das angegebene Verkaufsgewicht und damit die geforderte Mindestmasse sei μ = 2 kg. Die Varianz σ02 = 0.12 sei aus Erfahrung bekannt. Bei einer Stichprobe vom Umfang n = 20 Torten und einem durchschnittlichen Gewicht von x ¯ = 1.97 kg soll u uft werden, ob das Stichprobenergebnis gegen die ¨berpr¨ Hypothese H0 : μ ≥ μ0 = 2 kg spricht. Mit α = 0.05 und z1−α = 1.64 folgt f¨ ur die Realisierung der Testgr¨ oße: t=
x ¯ − μ0 √ 1.97 − 2 √ 20 = −1.34. n= σ0 0.1
Das heißt, die Nullhypothese, dass das Gewicht der Torten bei mindestens zwei kg liegt, wird nicht abgelehnt, da t = −1.34 > −1.64 = −z1−0.05 = z0.05 . Interpretation: Die in der Stichprobe beobachtete mittlere Masse x ¯ = 1.97 kg liegt zwar unter dem Sollwert von μ = 2 kg. Dieses Ergebnis widerspricht aber nicht der Hypothese, dass die Stichprobe aus einer N (2, 0.12 )-verteilten Grundgesamtheit stammt. Die Wahrscheinlichkeit, in einer Stichprobe vom Umfang n = 20 einer N (2, 0.12 )-verteilten Grundgesamtheit einen Mittelwert von h¨ ochstens 1.97 zu erhalten, ist gr¨ oßer als 0.05. Das beobachtete Ergebnis
11.3 Einstichprobenprobleme
215
spricht damit nicht gegen die Nullhypothese. Die Abweichung zwischen x ¯= 1.97 kg und dem Sollwert von μ = 2 kg ist als statistisch nicht signifikant und damit als zuf¨ allig anzusehen. 11.3.2 Pr¨ ufung des Mittelwertes bei unbekannter Varianz (einfacher t-Test) Testaufbau Wir wollen Hypothesen u ur eine normalverteilte Zufallsvariable X ∼ ¨ber μ f¨ ufen, in dem auch die Varianz σ 2 unbekannt ist. Die N (μ, σ 2 ) in dem Fall pr¨ Testverfahren laufen analog zum vorangegangenen Abschnitt ab, allerdings ist eine andere Testgr¨ oße zu benutzen, n¨ amlich T (X) =
¯ − μ0 √ X n, SX
die unter H0 eine t-Verteilung mit n − 1 Freiheitsgraden besitzt. Dabei ist 1 ¯ 2. (Xi − X) n − 1 i=1 n
2 SX =
Kritischer Bereich Folgende Tabelle veranschaulicht die kritischen Bereiche f¨ ur die entsprechenden F¨ alle: Fall (a) (b) (c)
H0 μ = μ0 μ ≥ μ0 μ ≤ μ0
H1 μ =
μ0 μ < μ0 μ > μ0
Kritischer Bereich K K = (−∞, −tn−1;1−α/2 ) ∪ (tn−1;1−α/2 , ∞) K = (−∞, −tn−1;1−α ) K = (tn−1;1−α , ∞)
Testentscheidung Wir verwerfen die Nullhypothese, wenn die Testgr¨oße innerhalb des kritischen Bereichs liegt. Daraus folgt: Fall (a) (b) (c)
H0 μ = μ0 μ ≥ μ0 μ ≤ μ0
H1 μ =
μ0 μ < μ0 μ > μ0
Lehne H0 ab, wenn |t| > tn−1;1−α/2 t < −tn−1;1−α t > tn−1;1−α
Beispiel 11.3.2. Wir betrachten erneut Beispiel 11.3.1. Aufgrund eines neuen Herstellungsverfahrens sei die Varianz der Torten diesmal jedoch unbekannt. Es liegt eine zuf¨ allige Stichprobe vom Umfang n = 20 mit dem Stichprobenmittelwert x ¯ = 1.9668 und der Stichprobenvarianz s2 = 0.09272 vor. Wir
216
11. Pr¨ ufen statistischer Hypothesen
pr¨ ufen nun, ob dieses Stichprobenergebnis gegen die Hypothese H0 : μ = 2 spricht. Die Irrtumswahrscheinlichkeit wird wieder mit α = 0.05 vorgegeben. √ ¯ 0 F¨ ur die Realisierung t der Testgr¨ oße T (X) = X−μ n ergibt sich der Wert SX t=
1.9668 − 2 √ 20 = −1.60 . 0.0927
H0 wird nicht abgelehnt (zweiseitige Fragestellung), da |t| = 1.60 < 2.09 = t19;0.975 ist (vgl. Tabelle A.3).
11.4 Zweistichprobenprobleme 11.4.1 Pr¨ ufen der Gleichheit der Varianzen (F-Test) Wir betrachten die beiden Variablen X und Y mit 2 X ∼ N (μX , σX ),
Y ∼ N (μY , σY2 ) . Um sie hinsichtlich ihrer Variabilit¨ at zu testen betrachten wir die beiden Hypothesen: 2 H0 : σ X = σY2
H0 :
2 σX
≤
σY2
gegen
2 H1 : σX
= σY2 ,
zweiseitig
gegen
2 H1 : σX > σY2 ,
einseitig.
Testgr¨ oße Wir setzen eine Stichprobe (X1 , . . . , Xn1 ) vom Umfang n1 und eine (davon unabh¨ angige) Stichprobe (Y1 , . . . , Yn2 ) vom Umfang n2 voraus. Die Testgr¨oße ist der Quotient der beiden Stichprobenvarianzen T (X, Y) =
2 SX , SY2
(11.1)
der unter der Nullhypothese F -verteilt mit n1 − 1 und n2 − 1 Freiheitsgraden ist. Kritischer Bereich 2 Zweiseitige Fragestellung. F¨ ur die zweiseitige Fragestellung H0 : σX = 2
= σY2 gilt: Wenn die Nullhypothese wahr ist, die beiden σY2 gegen H1 : σX Varianzen also gleich groß sind, m¨ usste die Testgr¨oße (11.1) Werte um 1 annehmen. Damit sprechen sehr kleine und sehr große Werte der Testgr¨oße f¨ ur
11.4 Zweistichprobenprobleme
217
eine Ablehnung der Nullhypothese. Der kritische Bereich K = [0, k1 )∪(k2 , ∞) ergibt sich also aus den Beziehungen P (T (X, Y) < k1 |H0 ) = α/2 P (T (X, Y) > k2 |H0 ) = α/2 . Es ergeben sich die Werte k1 = fn1 −1,n2 −1,α/2 , k2 = fn1 −1,n2 −1,1−α/2 . Anmerkung. Das untere Quantil k1 kann durch folgende Beziehung aus Tabellen abgelesen werden, die meist nur die ‘1 − α2 ’-Werte angeben: fn1 −1;n2 −1;α/2 =
1 . fn2 −1;n1 −1;1−α/2
2 Einseitige Fragestellung. Bei einseitiger Fragestellung H0 : σX ≤ σY2 ge2 2 gen H1 : σX > σY besteht der kritische Bereich K aus großen Werten von 2 im Z¨ ahler von T ), d. h., K = (k, ∞), wobei k aus T (X) (SX
P (T (X, Y) > k|H0 ) = α bestimmt wird. Hier ergibt sich k = fn1 −1;n2 −1;1−α . Anmerkung. Bei einseitiger Fragestellung kann darauf verzichtet werden, die 2 2 Richtung H0 : σX ≥ σY2 gegen H1 : σX < σY2 gesondert zu betrachten, da dies 2 ≥ σY2 entspricht genau σY2 ≤ vollkommen symmetrisch zu behandeln ist: σX 2 ussen nur die Variablen-Bezeichnungen X und Y vertauscht σX , d. h. es m¨ werden. Realisierung der Testgr¨ oße Aus den konkreten Stichproben berechnen wir die Stichprobenvarianzen 1 1 (xi − x ¯)2 , n1 − 1 i=1
n
s2x =
2 1 (yi − y¯)2 n2 − 1 i=1
n
s2y =
und daraus die Realisierung der Testgr¨ oße: t=
s2x . s2y
(11.2)
218
11. Pr¨ ufen statistischer Hypothesen
Entscheidungsregel Damit folgt f¨ ur die Testentscheidung: Fall (a) (b)
H0 σX = σY σX ≤ σY
H1 σX =
σY σ X > σY
Lehne H0 ab, wenn t > fn1 −1;n2 −1;1−α/2 o. t < fn1 −1;n2 −1;α/2 t > fn1 −1;n2 −1;1−α
Anmerkung. Ebenso wie im vorherigen Abschnitt wird davon ausgegangen, dass die in der Praxis relevante Situation unbekannter Erwartungswerte μX und μy vorliegt. Sind diese bekannt, so werden sie bei der Ermittlung von s2X und s2Y verwendet, was wiederum eine Erh¨ohung der Freiheitsgrade von n1 − 1 auf n1 bzw. n2 − 1 auf n2 bewirkt. Die zus¨atzliche Information erh¨oht die G¨ ute des Tests. Beispiel 11.4.1. Ein Unternehmer verkauft Katzenfutter in Dosen. Nachdem die Kapazit¨ at seiner einzigen Maschine nicht mehr ausreicht, beschließt er eine zweite zu kaufen. Die F¨ ullgewichte der Dosen X (alte Maschine) und Y 2 (neue Maschine) seien normalverteilte Zufallsvariablen X ∼ N (μX , σX ), Y ∼ 2 N (μY , σY ). Die beiden Maschinen arbeiten unabh¨angig voneinander, weshalb X und Y als unabh¨ angig angenommen werden k¨onnen. Es soll u uft ¨berpr¨ werden, ob die neue Maschine mit gleicher Genauigkeit abf¨ ullt wie die alte 2 = σY2 beibehalten werden kann), also ob beide Maschinen (also ob H0 : σX gleich zuverl¨ assig sind. Die Ergebnisse einer daf¨ ur gemachten Stichprobe sind in der folgenden Tabelle zusammengefasst: Stichprobe X Y
n 20 25
x ¯ 1000.49 1000.26
s2x 72.38 45.42
Mit α = 0.1 und den Hypothesen 2 = σY2 H0 : σ X
gegen
2 H1 : σ X
= σY2
ergibt sich f19;24;0.95 = 2.11 (vgl. Tabelle A.5., lineare Interpolation von 1 1 = 2.11 = f19;20;0.95 =2.1370 und f19;30;0.95 =1.9452) und f19;24;0.05 = f19;24;0.95 0.47. F¨ ur die Testgr¨ oße T (X, Y) =
2 SX 2 SY
ergibt sich der Wert
72.38 = 1.59 . 45.42 Damit wird H0 nicht abgelehnt, da 0.47 ≤ t ≤ 2.11. t=
11.4 Zweistichprobenprobleme
219
11.4.2 Pr¨ ufen der Gleichheit der Mittelwerte zweier unabh¨ angiger normalverteilter Zufallsvariablen 2 Wir betrachten zwei normalverteilte Variablen X ∼ N (μX , σX ) und Y ∼ 2 N (μY , σY ). Von Interesse sind folgende Tests:
Fall (a) (b) (c)
Nullhypothese μX = μY μX ≥ μY μX ≤ μY
Alternativhypothese μX = μY μX < μY μX > μY
zweiseitiges Testproblem einseitiges Testproblem einseitiges Testproblem
Dabei unterscheiden wir folgende drei F¨ alle: 2 , σY2 bekannt 1. σX 2 2. σX , σY2 unbekannt, aber gleich 2
= σY2 , beide unbekannt 3. σX
Im Folgenden werden wir alle drei F¨ alle betrachten. Da die Vorgehensweise aller Tests jedoch sehr ¨ ahnlich ist und nach dem gleichen Schema wie im Einstichprobenfall abl¨ auft werden wir nur ein Beispiel betrachten. Wir setzen immer voraus, dass zwei unabh¨ angige Stichproben vorliegen. Fall 1: Die Varianzen sind bekannt (doppelter Gauss-Test) Trifft die Nullhypothese H0 : μX = μY zu, so ist die Pr¨ ufgr¨oße T (X, Y) =
¯ − Y¯ X 2 n1 σX
+
n2 σY2
√
n1 · n2
(11.3)
standardnormalverteilt, T (X, Y) ∼ N (0, 1). Der Test verl¨auft dann analog zum einfachen Gauss-Test (Abschnitt 11.3.1). Fall 2: Die Varianzen sind unbekannt, aber gleich (doppelter t-Test) Wir bezeichnen die unbekannte Varianz beider Verteilungen mit σ 2 . Die gemeinsame Varianz wird durch die sogenannte gepoolte Stichprobenvarianz gesch¨ atzt, die beide Stichproben mit einem Gewicht relativ zu ihrer Gr¨oße verwendet: 2 + (n2 − 1)SY2 (n1 − 1)SX . (11.4) S2 = n1 + n2 − 2 Die Pr¨ ufgr¨ oße
¯ − Y¯ n1 · n2 X T (X, Y) = S n1 + n2
(11.5)
mit S aus (11.4) besitzt unter H0 eine Student’sche t-Verteilung mit n1 +n2 −2 Freiheitsgraden. Das Testverfahren l¨ auft wie in Abschnitt 11.3.2.
220
11. Pr¨ ufen statistischer Hypothesen
Fall 3: Die Varianzen sind unbekannt und ungleich (Welch-Test) Wir pr¨ ufen H0 : μX = μY gegen die Alternative H1 : μX = μY f¨ ur den Fall 2
= σY2 . Dies ist das sogenannte Behrens-Fisher-Problem, f¨ ur das es keine σX exakte L¨ osung gibt. F¨ ur praktische Zwecke wird als N¨aherungsl¨osung folgende Testgr¨ oße empfohlen: ¯ − Y¯ X T (X, Y) = 2 , (11.6) 2 SX SY + n1 n2 die t-verteilt ist mit ann¨ ahernd v Freiheitsgraden (v wird ganzzahlig aufgerundet): 2
2 2 2 sy /n2 s2y s2x /n1 s2x + . (11.7) + / v= n1 n2 n1 − 1 n2 − 1 Der Test verl¨ auft dann wie in Abschnitt 11.3.2. Beispiel 11.4.2. Ein B¨ acker verkauft zur Weihnachtszeit Pl¨atzchen in 500gPackungen an seine Kunden. Dabei werden die Pl¨atzchen im Wechsel an einem Tag von ihm und am anderen Tag von seiner Frau abgepackt. Mit der Zeit monieren jedoch viele Kunden, dass die Frau großz¨ ugiger abpackt als der Mann. Ein Kunde, der jeden Tag penibel das F¨ ullgewicht nachgewogen hat, notiert sich folgende Daten: F¨ ullgewicht Frau (X) F¨ ullgewicht Mann (Y)
512 499
530 500
498 510
540 495
521 515
528 503
505 490
523 511
Wir m¨ ochten nun testen, ob der Vorwurf des Kunden stimmt und stellen folgende Hypothesen auf: H0 : μx = μy
gegen
H1 : μx = μy .
Da uns die Varianzen unbekannt sind und wir nicht annehmen k¨onnen, dass beide Personen mit gleicher Varianz abpacken, liegt Fall 3 vor. Wir berechnen ¯ = 519.625, Y¯ = 502.875, s2 = 192.268 und s2 = 73.554. Leicht l¨asst sich X X Y die Testgr¨ oße berechnen: ¯ − Y¯ X |519.625 − 502.875| = ≈ 2.91 T (X, Y) = 2 2 SX SY 192.268 73.554 + + 8 8 n n 1
2
F¨ ur die Freiheitsgrade folgt: 2 2 2 192.268 73.554 (73.554/8) (192.268/8) + + ≈ 11.67 ≈ 12 . / v= 8 8 7 7 Da |T | = 2.91 > 2.18 = t12;0.975 , folgt, dass die Nullhypothese gleicher F¨ ullgewichte verworfen werden muss. Die B¨ ackersfrau scheint tats¨achlich großz¨ ugiger abzupacken.
11.4 Zweistichprobenprobleme
221
11.4.3 Pr¨ ufen der Gleichheit der Mittelwerte aus einer verbundenen Stichprobe (paired t-Test) Wie oben betrachten wir wieder zwei stetige Zufallsvariablen X mit E(X) = μX und Y mit E(Y ) = μY . Die Annahme der Unabh¨angigkeit der beiden Variablen wird nun aufgegeben, die beiden Variablen werden als abh¨angig angenommen. Diese Abh¨ angigkeit kann in der Praxis beispielsweise dadurch entstehen, dass an einem Objekt zwei Merkmale gleichzeitig beobachtet werden oder ein Merkmal an einem Objekt zu verschiedenen Zeitpunkten beobachtet wird (Gewicht einer Person vor und nach einer Di¨at). Man spricht dann von einer gepaarten oder verbundenen Stichprobe. Da beide Zufallsvariablen zum selben Objekt geh¨oren ergibt das Bilden einer Differenz einen Sinn. Mit D = X − Y bezeichnen wir die Zufallsvariable Differenz von X und Y “. Unter H0 : μX = μY ist die erwartete Differenz ” gleich Null, es gilt E(D) = μD = 0. Wir setzen voraus, dass D unter H0 : 2 ) gilt. μX = μY bzw. H0 : μD = 0 normalverteilt ist, d. h., dass D ∼ N (0, σD Es liege eine Stichprobe (D1 , . . . , Dn ) vor. Dann ist T (X, Y) = T (D) =
¯ √ D n SD
(11.8)
t-verteilt mit n − 1 Freiheitsgraden. Dabei ist n ¯ 2 (Di − D) 2 SD = i=1 n−1 2 . Der Test der zweiseitigen Fragestellung H0 : μD = 0 eine Sch¨ atzung f¨ ur σD gegen die Alternative H1 : μD = 0 bzw. der einseitigen Fragestellungen H0 : μD ≤ 0 gegen H1 : μD > 0 oder H0 : μD ≥ 0 gegen H1 : μD < 0 erfolgt analog zu Abschnitt 11.3.2.
Anmerkung. Im Vergleich zum Verfahren aus Abschnitt 11.3.2 zum Pr¨ ufen der Mittelwerte zweier unabh¨ angiger Normalverteilungen sind beim Test auf gleichen Mittelwert verbundener Stichproben die Voraussetzungen weitaus schw¨ acher. Gefordert wird, dass die Differenz beider Zufallsvariablen normalverteilt ist, die beiden stetigen Variablen selbst m¨ ussen also nicht notwendig normalverteilt sein. Beispiel 11.4.3. In einem Versuch soll die leistungssteigernde Wirkung von Koffein gepr¨ uft werden. Mit Y bzw. X bezeichnen wir die Zufallsvariablen Punktwert vor bzw. nach dem Trinken von starkem Kaffee“, die an n = 10 ” Studenten gemessen wurden. Da die leistungssteigernde Wirkung jeweils an denselben Personen getestet wurde, haben wir eine verbundene Stichprobe. Wir haben folgende Daten:
222
11. Pr¨ ufen statistischer Hypothesen
i 1 2 3 4 5 6 7 8 9 10
yi 4 3 5 6 7 6 4 7 6 2
xi 5 4 6 7 8 7 5 8 5 5
di = xi − yi 1 1 1 1 1 1 1 1 -1 3 10
¯2 (di − d) 0 0 0 0 0 0 0 0 4 4 8
Damit lassen sich die folgenden Daten berechnen: d¯ = 1
bzw. s2d =
8 = 0.9432 . 9
Es ergibt sich f¨ ur die Pr¨ ufgr¨ oße t bei α = 0.05 t=
1 √ 10 = 3.35 > t9;0.95 = 1.83 , 0.943
so dass H0 : μX ≤ μY zugunsten von H1 : μX > μY abgelehnt wird. Die Leistungen nach dem Genuss von Kaffee sind signifikant besser.
11.5 Pru ¨ fen von Hypothesen u ¨ ber Binomialverteilungen 11.5.1 Pr¨ ufen der Wahrscheinlichkeit f¨ ur das Auftreten eines Ereignisses (Binomialtest f¨ ur p) Wir betrachten eine Zufallsvariable X mit zwei Auspr¨agungen 1 und 0, die f¨ ur das Eintreten bzw. Nichteintreten eines Ereignisses A stehen. Die Wahrscheinlichkeit f¨ ur das Eintreten von A in der Grundgesamtheit sei p. Aus einer angigen B(1; p)-verteilten ZufallsvaStichprobe X = (X1 , . . . , Xn ) von unabh¨ n riablen Xi bilden wir die erwartungstreue Sch¨atzfunktion pˆ = n1 i=1 Xi (relative H¨ aufigkeit). Folgende Hypothesen interessieren uns: Fall (a) (b) (c)
Nullhypothese p = p0 p ≥ p0 p ≤ p0
Alternativhypothese p = p0 p < p0 p > p0
zweiseitiges Testproblem einseitiges Testproblem einseitiges Testproblem
Die standardisierte Testgr¨ oße ist: T (X) =
pˆ − p0 p0 (1 − p0 )
√
n.
(11.9)
11.5 Pr¨ ufen von Hypothesen u ¨ber Binomialverteilungen
223
F¨ ur hinreichend großes n (np(1 − p) ≥ 9) kann die Binomialverteilung durch die Normalverteilung approximiert werden, so dass dann approximativ T (X) ∼ N (0, 1) gilt. Der Test der Nullhypothese H0 : p = p0 verl¨auft damit wie in Abschnitt 11.3.1. F¨ ur kleine Stichproben ist die Testgr¨oße dagegen nicht mehr approximativ normalverteilt und das Testproblem wird auf eine andere Art gel¨ ost. Darauf m¨ ochten wir hier aber nicht genauer eingehen. Beispiel 11.5.1. Wir betrachten erneut Beispiel 10.2.3. Ein regelm¨aßiger B¨ uchereikunde ¨ außert gegen¨ uber den Mitarbeitern den Verdacht, dass mindestens die H¨ alfte der Kunden unzuverl¨ assig sind und Strafe zahlen m¨ ussen. F¨ ur das Testproblem ergibt sich also die Nullhypothese H0 : p ≥ 0.5 und die Alternativhypothese H1 : p < 0.5. Da np(1−p) = 100·0.39·0.61 = 23.79 ≥ 9 ist, k¨ onnen wir die approximativ normalverteilte Testgr¨oße berechnen: √ 0.39 − 0.5 √ pˆ − p0 n= 100 = −2.2 . T (X) = p0 (1 − p0 ) 0.5(1 − 0.5) Mit α = 0.05 folgt: T (X) = −2.2 < zα = −z1−α = −1.64. Gem¨aß Kapitel 11.3.1 folgt damit, dass die Nullhypothese p ≥ 0.5 verworfen werden muss. Damit ist H1 : p < 0.5 signifikant, d.h. der Anteil unzuverl¨assiger Kunden liegt unterhalb von 50%. 11.5.2 Pr¨ ufen der Gleichheit zweier Binomialwahrscheinlichkeiten Wir betrachten wieder das obige Zufallsexperiment, jedoch nun als Zweistichprobenproblem mit zwei unabh¨ angigen Stichproben X = (X1 , . . . , Xn1 ), Xi ∼ B(1; p1 ) Y = (Y1 , . . . , Yn2 ), Yi ∼ B(1; p2 ) . Wir erhalten dann f¨ ur die Summen: X=
n1
Xi ∼ B(n1 ; p1 ),
i=1
Y =
n2
Yi ∼ B(n2 ; p2 ) .
i=1
Folgende Hypothesen sind f¨ ur uns von Interesse: Fall (a) (b) (c)
Nullhypothese p1 = p2 p1 ≥ p2 p1 ≤ p2
Alternativhypothese p1 = p2 p1 < p2 p1 > p2
zweiseitiges Testproblem einseitiges Testproblem einseitiges Testproblem
Um zu testen ob von einer Gleichheit der beiden Binomialwahrscheinlichur keiten ausgegangen werden kann, bilden wir die Differenz D = nX1 − nY2 . F¨ hinreichend großes n1 und n2 sind nX1 und nY2 n¨aherungsweise normalverteilt:
224
11. Pr¨ ufen statistischer Hypothesen
X n1 Y n2
approx.
∼
approx.
∼
so dass unter H0 D
approx.
∼
N
p1 (1 − p1 ) N p1 , , n1 p2 (1 − p2 ) N p2 , , n2
1 1 0, p(1 − p) + n1 n2
gilt. Die unter H0 in beiden Verteilungen identische Wahrscheinlichkeit p wird durch die Sch¨ atzfunktion X +Y pˆ = (11.10) n1 + n2 gesch¨ atzt. Dann erhalten wir folgende Teststatistik T (X, Y) =
D pˆ(1 − pˆ) n11 +
1 n2
,
(11.11)
die f¨ ur große n1 , n2 n¨ aherungsweise N (0, 1)-verteilt ist. Der Test f¨ ur die einund zweiseitigen Fragestellungen verl¨ auft wie im Abschnitt 11.3.1. Beispiel 11.5.2. Zwei große konkurrierende Losbuden auf dem Rummel werben beide damit, dass bei ihnen jedes vierte Los gewinnt (also dass p1 = p2 = 0.25). Eine Gruppe von Rummelbesuchern notiert sich folgende Werte nach dem Kaufen einiger Lose: n 63 45
Losbude A Losbude B
Anzahl Gewinne 14 13
Anzahl Nieten 49 32
Wir m¨ ochten nun testen, ob das Auftreten von Gewinnerlosen in beiden Losbuden gleich groß ist. Daf¨ ur ermitteln wir die folgenden Werte: 14 13 1 , pˆB = , d = pˆA − pˆB = − . 63 45 15 F¨ ur die Sch¨ atzung der unter H0 in beiden Verteilungen identischen Wahrscheinlichkeit p ergibt sich gem¨ aß (11.10) der Wert pˆA =
pˆ =
14 + 13 27 = = 0.25 . 63 + 45 108
Nun k¨ onnen wir die Testgr¨ oße berechnen: t=
1 − 15
0.25(1 − 0.25)
1 63
+
1 45
= −0.79.
H0 wird nicht abgelehnt, da |t| = 0.79 < 1.96 = z1−0.05/2 . Man kann also davon ausgehen, dass sich die beiden Losbuden nicht in ihrer Gewinnwahrscheinlichkeit unterscheiden.
11.7 Weitere Hinweise
225
11.6 Testentscheidung mit p–values Beim Einsatz von Statistiksoftware wie SPSS zum Pr¨ ufen von Hypothesen werden unsere u blichen Schritte – insbesondere die Konstruktion des kriti¨ schen Bereichs K – nicht angezeigt. Statt dessen wird der konkrete Wert t = T (x1 , . . . , xn ) der Teststatistik T (X) und der zugeh¨orige p-value ausgegeben. Der p-value der Teststatistik T (X) ist wie folgt definiert: zweiseitige Fragestellung: Pθ0 (|T (X)| > t)) = p–value einseitige Fragestellung: Pθ0 (T (X) > t)) = p–value bzw. Pθ0 (T (X) < t)) = p–value Die Testentscheidung lautet dann: H0 ablehnen, falls der p-value kleiner oder gleich dem vorgegebenem Signifikanzniveau α ist, ansonsten H0 nicht ablehnen. SPSS nennt den p-value Signifikanz.
11.7 Weitere Hinweise Merke:
Eine Auswahl an parametrischen Tests, geeignet f¨ ur stetige Variablen: Mittelwert ≥ 2 Stp. HH HH HH j t-Test, ANOVA1 Gauss-Test 1 Stp.
1 Stp.
Varianz HH
χ2 -Test1
2 Stp.
HH j H
F-Test
HH 2 Stp., abh. H j H doppelter Gauss-Test, paired t-Test doppelter t-Test, Welch-Test 2 Stp., unabh.
1
siehe Toutenburg und Heumann (2008), Induktive Statistik
226
11. Pr¨ ufen statistischer Hypothesen
Merke:
Zum Testen von Hypothesen bez¨ uglich einer Auftretenswahrscheinlichkeit verwendet man den Binomialtest (Kapitel 11.5.1). Beim Vergleich der Auftretenswahrscheinlichkeiten zweier unabh¨ angiger Stichproben kann der approximative Binomialtest (Kapitel 11.5.2) oder der Test von Fischer verwendet werden, bei abh¨ angigen Stichproben der Test von McNemar, siehe auch Toutenburg und Heumann (2008), Induktive Statistik. ¨ Eine Ubersicht f¨ ur eine Auswahl nonparametrischer Tests befindet sich in Kapitel 12
11.8 Aufgaben Aufgabe 11.1: In einem verregneten Land betr¨agt die Regenwahrscheinlichkeit in den Herbstmonaten 50%. Jeden Morgen im Herbst fragt sich Susi, ob sie einen Regenschirm mitnehmen soll oder nicht. Um zu einer Entscheidung zu kommen, wirft sie eine faire M¨ unze. Wirft sie Kopf, nimmt sie einen Regenschirm mit, ansonsten l¨asst sie den Schirm zu Hause. a) Betrachten Sie die Situation wie einen statistischen Test. Wie m¨ ussen die Hypothesen gew¨ ahlt werden, damit der Fehler 1.Art die schlimmere Auswirkung darstellt? b) Bestimmen Sie die Wahrscheinlichkeit f¨ ur den Fehler 1. Art. L¨ osung: a) Susis Testproblem ist die Entscheidung, ob es an einem Tag regnet oder nicht. Sie entscheidet sich daf¨ ur, dass es regnet, wenn sie Kopf mit ihrer M¨ unze wirft und nimmt dann ihren Regenschirm mit. Folgende Auswirkungen k¨ onnen auftreten. Entscheidung/Realit¨ at Schirm keinen Schirm
Regen trocken nass
kein Regen Schirm umsonst mitgenommen trocken
Die beiden m¨ oglichen Fehler sind einerseits, dass sie den Schirm umsonst mitgenommen hat und andererseits, dass sie nass wird. Der 2. Fehler hat die f¨ ur sie schlimmere Auswirkung. Vom Fehler 1. Art spricht man, wenn die Nullhypothese abgelehnt wird, obwohl sie richtig ist. Damit der Fehler 1. Art die obige Auswirkung hat, m¨ ussen die Hypothesen wie folgt gew¨ahlt werden: H0 : Regenschirm mitnehmen und H1 : Regenschirm nicht mitnehmen
11.8 Aufgaben
227
Realität
0.5
0.5
Kein Regen
Regen Entscheidung
0.5
0.5
0.5
H0
H1
0.5
H1
H0
Abb. 11.3. Baumdiagramm
b) Der Wert α = P (H0 ablehnen|H0 richtig) ist die Wahrscheinlichkeit f¨ ur den Fehler 1. Art. Betrachten wir alle F¨ alle in einem Baumdiagramm. Die Wahrscheinlichkeiten entlang der ¨ aste werden multipliziert. Somit erh¨ alt man α = P (H0 ablehnen|H0 richtig) = 12 · 12 = 14 . Aufgabe 11.2: Zwei Personen, A und B, werden einer gemeinsam begangenen Straftat verd¨ achtigt. Die beiden werden getrennt voneinander verh¨ort. Das Strafmaß ist auf 2 Jahre festgelegt, sollte einer der Verd¨achtigen gestehen. Sollte der andere dann nicht gestehen so erh¨ alt er 5 Jahre Haft. Schweigen beide, so m¨ ussen sie aus Mangel an Beweisen freigesprochen werden. A formuliert folgende Hypothesen: H0 : B schweigt
gegen
H1 : B gesteht
Er w¨ ahlt folgende Entscheidungsregel: Wenn er H0 f¨ ur richtig h¨ alt, schweigt er, anderenfalls gesteht er. Erl¨ autern Sie anhand dieses Beispiels, was man unter den Fehlern 1. und 2. Art versteht und welche Konsequenzen diese Fehler haben.
228
11. Pr¨ ufen statistischer Hypothesen
L¨ osung: Der Fehler 1. Art tritt in diesem Beispiel auf, wenn A gesteht, obwohl B schweigt, d.h. A lehnt H0 ab obwohl H0 richtig ist. Die Konsequenz ist, dass A 2 Jahre Haft verb¨ ußt und B 5 Jahre. Einen Fehler 2. Art begeht A, wenn er schweigt, obwohl B gesteht, d.h. ur A die H0 wird nicht abgelehnt obwohl H1 richtig ist. Dieser Fehler hat f¨ schlimmere Konsequenz, er geht 5 Jahre ins Gef¨angnis w¨ahrend B nur 2 Jahre absitzen muss. Aufgabe 11.3: Ein Produzent von Schokolade vermutet Unregelm¨aßigkeiten in seiner Produktion. Zur Qualit¨ atskontrolle entnimmt er zuf¨allig 15 Tafeln und betrachtet das Gewicht in Gramm (X). Er erh¨alt folgende Daten. 96.40, 97.64, 98.48, 97.67, 100.11, 95.29, 99.80, 98.80, 100.53, 99.41, 97.64, 101.11, 93.43, 96.99, 97.92 Die Produktion ist so optimiert, dass die Standardabweichung vom mittleren Gewicht 2 g betr¨ agt. Der Hersteller sieht allerdings ein Problem beim mittleren Gewicht. Dieses sollte 100 g betragen. Es kann davon ausgegangen werden, dass das Gewicht normalverteilt ist. a) Formulieren Sie die Hypothesen f¨ ur einen zweiseitigen Test f¨ ur das mittlere Gewicht μ. b) Welchen Test w¨ urden Sie anwenden und warum? c) F¨ uhren Sie den von Ihnen gew¨ ahlten Test durch. Zu welcher Entscheidung kommt der Test (α = 0.05)? d) Wie m¨ ussten die Hypothesen lauten, wenn Sie zeigen wollen, dass das mittlere Gewicht unterhalb der 100 g liegt? e) F¨ uhren Sie diesen Test durch (α = 0.05). L¨ osung: a) F¨ ur den zweiseitigen Test werden folgende Hypothesen formuliert: H0 : μ = 100
gegen
H1 : μ = 100
b) Laut Aufgabenstellung darf von der Normalverteilung ausgegangen werden, desweiteren ist die Varianz durch σ 2 = 22 gegeben. Es handelt sich um ein Einstichprobenproblem, deshalb ist ein einfacher Gauss-Test durchzuf¨ uhren. c) F¨ ur die Testgr¨ oße wird das arithmetische Mittel aus den Daten berechnet, x ¯ = 98.08. Damit ergibt sich der Pr¨ ufgr¨oße √ als Realisierung √ −1.92 · 15 = · 15 = −3.72. t = 98.08−100 2 2
11.8 Aufgaben
229
H0 wird abgelehnt, falls |t| > z1− α2 , mit z1− α2 = 1.96. Da |t| = 3.72 deutlich gr¨ oßer ist als 1.96, kann H0 abgelehnt werden. Das mittlere Gewicht entspricht nicht den geforderten 100 g. d) Um zu zeigen, dass die 100 g unterschritten werden, muss ein einseitiger Test durchgef¨ uhrt werden. F¨ ur die Bildung der Hypothesen sollte beachtet werden, dass man das, was man zeigen will, in der Gegenhypothese formuliert. H0 : μ ≥ 100
gegen
H1 : μ < 100
e) F¨ ur den einseitigen Test ¨ andert sich die Pr¨ ufgr¨oße nicht, t = −3.72. Einzig der kritische Bereich und die Entscheidungsregel m¨ ussen ver¨andert werden. H0 wird jetzt abgelehnt, falls t < −z1−α . Das zugeh¨orige Quantil der ufgr¨oße liegt deutStandardnormalverteilung ist −z1−α = −1.64. Die Pr¨ lich unter diesem Wert, so dass H0 abgelehnt wird. Das mittlere Gewicht der Schokoladentafeln liegt signifikant unterhalb von 100 g. Aufgabe 11.4: Eine Stichprobe vom Umfang n = 12 aus einer normalverteilten Grundgesamtheit liefert folgende Maßzahlen der Lage und Variabilit¨at: x ¯ = 22.45, s2 = 27.31 a) Bestimmen Sie ein Konfidenzintervall zum Niveau α = 0.05. b) Testen Sie die Hypothese H0 : μ = 23 gegen H1 : μ = 23. c) Sehen Sie Zusammenh¨ ange zwischen dem Test und dem Konfidenzintervall? K¨ onnen Ihnen die Grenzen eines Konfidenzintervalls bei der Entscheidungsfindung bez¨ uglich zweiseitiger Testprobleme behilflich sein? L¨ osung: a) Die Varianz ist unbekannt, deshalb verwenden wir die t-Verteilung, t11,0.975 = 2.201. Die Grenzen des Konfidenzintervalls berechnen wir wie gehabt: 27.31 27.31 , 22.45 − 2.201 · ] [Iu , Io ] = [22.45 − 2.201 · 12 12 = [22.45 − 3.32, 22.45 + 3.32] = [19.22, 25.77] Somit u ¨berdeckt das Konfidenzintervall [19.22, 25.77] den Parameter μ mit einer Wahrscheinlichkeit von 95%. b) Die zu testenden Hypothesen lauten: H0 : μ = 23
gegen
H1 : μ = 23
230
11. Pr¨ ufen statistischer Hypothesen
Da die Varianz unbekannt ist und wir von einer normalverteilten Grundgesamtheit ausgehen, f¨ uhren wir den t-Test durch. Die Testgr¨oße ist t=
22.45 − 23 √ −0.55 x−μ √ · n= · 12 = · 3.464 = −0.364. s 5.23 5.23
Das kritische Quantil der t-Verteilung ist t11,0.975 = 2.201. Wir lehnen H0 ab, falls gilt |t| > t11,0.975 . Somit kann H0 nicht abgelehnt werden, 0.364 > 2.201. Wir k¨ onnen nicht ausschließen, dass der Erwartungswert der Grundgesamtheit 23 ist. c) Betrachten wir die Grenzen eines Konfidenzintervalls f¨ ur μ, wenn die Varianz unbekannt ist. Sie bedeuten, dass der unbekannte Parameter μ mit der Wahrscheinlichkeit 1 − α in den Grenzen des Intervalls liegt: ¯ + tn−1,1− α2 √sn ) = 1 − α. P (¯ x − tn−1,1− α2 √sn ≤ μ ≤ x Bei einem zweiseitigen Hypothesentest fragen wir, ob der Parameter μ der Grundgesamtheit einen bestimmten Wert μ0 hat. u ¨ber das Signifiur so kanzniveau α wird festgelegt, ab welcher Wahrscheinlichkeit wir H0 f¨ unwahrscheinlich halten, dass wir sie verwerfen w¨ urden. ur die realisierte Pr¨ ufgr¨oße Wir bleiben bei H0 , wenn f¨ √ 0 · n| ≤ tn−1,1− α2 ) = 1 − α P (| x¯−μ s gilt. Wenn wir den Betrag aufl¨ osen, erhalten wir √ 0 · n ≤ tn−1,1− α2 ) = 1 − α. P (−tn−1,1− α2 ≤ x¯−μ s Durch Umstellen ergibt sich dann das Intervall P (¯ x − tn−1,1− α2 √sn ≤ μ0 ≤ x ¯ + tn−1,1− α2 √sn ) = 1 − α. Der Annahmebereich des zweiseitigen Test entspricht also den Grenzen des Konfidenzintervalls. Damit k¨ onnen wir unsere Testentscheidung auch mit Hilfe eines Konfidenzintervalls f¨ allen. H0 wird abgelehnt, wenn der hypothetische Wert μ0 außerhalb der Grenzen einen (1 − α)-Konfidenzintervalls liegt. Aufgabe 11.5: Jupp beschließt das neue Album von Robbie Williams im Internet zu erwerben. Da er davon geh¨ ort hat, dass es in einem bekannten Internetauktionshaus immer gute Angebote gibt, m¨ochte er sich dort die CD ersteigern. Als er die Webseite betrachtet, f¨ allt ihm auf, dass man nicht nur bei Auktionen mitbieten, sondern auch Artikel sofort erwerben kann. Desweiteren r¨at ihm ein Kollege ebenfalls bei einem großen Internetbuchh¨andler nachzuschauen, da es dort auch g¨ unstig CDs zu erwerben gibt. Um bei dieser Angebotsvielfalt den u ¨berblick zu bewahren beschließt Jupp vorerst die Angebote zu vergleichen. Dazu betrachtet er am 11.01.2006 das
11.8 Aufgaben
231
Angebot des Internetbuchhandels, 14 Sofortkaufangebote und 14 Auktionen, die an diesem Tag auslaufen. Er notiert sich jeweils den Verkaufspreis inklusive der Versandkosten in Euro. Internetbuchh¨ andler: 16.95 Sofortkaufpreise: 18.19, 16.98, 19.97, 16.98, 18.19, 15.99, 13.79, 15.90, 15.90, 15.90, 15.90, 15.90, 19.97, 17.72 Auktionspreise: 10.50, 12.00, 9.54, 10.55, 11.99, 9.30, 10.59, 10.50, 10.01, 11.89, 11.03, 9.52, 15.49, 11.02 F¨ ur die jeweiligen Verkaufspreise darf im Folgenden die Normalverteilung unterstellt werden. Das Signifikanzniveau sei auf f¨ unf Prozent festgelegt. a) Berechnen Sie den mittleren Verkaufspreis, die Varianz, die Standardabweichung und den Variationskoeffizienten der Sofortk¨aufe sowie auch der Auktionen. b) Betrachten Sie den Boxplot der Sofortk¨ aufe und der Auktionen. c) Interpretieren Sie die deskriptiven Ergebnisse. Welche Hypothesen bez¨ uglich der Lage der Preise lassen sich ableiten? d) Testen Sie nun die erste Arbeitshypothese (mittlerer Sofortkaufpreis = 16.95 Euro). e) Testen Sie die zweite Arbeitshypothese (mittlerer Auktionspreis < 16.95 Euro). f) Betrachten Sie die dritte Hypothese (mittlerer Sofortkaufpreis > mittlerer Auktionspreis). F¨ uhren Sie unter der Annahme, dass beide Varianzen gleich sind, den geeigneten Test durch. g) Was raten Sie Jupp? L¨ osung: a) Wir berechnen zuerst Mittelwert, Varianz, Standardabweichung und den Variationskoeffizienten der Sofortkaufpreise wie auch der Auktionspreise. x ¯ s2 s v
Sofortkauf 16.949 2.949 1.717 0.101
Auktion 10.995 2.461 1.569 0.143
b) Die Boxplots werden erstellt. Hier gibt die horizontale Linie den Preis des Internetbuchh¨andlers an. c) Die Mittelwerte zeigen deutlich, dass man die CD am g¨ unstigsten bekommt, wenn man an einer Auktion teilnimmt. Die Varianzen unterscheiden sich etwas. Der Variationskoeffizient der Sofortkaufpreise deutet im
11. Pr¨ ufen statistischer Hypothesen
10
12
14
16
18
20
232
Sofortkauf
Auktion
Abb. 11.4. Vergleichende Boxplots
Vergleich zu den Auktionspreisen auf eine geringere Streuung in Bezug auf den mittleren Preis hin. Der Boxplot der Sofortkaufpreise zeigt ein symmetrisches Bild ohne Ausreißer. Der Preis des Internetbuchhandels liegt genau in der Mitte des Boxplots. Der Median ist etwas unterhalb dieses Preises. Die Auktionspreise sind etwas schief verteilt und haben einen Ausreißer. Sie liegen alle unterhalb des Preises des Buchh¨ andlers und, bis auf den Ausreißer, unterhalb der Sofortkaufpreise. Die folgenden Arbeitshypothesen (die Alternativhypothesen) bez¨ uglich der Lage k¨ onnen aus diesen Ergebnissen abgeleitet werden: • mittlerer Sofortkaufpreis = 16.95 Euro, • mittlerer Auktionspreis < 16.95 Euro, • mittlerer Sofortkaufpreis > mittlerer Auktionspreis. d) Die Normalverteilung darf unterstellt werden, die Varianz ist unbekannt. Aus diesem Grund wird der einfache t-Test zum Vergleich der Sofortkaufpreise mit dem Preis des Buchh¨ andlers verwendet: H0 : μS = 16.95
gegen
H1 : μS = 16.95 .
11.8 Aufgaben
233
F¨ ur die Berechnung der Teststatistik nutzen wir die Ergebnisse aus a). t=
16.949 − 16.95 √ · 14 = −0.002 . 1.717
F¨ ur den kritischen Bereich betrachten wir das 0.975-Quantil der t-Verteilung mit n−1 Freiheitsgraden und lehnen H0 ab, falls |t| > t13,0.975 = 2.16. Der Betrag der Teststatistik liegt deutlich unterhalb des kritischen Wertes, so dass H0 nicht abgelehnt wird. Es kann nicht ausgeschlossen werden, dass der mittlere Sofortkaufpreis dem Preis des Internethandels entspricht. e) Es werden folgende Hypothesen getestet: H0 : μA ≥ 16.95
gegen
H1 : μA < 16.95 .
Der Wert der Teststatistik ist t=
10.995 − 16.95 √ · 14 = −14.201. 1.569
Bei einseitigen Hypothesen dieser Art wird H0 abgelehnt, wenn t < −tn−1,0.95 = −1.77. Damit muss H0 abgelehnt werden. Der mittlere Auktionspreis liegt unter dem Festpreis des Internetbuchhandels. f) Es liegt ein Zweistichprobenproblem vor. Die Stichproben sind unabh¨angig, da das Merkmal ‘CD-Preis‘ an zwei unterschiedlichen Merkmalstr¨agern erhoben wurde: ‘Sofortkauf‘ und ‘Auktion‘. Die Varianzen sind unbekannt aber es wurde angenommen, dass sie gleich sind. Also wird der doppelte t-Test durchgef¨ uhrt. H0 : μS ≤ μA
gegen
H1 : μS > μA .
F¨ ur die Teststatistik wird zuerst die gepoolte Stichprobenvarianz berechnet. s2 =
(nS −1)s2S +(nA −1)s2A nS +nA −2
=
(14−1)2.949+(14−1)2.461 14+14−2
=
38.337+31.993 26
= 2.705
Damit kann die Testgr¨ oße berechnet werden. x ¯S − x ¯A nS · nA · t= s nS + nA √ 5.954 14 · 14 196 16.949 − 10.995 √ = · = 3.621 · 7 = 9.578 · = 14 + 14 1.645 28 2.705 Wir lehnen H0 ab, falls t > tnS +nA −1,0.95 . Das kritische Quantil ist t26,0.95 = 1.712 (mit Hilfe von SPSS bestimmt). Wer keine Statistiksoftware zur Hand hat, kann zwischen den Werten t20,0.95 und t30,0.95 interpolieren. H0 wird abgelehnt, die mittleren Sofortkaufpreise liegen signifikant u ¨ber den mittleren Auktionspreisen.
234
11. Pr¨ ufen statistischer Hypothesen
g) Die Auktionspreise sind am g¨ unstigsten. Allerdings beansprucht die Teilnahme an einer Auktion mehr Zeit. Man muss die Auktionen u ¨ber dem Auktionszeitraum beobachten, um im richtigen Moment bieten zu k¨onnen. Wenn man schnell die CD kaufen m¨ ochte, empfiehlt sich der Sofortkauf oder der Internetbuchhandel. Aufgabe 11.6: Betrachten Sie nochmal die CD-Preis Daten. a) Pr¨ ufen Sie ob die Varianzen bei dem Sofortkauf und bei den Auktionen gleich sind (α = 0.05). b) Ein Mittelwertsvergleich der Variablen Sofortkauf- und Auktionspreise in SPSS ergibt folgenden Output.
Welche Hypothesen werden getestet? Zu welcher Entscheidung kommen die Test? L¨ osung: a) Es wird der F-Test auf Gleichheit der Varianzen durchgef¨ uhrt. Dabei gehen wir weiterhin von der Normalverteilung aus. 2 H0 : σS2 = σA
gegen
2 H1 : σS2 = σA .
Die Pr¨ ufgr¨ oße T (XS , XA ) =
2 SS 2 SA
ist unter H0 F-verteilt mit nS − 1 und nA − 1 Freiheitsgraden. Mit den Ergebnissen der vorangegangenen Aufgabe erh¨alt man die Realisierung der Pr¨ ufgr¨ oße t=
2.949 = 1.198. 2.461
Der Wert weicht nur geringf¨ ugig von 1 ab. Betrachten wir die Quantile 1 der F-Verteilung, f13,13,0.975 = 3.115 und f13,13,0.025 = 3.115 = 0.321.
11.8 Aufgaben
235
H0 wird abgelehnt, falls t außerhalb dieser kritischen Werte liegt. Da 0.321 < 1.198 < 3.115 ist, kann H0 nicht abgelehnt werden. Die Gleichheit der Varianzen kann nicht verworfen werden. b) In den ersten beiden Spalten wird ein Levene-Test auf Varianzgleichheit durchgef¨ uhrt. Die Hypothesen sind analog zu denen aus a). F¨ ur die Entscheidung bez¨ uglich der Nullhypothese betrachten wir die Signifikanz und lehnen H0 ab, falls die Signifikanz kleiner als α ist. Die Signifikanz der Nullhypothese ist mit 50% gr¨ oßer als 5%, so dass H0 nicht abgelehnt wird. In den folgenden Spalten werden zwei Zweistichproben Tests durchgef¨ uhrt. SPSS ist in seiner Vorgehensweise etwas redundant, beim Mittelwertsvergleich von zwei Stichproben macht die Software den doppelten t-Test (obere Zeile) und den Welch-Test (untere Zeile). Der Levene-Test dient dabei als Entscheidungshilfe, welcher Test nun der richtige ist, da dies davon abh¨ angt, wie die Varianzen der beiden Stichproben zu einander stehen. Daran, dass im Output von zweiseitiger Signifikanz gesprochen wird, erkennt man, dass ein zweiseitiger Test durchgef¨ uhrt wurde. Die Hypothesen lauten also: H0 : μS = μA
gegen
H1 : μS = μA .
Die Varianzgleichheit wurde in a) und mit dem Levene-Test nicht abgelehnt, also ist die obere Zeile relevant. Man erkennt aber auch, dass im Fall der Varianzgleichheit die Ergebnisse des Welch-Tests sich kaum noch von den Ergebnissen des doppelten t-Tests unterscheiden. Ein Blick auf die Signifikanz l¨ asst uns auf das Ergebnis des Tests schließen. H0 wird abgelehnt, da die Signifikanz kleiner ist als 5%. Die mittleren Preise unterscheiden sich. Aufgabe 11.7: Um eine Vorstellung davon zu bekommen, wie gut der doppelte t-Test Unterschiede in den Erwartungswerten aufdecken kann, zieht ein Student 3 normalverteilte Zufallsstichproben mit Hilfe von SPSS. Als Basisgruppe (X) zieht er 20 Beobachtungen aus einer N (5, 22 )-verteilten Grundgesamtheit. F¨ ur die beiden anderen Stichproben bestimmt er jeweils eine Zufallsstichprobe vom Umfang n = 20 aus folgenden Verteilungen: Y1 ∼ N (4, 22 )
und
Y2 ∼ N (3.5, 22 )
Er erh¨ alt folgende empirische Maßzahlen der Lage und Variabilit¨at. • x ¯ = 4.97, s2x = 2.94, • y¯1 = 4.55, s2y1 = 2.46, • y¯2 = 3.27, s2y2 = 3.44. uglich der Lage untera) Testen Sie ob sich die Stichproben x und y1 bez¨ scheiden. b) Wiederholen Sie den Test mit x und y2 .
236
11. Pr¨ ufen statistischer Hypothesen
c) Vergleichen und interpretieren Sie Ihre Ergebnisse. L¨ osung: a) Wir stellen die Hypothesen auf: H0 : μX = μY 1
H1 : μX = μY 1 .
gegen
Die gepoolte Varianz ist s2 =
19·2.94+19·2.46 39
=
102.6 39
= 2.631.
Als Pr¨ ufgr¨ oße ergibt sich 4.97 − 4.55 t= · 1.622
0.42 √ 400 = · 10 = 0.8188. 40 1.622
H0 wird abgelehnt, wenn |t| > t39,0.975 = 2.02 (das Quantil mit 39 Freiheitsgraden unterscheidet sich kaum von dem mit 40 Freiheitsgraden) ist. H0 wird nicht abgelehnt. b) Die Hypothesen sind nun: H0 : μX = μY 2
gegen
H1 : μX = μY 2 .
Als gepoolte Varianz erhalten wir: s2 =
19·2.94+19·3.44 39
= 3.108.
Als Pr¨ ufgr¨ oße ergibt sich t=
4.97 − 3.27 √ · 10 = 3.049. 1.763
H0 wird abgelehnt. uglich der Lage c) Obwohl sich die Grundgesamtheiten bei X und Y1 bez¨ unterscheiden, schafft es der Test nicht, diesen Lageunterschied bei den gegebenen Stichproben aufzudecken. Beim Vergleich von X und Y2 , wo ein noch gr¨oßerer Lageunterschied herrscht, kann der Test diesen Unterschied aber aufdecken. Um wirklich zuverl¨ assige Aussagen u ute des Tests machen zu ¨ber die G¨ k¨ onnen, sollten die Stichprobenumf¨ ange erh¨oht und die Simulationen ¨ofter als einmal wiederholt werden. Dann kann man sch¨one Aussagen dar¨ uber erhalten, wie gross der Lageunterschied in den Grundgesamtheiten sein muss, bis der doppelte t-Test ihn feststellt. Eine Intuition liefert dieses Beispiel bereits.
11.8 Aufgaben
237
Aufgabe 11.8: Es soll untersucht werden, ob die mittlere Anzahl geschossener Tore in der Fußball-Bundesliga, gegliedert nach den zwei Halbzeiten, verschieden ist. Die folgende Tabelle gibt die gesamten Tore der 18 Vereine, aufgeteilt auf die beiden Halbzeiten der Saison 2004/2005 wieder. Team B. M¨ unchen Schalke 04 Werder Bremen Hertha Berlin Stuttgart Leverkusen Dortmund Hamburg Wolfsburg Hannover Mainz K’lautern Arminia Bielefeld N¨ urnberg M’gladbach Bochum Hansa Rostock Freiburg
1.Halbzeit 36 33 21 25 21 18 29 30 28 15 16 20 17 19 17 17 14 15
2.Halbzeit 38 24 47 35 31 48 20 27 22 20 35 22 22 35 20 30 19 15
Gehen Sie im Folgenden davon aus, dass die Torzahlen normalverteilte Zufallsvariablen sind und verwenden Sie wie gehabt 5% als Signifikanzniveau. F¨ uhren Sie den geeigneten Test durch. L¨ osung: Das Merkmal ’Anzahl der Tore’ wurde an den Objekten ’Vereine’ in verschiedenen Halbzeiten erhoben, deshalb spricht man hier von verbundenen Stichproben. Deshalb und weil von der Normalverteilung ausgegangen wird, sollte der paired t-Test verwendet werden. Es wird zweiseitig getestet. Sei X die geschossenen Tore in der ersten Halbzeit und Y die der zweiten H¨alfte. Wir testen die folgenden Hypothesen: H0 : μX = μY ⇔ μD = 0, H1 : μX = μY ⇔ μD = 0 . Erst m¨ ussen die Differenzen D = X − Y gebildet werden. -2 9 -26 -10 -10 -30 9 3 6 -5 -19 -2 -5 -16 -3 -13 -5 0 ¯ √ D F¨ ur die Pr¨ ufgr¨ oße T (D) = SD n wird noch die mittlere Differenz und die Standardabweichung ben¨ otigt. Das Vorgehen ist v¨ollig analog zum Einstichproben t-Test. Mit den deskriptiven Werten
238
11. Pr¨ ufen statistischer Hypothesen
d¯ = −6.611
und
sD = 11.046
ist t=
−6.611 √ · 18 = −2.447. 11.046
H0 wird abgelehnt, falls |t| > t17,0.975 = 2.1098. Also wird H0 abgelehnt. In den beiden Halbzeiten wurden u ¨ber die Saison 2004/2005 unterschiedlich viele Tore erzielt. Aufgabe 11.9: Ein Textilunternehmen stellt T-Shirts her. Beim Zuschnitt kommt es immer wieder zu Unregelm¨ aßigkeiten und es wird Ausschuss produziert. a) Das Controlling des Unternehmens mahnt an, dass bei mehr als 10% Ausschuss die T-Shirt-Produktion nicht mehr rentabel ist. Die Analyseabteilung des Unternehmens entnimmt zuf¨allig 230 T-Shirts einer Produktionslinie und stellt fest, dass 35 Shirts Ausschuss sind. Pr¨ ufen Sie, ob die T-Shirt-Produktion aufgrund der Stichprobe nicht mehr rentabel ist (α = 0.05). b) Ein Maschinenhersteller bietet dem Unternehmen eine neue Zuschnittmaschine an. Er gibt die Garantie, dass diese Maschine deutlich weniger Ausschuss produziert als die alte und nat¨ urlich auch weniger als 10%. Sollte dies nicht zutreffen, nimmt er die Maschine zur¨ uck. Die Maschine wird installiert und es werden 115 T-Shirts zuf¨allig entnommen, wovon 7 Ausschuss sind. Testen Sie die beiden Aussagen des Herstellers (α = 0.05). L¨ osung: a) Die Produktion ist nicht mehr rentabel, wenn der Ausschuss u ¨ber 10% ist: H0 : p ≤ 0.1
gegen
H0 : p > 0.1 .
35 Der Anteil Ausschuss in der Stichprobe betr¨agt pˆ = 230 = ist deutlich h¨ oher als 10%, ist er aber auch signifikant?
7 46 .
Der Wert
Die Binomialverteilung wird durch die Normalverteilung approximiert 1 9 · 10 > 9). Die Teststatistik (unter H0 ist p = 0.1, also ist np(1−p) = 230· 10 ergibt sich wie folgt: 7 1 √ √ 46 − 10 n= · 230 1 9 p0 (1 − p0 ) 10 · 10 4 √ 6 10 √ · · 230 = · 230 = 2.638 . = 115 3 23
t=
pˆ − p0
Ist t > z0.95 = 1.64, so wird H0 abgelehnt. Der Anteil Ausschuss ist h¨oher als 10% und damit ist die T-Shirt-Produktion nicht mehr rentabel.
11.8 Aufgaben
239
b) Vergleichen wir zuerst die Daten der beiden Maschinen. Laut Hersteller produziert seine Maschine weniger Ausschuss, also: H0 : pneu ≥ palt
gegen
H1 : pneu < palt .
Die Zufallsvariablen Xneu und Xalt sind f¨ ur große Stichproben approximativ normalverteilt. Es werden die n¨ otigen Gr¨oßen f¨ ur die Teststatistik berechnet: Xalt 7 7 21 neu d= X nneu − nalt = 115 − 46 = − 230 , Xneu +Xalt 7+35 42 14 pˆ = nneu +nalt = 230+115 = 345 = 115 .
Der Wert der Pr¨ ufgr¨ oße ist t= = √
d 1 pˆ(1 − pˆ)( nneu + 21 − 230
0.1069 · 0.013
1 nalt )
=−
=
21 − 230 14 115
·
101 1 115 ( 115
+
1 230 )
0.0913 = −2.448 . 0.0373
Zu kleine Werte von t sprechen gegen H0 , t < z0.05 = −z0.95 = −1.64. Damit wird H0 abgelehnt. Die neue Maschine produziert weniger Ausschuss als die alte. Weniger als 10% der Produktion mit der neuen Maschine soll Ausschuss sein. H0 : pneu ≥ 0.1
gegen
H1 : pneu < 0.1
Beobachtet wurde ein Ausschussanteil von pˆ =
7 115 .
Es ergibt sich 7 115 t=
−
1 10
·
9 10
1 10
=−
·
√
115
9 10 √ 3 √ · · 115 = − · 230 = −1.399 115 3 23
Dieser Wert ist kleiner als z0.05 = −1.64, so dass H0 abgelehnt wird. Weniger als 10% der Produktion mit der neuen Maschine ist Ausschuss. Aufgabe 11.10: Der Herausgeber der Zeitschrift ’Das Silberne Blatt’ m¨ochte wissen welcher Anteil seiner Leser regelm¨ aßig an den Gewinnspielen der Kreuzwortr¨ atsel teilnimmt. Der Sponsor der Gewinne erhofft sich einen Anteil von mindestens 20%. In einer Umfrage unter 738 Lesern antworteten 171, dass sie regelm¨ aßig an den Preisausschreiben teilnehmen w¨ urden. a) Testen Sie, ob die Hoffnungen des Sponsors best¨atigt werden k¨onnen (α = 0.05)!
240
11. Pr¨ ufen statistischer Hypothesen
Die Zeitschrift ’Familie aktuell’ bietet ebenfalls regelm¨aßig Kreuzwortr¨atselgewinnspiele an. Dort gaben unter 432 Lesern 76 an regelm¨aßig an den Preisausschreiben teilzunehmen. b) Testen Sie, ob von einem gleichen Teilnehmeranteil bei den Kreuzwortr¨ atseln der beiden Zeitschriften ’Das Silberne Blatt’ und ’Familie aktuell’ ausgegangen werden kann (α = 0.05)! L¨ osung: a) Wenn wir testen wollen, ob der Teilnehmeranteil bei mindestens 20% liegt, so m¨ ussen wir folgende Hypothesen aufstellen: H0 : p < p0 = 0.2
gegen
H1 : p ≥ p0 = 0.2.
Wir berechnen nun pˆ = 171 p(1 − pˆ) = 738 · 0.232 · 0.768 = 738 = 0.232. Da nˆ 131.49 ist, k¨ onnen wir die approximativ normalverteilte Testgr¨oße berechnen: t=
√ 0.232 − 0.2 √ n= √ 738 = 2.17 . 0.2 · 0.8 p0 (1 − p0 ) pˆ − p0
Da t = 2.17 > 1.64 = z1−α , m¨ ussen wir die Nullhypothese verwerfen. Der Sponsor kann tats¨ achlich von einem Teilnehmeranteil von mindestens 20% ausgehen. b) Zum Testen gleicher Teilnehmeranteile stellen wir zuerst Null- und Alternativhypothese auf: H0 : p 1 = p 2
gegen
H1 : p1 = p2 .
171 738
76 Wir kennen die Werte pˆ1 = = 0.232 und pˆ2 = 432 = 0.176 und damit ur die Sch¨atzung der unter H0 in d = pˆ1 − pˆ2 = 0.232 − 0.176 = 0.056. F¨ beiden Verteilungen identischen Wahrscheinlichkeit ergibt sich:
pˆ =
171 + 76 = 0.211 . 738 + 432
Nun k¨ onnen wir die Testgr¨ oße berechnen: t=
D pˆ(1 − pˆ) n11 +
1 n2
=
0.056 1 0.211 · 0.789 738 +
1 432
= 2.26 .
Da |t| = 2.26 > 1.96 = z0.975 , muss die Nullhypothese gleicher Teilnehmeranteile verworfen werden. Die Alternativhypothese ist statistisch signifikant.
12. Nichtparametrische Tests
12.1 Einleitung In die bisherigen Pr¨ ufverfahren des Kapitels 8 ging der Verteilungstyp der Stichprobenvariablen ein (z.B. normal- oder binomialverteilte Zufallsvariablen). Der Typ der Verteilung war also bekannt. Die zu pr¨ ufenden Hypothesen bezogen sich auf Parameter dieser Verteilung. Die f¨ ur Parameter bekannter Verteilungen konstruierten Pr¨ ufverfahren heißen parametrische Tests, da die Hypothesen Parameterwerte festlegen. So wird beim einfachen t-Test beiuft. M¨ochte man Lage- oder Streuspielsweise die Hypothese H0 : μ = 5 gepr¨ ungsalternativen bei stetigen Variablen pr¨ ufen, deren Verteilung nicht bekannt ist, so sind die im Folgenden dargestellten nichtparametrischen Tests zu verwenden.
12.2 Anpassungstests Der einfache t-Test pr¨ uft anhand einer Stichprobe ob beispielsweise der Erwartungswert einer (normalverteilten) Zufallsvariablen kleiner ist als der Erwartungswert einer (theoretischen) Zufallsvariablen mit anderem Erwartungswert. Kennt man nun den Verteilungstyp der der Stichprobe zugrunde liegenden Zufallsvariablen nicht, so kann man pr¨ ufen, ob diese Zufallsvariable von einer bestimmte Verteilung wie z.B. einer Normalverteilung abweicht. Es soll also untersucht werden, wie gut“ sich eine beobachtete Verteilung der ” hypothetischen Verteilung anpasst. Wie in Kapitel 11 beschrieben, ist es bei der Konstruktion des Tests notwendig, die Verteilung der Testgr¨ oße unter der Nullhypothese zu kennen. Daher sind alle Anpassungstests so aufgebaut, dass die eigentlich interessierende Hypothese als Nullhypothese und nicht – wie sonst u ¨blich – als Alternative formuliert wird. Deshalb kann mit einem Anpassungstest auch kein statistischer Nachweis gef¨ uhrt werden, dass ein bestimmter Verteilungstyp vorliegt, sondern es kann nur nachgewiesen werden, dass ein bestimmter Verteilungstyp nicht vorliegt.
242
12. Nichtparametrische Tests
12.2.1 Chi-Quadrat-Anpassungstest Testaufbau Der wohl bekannteste Anpassungstest ist der Chi-Quadrat-Anpassungstest. Die Teststatistik wird so konstruiert, dass sie die Abweichungen der unter H0 erwarteten von den tats¨ achlich beobachteten absoluten H¨aufigkeiten misst. Hierbei ist jedes Skalenniveau zul¨ assig. Um jedoch die erwarteten H¨aufigkeiten zu berechnen ist es bei ordinalem oder metrischem Skalenniveau notwendig, die Stichprobe X = (X1 , . . . , Xn ) in k Klassen Klasse Anzahl der Beobachtungen
1 n1
2 n2
··· ···
k nk
Total n
einzuteilen. Die Klasseneinteilung ist dabei in gewisser Weise willk¨ urlich. Die Klasseneinteilung sollte jedoch nicht zu fein gew¨ahlt werden, um eine gen¨ ugend große Anzahl an Beobachtungen in den einzelnen Klassen zu gew¨ ahrleisten. Wir pr¨ ufen H0 : F (x) = F0 (x) gegen H1 : F (x) = F0 (x). Dabei ist die Nullhypothese so zu verstehen, dass die Verteilungsfunktion F (x) der in der Stichprobe realisierten Zufallsvariablen X mit einer vorgegebenen Verteilungsfunktion F0 (x) u ¨bereinstimmt. Teststatistik F¨ ur den Test ben¨ otigen wir folgende Testgr¨ oße: T (X) =
k (Ni − npi )2 i=1
npi
.
(12.1)
Dabei ist aufigkeit der Stichprobe X f¨ ur die Klasse i (i = 1, . . . , k) • Ni die absolute H¨ ist (Ni ist eine Zufallsvariable mit Realisierung ni in der konkreten Stichprobe), • pi die mit Hilfe der vorgegebenen Verteilungsfunktion F0 (x) berechnete (also hypothetische) Wahrscheinlichkeit daf¨ ur ist, dass die Zufallsvariable X in die Klasse i f¨ allt, aufigkeit in der Klasse i. • npi die unter H0 erwartete H¨ Entscheidungsregel Die Nullhypothese H0 wird zum Signifikanzniveau α abgelehnt, falls t = oßer als das (1 − α)-Quantil der χ2 -Verteilung mit k − 1 − r T (x1 , . . . , xn ) gr¨ Freiheitsgraden ist, d.h., falls gilt:
12.2 Anpassungstests
243
t > ck−1−r,1−α . r ist dabei die Anzahl der Parameter der vorgegebenen Verteilungsfunktion F0 (x). Sind die Parameter der Verteilungsfunktion unbekannt, so m¨ ussen diese aus der Stichprobe gesch¨ atzt werden. Anmerkung. Die Teststatistik T (X) ist unter der Nullhypothese nur asymptotisch χ2 -verteilt. Diese Approximation ist u ¨blicherweise hinreichend genau, wenn nicht mehr als 20% der erwarteten Klassenbesetzungen npi kleiner als 5 sind und kein Wert npi kleiner als 1 ist. Beispiel 12.2.1. Mendel erhielt bei einem seiner Kreuzungsversuche von Erbsen folgende Ergebnisse: Kreuzungsergebnis Beobachtungen
rund gelb 315
rund gr¨ un 108
kantig gelb 101
kantig gr¨ un 32
Er hatte die Hypothese, dass die vier Sorten im Verh¨altnis 9:3:3:1 stehen, also dass π1 =
9 3 3 1 , π2 = , π3 = , π4 = , 16 16 16 16
Wir testen also: H0 : P (X = i) = πi
gegen
H1 : P (X = i) = πi ,
i = 1, ..., 4 .
Mit insgesamt n = 556 Beobachtungen erhalten wir folgende f¨ ur die Teststatistik notwendige Gr¨ oßen: i 1
Ni 315
2
108
3
101
4
32
pi 9 16 3 16 3 16 1 16
npi 312.75 104.25 104.25 34.75
Die χ2 -Teststatistik berechnet sich dann wie folgt: χ2 =
(32 − 34.75)2 (315 − 312.75)2 + ... + = 0.47 . 312.75 34.75
Da χ2 = 0.47 < 7.815 = χ20.95 (3) ist, wird die Nullhypothese beibehalten. Mendel hatte mit seiner Vermutung einer 9:3:3:1 Aufteilung also Recht.
244
12. Nichtparametrische Tests
12.2.2 Kolmogorov–Smirnov–Anpassungstest Der Chi–Quadrat–Anpassungstest hat bei stetigen Variablen den Nachteil, dass eine Gruppierung der Werte notwendig ist. Insbesondere kann die Klassenbildung auch die Teststatistik und damit das Testergebnis beeinflussen. Dieses Problem wirkt sich besonders stark bei kleinen Stichproben aus. In diesen F¨ allen ist der Kolmogorov-Smirnov-Anpassungstest f¨ ur stetige Variablen dem Chi-Quadrat-Anpassungstest vorzuziehen. Dieser Test pr¨ uft ebenfalls die Hypothese H0 : F (x) = F0 (x) gegen H1 : F (x) = F0 (x), wobei F eine stetige Verteilung ist. Wir wollen hier nicht im Detail auf das Testverfahren eingehen (siehe dazu Toutenburg, Induktive Statistik ), jedoch die Grundaussagen des praxisrelevanten Tests anhand eines Beispiels erl¨ autern. Beispiel 12.2.2. In einer Studie ist eines der erhobenen Merkmale die K¨orpergr¨oße. Wir betrachten hierzu die Histogramme aufgesplittet nach den Merkmalen ’m¨ annlich’ und ’weiblich’ (siehe Abbildung 12.1).
Abb. 12.1. Histogramme der K¨ orpergr¨ oße aufgesplittet nach den Merkmalen ’m¨ annlich’ (links) und ’weiblich’ (rechts)
Um nun zu testen, ob das Merkmal ’K¨ orpergr¨oße’ bei M¨annern und/oder Frauen (bei α = 0.05) normalverteilt ist, wenden wir den KolmogorovSmirnov-Test an. SPSS liefert uns folgende Ergebnisse:
12.3 Homogenit¨ atstests f¨ ur zwei unabh¨ angige Stichproben
Geschlecht m¨ annlich
weiblich
N Normal Parameters
Mean Std. Deviation
Kolmogorov-Smirnov Z Asymp. Sig (2-tailed) N Normal Parameters
Mean Std. Deviation
Kolmogorov-Smirnov Z Asymp. Sig (2-tailed)
245
Gr¨oße in cm 46 180.80 7.742 0.870 0.435 70 168.46 5.687 0.955 0.322
Sowohl bei M¨ annern als auch Frauen liegt der Wert der asymptotischen Signifikanz (also der p-Werte) deutlich u ¨ber 0.05. Die Nullhypothese, dass die Verteilungen ’Gr¨oße/m’ und ’Gr¨ oße/w’ normalverteilt sind, kann also beibehalten werden.
12.3 Homogenit¨ atstests fu angige ¨ r zwei unabh¨ Stichproben 12.3.1 Kolmogorov-Smirnov-Test im Zweistichprobenproblem Der Kolmogorov-Smirnov-Test im Zweistichprobenproblem vergleicht die Verteilungen zweier Zufallsvariablen gegeneinander. Gegeben seien zwei Stichproben X1 , . . . , Xn1 , Y1 , . . . , Yn2 mit X ∼ F und Y ∼ G. Wir pr¨ ufen die Hypothese ur alle t ∈ R. H0 : F (t) = G(t) gegen H1 : F (t) = G(t) f¨ Erneut m¨ ochten wir nicht detailliert auf die Testprozedur eingehen aber mit einem Beispiel die Anwendung des Tests verdeutlichen. Beispiel 12.3.1. Betrachten wir erneut Beispiel 12.2.2. Nun sind wir nicht mehr an der Fragestellung interessiert, ob die Verteilung der M¨anner/Frauen einer Normalverteilung folgt, sondern ob die Verteilung der K¨orpergr¨oße bei M¨ annern und Frauen identisch ist. Dazu k¨onnen wir den KolmogorovSmirnov-Test f¨ ur das Zweistichprobenproblem heranziehen. SPSS berechnet uns folgende Werte: Most extreme Differences Kolmogorov-Smirnov Z Asympt. Sig (2-tailed)
Absolute Positive Negative
Gr¨oße in cm 0.691 0.691 0.000 3.639 0.000
246
12. Nichtparametrische Tests
Die ersten 3 Zeilen bezeichnen hierbei Gr¨ oßen die ben¨otigt wurden um die Teststatistik (Zeile 4) zu berechnen. Interessant ist aber die unterste Zeile. Sie gibt uns den p-value zu unserem Testproblem aus. W¨ urden wir uns ein Signifikanzniveau von α = 0.05 vorgeben, so spricht unser p-Wert, der nahezu ’Null’ ist, f¨ ur eine Verwerfung der Nullhypothese. In diesem Beispiel w¨ urde das also bedeuten, dass nicht von einer gleichen Verteilung bei M¨annern und Frauen ausgegangen werden kann. Im vorhergehenden Beispiel hatten wir zwar bereits herausgefunden, dass die Nullhypothese einer Normalverteilung bei keiner der beiden Gruppen verworfen werden kann. H¨ ochstwahrscheinlich spiegelt sich der Unterschied zwischen den beiden Gruppen aber in Erwartungswert und Varianz wider. So k¨onnte die K¨ orpergr¨ oße der Frauen beispielsweise normalverteilt, aber mit einem geringeren Erwartungswert als bei den M¨ annern vorzufinden sein. Wollten wir dies testen, so br¨ auchten wir Testverfahren wie in Kapitel 11 beschrieben. 12.3.2 Mann-Whitney-U-Test Testaufbau Der Kolmogorov-Smirnov-Test pr¨ uft allgemeine Hypothesen der Art “Die beiden Verteilungen sind gleich”. Wir gehen nun davon aus, dass sich die Verteilungen zweier stetiger Variablen nur bez¨ uglich der Lage unterscheiden. Der wohl bekannteste Test f¨ ur Lagealternativen ist der U -Test von Mann und Whitney. Der U -Test von Mann und Whitney ist ein Rangtest. Er ist das nichtparametrisches Gegenst¨ uck zum (zwei Stichproben) t-Test. Anmerkung. Die zu pr¨ ufende Hypothese l¨ asst sich auch formulieren als H0 : Die Wahrscheinlichkeit P , dass eine Beobachtung der ersten Grundgesamtheit X gr¨ oßer ist als ein beliebiger Wert der zweiten Grundgesamtheit Y , ist gleich 0.5. Die Alternative lautet H1 : P = 0.5. Details finden sich auch in Kapitel 12.4. Teststatistik Man f¨ ugt die Stichproben (x1 , . . . , xn1 ) und (y1 , . . . , yn2 ) zu einer gemeinsamen aufsteigend geordneten Stichprobe S zusammen. Die Summe der Rangzahlen der X-Stichprobenelemente sei R1+ , die Summe der Rangzahlen der ufgr¨ oße w¨ahlt man U , den kleineren Y -Stichprobenelemente sei R2+ . Als Pr¨ der beiden Werte U1 , U2 : n1 (n1 + 1) − R1+ , 2 n2 (n2 + 1) − R2+ . U2 = n1 · n2 + 2 U1 = n1 · n2 +
(12.2) (12.3)
12.3 Homogenit¨ atstests f¨ ur zwei unabh¨ angige Stichproben
247
Entscheidungsregel H0 wird abgelehnt, wenn U < un1 ,n2 ;α gilt. Da U1 + U2 = n1 · n2 gilt, gen¨ ugt es zur praktischen Berechnung des Tests, nur Ri+ und damit U = min{Ui , n1 n2 − Ui } zu berechnen (i = 1 oder 2 wird dabei so gew¨ahlt, dass ur die kleinere der beiden Stichproben ermittelt werden muss). F¨ ur Ri+ f¨ aherung n1 , n2 ≥ 8 kann die N¨ Z=
U−
n1 ·n2 2
approx.
n1 · n2 · (n1 + n2 + 1) 12
∼
N (0, 1)
(12.4)
benutzt werden. F¨ ur |z| > z1−α/2 wird H0 abgelehnt. Beispiel 12.3.2. Im Zuge einer Studie wurden die Reaktionszeiten (in s) auf einen bestimmten Reiz sowohl bei m¨ annlichen Affen als auch bei weiblichen Affen gemessen. An der Studie nahmen 9 m¨ annliche Tiere und 10 weibliche Tiere teil. Es ergaben sich folgende Werte: Reaktionszeit m¨ annlich weiblich
1 3.7 4.5
2 4.9 5.1
3 5.1 6.2
4 6.2 7.3
5 7.4 8.7
6 4.4 4.2
7 5.3 3.3
8 1.7 8.9
9 2.9 2.6
10 4.8
Gepr¨ uft werden soll die Hypothese, ob die Reaktionszeit der m¨annlichen Affen im Mittel gleich groß ist wie die der weiblichen. Dazu berechnen wir die f¨ ur den Test interessanten Informationen. Es ergaben sich folgende Werte: 1 2 3 4 5 6 7 8 9 10 W ertM 3.7 4.9 5.1 6.2 7.4 4.4 5.3 1.7 2.9 RangM 5 10 12 15 17 7 13 1 3 83 W ertW 4.5 5.1 6.2 7.3 8.7 4.2 3.3 8.9 2.6 4.8 RangW 8 11 14 16 18 6 4 19 2 9 107 Mit RM + = 83 und RW + = 107 erhalten wir die beiden Teststatistiken n1 (n1 + 1) 9 · 10 − RM + = 9 · 10 + − 83 = 52 , 2 2 n2 (n2 + 1) 10 · 11 − RW + = 9 · 10 + − 107 = 38 . U2 = n1 · n2 + 2 2
U1 = n1 · n2 +
Mit n1 , n2 ≥ 8 und U = U2 = 38 ergibt sich: Z=
U−
n1 ·n2 2
n1 · n2 · (n1 + n2 + 1) 12
=
38 −
9·10 2
9 · 10 · (9 + 10 + 1) 12
≈ −0.572 .
Wegen |z| = 0.572 < z1−α/2 = 1.96 kann die Nullhypothese beibehalten werden.
248
12. Nichtparametrische Tests
12.4 Weitere Hinweise Merke:
Anpassungstests pr¨ ufen, ob die unbekannte Wahrscheinlichkeitsverteilung einer Zufallsvariable einem bestimmten Verteilungsmodell folgt oder nicht. Wir haben folgende Tests kennengelernt: 1 Stichprobe diskret, stetig klassiert
@ (meist) stetig @ @ R @
χ2 -Anpassungstest
2 Stichproben
?
Kolmogorov-Smirnov-Test
Der U-Test von Mann-Whitney vergleicht die Lage zweier unabh¨ angiger Zufallsgr¨ oßen X1 , . . . , Xn und Y1 , . . . , Ym . Im Detail lauten die Hypothesen: (beide Stichproben haben die gleiche Verteilung) H0 : F ≡ G H1 : P (X < Y ) > P (X > Y ) (Y-Werte im Mittel gr¨oßer als die X-Werte)
Weitere nichtparametrische Tests, beispielsweise f¨ ur Hypothesen bez¨ uglich des Medians, findet man bei Sachs (2004) und B¨ uning und Trenkler (2004).
12.5 Aufgaben Wiederholungsaufgabe mit SPSS. In dieser Wiederholungsaufgabe haben Sie die M¨ oglichkeit Ihr Wissen u ¨ber die letzten Kapitel anhand unseres buch¨ ubergreifenden Beispiels zu testen (siehe auch Aufgabe 3.1 und Aufgabe 8.1). Aufgabe 12.1: Seit einiger Zeit spielt ein neuer Mitspieler in der Runde von Jupp und Horst mit. Dieser besteht darauf, immer mit seinen eigenen “Gl¨ ucksw¨ urfeln” w¨ urfeln zu wollen. Auff¨ allig ist jedoch, dass er sich nie bei Zahlen kleiner als 4 platziert und generell bei seiner Startaufstellung die 8 der 6 vorzieht. Weiter f¨ allt der Spieler durch seine hohe Anzahl von Siegen auf. Das macht Jupp und Horst stutzig und sie notieren sich die W¨ urfelergebnisse des neuen Spielers in den folgenden Partien und erhalten 102 Summen.
12.5 Aufgaben
249
Der Datensatz glueckswuerfel.sav enth¨ alt die Summen des neuen Spielers sowie die Summen, die Jupp und Horst fr¨ uher erhoben haben. a) Zuerst wollen wir die beiden Datens¨ atze vergleichen. Betrachten Sie dazu die H¨ aufigkeitstabellen, die Balken- bzw. Stabdiagramme und die wichtigen Maßzahlen Mittelwert, Median, Varianz und Standardabweichung. Beschreiben Sie was Ihnen auff¨ allt. b) Nun wollen wir testen ob die Summen der ersten Stichprobe der vorher bestimmten Dreiecksverteilung folgen. Bestimmen Sie dazu die erwarteten H¨ aufigkeiten unter der Annahme der Dreicksverteilung und f¨ uhren Sie anschließend einen χ2 −Anpassungstest durch. Kommentieren Sie Ihre Entscheidung. ur die Gl¨ ucksw¨ urfelsumc) Wiederholen Sie nun den χ2 −Anpassungstest f¨ men. d) Testen Sie mit Hilfe eines t-Tests, ob der Mittelwert der Gl¨ ucksw¨ urfelsummen sieben ist. Nehmen Sie dabei kritisch Stellung zur Normalverteilungsannahme. Zu welchen Ergebnis kommt der Test? e) Vergleichen Sie noch die Mittelwerte der beiden Stichproben mit Hilfe eines t-Tests. Versuchen Sie, mit Hilfe Ihrer empirischen Kenntnisse der Stichproben zu einer Entscheidung bez¨ uglich der Gleichheit der Varianzen zu kommen. F¨ uhren Sie dann den t-Test durch, den Sie f¨ ur geeignet halten und kommentieren Sie Ihre Ergebnisse. Hinweis: Mit SPSS kann die Frage nach der Varianzgleichheit direkt beim t-Test gel¨ ost werden. L¨ osung: a) Beginnen wir mit der deskriptiven Datenanalyse. H¨ aufigkeiten der Summen in beiden Stichproben(GW: Gl¨ ucksw¨ urfel, NW: normale W¨ urfel): Auspr¨ agungen 2 3 4 5 6 7 8 9 10 11 12 Gesamt
Prozent GW 0 0 4.9 8.8 7.8 19.6 14.7 20.6 12.7 8.8 2.0 100.0
Prozent NW 2.2 7.8 5.7 9.1 13.0 15.7 14.3 14.8 10.0 4.8 2.6 100.0
Kumulierte Prozente GW 0 0 4.9 13.7 21.6 41.2 55.9 76.5 89.2 98.0 100.0
Kumulierte Prozente NW 2.2 10.0 15.7 24.8 37.8 53.5 67.8 82.6 92.6 97.4 100.0
250
12. Nichtparametrische Tests
Abb. 12.2. Das Balkendiagramm der Gl¨ ucksw¨ urfelsummen und der normalen Summen
Die H¨ aufigkeitstabellen und die Diagramme zeigen, dass etwas an den Gl¨ ucksw¨ urfelsummen anders ist. Die 2 und die 3 wurden von den Gl¨ ucksw¨ urfeln nie als Summe gew¨ urfelt. Somit ist der Streubereich der Gl¨ ucksw¨ urfel geringer als der der normalen W¨ urfelsummen. Der h¨aufigste Wert ist deutlich h¨ oher als in der Stichprobe von Jupp und Horst. Betrachten wir als n¨ achstes einige Maßzahlen der Lage und Variabilit¨at.
N Mittelwert Median Standardabweichung Varianz
Gl¨ ucksw¨ urfel 102 7.99 8.00 1.988 3.950
Normale W¨ urfel 230 7.16 7.00 2.419 5.853
Sowohl Mittelwert als auch Median sind deutlich h¨oher bei den Summen der Gl¨ ucksw¨ urfel. Varianz und Standardabweichung sind hingegen geringer. Beide Verteilungen sind halbwegs symmetrisch, unterscheiden sich aber deutlich in Bezug auf ihre Lage und ihren Streubereich. b) Formulieren wir zuerst die Hypothesen f¨ ur unser Testproblem: urfelsummen sind dreiecksverteilt H0 : Die W¨ urfelsummen sind nicht dreiecksverteilt H1 : Die W¨ F¨ ur die Teststatistik des χ2 −Anpassungstests ben¨otigen wir zuerst die erwarteten H¨ aufigkeiten unter H0 . Dazu nutzen wir die Tabelle der Wahrscheinlichkeitsfunktion aus der Aufgabe.
12.5 Aufgaben
Auspr¨ agungen von X 2 3 4 5 6 7 8 9 10 11 12 Gesamt
Wahrscheinlichkeiten pi 1/36 1/18 1/12 1/9 5/36 1/6 5/36 1/9 1/12 1/18 1/36 1
Erwartete Hfgkt. n ˜ i = n · pi 6.389 12.778 19.167 25.556 31.944 38.333 31.944 25.556 19.167 12.778 6.389
251
(ni −˜ ni )2 n ˜i
0.302 2.134 1.984 0.812 0.118 0.142 0.035 2.789 0.767 0.247 0.024 9.355
Der Wert der χ2 −Statistik betr¨ agt somit 9.355. Spricht dieser Wert f¨ ur oder gegen die hypothetische Dreiecksverteilung? Dazu der Testoutput von SPSS: Chi-Quadrat(a) df Asymptotische Signifikanz
9.355 10 .499
Die u ¨berschreitungswahrscheinlichkeit ist mit ungef¨ahr 50% deutlich gr¨osser als das 5% Signifikanzniveau. Somit kann H0 nicht abgelehnt werden. Die Dreiecksverteilungshypothese wird hier nicht verworfen. Somit sind die W¨ urfelsummen von Horst und Jupp wie erwartet dreiecksverteilt. c) Nun schauen wir uns die Gl¨ ucksw¨ urfelsummen an. Zuerst wieder die Hypothesen f¨ ur unser Testproblem: ucksw¨ urfelsummen sind dreiecksverteilt H0 : Die Gl¨ ucksw¨ urfelsummen sind nicht dreiecksverteilt H1 : Die Gl¨ F¨ ur die Teststatistik stellen wir eine Hilfstabelle analog zu b) auf, siehe Tabelle 12.1. Bei den Gl¨ ucksw¨ urfelsummen erhalten wir einen deutlich h¨oheren Wert ur unsere Entscheidung wieder den der χ2 −Statistik. Betrachten wir f¨ SPSS Output. Alternativ kann auch der kritische Wert in Tabellen der χ2 −Verteilung nachgeschlagen werden. Chi-Quadrat(a) df Asymptotische Signifikanz
26.518 10 .003
252
12. Nichtparametrische Tests Tabelle 12.1. Tabelle zu Aufgabenteil c) Auspr¨ agungen von X 2 3 4 5 6 7 8 9 10 11 12 Gesamt
Wahrscheinlichkeiten pi 1/36 1/18 1/12 1/9 5/36 1/6 5/36 1/9 1/12 1/18 1/36 1
Erwartete Hfgkt. n ˜ i = n · pi 2.833 5.667 8.5 11.333 14.167 17.667 14.167 11.333 8.5 5.667 2.833
(ni −˜ ni )2 n ˜i
2.833 5.667 1.441 0.48 2.685 0.308 0.049 8.246 2.382 1.96 0.245 26.296
Die Unterschiede in den Werten der χ2 −Statistiken lassen sich auf Rundungsdifferenzen zur¨ uckf¨ uhren. Hier liegt die u ¨berschreitungswahrscheinlichkeit deutlich unterhalb des Siucksw¨ urfelgnifikanzniveaus. Das f¨ uhrt dazu, dass wir H0 ablehnen. Die Gl¨ summen weisen also nicht die von uns f¨ ur W¨ urfelsummen erwartete Dreiecksverteilung auf. d) Es soll univariat getestet werden, ob der Mittelwert der Gl¨ ucksw¨ urfelsummen sieben ist. Dazu f¨ uhren wir den einfachen t-Test durch. Dieses Vorgehen ist gerechtfertigt, da wir gesehen haben, dass die Gl¨ ucksw¨ urfelsummen symmetrisch verteilt sind und man somit eine Normalverteilung unterstellen kann. Wir beginnen wie immer mit den Hypothesen H0 : μ = 7 gegen H1 : μ = 7 . Der Wert der Teststatistik berechnet sich wie folgt: √ T = 7.99−7 102 = 5.03 1.988 · Um zu einer Entscheidung zu kommen betrachten wir den SPSS Output oder suchen uns den kritischen Wert aus einer Tabelle der t-Verteilung. Summen der Gl¨ ucksw¨ urfel
t 5.032
df 101
Sig. (2-seitig) .000
Die Signifikanz f¨ ur die Nullhypothese ist Null, somit kann H0 verworfen werden. Der Mittelwert der Gl¨ ucksw¨ urfelsummen ist ungleich sieben. Der interessierte Leser kann einen einseitigen t-Test durchf¨ uhren, in dem er unsere Vermutung bez¨ uglich des Mittelwertes best¨atigt.
12.5 Aufgaben
253
e) Als letztes Testproblem steht noch ein doppelter t-Test an, der die Mittelwerte der beiden Stichproben vergleicht. Die Hypothesen lauten wie folgt: H0 : μGW = μN W gegen H1 : μGW = μN W . F¨ ur derartige unverbundene Vergleiche stehen uns zwei t-Tests zur Verf¨ ugung, der eine unterstellt identische Varianzen in beiden Stichproben und der andere l¨ asst unterschiedliche Varianzen zu. In unserer deskriptiven Analyse haben wir deutliche Unterschiede zwischen den Streuungen der beiden Stichproben feststellen k¨ onnen. Diesen u ¨berlegungen folgend w¨ urde man den sogenannten Welch-Test durchf¨ uhren. SPSS macht uns das Leben aber leichter. Es berechnet einfach beide Tests und schaltet einen Test auf Gleichheit der Varianzen vor, so hat man eine Entscheidungshilfe bei der Beurteilung des Problems. Betrachten wir also den SPSS Output.
Varianzen gleich Varianzen nicht gleich
F 5.172
Sig. .024
T 3.052 3.291
df 330 232.974
Sig. (2-s.) .002 .001
Die ersten beiden Spalten beziehen sich auf einen F-Test, der die Gleichheit der Varianzen in den beiden Stichproben testet. Wir betrachten wieder die u ¨berschreitenswahrscheinlichkeit, diese ist kleiner als 0.05. Somit kann die Hypothese der Varianzgleichheit abgelehnt werden. Unsere empirische Vermutung wird somit best¨ atigt, der Welch-Test ist der richtige Test f¨ ur dieses Problem. Der Output des Welch-Testes ist in der zweiten Zeile der Tabelle dargestellt. Diese zeigt den Wert des Teststatistik, die Freiheitsgrade und die Signifikanz der Nullhypothese. Diese ist mit 0.001 sehr klein, so dass wir die Nullhypothese ablehnen. Die Mittelwerte und die Varianzen in den beiden Stichproben unterscheiden sich also. Somit zeigt sich, dass die Gl¨ ucksw¨ urfel des neuen Mitspielers sich deutlich von dem f¨ ur normale W¨ urfel zu erwartenden Verhalten unterscheiden. Der Streubereich ist kleiner, dadurch dass die Gl¨ ucksw¨ urfel in 102 Versuchen nicht eine 2 oder 3 als Summe erzielten. Des weiteren ist die Lage der Gl¨ ucksw¨ urfelsummen nach oben verschoben. Die theoretisch hergeleitete Dreiecksverteilung f¨ ur W¨ urfelsummen passt zwar sehr gut auf die W¨ urfelergebnisse von Jupp und Horst, aber nicht zu den Ergebnissen des neuen Mitspielers. Alles in allem kann man davon ausgehen, dass der neue Mitspieler seine W¨ urfel gezinkt hat. Aufgabe 12.2: Der Datensatz ‘ZiffernPi.sav’ enth¨alt die sortierten ersten 10002 Nachkommastellen der Zahl π. Es soll u uft werden ob es ein ¨berpr¨ Verteilungsmuster in den Nachkommastellen gibt.
254
12. Nichtparametrische Tests
a) Erstellen Sie die H¨ aufigkeitstabelle der Nachkommastellen. b) Stellen Sie den Inhalt der H¨ aufigkeitstabelle grafisch dar. c) Formulieren Sie aufgrund Ihrer deskriptiven Ergebnisse eine Hypothese u ¨ber die Verteilung der Nachkommastellen von π. d) Testen Sie mit Hilfe eines χ2 -Anpassungstests diese Hypothese. L¨ osung: a) Wir erhalten folgenden Output von SPSS: 0 1 2 3 4 5 6 7 8 9 Gesamt
H¨ aufigkeit 968 1026 1021 974 1014 1046 1021 970 948 1014 10002
Prozent 9.7 10.3 10.2 9.7 10.1 10.5 10.2 9.7 9.5 10.1 100.0
kum. Prozent 9.7 19.9 30.1 39.9 50.0 60.5 70.7 80.4 89.9 100.0
b) In Abbildung 12.3 ist das von SPSS berechnete Balkendiagramm zur H¨ aufigkeitsverteilung der Nachkommastellen von Pi dargestellt.
Abb. 12.3. Das Balkendiagramm zur Anzahl der Nachkommastellen von ’Pi’
c) Die H¨ aufigkeitstabelle und das Balkendiagramm deuten auf eine Gleichverteilung hin. Jede Ziffer scheint in etwa gleich oft vorzukommen.
12.5 Aufgaben
255
d) SPSS liefert uns folgenden Output zum χ2 -Anpassungstest: Chi-Quadrat df Asymptotische Signifikanz
Ziffern 9.638 9 .404
Der χ2 -Anpassungstest kann die Gleichverteilungshypothese nicht ablehnen. Die Nachkommastellen von π sind also gleichverteilt. Rechenaufgaben. Im Folgenden haben Sie erneut die M¨oglichkeit Ihr Wissen u ufen. ¨ber das vergangene Kapitel anhand von Rechenaufgaben zu u ¨berpr¨ Aufgabe 12.3: Vor einer Landtagswahl hat ein bekannter Journalist die Vermutung, dass die ’CDU/CSU’ 45% der Stimmen erh¨alt, die SPD 40%, die FDP 10% und alle u ¨brigen Parteien nur 5%. Bei einer Meinungsumfrage unter n = 1000 Personen ergab sich, dass 400 der Personen angaben bei der Wahl f¨ ur die ’CDU/CSU’ stimmen zu wollen, 350 f¨ ur die ’SPD’, 150 f¨ ur die ’FDP’ und 100 f¨ ur sonstige Parteien. u ufen Sie mit Hilfe des χ2 ¨berpr¨ Anpassungstests, ob die von dem Journalisten aufgestellte Vermutung durch die Stichprobe best¨ atigt wird oder nicht (α = 0.05)! L¨ osung: Mit n = 1000 und den anderen Werten aus der Aufgabe erhalten wir folgende Tabelle: H0 pi unter H0 Stichprobe ni npi
CDU/CSU 45% 0.45 400 450
SPD 40% 0.40 350 400
FDP 10% 0.10 150 100
andere 5% 0.05 100 50
Damit berechnet sich die Teststatistik wie folgt: χ2 =
(100 − 50)2 (400 − 450)2 + ... + = 86.81 . 450 50
Da der Wert der Teststatistik gr¨ oßer als χ23;095 = 7.81 ist, m¨ ussen wir die Nullhypothese ablehnen. Der Journalist scheint mit seiner Vermutung also nicht Recht zu haben. Aufgabe 12.4: Wir betrachten die K¨ orpergr¨ oße der Basketballspieler des ’GHP Bamberg’ und der ’Bayer Giants Leverkusen’ aus der Saison 05/06, sowie die Gr¨ oße der Fußballspieler des ’SV Werder Bremen’ aus dieser Saison. SPSS liefert uns folgenden Output beim Durchf¨ uhren eines KolmogorovSmirnov-Anpassungtests (Einstichproben-Fall):
256
12. Nichtparametrische Tests
N Normal Param.
Mean Std. dev.
Kolm.-Smir.-Z Asymp. Sig.
Bamberg 16 199.06 7.047 .422 .994
Leverkusen 14 196.00 9.782 .605 .657
Bremen 23 187.25 5.239 .727 .667
a) Interpretieren Sie den Output! Wir betrachten nun den Zweistichprobenfall und vergleichen die Teams von Bamberg und Leverkusen, sowie Bamberg und Bremen. SPSS liefert uns folgende Outputs: Most extreme Differences
Absolute Positive Negative
Kolmogorov-Smirnov Z Asympt. Sig (2-tailed)
Most extreme Differences
Absolute Positive Negative
Kolmogorov-Smirnov Z Asympt. Sig (2-tailed)
Bamberg/Leverkusen .304 .009 -.304 .830 .497 Bamberg/Bremen .639 .639 .000 1.962 .001
b) Interpretieren Sie die beiden Outputs! L¨ osung: a) Beim Betrachten des Outputs f¨ allt zu allererst auf, dass sich die Anzahl der gemessenen Werte bei den Spielern der drei Teams unterscheidet. Der ’SV Werder Bremen’ hat nat¨ urlich als Fußballmannschaft einen gr¨oßeren Kader als die beiden Basketballteams. Die Mittelwerte lassen erahnen, dass die beiden Basketballteams im Schnitt gr¨oßere Spieler haben. Die Werte der asymptotischen Signifikanz liegen bei allen drei Teams deutlich u ¨ber 0.05 (0.994, 0.857 bzw. 0.667), so dass die Nullhypothese einer Normalverteilung nicht verworfen werden kann. Die K¨orpergr¨oße scheint also bei allen drei Teams normalverteilt zu sein. b) Betrachten wir zuerst den Output der die beiden Verteilungen von ’Bamberg’ und ’Leverkusen’ gegeneinander testet. Der Wert der asymptotischen Signifikanz liegt bei 0.497. Die Nullhypothese gleicher Verteilungen muss also nicht verworfen werden.
12.5 Aufgaben
257
Beim Vergleich des Basketballteams ’Bamberg’ und der Fußballmannschaft ’Bremen’ bietet sich ein anderes Bild. Der Wert der asymptotischen Signifikanz liegt bei 0.001. Die beiden Verteilungen der Teams unterscheiden sich also signifikant. Zwar ist die K¨orpergr¨oße bei beiden normalverteilt, es scheint aber Unterschiede in Mittelwert und Varianz zu geben. Intuitiv l¨ asst sich vermuten, dass die Basketballspieler aufgrund ihrer Sportart im Schnitt gr¨ oßer sind. Aufgabe 12.5: Ein Student hat die Hypothese, dass sich die mittlere Gespr¨ achsdauer (in Stunden) am Telefon (pro Monat) bei seinen weiblichen und m¨ annlichen Kommilitonen unterscheidet. Um dies zu u ufen f¨ uhrt ¨berpr¨ er innerhalb eines Seminars eine Umfrage durch und erh¨alt anhand der letzten Telefonrechnung bei insgesamt 18 seiner Kommilitonen folgende Ergebnisse: Gespr¨ achsdauer m¨ annlich weiblich
1 6.5 9.6
2 5.8 8.5
3 7.8 17.6
4 8.2 25.3
5 4.3 5.5
6 7.0 6.8
7 3.6 10.1
8 10.4 7.6
9 4.8 8.0
u ufen Sie mit Hilfe des Mann-Whitney U-Tests, ob die Hypothese des ¨berpr¨ Studenten best¨ atigt werden kann! L¨ osung: Um die Teststatistik berechnen zu k¨ onnen m¨ ussen wir die R¨ange innerhalb der gesamten Stichprobe bestimmen. Wir erhalten folgende Tabelle: 1 2 3 4 5 6 7 8 9 W ertm 6.5 5.8 7.8 8.2 4.3 7.0 3.6 10.4 4.8 Rangm 6 5 10 12 2 8 1 16 3 63 W ertw 9.6 8.5 17.6 25.3 5.5 6.8 10.1 7.6 8.0 Rangw 14 13 17 18 4 7 15 9 11 108 Mit Rm+ = 63 und Rw+ = 108 erhalten wir die beiden Teststatistiken n1 (n1 + 1) 9 · 10 − Rm+ = 9 · 9 + − 63 = 63 , 2 2 n2 (n2 + 1) 9 · 10 − Rw+ = 9 · 9 + − 108 = 18 . U2 = n1 · n2 + 2 2 U1 = n1 · n2 +
Mit n1 , n2 ≥ 8 und U = U2 = 18 ergibt sich: Z=
U−
n1 ·n2 2
n1 · n2 · (n1 + n2 + 1) 12 18 − 9·9 2 = ≈ −2.38 . 9 · 9 · (9 + 9 + 1) 12
258
12. Nichtparametrische Tests
Da |z| = 2.38 > z1−α/2 = 1.96, muss die Nullhypothese verworfen werden. Man kann also nicht davon ausgehen, dass die mittlere Gespr¨achsdauer unter den m¨ annlichen und weiblichen Studenten des Seminars gleich ist.
13. Multiple lineare Regression
13.1 Einleitung Bei der Untersuchung von Zusammenh¨ angen in der Wirtschaft, den Sozialwissenschaften, in Naturwissenschaften, Technik oder Medizin steht man h¨aufig vor dem Problem, dass eine zuf¨ allige Variable Y (auch Response genannt) von mehr als einer Einflussgr¨ oße abh¨ angt. So k¨onnten beispielsweise mehrere Einflussfaktoren wie Niederschlag, Temperatur, Ort und D¨ ungung einen Einfluss auf den Ertrag einer Ernte haben. In Kapitel 5 haben wir bereits gesehen wie man mit solchen Problemen bei einem Einflussfaktor umgeht. In diesem Kapitel werden wir einen kurzen Einblick geben, wie die Statistik bei der Problemstellung mehrerer Einflussgr¨ oßen vorgeht. Da das Gebiet der multiplen linearen Regression sehr groß und vielf¨altig ist, m¨ ochten wir uns darauf beschr¨ anken die wichtigsten Grundideen und Annahmen kurz aufzuf¨ uhren und dann anhand eines langen, gut verst¨andlichen Beispiels zu erkl¨ aren.
13.2 Modellannahmen der multiplen Regression Wie bereits erw¨ ahnt, betrachten wir nun mehrere Einflussgr¨oßen, die wir als anken uns auf den Fall, dass alle X1 , . . . , XK bezeichnen wollen. Wir beschr¨ allig sind und Y stetig ist. Das Modell lautet X1 , . . . , XK stetig und nicht zuf¨ Yi = β1 Xi1 + . . . + βK XiK + i ,
i = 1, . . . , n .
Wir setzen voraus, dass alle Variablen n-mal beobachtet wurden und stellen dies in Matrixschreibweise dar y = β1 x1 + . . . + βk xk + = Xβ + . Dabei sind y, xi und n-Vektoren, β ein K-Vektor und X eine n×K-Matrix. Zus¨ atzlich wird x1 im allgemeinen als 1 = (1, . . . , 1) gesetzt, wodurch eine Konstante (Intercept) in das Modell eingef¨ uhrt wird. Es ¨ andert sich im Vergleich zur linearen Einfachregression vor allem dass jetzt
260
13. Multiple lineare Regression
mehrere βi gesch¨ atzt und interpretiert werden m¨ ussen. Dabei beschreibt jedes βi den Einfluss eines Einflussfaktors. Folgende Annahmen an das klassische lineare Regressionsmodell sind gegeben: ⎫ (i) y = Xβ + , ⎬ (ii) ∼ Nn (0, σ 2 I), (13.1) ⎭ (iii) X nichtstochastisch, Rang(X) = K . Annahme (i) unterstreicht die Linearit¨ at des Modells. Annahme (ii) unterstellt zum einen, dass normalverteilt ist, zum anderen, dass die Varianzen homoskedastisch sind, also unabh¨ angig von i. Die Rangbedingung an X besagt, dass keine exakten linearen Beziehungen zwischen den Einflussgr¨oßen X1 , . . . , XK (den sogenannten Regressoren) bestehen, die Einflussfaktoren also linear unabh¨ angig sein sollten. Einen genaueren Einblick zu Annahmen und Interpretation findet man u.a. bei von Auer (2005).
13.3 Sch¨ atzung der Parameter Sch¨ atzung von β und σ 2 Wir haben nun ein multiples lineares Regressionsmodell definiert und m¨ochten ¨ die Parameter f¨ ur die Einflussfaktoren sch¨ atzen. Uber die L¨osung eines Optimierungsproblems erhalten wir die ‘beste’ Sch¨atzung f¨ ur β: Theorem 13.3.1 (Gauss–Markov-Theorem). Regressionsmodell ist die Sch¨ atzung b = (X X)−1 X y mit der Kovarianzmatrix
Im klassischen linearen (13.2)
Vb = σ 2 (X X)−1
die beste (homogene) lineare Sch¨ atzung von β. (Man bezeichnet b auch als Gauss–Markov-(GM)-Sch¨ atzung.) Als Sch¨ atzung f¨ ur Vb ergibt sich Vˆb = s2 (X X)−1 .
(13.3)
Unsere Sch¨ atzungen aus Kapitel 5 f¨ ur a und b sind Spezialf¨alle von (13.2), vergleiche auch Toutenburg (2003).
13.4 Pru ¨ fen von linearen Hypothesen Fragestellung Bei der statistischen Untersuchung eines Regressionsmodells (mit Intercept) onnen folgende Hypothesen von Interesse y = β0 + X1 β1 + . . . + XK βK + k¨ sein.
13.4 Pr¨ ufen von linearen Hypothesen
261
(i) Globale Hypothese H0 : β1 = . . . = βK = 0 gegen H1 : β1 = 0, . . . , βK = 0. Dies bedeutet den Vergleich der Modelle (unterH0 ) y = β0 +
und (unterH1 )
y = β0 + X1 β1 + . . . + XK βK + .
Die Nullhypothese besagt, dass y durch kein Modell erkl¨art wird. (ii) Pr¨ ufen des Einflusses einer Variablen Xi Die Hypothesen lauten Ho : βi = 0
gegen
H1 : βi = 0 .
Falls H0 nicht abgelehnt wird, kommt die Variable Xi als Einflussgr¨oße (im Rahmen des linearen Modells) nicht in Betracht. Anderenfalls wird oße aufgenommen. Xi in das Modell als Einflussgr¨ (iii) Gleichzeitiges Pr¨ ufen des Einflusses mehrerer X-Variablen Die Hypothesen lauten z. B. H0 : β1 = β2 = β3 = 0 gegen H1 : βi = 0
(i = 1, 2, 3)
Dabei werden die Modelle (unterH0 )
y = β0 + β4 X4 + . . . + βK XK +
und (unterH1 )
y = β0 + β1 X1 + β2 X2 + β3 X3 + β4 X4 + . . . + βK XK +
verglichen. Die Modelle unter H0 sind also stets Teilmodelle des vollen alt. Modells, das alle Variablen Xi enth¨ Testgr¨ oße Wir wollen hier nicht auf alle formalistischen Details des Testverfahrens eingehen. Es bedarf einer ausf¨ uhrlichen Analyse um jede der hier vorgestellten interessanten Hypothesen zu formulieren und in eine Theorie einzubetten. Es sei jedoch erw¨ ahnt, dass die Testgr¨ oße f¨ ur alle unsere Testprobleme auf die Streuungszerlegung zur¨ uckzuf¨ uhren ist:
262
13. Multiple lineare Regression
SQT otal = SQRegression + SQResidual Sie berechnet sich f¨ ur die Fragestellung (i) als F =
SQRegression n − K . · SQResidual K
und besitzt unter H0 eine FK,n−K -Verteilung. F¨ ur die Fragestellungen (ii) und (iii) a oße und Testentscheidung. ¨ndern sich Testgr¨ Testentscheidung Wir erhalten f¨ ur Fragestellung (i) bei einer vorgegebenen Irrtumswahrscheinlichkeit α folgende Entscheidungsregel: H0 nicht ablehnen, falls 0 ≤ F ≤ fK,n−K,1−α , F > fK,n−K,1−α . H0 ablehnen, falls F¨ ur die Fragestellungen (ii) und (iii) ¨ andern sich Testgr¨oße und Testent¨ scheidung. Um unsere sehr knappen Uberlegungen noch einmal zu verdeutlichen betrachten wir folgendes ausf¨ uhrliches Beispiel, das verdeutlichen soll, wie man mit Hilfe von SPSS multiple lineare Regression durchf¨ uhren kann und wie wichtige Outputs zu interpretieren sind. Beispiel 13.4.1. In einer internationalen Studie soll die Responsevariable Y= Lebenserwartung von Frauen (female life expectancy) in Abh¨angigkeit von verschiedenen Einflussgr¨ oßen durch ein Regressionsmodell erfasst werden. Die Einflussgr¨ oßen spezifizieren wirtschaftliche und f¨ ur die medizinische Versorgung relevante Gr¨ oßen, die in der folgenden Tabelle dargestellt sind. Variablenname urban lndocs lnbeds lngdp lnradios
Beschreibung Anteil der urbanen Bev¨ olkerung ln(Anzahl von ¨ arzten je 10000 Einwohner) ln(Anzahl von Krankenhausbetten je 10000 Einwohner) ln(Bruttoinlandsprodukt pro Kopf in $) ln(Radioger¨ ate je 100 Einwohner)
Zun¨ achst interessiert uns der Zusammenhang zwischen der abh¨angigen Variable (Lebenserwartung) und den m¨ oglichen Einflussgr¨oßen. Dazu betrachten wir zuerst die Korrelationen die uns SPSS liefert: lifeexpf urban lndocs lnbeds lngdp lnradios
lifeexpf 1 0.785∗∗ 0.913∗∗ 0.677∗∗ 0.906∗∗ 0.854∗∗
urban 0.785∗∗ 1 0.806∗∗ 0.696∗∗ 0.707∗∗ 0.761∗∗
lndocs 0.913∗∗ 0.806∗∗ 1 0.801∗∗ 0.775∗∗ 0.726∗∗
lnbeds 0.677∗∗ 0.696∗∗ 0.801∗∗ 1 0.597 0.581
lngdp 0.906∗∗ 0.707∗∗ 0.775∗∗ 0.597 1 0.850∗∗
lnradio 0.854∗∗ 0.761∗∗ 0.726∗∗ 0.581 0.850∗∗ 1
13.4 Pr¨ ufen von linearen Hypothesen
263
Alle Korrelationen zwischen der Lebenserwartung und den m¨oglichen Einflussgr¨ oßen sind sehr hoch, deutlich u ¨ber 0.5. M¨ochten wir nun eine multiple lineare Regression durchf¨ uhren, so sprechen die Korrelationen f¨ ur unsere Idee die vorgeschlagenen Variablen als Einflussgr¨ oßen zu betrachten. Zun¨ achst berechnen wir das Gesamtmodell mit allen 5 Einflussgr¨oßen: Model Regression Residual Total
SS 1272.598 70.335 1342.933
df 5 9 14
Mean Square 254.520 7.815
F 32.568
Sig. .000
Das G¨ utemaß ’Adjusted R-squared’ liegt nahe bei Eins (1272.598/1342.933 ≈ 0.95), so dass eine gute Modellanpassung signalisiert wird. Daten und Modell liegen also nah beieinander. Der Output von SPSS u uft, ob die Null¨berpr¨ hypothese β1 = β2 = ... = 0 (also Fall (i)) beibehalten werden kann. Wegen der hohen Signifikanz von F (Sig = 0) wird die Nullhypothese abgelehnt, der Einfluss der X-Variablen ist also statistisch signifikant. Der folgende Output enth¨ alt die Parametersch¨atzungen und ihre Signifikanzen beim separaten t-Test (= F-Test) auf H0 : βi = 0 gegen H1 : βi = 0 (dies war unser Fall (ii)). Wenn die Signifikanz kleiner als 0.05 ist, hat die zugeh¨ orige X-Variable – separat betrachtet – einen signifikanten Einfluss auf Y. Die Signifikanz der Konstanten wird nicht beachtet, eine Konstante wird immer in das Modell aufgenommen (von Ausnahmef¨allen abgesehen). Model (Constant) lndocs lnradios lngdp lnbeds urban
beta 44.758 3.411 2.029 2.346 -1.230 -0.110
t 6.931 3.500 1.238 2.170 -0.968 -0.172
Sig 0.000 0.007 0.247 0.058 0.358 0.867
Zum 5%-Niveau bzw. zum 10%-Niveau scheinen die beiden Variablen ’lndocs’ und ’lngdp’ signifikant von Null verschieden zu sein, also einen Einfluss auf die Lebenserwartung innerhalb unseres Regressionsmodells zu haben. (Anmerkung: Wie zu Beginn des Beispiels bereits gesehen, weisen die Einflussgr¨ oßen untereinander hohe und signifikante Korrelationen auf. Man nennt dies Multikollinearit¨ at. Annahme (iii) aus (13.1) fordert eigentlich, angig sein sollten. Dies ist hier ofdass unsere X1 , . . . , XK nicht linear abh¨ fensichtlich aufgrund der hohen Korrelationen unter den X1 , . . . , XK nicht gegeben und bringt Probleme mit sich, die wir (der Einfachheit halber) an dieser Stelle vernachl¨ assigen wollen.) SPSS besitzt automatische Modellwahlprozeduren um ein unter bestimmten Gesichtspunkten gutes Endmodell zu finden (FORWARD und BACKWARD
264
13. Multiple lineare Regression
Algorithmus). Folgender Output liefert uns das Ergebnis der FORWARDProzedur, die uns zuerst die Variable ’lndocs’ und dann die Variable ’lngdp’ in das Modell aufnimmt und dann stoppt. Model 1 2 Model 1
2
Regression Residual Total Regression Residual Total
Var. entered lndocs lngdp SS 1120.116 222.818 1342.933 1252.877 90.057 1342.933
df 1 13 14 2 12 14
Var. removed . . Mean square 1120.116 17.140
F 65.352
Sig .000
626.438 7.505
83.472
.000
F¨ ur das von SPSS vorgeschlagene Modell mit den beiden Einflussgr¨oßen ergeben sich folgende Sch¨ atzungen und Parameter: Model 1 2
(Constant) lndocs (Constant) lndocs lngdp
β 59.728 5.050 39.551 2.919 3.318
Std.Error 1.402 0.625 4.886 0.654 0.789
t 42.589 8.084 8.094 4.465 4.206
Sig .000 .000 .000 .001 .001
Das von SPSS vorgeschlagene Endmodell lautet also Lifeexp = 39.551 + 2.919·lndocs + 3.318·lngdp. So erh¨ oht sich die Lebenserwartung mit jeder logarithmierten Einheit an Krankenhausbetten um ungef¨ ahr 2.9 Jahre, jede Erh¨ohung der logarithmierten Einheit des Bruttoinlandproduktes um Eins erh¨oht die Lebenserwartung sogar um ca. 3.3 Jahre. Der folgende Plot 13.1 (links) der vorhergesagten Residuen gegen die vorhergesagten Werte pr¨ uft die Homoskedastizit¨at der Varianzen und hat die Form eines Null- oder Chaosplots, was ein Indiz f¨ ur ein gutes Modell ist, da keine Systematik erkennbar ist. Der QQ-Plot in Abbildung 13.1 (rechts) tr¨ agt die durch das Modell beobachtete gegen die unter der Normalverteilung erwarteten Quantile ab, und u uft so die Normalverteilungsannahme (ii) aus (13.1). Die Punkte lie¨berpr¨ gen in etwa auf der Linie, die Normalverteilungsannahme scheint dadurch nicht verletzt.
13.5 Weitere Hinweise
Abb. 13.1. Chaosplot und QQ-Plot
13.5 Weitere Hinweise Merke:
Eine wichtige Annahme im linearen Regressionsmodell y = β1 x1 + . . . + βk xk + = Xβ + betrifft die Residuen und lautet ∼ N (0, σ 2 I) .
Um die Normalverteilungsannahme der Residuen zu u ufen ¨berpr¨ verwendet man h¨ aufig QQ-Plots (vgl. auch Kapitel 3). Die beobachteten Quantile werden dabei gegen die unter der Normalver¨ teilung zu erwartenden Quantile abgetragen. Ist die Ubereinstimmung hoch, sollten die Punkte in etwa auf der Winkelhalbierenden liegen.
Um die Homoskedastizit¨ at der Varianzen zu u ufen, werden ¨berpr¨ in der Regel die vorhergesagten Werte (ˆ yi ) gegen die vorhergesagten Residuen (ˆ
i ) abgetragen. Es sollte dabei keine Systematik erkennbar sein (Chaos-Plot).
Um den Einfluss einer X-Variable auf die Y -Variable zu pr¨ ufen, betrachtet man meist Hypothesen der Form βk = 0. Ist der Parameter signifikant von Null verschieden (also der p-value kleiner dem vorgegebenen Signifikanzniveau), so schließt man, dass die zugeh¨ orige X-Variable einen statistisch signifikanten Einfluss hat.
Kategoriale Einflussgr¨ oßen werden weiterhin, wie in Kapitel 5.4 beschrieben, per Dummy- oder Effektkodierung in das Regressionsmodell aufgenommen.
265
266
13. Multiple lineare Regression
13.6 Aufgaben Aufgabe 13.1: In einem Experiment wurde die Leistungsf¨ahigkeit von Autos - gemessen durch Y =Gefahrene Meilen pro Gallone (Benzin) - untersucht. Einflussgr¨ oßen waren dabei die Merkmale ’PS’, ’Gewicht’, ’Beschleunigung’ (von 0 auf 100 km/h), ’Baujahr’, ’Zylinder’ und ’Herstellungsland’. Folgende Tabelle zeigt die Korrelationen von (Y, X1 ,...,X5 ). 0.000). Meilen PS Gewicht Beschl. Baujahr Zylinder
Meilen 1 -0.771 -0.807 0.434 0.576 -0.774
PS -0.771 1 0.859 -0.701 -0.419 0.844
Gewicht -0.807 0.859 1 -0.415 -0.310 0.895
Beschl. 0.434 -0.701 -0.415 1 0.308 -0.528
Baujahr 0.576 -0.419 -0.310 0.308 1 -0.357
Zylinder -0.774 0.844 0.895 -0.528 -0.357 1
a) Welche Xi haben positiven bzw. negativen Einfluss auf Y? b) Welche Paare von Xi , Xj sind untereinander stark korreliert? c) Was sagen Ihnen die Grafiken aus Abbildung 13.2? Wie sch¨atzen Sie hierbei die ’USA’ ein? d) ’Herstellungsland’ ist eine kategoriale Variable. Sie wird dummykodiert mit Land1 = USA, Land2 = Europa, Japan = Referenzkategorie! Interpretieren Sie die folgenden Outputs! Model 1 Model 1
Model 1
R 0.907
R square 0.823
Regression Residual Total
Adj. R-Sq 0.819
SS 19432.238 4177.538 23609.775
(Constant) Hubraum PS Gewicht Beschleunigung Baujahr Anzahl Zylinder Land1 Land2
df 8 382 390
B -14.764 .025 -.021 -.007 .061 .780 -.519 -2.879 -.209
Std. Error 3.307 Mean Sq. 2429.030 10.936
Std. Error 4.695 .008 .014 .001 .100 .052 .323 .553 .566
F 222.114
t -3.145 3.253 -1.503 -10.264 .0615 15.032 -1.607 -5.202 -.370
Sig. .000
Sig. 0.002 .001 .134 .000 .539 .000 .109 .000 .712
Wie lautet das Regressionsmodell? Halten Sie alle anderen Einflussgr¨oßen fest! Wie lautet dann die Gleichung f¨ ur USA, Europa, Japan? Wie lautet die Streuungszerlegung? e) Welche Variablen sind – separat betrachtet – nicht signifikant?
13.6 Aufgaben
267
Abb. 13.2. Zusammenhang zwischen ’Gefahrene Meilen’ und den Variablen ’Hubraum’, ’PS’ und ’Beschleunigung’
f) SPSS schl¨ agt das folgende Endmodell vor. Wie groß sind die Effekte der drei L¨ ander? Model 1 Model 1
Model 1
R 0.906
R square 0.822
Adj. R-Sq 0.819
Regression Residual Total
SS 19398.274 4211.501 23609.775
(Constant) Hubraum PS Gewicht Baujahr Land1 Land2
B -14.820 .017 -.024 -.007 .778 -2.792 -.161
df 6 384 390
Std. Error 3.312 Mean Sq. 3233.046 10.967
Std. Error 4.153 .006 .011 .001 .052 .551 .566
t -3.568 2.829 -2.251 -11.467 15.013 -5.065 -.283
F 294.786
Sig. 0.000 .005 .025 .000 .000 .000 .777
Sig. .000
268
13. Multiple lineare Regression
L¨ osung: a) Mit Y sind negativ korreliert: ’PS’, ’Gewicht’ und ’Anzahl der Zylinder’. Je gr¨ oßer die Werte dieser Variablen sind, desto geringer ist die Zahl der mit einer bestimmten Benzinmenge zur¨ uckgelegten Meilen. Positiv korreliert sind die Merkmale ’Beschleunigung’ und ’Baujahr’. Sie stehen f¨ ur technischen Fortschritt und erh¨ ohen die Leistungsf¨ahigkeit des Autos! b) Besonders große paarweise Korrelationen finden wir bei: (PS, Gewicht)
(PS, Zylinder)
(Gewicht, Zylinder)
Wir erkennen, dass unter den drei Einflussgr¨oßen ’PS’, ’Anzahl Zylinder’ und ’Gewicht’ hohe Korrelationen auftreten, was auf eine starke Abh¨ angigkeit hindeutet. Deswegen werden bei unserem Endmodell vermutlich nicht alle der drei Variablen vertreten sein. c) Die Grafiken zeigen die negativen Korrelationen (Y, Hubraum), (Y, PS) und die positiven Korrelation (Y, Beschleunigung) - aufgesplittet nach dem Herstellungsland. Die USA scheinen dabei Autos mit der geringsten Leistungsf¨ ahigkeit herzustellen. d) Das Regressionsmodell w¨ urde lauten: Y = −14.76 + 0.025 · Hubraum − 0.021 · P S − 0.007 · Gewicht +0.061 · Beschleunigung + 0.780 · Baujahr − 0.519 · Zylinder −2.879 · Land1 − 0.209 · Land2 Wenn wir nun die u oßen festhalten, erhalten wir folgende ¨brigen Einflussgr¨ Regressionsgleichungen: Y = (f est) − 2.879 · U SA Y = (f est) − 0.209 · Europa Y = (f est) + 0 · Japan Dies best¨ atigt nun noch einmal unsere Hypothese aus Aufgabenteil c), dass die in den USA produzierten Autos eine geringere Leistungsf¨ahigkeit aufweisen. Allein die Tatsache, dass ein Auto dort hergestellt wird, verringert die Anzahl der gefahrenen Meilen pro Gallone um 2.879 Einheiten im Vergleich zu Japan. F¨ ur die Streuungszerlegung erhalten wir: SQtotal = SQReg + SQRes 23609.775 = 19432.238 + 4177.538
13.6 Aufgaben
269
Der Anteil der von der Regression erkl¨ arten Streuung liegt damit bei 19432.238 2 ≈ 0.82. Der Wert von R best¨ atigt hierbei unseren berechne23609.775 ten Wert. e) Nicht signifikant sind -separat betrachtet- die Merkmale ’PS’, ’Beschleunigung’ und ’Anzahl der Zylinder’, da deren p-Werte deutlich u ¨ber dem Signifikanzniveau von 0.05 liegen. Auch ’Land2’ weist einen nicht signifikanten Wert auf. Da aber ’Land1’ und damit auch das Herstellungsland insgesamt signifikant ist, m¨ ussen wir die einzelnen Kategorien trotzdem in unserem Modell behalten. f) Betrachten wir nur die Einflussgr¨ oße ’Herstellungsland’, so erhalten wir folgende Regressionsgleichungen: Y = (f est) − 2.792 · U SA Y = (f est) − 0.161 · Europa Y = (f est) + 0 · Japan Wir k¨ onnen dies wie folgt interpretieren: Japan Europa USA
= = =
fest −0.161 Meilen/Gallone gegen¨ uber Japan −2.792 Meilen/Gallone gegen¨ uber Japan
Sollte Ihnen der Umgang mit kategorialen Einflussgr¨oßen noch Schwierigkeiten bereiten, so betrachten Sie noch einmal Beispiel 5.4.2, in dem der Umgang damit f¨ ur die lineare Einfachregression erl¨autert wird. Aufgabe 13.2: Wir betrachten wieder den Datensatz ’Hotelauslastung/Durchschnittstemperatur’ (Aufgaben 4.8 und 5.6). Zun¨achst f¨ uhren wir die univariate Regression Hotelauslastung als Funktion der Durchschnittstemperatur durch (Hotelauslastung ist die abh¨ angige Variable, Temperatur die unabh¨ angige Variable). Wir erhalten folgendes Modell: Model 1 Model 1
Model 1
R .025
Regression Residual Total
R-Sq .001
SS 16.497 25434.725 25451.222
(Constant) Durchschnittstemperatur
Adj. R-SQ -.029 df 1 34 35
Std. Error 27.351
Mean Square 16.497 748.080
β 50.335 .077
Std. Error 7.818 .520
F .022
t 6.438 .149
Sig. .883
Sig .000 .883
270
13. Multiple lineare Regression
a) Wie h¨ angen R (Korrelationskoeffizient r) und R-Square (Bestimmtheitsangen die Signifikanz des Modells und der maß R2 ) zusammen? Wie h¨ Durchschnittstemperatur zusammen? Warum ist das Modell nicht signifikant? Wir betrachten nun die multiple Regression unter Einschluss der Orte in Dummykodierung mit Basel als Referenzkategorie. Wir erhalten folgendes Modell: Model 1 Model 1
Model 1
R .164
Regression Residual Total
R-Sq .027
Adj. R-SQ -.064
SS 687.538 24763.685 25451.222
(Constant) Durchschnittstemperatur X1 X2
df 3 32 35
Std. Error 27.818
Mean Square 229.179 773.865
β 44.173 .347 9.795 -1.192
F .296
Std. Error 10.995 .626 11.852 11.978
Sig. .828
t 4.018 .826 .826 -.100
Sig .000 .583 .415 .921
b) Wie sch¨ atzen Sie dieses Modell ein? Welchen weiteren Schritt schlagen Sie vor? Wir betrachten nun drei separate Modelle und erhalten: Ort Davos Polenca Basel Ort Davos
Polenca
Basel
Model 1 1 1
Regression Residual Total Regression Residual Total Regression Residual Total
R .870 .818 .415
R-Sq .758 .670 .172
SS 5421.793 1734.457 7156.250 6495.573 3204.677 9700.250 1403.883 6740.783 8144.667
Adj. R-SQ .733 .637 .090 df 1 10 11 1 10 11 1 10 11
Std. Error 13.170 17.902 25.963
Mean Sq 5421.793 173.446
F 31.259
Sig. .000
6495.573 320.468
20.269
.001
1403.883 674.078
2.083
.180
13.6 Aufgaben
Ort Davos Polenca Basel
(Constant) Temperatur (Constant) Temperatur (Constant) Temperatur
β 73.940 -2.687 -22.647 3.976 32.574 1.313
Std. Error 4.946 .481 16.785 .883 13.245 .910
t 14.949 .5.591 -1.349 4.502 2.459 1.443
271
Sig .000 .000 .207 .001 .034 .180
c) Interpretieren Sie die drei Modelle bez¨ uglich Signifikanz. Was sehen Sie beim Modell f¨ ur Basel? L¨ osung: a) Es gilt r2 = R2 , also 0.0252 = 0.000625 ≈ 0.001. Bei der univariaten Regression ist die Signifikanz des Modells gleichbedeutend mit der Signifikanz der einzigen Einflussgr¨ oße X. In Aufgabe 5.6 hatten wir bereits gesehen, dass die Korrelation Hotelauslastung / Temperatur insgesamt nicht signifikant ist. Erst die Ber¨ ucksichtigung der drei Orte ergibt separat f¨ ur die drei Orte signifikante Korrelationen. b) Das Modell ist nicht signifikant (Sig. 0.828). Der Versuch ein gemeinsames Modell f¨ ur die drei Orte zu bilden, gelingt nicht. Man sollte drei separate Modelle berechnen. c) Die Modelle f¨ ur Davos und Polenca sind signifikant. In Davos f¨ uhrt ein Absinken der Temperatur um ein Grad zu einem signifikanten mittleren Anstieg der Hotelauslastung um 2.687% (Absinken der Temperatur heißt X = −1, also (−1) · x · (−2.687) = 2.687 ). In Polenca f¨ uhrt der Anstieg um 1 Grad zu einem signifikanten mittleren Anstieg der Hotelauslastung um 3.978%. In Basel, wo das Modell nicht signifikant ist, f¨ uhrt ein Temperaturwechsel zu keiner signifikanten Ver¨ anderung der Hotelauslastung. Basel ist also ein Ort, der unabh¨ angig von der Temperatur besucht wird (Messen, Ausstellungen, Museen).
14. Analyse von Kontingenztafeln
In diesem Kapitel betrachten wir zwei Variablen X und Y und setzen voraus, dass X und Y entweder kategoriale Zufallsvariablen (ordinal oder nominal) oder klassierte stetige Zufallsvariablen sind. Uns interessiert eine m¨ogliche Abh¨ angigkeit zwischen den beiden Variablen. Beispielsweise k¨onnten die Merkmale X: Alkoholiker/Nichtalkoholiker und Y : Krankheit ja/nein erhoben worden sein und wir m¨ ochten nun wissen ob die beiden Merkmale unabh¨ angig oder abh¨ angig voneinander sind. Zur Darstellung unserer Informationen benutzen wir Kontingenztafeln und m¨ochten dabei Methoden zur Auswertung dieser Kontingenztafeln erl¨ autern. All diese Methoden sind f¨ ur nominale und ordinale Variablen anwendbar, nutzen jedoch im Fall ordinaler Variablen den damit verbundenen Informationsgewinn nicht aus.
14.1 Zweidimensionale kategoriale Zufallsvariablen Die beiden Zufallsvariablen X und Y bilden den zweidimensionalen Zufallsvektor (X, Y ), dessen gemeinsame Verteilung untersucht wird. Von Interesse ist die Hypothese H0 : X und Y sind unabh¨angig“. ” Bei Ablehnung der Hypothese wird man – wie im Regressionsmodell – versuchen, den Zusammenhang n¨ aher zu untersuchen (z.B. auf Trends) bzw. durch ein geeignetes Modell zu erfassen. Die Zufallsvariable X habe I Auspr¨ agungen x1 , . . . , xI , analog habe Y J Auspr¨agungen y1 , . . . , yJ . Werden an Objekten jeweils beide Zufallsvariablen beobachtet, so ergeben sich I × J m¨ ogliche (Kreuz-) Klassifikationen. Die gemeinsame Verteilung von (X, Y ) wird durch die Wahrscheinlichkeiten P (X = i, Y = j) = πij definiert, wobei
I i=1
J j=1
πij = 1 gilt.
Die Randwahrscheinlichkeiten erh¨ alt man durch zeilen- bzw. spaltenweises Aufsummieren:
274
14. Analyse von Kontingenztafeln J
P (X = i) = πi+ =
πij
,
i = 1, . . . , I ,
πij
,
j = 1, . . . , J .
j=1
P (Y = j) = π+j =
I i=1
Es gilt I
πi+ =
i=1
J
π+j = 1 .
j=1
Als gemeinsame Verteilung f¨ ur X und Y erhalten wir:
Tabelle 14.1. Gemeinsame Verteilung und Randverteilungen von X und Y Y
X
1 2 .. . I
1 π11 π21 .. . πI1 π+1
2 π12 π22 .. . πI2 π+2
... ... ... ... ...
J π1J π2J .. . πIJ π+J
π1+ π2+ .. . πI+
Beispiel 14.1.1. Wir betrachten erneut Beispiel 8.6.1. An n = 1000 Personen werden gleichzeitig die Variablen X: “Bildung” (1: “h¨ochstens mittlere Reife”, 2: “Abitur”, 3: “Hochschulabschluss”) und Y: “Gesundheitsverhalten” (1: “Nichtraucher“, 2: “gelegentlicher Raucher“, 3: “starker Raucher”) beobachtet. Die Kontingenztafel mit den Wahrscheinlichkeiten ist wie folgt:
X
1 2 3
1 0.10 0.10 0.08 0.28
Y 2 0.20 0.10 0.01 0.31
3 0.30 0.10 0.01 0.41
0.60 0.30 0.10 1
I J Wir erkennen, dass sowohl i=1 πi+ = 0.6 + 0.3 + 0.1, als auch j=1 π+j = 0.28 + 0.31 + 0.41 ’Eins’ ergibt. Bedingte Verteilung Die Wahrscheinlichkeiten {π1+ , . . . , πI+ } und {π+1 , . . . , π+J } definieren die Randverteilungen von X und Y . Sind X und Y Zufallsvariablen, dann ist die
14.2 Unabh¨ angigkeit
275
bedingte Verteilung von Y gegeben X = i definiert durch die Wahrscheinlichkeiten πij ∀j . (14.1) P (Y = j|X = i) = πj|i = πi+ Die Wahrscheinlichkeiten {π1|i , . . . , πJ|i } bilden also die bedingte Verteilung von Y auf der Stufe i von X. Analog wird die bedingte Verteilung von X gegeben Y = j definiert durch die Wahrscheinlichkeiten {π1|j , . . . , πI|j } mit P (X = i|Y = j) = πi|j =
πij π+j
∀i .
(14.2)
Beispiel 14.1.2. Sei I = J = 2. Die gemeinsame Verteilung von X und Y (ohne Klammern) und die bedingte Verteilung von X gegeben Y (mit Klammern) sind in der nachfolgenden 2 × 2-Tafel dargestellt: Y 1 X 2
1 π11 (π1|1 ) π21 (π2|1 ) π+1 (1)
2 π12 (π1|2 ) π22 (π2|2 ) π+2 (1)
π11 + π12 = π1+ (π1|1 + π1|2 = 1) π21 + π22 = π2+ (π2|1 + π2|2 = 1) 1
14.2 Unabh¨ angigkeit Die Variablen X und Y der Kontingenztafel heißen unabh¨angig, falls alle gemeinsamen Wahrscheinlichkeiten gleich dem Produkt der Randwahrscheinlichkeiten sind: (14.3) πij = πi+ π+j ∀i, j . Sind X und Y unabh¨ angig gem¨ aß Definition (14.3), dann gilt: P (Y = j|X = i) = πj|i =
πij πi+ π+j = = π+j πi+ πi+
∀i .
D.h., jede bedingte Verteilung von Y gegeben X ist gleich der Randverteilung von Y unabh¨ angig von der Stufe i der Variablen X. Im Fall der Unabh¨angigkeit gilt genauso P (X = i|Y = j) = πi|j =
πij πi+ π+j = = πi+ π+j π+j
∀j .
Beispiel 14.2.1. Wir betrachten erneut Beispiel 14.1.1. Die beiden Variablen sind nicht unabh¨angig, da z.B. π1+ π+1 = 0.60 · 0.28 = 0.168 = 0.10 = π11 .
276
14. Analyse von Kontingenztafeln
14.3 χ2 -Unabh¨ angigkeitstest Grundlagen Wir setzen voraus, dass wir in einer zuf¨ alligen Stichprobe die H¨aufigkeiten nij (i = 1, . . . , I, j = 1, . . . , J) der (i, j)-ten Auspr¨agung der Zufallsvariablen (X, Y ) beobachtet haben. Die H¨ aufigkeiten werden in einer Kontingenztafel zusammengefasst: Y
X
1 2 .. . I
1 n11 n21 .. .
2 n12 n22
··· ··· ··· .. .
J n1J n2J .. .
n1+ n2+ .. .
nI1 n+1
nI2 n+2
··· ···
nIJ n+J
nI+ n
Dabei ist ni+ n+j n
die i-te Zeilensumme, die j-te Spaltensumme, die Gesamtzahl der Beobachtungen.
Die statistischen Methoden f¨ ur Kontingenztafeln treffen bestimmte Annahmen u ¨ber das Zustandekommen einer vorliegenden Kontingenztafel von beobachteten H¨ aufigkeiten. Die beobachteten Zellh¨aufigkeiten {n1 , . . . , nN } N bezeichnen wir mit n = i=1 ni . Die Erwartungswerte E(ni ) bezeichnen wir aufigkeiten {m1 , . . . , mN }. Ihre mit mi . Diese nennen wir die erwarteten Zellh¨ Sch¨ atzungen m ˆ ij berechnen sich als: πij = m ˆ ij = nˆ
ni+ n+j . n
(14.4)
Testaufbau und Testgr¨ oße In Zweifach-Kontingenztafeln mit multinomialem Stichprobenschema sind H0 : X und Y sind statistisch unabh¨ angig“ und H0 : πij = πi+ π+j ∀i, j ” ¨aquivalent. Als Teststatistik erhalten wir Pearson’s χ2 -Statistik in der Gestalt I J (nij − mij )2 C= , mij i=1 j=1 wobei die mij = nπij = nπi+ π+j (erwartete Zellh¨aufigkeiten unter H0 ) unbekannt sind. Mit der Sch¨ atzung m ˆ ij erhalten wir c=
I J (nij − m ˆ ij )2 . m ˆ ij i=1 j=1
(14.5)
14.4 Die Vierfeldertafel
277
Testentscheidung Mit insgesamt (I − 1)(J − 1) Freiheitsgraden treffen wir folgende Testentscheidung: Lehne H0 ab, falls c > c(I−1)(J−1);1−α = χ2(I−1)(J−1);1−α gilt. Beispiel 14.3.1. Wir betrachten erneut Beispiel 8.6.1 und 14.1.1. F¨ ur die beiden Merkmale ’Bildung’ und ’Gesundheitsverhalten’ liegt folgende Kontingenztafel vor:
X
1 2 3
1 100 100 80 280
Y 2 200 100 10 310
F¨ ur die erwarteten H¨ aufigkeiten m ˆ ij =
3 300 100 10 410
ni+ n+j n
600 300 100 1000
berechnen wir folgende Werte:
Y
X
1 2 3
1 168 84 28
2 186 93 31
3 246 123 41
Wir erhalten dann eine Teststatistik von: c= =
I J (nij − m ˆ ij )2 m ˆ ij i=1 j=1
(10 − 41)2 (100 − 168)2 + ... + ≈ 182.54 . 168 41
Da χ24;0.95 = 9.49 < 182.54 m¨ ussen wir die Nullhypothese verwerfen. Die beiden Merkmale k¨ onnen also nicht als unabh¨angig angesehen werden.
14.4 Die Vierfeldertafel Die Vierfeldertafel ist ein wesentlicher Spezialfall von I ×J-Kontingenztafeln. Sie hat mit der Standardkodierung 1 und 0 f¨ ur die beiden Auspr¨agungen von X und Y die Gestalt wie in Tabelle 14.2. Die allgemeine Form (14.5) der Chi-Quadrat-Statistik zum Pr¨ ufen von angig“ vereinfacht sich zu H0 : X und Y unabh¨ ” (n11 n22 − n12 n21 )2 n C= . n1+ n2+ n+1 n+2
278
14. Analyse von Kontingenztafeln Tabelle 14.2. Vierfeldertafel der Grundgesamtheit und der Stichprobe Y X
1 0
1 π11 π21 π+1
Y 0 π12 π22 π+2
π1+ π2+ 1
X
1 0
1 n11 n21 n+1
0 n12 n22 n+2
n1+ n2+ n
Zus¨ atzlich zur χ2 -Statistik kann man ein Maß verwenden, das die St¨arke und die Richtung des Zusammenhangs zwischen X und Y angibt – den OddsRatio oder das sogenannte Kreuzprodukt-Verh¨altnis. Odds-Ratio Der Odds-Ratio in der gemeinsamen Verteilung von X und Y ist definiert als OR =
π11 π22 . π12 π21
Der Odds-Ratio ist der Quotient aus dem Odds π11 /π12 in der Auspr¨agung agung x2 = 0. Die Odds geben f¨ ur x1 = 1 zum Odds π21 /π22 in der Auspr¨ die jeweilige X-Auspr¨ agung das Verh¨ altnis an, die Auspr¨agung y1 = 1 statt ur beide X-Auspr¨agungen identisch sind y2 = 0 zu erhalten. Falls die Odds f¨ – also nicht von X abh¨ angen – so gilt OR = 1. Theorem 14.4.1. In einer Vierfeldertafel sind X und Y genau dann unabh¨ angig, wenn OR = 1 gilt. Es gilt stets 0 ≤ OR < ∞ . F¨ ur 0 ≤ OR < 1 liegt ein negativer Zusammenhang zwischen X und Y vor, f¨ ur OR > 1 ein positiver Zusammenhang. Positiv bedeutet, dass das Produkt der Wahrscheinlichkeiten der u ¨bereinstimmenden Auspr¨agungen (X = 1, Y = 1) und (X = 0, Y = 0) gr¨oßer ist als das Produkt der Wahrscheinlichkeiten f¨ ur die gegenl¨ aufigen Auspr¨agungen (X = 1, Y = 0) und (X = 0, Y = 1). Die Sch¨ atzung des OR erfolgt durch den Stichproben Odds-Ratio = n11 n22 . OR n12 n21 Basierend auf dem Odds-Ratio l¨ asst sich – alternativ zur χ2 -Statistik – eiangig“ durch folgende monotone ne Teststatistik f¨ ur H0 : X und Y unabh¨ ” Transformation gewinnen:
14.4 Die Vierfeldertafel
279
Sei θ0 = ln OR = ln π11 + ln π22 − ln π12 − ln π21 und
= ln n11 n22 , θˆ0 = ln OR n12 n21 so gilt asymptotisch, dass θˆ0 normalverteilt ist mit Erwartungswert θ0 . Die atzt durch Standardabweichung von θˆ0 wird gesch¨ 1 1 1 1 1 2 + + + . σ ˆθˆ0 = n11 n22 n12 n21
Bei Unabh¨ angigkeit von X und Y ist OR = 1 und damit θ0 = ln OR = 0. ur 0 < θ0 < ∞ ein positiver F¨ ur −∞ < θ0 < 0 liegt ein negativer und f¨ Zusammenhang vor. Alternativer Test Wir k¨ onnen also zus¨ atzlich zum Test mit der χ2 -Statistik folgenden Test angig“ gegen H1 : X und Y nicht unabh¨angig“ f¨ ur H0 : X und Y unabh¨ ” ” durchf¨ uhren. Wir bestimmen die Teststatistik Z, die unter H0 : θ = 0 standardnormalverteilt ist: θˆ0 ∼ N (0, 1) . Z= σ ˆθˆ0 Wir werden H0 ablehnen, falls |Z| > z1− α2 gilt (zweiseitige Fragestellung). Wir bestimmen ein (1 − α)-Konfidenzintervall f¨ ur θ0 gem¨aß ˆθˆ0 , θˆ0 + z1− α2 σ ˆθˆ0 = [Iu , Io ] θˆ0 − z1− α2 σ und lehnen H0 ab, falls die Null nicht im Intervall enthalten ist. Durch R¨ ucktransformation erhalten wir ein Konfidenzintervall f¨ ur den Odds-Ratio selbst gem¨ aß (14.6) [exp(Iu ), exp(Io )] . Auf der Basis von (14.6) w¨ urde man H0 ablehnen, falls die Eins nicht im Intervall enthalten ist. Alle diese Tests sind nat¨ urlich a¨quivalent. Beispiel 14.4.1. In einer Studie wird der Einfluss von Strategietraining von n = 255 Managern auf den Erfolg der Firmen untersucht:
Training (X)
nein ja
Erfolg nein 40 30 70
(Y ) ja 75 110 185
115 140 255
280
14. Analyse von Kontingenztafeln
Wir pr¨ ufen H0 : X, Y unabh¨ angig“. ” (i) Chi-Quadrat-Statistik C=
255(40 · 110 − 30 · 75)2 = 5.65 > 3.84 = c1;0.95 , 70 · 185 · 115 · 140
d.h., H0 wird abgelehnt (p-value 0.0174). (ii) Odds-Ratio
= 40 · 110 = 1.96 , OR 75 · 30 d.h., es besteht ein positiver Zusammenhang.
(iii) ln(OR) = θˆ0 = 0.673 ln OR 1 1 1 1 + + + = 0.0808 = 0.2842 . σ ˆθ2ˆ = 0 40 75 30 110 Damit erhalten wir z = ablehnen.
θˆ0 σ ˆθˆ
0
≈ 2.370 > 1.96 = z0.975 , weswegen wir H0
(iv) 95%-Konfidenzintervall f¨ ur θ0 [0.673 − 1.96 · 0.284, 0.673 + 1.96 · 0.284] = [0.116, 1.230] . Wir lehnen H0 ab (zweiseitiger Test), da die Null nicht im Intervall enthalten ist. Das 95%-Konfidenzintervall f¨ ur OR hat die Gestalt [exp(0.116), exp(1.230)] = [1.123, 3.421] . Wir lehnen H0 ab, da die Eins nicht im Konfidenzintervall enthalten ist.
14.6 Aufgaben
281
14.5 Weitere Hinweise Merke:
Um die Unabh¨ angigkeit zweier diskreter, ordinaler oder stetig klassierter Variablen zu u ufen, verwendet man den ¨berpr¨ angigkeitstest und lehnt die Nullhypothese der Unχ2 -Unabh¨ abh¨ angigkeit ab, wenn c > c(I−1)(J−1);1−α .
Alternativ kann f¨ ur 2 × 2-Tafeln auch das Konfidenzintervall des Odds-Ratio (OR) bzw. des logarithmierten Odds-Ratio (θ0 ) betrachtet werden: (i) exp(θˆ0 − z1− α2 σ ˆθˆ0 ), exp(θˆ0 + z1− α2 σ ˆθˆ0 ) ˆθˆ0 , θˆ0 + z1− α2 σ ˆθˆ0 (ii) θˆ0 − z1− α2 σ
Dabei wird die Nullhypothese der Unabh¨angigkeit verworfen, wenn die Eins nicht in (i) bzw. die Null nicht in (ii) enthalten ist. ¨ Kontingenztafeln werden auch h¨ aufig eingesetzt, um die Ubereinstimmung von verschiedenen Beobachtern zueinander zu veran¨ schaulichen. Die κ-Maßzahlen zur Beurteilung der Ubereinstimmung findet man bei Toutenburg und Heumann (2008), Deskriptive Statistik.
14.6 Aufgaben Aufgabe 14.1: Ein Supermarkt f¨ uhrt eine Umfrage zur Zufriedenheit der Kunden durch. Folgende Tabelle veranschaulicht den Grad der Zufriedenheit, abh¨ angig vom Geschlecht: Geschlecht/Zufriedenheit m¨ annlich weiblich
sehr zufrieden 45 65 110
zufrieden 68 42 110
unzufrieden 55 13 68
168 120 288
¨ Uberpr¨ ufen Sie mit Hilfe eines χ2 -Unabh¨ angigkeitstests (α = 0.05), ob die beiden Merkmale als unabh¨ angig angesehen werden k¨onnen!
282
14. Analyse von Kontingenztafeln
L¨ osung: Wir berechnen zuerst die Tabelle der erwarteten H¨aufigkeiten m ˆ ij : Geschlecht/Zufriedenheit m¨ annlich weiblich
sehr zufrieden 64.17 45.83
zufrieden 64.17 45.83
unzufrieden 39.67 28.33
Nun k¨ onnen wir die Teststatistik berechnen: c=
I J (13 − 28.33)2 (nij − m ˆ ij )2 (45 − 64.17)2 + ... + ≈ 28.50 = m ˆ ij 64.17 28.33 i=1 j=1
Da χ23,0.95 = 7.81 < 28.5 muss die Nullhypothese verworfen werden. Die beiden Merkmale k¨ onnen also nicht als unabh¨angig angesehen werden. Aufgabe 14.2: Wir betrachten folgende Vierfeldertafel, die das ’Interesse an der spanischen Sprache’ abh¨ angig vom Geschlecht angibt: Interesse kein Interesse m¨ annlich 60 40 100 80 20 100 weiblich 140 60 200 Untersucht werden soll die Hypothese, ob von Unabh¨angigkeit zwischen den beiden Merkmalen ausgegangen werden kann (α = 0.05). ¨ a) Uberpr¨ ufen Sie diese These mit Hilfe des χ2 -Unabh¨angigkeitstests! b) Berechnen Sie den Odds-Ratio! c) F¨ uhren Sie einen alternativen Test auf Unabh¨angigkeit mit Hilfe des logarithmierten Odds-Ratio durch! d) F¨ allen Sie eine Testentscheidung auf Basis des Konfidenzintervalls f¨ ur θ0 ! e) Was f¨ ur eine Entscheidung w¨ urden Sie anhand des Konfidenzintervalls f¨ ur den Odds-Ratio treffen? f) Was ist nun Ihr Res¨ umee bez¨ uglich der Unabh¨angigkeit? L¨ osung: a) Die Teststatistik berechnet sich wie folgt: C=
(n11 n22 − n12 n21 )2 n 200 · (60 · 20 − 80 · 40)2 ≈ 9.52 . = n1+ n2+ n+1 n+2 140 · 60 · 100 · 100
Da 9.52 > χ21;0.95 = 3.84 ist, m¨ ussen wir die Nullhypothese von zwei unabh¨ angigen Variablen verwerfen. b) Wir berechnen den Odds-Ratio: = n11 n22 = 60 · 20 = 0.375 . OR n12 n21 80 · 40
14.6 Aufgaben
283
c) Wir berechnen folgende Werte: σ ˆθ20 =
1 1 1 1 + + + = 0.104 60 40 80 20 = θˆ0 = −0.98 ln OR −0.98 θˆ0 ≈ −3.04 . =√ z= σ ˆθˆ0 0.104
Da |z| = 3.04 > z1− α2 = 1.96 ist, muss auch hier die Nullhypothese verworfen werden. d) Wir berechnen das 95%-Konfidenzintervall f¨ ur θ0 : √ [−0.98 ± 1.96 · 0.104] = [−1.612; −0.34] Da die ’Null’ im Intervall nicht enthalten ist, verwerfen wir die Nullhypothese! e) Wir erhalten folgendes Intervall: [exp(−1.612); exp(−0.34)] = [0.199; 0.710] Da die ’Eins’ nicht im Intervall enthalten ist, verwerfen wir die Nullhypothese. f) Alle durchgef¨ uhrten Tests empfehlen die Nullhypothese zu verwerfen. Man kann also davon ausgehen, dass die beiden Merkmale ’Interesse’ und ’Geschlecht’ nicht unabh¨ angig sind. Aufgabe 14.3: Wir betrachten noch einmal Aufgabe 4.3. An einer Tankstelle wurden 150 Kunden nach dem Fahrzeugtyp gefragt, den sie am meisten benutzen, und der Zufriedenheit mit ihrer KFZ-Versicherung. Die nachfolgende Tabelle enth¨ alt das Ergebnis der Erhebung: Typ des Fahrzeugs Auto mit Benzinmotor Auto mit Dieselmotor Motorrad
zufrieden 33 29 12
unzufrieden 25 31 20
¨ a) Uberpr¨ ufen Sie die Unabh¨ angigkeit der beiden Merkmale ‘Fahrzeugtyp’ und ‘Zufriedenheit’ mit Hilfe des χ2 -Unabh¨angigkeitstests (α = 0.05). b) Erstellen Sie die 2 × 2-Kontingenztabelle f¨ ur den Fall, dass nur noch zwischen Autos und Motorr¨ adern unterschieden wird. F¨ uhren Sie erneut einen angigkeitstest durch (α = 0.05). χ2 -Unabh¨ c) Berechnen Sie nun auch den Odds-Ratio. d) F¨ uhren Sie den alternativen Unabh¨ angigkeitstest auf Basis des logarithmierten Odds-Ratio durch.
284
14. Analyse von Kontingenztafeln
e) Vergleichen Sie Ihre Ergebnisse mit den Zusammenhangsmaßen aus Aufgabe 4.3. L¨ osung: a) Wir erhalten: 2
χ =
k l (nij − i=1 j=1
ni+ n+j 2 ) n ni+ n+j n
(25 − 29.39)2 (29 − 29.6)2 (33 − 28.61)2 + + 28.61 29.39 29.6 (12 − 15.79)2 (20 − 16.21)2 (31 − 30.4)2 + + + 30.4 15.79 16.21 = 0.6736 + 0.6557 + 0.0122 + 0.0112 + 0.9097 + 0.8861 = 3.1485. =
Da c = 3.1488 < c(3−1)·(2−1);0.95 = c2;0.95 = 5.99 wird die Nullhypothese der Unabh¨ angigkeit beibehalten. b) Wir erhalten nun folgende Tabelle: Typ des Fahrzeugs Auto Motorrad
zufrieden 62 12
unzufrieden 56 20
Die Teststatistik berechnet sich wie folgt: χ2 =
(n11 n22 − n12 n21 )2 n = n1+ n2+ n+1 n+2
48393600 150(1240 − 672)2 = ≈ 2.2788. 118 · 32 · 74 · 76 21236224 Da c = 2.2788 < c1;0.95 = 3.84 wird die Nullhypothese der Unabh¨angigkeit beibehalten. =
c) Wir berechnen den Odds-Ratio: = n11 n22 = 62 · 20 ≈ 1.845 . OR n12 n21 12 · 56 d) Wir ben¨ otigen folgende Werte: = ln 1.845 ≈ 0.612 θˆ0 = ln OR 1 1 1 1 σ ˆ θ0 = + + + ≈ 0.409 62 20 12 56 θˆ0 0.612 z= ≈ 1.496 = σ ˆ θ0 0.409
14.6 Aufgaben
285
Da |z| = 1.496 < z1− α2 = 1.96 wird die Nullhypothese beibehalten. ‘Fahrzeugtyp’ und ‘Zufriedenheit’ sind also unabh¨angig. e) In Aufgabe 4.3 haben wir f¨ ur Aufgabenteil a) V = 0.14 und Ckorr = 0.20 berechnet, f¨ ur Aufgabenteil b) ein im Vergleich zum Maximalwert geringes χ2 . Schon dort haben wir vermutet, dass die beiden Merkmale – wenn u angen. Mit Hilfe der Tests haben ¨berhaupt – nur schwach zusammenh¨ wir diese Vermutung untermauert.
15. Datenanalyse
In diesem Kapitel wollen wir anhand eines Datensatzes eine komplette Datenanalyse (mit SPSS Version 16) vorf¨ uhren. Es handelt sich um Daten zu ¨ den drei Filialen eines Pizza-Lieferdienstes. Sie sind zu Ubungszwecken unter http://www.statistik.lmu.de/institut/ag/toutenb/daten/pizza.sav bereitgestellt. Im Allgemeinen schmeckt eine Pizza dann besonders gut, wenn sie noch heiß auf den Tisch kommt. Deshalb ist es im Interesse eines PizzaLieferdienstes, dass die Kunden m¨ oglichst schnell beliefert werden, da gerade dann die Chance hoch ist, dass die Pizza bei Lieferung noch heiß ist. Zudem verspricht man sich schon allein durch eine schnelle Lieferung eine hohe Kundenzufriedenheit. Die von uns analysierten Daten stammen aus drei u ¨ber dem Stadtgebiet einer Großstadt verteilten Filialen. Die erhobenen Daten sollen ¨ zun¨ achst dazu dienen, einen Uberblick u ¨ber wichtige Merkmale zu erhalten, zum Beispiel die Verteilung der Zustellzeiten. Deshalb wurde jeder Fahrer angewiesen, die Zustellzeit auf einer Stoppuhr zu messen. Gleichzeitig bekam jeder Fahrer ein Temperaturmessger¨ at, mit dem er die Temperatur einer Pizza bei Ankunft beim Kunden messen konnte. Insgesamt stehen Datens¨atze von 1209 Lieferungen (F¨ alle) zur Verf¨ ugung. Wir konzentrieren uns auf folgende Fragestellungen: • Wie sehen die Verteilungen der beiden Merkmale Zustellzeit“ und der ” Temperatur der Pizza bei Anlieferung“ aus? ” • Bestehen bez¨ uglich dieser Merkmale Unterschiede in den Filialen? • Der Pizza-Lieferdienst sieht es als optimal an, wenn die Zustellzeit unter 35 Minuten betr¨ agt und die Temperatur der Pizzen u ¨ber 45◦ C liegt. Wieviel Lieferungen erf¨ ullen diese Kriterien? Gibt es auch hier Unterschiede zwischen den Filialen? Im Folgenden betrachten wir also die Merkmale • • •
Zustellzeit“ (Angabe als Dezimalzahl, in Minuten) ” Temperatur der Pizza bei Anlieferung“ (Angabe als Dezimalzahl, in ◦ C) ” Filiale“ (nominales Merkmal, drei Auspr¨ agungen) ” Der Datensatz enth¨ alt noch weitere Variablen, wie zum Beispiel die Anzahl der Pizzen bei Lieferung oder den Namen des Fahrers, der die Pizzen liefert.
288
15. Datenanalyse
Wir beschr¨ anken uns hier jedoch auf die angegebenen drei Merkmale und Fragestellungen.
15.1 Univariate deskriptive Analyse Es bietet sich also zun¨ achst an, die drei betrachteten Merkmale deskriptiv zu analysieren. Dazu bestimmt man Kenngr¨ oßen der Verteilungen und stellt die Verteilungen geeignet grafisch dar. 15.1.1 Merkmal Zustellzeit“ ” Dazu w¨ ahlen wir in SPSS den Men¨ upunkt Analysieren“, dann Deskriptive ” ” Statistiken“, schließlich Explorative Datenanalyse“. Der sich ¨offnende Dialog ” ist in Abbildung 15.1 dargestellt.
Abb. 15.1. Dialog zur explorativen Datenanalyse
Im Punkt Statistiken dieses Auswahldialogs w¨ahlen wir noch Perzentile“ ” ¨ aus. Damit erhalten wir einen kompakten Uberblick u ¨ber die Kennzahlen dieses Merkmals. In Tabelle 15.2 erhalten wir zun¨achst Informationen dar¨ uber, ob das Merkmal f¨ ur alle 1209 F¨ alle beobachtet wurde. Dies ist hier der Fall, d.h. es gibt keine fehlenden Werte bez¨ uglich dieses Merkmals. ¨ Tabelle 15.3 gibt anschließend einen Uberblick u ¨ber die u ¨blichen Kennzahlen wie Mittelwert, Median, Interquartilsabstand, usw. Neben dem Mittelwert findet sich eine Angabe zum sogenannten Standardfehler. Diesen erh¨alt man,
15.1 Univariate deskriptive Analyse
289
Abb. 15.2. Basisinformationen zum Merkmal Zustellzeit“ ”
√ √ wenn man die Standardabweichung durch n teilt, also 9.69352/ 1209 = 0.27878. Schon u ¨ber eine rein deskriptive Analyse hinaus geht die Angabe eines Konfidenzintervalls f¨ ur den Erwartungswert der Zustellzeiten. Die untere und obere Grenze errechnen sich dabei als Mittelwert ± 1.96 · 0.27878.
Abb. 15.3. Deskriptive Statistiken zum Merkmal Zustellzeit“ ”
Tabelle 15.4 liefert die von uns angeforderten Perzentile (Quantile). Man erkennt, dass das 75%-Quantil bei etwa 36 Minuten liegt, so dass etwa ein Viertel aller Lieferungen eine als optimal betrachtete Zustellzeit von unter 35 Minuten nicht einh¨ alt. Tats¨ achlich liegt der Mittelwert nahe bei 35 Minuten (der Median bei etwa 33 Minuten), etwa 50% der Zustellzeiten liegen zwischen 30 und 36 Minuten.
Abb. 15.4. Verschiedene Quantile zum Merkmal Zustellzeit“ ”
290
15. Datenanalyse
Abb. 15.5. Histogramm f¨ ur das Merkmal Zustellzeit“ ”
Als grafische Darstellungen eines metrischen (und quasi-stetigen) Merkmals eignen sich das Histogramm und der Boxplot. Diese werden bei der explorativen Datenanalyse in SPSS als Voreinstellung erzeugt. Das Histogramm ist in Abbildung 15.5 dargestellt, der Boxplot in Abbildung 15.6. Man erkennt hier gut den Nutzen der Histogrammdarstellung, auch wenn bekanntermaßen die Gestalt stark von den Klassenbreiten beeinflusst werden kann. Zum Einen ist jedoch der Stichprobenumfang relativ groß, so dass die Histogrammdarstellung hier durchaus informativ ist, zum Anderen erkennt man, dass es eine relativ große Anzahl von Zustellzeiten gibt die u ¨ber 60 Minuten liegen und daher mit Blick auf die Kundenzufriedenheit sicher nicht akzeptabel sind. Die Zustellzeiten teilen sich praktisch in zwei getrennte Bereiche auf. Als neue Fragestellung k¨ onnte man daran interessiert sein, ob diese extremen Zustellzeiten einer bestimmten Filiale zuzuordnen sind (oder einem bestimmten Fahrer). Im Boxplot wird dieser Cluster“ von hohen Zustellzei” ten als Extremwerte gekennzeichnet und ist klar zu trennen von den u ¨brigen Werten (dieses Muster f¨ uhrt u.a. zu einem positiven Schiefeparameter, der eine rechtsschiefe/linkssteile Verteilung anzeigt). Manchmal durchaus n¨ utzlich sind die Markierungen der Ausreißer und Extremwerte im Boxplot durch die Fallnummer. Eventuell kann man daran auch Fehleingaben (also unplausible oder unlogische Werte, zum Beispiel eine Zustellzeit von 10000 Minuten oder −5 Minuten, Selbstabholer k¨ onnten allerdings durch 0 Minuten charakteri-
15.1 Univariate deskriptive Analyse
291
siert sein) erkennen. Allerdings ist zu beachten, dass sich diese Markierungen nach einer Umsortierung des Datensatzes ver¨ andern k¨onnen.
Abb. 15.6. Boxplot f¨ ur das Merkmal Zustellzeit“ ”
15.1.2 Merkmal Temperatur der Pizza bei Anlieferung“ ” Analog zum Merkmal Zustellzeit“ wird nun die deskriptive Analyse f¨ ur die” ses Merkmal durchgef¨ uhrt. Die Basisinformation in Tabelle 15.7 liefert, dass auch dieses Merkmal f¨ ur alle 1209 F¨ alle beobachtet wurde, also keine fehlenden Werte auftreten.
Abb. 15.7. Basisinformationen zum Merkmal Temperatur“ ”
292
15. Datenanalyse
Mittelwert und Median aus Tabelle 15.8 liegen u ¨ber der als Minimaltemallt bei Betrachtung der Quantile in peratur angesehenen 45◦ C. Allerdings f¨ Tabelle 15.9 auf, dass das 25%-Quantil bei etwa 42◦ C liegt, so dass mindestens ein Viertel der Lieferungen die Minimaltemperatur von 45◦ C unterschreiten. Auff¨ allig ist auch das Minimum von etwa 7◦ C.
Abb. 15.8. Deskriptive Statistiken zum Merkmal Temperatur“ ”
Abb. 15.9. Verschiedene Quantile zum Merkmal Temperatur“ ”
Das Histogramm in Abbildung 15.10 zeigt eine deutlich unsymmetrische (linkschiefe) Verteilung, was durch einen negativen Schiefeparameter angezeigt wird. Eine Anzahl von Werten liegt unterhalb von 30◦ C. Diese sind im Boxplot in Abbidung 15.11 wiederum als Extremwerte gekennzeichnet. Eine naheliegende Frage ist, ob Temperatur und Zustellzeit korrelieren. Schließlich erwartet man, dass l¨ angere Zustellzeiten tendenziell zu niedrigeren Temperaturen f¨ uhren. Wir verschieben die Beantwortung dieser Frage auf Abschnitt 15.3. Damit schließen wir die univariate deskriptive Analyse der beiden metrischen Merkmale Zustellzeit“ und Temperatur der Pizza bei Anlieferung“ ” ” vorerst ab und wenden uns dem nominalen Merkmal Filiale“ zu. ”
15.1 Univariate deskriptive Analyse
293
Abb. 15.10. Histogramm f¨ ur das Merkmal Temperatur“ ”
15.1.3 Merkmal Filiale“ ” F¨ ur ein nominales Merkmal bietet sich eigentlich nur das Ausz¨ahlen an, d.h. wie oft jede Kategorie (hier: Filiale 1, 2, oder 3) beobachtet wurde. Als grafische Darstellung verwendet man ein Kreis- oder Balkendiagramm. Dazu w¨ ahlen wir in SPSS den Men¨ upunkt Analysieren“, dann Deskriptive Sta” ” tistiken“, schließlich H¨ aufigkeiten“. Die Tabelle der H¨aufigkeiten ist in Ab” bildung 15.12 dargestellt. Auch bei diesem Merkmal treten keine fehlenden Werte auf. Ein Balkendiagramm f¨ ur diese H¨ aufigkeiten zeigt Abbildung 15.13. 15.1.4 Zusammenfassung Bis jetzt haben wir jedes der Merkmale nur f¨ ur sich und f¨ ur den gesamten Datensatz betrachtet. Wir haben dabei herausgefunden, dass • etwa ein Viertel aller Lieferungen eine als optimal betrachtete Zustellzeit von unter 35 Minuten nicht einh¨ alt, • mindestens ein Viertel der Lieferungen die Minimaltemperatur von 45◦ C unterschreitet, • die Verteilungen der metrischen Merkmale nicht symmetrisch sind und relativ viele Werte stark von den optimalen Vorgaben abweichen.
294
15. Datenanalyse
Abb. 15.11. Boxplot f¨ ur das Merkmal Temperatur“ ”
Abb. 15.12. H¨ aufigkeitstabelle zum Merkmal Filiale“ ”
15.1.5 Weiteres Vorgehen Um weitere Erkenntnisse zu gewinnen, m¨ ussen wir mehr als ein Merkmal simultan betrachten, also eine multivariate statt einer univariaten Analyse vornehmen. Da eine interessierende Fragestellung war, inwiefern sich die Filialen bez¨ uglich der metrischen Merkmale unterscheiden, wollen wir im Folgenden eine solche Analyse durchf¨ uhren. Statistisch handelt es sich dabei um die Analyse des Zusammenhangs eines metrischen Merkmals mit einem nominalen Merkmal. Dies geschieht durch separate bivariate Analysen jeweils eines metrischen Merkmals mit dem nominalen Merkmal Filiale“. ”
15.2 Bivariate deskriptive Analyse
295
Abb. 15.13. Balkendiagramm zum Merkmal Filiale“ ”
15.2 Bivariate deskriptive Analyse 15.2.1 Bivariate Analyse von Zustellzeit“ und Filiale“ ” ” Eine einfache M¨ oglichkeit besteht darin, die vorhergehende Analyse von Zu” stellzeit“ getrennt f¨ ur jede Filiale durchzuf¨ uhren (inklusive Grafiken). Dazu kann man beispielsweise den Datensatz in drei Datens¨atze aufteilen, wobei Datensatz 1 die Daten von Filiale 1 enth¨ alt, Datensatz 2 die Daten von Filiale 2 und Datensatz 3 von Filiale 3. Ein Nachteil diese Vorgehens ist, dass eine Gegen¨ uberstellung der Resultate erschwert wird, wenn sich die Kennzahlen u ¨ber viele Tabellen verteilen. Bei den grafischen Darstellungen zeigt sich das Problem darin, dass die separat erzeugten Grafiken meist unterschiedliche Skalen aufweisen (d.h. der Wertebereich der x- und y-Achse unterscheidet sich von Grafik zu Grafik), so dass ein direkter visueller Vergleich der 3 Gruppen“ ” (hier: Filialen) erschwert wird. Daher bieten Statistik-Programme meist die M¨ oglichkeit, solche Analysen ohne den Umweg eines (physischen) Aufteilens der Datendatei vorzunehmen. Man sagt auch, dass wir eine Analyse gruppiert nach einem Faktor“ (hier: Filiale) durchf¨ uhren. In SPSS m¨ usssen wir dazu ” lediglich im Dialog in Abbildung 15.1 das Merkmal Filiale in die sogenannte Faktorenliste aufnehmen. Dann erhalten wir alle Kennzahlen, aufgeschl¨ usselt nach Filialen, in einer einzigen Tabelle. Auch die Boxplots werden dann in einer einzigen Grafik dargestellt, allerdings, unverst¨andlicherweise, nicht die Histogramme. Deshalb wurden die Grafiken gleich mit Hilfe des Diagramme“ ” Men¨ upunkts und dem Untermen¨ u Veraltete Dialogfelder“ erzeugt, auch um ” die Vorgehensweise mit ¨ alteren SPSS Versionen nachvollziehen zu k¨onnen. F¨ ur das gruppierte Histogramm w¨ ahlt man: Diagramme“, dann Veraltete ” ” Dialogfelder“, dann Histogramm“. In diesem Dialog wird die Zustellzeit“ ” ” als Variable gew¨ahlt und die Filiale“ im Bereich Felder anordnen nach“ ” ”
296
15. Datenanalyse
Zeilen“. F¨ ur den gruppierten Boxplot w¨ ahlt man: Diagramme“, dann Ver” ” ” altete Dialogfelder“, dann Boxplot“. Hier w¨ahlt man einfach“ und Aus” ” ” wertung u ur das Feld ¨ber Kategorien einer Variablen“. Anschließend wird f¨ Variable“ die Zustellzeit“ ausgew¨ ahlt und f¨ ur das Feld Kategorienachse“ ” ” ” das Merkmal Filiale“. ” Die Tabellen mit den Kennzahlen finden sich in den Abbildungen 15.14, 15.15 und 15.16.
Abb. 15.14. Basisinformationen zum Merkmal Zustellzeit“ ”
Bei Filiale 1 unterscheiden sich Mittelwert (36.2) und Median (31.6) relativ stark voneinander. Bei Filiale 3 ist der Median der Zustellzeit am Gr¨oßten (34.2). F¨ ur die Mediane gilt die Reihenfolge Filiale 1 < Filiale 2 < Filiale 3, f¨ ur die Mittelwerte die Reihenfolge Filiale 2 < Filiale 3 < Filiale 1. Die Streuung (Standardabweichung) betr¨ agt bei Filiale 1 13.5, bei Filiale 2 8.0 und bei Filiale 3 4.7. Die Betrachtung der Quantile zeigt: bei allen 3 Filialen gilt, dass ein Viertel der Lieferungen eine Zustellzeit unter 35 Minuten nicht einh¨alt (da das 75%-Quantil gr¨ oßer ist als 35). D.h. in dieser Beziehung haben wir keinen Informationsgewinn durch die gruppierte Analyse. Betrachten wir allerdings die gruppierten Histogramme und die gruppierten Boxplots in den Abbildungen 15.17 und 15.18, so erkennen wir deutlich, dass die bei der univariaten Analyse gefundenen Extremwerte nur bei Filiale 1 und in geringerem Maße bei Filiale 2 auftreten. Dies ist auch der Grund daf¨ ur, dass Filiale 1 den gr¨oßten Mittelwert und die h¨ ochste Streuung aufweist, da beide Maßzahlen nicht robust gegen Extremwerte sind. Bei Filiale 3 treten keine Ausreißer oder Extremwerte ¨ auf. W¨ ahlen wir aufgrund der vorangegangenen Uberlegungen den Median als Maß f¨ ur die Performanz der Filialen, so ist Filiale 1 die beste Filiale. Allerdings hat Filiale 1 die meisten Ausreißer. Filiale 3 hat dagegen keine Ausreißer und die geringste Streuung (d.h. relativ konstante Performanz), ist aber die schlechteste Filiale. Inhaltlich gesprochen m¨ usste Filiale 1 versuchen, dass in Zukunft die hier beobachteten Extremwerte vermieden werden. Dann w¨are sie vermutlich die performanteste Filiale. Alle Filialen m¨ ussen aber auch grundlegend an ihrem Gesch¨ aftsprozess“ etwas a¨ndern, denn bei allen liegen ” zuviele Zustellzeiten u unschten 35 Minuten. ¨ber den gew¨
15.2 Bivariate deskriptive Analyse
297
Abb. 15.15. Deskriptive Statistiken zum Merkmal Zustellzeit“, aufgeschl¨ usselt ” nach Filiale“ ”
15.2.2 Bivariate Analyse von Temperatur der Pizza bei ” Anlieferung“ und Filiale“ ” Die Tabellen mit den Kennzahlen finden sich in den Abbildungen 15.14, 15.15 und 15.16, die Grafiken in den Abbildungen 15.19 und 15.20. Wir wollen hier gleich die Grafiken betrachten. Filiale 1 hat den kleinsten Mittelwert, aber den gr¨ oßten Median. Die Histogramme (und die Schiefe-Kennzahl) zeigen durchwegs linksschiefe Verteilungen. Auch ist fraglich, ob man die Verteilungen noch als unimodal ansehen kann (allerdings sollte man sich immer bewusst sein, dass die Histogrammdarstellung stark von der gew¨ahlten Klassenbreite abh¨ angt, so dass darauf basierende Aussagen mit Vorsicht zu genießen sind). Bei Filiale 2 ergeben sich einige sehr niedrige Werte, die praktisch von
298
15. Datenanalyse
Abb. 15.16. Quantile zum Merkmal Zustellzeit“, aufgeschl¨ usselt nach Filiale“ ” ”
Abb. 15.17. Histogramm f¨ ur das Merkmal Zustellzeit“, aufgeschl¨ usselt nach Fi” ” liale“
den restlichen Daten separiert sind. Diese werden im Boxplot als Ausreißer (aber nicht als Extremwerte) dargestellt. Bei Filiale 1 ergibt sich eher eine gleichm¨ aßige Verteilung zu den niedrigen Werten, so dass hier im Boxplot kein Wert als Ausreißer oder Extremwert auftaucht. Daf¨ ur ist der untere Zaun des Boxplots bei Filiale 1 sehr lang. Filiale 3 besitzt einen Ausreißer. Alle 3 Filialen halten die gew¨ unschte Minimaltemperatur von 45◦ C in jeweils ein Viertel der Lieferungen nicht ein (da das 25%-Quantil kleiner ist als 45). In diesem Sinne m¨ ussen, inhaltlich gesprochen, alle 3 Filialen an einer Verbesserung arbeiten.
15.2 Bivariate deskriptive Analyse
299
Abb. 15.18. Boxplot f¨ ur das Merkmal Zustellzeit“, aufgeschl¨ usselt nach Filiale“ ” ”
15.2.3 Zusammenfassung Die wesentlichen Ergebnisse der univariaten deskriptiven Analyse bleiben unver¨ andert, wenn wir die Daten aufgeschl¨ usselt nach Filialen analysieren: • Bei allen 3 Filialen gilt, dass ein Viertel der Lieferungen eine Zustellzeit unter 35 Minuten nicht ein einh¨ alt . • Alle 3 Filialen halten die gew¨ unschte Minimaltemperatur von 45◦ C in jeweils ein Viertel der Lieferungen nicht ein. • Die Verteilungen sind rechtsschief. Dar¨ uber hinaus haben wir herausgefunden: • Die Extremwerte (hohe Zustellzeit) beim Merkmal Zustellzeit“ treten ” haupts¨ achlich bei Filiale 1, in geringerem Maße bei Filiale 2 auf. Bei Filiale 3 habe wir weder Ausreißer noch Extremwerte. • Beim Merkmal Temperatur“ gibt es viele Ausreißer (niedrige Temperatur) ” bei Filiale 2, eine Ausreißer bei Filiale 3. Bei Filiale 1 liegen sehr viele Werte im niedrigen Temperaturbereich. • Die Verteilungen sind linksschief.
300
15. Datenanalyse
Abb. 15.19. Histogramm f¨ ur das Merkmal Temperatur“, aufgeschl¨ usselt nach ” Filiale“ ”
15.3 Trivariate deskriptive Analyse Die trivariate deskriptive Analyse wollen wir hier darauf beschr¨anken, die Daten in geeigneter Form grafisch darzustellen. In diesem Fall zweier metrischer Merkmale und eines nominalen Merkmals kann man ein Streudiagramm w¨ahlen, bei dem die Farbe oder Form der Punkte durch die Auspr¨agung des nominalen Merkmals gekennzeichnet ist. In SPSS erhalten wir so ein Streudiagramm mittels Diagramme“, dann Veraltete Dialogfelder“, dann Streu” ” ¨” diagramm“. Hier w¨ ahlt man weiter Uberlagertes Streudiagramm“, Definie” ” ren“. Dann selektiert man als “Y-Achse“ das Merkmal Temperatur“, als ” X-Achse“ das Merkmal Zustellzeit“ und f¨ ur Markierung festlegen durch“ ” ” ” das Merkmal Filiale“. Abbildung 15.23 zeigt das entsprechende Streudia” gramm. Man erh¨ alt in diesem Fall ein sehr aufschlussreiches Gesamtbild, das die in den vorangegangenen Abschnitten erzielten Ergebnisse erg¨anzt. Es lassen sich in Abbildung 15.23 vier Bereiche ausmachen. Der Bereich, in dem die meisten Datenpunkte liegen, zeigt einen eher negativen Zusammenhang zwischen Zustellzeit und Temperatur. Ein Bereich besteht nur aus einem Datenpunkt, n¨ amlich dem Ausreißer von Filiale 3 mit dem sehr niedrigen Temperaturwert. Die beiden anderen Bereiche enthalten nur Datenpunkte von Filiale 1 und Filiale 2 und zeichnen sich durch eine niedrige Temperatur/geringe Zustellzeit bzw. niedrige Temperatur/hohe Zustellzeit aus. Von
15.4 Induktive Analyse
301
Abb. 15.20. Boxplot f¨ ur das Merkmal Temperatur“, aufgeschl¨ usselt nach Filia” ” le“
einer linearen Regressionsanalyse zwischen den metrischen Mermalen ist bei dieser Datenlage mit vielen Ausreißern/Extremwerten abzuraten.
15.4 Induktive Analyse Die in den vorangegangenen Abschnitten durchgef¨ uhrten deskriptiven Analysen sind f¨ ur die Betreiber des Pizza-Lieferdienstes sicherlich ausreichend, um in Zukunft Verbesserungen der Servicequalit¨at erreichen zu k¨onnen. In diesem Beispiel kam als wesentliches Ergebnis heraus, dass Verbesserungen in allen drei Filialen notwendig sind. Oftmals m¨ ussen solche Ergebnisse jedoch in einer objektiven Form durch statistische Tests abgesichert werden, beispielsweise um Unterschiede in verschiedenen Behandlungsgruppen statistisch nachzuweisen. Die Behandlungsgruppen sind dann zum Beispiel eine Gruppe, welche ein neues Medikament erh¨ alt und eine zweite Gruppe, die ein Standard-Medikament erh¨ alt. Eine solche Situation liegt hier nicht vor, zumal nicht, wie in medizinischen Studien gefordert, eine Randomisierung (also eine zuf¨ allige Zuordnung zu den Behandlungsgruppen) durchgef¨ uhrt wurde. Wir k¨ onnen aber diese Situation hier nachstellen (außer der Randomisierung), wenn wir die Filialen als Gruppen auffassen (d.h. die verschiedenen Filialen u ¨bernehmen die Rolle der verschiedenen Behandlungsgruppen).
302
15. Datenanalyse
Abb. 15.21. Deskriptive Statistiken zum Merkmal Temperatur“, aufgeschl¨ usselt ” nach Filiale“ ”
Abb. 15.22. Quantile zum Merkmal Temperatur“, aufgeschl¨ usselt nach Filiale“ ” ”
So w¨ aren wir dann daran interessiert, ob zwischen den Filialen bez¨ uglich der Merkmale Zustellzeit“ und Temperatur“ ein Unterschied besteht. Da ” ” wir die Filialen als unabh¨ angig betrachten, kommen der Zweistichproben tTest oder den Mann–Whitney–U–Test in Frage. Wir haben bereits gesehen,
15.4 Induktive Analyse
303
Abb. 15.23. Streudiagramm von Zustellzeit“ und Temperatur“, Markierungen ” ” f¨ ur Filiale“ ”
dass die Daten sehr viele Ausreißer oder Extremwerte enthalten und die Verteilungen der Merkmale innerhalb der Filialen nicht symmetrisch sind. Die Annahmen des t-Tests sind also eher nicht erf¨ ullt. Daher bietet es sich hier an, dem Mann–Whitney–U–Test zum Vergleich heranzuziehen. Eine weitere M¨ oglichkeit besteht darin, sich an den Optimalit¨atskriterien zu orientieren (< 35 Minuten Zustellzeit, > 45◦ C Temperatur). Wir k¨onnen diese Werte als Cutpoints auffassen und testen, inwieweit sich die Wahrscheinlichkeiten, mit denen diese unter- bzw. u ¨berschritten werden, bei den Filialen unterscheiangigkeitstest (Kontingenztafel) an. Wir den. Dazu bietet sich der χ2 -Unabh¨ wollen darauf hinweisen, dass eine datengesteuerte Wahl dieses Cutpoints im Allgemeinen nicht empfohlen wird (wenngleich es Verfahren gibt, die genau das machen), da man dann dazu verleitet wird, den Cutpoint solange zu verschieben, bis ein signifikantes“ Ergebnis herauskommt. In unserem Fall sind ” die Cutpoints aber Werte, die bereits vor der Erhebung als sinnvoll vorgegeangigkeitstests ist daher legitim ben wurden. Eine Anwendung des χ2 -Unabh¨ und unproblematisch. 15.4.1 Mann–Whitney–U–Tests Dazu w¨ ahlen wir in SPSS Analysieren“, dann Nichtparametrische Tests“, ” ” dann Zwei unabh¨ angige Stichproben“. Als Testvariablen geben wir unsere ”
304
15. Datenanalyse
metrischen Merkmale an, als Gruppenvariable Filiale“. Dabei m¨ ussen wir ” zwei Gruppen ausw¨ ahlen, d.h. es sind drei Vergleiche pro Merkmale m¨oglich: Filiale 1 mit Filiale 2, Filiale 1 mit Filiale 3 und Filiale 2 mit Filiale 3. Wir erhalten f¨ ur Filiale 1 gegen Filiale 2 die Ausgabe in Abbildung 15.24, f¨ ur Filiale 1 gegen Filiale 3 die Ausgabe in Abbildung 15.25 und f¨ ur Filiale 2 gegen Filiale 3 die Ausgabe in Abbildung 15.26. Setzt man ein Signifikanz-
Abb. 15.24. Mann–Whitney–U–Tests f¨ ur Filiale 1 gegen Filiale 2
Abb. 15.25. Mann–Whitney–U–Tests f¨ ur Filiale 1 gegen Filiale 3
niveau von α = 0.05 fest, so erh¨ alt man: 1. Zwischen Filiale 1 und Filiale 2 kann f¨ ur kein Merkmal ein Unterschied nachgewiesen werden. 2. Zwischen Filiale 1 und Filiale 3 besteht ein statistisch signifikanter Unterschied bei beiden Merkmalen. 3. Zwischen Filiale 2 und Filiale 3 besteht ein statistisch signifikanter Unterschied nur beim Merkmal Zustellzeit“. ”
15.4 Induktive Analyse
305
Abb. 15.26. Mann–Whitney–U–Tests f¨ ur Filiale 2 gegen Filiale 3
15.4.2 χ2 –Unabh¨ angigkeitstest Dazu generieren wir zwei bin¨ are Hilfsvariable, die angeben, ob die Zustellzeit von 35 Minuten u ¨berschritten oder eine Temperatur von 45◦ C unterschritten wurde. Die H¨ aufigkeitstabellen (in SPSS: Analysieren“, dann Deskriptive ” ” Statistik“, dann Kreuztabellen“) sind in in den Abbildungen 15.27 und 15.28 ” zu finden. Eine Kreuztabelle beider kategorisierter Merkmale ist in Abbildung 15.29. Der Zusammenhang der kategorisierten Merkmale ist statistisch signifikant (χ2 = 455.77, kritischer Wert bei α = 0.05 ist 3.84).
Abb. 15.27. Kategorisiertes Merkmal Zustellzeit“ ”
Abb. 15.28. Kategorisiertes Merkmal Temperatur“ ”
306
15. Datenanalyse
Abb. 15.29. Kreuztabelle f¨ ur kategorisierte Merkmale Zustellzeit“ und Tempe” ” ratur“
F¨ ur die Untersuchung eventueller Unterschiede zwischen den Filialen betrachten wir die zwei 2 × 3–Kontingenztabellen in den Abbildungen. 15.30 und 15.31. Nur f¨ ur die Tabelle Zustellzeit“ versus Filiale“ erh¨alt man ein ” ”
Abb. 15.30. Kreuztabelle f¨ ur kategorisiertes Merkmal Zustellzeit“ und Filiale“ ” ”
Abb. 15.31. Kreuztabelle f¨ ur kategorisiertes Merkmal Temperatur“ und Filiale ”
statistisch signifikantes Ergebnis: χ2 = 12.634 bei einem kritischen Wert von 5.99 (α = 0.05). Der χ2 -Wert f¨ ur Temperatur“ versus Filiale“ betr¨agt 3.33. ” ” Wenngleich es eigentlich zum Abschnitt deskriptive Statistik geh¨ort, haben
15.4 Induktive Analyse
307
wir in Abbildung 15.32 die in Tabelle 15.30 angegebenen Prozentzahlen noch einmal grafisch dargestellt.
Abb. 15.32. Auf 100% skaliertes Balkendiagramm f¨ ur die bedingte Verteilung des kategorisierten Merkmals Zustellzeit“ gegeben Filiale“ ” ”
16. Multiple-Choice Aufgaben
16.1 Aufgaben Aufgaben zu Kapitel 1. 1.
Jedes diskrete Merkmal ist ordinal.
2.
Die Temperaturskala nach Celsius ist eine Verh¨ altnisskala. Bei der Erhebung von Antworten auf Fragen wie ’Bevorzugen Sie das neue Waschmittel?’ sind nur die Antworten ’ja’ oder ’nein’ zul¨ assig, offene Antworten wie ’Weiß ich nicht!’ verzerren die statistische Auswertung. Bei der Auswertung von Wohnungskaltmieten ist man eigentlich nur an gruppierten Daten wie Miete (300 − 500], (500 − 700], . . . interessiert. Also sollten die Daten auch in dieser Form und nicht als Originaldaten erhoben werden. Ist X ordinal skaliert, so lassen sich die Werte xi von X der Gr¨ oße nach ordnen. Die Variable ‘Intelligenzquotient’ ist intervallskaliert.
3.
4.
5. 6.
Aufgaben zu Kapitel 2. 1.
Die Reihenfolge der Balken im Balkendiagramm entspricht der numerischen Reihenfolge (Ordnung) der Skalierung.
Richtig / Falsch
Richtig / Falsch
310
16. Multiple-Choice Aufgaben
Richtig / Falsch 2.
3. 4.
Da relative H¨ aufigkeiten f¨ ur jedes Skalennivaeu definiert sind, ist die empirische Verteilungsfunktion auch f¨ ur jedes Skalenniveau definiert. Die Bildung relativer H¨ aufigkeiten setzt metrisches Skalenniveau voraus. Die gew¨ ahlten Klassen m¨ ussen zur Erstellung eines Histogramms gleich breit sein.
Aufgaben zu Kapitel 3. 1. 2.
3. 4. 5. 6. 7. 8.
Der Variationskoeffizient hat die gleiche Dimension wie x ¯. Im Box-Plot sind unteres und oberes Quartil sowie das arithmetische Mittel besonders gekennzeichnet. Voraussetzung f¨ ur eine Lorenzkurve ist, dass das Merkmal ausschließlich Werte ≥ 0 annimmt. Die untere und obere Grenze der Box im Boxplot sind durch das 10%- und 90%-Quantil gegeben. Die Lorenzkurve geht stets durch die Punkte (0, 0) und (1, 1). Das arithmetische Mittel ist sinnvoll zur Mittelung von Wachstumsfaktoren. Der Modus ist als Lagemaß nur bei eingipfligen Verteilungen sinnvoll. Die Varianz eines metrischen Merkmals, das immer dieselbe Merkmalsauspr¨ agung annimmt, ist 0.
Richtig / Falsch
16.1 Aufgaben
311
Richtig / Falsch 9.
Bei ordinalen Merkmalen ist nur der Quartilsabstand ein sinnvolles Streungsmaß. 10. Werden in einem Datensatz von K¨ orpergr¨oßen die Angaben von der Maßeinheit Meter in die Maßeinheit Zentimeter umgewandelt, so vergr¨ oßert sich der Wert der Standardabweichung im transformierten Datensatz um den Faktor 100. 11. F¨ ur eine symmetrische Verteilung gilt: x ¯=x ˜0.5 . 12. Die Skalierung der Achsen bei der Lorenzkurve h¨ angt von den betrachteten Merkmalen ab.
Aufgaben zu Kapitel 4. 1.
2. 3.
4. 5.
Gilt f¨ ur zwei stetige Merkmale X und Y , dass Y = X 2 , so ist der Korrelationskoeffizient r(X, Y ) stets gleich 1. Der Odds Ratio kann jeden beliebigen reellen Wert annehmen. Der Kontingenzkoeffizient Ckorr ist eine geeignete Maßzahl, um die Richtung des Zusammenhangs zweier kategorialer Variablen zu beschreiben. Wenn der Odds Ratio > 0 ist, liegt ein positiver Zusammenhang vor. Besteht zwischen zwei Merkmalen X und Y ein exakter linearer Zusammenhang in zwei Teilbereichen der Merkmalsauspr¨ agungen von X und Y , so besteht auch insgesamt ein exakter linearer Zusammenhang zwischen X und Y .
Richtig / Falsch
312
16. Multiple-Choice Aufgaben
Richtig / Falsch 6.
Der logarithmierte Odds Ratio ist stets positiv.
7.
Der Rangkorrelationskoeffizient von Spearman darf nur bei ordinalem Skalenniveau verwendet werden.
Aufgaben zu Kapitel 5. 1.
2. 3. 4. 5.
6.
Die Sch¨ atzungen im linearen Regressionsmodell ergeben sich durch Minimierung der Summe der Absolutbetr¨ age der Residuen. Mit wachsendem Bestimmtheitsmaß R2 wird die Regression schlechter. Das Modell y = a + b · sin(x) ist ein lineares Regressionsmodell. Ist R2 = −1, so liegt eine perfekte Anpassung f¨ ur das lineare Modell vor. Der Korrelationskoeffizient r, das Bestimmtheitsatzung ˆb stehen in maß R2 und die Parametersch¨ direktem Zusammenhang. Qualitative Einflussgr¨ oßen, wie beispielsweise ‘Bildungsstand’, ‘Geschlecht’ oder ‘Unternehmensstandort’, m¨ ussen kodiert in die Regression aufgenommen werden.
Aufgaben zu Kapitel 6. 1.
3 gr¨ une, 5 gelbe und 2 blaue Zettel k¨onnen auf 2520 unterscheidbare Arten auf 10 nebeneinanderliegende K¨ astchen verteilt werden.
Richtig / Falsch
Richtig / Falsch
16.1 Aufgaben
313
Richtig / Falsch 2.
3. 4.
Bei Kombinationen mit Wiederholung, aber ohne Ber¨ ucksichtigung der Reihenfolge, ergeben sich insgesamt (n + m + 1)!/(m!(n − 1)!) Kombinationen. Die Anzahl der verschiedenen Tipps beim Zahlenlotto ‘6 aus 49’ ergibt sich zu 49 6 = 13983816. Es gilt: n! > 1.
Aufgaben zu Kapitel 7. 1.
2.
3.
4.
5.
Gegeben seien zwei stochastisch unabh¨ angige Ereignisse A und B. Es sei P(B) = 0.4 und P(A ∩ B) = 0.2. Dann folgt P(A ∪ B) = 0.9. Wirft man einen W¨ urfel zweimal hintereinander, so ist die Wahrscheinlichkeit f¨ ur jedes Elementarereignis 1/36. Zwei zuf¨allige Ereignisse A und B heißen disjunkt, wenn ihr gleichzeitiges Eintreten unm¨ oglich ist. F¨ ur die drei Mengen A, B und C, die eine vollst¨ andige Zerlegung bilden, seien die folgenden Wahrscheinlichkeiten gegeben: P (A) = 0.25, P (B) = 5/24, P (C) = 7/12. Die Zahlenwerte erf¨ ullen die Axiome der Wahrscheinlichkeitsrechnung. Das Axiomensystem der Wahrscheinlichkeitsrechnung von A.N. Kolmogorov schafft die formale Grundlage f¨ ur die Wahrscheinlichkeitsrechnung. Es besteht aus der Forderung, dass eine Wahrscheinlichkeit gr¨ oßer (oder gleich) Null sein muss und kleiner (oder gleich) Eins. Das sichere Ereignis erh¨ alt die Wahrscheinlichkeit Eins.
Richtig / Falsch
314
16. Multiple-Choice Aufgaben
Aufgaben zu Kapitel 8. 1.
2. 3. 4.
5.
Eine diskrete Zufallsvariable X besitzt folgende Wahrscheinlichkeitsfunktion: P {X = 0} = 0.25, P {X = 1} = 0.5, P {X = 2} = 0.25. Es gilt f¨ ur die Varianz von X: VarX = 1. Die Funktion f (x) = x, x ∈ [0, 1], ist eine Dichte. Sind zwei beliebige Zufallsvariablen unkorreliert, so sind sie auch unabh¨ angig. X sei eine beliebig verteilte Zufallsgr¨ oße mit der Streuung σ. Die Wahrscheinlichkeit, dass eine Realisation im 2σ-Bereich liegt, betr¨ agt mindestens 0.75. Zur Anwendung der Tschebyscheffschen Ungleichung f¨ ur die Zufallsvariable X mit E(X) = μ und Var(X) = σ 2 muss X normalverteilt sein.
Aufgaben zu Kapitel 9. 1.
2. 3.
4. 5.
Die Varianz einer auf auf dem Intervall [0;2] gleichverteilten Zufallsvariablen X ist kleiner als die Varianz einer auf dem Intervall [0;3] gleichverteilten Zufallsvariable Y. F¨ ur die N (2; 22 ) verteilte Zufallsgr¨ oße Y gilt: P {Y ≤ 3} = 0.5987. Die hypergeometrische Verteilung entspricht dem Urnenmodell ohne Zur¨ ucklegen und die Binomialverteilung dem Urnenmodell mit Zur¨ ucklegen. Die Varianz eines Merkmals mit lauter gleichen Merkmalsauspr¨ agungen ist gleich Null. Sind X ∼ B(n1 , p1 ), Y ∼ B(n2 , p2 ) und sind X und Y unabh¨ angig, dann gilt: X + Y ∼ B(n1 + n2 , p1 + p2 ).
Richtig / Falsch
Richtig / Falsch
16.1 Aufgaben
315
Richtig / Falsch 6.
Sind Z1 , . . . , Zn unabh¨ angig und identisch n 2 ist χ2 N (0, 1)-verteilt, dann gilt: i=1 Zi verteilt mit n Freiheitsgraden.
Aufgaben zu Kapitel 10. 1.
2.
3. 4.
5.
6. 7.
F¨ ur die Sch¨ atzung des unbekannten Parameters μ einer normalverteilten Grundgesamtheit ergibt sich aufgrund der Stichprobenwerte x = 60 und s2 = 49 mit n = 16 das Konfidenzintervall [56.57;63.43] bei α = 0.95. Eine Konfidenzsch¨ atzung bezeichnet ein Intervall, das den unbekannten Parameter θ mit 95%iger Sicherheit enth¨ alt. Bei einer Konfidenzsch¨ atzung f¨ ur μ muss die Varianz bekannt sein. Ist np(1 − p) ≥ 9 erf¨ ullt, so kann die Normalapproximation zur Bestimmung von Konfidenzintervallen f¨ ur die Binomialwahrscheinlichkeit verwendet werden. Sei X ∼ N (μ, σ 2 ) und eine i.i.d. Stichprobe x1 , . . . , xn gegeben. Dann sind die Konfidenzintervalle f¨ ur μ bei bekannter Varianz und bei ex2 = σ 2 gleich breit. akt gesch¨ atzter Varianz SX ¯ ± tn−1;0.975 · (SX /√n) Das Konfidenzintervall X enth¨ alt 95% der Daten. ¯ Die Grenzen des √ Konfidenzintervalls X ± tn−1;0.975 · (SX / n) sind bei allen Stichproben vom Umfang n gleich.
Richtig / Falsch
316
16. Multiple-Choice Aufgaben
Aufgaben zu Kapitel 11. 1.
2. 3. 4.
Der F -Test ist ein Zweistichprobentest und setzt Normalverteilung und Gleichheit der Varianzen voraus. Das vorgegebene Signifikanzniveau α kontrolliert den Fehler 1. Art. Wird H0 nicht abgelehnt, so ist H0 bewiesen.
Will man nachweisen, dass ein Sollgewicht nicht eingehalten wird, erh¨ oht man mit dem einseitigen t-Test die Chancen f¨ ur ‘H0 ablehnen’ im Vergleich zum zweiseitigen t-Test. 5. Jede Teststatistik in der Stichprobe ist eine Konstante. 6. Vergleicht man die Erwartungswerte zweier unabh¨ angiger Normalverteilungen, so m¨ ussen die Varianzen gleich sein. 7. Der paired t-Test ist eigentlich ein Einstichproben t-Test. 8. Der Einstichproben Binomialtest darf nur unter der Voraussetzung np(1 − p) ≥ 9 verwendet werden. 9. Der Zwei-Stichproben Binomialtest setzt gleiche Wahrscheinlichkeiten p1 = p2 = p voraus. 10. Die gepoolte Wahrscheinlichkeit beim Zweistichproben Binomialtest wird berechnet als (ˆ p1 + pˆ2 )/2.
Richtig / Falsch
16.1 Aufgaben
Aufgaben zu Kapitel 12. 1.
2.
Richtig / Falsch
Will man nachweisen, dass eine Zufallsgr¨oße normalverteilt ist, so verwendet man den Kolmogorov-Smirnov-Anpassungstest. Ein skeptischer Bundesliga–Kapit¨ an notiert 19mal ‘Zahl’ und 15mal ‘Kopf’ bei der Seitenwahl nach der abgelaufenen Bundesligasaison. Der Hobby–Statistiker ist ¨ außerst skeptisch ob der Fairness der M¨ unze und f¨ uhrt einen χ2 Anpassungstest durch:
χ2 –Anpassungstest
Group 1 Group 2 Total
3.
317
Category
N
Kopf Zahl
15 19 34
Obs. Prop. .44 .56 1.00
Test Prop. 0.5
Asymp. Sig. (2–tailed) 0.607
(a) Die zugeh¨ orige Hypothese H0 : pKopf = p0 mit p0 = 0.5 kann auch mit dem Binomialtest u uft werden. ¨berpr¨ (b) Der Wert der zugeh¨ origen Teststatistik betr¨ agt 0.6997. (c) np(1 − p) ist hier kleiner als 9, also kann die Standardnormalverteilung nicht als N¨aherung verwendet werden. (d) Laut SPSS ist der p–value gr¨ oßer als 0.05 und somit muss H0 verworfen werden. (e) Generell kann p(1−p) maximal den Wert 0.25 annehmen. Der Mann-Whitney U-Test pr¨ uft die Hypothese H0 : μ1 = μ2 .
318
16. Multiple-Choice Aufgaben
Richtig / Falsch 4.
Der Kolmogorov-Smirnov Test vergleicht zwei Verteilungen anhand ihrer R¨ ange.
Aufgaben zu Kapitel 13. 1. 2.
3.
Richtig / Falsch
Das Modell y = a + cos(b) · x ist ein lineares Regressionsmodell. Im multiplen linearen Regressionsmodell m¨ ussen die Residuen normalverteilt sein. Dies ist insbesondere Voraussetzung bei der Verwendung von Tests. Ein Autoh¨ andler m¨ ochte wissen, welche Einflussgr¨ oßen den monatlichen Umsatz in den Jahren 1999 bis 2006 beeinflusst haben k¨ onnten. Neben den Umsatzzahlen wurde die Mitarbeiterzahl, die Werbungsausgaben und das Jahr ber¨ ucksichtigt.
* * * * M U L T I P L E R E G R E S S I O N * * * * Equation Number 1 Dependent Variable.. UMSATZ Multiple R .64098 R Square .41085 Adj R Square .39164 Analysis of Variance DF 3 92
Regression Residual Signif F =
Sum of Squares 18393.59180 26376.11745
Mean Square 6131.19727 286.69693
.0000
----------------- Variables in the Equation --------------Variable MITARB WERBUNG JAHR (Constant)
B
SE B
T
Sig.
3.579099 .043395 -3.119514 449.432830
.919831 .663900 2.286515 156.102248
3.891 .065 -1.364 2.879
.0002 .9480 .1758 .0050
16.1 Aufgaben
319
Richtig / Falsch
4. 5. 6.
(a) In die Stichprobe gehen die Zahlen von 95 Monaten ein. (b) Die Variablen ‘Werbung’ und ‘Jahr’ sind relevant f¨ ur das Modell, weil die p–values der zugeh¨ origen Tests gr¨ oßer sind als 0.05. (c) Die Konstante u oßten Einfluss auf ¨bt den gr¨ den Response aus, weil ihre Sch¨ atzung betraglich am gr¨ oßten ist. Die Regressionskoeffizienten ver¨ andern ihren Wert bei linearen Transformationen von y. Je gr¨ oßer βˆ1 im Modell yˆ = α ˆ + βˆ1 x1 + , desto gr¨ oßer ist der Einfluss von x1 auf y. Die Signifikanz einer kategorialen Variable X h¨ angt davon ab, ob Effekt- oder Dummykodierung gew¨ ahlt wird.
Aufgaben zu Kapitel 14. 1.
Betrachten Sie Kontingenztafel:
Y =1 Y =0
Umsatz hoch niedrig 40 60 20 80
besteht ein positiver Zusammenhang zwischen Werbung und Umsatz (Werbung wirkt umsatzsteigernd). 2.
Richtig / Falsch
Im folgenden Vierfeldermodell
Werbung wenig viel
die
folgende
X=1 f11 = 0.2 f21 = 0.3
(2 × 2)–
X=0 f12 = 0.1 f22 = 0.5
320
16. Multiple-Choice Aufgaben
Richtig / Falsch In dieser Tafel ist ein Fehler enthalten. Es sei aber von der ‘wahren’ Tabelle bekannt, dass P (X = 1|Y = 1) = 2/3, P (X = 1|Y = 0) = 2/7,
3.
4.
P (X = 0|Y = 1) = 1/3 P (X = 0|Y = 0) = 5/7 .
(a) Die richtigen Zellh¨ aufigkeiten lauten: f11 = 0.2, f12 = 0.1, f21 = 0.3, f22 = 0.4. (b) Bei einem Stichprobenumfang von N = 10 hat der Odds–Ratio der ‘wahren’ Tafel den Wert 5. (c) Bei einem Stichprobenumfang von N = 100 gilt in der ‘wahren’ Tafel n22 = 40. F¨ ur gegebenen Odds-Ratio in einer Vierfeldertafel h¨ angt die Signifikanz des χ2 -Unabh¨angigkeitstests nicht vom Stichprobenumfang n ab. Vertauscht man in einer Viefeldertafel Zeilen und Spalten, so ¨ andert sich der Odds-Ratio nicht.
16.2 L¨ osungen
321
16.2 Lo ¨sungen L¨ osungen zu Kapitel 1. 1.
Antwort: Falsch Begr¨ undung: Diskrete Merkmale k¨ onnen nominal oder ordinal sein.
2.
Antwort: Falsch Begr¨ undung: Eine Verh¨ altnisskala besitzt einen nat¨ urlichen Nullpunkt. 0 Grad Celsius wurde per Definition als Nullpunkt gew¨ahlt (es entspricht dem Gefrierpunkt von Wasser).
3.
Antwort: Falsch Begr¨ undung: Man muss immer eine offene Antwortm¨oglichkeit vorsehen. Ansonsten hat man das Problem fehlender Daten.
4.
Antwort: Falsch Begr¨ undung: Die Daten sollten immer im Original erhoben werden, gruppieren kann man sp¨ ater. Vor allem kann man die Klassengrenzen sp¨ ater neu w¨ ahlen und z.B. anderen Erhebungen anpassen.
5.
Antwort: Richtig Begr¨ undung: Die Merkmalsauspr¨ agungen k¨onnen gem¨aß ihrer Intensit¨ at geordnet werden. Eine Interpretation der Rangordnung ist m¨ oglich, Abst¨ ande zwischen den Merkmalsauspr¨agungen k¨onnen jedoch nicht interpretiert werden.
6.
Antwort: Richtig Begr¨ undung: Die Intervallskala ist eine Skala, die durch Gleichheit der Abst¨ ande gekennzeichnet ist, aber keine Maßeinheit und einen willk¨ urlich festgelegten Nullpunkt hat. Dies trifft auf den Intelligenzquotienten (IQ) zu.
L¨ osungen zu Kapitel 2. 1.
Antwort: Richtig Begr¨ undung: Nominale Merkmale werden durch Zahlen kodiert, deren Rangfolge bestimmt die Reihenfolge der Balken.
2.
Antwort: Falsch Begr¨ undung: Die empirische Verteilungsfunktion kumuliert die relativen H¨ aufigkeiten u ¨ber die Ordnungsstatistiken, die wiederum erst ab ordinalem Niveau definiert sind.
322
3.
16. Multiple-Choice Aufgaben
Antwort: Falsch Begr¨ undung: Relative H¨ aufigkeit ist der Quotient aus absoluter H¨ aufigkeit und Stichprobenumfang, absolute H¨aufigkeiten sind aber f¨ ur jedes Skalenniveau definiert.
4.
Antwort: Falsch Begr¨ undung: Werden die Klassen verschieden breit gew¨ahlt, so spiegelt sich dies in der H¨ ohe der Histogrammbalken wider. Gem¨aß ohung der Breite dj eine Verringerung hj = fj /dj bewirkt eine Erh¨ der H¨ ohe hj . Die Klassenbreite kann somit beliebig gew¨ahlt werden.
L¨ osungen zu Kapitel 3. 1.
Antwort: Falsch Begr¨ undung: Der Variationskoeffizient ist der Quotient aus der Standardabweichung s und dem arithmetischen Mittel x ¯. Da beide die gleiche Maßeinheit haben, k¨ urzt sich diese heraus und es ergibt sich ein dimensionsloses Maß.
2.
Antwort: Falsch Begr¨ undung: Das arithmetische Mittel ist – im Gegensatz zum Median – im Boxplot nicht zu erkennen. Das untere und das obere Quartil k¨ onnen abgelesen werden.
3.
Antwort: Richtig Begr¨ undung: Die Lorenzkurve stellt die Verteilung eines h¨aufbaren Merkmals dar, das keine negativen Werte annehmen kann.
4.
Antwort: Falsch Begr¨ undung: Die untere und obere Grenze der Box im Boxplot sind durch das 25%- und 75%-Quantil gegeben.
5.
Antwort: Richtig Begr¨ undung: Die Lorenzkurve verl¨ auft in einem Quadrat der L¨ange 1. Sie startet in der linken unteren Ecke mit den Koordinaten (0,0) und endet im 100%- Bereich, d.h., in der rechten oberen Ecke mit den Koordinaten (1,1). Dies bedeutet: 0% besitzen nichts, 100% besitzen alles.
16.2 L¨ osungen
6.
323
Antwort: Falsch Begr¨ undung: Wachstumsfaktoren folgen einem multiplikativen Gesetz. Ihre Mittelung erfolgt durch Wurzelziehen aus dem Produkt der Wachstumsfaktoren mit Hilfe des geometrischen Mittels. Ein anderes Argument: das arithmetische Mittel setzt gleich abst¨andige Merkmalsauspr¨agungen voraus, was bei Wachstumsfaktoren nicht gegeben ist.
7.
Antwort: Richtig Begr¨ undung: Die sinnvolle Definition eines Lagemaßes als Repr¨asentant einer Verteilung setzt allgemein Eingipfligkeit voraus. Beim Modus ist dies die einzige Voraussetzung, eine m¨ogliche Schiefe der Verteilung ist f¨ ur den Modus ohne Belang.
8.
Antwort: Richtig Begr¨ undung: Eine Konstante X = a hat als arithmetisches Mittel ebenfalls den Wert a. Die Varianz misst die (quadratische) Abweichung des Merkmals X vom arithmetischen Mittel, sie ist also Null. Ein konstantes Merkmal hat als Verteilung die so genannte Einpunktverteilung, die deterministische Prozesse beschreibt. Zufall beginnt erst bei 2 m¨ oglichen Auspr¨ agungen eines Merkmals (z.B. Geschlecht: m¨ annlich / weiblich).
9.
Antwort: Falsch Begr¨ undung: Bei ordinalen Merkmalen ist neben dem Quartilsabstand auch die Spannweite ein zugelassenes Streuungsmaß.
10.
Antwort: Richtig Begr¨ undung: Der Umrechnungsfaktor von Meter in Zentimeter ist b = 100, die lineare Transformation lautet also: Y(cm) = a+bX(m) = 0 + 100X(m). Es gilt: s(Y ) = bs(X).
11.
Antwort: Richtig Begr¨ undung: Die Definition der Symmetrie lautet: Bei symmetrischen Verteilungen stimmen arithmetisches Mittel und Median u ¨berein. ¨ Hinweis: Bei realen Datens¨ atzen muss diese Ubereinstimmung nicht immer numerisch exakt sein sondern kann auch nur n¨aherungsweise gelten.
324
12.
16. Multiple-Choice Aufgaben
Antwort: Falsch Begr¨ undung: Die Skalierung h¨ angt nicht vom Merkmal an sich (Ackerfl¨ ache, Wohnungsfl¨ ache) ab sondern von seiner Verteilung bzw. kumulierten Verteilung u ¨ber die Einheiten (Landwirte, Mieter). Beim Kumulieren der relativen Anteile k¨ urzen sich alle Maßeinheiten und damit – de facto – das Merkmal selbst heraus.
L¨ osungen zu Kapitel 4. 1.
Antwort: Falsch Begr¨ undung: Der Korrelationskoeffizient nach Bravais-Pearson ist ein Maß f¨ ur die St¨ arke des linearen Zusammenhangs von X und Y mit dem Maximalwert von r = 1 f¨ ur einen exakten positiven linearen Zusammenhang Y = a + b · X mit b > 0. Der Zusammenhang Y = X 2 ist jedoch nicht linear, sondern quadratisch.
2.
Antwort: Falsch Begr¨ undung: Der Odds Ratio ist ein Quotient von positiven ganzen Zahlen - im Grenzfall ist auch die 0 zul¨ assig - und liegt damit zwischen 0 und ∞. Das heißt, dass der Odds Ratio zwar jede beliebige positive reelle Zahl annehmen kann, jedoch niemals negativ werden kann.
3.
Antwort: Falsch Begr¨ undung: Der Kern des Kontingenzkoeffizienten ist die χ2 Statistik, die bekanntlich symmetrisch in den beiden Variablen ist, so dass keine Richtung im Sinne von Wenn X w¨achst, so w¨achst ” auch Y “ darstellbar ist. Ein anderes Argument ist die Tatsache, dass X und Y auch nominal sein k¨ onnen.
4.
Antwort: Falsch Begr¨ undung: Der Odds-Ratio ist generell > 0. Ein positiver Zusammenhang liegt vor, wenn der Odds-Ratio > 1 ist.
5.
Antwort: Falsch Begr¨ undung: In einem Teilbereich (x1 , x2 ) von x gelte y = a1 +b1 x, in einem anderen Teilbereich (x3 , x4 ) von x gelte y = a2 + b2 x. Daraus folgt aber nicht, dass im gesamten Bereich (x1 , x4 ) ein exakter linearer Zusammenhang y = a3 + b3 x vorliegt, es sei denn es gilt a1 = a2 und urde. b1 = b2 = 0, woraus a3 = a1 = a2 und b3 = 0 folgen w¨
6.
Antwort: Falsch Begr¨ undung: F¨ ur negative Zusammenh¨ange ist der Odds-Ratio zwischen 0 und 1. Der Logarithmus einer Zahl zwischen 0 und 1 ist jedoch negativ. D.h.: OR < 1 → ln(OR) < 0.
16.2 L¨ osungen
7.
325
Antwort: Falsch Begr¨ undung: Der Rangkorrelationskoeffizient von Spearman darf auch bei metrischem Skalenniveau verwendet werden. Da durch die Bildung der R¨ ange jedoch Information verloren wird, verwendet man meist den Koeffizienten von Bravais-Pearson.
L¨ osungen zu Kapitel 5. 1.
Antwort: Falsch Begr¨ undung: Die Sch¨ atzungen im linearen Regressionsmodell ergeben sich durch Minimierung der Summe der quadrierten Residuen. (Hinweis: Prinzip der kleinsten Quadrate von Gauss.)
2.
Antwort: Falsch Begr¨ undung: Mit wachsendem Bestimmtheitsmaß R2 wird die Regression besser, da der Anteil der erkl¨ arten Varianz w¨achst.
3.
Antwort: Richtig Begr¨ undung: Ein Modell heißt linear, wenn es linear in den Parametern a und b ist. Transformationen der Einflussgr¨oßen sind erlaubt. Wir benennen sin(x) um in x ˜ und erhalten y = a + b · x ˜, erhalten also ein lineares Modell.
4.
Antwort: Falsch Begr¨ undung: R2 hat im Namen das Quadrat, kann also niemals negativ sein. R2 ist der Anteil der durch die Regression erkl¨arten Varianz an der Gesamtvarianz. Anteile liegen immer zwischen 0 und 1.
5.
Antwort: Richtig
6.
Antwort: Richtig
Begr¨ undung: Es gilt R2 = r2 und ˆb = r syy /sxx . Damit stehen alle drei Gr¨ oßen in direktem Zusammenhang. Begr¨ undung: Nur so lassen sich qualitative Gr¨oßen sinnvoll in der Regression interpretieren. H¨ aufig gew¨ ahlte Kodierungen sind Dummyund Effektkodierung.
326
16. Multiple-Choice Aufgaben
L¨ osungen zu Kapitel 6. 1.
Antwort: Richtig unen, n2 = 5 gelben und n3 = 2 blauen Begr¨ undung: Die n1 = 3 gr¨ Zettel sollen angeordnet werden - also handelt es sich um eine Permutation und nicht um eine Kombination. Da es drei Gruppen von jeweils gleichartigen Elementen gibt, liegt eine Permutation mit Wiederholung von. Nach Formel (6.3) ist mit n=10 die gesuchte Anzahl 10! = 2520. 3!5!2!
2.
Antwort: Richtig Begr¨ undung: Nach Formel (6.8) ergibt sich: n+m−1 (n + m − 1)! . = m m! (n − 1)!
3.
Antwort: Richtig Begr¨ undung: Beim Zahlenlotto interessiert man sich f¨ ur die Anzahl der Kombinationen ohne Wiederholung und ohne Ber¨ ucksichtigung der Reihenfolge. Unter Verwendung von (6.5) ergeben sich insgesamt 13.983.816 Kombinationsm¨ oglichkeiten.
4.
Antwort: Falsch Begr¨ undung: Es ist nicht immer n! > 1, da 0! = 1 und 1! = 1.
L¨ osungen zu Kapitel 7. 1.
Antwort: Falsch Begr¨ undung: A und B sind unabh¨ angig, d.h. nach Definition (7.13) gilt P(A ∩ B) = P(A) · P(B), also 0.2 = P(A) · 0.4, also P(A) = 0.2 0.4 = 0.5. Nach dem Additionssatz (7.3) erhalten wir:
P(A ∪ B) = 0.5 + 0.4 − 0.2 = 0.7 = 0.9 .
16.2 L¨ osungen
2.
327
Antwort: Richtig Begr¨ undung: Beim zweimaligen W¨ urfeln setzt man Unabh¨angigkeit der beiden W¨ urfe und damit der Ereignisse X : Ergebnis 1. Wurf und Y : Ergebnis 2. Wurf voraus. Damit gilt P(X = x, Y = y) = P(X = x) · P(Y = y) =
3.
1 1 1 · = . 6 6 36
Antwort: Richtig Begr¨ undung: Die Aussage folgt direkt aus Definition 7.2.1.
4.
Antwort: Falsch Begr¨ undung: Das 2. Axiom ist verletzt, da P (Ω) = P (A) + P (B) + P (C) =
5.
25 = 1 . 24
Antwort: Falsch Begr¨ undung: Es wird ferner die G¨ ultigkeit des Additionssatzes f¨ ur disjunkte Ereignisse gefordert: Sind A1 und A2 disjunkte Ereignisse, so ist P (A1 ∪ A2 ) = P (A1 ) + P (A2 ) .
L¨ osungen zu Kapitel 8. 1.
Antwort: Falsch Begr¨ undung: Wir haben als Tr¨ ager von X:
und
x1 = 0 p1 = 14
x2 = 1 p2 = 12
x3 = 2 p3 = 14
pi = 1. F¨ ur die Varianz ben¨ otigen wir den Erwartungswert E(X) =
xi p i = 0 ·
1 1 1 + 1 · + 2 · = 1. 4 2 4
Die Varianz einer diskreten Zufallsvariablen k¨onnen wir auf zwei Arten berechnen:
328
16. Multiple-Choice Aufgaben
i) V (X) =
(xi − E(X))2 · pi
= (0 − 1)2 ·
1 1 1 1 + (1 − 1)2 · + (2 − 1)2 · = 4 2 4 2
ii) V (X) = E(X 2 ) − (E(X))2 1 2 1 2 1 2 1 1 1 1 ·0 + ·1 + ·2 − 0· +1· +4· = = 4 2 4 4 2 4 2 2.
Antwort: Falsch Begr¨ undung: f (x) = x ist stetig. Nach Theorem 8.4.1 m¨ ussen wir die Bedingungen f (x) ≥ 0 (ist f¨ u r x in [0,1] erf¨ u llt) und ∞ f (x)dx = 1 u berpr¨ u fen. Wir erhalten (Integral im Definitionsbe¨ −∞ 1 2 reich [0,1]!) 0 x dx = x2 ]10 = 12 = 1. Also ist f (x) = x in [0,1] keine Dichtefunktion.
3.
Antwort: Falsch Begr¨ undung: Nach (8.37) sind zwei Zufallsvariablen unkorreliert, wenn Cov(X, Y ) = 0 gilt. Nach (8.36) gilt Cov(X, Y ) = E(XY ) − E(X) E(Y ). Der Ausdruck wird genau dann 0, wenn E(XY ) = E(X) E(Y ). Diese Relation kann f¨ ur beliebige Zufallsvariablen gelten. Ein Spezialfall sind unabh¨ angige X und Y .
4.
Antwort: Richtig Begr¨ undung: Begr¨ undung: Der 2σ-Bereich einer Zufallsvariable X ist der Bereich −2σ < X − μ < 2σ oder |X − μ| < 2σ. Die Wahrscheinlichkeit f¨ ur diesen zentralen Bereich einer beliebigen Zufallsvariable kann mit der Ungleichung von Tschebyschev (8.32) abgesch¨atzt werden (c = 2σ) P(|X − μ| < 2σ) ≥ 1 −
σ2 = 0.75. 4σ 2
16.2 L¨ osungen
5.
329
Antwort: Falsch Begr¨ undung: Die Ungleichung von Tschebyschev setzt u ¨berhaupt nichts voraus. Sie ist deshalb so allgemein, weil sie f¨ ur jede beliebige Verteilung gilt.
L¨ osungen zu Kapitel 9. 1.
Antwort: Richtig Begr¨ undung: a) Durch Nachdenken: Varianz ist Ausdruck von Unsicherheit. Je kleiner das Intervall (Wertebereich) der Zufallsvariablen ist, desto geringer ist die Unsicherheit, welchen Wert X annehmen kann. b) Durch Anwenden der Formel aus 8.2.1 f¨ ur die Varianz. Var(X) =
2.
(b − a)2 , also 12
(2 − 0)2 (3 − 0)2 < . 12 12
Antwort: Falsch Begr¨ undung: Die Berechnung der gesuchten Wahrscheinlichkeiten erfordert die Standardisierung von Y ∼ N (2, 22 ): Y −2 3−2 ≤ P(Y ≤ 3) = P 2 2 = P(Z ≤ 0.5) = φ(0.5) = 0.691462.
3.
Antwort: Richtig Begr¨ undung: Bei der Binomialverteilung wird von einer konstanten Wahrscheinlichkeit P(X = 1) = p ausgegangen. Dies ist nur m¨oglich, wenn die gezogene Kugel (weiß oder schwarz) in die endliche Grundgesamtheit zur¨ uckgelegt wird.
330
4.
16. Multiple-Choice Aufgaben
Antwort: Richtig Begr¨ undung: Hat X stets dieselbe (konstante) Auspr¨agung X = a, so gilt E(X) = a und damit V(X) = (a − a)2 = 0. Die Einpunktverteilung ist nicht zuf¨ allig, sondern deterministisch. Wenn das Ergebnis eines Versuches von vornherein klar ist, herrscht eben auch keine Unsicherheit (=Varianz).
5.
Antwort: Falsch Begr¨ undung: F¨ ur unabh¨ angige Binomialverteilungen zur identischen Fragestellung, d.h. zu identischem Parameter p = P(X = 1), gilt der Additionssatz B(n1 , p) + B(n2 , p) = B(n1 + n2 , p) (vgl. Theorem 9.1.1).
6.
Antwort: Richtig Begr¨ undung: Dies ist gerade die Definition 9.4.1 der Chi-QuadratVerteilung.
L¨ osungen zu Kapitel 10. 1.
Antwort: Falsch Begr¨ undung: Das Konfidenzintervall f¨ ur μ bei unbekannter Varianz ist nach Formel (10.7) mit den angegebenen Werten der Stichprobe (tn−1,1− α2 = t15,0.975 = 2.1314) [60 ± 2.1314 · (7/4)] = [60 ± 3.73] = [56.27, 63.73].
2.
Antwort: Falsch Begr¨ undung: Eine Konfidenzsch¨ atzung beschreibt die Aufgabenstellung, f¨ ur einen unbekannten Parameter einer Verteilung ein Intervall anzugeben, in dem der Parameter mit einer m¨oglichst großen Wahrscheinlichkeit 1 − α liegt. Das Konfidenzniveau α muss dabei nicht unbedingt 5% betragen, entsprechend muss 1−α auch nicht 95% sein.
3.
Antwort: Falsch Begr¨ undung: Ist die Varianz unbekannt, so wird als Sch¨atzung die Stichprobenvarianz s2X verwendet und gem¨aß (10.7) tn−1;1−α/2 anstelle von z1−α/2 verwendet.
16.2 L¨ osungen
4.
331
Antwort: Richtig Begr¨ undung: Die Approximation folgt direkt aus (10.8).
5.
Antwort: Falsch 2 Begr¨ √undung: Bei bekannter Varianz2 σ ist2 die Breite gleich 2 · 1.96 · atzter Varianz (σ/ n), bei gesch¨ √ (SX = σ unterstellt) ist die Breite ur n < ∞ gleich 2·tn−1;0.975 ·(SX = σ/ n). Die t-Quantile sind aber f¨ gr¨ oßer als 1.96 = z0.975 (vgl. Tabelle A.3).
6.
Antwort: Falsch Begr¨ undung: Das Konfidenzintervall ist eine Hochrechnung der Daten auf die Grundgesamtheit. Die Aussage lautet: Der unbekannte Parameter μ wird mit 95%-iger Sicherheit vom Intervall u ¨berdeckt.
7.
Antwort: Falsch
¯ + ¯ − tn−1;1−α/2 · (SX /√n) und X Begr¨ undung: Die√Grenzen X andern sich von Stichprobe zu Stichprobe; sie tn−1;1−α/2 · (SX / n) ¨ ¯ und SX zuf¨ allig sind. sind zuf¨ allig da X
L¨ osungen zu Kapitel 11. 1.
Antwort: Falsch Begr¨ undung: Der F-Test ist ein Zweistichprobentest und setzt Normalverteilung voraus. Die Gleichheit der Varianzen dagegen wird nicht vorausgesetzt sondern gerade mit dem F-Test u uft. Die ¨berpr¨ Nullhypothese lautet H0 : σ X = σ Y .
2.
Antwort: Richtig Begr¨ undung: Das Signifikanzniveau α gibt den maximal noch tolerierbaren Wert f¨ ur den Fehler 1. Art vor. Dies entspricht der Wahrscheinlichkeit, dass eine Entscheidung zu Gunsten von H1 getroffen wurde, obwohl H0 richtig ist.
3.
Antwort: Falsch Begr¨ undung: H0 ablehnen heißt, dass nichts gegen H0 spricht. Damit ist H0 aber nicht bewiesen. (‘Freispruch aus Mangel an Beweisen bedeutet noch lange nicht unschuldig zu sein!’)
332
4.
16. Multiple-Choice Aufgaben
Antwort: Richtig Begr¨ undung: Die Quantile des einseitigen t-Tests sind kleiner als die des zweiseitigen t-Tests, also wird H0 leichter abgelehnt, d.h. H1 wird leichter bewiesen.
5.
Antwort: Falsch Begr¨ undung: Eine Teststatistik ist stets eine Funktion der zuf¨alligen Stichprobe und damit selbst zuf¨ allig.
6.
Antwort: Falsch Begr¨ undung: Der Vergleich zweier Erwartungswerte ist immer m¨ oglich: bei gleichen Varianzen mit dem Zweistichproben t-Test, bei ungleichen Varianzen mit korrigierten Tests (z.B. nach Welch).
7.
Antwort: Richtig Begr¨ undung: Ja, und zwar f¨ ur die Differenzen der gepaarten Beobachtungen (Gewicht vor Di¨ at - Gewicht nach Di¨at).
8.
Antwort: Falsch Begr¨ undung: F¨ ur np(1 − p) ≥ 9 darf die Normalapproximation verwendet werden, f¨ ur np(1 − p) < 9 wird der exakte Binomialtest (ohne Normalapproximation) benutzt.
9.
Antwort: Falsch Begr¨ undung: p1 = p2 = p wird nicht vorausgesetzt, sondern gerade als H0 formuliert.
10.
Antwort: Falsch Begr¨ undung: Sei pˆ1 = nk und pˆ2 = same Wahrscheinlichkeit pˆ = Beispiel: F¨ ur pˆ1 = pˆ =
3 10 ,
l m,
1 k+l = m+n 2
pˆ2 =
10 = 0.125 80
7 70
=
dann ist die gepoolte gemeink l + m n
.
folgt: pˆ1 + pˆ2 0.3 + 0.1 = = 0.2 2 2
k+l Hintergrund: In die Formel pˆ = m+n gehen die Stichprobenumf¨ange pˆ1 +pˆ2 ur den Spezialfall gleich großer als Gewicht ein, bei 2 nicht. F¨ pˆ2 Stichprobenumf¨ ange, also m = n, stimmen pˆ und pˆ1 + selbst2 verst¨ andlich u ¨berein.
16.2 L¨ osungen
333
L¨ osungen zu Kapitel 12. 1.
Antwort: Falsch Begr¨ undung: Der Kolmogorov-Smirnov-Anpassungstest pr¨ uft z.B. die Nullhypothese, dass eine Normalverteilung vorliegt. Die Testentscheidung lautet entweder H0 : X ∼ N (μ, σ 2 ) beibehalten oder H0 ablehnen. H0 beibehalten bedeutet: es spricht nichts gegen Normalverteilung, damit ist aber kein Nachweis der Normalverteilung verbunden!
2. (a)
Antwort: Richtig Begr¨ undung: Es liegt ein Einstichprobenproblem f¨ ur die Binomialverteilung B(n, p) = B(34, p) vor. Die Hypothese H0 : p = 0.5 kann demnach mit dem Binomialtest aus Kapitel 11.5.1 u uft werden. ¨berpr¨ Alternativ verwendet man den χ2 -Anpassungstest um zu testen, ob die Anteile in den beiden Gruppen gleich groß sind.
2. (b)
Antwort: Falsch Begr¨ undung: Wir w¨ ahlen X = Kopf als X = 1. Damit ist pˆ = Teststatistik lautet (vgl.(11.9))
15 34 .
Die
15 − 17 √ −2 t = √34 34 34 = · 5.83 = −0.68 = 0.6997. 34 · 0.5 0.5 · 0.5
2. (c)
Antwort: Richtig Begr¨ undung: Es gilt np0 (1− p0 ) = 34·0.5·0.5 = 8.5 < 9. Also darf die N¨ aherung durch N(0,1) nicht angewendet werden. Es muss die exakte Binomialverteilung angewendet werden.
2. (d)
Antwort: Falsch Begr¨ undung: Der χ2 - Anpassungstest beh¨alt die Nullhypothese gleicher Anteile in den Gruppen wegen Sig = 0.607 > 0.05 bei.
2. (e)
Antwort: Richtig Begr¨ undung: Wir maximieren p(1 − p). Die erste Ableitung ist ∂ ∂ 1 ! p(1 − p) = (p − p2 ) = 1 − 2p = 0 ⇒ p = . ∂p ∂p 2
334
16. Multiple-Choice Aufgaben
Die zweite Ableitung ist ∂2 p(1 − p) = −2 < 0, ∂p2 also ergibt p = 3.
1 2
das Maximum.
Antwort: Falsch Begr¨ undung: Die beiden Verteilungen sind nur als stetig vorausgesetzt, ohne Parametrisierung wie beispielsweise bei der Normalverteilung. Damit kann man die Hypothese ‘Im Mittel gleich’ nicht u ¨ber μ1 und μ2 formulieren, sondern als P (X > Y ) = 12 . Dies bedeutet inhaltlich, dass sich beide Verteilungen (im zentralen Bereich) de facto u ¨berdecken.
4.
Antwort: Falsch Begr¨ undung: Die Hypothese lautet H0 : F (x) = G(x), d.h. beide Verteilungen sind gleich. Um dies zu u ufen werden beide Ver¨berpr¨ teilungsfunktionen berechnet. Gegen H0 spricht beim Vorgehen von Kolmogorov-Smirnov ein lokales Maß: ein zu großer maximaler Abstand, f¨ ur Details vergleiche Toutenburg und Heumann, Induktive Statistik. (Hinweis: Die Idee vom χ2 -Anpassungstest ist die Berechnung eines globalen Abstands u ¨ber alle Realisierungen.)
L¨ osungen zu Kapitel 13. 1.
Antwort: Falsch Begr¨ undung: Lineare Regression bedeutet wir betrachten ein Modell, das linear in den Parametern a und b ist: Hier ist b nicht linear, sondern abh¨ angig von der Cosinus-Funktion cos(b).
2.
Antwort: Richtig Begr¨ undung: Dies folgt aus Annahme (ii) in (13.1). Es muss gelten: i.i.d.
i ∼ N (0, σ 2 ), also ∼ N (0, σ 2 I).
16.2 L¨ osungen
3. (a)
335
Antwort: Falsch Begr¨ undung: Wir lesen ab Regression Residual
DF 3 92
Daraus folgt DF Total = 95, dies ist aber gleich n − 1, also ist n = 96. 3. (b)
Antwort: Falsch Begr¨ undung: Aus dem Output lesen wir ab Werbung Jahr
Sig T 0.9480 0.1758
also sind Werbung und Jahr nicht signifikant, da der p-Wert jeweils gr¨ oßer als das Signifikanzniveau von 0.05 ist. 3. (c)
Antwort: Falsch Begr¨ undung: Die Gr¨ oße des Einflusses eines X auf Y wird u ¨ber die Signifikanz des zugeh¨ origen Parameters eingesch¨atzt, nicht u ¨ber seine absolute Gr¨ oße, die durch Transformationen (z.B. Euro → US$) ver¨ andert werden kann.
4.
Antwort: Richtig Begr¨ undung: Betrachtet man die gesch¨atzten Parameter gem¨aß βˆ1 = sxy /sxx (univariate Regression) oder b = (X X)−1 X y (multiple Regression), so sieht man, dass eine lineare Transformation y˜ = c + dy mit dem Skalierungsfaktor d auf die Sch¨atzung von βˆ1 bzw. b ‘durchschl¨ agt’.
5.
Antwort: Falsch Begr¨ undung: (a) MC-Aufgabe Kapitel 13, Nr. 4 (Gr¨oße der Parameter ist von der Maßeinheit von y abh¨angig!) (b) Die gesch¨atzten Parameter βˆi sind Zufallsvariablen deren Gr¨oße stets an Verteilungsparametern (Quantilen, p-values) gemessen wird. F¨ ur i ∼ N (0, σ 2 ), ˆ ˆ folgt βi /s(βi ) ∼ tn−1 , vergleiche auch Rao et al. (2008). Die ‘Gr¨oße’ von βˆi wird durch die Signifikanz (p-values) dieser tn−1 -Variablen eingesch¨ atzt.
6.
Antwort: Falsch
336
16. Multiple-Choice Aufgaben
Begr¨ undung: Die beiden Kodierungen stellen de facto nur eine Verschiebung eines Bezugssystems dar, davon darf die Signifikanz nicht abh¨ angen. Beispiel: Wir betachten die folgende Tabelle 168 w
Gr¨ oße Geschlecht
170 w
172 w
178 m
180 m
182 m
(i) Dummykodierung: m = 0, w = 1 und damit Gr¨ oße = 180 − 10 · Geschlecht . (ii) Effektkodierung: m = 1, w = −1 und damit Gr¨ oße = 175 + 5 · Geschlecht . Der SPSS-Output best¨ atigt unsere Berechnungen und zeigt, dass sich die Signifikanzen nicht unterscheiden: Modell 1
Modell 1
(Konstante) Geschlecht/Effekt
β 175.000 5.000
(Konstante) Geschlecht/Dummy
β 180.000 -10.000
Std.dev. 0.816 0.816 Std.dev. 1.155 1.633
T 214.330 6.124 T 155.885 -6.124
Sig. 0.000 0.004 Sig. 0.000 0.004
L¨ osungen zu Kapitel 14. 1.
Antwort: Falsch Begr¨ undung: Positiver Zusammenhang bedeutet viel Werbung → hoher Umsatz. Um dies zu sehen, stellen wir die Tafel um: Werbung viel wenig Der Odds-Ratio ist OR = menhang vor.
20·60 40·80
Umsatz hoch niedrig 20 80 40 60 < 1, also liegt ein negativer Zusam-
16.2 L¨ osungen
2. (a)
337
Antwort: Falsch Begr¨ undung: Die richtigen Zellwahrscheinlichkeiten lauten f11 = 0.2, f = 1. Dies folgt f12 = 0.1, aber f21 = 0.2, f22 = 0.5 mit ij i,j unmittelbar aus den bedingten Verteilungen P (X = 1|Y = 0) = 2/7und P (X = 0|Y = 0) = 5/7.
2. (b)
Antwort: Richtig Begr¨ undung: Wir setzen einen Stichprobenumfang von N =10 an und erhalten X=1 2 2 4
Y =1 Y =0
Obige Tabelle ergibt damit OR = 2. (c)
X=0 1 5 6 2·5 2·1
3 7 10
= 5.
Antwort: Falsch Begr¨ undung: Die Tafel mit N = 100 hat die Gestalt Y =1 Y =0
X=1 20 20
X=0 10 50
also n22 = 50 = 40. 3.
Antwort: Falsch Begr¨ undung: Gegebener Odds-Ratio bedeutet gegebene Risikoangt von n ab, seine Signifikanz ebenfalls. Struktur. χ2 h¨
4.
Antwort: Richtig Begr¨ undung: Wir betrachten die beiden F¨alle und erhalten:
Fall 1:
a c
b d
Fall 2:
d b
c a
Daraus folgt, dass wir im ersten Fall einen Odds-Ratio von OR = erhalten, und im zweiten Fall von OR = da cb . Diese sind identisch.
ad bc
A. Tabellenanhang
Tabelle A.1. Verteilungsfunktion Φ(z) der Standardnormalverteilung N (0, 1) z 0.0 0.1 0.2 0.3 0.4 0.5
.00 0.500000 0.539828 0.579260 0.617911 0.655422 0.691462
.01 0.503989 0.543795 0.583166 0.621720 0.659097 0.694974
.02 0.507978 0.547758 0.587064 0.625516 0.662757 0.698468
.03 0.511966 0.551717 0.590954 0.629300 0.666402 0.701944
.04 0.515953 0.555670 0.594835 0.633072 0.670031 0.705401
0.6 0.7 0.8 0.9 1.0
0.725747 0.758036 0.788145 0.815940 0.841345
0.729069 0.761148 0.791030 0.818589 0.843752
0.732371 0.764238 0.793892 0.821214 0.846136
0.735653 0.767305 0.796731 0.823814 0.848495
0.738914 0.770350 0.799546 0.826391 0.850830
1.1 1.2 1.3 1.4 1.5
0.864334 0.884930 0.903200 0.919243 0.933193
0.866500 0.886861 0.904902 0.920730 0.934478
0.868643 0.888768 0.906582 0.922196 0.935745
0.870762 0.890651 0.908241 0.923641 0.936992
0.872857 0.892512 0.909877 0.925066 0.938220
1.6 1.7 1.8 1.9 2.0
0.945201 0.955435 0.964070 0.971283 0.977250
0.946301 0.956367 0.964852 0.971933 0.977784
0.947384 0.957284 0.965620 0.972571 0.978308
0.948449 0.958185 0.966375 0.973197 0.978822
0.949497 0.959070 0.967116 0.973810 0.979325
2.1 2.2 2.3 2.4 2.5
0.982136 0.986097 0.989276 0.991802 0.993790
0.982571 0.986447 0.989556 0.992024 0.993963
0.982997 0.986791 0.989830 0.992240 0.994132
0.983414 0.987126 0.990097 0.992451 0.994297
0.983823 0.987455 0.990358 0.992656 0.994457
2.6 2.7 2.8 2.9 3.0
0.995339 0.996533 0.997445 0.998134 0.998650
0.995473 0.996636 0.997523 0.998193 0.998694
0.995604 0.996736 0.997599 0.998250 0.998736
0.995731 0.996833 0.997673 0.998305 0.998777
0.995855 0.996928 0.997744 0.998359 0.998817
340
A. Tabellenanhang
Tabelle A.1. Verteilungsfunktion Φ(z) der Standardnormalverteilung N (0, 1) z 0.0 0.1 0.2 0.3 0.4 0.5
.05 0.519939 0.559618 0.598706 0.636831 0.673645 0.708840
.06 0.523922 0.563559 0.602568 0.640576 0.677242 0.712260
.07 0.527903 0.567495 0.606420 0.644309 0.680822 0.715661
.08 0.531881 0.571424 0.610261 0.648027 0.684386 0.719043
.09 0.535856 0.575345 0.614092 0.651732 0.687933 0.722405
0.6 0.7 0.8 0.9 1.0
0.742154 0.773373 0.802337 0.828944 0.853141
0.745373 0.776373 0.805105 0.831472 0.855428
0.748571 0.779350 0.807850 0.833977 0.857690
0.751748 0.782305 0.810570 0.836457 0.859929
0.754903 0.785236 0.813267 0.838913 0.862143
1.1 1.2 1.3 1.4 1.5
0.874928 0.894350 0.911492 0.926471 0.939429
0.876976 0.896165 0.913085 0.927855 0.940620
0.879000 0.897958 0.914657 0.929219 0.941792
0.881000 0.899727 0.916207 0.930563 0.942947
0.882977 0.901475 0.917736 0.931888 0.944083
1.6 1.7 1.8 1.9 2.0
0.950529 0.959941 0.967843 0.974412 0.979818
0.951543 0.960796 0.968557 0.975002 0.980301
0.952540 0.961636 0.969258 0.975581 0.980774
0.953521 0.962462 0.969946 0.976148 0.981237
0.954486 0.963273 0.970621 0.976705 0.981691
2.1 2.2 2.3 2.4 2.5
0.984222 0.987776 0.990613 0.992857 0.994614
0.984614 0.988089 0.990863 0.993053 0.994766
0.984997 0.988396 0.991106 0.993244 0.994915
0.985371 0.988696 0.991344 0.993431 0.995060
0.985738 0.988989 0.991576 0.993613 0.995201
2.6 2.7 2.8 2.9 3.0
0.995975 0.997020 0.997814 0.998411 0.998856
0.996093 0.997110 0.997882 0.998462 0.998893
0.996207 0.997197 0.997948 0.998511 0.998930
0.996319 0.997282 0.998012 0.998559 0.998965
0.996427 0.997365 0.998074 0.998605 0.998999
A. Tabellenanhang Tabelle A.2. (1 − α)-Quantile cdf ;1−α der χ2 -Verteilung 1−α 0.05 0.95 0.004 3.84 0.103 5.99 0.352 7.81 0.711 9.49 1.15 11.1
df 1 2 3 4 5
0.01 0.0001 0.020 0.115 0.297 0.554
0.025 0.001 0.051 0.216 0.484 0.831
0.975 5.02 7.38 9.35 11.1 12.8
0.99 6.62 9.21 11.3 13.3 15.1
6 7 8 9 10
0.872 1.24 1.65 2.09 2.56
1.24 1.69 2.18 2.70 3.25
1.64 2.17 2.73 3.33 3.94
12.6 14.1 15.5 16.9 18.3
14.4 16.0 17.5 19.0 20.5
16.8 18.5 20.1 21.7 23.2
11 12 13 14 15
3.05 3.57 4.11 4.66 5.23
3.82 4.40 5.01 5.63 6.26
4.57 5.23 5.89 6.57 7.26
19.7 21.0 22.4 23.7 25.0
21.9 23.3 24.7 26.1 27.5
24.7 26.2 27.7 29.1 30.6
16 17 18 19 20
5.81 6.41 7.01 7.63 8.26
6.91 7.56 8.23 8.91 9.59
7.96 8.67 9.39 10.1 10.9
26.3 27.6 28.9 30.1 31.4
28.8 30.2 31.5 32.9 34.2
32.0 33.4 34.8 36.2 37.6
25 30 40 50
11.5 15.0 22.2 29.7
13.1 16.8 24.4 32.4
14.6 18.5 26.5 34.8
37.7 43.8 55.8 67.5
40.6 47.0 59.3 71.4
44.3 50.9 63.7 76.2
60 70 80 90 100
37.5 45.4 53.5 61.8 70.1
40.5 48.8 57.2 65.6 74.2
43.2 51.7 60.4 69.1 77.9
79.1 90.5 101.9 113.1 124.3
83.3 95.0 106.6 118.1 129.6
88.4 100.4 112.3 124.1 135.8
341
342
A. Tabellenanhang Tabelle A.3. (1 − α)-Quantile tdf ;1−α der t-Verteilung df 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 30 40 50 60 70 80 90 100 200 300 400 500
0.95 6.3138 2.9200 2.3534 2.1318 2.0150 1.9432 1.8946 1.8595 1.8331 1.8125 1.7959 1.7823 1.7709 1.7613 1.7531 1.7459 1.7396 1.7341 1.7291 1.7247 1.6973 1.6839 1.6759 1.6706 1.6669 1.6641 1.6620 1.6602 1.6525 1.6499 1.6487 1.6479
1−α 0.975 0.99 12.706 31.821 4.3027 6.9646 3.1824 4.5407 2.7764 3.7469 2.5706 3.3649 2.4469 3.1427 2.3646 2.9980 2.3060 2.8965 2.2622 2.8214 2.2281 2.7638 2.2010 2.7181 2.1788 2.6810 2.1604 2.6503 2.1448 2.6245 2.1314 2.6025 2.1199 2.5835 2.1098 2.5669 2.1009 2.5524 2.0930 2.5395 2.0860 2.5280 2.0423 2.4573 2.0211 2.4233 2.0086 2.4033 2.0003 2.3901 1.9944 2.3808 1.9901 2.3739 1.9867 2.3685 1.9840 2.3642 1.9719 2.3451 1.9679 2.3388 1.9659 2.3357 1.9647 2.3338
0.995 63.657 9.9248 5.8409 4.6041 4.0321 3.7074 3.4995 3.3554 3.2498 3.1693 3.1058 3.0545 3.0123 2.9768 2.9467 2.9208 2.8982 2.8784 2.8609 2.8453 2.7500 2.7045 2.6778 2.6603 2.6479 2.6387 2.6316 2.6259 2.6006 2.5923 2.5882 2.5857
df1 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 30 40 50 60 70 80 90 100
1 161.44 199.50 215.70 224.58 230.16 233.98 236.76 238.88 240.54 241.88 242.98 243.90 244.68 245.36 245.94 246.46 246.91 247.32 247.68 248.01 250.09 251.14 251.77 252.19 252.49 252.72 252.89 253.04
2 18.512 19.000 19.164 19.246 19.296 19.329 19.353 19.370 19.384 19.395 19.404 19.412 19.418 19.424 19.429 19.433 19.436 19.440 19.443 19.445 19.462 19.470 19.475 19.479 19.481 19.483 19.484 19.485
3 10.127 9.5520 9.2766 9.1171 9.0134 8.9406 8.8867 8.8452 8.8122 8.7855 8.7633 8.7446 8.7286 8.7148 8.7028 8.6922 8.6829 8.6745 8.6669 8.6601 8.6165 8.5944 8.5809 8.5720 8.5655 8.5607 8.5569 8.5539
4 7.7086 6.9442 6.5913 6.3882 6.2560 6.1631 6.0942 6.0410 5.9987 5.9643 5.9358 5.9117 5.8911 5.8733 5.8578 5.8441 5.8319 5.8211 5.8113 5.8025 5.7458 5.7169 5.6994 5.6877 5.6793 5.6729 5.6680 5.6640
5 6.6078 5.7861 5.4094 5.1921 5.0503 4.9502 4.8758 4.8183 4.7724 4.7350 4.7039 4.6777 4.6552 4.6357 4.6187 4.6037 4.5904 4.5785 4.5678 4.5581 4.4957 4.4637 4.4444 4.4313 4.4220 4.4149 4.4094 4.4050
6 5.9873 5.1432 4.7570 4.5336 4.3873 4.2838 4.2066 4.1468 4.0990 4.0599 4.0274 3.9999 3.9763 3.9559 3.9380 3.9222 3.9082 3.8957 3.8844 3.8741 3.8081 3.7742 3.7536 3.7397 3.7298 3.7223 3.7164 3.7117
df2 7 5.5914 4.7374 4.3468 4.1203 3.9715 3.8659 3.7870 3.7257 3.6766 3.6365 3.6030 3.5746 3.5503 3.5292 3.5107 3.4944 3.4798 3.4668 3.4551 3.4445 3.3758 3.3404 3.3188 3.3043 3.2938 3.2859 3.2798 3.2748 8 5.3176 4.4589 4.0661 3.8378 3.6874 3.5805 3.5004 3.4381 3.3881 3.3471 3.3129 3.2839 3.2590 3.2373 3.2184 3.2016 3.1867 3.1733 3.1612 3.1503 3.0794 3.0427 3.0203 3.0053 2.9944 2.9862 2.9798 2.9746
9 5.1173 4.2564 3.8625 3.6330 3.4816 3.3737 3.2927 3.2295 3.1788 3.1372 3.1024 3.0729 3.0475 3.0254 3.0061 2.9889 2.9736 2.9600 2.9476 2.9364 2.8636 2.8259 2.8028 2.7872 2.7760 2.7675 2.7608 2.7555
10 4.9646 4.1028 3.7082 3.4780 3.3258 3.2171 3.1354 3.0716 3.0203 2.9782 2.9429 2.9129 2.8871 2.8647 2.8450 2.8275 2.8120 2.7980 2.7854 2.7740 2.6995 2.6608 2.6371 2.6210 2.6095 2.6007 2.5939 2.5884
11 4.8443 3.9822 3.5874 3.3566 3.2038 3.0946 3.0123 2.9479 2.8962 2.8536 2.8179 2.7875 2.7614 2.7386 2.7186 2.7009 2.6850 2.6709 2.6580 2.6464 2.5704 2.5309 2.5065 2.4901 2.4782 2.4692 2.4622 2.4565
12 4.7472 3.8852 3.4902 3.2591 3.1058 2.9961 2.9133 2.8485 2.7963 2.7533 2.7173 2.6866 2.6601 2.6371 2.6168 2.5988 2.5828 2.5684 2.5554 2.5435 2.4662 2.4258 2.4010 2.3841 2.3719 2.3627 2.3555 2.3497
13 4.6671 3.8055 3.4105 3.1791 3.0254 2.9152 2.8320 2.7669 2.7143 2.6710 2.6346 2.6036 2.5769 2.5536 2.5331 2.5149 2.4986 2.4840 2.4708 2.4588 2.3803 2.3391 2.3138 2.2965 2.2841 2.2747 2.2673 2.2613
Tabelle A.4. (1 − α)-Quantile fdf1 ,df2 ;1−α der F -Verteilung f¨ ur α = 0.05. df1 in den Zeilen, df2 in den Spalten 14 4.6001 3.7388 3.3438 3.1122 2.9582 2.8477 2.7641 2.6986 2.6457 2.6021 2.5654 2.5342 2.5072 2.4837 2.4630 2.4446 2.4281 2.4134 2.4000 2.3878 2.3082 2.2663 2.2405 2.2229 2.2102 2.2006 2.1930 2.1869
A. Tabellenanhang 343
df1 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 30 40 50 60 70 80 90 100
15 4.5430 3.6823 3.2873 3.0555 2.9012 2.7904 2.7066 2.6407 2.5876 2.5437 2.5068 2.4753 2.4481 2.4243 2.4034 2.3848 2.3682 2.3533 2.3398 2.3275 2.2467 2.2042 2.1779 2.1601 2.1471 2.1373 2.1296 2.1234
16 4.4939 3.6337 3.2388 3.0069 2.8524 2.7413 2.6571 2.5910 2.5376 2.4935 2.4563 2.4246 2.3972 2.3733 2.3522 2.3334 2.3167 2.3016 2.2879 2.2755 2.1938 2.1507 2.1239 2.1058 2.0926 2.0826 2.0747 2.0684
17 4.4513 3.5915 3.1967 2.9647 2.8099 2.6986 2.6142 2.5479 2.4942 2.4499 2.4125 2.3806 2.3530 2.3289 2.3076 2.2887 2.2718 2.2566 2.2428 2.2303 2.1477 2.1039 2.0768 2.0584 2.0450 2.0348 2.0268 2.0204
18 4.4138 3.5545 3.1599 2.9277 2.7728 2.6613 2.5767 2.5101 2.4562 2.4117 2.3741 2.3420 2.3143 2.2900 2.2686 2.2495 2.2325 2.2171 2.2032 2.1906 2.1071 2.0628 2.0353 2.0166 2.0030 1.9926 1.9845 1.9780
19 4.3807 3.5218 3.1273 2.8951 2.7400 2.6283 2.5435 2.4767 2.4226 2.3779 2.3402 2.3079 2.2800 2.2556 2.2340 2.2148 2.1977 2.1822 2.1682 2.1554 2.0711 2.0264 1.9985 1.9795 1.9657 1.9552 1.9469 1.9403
20 4.3512 3.4928 3.0983 2.8660 2.7108 2.5989 2.5140 2.4470 2.3928 2.3478 2.3099 2.2775 2.2495 2.2249 2.2032 2.1839 2.1667 2.1511 2.1370 2.1241 2.0390 1.9938 1.9656 1.9463 1.9323 1.9216 1.9133 1.9065
df2 30 4.1708 3.3158 2.9222 2.6896 2.5335 2.4205 2.3343 2.2661 2.2106 2.1645 2.1255 2.0920 2.0629 2.0374 2.0148 1.9946 1.9764 1.9601 1.9452 1.9316 1.8408 1.7917 1.7608 1.7395 1.7239 1.7120 1.7026 1.6950 40 4.0847 3.2317 2.8387 2.6059 2.4494 2.3358 2.2490 2.1801 2.1240 2.0772 2.0375 2.0034 1.9737 1.9476 1.9244 1.9037 1.8851 1.8682 1.8528 1.8388 1.7444 1.6927 1.6600 1.6372 1.6205 1.6076 1.5974 1.5892
50 4.0343 3.1826 2.7900 2.5571 2.4004 2.2864 2.1992 2.1299 2.0733 2.0261 1.9860 1.9515 1.9214 1.8949 1.8713 1.8503 1.8313 1.8141 1.7984 1.7841 1.6871 1.6336 1.5994 1.5756 1.5580 1.5444 1.5336 1.5249
60 4.0011 3.1504 2.7580 2.5252 2.3682 2.2540 2.1665 2.0969 2.0400 1.9925 1.9522 1.9173 1.8870 1.8602 1.8364 1.8151 1.7958 1.7784 1.7625 1.7479 1.6491 1.5942 1.5590 1.5343 1.5160 1.5018 1.4905 1.4813
70 3.9777 3.1276 2.7355 2.5026 2.3455 2.2311 2.1434 2.0736 2.0166 1.9688 1.9282 1.8932 1.8626 1.8356 1.8116 1.7901 1.7707 1.7531 1.7370 1.7223 1.6220 1.5660 1.5299 1.5045 1.4856 1.4710 1.4593 1.4498
80 3.9603 3.1107 2.7187 2.4858 2.3287 2.2141 2.1263 2.0563 1.9991 1.9512 1.9104 1.8752 1.8445 1.8173 1.7932 1.7715 1.7519 1.7342 1.7180 1.7031 1.6017 1.5448 1.5080 1.4821 1.4627 1.4477 1.4357 1.4258
90 3.9468 3.0976 2.7058 2.4729 2.3156 2.2010 2.1130 2.0429 1.9855 1.9375 1.8966 1.8613 1.8304 1.8032 1.7789 1.7571 1.7374 1.7195 1.7032 1.6882 1.5859 1.5283 1.4909 1.4645 1.4447 1.4294 1.4170 1.4069
Tabelle A.4. (1 − α)-Quantile fdf1 ,df2 ;1−α der F -Verteilung f¨ ur α = 0.05. df1 in den Zeilen, df2 in den Spalten 100 3.9361 3.0872 2.6955 2.4626 2.3053 2.1906 2.1025 2.0323 1.9748 1.9266 1.8856 1.8502 1.8192 1.7919 1.7675 1.7456 1.7258 1.7079 1.6914 1.6764 1.5733 1.5151 1.4772 1.4503 1.4302 1.4146 1.4020 1.3917
344 A. Tabellenanhang
df1 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 30 40 50 60 70 80 90 100
1 647.78 799.50 864.16 899.58 921.84 937.11 948.21 956.65 963.28 968.62 973.02 976.70 979.83 982.52 984.86 986.91 988.73 990.34 991.79 993.10 1001.4 1005.5 1008.1 1009.8 1011.0 1011.9 1012.6 1013.1
2 38.506 39.000 39.165 39.248 39.298 39.331 39.355 39.373 39.386 39.397 39.407 39.414 39.421 39.426 39.431 39.435 39.439 39.442 39.445 39.447 39.464 39.472 39.477 39.481 39.483 39.485 39.486 39.487
3 17.443 16.044 15.439 15.100 14.884 14.734 14.624 14.539 14.473 14.418 14.374 14.336 14.304 14.276 14.252 14.231 14.212 14.195 14.180 14.167 14.080 14.036 14.009 13.992 13.979 13.969 13.962 13.956
4 12.217 10.649 9.9791 9.6045 9.3644 9.1973 9.0741 8.9795 8.9046 8.8438 8.7935 8.7511 8.7149 8.6837 8.6565 8.6325 8.6113 8.5923 8.5753 8.5599 8.4612 8.4111 8.3807 8.3604 8.3458 8.3348 8.3263 8.3194
5 10.006 8.4336 7.7635 7.3878 7.1463 6.9777 6.8530 6.7571 6.6810 6.6191 6.5678 6.5245 6.4875 6.4556 6.4277 6.4031 6.3813 6.3618 6.3443 6.3285 6.2268 6.1750 6.1436 6.1225 6.1073 6.0960 6.0871 6.0799
6 8.8131 7.2598 6.5987 6.2271 5.9875 5.8197 5.6954 5.5996 5.5234 5.4613 5.4097 5.3662 5.3290 5.2968 5.2686 5.2438 5.2218 5.2021 5.1844 5.1684 5.0652 5.0124 4.9804 4.9588 4.9434 4.9317 4.9226 4.9154
df2 7 8.0726 6.5415 5.8898 5.5225 5.2852 5.1185 4.9949 4.8993 4.8232 4.7611 4.7094 4.6658 4.6284 4.5960 4.5677 4.5428 4.5206 4.5007 4.4829 4.4667 4.3623 4.3088 4.2763 4.2543 4.2386 4.2267 4.2175 4.2100 8 7.5708 6.0594 5.4159 5.0526 4.8172 4.6516 4.5285 4.4332 4.3572 4.2951 4.2434 4.1996 4.1621 4.1296 4.1012 4.0760 4.0537 4.0337 4.0157 3.9994 3.8940 3.8397 3.8067 3.7844 3.7684 3.7563 3.7469 3.7393
9 7.2092 5.7147 5.0781 4.7180 4.4844 4.3197 4.1970 4.1019 4.0259 3.9638 3.9120 3.8682 3.8305 3.7979 3.7693 3.7440 3.7216 3.7014 3.6833 3.6669 3.5604 3.5054 3.4719 3.4493 3.4330 3.4207 3.4111 3.4034
10 6.9367 5.4563 4.8256 4.4683 4.2360 4.0721 3.9498 3.8548 3.7789 3.7167 3.6649 3.6209 3.5831 3.5504 3.5216 3.4962 3.4736 3.4533 3.4351 3.4185 3.3110 3.2553 3.2213 3.1984 3.1818 3.1693 3.1595 3.1517
11 6.7241 5.2558 4.6300 4.2750 4.0439 3.8806 3.7586 3.6638 3.5878 3.5256 3.4736 3.4296 3.3917 3.3588 3.3299 3.3043 3.2816 3.2612 3.2428 3.2261 3.1176 3.0613 3.0268 3.0035 2.9867 2.9740 2.9640 2.9561
12 6.5537 5.0958 4.4741 4.1212 3.8911 3.7282 3.6065 3.5117 3.4358 3.3735 3.3214 3.2772 3.2392 3.2062 3.1772 3.1515 3.1286 3.1081 3.0895 3.0727 2.9632 2.9063 2.8714 2.8477 2.8307 2.8178 2.8077 2.7996
13 6.4142 4.9652 4.3471 3.9958 3.7666 3.6042 3.4826 3.3879 3.3120 3.2496 3.1974 3.1531 3.1150 3.0818 3.0527 3.0269 3.0038 2.9832 2.9645 2.9476 2.8372 2.7796 2.7443 2.7203 2.7030 2.6899 2.6797 2.6714
Tabelle A.5. (1 − α/2)-Quantile fdf1 ,df2 ;1−α/2 der F -Verteilung f¨ ur α = 0.05/2. df1 in den Zeilen, df2 in den Spalten 14 6.2979 4.8566 4.2417 3.8919 3.6634 3.5013 3.3799 3.2852 3.2093 3.1468 3.0945 3.0501 3.0118 2.9785 2.9493 2.9233 2.9002 2.8794 2.8607 2.8436 2.7323 2.6742 2.6384 2.6141 2.5966 2.5833 2.5729 2.5645
A. Tabellenanhang 345
df1 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 30 40 50 60 70 80 90 100
15 6.1995 4.7650 4.1528 3.8042 3.5764 3.4146 3.2933 3.1987 3.1227 3.0601 3.0078 2.9632 2.9249 2.8914 2.8620 2.8360 2.8127 2.7919 2.7730 2.7559 2.6437 2.5850 2.5487 2.5242 2.5064 2.4929 2.4824 2.4739
16 6.1151 4.6866 4.0768 3.7294 3.5021 3.3406 3.2194 3.1248 3.0487 2.9861 2.9336 2.8890 2.8505 2.8170 2.7875 2.7613 2.7379 2.7170 2.6980 2.6807 2.5678 2.5085 2.4719 2.4470 2.4290 2.4154 2.4047 2.3961
17 6.0420 4.6188 4.0111 3.6647 3.4379 3.2766 3.1555 3.0609 2.9848 2.9221 2.8696 2.8248 2.7862 2.7526 2.7230 2.6967 2.6733 2.6522 2.6331 2.6157 2.5020 2.4422 2.4052 2.3801 2.3618 2.3480 2.3372 2.3285
18 5.9780 4.5596 3.9538 3.6083 3.3819 3.2209 3.0998 3.0052 2.9291 2.8663 2.8137 2.7688 2.7301 2.6964 2.6667 2.6403 2.6167 2.5955 2.5764 2.5590 2.4445 2.3841 2.3468 2.3214 2.3029 2.2890 2.2780 2.2692
19 5.9216 4.5075 3.9034 3.5587 3.3327 3.1718 3.0508 2.9562 2.8800 2.8172 2.7645 2.7195 2.6807 2.6469 2.6171 2.5906 2.5669 2.5457 2.5264 2.5089 2.3937 2.3329 2.2952 2.2695 2.2509 2.2367 2.2256 2.2167
20 5.8714 4.4612 3.8586 3.5146 3.2890 3.1283 3.0074 2.9127 2.8365 2.7736 2.7208 2.6758 2.6369 2.6029 2.5730 2.5465 2.5227 2.5014 2.4820 2.4644 2.3486 2.2873 2.2492 2.2233 2.2045 2.1902 2.1789 2.1699
df2 30 5.5675 4.1820 3.5893 3.2499 3.0264 2.8666 2.7460 2.6512 2.5746 2.5111 2.4577 2.4120 2.3724 2.3377 2.3071 2.2798 2.2554 2.2333 2.2133 2.1951 2.0739 2.0088 1.9680 1.9400 1.9195 1.9038 1.8915 1.8815 40 5.4239 4.0509 3.4632 3.1261 2.9037 2.7443 2.6237 2.5288 2.4519 2.3881 2.3343 2.2881 2.2481 2.2129 2.1819 2.1541 2.1292 2.1067 2.0863 2.0677 1.9429 1.8751 1.8323 1.8027 1.7810 1.7643 1.7511 1.7405
50 5.3403 3.9749 3.3901 3.0544 2.8326 2.6735 2.5529 2.4579 2.3808 2.3167 2.2626 2.2162 2.1758 2.1404 2.1090 2.0809 2.0557 2.0329 2.0122 1.9932 1.8659 1.7962 1.7519 1.7211 1.6984 1.6809 1.6671 1.6558
60 5.2856 3.9252 3.3425 3.0076 2.7863 2.6273 2.5067 2.4116 2.3344 2.2701 2.2158 2.1691 2.1286 2.0929 2.0613 2.0330 2.0076 1.9845 1.9636 1.9444 1.8152 1.7440 1.6985 1.6667 1.6432 1.6251 1.6107 1.5990
70 5.2470 3.8902 3.3089 2.9747 2.7537 2.5948 2.4742 2.3791 2.3017 2.2373 2.1828 2.1360 2.0953 2.0594 2.0276 1.9992 1.9736 1.9504 1.9292 1.9099 1.7792 1.7068 1.6604 1.6279 1.6037 1.5851 1.5702 1.5581
80 5.2183 3.8643 3.2840 2.9503 2.7295 2.5707 2.4501 2.3549 2.2774 2.2130 2.1584 2.1114 2.0705 2.0345 2.0026 1.9740 1.9483 1.9249 1.9037 1.8842 1.7523 1.6790 1.6318 1.5986 1.5739 1.5548 1.5396 1.5271
90 5.1962 3.8442 3.2648 2.9315 2.7108 2.5521 2.4315 2.3362 2.2587 2.1942 2.1395 2.0924 2.0514 2.0153 1.9833 1.9546 1.9287 1.9053 1.8839 1.8643 1.7314 1.6574 1.6095 1.5758 1.5507 1.5312 1.5156 1.5028
Tabelle A.5. (1 − α/2)-Quantile fdf1 ,df2 ;1−α/2 der F -Verteilung f¨ ur α = 0.05/2. df1 in den Zeilen, df2 in den Spalten 100 5.1785 3.8283 3.2496 2.9165 2.6960 2.5374 2.4168 2.3214 2.2438 2.1792 2.1244 2.0773 2.0362 2.0000 1.9679 1.9391 1.9132 1.8896 1.8682 1.8485 1.7148 1.6401 1.5916 1.5575 1.5320 1.5121 1.4962 1.4832
346 A. Tabellenanhang
df1 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 30 40 50 60 70 80 90 100
1 4052.1 4999.5 5403.3 5624.5 5763.6 5858.9 5928.3 5981.0 6022.4 6055.8 6083.3 6106.3 6125.8 6142.6 6157.3 6170.1 6181.4 6191.5 6200.5 6208.7 6260.6 6286.7 6302.5 6313.0 6320.5 6326.1 6330.5 6334.1
2 98.502 99.000 99.166 99.249 99.299 99.332 99.356 99.374 99.388 99.399 99.408 99.415 99.422 99.427 99.432 99.436 99.440 99.443 99.446 99.449 99.465 99.474 99.479 99.482 99.484 99.486 99.488 99.489
3 34.116 30.816 29.456 28.709 28.237 27.910 27.671 27.489 27.345 27.228 27.132 27.051 26.983 26.923 26.872 26.826 26.786 26.750 26.718 26.689 26.504 26.410 26.354 26.316 26.289 26.268 26.252 26.240
4 21.197 18.000 16.694 15.977 15.521 15.206 14.975 14.798 14.659 14.545 14.452 14.373 14.306 14.248 14.198 14.153 14.114 14.079 14.048 14.019 13.837 13.745 13.689 13.652 13.625 13.605 13.589 13.576
5 16.258 13.273 12.059 11.391 10.967 10.672 10.455 10.289 10.157 10.051 9.9626 9.8882 9.8248 9.7700 9.7222 9.6801 9.6428 9.6095 9.5796 9.5526 9.3793 9.2911 9.2378 9.2020 9.1763 9.1570 9.1419 9.1299
6 13.745 10.924 9.7795 9.1483 8.7458 8.4661 8.2599 8.1016 7.9761 7.8741 7.7895 7.7183 7.6574 7.6048 7.5589 7.5185 7.4827 7.4506 7.4218 7.3958 7.2285 7.1432 7.0914 7.0567 7.0318 7.0130 6.9984 6.9866
df2 7 12.246 9.5465 8.4512 7.8466 7.4604 7.1914 6.9928 6.8400 6.7187 6.6200 6.5381 6.4690 6.4100 6.3589 6.3143 6.2750 6.2400 6.2088 6.1808 6.1554 5.9920 5.9084 5.8576 5.8235 5.7990 5.7806 5.7662 5.7546 8 11.258 8.6491 7.5909 7.0060 6.6318 6.3706 6.1776 6.0288 5.9106 5.8142 5.7342 5.6667 5.6089 5.5588 5.5151 5.4765 5.4422 5.4116 5.3840 5.3590 5.1981 5.1156 5.0653 5.0316 5.0073 4.9890 4.9747 4.9632
9 10.561 8.0215 6.9919 6.4220 6.0569 5.8017 5.6128 5.4671 5.3511 5.2565 5.1778 5.1114 5.0545 5.0052 4.9620 4.9240 4.8901 4.8599 4.8326 4.8079 4.6485 4.5666 4.5167 4.4830 4.4588 4.4406 4.4264 4.4149
10 10.044 7.5594 6.5523 5.9943 5.6363 5.3858 5.2001 5.0566 4.9424 4.8491 4.7715 4.7058 4.6496 4.6008 4.5581 4.5204 4.4869 4.4569 4.4298 4.4053 4.2469 4.1652 4.1154 4.0818 4.0576 4.0394 4.0251 4.0137
11 9.6460 7.2057 6.2167 5.6683 5.3160 5.0692 4.8860 4.7444 4.6315 4.5392 4.4624 4.3974 4.3416 4.2932 4.2508 4.2134 4.1801 4.1502 4.1233 4.0990 3.9411 3.8595 3.8097 3.7760 3.7518 3.7335 3.7192 3.7077
12 9.3302 6.9266 5.9525 5.4119 5.0643 4.8205 4.6395 4.4993 4.3875 4.2960 4.2198 4.1552 4.0998 4.0517 4.0096 3.9723 3.9392 3.9094 3.8827 3.8584 3.7007 3.6191 3.5692 3.5354 3.5111 3.4927 3.4783 3.4668
13 9.0738 6.7009 5.7393 5.2053 4.8616 4.6203 4.4409 4.3020 4.1910 4.1002 4.0245 3.9603 3.9052 3.8573 3.8153 3.7782 3.7451 3.7155 3.6888 3.6646 3.5070 3.4252 3.3751 3.3412 3.3168 3.2983 3.2839 3.2722
Tabelle A.6. (1 − α)-Quantile fdf1 ,df2 ;1−α der F -Verteilung f¨ ur α = 0.01. df1 in den Zeilen, df2 in den Spalten 14 8.8615 6.5148 5.5638 5.0353 4.6949 4.4558 4.2778 4.1399 4.0296 3.9393 3.8640 3.8001 3.7452 3.6975 3.6556 3.6186 3.5856 3.5561 3.5294 3.5052 3.3475 3.2656 3.2153 3.1812 3.1566 3.1380 3.1235 3.1118
A. Tabellenanhang 347
df1 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 30 40 50 60 70 80 90 100
15 8.6831 6.3588 5.4169 4.8932 4.5556 4.3182 4.1415 4.0044 3.8947 3.8049 3.7299 3.6662 3.6115 3.5639 3.5221 3.4852 3.4523 3.4227 3.3960 3.3718 3.2141 3.1319 3.0813 3.0471 3.0223 3.0036 2.9890 2.9772
16 8.5309 6.2262 5.2922 4.7725 4.4374 4.2016 4.0259 3.8895 3.7804 3.6909 3.6161 3.5526 3.4980 3.4506 3.4089 3.3720 3.3391 3.3095 3.2829 3.2587 3.1007 3.0182 2.9674 2.9330 2.9081 2.8893 2.8745 2.8626
17 8.3997 6.1121 5.1849 4.6689 4.3359 4.1015 3.9267 3.7909 3.6822 3.5930 3.5185 3.4551 3.4007 3.3533 3.3116 3.2748 3.2419 3.2123 3.1857 3.1615 3.0032 2.9204 2.8694 2.8348 2.8097 2.7907 2.7759 2.7639
18 8.2854 6.0129 5.0918 4.5790 4.2478 4.0146 3.8406 3.7054 3.5970 3.5081 3.4337 3.3706 3.3162 3.2688 3.2272 3.1904 3.1575 3.1280 3.1013 3.0770 2.9185 2.8354 2.7841 2.7493 2.7240 2.7049 2.6899 2.6779
19 8.1849 5.9258 5.0102 4.5002 4.1707 3.9385 3.7652 3.6305 3.5225 3.4338 3.3596 3.2965 3.2422 3.1949 3.1533 3.1164 3.0836 3.0540 3.0273 3.0031 2.8442 2.7607 2.7092 2.6742 2.6488 2.6295 2.6144 2.6023
20 8.0959 5.8489 4.9381 4.4306 4.1026 3.8714 3.6987 3.5644 3.4566 3.3681 3.2941 3.2311 3.1768 3.1295 3.0880 3.0511 3.0182 2.9887 2.9620 2.9377 2.7784 2.6947 2.6429 2.6077 2.5821 2.5627 2.5475 2.5353
df2 30 7.5624 5.3903 4.5097 4.0178 3.6990 3.4734 3.3044 3.1726 3.0665 2.9790 2.9056 2.8430 2.7890 2.7418 2.7001 2.6631 2.6300 2.6002 2.5732 2.5486 2.3859 2.2992 2.2450 2.2078 2.1807 2.1601 2.1438 2.1307 40 7.3140 5.1785 4.3125 3.8282 3.5138 3.2910 3.1237 2.9929 2.8875 2.8005 2.7273 2.6648 2.6107 2.5634 2.5216 2.4844 2.4510 2.4210 2.3937 2.3688 2.2033 2.1142 2.0581 2.0194 1.9910 1.9693 1.9522 1.9383
50 7.1705 5.0566 4.1993 3.7195 3.4076 3.1864 3.0201 2.8900 2.7849 2.6981 2.6250 2.5624 2.5083 2.4608 2.4189 2.3816 2.3480 2.3178 2.2903 2.2652 2.0975 2.0065 1.9489 1.9090 1.8796 1.8571 1.8392 1.8247
60 7.0771 4.9774 4.1258 3.6490 3.3388 3.1186 2.9530 2.8232 2.7184 2.6317 2.5586 2.4961 2.4418 2.3943 2.3522 2.3147 2.2811 2.2506 2.2230 2.1978 2.0284 1.9360 1.8771 1.8362 1.8060 1.7828 1.7643 1.7493
70 7.0113 4.9218 4.0743 3.5996 3.2906 3.0712 2.9060 2.7765 2.6718 2.5852 2.5121 2.4495 2.3952 2.3476 2.3055 2.2679 2.2341 2.2035 2.1757 2.1504 1.9797 1.8861 1.8263 1.7845 1.7536 1.7298 1.7108 1.6953
80 6.9626 4.8807 4.0362 3.5631 3.2550 3.0361 2.8712 2.7419 2.6373 2.5508 2.4777 2.4151 2.3607 2.3131 2.2708 2.2331 2.1992 2.1686 2.1407 2.1152 1.9435 1.8489 1.7883 1.7458 1.7144 1.6900 1.6706 1.6548
90 6.9251 4.8490 4.0069 3.5349 3.2276 3.0091 2.8445 2.7153 2.6108 2.5243 2.4512 2.3886 2.3342 2.2864 2.2441 2.2064 2.1724 2.1417 2.1137 2.0881 1.9155 1.8201 1.7588 1.7158 1.6838 1.6590 1.6393 1.6231
Tabelle A.6. (1 − α)-Quantile fdf1 ,df2 ;1−α der F -Verteilung f¨ ur α = 0.01. df1 in den Zeilen, df2 in den Spalten 100 6.8953 4.8239 3.9836 3.5126 3.2058 2.9876 2.8232 2.6942 2.5898 2.5033 2.4302 2.3675 2.3131 2.2653 2.2230 2.1851 2.1511 2.1203 2.0922 2.0666 1.8932 1.7971 1.7352 1.6917 1.6593 1.6342 1.6141 1.5976
348 A. Tabellenanhang
df1 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 30 40 50 60 70 80 90 100
1 16210 19999 21614 22499 23055 23437 23714 23925 24091 24224 24334 24426 24504 24571 24630 24681 24726 24767 24803 24835 25043 25148 25211 25255 25285 25307 25324 25338
2 198.50 199.00 199.16 199.24 199.29 199.33 199.35 199.37 199.38 199.39 199.40 199.41 199.42 199.42 199.43 199.43 199.44 199.44 199.44 199.44 199.46 199.47 199.47 199.48 199.48 199.48 199.48 199.48
3 55.551 49.799 47.467 46.194 45.391 44.838 44.434 44.125 43.882 43.685 43.523 43.387 43.271 43.171 43.084 43.008 42.940 42.880 42.826 42.777 42.465 42.308 42.213 42.149 42.103 42.069 42.042 42.021
4 31.332 26.284 24.259 23.154 22.456 21.974 21.621 21.351 21.139 20.966 20.824 20.704 20.602 20.514 20.438 20.370 20.311 20.258 20.210 20.167 19.891 19.751 19.667 19.610 19.570 19.539 19.515 19.496
5 22.784 18.313 16.529 15.556 14.939 14.513 14.200 13.960 13.771 13.618 13.491 13.384 13.293 13.214 13.146 13.086 13.032 12.984 12.942 12.903 12.655 12.529 12.453 12.402 12.365 12.338 12.316 12.299
6 18.634 14.544 12.916 12.027 11.463 11.073 10.785 10.565 10.391 10.250 10.132 10.034 9.9501 9.8774 9.8139 9.7581 9.7086 9.6644 9.6246 9.5887 9.3582 9.2408 9.1696 9.1219 9.0876 9.0619 9.0418 9.0256
df2 7 16.235 12.403 10.882 10.050 9.5220 9.1553 8.8853 8.6781 8.5138 8.3803 8.2696 8.1764 8.0967 8.0278 7.9677 7.9148 7.8678 7.8258 7.7880 7.7539 7.5344 7.4224 7.3544 7.3087 7.2759 7.2512 7.2319 7.2165 8 14.688 11.042 9.5964 8.8051 8.3017 7.9519 7.6941 7.4959 7.3385 7.2106 7.1044 7.0149 6.9383 6.8721 6.8142 6.7632 6.7180 6.6775 6.6411 6.6082 6.3960 6.2875 6.2215 6.1771 6.1453 6.1212 6.1025 6.0875
9 13.613 10.106 8.7170 7.9558 7.4711 7.1338 6.8849 6.6933 6.5410 6.4171 6.3142 6.2273 6.1530 6.0887 6.0324 5.9828 5.9388 5.8993 5.8639 5.8318 5.6247 5.5185 5.4539 5.4104 5.3791 5.3555 5.3371 5.3223
10 12.826 9.4269 8.0807 7.3428 6.8723 6.5446 6.3024 6.1159 5.9675 5.8466 5.7462 5.6613 5.5886 5.5257 5.4706 5.4220 5.3789 5.3402 5.3054 5.2740 5.0705 4.9659 4.9021 4.8591 4.8282 4.8049 4.7867 4.7721
11 12.226 8.9122 7.6004 6.8808 6.4217 6.1015 5.8647 5.6821 5.5367 5.4182 5.3196 5.2363 5.1649 5.1030 5.0488 5.0010 4.9585 4.9205 4.8862 4.8552 4.6543 4.5508 4.4876 4.4450 4.4143 4.3911 4.3730 4.3585
12 11.754 8.5096 7.2257 6.5211 6.0711 5.7570 5.5245 5.3450 5.2021 5.0854 4.9883 4.9062 4.8358 4.7747 4.7213 4.6741 4.6321 4.5945 4.5606 4.5299 4.3309 4.2281 4.1653 4.1229 4.0923 4.0692 4.0512 4.0367
13 11.373 8.1864 6.9257 6.2334 5.7909 5.4819 5.2529 5.0760 4.9350 4.8199 4.7240 4.6428 4.5732 4.5128 4.4599 4.4132 4.3716 4.3343 4.3007 4.2703 4.0727 3.9704 3.9078 3.8655 3.8350 3.8120 3.7939 3.7795
Tabelle A.7. (1 − α/2)-Quantile fdf1 ,df2 ;1−α der F -Verteilung f¨ ur α = 0.01/2. df1 in den Zeilen, df2 in den Spalten 14 11.060 7.9216 6.6803 5.9984 5.5622 5.2573 5.0313 4.8566 4.7172 4.6033 4.5084 4.4281 4.3591 4.2992 4.2468 4.2004 4.1591 4.1221 4.0887 4.0585 3.8619 3.7599 3.6975 3.6552 3.6247 3.6017 3.5836 3.5692
A. Tabellenanhang 349
df1 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 30 40 50 60 70 80 90 100
15 10.798 7.7007 6.4760 5.8029 5.3721 5.0708 4.8472 4.6743 4.5363 4.4235 4.3294 4.2497 4.1813 4.1218 4.0697 4.0237 3.9826 3.9458 3.9126 3.8825 3.6867 3.5849 3.5225 3.4802 3.4497 3.4266 3.4086 3.3940
16 10.575 7.5138 6.3033 5.6378 5.2117 4.9134 4.6920 4.5206 4.3838 4.2718 4.1785 4.0993 4.0313 3.9722 3.9204 3.8746 3.8338 3.7971 3.7641 3.7341 3.5388 3.4372 3.3747 3.3324 3.3018 3.2787 3.2605 3.2460
17 10.384 7.3536 6.1556 5.4966 5.0745 4.7789 4.5593 4.3893 4.2535 4.1423 4.0495 3.9708 3.9032 3.8444 3.7929 3.7472 3.7066 3.6701 3.6371 3.6073 3.4124 3.3107 3.2482 3.2058 3.1751 3.1519 3.1337 3.1191
18 10.218 7.2148 6.0277 5.3746 4.9560 4.6627 4.4447 4.2759 4.1409 4.0304 3.9381 3.8598 3.7925 3.7340 3.6827 3.6372 3.5967 3.5603 3.5274 3.4976 3.3030 3.2013 3.1387 3.0962 3.0654 3.0421 3.0239 3.0092
19 10.072 7.0934 5.9160 5.2680 4.8526 4.5613 4.3448 4.1770 4.0428 3.9328 3.8410 3.7630 3.6960 3.6377 3.5865 3.5412 3.5008 3.4645 3.4317 3.4020 3.2075 3.1057 3.0430 3.0003 2.9695 2.9461 2.9278 2.9130
20 9.9439 6.9864 5.8177 5.1742 4.7615 4.4721 4.2568 4.0899 3.9564 3.8470 3.7555 3.6779 3.6111 3.5530 3.5019 3.4567 3.4164 3.3801 3.3474 3.3177 3.1234 3.0215 2.9586 2.9158 2.8849 2.8614 2.8430 2.8282
df2 30 9.1796 6.3546 5.2387 4.6233 4.2275 3.9492 3.7415 3.5800 3.4504 3.3439 3.2547 3.1787 3.1132 3.0560 3.0057 2.9610 2.9211 2.8851 2.8526 2.8230 2.6277 2.5240 2.4594 2.4151 2.3829 2.3583 2.3390 2.3234 40 8.8278 6.0664 4.9758 4.3737 3.9860 3.7129 3.5088 3.3497 3.2219 3.1167 3.0284 2.9531 2.8880 2.8312 2.7810 2.7365 2.6966 2.6606 2.6280 2.5984 2.4014 2.2958 2.2295 2.1838 2.1504 2.1248 2.1047 2.0884
50 8.6257 5.9016 4.8258 4.2316 3.8486 3.5785 3.3764 3.2188 3.0920 2.9875 2.8996 2.8247 2.7598 2.7031 2.6531 2.6085 2.5686 2.5326 2.4999 2.4701 2.2716 2.1644 2.0967 2.0498 2.0154 1.9890 1.9681 1.9512
60 8.4946 5.7949 4.7289 4.1398 3.7599 3.4918 3.2911 3.1344 3.0082 2.9041 2.8166 2.7418 2.6771 2.6204 2.5704 2.5258 2.4859 2.4498 2.4170 2.3872 2.1874 2.0788 2.0099 1.9621 1.9269 1.8998 1.8783 1.8608
70 8.4026 5.7203 4.6612 4.0758 3.6980 3.4313 3.2315 3.0755 2.9497 2.8459 2.7586 2.6839 2.6193 2.5627 2.5126 2.4681 2.4280 2.3919 2.3591 2.3291 2.1282 2.0186 1.9488 1.9001 1.8642 1.8365 1.8145 1.7965
80 8.3346 5.6652 4.6112 4.0285 3.6523 3.3866 3.1875 3.0320 2.9066 2.8030 2.7158 2.6412 2.5766 2.5200 2.4700 2.4254 2.3853 2.3491 2.3162 2.2862 2.0844 1.9739 1.9033 1.8539 1.8174 1.7892 1.7667 1.7484
90 8.2822 5.6228 4.5728 3.9921 3.6172 3.3523 3.1538 2.9986 2.8734 2.7700 2.6829 2.6084 2.5439 2.4873 2.4372 2.3926 2.3525 2.3162 2.2833 2.2532 2.0507 1.9394 1.8680 1.8181 1.7811 1.7524 1.7296 1.7109
Tabelle A.7. (1 − α/2)-Quantile fdf1 ,df2 ;1−α der F -Verteilung f¨ ur α = 0.01/2. df1 in den Zeilen, df2 in den Spalten 100 8.2406 5.5892 4.5423 3.9633 3.5894 3.3252 3.1271 2.9721 2.8472 2.7439 2.6569 2.5825 2.5179 2.4613 2.4112 2.3666 2.3264 2.2901 2.2571 2.2270 2.0238 1.9119 1.8400 1.7896 1.7521 1.7230 1.6998 1.6808
350 A. Tabellenanhang
Literaturverzeichnis
Toutenburg, H., Heumann, C. (2008) Deskriptive Statistik, 6. Auflage. Springer Verlag Toutenburg, H., Heumann, C. (2008) Induktive Statistik, 4. Auflage. Springer Verlag Toutenburg, H. (2003) Lineare Modelle, 2. Auflage. Physica Verlag Rao, C.R., Toutenburg, H., Shalabh, Heumann, C. (2008) Linear Models and Generalizations – Least Squares and Alternatives. Springer Verlag, New York B¨ uning, H., Trenkler, G. (1994) Nichtparametrische statistische Methoden. Verlag de Gruyter Sachs, L. (2004) Angewandte Statistik. Springer, Heidelberg ¨ von Auer, L. (2005) Okonometrie. Springer, Heidelberg
Sachverzeichnis
χ2 – Verteilung, 188 χ2 -Unabh¨ angigkeitstest, 276
Dichtefunktion, 152 Dispersion, 156 Dummykodierung, 105
Absolutskala, 3 Additionssatz – f¨ ur χ2 -Verteilungen, 188 – f¨ ur beliebige Ereignisse, 137 – f¨ ur Binomialverteilungen, 178 – f¨ ur disjunkte Ereignisse, 136 – f¨ ur Normalverteilungen, 182 Alternativhypothese, 210 Anpassungstests, 241 arithmetisches Mittel, 29 – Eigenschaften, 30 – gewichtetes, 30 – gewogenes, 30 Assoziation, 72 Assoziationsmaß – Kontingenzkoeffizient C, 75 – Kontingenzmaß von Cramer, 75 – Odds-Ratio, 76 – Phi-Koeffizient, 74 – Rangkorrelationskoeffizient von Spearman, 77 Auspr¨ agung, 1 Ausreißer, 36 Auswahl von Elementen – geordnet, 121 – ungeordnet, 121
Effektkodierung, 105 Einpunktverteilung, 176 Einstichprobenproblem, 209 Elementarereignis, 131 Ereignisraum, 131 Ereignisse – Additionssatz, 136, 137 – disjunkte, 134 – elementare, 131 – komplement¨ are, 132 – Multiplikationssatz, 139 – sichere, 132 – unm¨ ogliche, 132 – zuf¨ allige, 131 – zusammengesetzte, 132 Erwartungswert, 155 Experiment – Laplacesches, 136 – zuf¨ alliges, 131 Extremwerte, 36
Balkendiagramm, 9 Bestimmtheitsmaß, 102 Bindung, 77 Binomialkoeffizient, 123 Binomialtest f¨ ur p, 222 Binomialverteilung, 178 Chaosplot, 79 Chi-Quadrat-Anpassungstest, 242 Datenanalyse, 287
F -Test, 216 F -Verteilung, 189 Fakult¨ at, 122 Fehler – erster Art, 211 – zweiter Art, 212 Fehlerglied, 97 Gauss-Markov-Sch¨ atzung, 260 Gauss-Markov-Theorem, 260 Gauss-Test – doppelter, 219 – einfacher, 212 Gini-Koeffizient, 38 – normierter, 39 Gleichverteilung – diskrete, 175
354
Sachverzeichnis
– stetige, 180 Grundgesamtheit, 1 Grundraum, 131 H¨ aufigkeit – absolute, 135 – relative, 135 H¨ aufigkeit, 7 – absolute, 7 – erwartete, 73 – kumulierte relative, 8 – relative, 7 H¨ aufigkeitstabelle, 7 Histogramm, 11 Homogenit¨ atstest, 245 Hypothese, 210 Intervallsch¨ atzung, 199 Intervallskala, 3 Kleinste-Quadrate-Sch¨ atzungen, 98 Kolmogorov, 136 Kolmogorov-Smirnov – Anpassungstest, 244 – Zweistichprobentest, 245 Kombinationen, 123 – mit Reihenfolge, 124, 126 – mit Wiederholung, 125, 126 – ohne Reihenfolge, 124, 125 – ohne Wiederholung, 124 Kombinatorik, 121 Komplement¨ arereignis, 132 Konfidenzgrenze, 202 Konfidenzmethode, 202 Konfidenzniveau, 202 Konfidenzsch¨ atzung, 202 – f¨ ur μ, 202, 203 Kontingenzkoeffizient, 75 – korrigierter, 76 Kontingenzmaß von Cramer, 75 Kontingenztafel, 69, 273 Kontinuum, 185 Korrelation, 78, 79 Korrelationskoeffizient, 165 – von Bravais-Pearson, 79 – von Spearman, 77 Kovarianz, 163 Kreisdiagramm, 9 kσ-Regel f¨ ur die Normalverteilung, 184 kumulierte relative H¨ aufigkeit, 8 Lageparameter, 27 Laplace-Experiment, 136 Laplace-Wahrscheinlichkeit, 136
Lineare Regression, 259 Lorenzkurve, 37 Mann-Whitney-U -Test, 246 Mengenoperationen, 132 Merkmal, 1 – standardisiertes, 34 metrische Skala, 3 Mittel – arithmetisches, 29 – gewichtetes arithmetisches, 30 – gewogenes arithmetisches, 30 Mittelwertsvergleich – einfacher, 212, 215 – zweifacher, 219, 221 Multinomialverteilung, 186 Multiplikationssatz, 139 Namibia, 25, 205 Nichtparametrische Tests, 241 Nominalskala, 3 Normalverteilung, 181 – Dichte, 181 Null-Anpassung, 103 Nullhypothese, 210 Odds-Ratio, 76, 278 Ordinalskala, 3 p-value, 225 perfekte Anpassung, 102 Permutationen, 122 – mit Wiederholung, 123 – ohne Wiederholung, 122 Phi-Koeffizient, 74 Poissonverteilung, 185 Prinzip – der kleinsten Quadrate, 97 Prinzip der kleinsten Quadrate, 97 Pr¨ ufen – linearer Hypothesen, 260 Punktsch¨ atzung, 199 Q-Q-Plot, 29 Quantil, 28 Quantil-Quantil-Diagramm, 29 Randdichte, 162 Randverteilung, 70, 160, 162 Range, 33 Rangkorrelationskoeffizient von Spearman, 77 Rangskala, 3 Rechenregeln
Sachverzeichnis – f¨ ur den Erwartungswert, 156 – f¨ ur die Varianz, 157 – f¨ ur Verteilungsfunktionen, 150 – f¨ ur Wahrscheinlichkeiten, 138 Referenzkategorie, 105 Regressionsgerade, 98 Residuum, 97 Satz – Bayes, 139 – Gauss-Markov, 260 – Student, 189 – totale Wahrscheinlichkeit, 139 Scatterplot, 72 Sch¨ atzung – Gauss-Markov, 260 Skala – Absolutskala, 3 – Intervallskala, 3 – metrische Skala, 3 – Nominalskala, 3 – Ordinalskala, 3 – Verh¨ altnisskala, 3 Spannweite, 33 Stabdiagramm, 9 Standardabweichung, 33, 157 Standardisierte Zufallsvariable, 158 Standardisierung, 34 Standardnormalverteilung, 181 Standardverteilungen, 175 stem-and-leaf plot, 10 Stichprobe, 199 – als Zufallsgr¨ oße, 199 – i.i.d., 199 – konkrete, 199 Stichprobenvarianz – gepoolte, 219 Streubereich, 32 Streuungsmaße, 32 Streuungszerlegung, 101 Student-Verteilung, 188 t-Test – doppelter, 219 – einfacher, 215 – paired, 221 t-Verteilung, 188 Test – U -Test, 246 – Binomialtest, 222, 223 – doppelter t-Test, 219 – doppelter Gauss-Test, 219 – einfacher t-Test, 215
355
– einfacher Gauss-Test, 212 – F -Test, 216 – Kolmogorov-SmirnovAnpassungstest, 244 – Kolmogorov-Smirnov-Test im Zweistichprobenproblem, 245 – Mann-Whitney-Test, 246 – paired t-Test, 221 Testproblem – einseitig, 210 – zweiseitig, 210 Tr¨ ager einer Verteilung, 151 Treppenfunktion, 151 Unabh¨ angigkeit, 140 – in Kontingenztafeln, 275 – paarweise, 141 – stochastische, 141 – von diskreten Zufallsvariablen, 155 – von stetigen Zufallsvariablen, 162 – von Zufallsvariablen, 154 Ungleichung – Tschebyschev, 159 Untersuchungseinheiten, 1 Ursache-Wirkungs-Beziehung, 96 Variable, 1 Varianz, 33, 156 – Additionssatz, 157, 164 – deskriptive, 33 – Rechenregeln, 157 – Verschiebungssatz, 33, 157 Variationskoeffizient, 35 Verh¨ altnisskala, 3 Verteilung – gemeinsame, 70 – Rand, 70 Verteilungsfunktion, 149 Vier-Felder-Tafel, 70 Vierfeldertafel, 277 vollst¨ andige Zerlegung, 134 vollst¨ andiges System, 134 Wachstumsfaktor, 31 Wachstumsrate, 31 Wahrscheinlichkeit – a-posteriori, 139 – a-priori, 139 – bedingte, 139 – nach Laplace, 136 Wahrscheinlichkeitsfunktion, 151, 160 Wahrscheinlichkeitsrechnung – Axiomensystem, 136 – Rechenregeln, 138
356
Sachverzeichnis
Wartezeit, 187 Welch-Test, 220 Zerlegung – vollst¨ andige, 134 Ziehen – mit Zur¨ ucklegen, 178 – ohne Zur¨ ucklegen, 179 zuf¨ alliges
– Ereignis, 131 – Experiment, 131 Zufallsintervall, 202 Zufallsvariablen – diskrete, 151 – stetige, 151 – zweidimensionale, 159 Zufallsvektor, 161 Zweistichprobenproblem, 209