1,487 170 5MB
Pages 306 Page size 439 x 666 pts Year 2011
Springer-Lehrbuch
Angelika Caputo · Ludwig Fahrmeir Rita Künstler · Stefan Lang Iris Pigeot-Kübler · Gerhard Tutz
Arbeitsbuch Statistik Fünfte, verbesserte Auflage
123
Dr. Angelika Caputo Novartis Pharma AG 4056 Basel Schweiz [email protected] Prof. Dr. Ludwig Fahrmeir Universität München Institut für Statistik Ludwigstraße 33/II 80539 München [email protected]
Prof. Dr. Stefan Lang Universität Innsbruck Institut für Statistik Universitätsstraße 15 6020 Innsbruck Österreich [email protected] Prof. Dr. Iris Pigeot-Kübler Universität Bremen ZWE BIPS Linzerstraße 10 28359 Bremen [email protected]
Dr. Rita Künstler [email protected]
Prof. Dr. Gerhard Tutz Universität München Institut für Statistik Akademiestraße 1/IV 80799 München [email protected]
ISBN 978-3-540-85082-3
e-ISBN 978-3-540-85083-0
DOI 10.1007/978-3-540-85083-0 Springer-Lehrbuch ISSN 0937-7433 Bibliografische Information der Deutschen Nationalbibliothek Die Deutsche Nationalbibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Internet über http://dnb.d-nb.de abrufbar. c 2009, 2005, 2003, 2001, 1999 Springer-Verlag Berlin Heidelberg Dieses Werk ist urheberrechtlich geschützt. Die dadurch begründeten Rechte, insbesondere die der Übersetzung, des Nachdrucks, des Vortrags, der Entnahme von Abbildungen und Tabellen, der Funksendung, der Mikroverfilmung oder der Vervielfältigung auf anderen Wegen und der Speicherung in Datenverarbeitungsanlagen, bleiben, auch bei nur auszugsweiser Verwertung, vorbehalten. Eine Vervielfältigung dieses Werkes oder von Teilen dieses Werkes ist auch im Einzelfall nur in den Grenzen der gesetzlichen Bestimmungen des Urheberrechtsgesetzes der Bundesrepublik Deutschland vom 9. September 1965 in der jeweils geltenden Fassung zulässig. Sie ist grundsätzlich vergütungspflichtig. Zuwiderhandlungen unterliegen den Strafbestimmungen des Urheberrechtsgesetzes. Die Wiedergabe von Gebrauchsnamen, Handelsnamen, Warenbezeichnungen usw. in diesem Werk berechtigt auch ohne besondere Kennzeichnung nicht zu der Annahme, dass solche Namen im Sinne der Warenzeichen- und Markenschutz-Gesetzgebung als frei zu betrachten wären und daher von jedermann benutzt werden dürften. Herstellung: le-tex publishing services oHG, Leipzig Umschlaggestaltung: WMX Design GmbH, Heidelberg Gedruckt auf säurefreiem Papier 987654321 springer.de
Vorwort Das vorliegende Arbeitsbuch dient zur Vertiefung der Lehrinhalte des 1997 in erster Auflage im Springer-Verlag erschienenen Lehrbuchs Statistik – Der Weg zur Datenanalyse von L. Fahrmeir , R. K¨ unstler, I. Pigeot und G. Tutz. Es enth¨ alt einen Großteil der im obigen Buch bereitgestellten Aufgaben und deren L¨ osungen. Erg¨ anzend werden Aufgaben mit L¨osungen angegeben, die ¨ sich in Ubungen bew¨ ahrt haben oder in Klausuren zum Einsatz kamen. Dabei werden s¨ amtliche Kapitel des Lehrbuchs abgedeckt, d.h. im einzelnen werden Aufgaben zu Methoden der deskriptiven und explorativen Datenanalyse, der induktiven Statistik, der Regressions- und Varianzanalyse sowie der Analyse von Zeitreihen und zu den Grundlagen der Stochastik gestellt. Bei den L¨ osungen wird auf die entsprechenden Abschnitte des Lehrbuchs verwiesen, um so eine Nutzung beider Materialen als Lehreinheit zu erm¨oglichen. Selbstverst¨ andlich kann diese Aufgabensammlung auch unabh¨angig vom obigen Lehrbuch zur Ein¨ ubung statistischer Methoden genutzt werden. Als Erweiterung zu diesen Aufgaben, die mit Papier und Bleistift gel¨ost werden k¨onnen, dienen Computeraufgaben, die in umfassender Weise bestimmte Themenkomplexe anhand gr¨ oßerer Datens¨ atze behandeln. Die Datens¨atze entstammen realen Fragestellungen, die im ersten Kapitel des Lehrbuchs ausf¨ uhrlich vorgestellt werden. Sowohl die Originaldaten als auch die L¨osungen der Computeraufgaben k¨ onnen via Internet http://www.stat.uni-muenchen.de/∼fahrmeir/uebbuch/uebbuch.html abgerufen werden. Bei der Erstellung dieser Aufgabensammlung sind zahl¨ reiche Aufgaben aus fr¨ uheren Ubungen und Klausuren eingeflossen, deren Urheber uns im einzelnen nicht mehr bekannt waren. Ihnen allen gilt unser ganz besonderer Dank. Bedanken m¨ ochten wir uns zudem bei all denjenigen, die uns reale Daten zur Verf¨ ugung gestellt haben. F¨ ur die sorgf¨altige Erstellung eines großen Teils des LATEX-Manuskripts sei Thomas Billenkamp, Anne Goldhammer, Dieter Gollnow, Alexander Jerak, Tobias Lasser, Rainer Vollnhals und Dietmar Walbrunn herzlich gedankt. Schließlich gilt unser Dank dem Springer-Verlag f¨ ur die stets gute Zusammenarbeit und besonders Herrn M¨ uller f¨ ur die Anregung zu diesem Arbeitsbuch. M¨ unchen im April 1999
Angelika Caputo Ludwig Fahrmeir Rita K¨ unstler Stefan Lang Iris Pigeot Gerhard Tutz
vi
Vorworte
Vorwort zur zweiten Auflage Bei der vorliegenden Auflage handelt es sich um eine durchgesehene und korrigierte Version der Erstauflage des Buches. Wir bedanken uns bei R¨ udiger Krause und G¨ unter Rasser f¨ ur Hinweise auf Fehler und f¨ ur Verbesserungsvorschl¨ age. M¨ unchen im Oktober 2000
Angelika Caputo Ludwig Fahrmeir Rita K¨ unstler Stefan Lang Iris Pigeot Gerhard Tutz
Vorwort zur dritten Auflage Die vorliegende Auflage enth¨ alt ein zus¨ atzliches Kapitel (Kapitel 15), das kapitel¨ ubergreifende Aufgaben enth¨ alt. Bei der Bearbeitung werden Methoden aus unterschiedlichen Abschnitten des Buches ben¨otigt. Wir bedanken uns bei Jochen Einbeck, G¨ unter Raßer und unseren Studenten f¨ ur Hinweise auf Fehler und Verbesserungen. M¨ unchen im M¨ arz 2002
Angelika Caputo Ludwig Fahrmeir Rita K¨ unstler Stefan Lang Iris Pigeot Gerhard Tutz
Vorworte
vii
Vorwort zur vierten Auflage In dieser Auflage sind zahlreiche Aufgaben an das Eurozeitalter angepaßt. Die Aufgaben zum M¨ unchener Mietspiegel basieren nicht mehr auf dem Mietspiegel von 1994, sondern dem aktuellen Mietspiegel f¨ ur M¨ unchen 2003. Einige Fehler in den L¨ osungen der Aufgaben wurden beseitigt. Wir bedanken uns bei Jochen Einbeck und unseren Studenten f¨ ur Hinweise auf Fehler und Verbesserungen. M¨ unchen im Juli 2004
Angelika Caputo Ludwig Fahrmeir Rita K¨ unstler Stefan Lang Iris Pigeot Gerhard Tutz
Vorwort zur fu ¨nften Auflage Diese Auflage enth¨ alt im Vergleich zur vierten Auflage circa 50 Seiten neue Aufgaben mit dazu geh¨ orenden L¨ osungen. Einige weniger interessante bzw. veraltete Aufgaben wurden gestrichen. Wir bedanken uns bei Oliver Joost, Sylvia Schmidt, Nikolaus Umlauf und Peter Wechselberger f¨ ur die Unterst¨ utzung bei der Erstellung der neuen Aufgaben. Innsbruck und M¨ unchen im Juli 2008
Angelika Caputo Ludwig Fahrmeir Rita K¨ unstler Stefan Lang Iris Pigeot Gerhard Tutz
Inhaltsverzeichnis
1.
Einf¨ uhrung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1
2.
Univariate Deskription und Exploration von Daten . . . . . . .
5
3.
Multivariate Deskription und Exploration . . . . . . . . . . . . . . . . 51
4.
Wahrscheinlichkeitsrechnung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
5.
Diskrete Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
6.
Stetige Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119
7.
Mehr u ¨ber Zufallsvariablen und Verteilungen . . . . . . . . . . . . . 153
8.
Mehrdimensionale Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . . . 161
9.
Parametersch¨ atzung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 177
10. Testen von Hypothesen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 197 11. Spezielle Testprobleme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 217 12. Regressionsanalyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 241 13. Varianzanalyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 267 14. Zeitreihen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 279 ¨ 15. Ubergreifende Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 285 16. Computeraufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 299
1 Einfu ¨ hrung
Aufgaben Aufgabe 1.1 Diskutieren Sie die im Rahmen des M¨ unchener Mietspiegels erhobenen Merkmale Nettomiete, Wohnfl¨ ache, Baualter, Zentralheizung, Warmwasserversorgung, Lage der Wohnung und Ausstattung des Bads hinsichtlich ihres jeweiligen Skalenniveaus. Entscheiden Sie zudem, ob es sich um diskrete oder stetige bzw. quantitative oder qualitative Merkmale handelt. (L¨osung siehe Seite 3)
Aufgabe 1.2 Um welchen Studientyp handelt es sich bei (a) dem M¨ unchener Mietspiegel, (b) den Aktienkursen, (c) dem IFO-Konjunkturtest? (L¨osung siehe Seite 3)
Aufgabe 1.3 Eine statistische Beratungsfirma wird mit folgenden Themen beauftragt: (a) (b) (c)
Qualit¨ atspr¨ ufung von Weinen in Orvieto, ¨ Uberpr¨ ufung der Sicherheit von Kondomen in der Produktion, Untersuchung des Suchtverhaltens Jugendlicher.
Als Leiterin oder Leiter der Abteilung Datenerhebung sollen Sie zwischen einer Vollerhebung und einer Stichprobenauswahl zur Gewinnung der ben¨otigten Daten entscheiden. Begr¨ unden Sie Ihre Entscheidung. (L¨osung siehe Seite 3)
2
1. Einf¨ uhrung
Aufgabe 1.4 Eine Firma interessiert sich im Rahmen der Planung von Parkpl¨atzen und dem Einsatz von firmeneigenen Bussen daf¨ ur, in welcher Entfernung ihre Besch¨ aftigten von der Arbeitsst¨ atte wohnen und mit welchen Bef¨orderungsmitteln die Arbeitsst¨ atte u ¨berwiegend erreicht wird. Sie greift dazu auf eine Untersuchung zur¨ uck, die zur Erfassung der wirtschaftlichen Lage der Mitarbeiterinnen und Mitarbeiter durchgef¨ uhrt wurde. Bei der Untersuchung wurden an einem Stichtag 50 Besch¨ aftigte ausgew¨ahlt und zu folgenden Punkten befragt: – – – – –
Haushaltsgr¨ oße (Anzahl der im Haushalt lebenden Personen), monatliche Miete, Bef¨ orderungsmittel, mit dem die Arbeitsst¨atte u ¨ berwiegend erreicht wird, Entfernung zwischen Wohnung und Arbeitsst¨atte, eigene Einsch¨ atzung der wirtschaftlichen Lage mit 1 = sehr gut, . . . , 5 = sehr schlecht.
(a) Geben Sie die Grundgesamtheit und die Untersuchungseinheiten an. (b) Welche Auspr¨ agungen besitzen die erhobenen Merkmale, und welches Skalenniveau liegt ihnen zugrunde? (c) Welcher Studientyp liegt vor? (L¨osung siehe Seite 3)
1. Einf¨ uhrung
3
L¨ osungen L¨ osung 1.1 Nettomiete, Wohnfl¨ ache und Baualter sind verh¨altnisskalierte, stetige und quantitative Merkmale. Bei den Merkmalen Zentralheizung, Warmwasserversorgung und Ausstattung des Bads handelt es sich um nominalskalierte (oder ordinalskalierte), diskrete und qualitative Merkmale. Die Lage der Wohnung ist ordinalskaliert, diskret und qualitativ.
L¨ osung 1.2 (a) Bei dem Mietspiegel handelt es sich um eine Querschnittstudie. (b) Die Aktienkurse stellen eine Zeitreihenanalyse dar. (c) Hier liegt eine L¨ angsschnittstudie vor.
L¨ osung 1.3 ¨ (a) Da bei der Uberpr¨ ufung der Weine die Untersuchungseinheit zerst¨ort wird, kann nur eine Stichprobe gezogen werden. (b) In diesem Fall ist eine Vollerhebung unerl¨ aßlich. (c) Da nicht alle s¨ uchtigen Jugendlichen untersucht werden k¨onnen, muß man sich hier auf eine Stichprobe beschr¨ anken.
L¨ osung 1.4 (a) Die Mitarbeiter der Firma stellen die Grundgesamtheit dar, die 50 ausgew¨ ahlten Mitarbeiter sind die Untersuchungseinheiten. (b) Die Auspr¨ agungen und das Skalenniveau der erhobenen Merkmale entnimmt man folgender Tabelle: Merkmal Haushaltsgr¨ oße Miete Bef¨ orderungsmittel Entfernung Einsch¨ atzung der Lage
Auspr¨ agungen 1,2,3,4, . . . , (Obergrenze) IR+ 0 Bus, Bahn, Auto usw. IR+ 0 1, 2, 3, 4, 5
(c) Es handelt sich um eine Querschnittstudie.
Skalenniveau verh¨altnisskaliert verh¨altnisskaliert nominalskaliert verh¨altnisskaliert ordinalskaliert
2 Univariate Deskription und Exploration von Daten
Aufgaben Aufgabe 2.1 Abbildung 2.1 zeigt die Verteilung der Buchstaben A-Z in Texten, die in deutscher Sprache verfasst sind. (a) Bestimmen sie (approximativ) die relative H¨aufigkeit, mit der Vokale und Konsonanten in Texten der deutschen Sprache vorkommen. (b) Bestimmen Sie (approximativ) die relative H¨aufigkeit, mit der die Buchstaben A-X in Texten der deutschen Sprache vorkommen. (c) Welche der Ihnen bekannten Lagemaße sind zur Beschreibung der Verteilung der Buchstaben geeignet, welche sind nicht geeignet (mit Begr¨ undung)? Bestimmen Sie die von Ihnen gew¨ahlten Lagemaße. Abbildung 2.2 zeigt die Verteilung der Buchstaben A-Z f¨ ur einen l¨angeren deutschen Text, der in einer Geheimsprache verfasst wurde. Der folgende kleine Ausschnitt gibt den ersten Satz des Textes in Geheimsprache wieder: IEL XCEIN DGFIZA 90 RELFAIL. Bei der verwendeten Geheimsprache wurden die Buchstaben des Alphabets zuf¨ allig permutiert. Beispiel: Dem urspr¨ unglichen Buchstaben a wird der Buchstabe g zugewiesen, dem Buchstaben b der Buchstabe t, usw. (d) Wie k¨ onnte man die statistischen Informationen in den Abbildungen 2.1 und 2.2 nutzen, um den verschl¨ usselten Text zu dekodieren? (e) Versuchen Sie obigen Textauschnitt zu entschl¨ usseln. (L¨osung siehe Seite 24)
Aufgabe 2.2 Um die Berufsaussichten von Absolventen des Diplomstudiengangs Soziologie einsch¨ atzen zu k¨ onnen, wurde am Institut f¨ ur Soziologie der LMU ein
6
2. Univariate Deskription und Exploration von Daten
Relative Häufigkeiten
0 .02 .04 .06 .08 .1 .12 .14 .16 .18 .2
Rel. Häufigkeiten der Buchstaben in der Deutschen Sprache
A B C D E F G H I J K L M N O P Q R S T U V W X Y Z
Abbildung 2.1. S¨ aulendiagramm der relativen H¨ aufigkeiten des Auftretens der Buchstaben A-Z in Texten, die in deutscher Sprache verfasst sind.
Relative Häufigkeiten
0 .02 .04 .06 .08 .1 .12 .14 .16 .18 .2
Rel. Häufigkeiten der Buchstaben in einem codierten Beispieltext
A B C D E F G H I J K L M N O P Q R S T U V W X Y Z
Abbildung 2.2. S¨ aulendiagramm der relativen H¨ aufigkeiten des Auftretens der Buchstaben A-Z bei dem in einer Geheimsprache verfassten deutschen Text.
spezieller Fragebogen konzipiert, der insgesamt 82 Fragen umfaßt. Der Fragebogen deckt zahlreiche inhaltliche Aspekte ab wie etwa den Studienverlauf, den Studienschwerpunkt, m¨ ogliche Zusatzqualifikationen, aber auch Aspekte zur Person. Der in den folgenden beiden Tabellen abgedruckte Teildatensatz mit 36 Absolventen und f¨ unf Variablen soll nun f¨ ur eine erste Analyse mit Hilfe von graphischen Verfahren dargestellt werden.
2. Univariate Deskription und Exploration von Daten
G S E
: : :
D
:
N
:
Person i 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
7
Geschlecht (1 = weiblich, 2 = m¨annlich) Studiendauer in Semestern Engagement im Studium mit 5 Kategorien: 1 = sehr engagiert .. . 5 = gar nicht engagiert Ausrichtung der Diplomarbeit mit 4 Kategorien: 1 = empirisch-Prim¨ arerhebung 2 = empirisch-Sekund¨ arerhebung 3 = empirisch-qualitativ 4 = Literaturarbeit Note der Diplompr¨ ufung
G 1 1 1 1 1 1 2 2 1 2 1 1 2 1 1 1 1 1
S 12 13 12 12 9 12 14 10 18 10 13 15 13 16 14 13 13 17
E 1 3 5 2 3 2 5 1 3 3 4 4 2 3 3 2 2 1
D 3 4 4 3 4 1 3 4 3 4 4 3 2 3 4 3 4 4
N 2 2 3 3 2 1 5 2 1 3 3 2 2 2 2 2 2 3
Person i 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36
G 2 1 1 2 1 1 2 1 1 1 1 1 1 1 1 2 2 2
S 12 15 13 13 15 13 15 12 14 10 12 17 11 14 11 13 11 7
E 2 2 3 4 1 3 4 2 1 2 3 2 1 3 2 2 3 1
D 2 3 4 3 4 2 4 4 3 4 3 3 4 2 1 4 4 4
N 2 3 2 3 2 2 3 2 2 2 2 2 2 3 2 3 3 2
(a) Erstellen Sie eine H¨ aufigkeitstabelle f¨ ur das Merkmal “Note”, bestehend aus den absoluten, relativen und kumulierten H¨aufigkeiten. (b) Erstellen Sie nun ein S¨ aulen- und ein Kreisdiagramm des Merkmals “Note”. (c) Zeichnen Sie den Box-Plot zu den Studiendauern der Absolventen. (d) Unterteilen Sie die Stichprobe in Absolventen mit Pr¨adikatsexamen (Note 1 oder 2) und Absolventen ohne Pr¨ adikatsexamen (Note 3 und schlechter). Zeichnen Sie nun f¨ ur beide Gruppen getrennt das S¨aulendiagramm der Studiendauer, und interpretieren Sie das Ergebnis. (e) Erstellen Sie die empirischen Verteilungsfunktionen der jeweiligen Studiendauer der Absolventen mit und ohne Pr¨adikatsexamen. Wieviele Se-
8
2. Univariate Deskription und Exploration von Daten
mester ben¨ otigten die 25 % schnellsten Studenten in jeder Teilstichprobe h¨ ochstens? Wieviele Semester brauchen dagegen die 25 % langsamsten Studenten mindestens? (L¨osung siehe Seite 25)
Aufgabe 2.3 Die folgende Tabelle zeigt die Anzahl der Privathaushalte in M¨ unchen aufgeteilt nach ihrer Haushaltsgr¨ oße (Stand: 1995). Haushaltsgr¨ oße 1 2 3 4 5
Anzahl der Haushalte 380131 182838 87444 52033 20235 722681
(a) Bestimmen Sie zun¨ achst die relativen H¨ aufigkeiten, und zeichnen Sie anschließend ein S¨ aulendiagramm f¨ ur die angegebenen Daten. (b) In der S¨ uddeutschen Zeitung konnte man (nicht ganz w¨ortlich) folgende Zeilen nachlesen: In nahezu 100 Jahren haben sich die Lebensformen stark gewandelt. Anfang dieses Jahrhunderts war das Miteinander in der Großfamilie Normalit¨at. Fast die H¨alfte der Bev¨olkerung wohnte in Haushalten mit f¨ unf und mehr Personen. Ganz anders heute: mehr als die H¨alfte der Bev¨olkerung lebt allein. K¨ onnen Sie dieser Aussage zustimmen? Zeichnen Sie dazu ein S¨aulendiagramm mit dem prozentualen Anteil der Personen, die in 1-5 Personenhaushalten leben. (L¨osung siehe Seite 31)
2. Univariate Deskription und Exploration von Daten
9
Aufgabe 2.4 Die folgende Graphik zeigt f¨ ur n = 100 Beobachtungen eines Merkmals X die empirische Verteilungsfunktion: F (x) 1
6
s
........................................................................
s
c
....................................
0.8
s
c
....................................
0.5
s
c
c 1
2
....................................
0.2
....................................
0
3
4
5
x
(a) Welche verschiedenen Merkmalsauspr¨ agungen wurden f¨ ur X beobachtet? (b) Bestimmen Sie mit Hilfe der Graphik sowohl die relative als auch die absolute H¨ aufigkeitsverteilung von X. (c) Berechnen Sie x ¯ und s˜2 . (d) Es wird eine Stichprobe mit zehn weiteren Beobachtungen erhoben. Alle zehn Beobachtungen haben den Wert X = 4. Wie lautet die neue relative H¨ aufigkeitsverteilung f¨ ur die nunmehr n = 110 Beobachtungen? (L¨osung siehe Seite 32)
Aufgabe 2.5 Welche der folgenden Graphiken k¨ onnen keine empirischen Verteilungsfunktionen darstellen? Begr¨ undung!
10
2. Univariate Deskription und Exploration von Daten
(a)
6
F (x)
s
........................................................................
1 0.8 0.6 0.4 0.2 0
... ... .. ... ... ... ... ... ... ... ... ... ... ... ..
1
2
3
c 4
x
−0.2 (b)
6
F (x) 1 0.8 0.6 0.4 0.2 0
s
.......................................................................... ... .... .... ... . . . .. .... .... ... ........................................
.. ... .. ... ... ... ... ..
1 −0.2
s c 2
s
3
4
x
2. Univariate Deskription und Exploration von Daten
(c)
6
F (x)
s
...........................................................................................................
1 0.8 0.6
s
c
....................................
0.4 s
0
c
....................................
0.2 .... ... .. ..
c 1
2
3
4
x
−0.2 (d)
6
F (x)
s
........................................................................
1 0.8 0.6
s
c s
....................................
0.4 0.2 0 −0.2
c
....................................
s
c
....................................
c 1
....................................
2
3
4
x
11
12
2. Univariate Deskription und Exploration von Daten
(e)
6
F (x)
s
...........................................................................................................
1 0.8 0.6
s
c
....................................
0.4 0.2
s
c
....................................
0 −0.2
1 c
2
3
4
x
....................................
(L¨osung siehe Seite 32)
Aufgabe 2.6 Um die zuk¨ unftige Bonit¨ at eines potentiellen Kreditnehmers absch¨atzen zu k¨onnen, wurden von einer großen deutschen Bank Daten von fr¨ uheren Kreditkunden erhoben. Neben der Bonit¨ at der Kunden wurden unter anderem die folgenden Merkmale erhoben: X1 Laufendes Konto bei der Bank (nein (kein Konto) = 1, mittel (Konto mit mittlerem Verm¨ ogen) = 2, gut (Konto mit großem Verm¨ogen) = 3), X2 Laufzeit des Kredits in Monaten, ohe in DM, X3 Kredith¨ X4 R¨ uckzahlung fr¨ uherer Kredite (gut/schlecht), X5 Verwendungszweck (privat/beruflich), X6 Geschlecht (weiblich/m¨ annlich).
2. Univariate Deskription und Exploration von Daten
13
Die folgende Tabelle gibt f¨ ur 300 schlechte (Y = 1) und 700 gute (Y = 0) Kredite jeweils die Prozentzahlen der Auspr¨agungen einiger ausgew¨ahlter Merkmale an: X1 : laufendes Konto nein mittel gut X3 : Kredith¨ ohe in DM 0 < . . . ≤ 500 500 < . . . ≤ 1000 1000 < . . . ≤ 1500 1500 < . . . ≤ 2500 2500 < . . . ≤ 5000 5000 < . . . ≤ 7500 7500 < . . . ≤ 10000 10000 < . . . ≤ 15000 15000 < . . . ≤ 20000 X4 : Fr¨ uhere Kredite gut schlecht X5 : Verwendungszweck privat beruflich
Y =1 45.0 39.7 15.3 Y =1 1.00 11.33 17.00 19.67 25.00 11.33 6.67 7.00 1.00 Y =1 82.33 17.66 Y =1 57.53 42.47
Y =0 19.9 30.2 49.7 Y =0 2.14 9.14 19.86 24.57 28.57 9.71 3.71 2.00 .29 Y =0 94.85 5.15 Y =0 69.29 30.71
(a) Stellen Sie die Information aus obiger Tabelle auf geeignete Weise graphisch dar. Beachten Sie dabei insbesondere die unterschiedliche Klassenbreite des gruppierten Merkmals “Kredith¨ohe in DM”. (b) Berechnen Sie die N¨ aherungswerte f¨ ur das arithmetische Mittel, den Modus und den Median der Kredith¨ ohen. (L¨osung siehe Seite 33)
Aufgabe 2.7 Die folgende Abbildung zeigt zwei Histogramme der Monatsmittel der Zinsen deutscher festverzinslicher Wertpapiere mit einj¨ahriger Laufzeit (im Zeitraum Januar 1967 bis Januar 1994). Woraus resultiert ihre unterschiedliche Gestalt?
14
2. Univariate Deskription und Exploration von Daten
0.3
A n t e i l
0.2
0.1
0.0
. .. . . ......................... .................... . .. . . ......................... ......................... .......... .......... ............... ......................... ......................... .................... .................... .................... ............... .................... .................... .................... .................... .......... .................... . . .. . . . . . . . .. . . . . . . .. . . . . . . . .. ......................... ......................... ......................... ......................... ......................... ......................... .................... .................... .................... .................... .................... .................... ......... .......... .......... .......... .......... .......... . .................... ......................... ......................... ......................... ......................... ......................... ......................... .................... .................... .................... .................... .................... .................... .................... .................... .................... .................... .................... .................... .................... .................... ..... ..... ..... . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ..... ..... ..... ......................... ......................... ......................... ......................... ......................... ......................... ......................... ..... ..... ..... ..... ..... ..... ..... .....
4
6
8
10
12
14
Zinsen 0.3
A n t e i l
0.2
0.1
0.0
.......... .......... .......... .......... .. ............. ........ ........ .......... .......... .......... .......... .......... .......... . . . ............ .......... ......... ............ ............ ............ ............ ............. ......... ............ . . .......... .......... .......... .......... .......... .......... .......... .......... .......... .......... .......... .......... .......... .......... .......... .......... .......... .......... .......... .......... .......... .......... .......... .......... .......... .......... .......... ....... ....... ........ ........ ........ ........ ....... ....... ........ ........ ............. ............. ............ ............ ............ ............ ............. ........ ..... ............. ............ . . . . . . . . . . . .. . . . . . . . . . . . . . . . . ............. ............. ............. ............ ............ ............ ............ ............. ............. ............. ............. ............ .......... ....... ....... ....... ....... ........ ........ ........ ........ ....... ....... ....... ....... ........ ........ ........ ............. ............. ............. ............. ............ ............ ............ ............ ............. ............. ............. ............. ............ ............ ............ . . . . . . . . . . . . . . .. . . . . . . .. . . . . .. . . . . . . . .. ............. ............. ............. ............. ............ ............ ............ ............ ............. ............. ............. ............. ............ ............ ............ .. ... ... .. ...
4
6
8
10
... .. ... .. ... .. ...
12
14
Zinsen
(L¨osung siehe Seite 36)
Aufgabe 2.8 Bestimmen Sie aus dem folgenden Stamm-Blatt-Diagramm der Zinss¨atze deutscher festverzinslicher Wertpapiere den Median, sowie das untere und das obere Quartil der dargestellten n = 325 Zinss¨atze.
2. Univariate Deskription und Exploration von Daten Einheit 3 3 3 4 4 5 5 6 6 7 8 8 9 9 10 10 11 11 12 12 13
15
2 = 0.032 23334 55566667788999 00112233333333444 5555555555666778888888999 0000000000111111111111112222222333344444 5555555556666677777888889999999 00000011111112222223333334444444 5555567777788888899999999 00 66678899 001222234 55555556667777788888999999 00000112222233333333334444444 55567777788 0011122233 9 13 5 024 6 1
(L¨osung siehe Seite 36)
Aufgabe 2.9 Um die Entwicklung der Telefonkosten X des letzten Jahres zu analysieren wird Tochter B¨ arbel von ihrem Vater beauftragt, die mittleren Telefonkosten und deren Streuung zu berechnen. Die Rechnungen betrugen jeweils in Euro: Jan 35.46 Jul 31.44
Feb 33.60 Aug 30.18
Mrz 40.44 Sep 41.04
Apr 34.20 Okt 33.60
Mai 36.18 Nov 38.16
Jun 36.84 Dez 132.30
(a) Berechnen Sie das arithmetische Mittel und die Standardabweichung der monatlichen Telefonkosten. (b) B¨ arbel, die im Monat Dezember auf Anraten ihrer Freundinnen h¨aufig bei den teuren 0190-Talklines angerufen hat, ist entsetzt u ¨ ber den hohen Mittelwert und bef¨ urchtet Taschengeldentzug durch den Vater. K¨onnen Sie B¨ arbel aus der Patsche helfen? (c) Wieviele Einheiten wurden im Mittel jeden Monat telefoniert? Eine Einheit kostet 0.06 Euro und die monatliche Grundgeb¨ uhr betr¨agt 12.30 Euro. Bestimmen Sie ferner die Standardabweichung der pro Monat telefonierten Einheiten. (L¨osung siehe Seite 36)
16
2. Univariate Deskription und Exploration von Daten
Aufgabe 2.10 Die neugegr¨ undete Firma SAFERSEX hat sich auf die Herstellung von Kondomen spezialisiert. Insgesamt sind n = 9 verschiedene Kondomtypen im Angebot. In der folgenden Tabelle sind jeweils die Preise (X) f¨ ur eine Packung (mit 10 Kondomen) aufgef¨ uhrt: xi Preis in Euro
x1 3.75
x2 4.43
x3 5.50
x4 3.50
x5 3.00
x6 3.00
x7 6.50
x8 6.25
x9 2.50
(a) Bestimmen Sie den Durchschnittspreis f¨ ur eine Packung Kondome (arithmetisches Mittel). Bestimmen Sie auch den h¨aufigsten Preis (Modus). (b) Bestimmen Sie auch die 25, 50 und 75 Prozent Quantile x0.25 , x0.5 und x0.75 . (c) Welchen Verteilungstyp (symmetrisch, links oder rechtssteil) vermuten Sie aufgrund Ihrer Ergebnisse in (a) und (b)? Begr¨ undung! (d) SAFERSEX will nun die Preise ihrer Kondome mit den Preisen der alteingesessenen Firma ENJOY vergleichen, die ebenfalls Kondome herstellt. F¨ ur die Preise (Y ) von ENJOY gilt: y¯ = 6.10, y0.25 = 4.60, y0.5 y0.75
= 5.50, = 7.60,
y(1) y(n)
= 3.80 = 8.80
(minimaler Wert), (maximaler Wert).
Zeichnen Sie nun f¨ ur beide Merkmale X und Y jeweils einen Boxplot in dieselbe Graphik, und vergleichen Sie beide Boxplots. (e) Wie ¨ andern sich x ¯, x0.5 und xmod , wenn SAFERSEX die Preise aller 9 Kondomtypen um jeweils 20 % erh¨ oht? ur die teuerste Kon(f) Wie ¨ andern sich x ¯, x0.5 und xmod , wenn der Preis f¨ dompackung (= ˆ x7 = 6.50) verdoppelt wird? Es reicht anzugeben, ob die Werte gr¨ oßer oder kleiner werden oder gleich bleiben. Begr¨ unden Sie Ihre Antwort! (L¨osung siehe Seite 37)
2. Univariate Deskription und Exploration von Daten
17
Aufgabe 2.11 Elf Filialen eines Kaufhauskonzerns erzielten 2002 folgende Ums¨atze (in Mio Euro): Filiale i Umsatz xi
1 110
2 75
Hinweis:
3 70
11 i=1
4 65
xi = 910,
5 55 11
6 70
7 140
8 90
9 90
10 55
11 90
x2i = 81700
i=1
(a) Geben Sie das arithmetische Mittel, die (empirische) Standardabweichung und den Variationskoeffizienten an. (b) Zeichnen Sie die zugeh¨ orige empirische Verteilungsfunktion. (c) Bestimmen Sie graphisch das untere und obere Quartil sowie den Median. Zeichnen Sie den zugeh¨ origen (einfachen) Box-Plot. (d) Geben Sie eine lineare Transformation yi = a · xi der xi an, so daß die empirische Varianz der y-Werte gleich 1 ist. Wie ¨andern sich die Quartile und der Median? Welchen Wert besitzt der Variationskoeffizient der yWerte (Begr¨ undung oder Berechnung)? (L¨osung siehe Seite 38)
Aufgabe 2.12 Der Markt f¨ ur Computerhersteller l¨ aßt sich in drei Kategorien einteilen: Billiganbieter (Kategorie 1), Direktanbieter (Kategorie 2) und Markenhersteller (Kategorie 3). In einer von Greenpeace gesponsorten Studie wurden alle angebotenen Computer hinsichtlich ihres Stromverbrauchs untersucht. Es ergaben sich die folgenden mittleren Stromverbr¨ auche und Standardabweichungen, geschichtet nach Herstellerkategorie:
Kategorie 1 2 3
absolute H¨ aufigkeiten der Klasse j : nj 45 35 50
x ¯j 2.3 kW 1.6 kW 1.4 kW
s˜j 0.3 0.4 0.2
(a) Interpretieren Sie obige Tabelle. (b) Berechnen Sie das arithmetische Mittel x ¯ und die Standardabweichung s˜ f¨ ur den gesamten Datensatz. (L¨osung siehe Seite 39)
18
2. Univariate Deskription und Exploration von Daten
Aufgabe 2.13 Zeigen Sie, daß sich die Summe der Abweichungen der Daten vom arithmetischen Mittel zu null aufsummiert, d.h. daß n
(xi − x ¯) = 0
gilt.
i=1
(L¨osung siehe Seite 40)
Aufgabe 2.14 Beweisen Sie, daß das arithmetische Mittel bei Schichtenbildung durch 1 nj x ¯j n j=1 r
x ¯=
bestimmt werden kann, wenn r Schichten mit Umf¨angen n1 , . . . , nr und arithmetischen Mitteln x¯1 , . . . , x ¯r vorliegen. (L¨osung siehe Seite 40)
Aufgabe 2.15 Die Fachzeitschrift Mein Radio und Ich startet allj¨ahrlich in der Weihnachtswoche eine Umfrage zu den H¨ orgewohnheiten ihrer Leser. Zur Beantwortung der Frage “Wieviele Stunden h¨ orten Sie gestern Radio?” konnten die Teilnehmer zehn Kategorien ankreuzen. In den Jahren 1950, 1970 und 1990 erhielt die Redaktion folgende Antworten: Stunden 1950 1970 1990 Stunden 1950 1970 1990
[0,1) 5 6 35 [5,6) 18 27 4
[1,2) 3 7 24 [6,7) 21 13 2
[2,3) 10 5 13 [7,8) 27 5 1
[3,4) 9 20 8 [8,9) 12 3 0
[4,5) 13 29 9 [9,10) 3 2 1
(a) Bestimmen Sie aus den gruppierten Daten die Lagemaße arithmetisches Mittel, Modus und Median. (b) Wie dr¨ ucken sich die ge¨ anderten H¨ orgewohnheiten durch die drei unter (a) berechneten Lagemaße aus? (L¨osung siehe Seite 40)
2. Univariate Deskription und Exploration von Daten
19
Aufgabe 2.16 Die folgende Zeitreihe beschreibt die Zinsentwicklung deutscher festverzinslicher Wertpapiere mit einj¨ ahriger Laufzeit im Jahr 1993: Monat Zinsen (%) Monat Zinsen (%)
Jan 7.13 Jul 5.99
Feb 6.54 Aug 5.76
Mrz 6.26 Sep 5.75
Apr 6.46 Okt 5.45
Mai 6.42 Nov 5.13
Jun 6.34 Dez 5.04
Berechnen Sie den durchschnittlichen Jahreszinssatz. (L¨osung siehe Seite 41)
Aufgabe 2.17 Bernd legt beim Marathonlauf die ersten 25 km mit einer Durchschnittsgeschwindigkeit von 17 km/h zur¨ uck. Auf den n¨achsten 15 km bricht Bernd etwas ein und schafft nur noch 12 km/h. Beim Endspurt zieht Bernd nochmals an, so daß er es hier auf eine Durchschnittsgeschwindigkeit von 21 km/h bringt. (a) Berechnen Sie Bernds Durchschnittsgeschwindigkeit u ¨ ber die gesamte Strecke von 42 km. (b) Wie lange war Bernd insgesamt unterwegs? (L¨osung siehe Seite 41)
Aufgabe 2.18 Gegeben sei eine geordnete Urliste x1 ≤ . . . ≤ xn eines Merkmals X. (a) Zeigen Sie, daß f¨ ur die Fl¨ ache F unter der Lorenzkurve F =
gilt, wobei V =
n
1 (2V − 1) 2n
vj die Summe der kumulierten relativen Merkmals-
j=1
summen ist. (b) Zeigen Sie unter Verwendung von Teilaufgabe (a), daß f¨ ur G∗ G∗ = gilt. (L¨osung siehe Seite 42)
n + 1 − 2V n−1
20
2. Univariate Deskription und Exploration von Daten
Aufgabe 2.19 F¨ unf Hersteller bestimmter Großger¨ ate lassen sich hinsichtlich ihrer Marktanteile in zwei Gruppen aufteilen: Drei Hersteller besitzen jeweils gleiche Marktanteile von 10 Prozent, der Rest des Marktes teilt sich unter den verbleibenden Herstellern gleichm¨ aßig auf. Zeichnen Sie die zugeh¨orige Lorenzkurve, und berechnen Sie den (unnormierten) Gini-Koeffizienten. Betrachten Sie die Situation, daß in einer gewissen Zeitperiode vier der f¨ unf Hersteller kein Großger¨ at verkauft haben. Zeichnen Sie die zugeh¨orige Lorenzkurve, und geben Sie den Wert des Gini-Koeffizienten an. (L¨osung siehe Seite 42)
Aufgabe 2.20 In einer Branche konkurrieren zehn Unternehmen miteinander. Nach ihrem Umsatz lassen sich diese in drei Klassen einteilen: f¨ unf kleine, vier mittlere und ein großes Unternehmen. Bei den mittleren Unternehmen macht ein Unternehmen im Schnitt einen Umsatz von 1.5 Mio Euro. Insgesamt werden in der Branche 15 Mio Umsatz j¨ ahrlich gemacht. Bestimmen Sie den Umsatz, der in den verschiedenen Gruppen erzielt wird, wenn der Gini-Koeffizient 0.42 betr¨ agt. (L¨osung siehe Seite 44)
Aufgabe 2.21 In einer Großgemeinde gibt es zehn Facharztniederlassungen, die sich bez¨ uglich ihres Einkommens in drei Gruppen mit kleinem, mittlerem und großem Einkommen einteilen lassen (wobei einfachheitshalber angenommen wird, daß innerhalb jeder Gruppe das gleiche Einkommen erzielt wurde). Im ¨ Jahre 2002 erzielten alle Arzte zusammen ein Gesamteinkommen von insgesamt 1.5 Millionen Euro. Allein 40 Prozent davon entfielen auf die einzige große Facharztniederlassung, w¨ ahrend die f¨ unf kleinen Niederlassungen nur ein Einkommen von insgesamt 300.000 Euro erzielten. (a) Bestimmen Sie die Werte der Lorenzkurve, und zeichnen Sie diese anschließend. Berechnen Sie außerdem den Gini-Koeffizienten. (b) Die gr¨ oßte Facharztniederlassung konnte im darauffolgenden Jahr ihr Einkommen nocheinmal um 50 Prozent steigern, w¨ahrend der Umsatz der u ¨brigen Niederlassungen stagnierte. Wie ¨andern sich die Lorenzkurve und der Gini-Koeffizient?
2. Univariate Deskription und Exploration von Daten
21
(c) Wir schreiben inzwischen das Jahr 2004. Um der großen Facharztniederlassung Paroli zu bieten, schließen sich die 4 mittleren zu einer Praxisgemeinschaft zusammen. Bestimmen Sie wiederum die Lorenzkurve und den Gini-Koeffizienten. (L¨osung siehe Seite 45)
Aufgabe 2.22 Wir betrachten den Umsatz von vier Unternehmen. Bei welchen der in Abbildung 2.3 abgedruckten Kurven handelt es sich um Lorenzkurven? Welche Kurven k¨onnen keine Lorenzkurven darstellen? Bestimmen Sie gegebenenfalls den normierten Ginikoeffizienten. Begr¨ unden Sie Ihre Antwort genau.
.75
1
0
.25
.25
.5
u
u
c
d
v 0
0 .1 .2 .3 .4 .5 .6 .7 .8 .9 1
v
v .5
.5
.75
1
u
Abbildung 2.3. Vier m¨ ogliche Lorenzkurven.
(L¨osung siehe Seite 48)
.75
1
.75
1
0 .1 .2 .3 .4 .5 .6 .7 .8 .9 1
.25
0 .1 .2 .3 .4 .5 .6 .7 .8 .9 1
0
v
b
0 .1 .2 .3 .4 .5 .6 .7 .8 .9 1
a
0
.25
.5
u
22
2. Univariate Deskription und Exploration von Daten
Aufgabe 2.23 F¨ ur die Nettomieten von Wohnungen des M¨ unchner Mietspiegels, das Lebensalter von Magenkrebspatienten und Renditen der BMW-Aktie sind die folgenden Schiefemaße und das W¨ olbungsmaß nach Fisher bestimmt worden, wobei die Information verlorenging, welche Ergebnisse zu welchen Daten geh¨ oren: g0.25 gm γ
0.16 1.72 6.58
0.06 −0.17 8.01
0.00 −0.49 0.17
-2
0
•
40
50
60
Alter in Jahren
70
80
•
•
• •••••••• •••••• ••••••• • • •••••••• ••••••• •••••• ••••• • • • • ••• ••••• •••••• •••• •••• • • •••• •••••• ••• ••••• • ••• •••
•
•
2
-2
Quantile der Standardnormalverteilung
-1
0.05 -0.05
Renditen der BMW-Aktie
•
-0.15
•
• -2
0
2
Quantile der Standardnormalverteilung
(L¨osung siehe Seite 49)
0
1
2
Quantile der Standardnormalverteilung
•• • •• ••• •• • • •• ••••• ••••• •••• ••••••• •••••• • • • • • • • •• • • •••••• •••••• ••••• ••••••• ••• ••••••••• ••• ••• •••••••• ••• •••••• •••• •••• ••• ••••• ••••••••••••••••• •••• ••••••••••••••• ••••••••• • • • • • •• ••••• •••••• ••• ••• •• •• •
•• •
• 30
1500 500
Nettomiete in DM
2500
• • •• • • • ••• • ••• • •• ••• •••• ••• ••• • • •••• ••••• ••••• •••• ••• • • • ••••• •••• ••••••• ••••••••••• ••••••• • • • • • ••••••••••• •••••••••••• •••••• •••••••••••• • • •••••
90
K¨ onnen Sie mit Hilfe der folgenden NQ-Plots die Werte den einzelnen Datens¨ atzen zuordnen? •
2. Univariate Deskription und Exploration von Daten
23
Aufgabe 2.24
0.25 0.15 0.05 0.0
0.0
0.05
0.15
0.25
Die folgende Abbildung zeigt zwei Kerndichtesch¨atzer der Zinsen deutscher festverzinslicher Wertpapiere (siehe auch Aufgabe 2.16), wobei die Bandbreite gleich 1 bzw. 2 gew¨ ahlt wurde. Welche Bandbreite geh¨ort zu welcher Graphik?
4
6
8
(L¨osung siehe Seite 49)
10
12
14
4
6
8
10
12
14
24
2. Univariate Deskription und Exploration von Daten
L¨ osungen L¨ osung 2.1 (a) Durch Ablesen aus Abbildung 2.1 erh¨ alt man die relativen H¨aufigkeiten: f (A) ≈ f (E) ≈
0.065 0.175
f (I) ≈ f (O) ≈
0.075 0.025
f (U ) ≈
0.045
Daher betr¨ agt die relative H¨ aufigkeit der Vokale etwa f (Vokale) = 0.065 + 0.175 + 0.075 + 0.025 + 0.045 = 0.385. ¨ Durch Ubergang zum Gegenereignis ergibt sich die relative H¨aufigkeit f¨ ur Konsonanten: f (Konsonanten) = 1 − 0.385 = 0.615. (b) Durch Ablesen erh¨ alt man die relative H¨ aufigkeit der Buchstaben Y und Z: f (Y ) ≈ 0 und f (Z) ≈ 0.01. Somit ist die relative H¨aufigkeit f¨ ur die Buchstaben A-X etwa f (A − X) = 1 − 0 − 0.01 = 0.99. (c) Von den bekannten Lagemaßen kommt nur der Modalwert in Frage. Median und arithmetisches Mittel sind nicht geeignet, da es sich um ein nominalskaliertes Merkmal handelt. Zur sinnvollen Berechnung des Median ist ein mindestens ordinalskaliertes Merkmal n¨otig, f¨ ur das arithmetische Mittel wird sogar ein metrisches Merkmal ben¨otigt. Der Modus ist die Beobachtung mit der gr¨oßten relativen H¨aufigkeit, also hier der Buchstabe E mit f (E) ≈ 0.175. (d) In hinreichend großen Stichproben sollten die beobachteten relativen H¨ aufigkeiten in etwa mit den in Abbildung 2.1 dargestellten u ¨bereinstimmen. Ein Vergleich der H¨ aufigkeiten in Abbildung 2.2 mit denen in Abbildung 2.1 l¨ asst also R¨ uckschl¨ usse auf den verschl¨ usselten Buchstaben zu. Beispiel: Der Buchstabe I kommt in dem verschl¨ usselten Text mit Abstand am h¨ aufigsten vor, daher entspricht er wahrscheinlich dem Buchstaben E. Am zweith¨ aufigsten kommt der Buchstabe L vor, k¨onnte also dem in Texten deutscher Sprache am zweith¨aufigsten auftauchenden Buchstaben N entsprechen. Auf diese Weise lassen sich zumindest die h¨ aufigsten Buchstaben entschl¨ usseln und der Rest aus dem Kontext bzw. durch Probieren herausfinden. (e) Verschl¨ usselte Buchstaben: A=T I =E
C=P L=N
D=D N =L
E=I R=M
F =U X =S
G=A Z=R
2. Univariate Deskription und Exploration von Daten
25
Damit heißt der entschl¨ usselte Satz: EIN SPIEL DAUERT 90 MINUTEN.
L¨ osung 2.2 (a) Man erh¨ alt folgende H¨ aufigkeitstabelle f¨ ur das Merkmal Note: Note 1 2 3 4 5
absolute H. 2 22 11 0 1 36
relative H. 2/36 22/36 11/36 0 1/36 1
kumulierte H. 2/36 24/36 35/36 35/36 1
(b) Das S¨ aulendiagramm f¨ ur das Merkmal Note hat die folgende Gestalt:
Zur Erstellung des Kreisdiagramms bestimme man zun¨achst die Winkel, die zu den einzelnen Noten geh¨ oren und der folgenden Tabelle entnommen werden k¨ onnen: Note 1 2 3 4 5
Winkel in Grad (fi · 360) 20 220 110 0 10
26
2. Univariate Deskription und Exploration von Daten
Mit den Angaben aus der Tabelle ergibt sich das Kreisdiagramm als:
Note 5:. 2.8 %
Note 1: 5.6 %
......... ....... ......... ....... ........ ......... ............................................................. ............ ............... . ............... ... . . . . . . . . . . . . . . . . . . ......... ..... .. ....... ...... ............. . ................. ... ...... ...... ...... ................ ... ............ ... ...... ..... .. .. .. ..... .... .. .. .. .... .... . . . . . . . . . .. .. ... ... .. . . . ... . . .. .. ... .. ... . . . . . ... ... ... . . . . . ... . .. ... . ... . ... . .. .. . . .. . ... . . . .. .. .. ... .. .. .. . . .. .. ... ... .... .. .. .. .. .. .. .. .... ... .. .. .. ... .. .... .. ... ... ...... ...... .. .. ..... ... ... . .... . . . . .... . . . .. .... . . . ... . . . . . . .... . ... . . . . . . . . .... ... . . . . . . . . ... ... ... ....... ... ...... ... ... ...... .. ... ....... .. . ... ............ . .. ....... ... ... ... ... ... ... .... ... . . . ... .... ..... ..... ..... ...... ..... ...... ...... ....... ...... . . . . . . ......... . ........ ............. .............................................
Note 3: 30.5 %
Note 2: 61.1 %
(c) Box-Plot der Studiendauer
2. Univariate Deskription und Exploration von Daten
27
(d) Das S¨ aulendiagramm des Merkmals Studiendauer f¨ ur Studierende mit Pr¨ adikatsexamen hat folgende Gestalt:
Entsprechend erh¨ alt man das S¨ aulendiagramm des Merkmals Studiendauer f¨ ur Studierende ohne Pr¨ adikatsexamen:
28
2. Univariate Deskription und Exploration von Daten
Zum Vergleich sei hier das S¨ aulendiagramm des Merkmals Studiendauer mit allen Daten angegeben:
Interpretation: Die Verteilung der Studiendauer ohne Pr¨adikat ist gegen¨ uber der Verteilung der Studiendauer mit Pr¨adikat etwas nach rechts verschoben. Absolventen ohne Pr¨ adikatsexamen studieren also im Mittel etwas l¨ anger als Absolventen mit Pr¨ adikatsexamen. (e) Zur Erstellung der empirischen Verteilungsfunktionen der jeweiligen Studiendauer werden zun¨ achst die entsprechenden H¨aufigkeitstabellen ermittelt. H¨ aufigkeitstabelle des Merkmals Studiendauer: mit Pr¨adikat Studiendauer 7 8 9 10 11 12 13 14 15 16 17 18
hi 1 0 1 2 2 5 6 2 2 1 1 1 24
fi 0.0417 0 0.0417 0.0833 0.0833 0.2083 0.25 0.0833 0.0833 0.0417 0.0417 0.0417 1
F (xi ) 0.0417 0.0417 0.0833 0.1667 0.25 0.4583 0.7083 0.7917 0.8750 0.9167 0.9583 1
2. Univariate Deskription und Exploration von Daten
29
H¨ aufigkeitstabelle des Merkmals Studiendauer: ohne Pr¨adikat Studiendauer 7 8 9 10 11 12 13 14 15 16 17 18
hi 0 0 0 1 1 2 3 2 2 0 1 0 12
fi 0 0 0 0.0833 0.0833 0.1667 0.2500 0.1667 0.1667 0 0.0833 0 1
F (xi ) 0 0 0 0.0833 0.1667 0.3333 0.5833 0.75 0.9167 0.9167 1 1
Zum Vergleich: H¨ aufigkeitstabelle des Merkmals Studiendauer mit allen Daten Studiendauer 7 8 9 10 11 12 13 14 15 16 17 18
hi 1 0 1 3 3 7 9 4 4 1 2 1 36
fi 0.0278 0 0.0278 0.0833 0.0833 0.1944 0.25 0.1111 0.1111 0.0278 0.0556 0.0278 1
F (xi ) 0.0278 0.0278 0.0556 0.1389 0.2222 0.4167 0.6667 0.7778 0.8889 0.9167 0.9722 1
Aus der entsprechenden H¨ aufigkeitstabelle l¨aßt sich nun die Verteilungsfunktion des Merkmals Studiendauer f¨ ur Studierende mit Pr¨adikatsexamen ermitteln als:
30
2. Univariate Deskription und Exploration von Daten
Die Verteilungsfunktion des Merkmals Studiendauer f¨ ur Studierende ohne Pr¨ adikatsexamen hat folgende Gestalt:
Zum Vergleich sei nachfolgende Verteilungsfunktion des Merkmals Studiendauer mit allen Daten dargestellt:
Der nachfolgenden Tabelle k¨ onnen Sie entnehmen, wie viele Semester die 25 % schnellsten/langsamsten Studierenden h¨ochstens/mindestens ben¨ otigen: schnellsten langsamsten
mit Pr¨ adikat 11 14
ohne Pr¨adikat 12 15
2. Univariate Deskription und Exploration von Daten
31
L¨ osung 2.3 Man erh¨ alt folgende Tabelle mit den relativen H¨aufigkeiten: Haushaltsgr¨ oße 1 2 3 4 5
rel. H. der Haushalte (a) 0.526 0.253 0.121 0.072 0.028 1
rel. H. der Personen (b) 0.2885 0.2776 0.1991 0.158 0.0768 1
(a) Mit obigen Angaben erh¨ alt man das folgende S¨aulendiagramm der Haushalte:
(b) Entsprechend zeichnet man das S¨ aulendiagramm der Personen:
32
2. Univariate Deskription und Exploration von Daten
Aus dem S¨ aulendiagramm ist abzulesen, daß lediglich 28.85 % aller Personen in Single-Haushalten leben, demnach ist die Behauptung der S¨ uddeutschen Zeitung nicht korrekt.
L¨ osung 2.4 (a) F¨ ur X wurden vier Merkmalsauspr¨ agungen beobachtet, n¨amlich X = 1, X = 2, X = 3 und X = 4. (b) Als absolute und relative H¨ aufigkeitsverteilung von X erh¨alt man: x 1 2 3 4
fj 0.2 0.3 0.3 0.2 1
hj 20 30 30 20 100
(c) Das arithmetische Mittel und die empirische Varianz berechnen sich als: x ¯ s˜2
= 1 · 0.2 + 2 · 0.3 + 3 · 0.3 + 4 · 0.2 = 2.5, = (1 − 2.5)2 · 0.2 + (2 − 2.5)2 · 0.3 +(3 − 2.5)2 · 0.3 + (4 − 2.5)2 · 0.2 = 1.05.
(d) Die relative H¨ aufigkeitsverteilung von X nach 10 weiteren Beobachtungen ergibt sich als: x 1 2 3 4
fj 0.18 0.27 0.27 0.27 1
L¨ osung 2.5 (a) Hier liegt eine korrekte empirische Verteilungsfunktion vor. (b) Diese Darstellung ist nicht korrekt, da es sich nicht um eine Treppenfunktion handelt. (c) Hier liegt erneut eine korrekte empirische Verteilungsfunktion vor. (d) Diese Darstellung ist nicht die einer empirischen Verteilungsfunktion, da die dargestellte Funktion nicht monoton steigend ist. (e) Auch diese Darstellung ist nicht korrekt, da die Funktion nicht ausschließlich gr¨ oßer oder gleich null ist.
2. Univariate Deskription und Exploration von Daten
33
L¨ osung 2.6 (a) F¨ ur die Variablen X1 , X4 und X5 werden S¨aulendiagramme erstellt. Die Variable X3 wird in zwei Histogrammen graphisch dargestellt. Variable X1 : laufendes Konto
Variable X4 : Fr¨ uhere Kredite
34
2. Univariate Deskription und Exploration von Daten
Variable X5 : Verwendungszweck
Zur Erstellung der Histogramme f¨ ur die Variable X3 wird zun¨achst die folgende Tabelle ermittelt:
Klasse [0, 500) [500, 1000) [1000, 1500) [1500, 2500) [2500, 5000) [5000, 7500) [7500, 10000) [10000, 15000) [15000, 20000)
Breite dj 500 500 500 1000 2500 2500 2500 5000 5000
H¨ ohe: Y = 1 0.00002 0.00022 0.00034 0.00019 0.0001 0.000044 0.0000268 0.000014 0.000002
H¨ohe: Y = 0 0.0000428 0.0001828 0.0003972 0.0002457 0.00011428 0.00003884 0.00001484 0.000004 0.00000058
2. Univariate Deskription und Exploration von Daten
Mit Hilfe der Tabelle erh¨ alt man schließlich die folgenden Graphiken: Histogramm f¨ ur das Merkmal Kredith¨ ohe: schlechte Bonit¨at (Y = 1)
30 :
Ho e he 2 0 :
1 0 0 0 10 0 05 :
:
0
.. .... ... .. .... .. .... ... .. .... ... .. .... ... .. .... ... .. .... ... .. .... .. .... ... .. .... ... .. .... ... .. .... .. . . . ... .... .... ....
.. ...... .... .. ...... .... .. ...... .. ...... .... .. ...... .... .. ...... .... .. ...... .... .. ...... .... .. ...... ...... .................. ............ ...... .................. ............ ...... .................. ............ ...... .................. ............ ...... .................. ............ ...... .................. ...... .................. ............ ...... .................. ............ ...... .................. ............ ...... .................. ............ ...... .................. ......
0
Y
.................... .............................. .................... .......... .............................. .................... .......... .............................. .................... .......... .............................. .................... .......... .............................. .................... ....................
=1
.............................. .......... .............................. . . . . . . . . . . ........................................ .................... ............................................................ ............................ ...................... . . . . . . . . . . . . . . . . . . . . . . . . . . . . ........................
2500 5000 10000 15000 Histogramm zur Kreditwurdigkeit
20000
Histogramm f¨ ur das Merkmal Kredith¨ ohe: gute Bonit¨at (Y = 0)
40 :
Ho e he
30 :
20 1 0 0 0 0 10 :
:
05 :
0
.... ... .. .... ... .. ...
0
.... ... .. .... ... .. .... ... .. .... ... .. .... .. .... ... .. .... ... .. .... ... .. .... ... .. .... ... .. ...
...... .. ...... .... .. ...... .... .. ...... .... .. ...... .... .. ...... .... .. ...... .. ...... .... .. ...... .... .. .............. ............ ...... .................. ............ ...... .................. ............ ...... .................. ...... .................. ............ ...... .................. ............ ...... .................. ............ ...... .................. ............ ...... .................. ...... .................. ............ ...... .................. ............ ...... .................. ............ ...... .................. ............ ...... .................. ............ ...... ............
Y
.................... .................... .......... .............................. .......... .............................. .................... .......... .............................. .................... .......... .............................. .................... .......... .............................. .................... .......... .............................. ....................
=0
.............................. .......... .............................. .................... . . . . . . . . . . .................... ........................................ . . . . . . . . . . . . . . . . . . . .
2500 5000 10000 15000 Histogramm zur Kreditwurdigkeit
20000
35
36
2. Univariate Deskription und Exploration von Daten
(b) Die N¨ aherungswerte f¨ ur die Lagemaße werden wie folgt berechnet. Arithmetisches Mittel: x ¯Y =1
= 0.01 · 250 + 0.1133 · 750 + . . . + 0.01 · 17500 = 3972.625,
x ¯Y =0 x ¯
= 0.0214 · 250 + 0.0914 · 750 + . . . + 0.0029 · 17500 = 3117.18, = 0.3 · 3972.625 + 0.7 · 3117.175 = 3373.81.
Modus und Median: Y =1 Y =0 Gesamt
xmod 3750 3750 3750
xmed 3750 2000 2000
L¨ osung 2.7 Die unterschiedliche Gestalt der Histogramme resultiert aus den unterschiedlichen Klassenbreiten.
L¨ osung 2.8 Der Median und die beiden Quantile ergeben sich mit n = 325 wie folgt: 325 · 0.5 = 162.5 ⇒ xmed 325 · 0.25 = 81.25 ⇒ x0.25 325 · 0.75 = 243.75 ⇒ x0.75
= x(163) = x(82) = x(244)
= = =
0.064, 0.051, 0.085.
L¨ osung 2.9 (a) Arithmetisches Mittel, Varianz, Standardabweichung ergeben sich als: x ¯ s˜2x
= 43.62 Euro, = 724.76 Euro2 ,
s˜x
= 26.92 Euro.
(b) Verwende als Mittelwert den ausreißerunempfindlichen Median: xmed = 35.82 Euro (vergleiche dazu x ¯ohne Dez. = 35.56 Euro). (c) Sei Y = Anzahl der telefonierten Einheiten, d.h. Y =
1 X − 12.30 Euro = X − 205 . 0.06 Euro 0.06
2. Univariate Deskription und Exploration von Daten
37
Unter Verwendung der Regeln f¨ ur lineare Transformationen erh¨alt man 1 x ¯ − 205 = 522 , 0.06 1 s˜x = 448.69 . 0.06
y¯ = s˜y
=
L¨ osung 2.10 (a) Als Durchschnittspreis und als h¨ aufigsten Preis ermittelt man x ¯ = xmod =
4.27, 3.00.
(b) Bestimme zun¨ achst eine geordnete Urliste: x(i) Preis (Euro) x(i) Preis (Euro)
x(1) 2.50 x(6) 4.43
x(2) 3.00 x(7) 5.50
x(3) 3.00 x(8) 6.25
x(4) 3.50 x(9) 6.50
x(5) 3.75
Mit Hilfe der geordneten Urliste erh¨ alt man = = =
x0.25 x0.5 x0.75
x(3) x(5) x(7)
= = =
3.00, 3.75, 5.50.
(c) Wegen x ¯ > xmed > xmod lassen die Lageregeln in Abschnitt 2.2.1 in Fahrmeir et al. (2004) auf eine linkssteile Verteilung schließen. (d) Box-Plot: ENJOY .............................................................................. ... ... ... ... ... .... .. ... ... ... .. ... ... ... ...................... . ................................... . ... .. ... .... .... ... ... ... ... ... ... . . . . . . . ...........................................................................
2
3
4
5
6
7
8
9
10
7
8
9
10
Box-Plot: SAFERSEX ................................................................... ... ... ... ... ... ... ... ... ... . . . .... . ............................... . . ................ . .. . .. .. ... .... ... .... ... ... ... ... ... ... . . .. . . ...............................................................
2
3
4
5
6
38
2. Univariate Deskription und Exploration von Daten
Die Kondome von ENJOY sind im Mittel teurer als Kondome von SAFERSEX. Außerdem streuen die Preise von ENJOY mehr als die Preise von SAFERSEX. (e) Definiere Z = Preis der Kondome nach der Preiserh¨ohung = 1.2X. Damit erh¨ alt man z¯ z0.5 zmod
= = =
5.12, 4.50, 3.60.
(f) x ¯ wird gr¨ oßer, x0.5 und xmod bleiben gleich, da sich in der geordneten andert. Urliste lediglich x(9) ¨
L¨ osung 2.11 (a) Die geforderten Maßzahlen berechnen sich wie folgt: x ¯ = s˜2
=
s˜ = υ
=
910 = 82.7273, 11 n 1 2 81700 − 82.72732 = 583.4666, x − x¯2 = 11 i=1 i 11 24.1551, s˜ = 0.292. x ¯
(b), (c) Die empirische Verteilungsfunktion hat die folgende Gestalt, wobei in der graphischen Darstellung die Quantile eingezeichnet sind:
F (x)
1.00 6 0.75 0.50 0.25
•......................................... •.................................................................
•...........................................
....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ...... .. ... .. . .................................... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... .. .... ............. . ... . ..... ... ... ........... .. . ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... ....... .... ... .. ..... . ....................... ... ... ... ... ... .. .. .. .. ........ ......... ....... . . .. . ... ... ....... . . . . . .... .... ........... . . .. .. ... .. .. .. ... ... ... ... .. ... . 0.25 ...
•
•
0
x
•
•
-
50
100
= 65
x0.75 = 90
xmed = 75
150
x
2. Univariate Deskription und Exploration von Daten
39
Der Box-Plot der Ums¨ atze ergibt sich wie folgt: ............................................................ ... ... ..... ... ... ... ... ... ... ... ... ... .. ......................... . ............................................................................................................... ... ... .... .... .... ... . ... ... ... ... ... ... ... ... ... .........................................................
50
70
90
110
130
150
1 1 xi . F¨ ur die Quartile und den Variati(d) Setze yi = , d.h. a = = s˜ s˜ 24.155 onskoeffizienten erh¨ alt man:
y0.25
=
ymed
=
y0.75
=
υy
=
65 x0.25 = 24.155 24.155 75 xmed = 24.155 24.155 90 x0.75 = 24.155 24.155 1 s˜y s˜x = = y x/˜ sx x
= 2.69, = 3.105, = 3.726, = υx = 0.292.
L¨ osung 2.12 (a) Den geringsten Stromverbrauch weisen Ger¨ate von Markenherstellern auf. Auch Computer von Direktanbietern haben einen geringeren Stromverbrauch als Computer von Billiganbietern, die mit Abstand den gr¨oßten Stromverbrauch aufweisen. Die Streuung ist bei Direktanbietern am gr¨ oßten, gefolgt von den Billiganbietern und den Markenherstellern. (b) Das arithmetische Mittel und die empirische Standardabweichung bestimmt man als: x ¯ = = s˜2
=
= s˜ =
1 (45 · 2.3 + 35 · 1.6 + 50 · 1.4) 45 + 35 + 50 1.76, 1 45 · 0.32 + 35 · 0.42 + 50 · 0.22 + 130 1 45 · (2.3 − 1.76)2 + 35 · (1.6 − 1.76)2 + 50 · (1.4 − 1.76)2 130 0.247, √ s˜2 = 0.497.
40
2. Univariate Deskription und Exploration von Daten
L¨ osung 2.13 Es gilt n
(xi − x¯) =
i=1
= = =
(x1 − x ¯) + (x2 − x ¯) + . . . + (xn − x ¯) x1 + x2 + . . . + xn − n · x¯ 1 x1 + x2 + . . . + xn − n · (x1 + x2 + . . . + xn ) n 0.
L¨ osung 2.14 Es bezeichnen xj1 , . . . , xjnj die Daten in der j-ten Schicht, j = 1, . . . , r. Dann gilt f¨ ur das arithmetische Mittel x¯
=
= =
1 (x11 + x12 + . . . + x1n1 + n x21 + x22 + . . . + x2n2 + ... xr1 + xr2 + . . . + xrnr ) 1 (n1 · x¯1 + n2 · x ¯ 2 + . . . + nr · x ¯nr ) n r 1 nj x ¯j . n j=1
L¨ osung 2.15 (a) Man bestimmt die folgenden Lagemaße: x ¯1950
=
x ¯1970
=
x ¯1990
=
x1950 med
=
x1970 med
=
x1990 med
=
x1950 mod
=
1 (0.5 · 5 + · · · + 9.5 · 3) = 5.71, 121 1 (0.5 · 6 + · · · + 9.5 · 2) = 4.63, 117 1 (0.5 · 35 + · · · + 9.5 · 1) = 2.13, 97 1 · (0.5 − 0.48) = 6.12, 6+ 0.17 1 · (0.5 − 0.32) = 4.72, 4+ 0.25 1 · (0.5 − 0.36) = 1.56, 1+ 0.25 7.5,
2. Univariate Deskription und Exploration von Daten
x1970 mod x1990 mod
= =
41
4.5, 0.5.
(b) An den im Laufe der Jahre kleiner werdenden Lagemaßen l¨aßt sich ablesen, daß die Leser der Zeitschrift immer weniger Zeit mit Radioh¨oren verbringen.
L¨ osung 2.16 Die monatlichen Zinss¨ atze ri sind Wachstumsraten. Den durchschnittlichen Jahreszins f¨ ur 1993 erh¨ alt man als geometrisches Mittel der Wachstumsfaktoren xi = 1 + ri : Monat Jan Feb Mrz Apr Mai Jun xi 1.0713 1.0654 1.0626 1.0646 1.0642 1.0634 Monat Jul Aug Sep Okt Nov Dez xi 1.0599 1.0576 1.0575 1.0545 1.0513 1.0504
x¯geom
1
= (x1 · x2 · . . . · x12 ) 12 1
= (1.0713 · 1.0654 · . . . · 1.0504) 12 = 1.0602. Der durchschnittliche Jahresumsatz betr¨ agt somit 6.02 Prozent.
L¨ osung 2.17 (a) Als sinnvoller Durchschnittswert f¨ ur Bernds Laufgeschwindigkeit wird ein gewichtetes harmonisches Mittel bestimmt. Seien dazu li = L¨ange des i-ten Streckenabschnitts und xi = Geschwindigkeit auf dem i-ten Streckenabschnitt, i = 1, 2, 3. Dann gilt: x ¯har =
l1 + l2 l1 l2 x1 + x2
+ l3 25 + 15 + 2 = 25 15 2 = 14.916. l3 + x3 17 + 12 + 21
Bernds durchschnittliche Laufgeschwindigkeit betr¨agt somit 14.9 km/h. (b) Bernd war 42/14.916 = 2.816 Stunden unterwegs.
42
2. Univariate Deskription und Exploration von Daten
L¨ osung 2.18
j
(a) Es gilt mit uj = j/n, vj =
F
= = =
i=1
xi /
n i=1
n xi , V˜ = i=1 xi :
1 1 u1 v1 + (u2 − u1 )v1 + (u2 − u1 )(v2 − v1 ) + . . . 2 2 n 1 1 u1 v1 + (ui − ui−1 )vi−1 + (ui − ui−1 )(vi − vi−1 ) 2 2 i=2 n 1 1 xi 11 1 v1 + vi−1 + 2n n 2 n V˜ i=2
=
n−1 n v1 1 1 + vi + xi 2n n i=1 2nV˜ i=2
=
n vn 1 x1 v1 1 − + V − xi + 2n n n 2nV˜ 2nV˜ i=1
= = =
1 v1 1 v1 − 2vn + V − + 2n n 2n 2n −2vn 1 1 1 1 + V + = V − 2n n 2n n 2n 1 (2V − 1). 2n
(b) Daraus folgt G=
1 1 1 1 − (2V − 1) / = (n + 1 − 2V ) 2 2n 2 n
und damit G∗ =
n + 1 − 2V n G= . n−1 n−1
L¨ osung 2.19 Aus den Angaben erstellt man die folgende Tabelle: j
uj
x 5 j
j=1
1 2 3 4 5
0.2 0.4 0.6 0.8 1.0
xj
0.1 0.1 0.1 0.35 0.35
vj 0.1 0.2 0.3 0.65 1.0
2. Univariate Deskription und Exploration von Daten
43
Mit Hilfe der Tabelle erh¨ alt man folgende Lorenzkurve:
Den Gini-Koeffizienten erh¨ alt man mit
G
=
2
n
n
j=1 n
jxj
j=1
xj
2 n+1 xj n+1 = j − n n j=1 n j=1 nxj n
−
2 6 (1 · 0.1 + 2 · 0.1 + 3 · 0.1 + 4 · 0.35 + 5 · 0.35) − 5 5 = 0.3. =
Haben vier der f¨ unf Hersteller kein Großger¨ at verkauft, so ergibt sich die Tabelle: j
uj
x 5 j
j=1
1 2 3 4 5
0.2 0.4 0.6 0.8 1.0
0 0 0 0 1.0
xj
vj 0 0 0 0 1.0
und daraus der Gini-Koeffizient als G=
2 6 · 5 · 1 − = 0.8. 5 5
44
2. Univariate Deskription und Exploration von Daten
Die Lorenzkurve ist gegeben durch
L¨ osung 2.20 Aus den Angaben erstellt man die folgende Tabelle: klein mittel groß
hi 5 4 1
fi u i 0.5 0.5 0.4 0.9 0.1 1
h i ai 5 · a1 6 a3 Summe = 15
Damit berechnet sich aus dem Gini-Koeffizient G = 0.42 mit k j=1 (uj−1 + uj )hj aj G = −1 k j=1 hj aj 0.5 · 5a1 + 1.4 · 6 + 1.9a3 = −1 15 1 = (2.5a1 + 1.9a3 ) − 0.44 = 0.42. 15 Daraus folgt 2.5a1 + 1.9a3 = 12.9. Ferner gilt 5a1 + 6 + a3 = 15, d.h. a3 = 9 − 5a1 . In obige Gleichung eingesetzt ergibt sich: 2.5a1 + 1.9(9 − 5a1 ) ⇐⇒ ⇐⇒
7a1 a1
= 12.9 = 4.2 = 0.6.
2. Univariate Deskription und Exploration von Daten
45
Man erh¨ alt a3 = 9 − 5 · 0.6 = 6. Die f¨ unf kleinen Unternehmen erzielen somit zusammen einen Umsatz von 3 Mio Euro, die vier mittleren erreichen zusammen 6 Mio Euro, und das gr¨oßte erwirtschaftet alleine 6 Mio Euro. L¨ osung 2.21 (a) Bezeichne xi den Umsatz der i-ten Facharztniederlassung. Jede der 5 kleinen Praxen hat einen Umsatz von 0.3/5 = 0.06 Mio Euro . Die große Praxis hat insgesamt 0.6 Mio Euro Umsatz. Schließlich haben die 4 mittleren Praxen zusammen einen Umsatz von 1.5−0.3−0.6 = 0.6 Mio Euro , jede einzelne also 0.15 Mio Euro Umsatz. Als Tabelle ergibt sich: Praxis i 1 2 3 4 5 6 7 8 9 10
ui 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
xi 0.06 0.06 0.06 0.06 0.06 0.15 0.15 0.15 0.15 0.6
xi 0.06 0.12 0.18 0.24 0.3 0.45 0.6 0.75 0.9 1.5
vi 0.04 0.08 0.12 0.16 0.2 0.3 0.4 0.5 0.6 1
0.8 0.2
0.4
0.6
(0.9 ; 0.6)
(0.5 ; 0.2)
0.0
Anteile des Gesamteinkommens
1.0
Die Lorenzkurve hat die Form:
0.0
0.2
0.4
0.6
0.8
Anteile der Niederlassungen
1.0
46
2. Univariate Deskription und Exploration von Daten
Mit den Formeln aus Aufgabe 2.18 ergibt sich: G∗ =
11 − 2 · 3.4 n + 1 − 2V = = 0.46 n−1 9
mit V =
10 i=1
Aus der H¨ aufigkeitstabelle Klasse klein mittel groß
hi 5 4 1
ai 0.06 0.15 0.6
ui 0.5 0.9 1
h i ai 0.3 0.6 0.6
vi 0.2 0.6 1
ergibt sich der Gini-Koeffizient aus k G = = = G∗
=
j=1 (uj−1 k j=1
+ uj )hj aj
−1 h j aj 0.5 × 0.3 + 1.4 × 0.6 + 1.9 × 0.6 −1 0.3 + 0.6 + 0.6 0.42, n 10 G= 0.42 = 0.46. n−1 9
(b) Die neue Tabelle hat die Form: Praxis i 1 2 3 4 5 6 7 8 9 10
ui 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
xi 0.06 0.06 0.06 0.06 0.06 0.15 0.15 0.15 0.15 0.9
xi 0.06 0.12 0.18 0.24 0.3 0.45 0.6 0.75 0.9 1.8
vi 0.033 0.066 0.099 0.133 0.166 0.25 0.33 0.41 0.5 1
vi = 3.4.
2. Univariate Deskription und Exploration von Daten
47
0.8 0.6 0.2
0.4
(0.9 ; 0.5)
(0.5 ; 0.166)
0.0
Anteile des Gesamteinkommens
1.0
Die Lorenzkurve ist damit gegeben durch:
0.0
0.2
0.4
0.6
0.8
1.0
Anteile der Niederlassungen
Unter Ber¨ ucksichtigung der Formeln aus Aufgabe 2.18 berechnet sich der Gini-Koeffizient als G∗ =
11 − 2 · 2.987 11 − 2V = = 0.558 9 9
mit
V =
10
vi = 2.987.
i=1
Ein Vergleich der beiden Gini-Koeffizienten zeigt, daß die Konzentration zunimmt. (c) Es gibt nunmehr nur noch sieben Praxen, f¨ unf kleine Praxen mit einem Umsatz von jeweils 0.06 Mio Euro, eine mittlere mit 0.6 Mio Euro Umsatz und eine große Praxis mit 0.9 Mio Euro Umsatz. Klasse klein mittel groß
ni 5 1 1
jew. Umsatz 0.06 0.6 0.9
Als Tabelle ergibt sich: Praxis i 1 2 3 4 5 6 7
ui 0.143 0.286 0.429 0.571 0.714 0.857 1
xi 0.06 0.06 0.06 0.06 0.06 0.6 0.9
xi 0.06 0.12 0.18 0.24 0.3 0.9 1.8
vi 0.033 0.066 0.099 0.133 0.166 0.5 1
48
2. Univariate Deskription und Exploration von Daten
0.8 0.6 0.2
0.4
(0.85 ; 0.5)
(0.71 ; 0.166)
0.0
Anteile des Gesamteinkommens
1.0
Damit erh¨ alt man als Lorenzkurve:
0.0
0.2
0.4
0.6
0.8
1.0
Anteile der Niederlassungen
Der Gini-Koeffizient bestimmt sich durch G∗ =
8−2·2 2 8 − 2V = = 6 6 3
mit
V =
7
vi = 2.
i=1
(Hinweis: Im vorliegenden Fall lassen sich keine allgemeinen Aussagen treffen, d. h. die Konzentration kann zu- oder abnehmen.)
L¨ osung 2.22 Grafik a) ist eine Lorenzkurve. Es handelt sich um eine monotone konvexe Kurve. Das kleinste Unternehmen hat einen Umsatz von 10%, das 2. kleinste von 20%, das N¨ achste einen Umsatz von 30% und das gr¨oßte Unternehmen von 40%. Grafik b) ist ebenfalls eine Lorenzkurve. Die Funktion ist wieder monoton und konvex. Die drei kleinsten Unternehmen haben keinen Umsatz, das gr¨ oßte Unternehmen macht 100% des Umsatzes (maximale Konzentration). Grafik c) stellt keine Lorenzkurve dar, da die Funktion nicht durch den Punkt (1,0) gehen darf. Grafik d) ist ebenfalls keine Lorenzkurve, da die dargestellte Funktion nicht monoton steigend ist. Der Ginikoeffizient f¨ ur die Lorenzkurve aus Grafik a) ist gegeben durch G∗ =
4 + 1 − 2(4 + 1 − 2(0.1 + 0.3 + 0.6 + 1) 1 n + 1 − 2V = = . n−1 3 3
2. Univariate Deskription und Exploration von Daten
49
F¨ ur Grafik b) erhalten wir G∗ =
4 + 1 − 2(0 + 0 + 0 + 1) = 1. 3
Zur Berechnung von G∗ haben wir die Ergebnisse aus Aufgabe 2.18 verwendet.
L¨ osung 2.23 Ein Momentenkoeffizient von gm = 1.72 in der linken Spalte weist auf eine linkssteile Verteilung hin, genauso wie ein positiver Quartilskoeffizient von olbungsmaß γ = 6.58 spricht f¨ ur eine u g0.25 = 0.16. Das W¨ ¨ berdurchschnittlich gew¨ olbte Verteilung. Dies trifft unter den drei Datenbeispielen auf die Nettomieten zu, die in dem NQ-Plot eine unsymmetrische linkssteile Verteiur lung zeigen. In der mittleren Spalte stehen g0.25 = 0.06 und gm = −0.17 f¨ eine eher symmetrische Verteilung, die aber aufgrund von γ = 8.01 relativ spitz ist und u ugt. Wegen ¨ ber breitere Enden als die Normalverteilung verf¨ der vielen Ausreißer trifft dies auf die Renditen der BMW-Aktie zu. In der rechten Spalte weist ein negativer Momentenkoeffizient gm = −0.49 auf eine rechtssteile Verteilung hin, die wegen γ = 0.17 wenig gew¨olbt ist. Dies paßt zu der Lebensalterverteilung der Magenkrebspatienten, die um den Median eher symmetrisch ist, so daß g0.25 = 0 gilt, aber aufgrund des hohen Alters mehrerer Patienten ansonsten eine rechtssteile Gestalt zeigt.
L¨ osung 2.24 Das rechte Bild zeigt einen glatteren Verlauf des Kerndichtesch¨atzers, was einer gr¨ oßeren Bandbreite, hier also 2, entspricht. Dem linken Bild liegt die kleinere Bandbreite gleich 1 zugrunde.
3 Multivariate Deskription und Exploration
Aufgaben Aufgabe 3.1 In der sogenannten Sonntagsfrage wird regelm¨ aßig die folgende Frage gestellt: “Welche Partei w¨ urden Sie w¨ahlen, wenn am n¨achsten Sonntag Bundestagswahl w¨are?” . F¨ ur den Befragungszeitraum 11.1.–24.1.1995 ergab sich die folgende Kontingenztafel M¨ anner Frauen
CDU/CSU 144 200 344
SPD 153 145 298
FDP 17 30 47
Gr¨ une 26 50 76
Rest 95 71 166
435 496 931
Bei der Untersuchung des Zusammenhangs zwischen dem Geschlecht und der Parteipr¨ aferenz betrachte man die sich ergebenden (2 × 2)-Tabellen, wenn man die CDU/CSU jeweils lediglich einer anderen Partei gegen¨ uberstellt. Bestimmen und interpretieren Sie jeweils die relativen Chancen, den χ2 Koeffizienten und den Kontingenzkoeffizienten. (L¨osung siehe Seite 61)
Aufgabe 3.2 In einem Experiment zur Wirkung von Alkohol auf die Reaktionszeit wurden insgesamt 400 Versuchspersonen zuf¨ allig in zwei Gruppen aufgeteilt. Eine der beiden Gruppen erhielt dabei eine standardisierte Menge Alkohol. Abschließend ergab sich die folgende Kontingenztabelle
ohne Alkohol mit Alkohol
gut 120 60
Reaktion mittel stark verz¨ogert 60 20 100 40
52
3. Multivariate Deskription und Exploration
(a) Bestimmen Sie die Randh¨ aufigkeiten dieser Kontingenztabelle, und interpretieren Sie diese, soweit dies sinnvoll ist. (b) Bestimmen Sie diejenige bedingte relative H¨aufigkeitsverteilung, die sinnvoll interpretierbar ist. (c) Bestimmen Sie den χ2 - und den Kontingenzkoeffizienten. (d) Welche relativen Chancen lassen sich aus dieser Kontingenztafel gewinnen? (L¨osung siehe Seite 62)
Aufgabe 3.3 Die im folgenden gegebene Kontingenztafel mit relativen H¨aufigkeiten ist unvollst¨ andig. Vervollst¨ andigen Sie die Tabelle unter der Annahme, daß die beiden Merkmale unabh¨angig sind. a1 a2
b1 0.16
b2
b3 0.8 0.06
(L¨osung siehe Seite 63)
Aufgabe 3.4 (a) Zeigen Sie χ2 = n
k m (fij − fi. f.j )2 fi. f.j i=1 j=1
(b) Wie ¨ andert sich χ2 , wenn der Stichprobenumfang verdoppelt wird (bei gleichbleibenden relativen H¨ aufigkeiten)? (L¨osung siehe Seite 64)
Aufgabe 3.5 Der Fachserie 16 “Bildung und Wissenschaft” des statistischen Bundesamts 1998 k¨ onnen Sie folgende gemeinsame Verteilung der Merkmale Schulart und Staatsangeh¨ origkeit von Sch¨ ulern an bayerischen weiterf¨ uhrenden Schulen entnehmen:
3. Multivariate Deskription und Exploration
Schulart Hauptschule Realschule Gymnasium
53
Staatsangeh¨origkeit deutsch ausl¨andisch 173244 145917 154255 7323 290057 10043
Bestimmen Sie (a) die gemeinsame Verteilung von Schulart und Staatsangeh¨origkeit und die Randverteilung der beiden Merkmale in relativen H¨aufigkeiten. (b) die bedingten Verteilungen der Schulart gegeben die Staatsangeh¨origkeit. Beschreiben Sie mit Hilfe der berechneten Verteilungen, welcher Zusammenhang zwischen den beiden Merkmalen der Tendenz nach besteht. (c) Beurteilen Sie diesen Zusammenhang mit einem geeigneten statistischen Maß. (L¨osung siehe Seite 64)
Aufgabe 3.6 In einer Studie zur Auswirkung von Fernsehprogrammen mit gewaltt¨atigen Szenen auf das Sozialverhalten von Kindern wurden ein Aggressivit¨atsscore Y , die Zeitdauer in Minuten X, w¨ ahrend der das Kind pro Tag gew¨ohnlich solche Sendungen sieht, und das Geschlecht Z des Kindes mit 1 = weiblich und 0 = m¨ annlich erfaßt. Sowohl der Aggressivit¨atsscore als auch die Zeitdauer lassen sich wie metrische Variablen behandeln. Nehmen wir folgende Beobachtungen f¨ ur eine zuf¨ allig ausgew¨ ahlte Kindergartengruppe an: i yi xi zi
1 4 10 0
2 5 50 0
3 2 30 0
4 6 70 0
5 6 80 0
6 8 60 0
7 7 90 0
8 2 40 1
9 7 10 1
10 3 20 1
11 5 30 1
12 1 50 1
13 3 60 1
(a) Zeichnen Sie ein Streudiagramm f¨ ur die 13 Kinder, und berechnen Sie den Korrelationskoeffizienten nach Bravais-Pearson zwischen X und Y ohne Ber¨ ucksichtigung des Geschlechts. (b) Zeichen Sie nun f¨ ur Jungen und M¨ adchen getrennt jeweils ein Streudiagramm, und berechnen Sie f¨ ur beide Geschlechter den Korrelationskoeffizienten. (c) Vergleichen Sie Ihre Ergebnisse aus (a) und (b). Welche Art von Korrelation beobachten Sie hier, und wie ¨ andert sich Ihre Interpretation des Zusammenhangs zwischen aggressivem Verhalten und dem Beobachten gewaltt¨ atiger Szenen im Fernsehen? (L¨osung siehe Seite 66)
54
3. Multivariate Deskription und Exploration
Aufgabe 3.7 Ein Medikament zur Behandlung von Depressionen steht im Verdacht, als Nebenwirkung das Reaktionsverm¨ ogen zu reduzieren. In einer Klinik wurde deshalb eine Studie durchgef¨ uhrt, an der zehn zuf¨allig ausgew¨ahlte Patienten teilnahmen, die das Pr¨ aparat in verschiedenen Dosierungen verabreicht bekamen. Das Reaktionsverm¨ ogen wurde mit Hilfe des folgenden Experiments gemessen: Der Patient mußte einen Knopf dr¨ ucken, sobald er ein bestimmtes Signal erhalten hat. Die Zeit zwischen Signal und Knopfdruck wurde als Maß f¨ ur das Reaktionsverm¨ ogen betrachtet. Es ergeben sich folgende Werte f¨ ur die Dosierung X in mg und die dazugeh¨ orige Reaktionszeit Y in Sekunden: i xi yi
1 1 1
2 5 6
3 3 1
4 8 6
5 2 3
6 2 2
7 10 8
8 8 5
9 7 6
10 4 2
(a) Was sagt das Streudiagramm u ¨ ber den Zusammenhang von X und Y aus? (b) Passen Sie eine Gerade an die beobachteten Datenpunkte unter Verwendung der Kleinste-Quadrate Methode an. Beurteilen Sie die G¨ ute Ihrer Anpassung. Nutzen Sie, daß der Korrelationskoeffizient nach Bravaisagt. Was sagt dieser Wert u Pearson rXY hier 0.8934 betr¨ ¨ ber den Zusammenhang von X und Y aus? (c) Ein Patient wird mit einer Dosis von 5.5 mg des Medikaments behandelt. Welche Reaktionszeit prognostizieren Sie? (d) Wie l¨ aßt sich der in (b) gesch¨ atzte Steigungsparameter interpretieren? Hinweis: 10
xi = 50,
i=1
10
x2i = 336,
i=1
10 i=1
yi = 40,
10 i=1
yi2 = 216,
10
xi yi = 262.
i=1
(L¨osung siehe Seite 69)
Aufgabe 3.8 Bei einer Studie zur Situation ausl¨ andischer Kinder in deutschen Kinderg¨ arten wurden zehn ausl¨ andische Kinder eines M¨ unchner Kindergartens untersucht. Dabei interessierte vor allem, welche Bedeutung der Erwerb der deutschen Sprache f¨ ur die Integration der Kinder in die Gruppe hat. Dazu wurde der Grad der Integration u ¨ ber verschiedene Variablen, wie zum Beispiel die Anzahl der Spielkontakte mit deutschen Kindern, erfaßt. Jedes Kind erhielt einen Integrationsscore auf einer Skala von 0 (v¨ollige Isolation) bis 10 (v¨ ollige Integration). Außerdem nahmen die zehn Kinder an einem Sprachtest teil. In diesem Test konnten die Kinder 0 (keinerlei Kenntnisse der deutschen Sprache) bis 20
3. Multivariate Deskription und Exploration
55
(mit gleichaltrigem deutschen Kind vergleichbare Kenntnisse der deutschen Sprache) Punkte erzielen. Die Tabelle zeigt die Ergebnisse f¨ ur die zehn Kinder: Kind Ergebnis des Sprachtests Integrationsscore
1 15 9
2 4 0
3 10 8
4 7 7
5 20 10
6 5 2
7 0 1
8 3 3
9 8 4
10 12 6
(a) Tragen Sie die Daten in ein Streudiagramm ein. (b) Berechnen Sie den Rangkorrelationskoeffizienten nach Spearman. Verteilen Sie dazu zun¨ achst die R¨ ange in beiden Datenreihen. (c) In einem anderen Kindergarten ergab sich f¨ ur vier ausl¨andische Kinder folgendes Streudiagramm: Integrationsscore 10
6 c
5
c c
1
c 1
5
10
15 Ergebnis Sprachtest
Welchen Wert w¨ urden Sie hier f¨ ur den Rangkorrelationskoeffizienten erwarten (Rechnung ist nicht erforderlich)? W¨are der Korrelationskoeffizient von Bravais-Pearson hier kleiner, gleich oder sogar gr¨oßer als der von Spearman? Begr¨ unden Sie Ihre Antworten. (L¨osung siehe Seite 70)
56
3. Multivariate Deskription und Exploration
Aufgabe 3.9 Bei der Untersuchung des Zusammenhangs zwischen zwei Variablen X und Y ergaben sich folgende Beobachtungen i xi yi
1 1 −.09
2 2 2.37
3 3 3.14
4 4 4.26
5 5 5.48
6 6 4.77
7 7 7.3
8 8 6.45
9 9 9.14
10 10 11.13
11 20 0
Wenn nur die ersten zehn Beobachtungen ber¨ ucksichtigt werden, erh¨alt man als Korrelationskoeffizient nach Bravais-Pearson rXY = 0.9654 und als Rangkorrelationskoefizient nach Spearman rSP = 0.9758. (a) Zeichnen Sie zun¨ achst ein Streudiagramm zwischen Y und X unter Ber¨ ucksichtigung aller Daten (also auch der elften Beobachtung). (b) Bestimmen Sie nun beide Korrelationskoeffizienten unter Ber¨ ucksichtigung aller elf Daten. Verwenden Sie dabei folgende Gr¨oßen, die man bei der Berechnung der Korrelationskoeffizienten mit lediglich den ersten y = 383.46 , zehn Datenpunkten erhalten hat: x ¯ = 5.5 , y ¯ = 5.396 , x i i 2 2 xi = 385 , yi = 388.88 . (c) Interpretieren Sie die in (a) und (b) erhaltenen Ergebnisse. (L¨osung siehe Seite 71) Aufgabe 3.10 Die folgende Graphik zeigt das Streudiagramm zwischen zwei Merkmalen y und x. Insgesamt sind f¨ unf Punkte abgebildet, die alle auf einer Geraden liegen. y
6 c
5 c
4 c
3 c
2 1
c
0 1
2
3
4
5
x
3. Multivariate Deskription und Exploration
57
(a) Welchen Wert nehmen rXY und rSP an? (b) Wie ¨ andern sich rXY und rSP , wenn (b1) alle yi (i = 1, . . . , 5) quadriert werden? (b2) der Punkt (x, y) = (5, 5) ersetzt wird durch (8,5), d.h. der Punkt nach rechts verschoben wird? (b3) alle yi (i = 1, . . . , 5) mit −1 multipliziert werden? (b4) alle yi und xi (i = 1, . . . , 5) mit −1 multipliziert werden? (L¨osung siehe Seite 72) Aufgabe 3.11 Wir betrachten den folgenden Datensatz mit n = 11 Beobachtungen der Variablen X1 , X2 , Y1 , Y2 , Y3 und Y4 (Anscomb Daten): x1 10.00 8.00 13.00 9.00 11.00 14.00 6.00 4.00 12.00 7.00 5.00
x2 8.00 8.00 8.00 8.00 8.00 8.00 8.00 19.00 8.00 8.00 8.00
y1 8.04 6.95 7.58 8.81 8.33 9.96 7.24 4.26 10.84 4.82 5.68
y2 9.14 8.14 8.74 8.77 9.26 8.10 6.13 3.10 9.13 7.26 4.74
y3 7.46 6.77 12.74 7.11 7.81 8.84 6.08 5.39 8.15 6.42 5.73
y4 6.58 5.76 7.71 8.84 8.47 7.04 5.25 12.50 5.56 7.91 6.89
Tabelle 3.1. Datensatz mit den Beobachtungen der Variablen X1 , X2 , Y1 , Y2 , Y3 und Y4 .
(a) Die empirische Kovarianzmatrix der Variablen X1 , X2 , Y1 , Y2 , Y3 und Y4 besitzt die folgende Gestalt:
X1 X2 Y1 Y2 Y3 Y4
X1 11.00 −5.50 5.50 5.50 5.50 −2.12
X2
Y1
Y2
Y3
Y4
11.00 −3.57 −4.84 −2.32 5.50
4.13 3.10 1.93 −2.02
4.13 2.43 −1.97
4.12 −0.64
4.12
Die Matrix gibt die empirischen Kovarianzen zwischen allen beteiligten Variablen an. Aufgrund der Symmetrie der Kovarianz m¨ ussen die Elemente oberhalb der Diagonalen nicht angegeben werden. Zum besseren
58
3. Multivariate Deskription und Exploration
15 10
y2 5 0
0
5
y1
10
15
Verst¨ andnis beachten Sie bitte noch das folgende Ablesebeispiel. Die empirische Kovarianz zwischen X1 und Y1 betr¨agt 5.50, d.h. s˜X1 ,Y1 = 5.50. Die Varianzen der Variablen befinden sich auf der Diagonalen der obigen Kovarianzmatrix. Die Varianz s˜2X1 von X1 ist beispielsweise 11.00. (i) Berechnen Sie unter Zuhilfenahme der gegebenen Kovarianzmatrix die Korrelationskoeffizienten (nach Bravais-Pearson) rX1 ,Y1 , rX1 ,Y2 , rX1 ,Y3 und rX2 ,Y4 . Runden Sie bitte Ihre Ergebnisse auf die zweite Nachkommastelle. (ii) Interpretieren Sie Ihre bisherigen Ergebnisse? (b) Abbildung 3.1 zeigt die Streudiagramme der Variablenpaare (X1 , Y1 ), (X1 , Y2 ), (X1 , Y3 ) und (X2 , Y4 ). Zus¨ atzlich wurden die jeweiligen Regressionsgeraden bestimmt. Diese sind bei allen Variablenpaaren identisch, d.h. die gesch¨ atzten Regressionsparameter sind genau gleich mit Werten α ˆ = 3 und βˆ = 0.5. (i) Zeichnen Sie die Regressionsgeraden in Abbildung 3.1 ein. (ii) Wie ¨ andert sich Ihre Interpretation aus Aufgabenteil (a), wenn Ab¨ bildung 3.1 in Ihre Uberlegungen einfließt? Welches Fazit k¨onnen Sie ziehen?
0
5
10
15
20
0
5
10
15
20
15
20
10
y4 5 0
0
5
y3
10
15
x1
15
x1
0
5
10
x1
15
20
0
5
10
x2
Abbildung 3.1. Streudiagramme f¨ ur X1 vs. Y1 , X1 vs. Y2 , X1 vs. Y3 und X2 vs. Y4 .
(L¨osung siehe Seite 72)
3. Multivariate Deskription und Exploration
59
Aufgabe 3.12 Shepard und Cooper haben Experimente entwickelt, mit denen sich die Vorstellung r¨ aumlicher Bewegungen n¨ aher untersuchen l¨aßt: Die Versuchsteilnehmer sollten jeweils zwei vom Computer erzeugte perspektivische Strichzeichnungen miteinander vergleichen. Bei einigen Zeichnungen waren die beiden Objekte identisch, aber aus verschiedenen Perspektiven dargestellt. Die Probanden mußten nun m¨ oglichst schnell die beiden Figuren miteinander vergleichen und dann kenntlich machen, ob sie gleich sind oder nicht. Sei X die Drehung einer Zeichnung in der Bildebene, gemessen in Grad, und Y die Reaktionszeit in Sekunden. Beobachtet wurden folgende Werte: xi yi
0 1.15
20 1.65
40 2.00
60 2.46
80 2.77
100 3.15
120 3.66
140 3.95
160 4.45
180 4.69
Nehmen Sie an, daß sich der Zusammenhang zwischen X und Y durch folgende Beziehung beschreiben l¨ aßt: yi = α + βxi + i ,
i = 1, . . . , 10.
(a) Sch¨ atzen Sie α und β aus den obigen Beobachtungen. Wie sieht damit die gesch¨ atzte Regressionsgerade aus? (b) Was l¨ aßt sich u ute der Modellanpassung sagen? Berechnen Sie ¨ber die G¨ dazu das Bestimmtheitsmaß. (L¨osung siehe Seite 74)
Aufgabe 3.13 In einem Schwellenland wurde eine Studie durchgef¨ uhrt, die den Zusammenhang zwischen Geburtsgewicht von Kindern und zahlreichen sozio¨okomischen Variablen untersucht. Hier sei speziell der Zusammenhang zwischen dem Geburtsgewicht und dem monatlichen Einkommen von Interesse. Es wurden acht Kinder zuf¨ allig ausgew¨ ahlt und f¨ ur diese sowohl das Geburtsgewicht Y in Pfund als auch das monatliche Einkommenen X der Eltern in 1000 Einheiten der Landesw¨ ahrung erfaßt. Die Daten sind in der folgenden Tabelle zusammengefaßt. Kind i Einkommen xi Geburtsgewicht yi
1 2.7 5
2 1.9 6
3 3.1 9
4 3.9 8
5 4.0 7
6 3.4 6
7 2.1 7
8 2.9 8
(a) Tragen Sie die Beobachtungen in ein Streudiagramm ein. (b) Man m¨ ochte nun anhand des Einkommens mit Hilfe eines linearen Regressionsmodells yi = α + βxi + εi , i = 1, . . . , n, das Geburtsgewicht vorhersagen.
60
3. Multivariate Deskription und Exploration
Sch¨ atzen Sie die Regressionsgerade, und zeichnen Sie diese in das Streuungsdiagramm. Ein Ehepaar verdient 3 × 1000 Einheiten der Landesw¨ahrung im Monat. Welches Geburtsgewicht prognostizieren Sie? (c) Berechnen Sie das Bestimmtheitsmaß. Was sagt es hier aus? Glauben Sie, daß das Einkommen zur Vorhersage des Geburtsgewichts geeignet ist (mit Begr¨ undung)? Hinweis: 8
xi = 24,
i=1
8
x2i = 76.1,
8
i=1 8
xi yi = 170.3,
i=1
(L¨osung siehe Seite 75)
i=1 8 i=1
yi = 56,
8
yi2 = 404,
i=1
yˆi2 = 393.3, SQR = 10.7.
3. Multivariate Deskription und Exploration
61
L¨ osungen L¨ osung 3.1 Zun¨ achst betrachtet man die (2 × 2)-Tabelle, die sich ergibt, wenn man die CDU/CSU der SPD gegen¨ uberstellt: CDU/CSU SPD M¨ anner 144 153 297 Frauen 200 145 345 344 298 642 Daraus berechnet man γ χ2 K K∗
0.9412 144/153 = = 0.6828, 200/145 1.3793 642 · (144 · 145 − 153 · 200)2 = 5.7745, =
297 · 344 · 298 · 345 5.7745 = = 0.0944, 642 + 5.7745 K K 0.0944 = 0.1335 mit = = = √ Kmax M−1 0.5 =
M = min{2, 2} = 2.
M
Entsprechend erh¨alt man die (2 × 2)-Tabelle CDU/CSU vs. FDP: CDU/CSU FDP M¨ anner 144 17 161 Frauen 200 30 230 344 47 391 mit
γ = 1.2706, χ2 = 0.5528, K = 0.0376, K ∗ = 0.0532.
Abschließend ergibt sich die (2 × 2)-Tabelle CDU/CSU vs. Gr¨ une als: CDU/CSU Gr¨ une M¨ anner 144 26 170 Frauen 200 50 250 344 76 420 mit
γ = 1.3846, χ2 = 1.5112, K = 0.0599, K ∗ = 0.0847.
62
3. Multivariate Deskription und Exploration
L¨ osung 3.2 (a) Man erh¨ alt die folgende Kontingenztafel inklusive Randh¨aufigkeiten; bei den Werten in Klammern handelt es sich um die absoluten H¨aufigkeiten, wenn Unabh¨ angigkeit vorliegt. Diese werden in der L¨osung von Teilaufgabe (c) ben¨ otigt.
ohne Alkohol mit Alkohol
gut 120 (90) 60 (90) 180
Reaktion mittel stark verz¨ogert 60 20 (80) (30) 100 40 (80) (30) 160 60
200 200 400
Die 400 Personen wurden jeweils zu gleichen Anteilen in die beiden Gruppen mit und ohne Alkohol eingeteilt. Insgesamt zeigten die allermeisten Versuchspersonen eine gute oder mittlere Reaktionszeit. Lediglich 60 (15 Prozent) zeigten eine stark verz¨ ogerte Reaktionszeit. (b) Als bedingte relative H¨ aufigkeitsverteilung, gegeben die Person war alkoholisiert, ergibt sich:
mit Alkohol
gut 0.3
Reaktion mittel stark verz¨ogert 0.5 0.2
1
Entsprechend ermittelt man als bedingte relative H¨aufigkeitsverteilung, gegeben die Person war nicht alkoholisiert:
ohne Alkohol
gut 0.6
Reaktion mittel stark verz¨ogert 0.3 0.1
1
Ein Vergleich der beiden relativen H¨ aufigkeitsverteilungen zeigt, daß die Reaktionszeiten bei alkoholisierten Personen insgesamt schlechter sind als in der Gruppe ohne Alkohol. W¨ ahrend in der Gruppe der nicht alkoholisierten Personen insgesamt 60 Prozent eine gute Reaktionszeit aufweisen, sind dies in der Gruppe der alkoholisierten Gruppe lediglich 30 Prozent. (c) Die Assoziationsmaße berechnen sich als χ2
K K∗
(60 − 80)2 (20 − 30)2 (120 − 90)2 + + + 90 80 30 (60 − 90)2 (100 − 80)2 (40 − 30)2 + + = 36.67, 80 30
90 36.67 = 0.29, = 400 + 36.67 0.29 = = 0.41. =
1 2
3. Multivariate Deskription und Exploration
63
(d) Relative Chancen lassen sich jeweils f¨ ur (2 × 2)–Tafeln berechnen: – F¨ ur die Kategorien der Reaktion gut / mittel ergibt sich 120/60 = 3.33. 60/100
γ=
– F¨ ur die Kategorien gut / stark verz¨ ogert erh¨alt man γ=
120/20 = 4. 60/40
– F¨ ur die Kategorien mittel / stark verz¨ ogert erh¨alt man γ=
60/20 = 1.2. 100/40
L¨ osung 3.3 Die fehlenden Werte ergeben sich unter Beachtung der Unabh¨angigkeit aus den folgenden Berechnungen: f2· = 1 − 0.8 = 0.2, f·1 · 0.8 = 0.16 ⇒ f·1 = 0.2, f21 f22
= 0.2 − 0.16 = 0.04, = 0.2 − 0.04 − 0.06 = 0.1,
f2· · 0.2 = 0.1
⇒
f·2 = 0.5,
f12 f·3
= 0.5 − 0.1 = 0.4, = 1 − 0.2 − 0.5 = 0.3,
f13
= 0.3 − 0.06 = 0.24.
Schließlich erh¨ alt man die vollst¨ andige Tabelle: a1 a2
b1 0.16 0.04 0.2
b2 0.4 0.1 0.5
b3 0.24 0.06 0.3
0.8 0.2 1
64
3. Multivariate Deskription und Exploration
L¨ osung 3.4 (a) Es gilt:
χ2
=
k m (hij − i=1 j=1
= n
hi. h.j 2 n ) hi. h.j n
=
k m n2 (fij − fi. f.j )2 nfi. f.j i=1 j=1
m k (fij − fi. f.j )2 fi. f.j i=1 j=1
(b) Teilaufgabe (a) entnimmt man, daß sich bei Verdoppelung des Stichprobenumfangs auch χ2 verdoppelt.
L¨ osung 3.5 (a) Mit n = 780839 ergeben sich folgende relative H¨aufigkeiten:
Schulart
Hauptschule Realschule Gymnasium
Staatsangeh¨origkeit deutsch ausl¨andisch 0.222 0.187 0.198 0.009 0.371 0.013 0.791 0.209
0.409 0.207 0.384 1
Als Berechnungsbeispiel dient die erste Zelle. Man erh¨alt 173244 780839 = 0.222. (b) Die bedingte Verteilung der Schulart gegeben die Staatsangeh¨origkeit deutsch ist gegeben als
Schulart
Hauptschule Realschule Gymnasium
deutsch absolut relativ 173244 0.281 154255 0.249 290057 0.470 617556 1
F¨ ur die erste Zeile ergibt sich beispielsweise 173244 617556 = 0.281. Die bedingte Verteilung der Schulart unter der Bedingung, daß die Staatsangeh¨ origkeit ausl¨ andisch ist, ergibt sich dagegen als
Schulart
Hauptschule Realschule Gymnasium
ausl¨andisch absolut relativ 145917 0.894 7323 0.045 10043 0.061 163283 1
3. Multivariate Deskription und Exploration
65
Die bedingten Verteilungen der Schulart gegeben die Staatsangeh¨origkeit unterscheiden sich deutlich von der Randverteilung der Schulart. Die Wahl der Schulart h¨ angt also von der Staatsangeh¨origkeit ab: W¨ahrend nur etwa 28 % der deutschen Sch¨ uler die Hauptschule besuchen, sind es unter den ausl¨ andischen fast 90 %. Bei den Gymnasiasten stehen 47 % bei den deutschen Sch¨ ulern nur etwa 6 % bei den ausl¨andischen gegen¨ uber. (c) Die beiden Merkmale “Schulart” und “Staatsangeh¨origkeit” sind nominal skaliert. Damit ist der Kontingenzkoeffizient K bzw. der korrigierte Kontingenzkoeffizient K ∗ ein geeignetes Zusammenhangsmaß. Zur Berechnung von K ∗ wird zun¨ achst die Gr¨oße χ2 basierend auf den ˜ ij ermittelt: unter Unabh¨angigkeit erwarteten Besetzungszahlen h
deutsch 173244 154255 290057 617556
Hauptschule Realschule Gymnasium
ausl. 145917 7323 10043 163283
319161 161578 300100 780839
Unter Unabh¨angigkeit erwartet deutsch ausl. 252420.53 66740.48 127790.06 33787.94 237345.11 62754.51
Als Berechnungsbeispiel dient auch hier wieder die erste Zelle: ˜ 11 = h1. · h.1 = 319161 · 617556 = 252420.53. h n 780839 Damit ist χ2
=
k 3 m 2 ˜ ij )2 (hij − h (hij − ˜hij )2 = ˜ ij ˜ ij h h i=1 j=1
i=1 j=1
2
=
(10043 − 62754.51)2 (173244 − 252420.53) + ... + 252420.53 62754.51 24835.23 + 93929.82 + 5480.81 + 20729.08
=
+11706.77 + 44275.76 200957.47.
=
Daraus ergeben sich K=
χ2 = n + χ2
200957.47 = 0.452 780839 + 200957.47
und mit M = min{k, l} = 2 2 K∗ =
χ n+χ2 M−1 M
K 0.452 = 0.639. = = 0.707 1 2
Es besteht also ein deutlicher Zusammenhang zwischen der Staatsangeh¨ origkeit und der Schulart.
66
3. Multivariate Deskription und Exploration
L¨ osung 3.6 (a) Das Streudiagramm f¨ ur die 13 Kinder hat folgende Gestalt:
Der Korrelationskoeffizient von Bravais-Pearson berechnet sich unter Verwendung der folgenden Hilfsgr¨ oßen: x ¯ = 13
x2i
=
46.15 , y¯ = 4.54 , 13 13 2 35600 , yi = 327 , xi yi = 2950
i=1
i=1
i=1
als 13
xi yi − 13 · x¯y¯
rXY = 13 = 0.3316 . 13 x2 − 13 · x¯2 · y 2 − 13 · y¯2 i=1
i
i=1
i
i=1
3. Multivariate Deskription und Exploration
67
(b) Die Streudiagramme f¨ ur Jungen und M¨ adchen getrennt sind von der folgenden Form:
Der Korrelationskoeffizient von Bravais-Pearson f¨ ur die Jungen berechnet sich unter Verwendung folgender Hilfsgr¨ oßen: x ¯ =
55.71 , y¯ = 5.43 ,
68
3. Multivariate Deskription und Exploration 7
x2i
=
7
26500 ,
i=1
yi2 = 230 ,
i=1
als
7
7
xi yi = 2360
i=1
xi yi − 7 · x¯y¯
rXY = 7 = 0.722. 7 x2 − 7 · x ¯2 · y 2 − 7 · y¯2 i=1
i
i
i=1
i=1
Entsprechend berechnet sich der Korrelationskoeffizient von BravaisPearson f¨ ur die M¨ adchen unter Verwendung folgender Hilfsgr¨oßen: x ¯ 6
x2i
= 35 , y¯ = 3.5 , 6 6 = 9100 , yi2 = 97 , xi yi = 590
i=1
i=1
als
6
i=1
xi yi − 6 · x ¯y¯
rXY = 6 = −0.715. 6 x2 − 6 · x ¯2 · y 2 − 6 · y¯2 i=1
i
i=1
i
i=1
(c) Ohne Ber¨ ucksichtigung des Geschlechts scheint zun¨achst nur ein schwacher Zusammenhang zwischen Aggressivit¨at und Fernsehdauer zu bestehen. Jedoch zeigt Teilaufgabe (b), in der zus¨atzlich zwischen den beiden Geschlechtern unterschieden wird, daß der Zusammenhang nur verdeckt war (verdeckte Korrelation). Dabei scheint bei Jungen eine positive Korrelation zwischen Aggressivi¨ at und Zeitdauer zu bestehen, d.h. je l¨anger gewaltt¨ atige Szenen im Fernsehen angesehen werden, desto gr¨oßer die Aggressivit¨ at. Bei M¨ adchen hingegen besteht genau der umgekehrte Zusammenhang, l¨ angere Zeitdauern vermindern augenscheinlich die Aggressivit¨ at.
3. Multivariate Deskription und Exploration
69
L¨ osung 3.7 (a) Aus den Daten ergibt sich folgendes Streudiagramm: y
6
c
8 7 c
6
c
c c
5 4 3
c
2
c
1
c 1
c c
2
3
4
5
6
7
8
9
10
x
Im Streudiagramm ist ein starker, positiver, linearer Zusammenhang von X und Y zu erkennen. Die Reaktionszeit scheint mit wachsender Dosis des Medikaments zuzunehmen. (b) Betrachtet man das Regressionsmodell yi = α + βxi + i , i = 1, ..., 10, ergeben sich folgende Sch¨ atzer f¨ ur die Regressionsparameter: 262 − 200 62 x y¯ 262 − 10 · 5 · 4 x y − n¯ i 2i = = = 0.72, = βˆ = x2 336 − 10 · 25 336 − 250 86 xi − n¯ α ˆ = y¯ − βˆ x ¯ = 4 − 0.72 · 5 = 4 − 3.6 = 0.4. Damit ergibt sich die gesch¨ atzte Regressionsgerade zu yˆ = 0.4 + 0.72x. Zur Beurteilung der G¨ ute der Anpassung ist das Bestimmtheitsmaß geeignet: 2 R2 = rXY = 0.798 ≈ 0.8, d.h., daß etwa 80 % der Gesamtvarianz durch das Regressionsmodell erkl¨ art werden. Die Anpassung des Modells an die Daten ist also sehr gut. (c) F¨ ur einen Patienten, der mit einer Dosis von 5.5 mg behandelt wird, prognostiziert man eine Reaktionszeit von 0.4+0.72·5.5 = 4.36 Sekunden. (d) Eine Erh¨ ohung der Dosis des Medikaments um 1 mg erh¨oht die Reaktionszeit im Mittel um βˆ = 0.72 Sekunden.
70
3. Multivariate Deskription und Exploration
L¨ osung 3.8 (a) Mit den Daten f¨ ur die zehn Kinder erh¨ alt man folgendes Streudiagramm: Integrationsscore 10 6 c
c 5
c c
c 1 c
c
c
c c
1
5
15 20 Ergebnis Sprachtest
10
(b) Da keine Bindungen vorliegen, kann zur Berechnung des Rangkorrelationskoeffizienten rSP die Kurzformel 6 d2i rSP = 1 − n(n2 − 1) verwendet werden. Mit den Werten der Arbeitstabelle Kind i Rang Sprachtest Rang Integrationsscore |di | d2i
1 9 9 0 0
2 3 1 2 4
3 7 8 1 1
4 5 7 2 4
5 10 10 0 0
6 4 3 1 1
7 1 2 1 1
8 2 4 2 4
9 6 5 1 1
10 8 6 2 4
erh¨ alt man rSP = 1 −
120 6 · 20 = 1− = 1 − 0.12 = 0.88. 10 · 99 990
(c) Hier w¨ are rSP = 1, da ein streng monoton wachsender Zusammenhang vorliegt. Der Korrelationskoeffizient rXY w¨are echt kleiner als rSP (also hier < 1), da die Punkte nicht auf einer Geraden liegen.
3. Multivariate Deskription und Exploration
71
L¨ osung 3.9 (a) Das Streudiagramm unter Ber¨ ucksichtigung aller elf Datenpunkte hat folgende Gestalt:
(b) Unter Ber¨ ucksichtigung der Angabe erh¨ alt man x¯ 11
xi yi
=
10 · 5.5 + 20 10 · 5.396 + 0 = 6.82 , y¯ = = 4.91 , 11 11
= 383.46 + 0 = 383.46 ,
i=1 11
x2i
= 385 + 202 = 785 ,
i=1
11
yi2 = 388.88 + 0 = 388.88
i=1
und damit 11
xi yi − 11 · x¯y¯
rXY = 11 = 0.0844 . 11 x2 − 11 · x¯2 · y 2 − 11 · y¯2 i=1
i
i
i=1
i=1
Zur Berechnung von rSP erstelle man folgende Tabelle: i rg(xi ) rg(yi ) d2i
1 1 1 0
2 2 3 1
3 3 4 1
4 4 5 1
5 5 7 4
6 6 6 0
7 7 9 4
8 8 8 0
9 9 10 1
10 10 11 1
11 11 2 81
72
3. Multivariate Deskription und Exploration
Damit erh¨ alt man: 6· rSP = 1 −
11
d2i
i=1
(112
− 1) · 11
=1−
6 · 94 = 0.573 . (121 − 1) · 11
(c) Augenscheinlich besteht ein starker linearer Zusammenhang zwischen Y und X. Die elfte Beobachtung scheint ein Ausreißer zu sein. Vergleicht man die berechneten Korrelationskoeffizienten, so zeigt sich, daß die Ausreißerbeobachtung einen enormen Einfluß auf den Wert von rXY besitzt. Wird zus¨ atzlich die elfte Beobachtung bei der Berechnung ber¨ ucksichtigt, reduziert sich rXY von 0.9654 zu 0.08844, so daß rXY ¨außerst sensibel auf Ausreißer reagiert. Weitaus unempfindlicher gegen¨ uber Ausreißern verh¨ alt sich der Rangkorrelationskoeffizient nach Spearman. Zwar reduziert sich auch rSP , allerdings weniger drastisch.
L¨ osung 3.10 (a) rXY = rSP = 1 (b)(b1) rXY bleibt positiv, wird aber kleiner, da der perfekte lineare Zusammenhang durch das Quadrieren verloren geht. rSP ¨andert sich nicht, da die yi lediglich monoton transformiert werden (die R¨ange ¨andern sich nicht). (b2) rXY wird etwas kleiner (bleibt aber positiv), da kein perfekter linearer Zusammenhang mehr besteht. Da sich die R¨ange durch die Verschiebung des Punktes nicht ¨ andern, gilt weiterhin rSP = 1. neu neu (b3) rXY = rSP = −1 · rXY = −1. andert, da sich die Vorzeichen¨anderungen (b4) rXY und rSP bleiben unver¨ gegenseitig aufheben.
L¨ osung 3.11
(a) Die Korrelationskoeffizienten berechnen sich wie folgt: rX1 ,Y1
=
rX1 ,Y2
=
rX1 ,Y3
=
rX2 ,Y4
=
5.50 Cov(X1 , Y1 ) √ = √ = 0.82 11.00 4.13 V ar(X1 ) V ar(Y1 ) 5.50 √ √ = 0.82 11.00 4.13 5.50 √ √ = 0.82 11.00 4.12 5.50 √ √ = 0.82 11.00 4.12
3. Multivariate Deskription und Exploration
73
15 10
y2 5 0
0
5
y1
10
15
Da der Korrelationskoeffizient die Intensit¨at des linearen Zusammenhangs zweier Variablen misst, folgern wir, dass in allen vier F¨allen die St¨ arke des linearen Zusammenhangs gleich groß ist. (b) Die geforderten Regressionsgeraden sind in der folgenden Abbildung 3.1 eingezeichnet. Die Streudiagramme zeigen, dass ein linearer Zusammen-
0
5
10
15
20
0
5
10
15
20
15
20
10
y4 5 0
0
5
y3
10
15
x1
15
x1
0
5
10
x1
15
20
0
5
10
x2
Abbildung 3.2. Regressionsgeraden f¨ ur X1 vs. Y1 , X1 vs. Y2 , X1 vs. Y3 und X2 vs. Y4 .
hang lediglich f¨ ur die Variablenpaare (X1 , Y1 ) und (X1 , Y3 ) gegeben ist. Zwischen Y1 und X1 besteht ein starker linearer Zusammenhang. Zwischen X1 und Y3 hingegeben besteht ein perfekter linearer Zusammenhang, der lediglich durch einen Ausreißer gest¨ort ist. Ohne den Ausreißer w¨ urde der Korrelationskoeffizient den Wert 1 annehmen. Zwischen X1 und X2 besteht ein perfekter nichtlinearer (vermutlich quadratischer) Zusammenhang, w¨ ahrend zwischen X2 und Y4 eigentlich kein Zusammenhang besteht. Durch den weit vom Zentrum entfernten Ausreißer entsteht lediglich ein Scheinzusammenhang. Abschließend k¨ onnen wir folgendes Fazit ziehen: Korrelationskoeffizienten und Regressionsgeraden sollten niemals ohne die dazu geh¨orenden Streudiagramme interpretiert werden.
74
3. Multivariate Deskription und Exploration
L¨ osung 3.12 (a) Die KQ-Sch¨ atzer f¨ ur α und β sind gegeben als (Abschnitt 12.1.2 in Fahrmeir et al., 2004) xi yi − n¯ (xi − x ¯)(yi − y¯) x y¯ ˆ = 2 , β = (xi − x¯)2 xi − n¯ x2 α ˆ =
y¯ − βˆx ¯.
Mit den Hilfsgr¨ oßen x ¯ = 90, y¯ = 2.993, 114000 berechnen sich diese als
xi yi = 3345.6,
βˆ =
3345.6 − 10 · 90 · 2.993 651.9 = 0.01975, = 114000 − 10 · 902 33000
α ˆ =
2.993 − 90 · 0.01975 = 1.2155.
x2i =
Die gesch¨ atzte Regressionsgerade lautet somit yˆ = 1.2155 + 0.01975x. (b) Gesucht ist das Bestimmtheitsmaß R2 . Dieses l¨aßt sich berechnen als 2 (b1) R2 = r XY oder (ˆ yi − y¯)2 SQE . = (b2) R2 = 2 SQT (yi − y¯) Der erste Weg scheint hier der schnellere zu sein. Es gilt: rXY
=
sXY sX · sY
1 xi yi n−1 (
− n¯ x y¯) 1 1 x2i − n¯ x2 ) n−1 ( yi2 − n¯ y2) n−1 ( x y¯ xi yi − n¯ = 2 . x2 y2 xi − n¯ yi2 − n¯ 2 2 yi − n¯ y 2 = 12.90821. Damit Mit yi = 102.4887 berechnet man erh¨ alt man insgesamt =
651.9 √ = 0.999, rXY = √ 33000 12.90821 woraus folgt:
R2 = 0.997,
d.h. es werden 99.7 % der Gesamtstreuung durch die Regression erkl¨art, d.h. daß die Zeit, die f¨ ur die Erkennung ben¨otigt wird, fast zu 100 % durch die vorgegebene Drehung vorhergesagt werden kann.
3. Multivariate Deskription und Exploration
75
L¨ osung 3.13 (a) Man erh¨ alt folgendes Streudiagramm: yi 9 8 7 6 5 4 3 2 1
1
2
3
4
xi
(b) Zu bestimmen sind βˆ und α ˆ mit (xi − x xi yi − n¯ ¯)(yi − y¯) x y¯ ˆ β = = 2 , (xi − x¯)2 xi − n¯ x2 α ˆ = y¯ − βˆx ¯. Mit y¯ = 56/8 = 7, x¯ = 24/8 = 3 ergibt sich: βˆ = α ˆ =
170.3 − 168 2.3 170.3 − 8 · 7 · 3 = = = 0.56, 76.1 − 8 · 9 76.1 − 72 4.1 7 − 0.56 · 3 = 5.32
und damit folgende Regressionsgerade: yˆ = 5.32 + 0.56x. F¨ ur x = 3 erh¨ alt man yˆ = 5.32 + 0.56 · 3 = 7. Bei einem Einkommen von 3000 Einheiten w¨ urde man somit ein Geburtsgewicht von 7 Pfund prognostizieren. (c) Das Bestimmtheitsmaß kann beispielsweise als Quadrat des Korrelationskoeffizienten ermittelt werden mit xi yi − n¯ x y¯ rXY = 2 2 2 ( xi − n¯ x )( yi − n¯ y2) 2.3 2.3 = √ √ = 2.025 · 3.464 4.1 12 = 0.33,
76
3. Multivariate Deskription und Exploration
woraus folgt:
2 = R2 = 0.332 = 0.1089. rXY
Das R2 betr¨ agt lediglich 0.1089, d.h. nur 10 % der Variabilit¨at wird durch die Regression erkl¨ art. Insgesamt ist zwar tendenziell ein leichter Zusammenhang zwischen Geburtsgewicht und Einkommen zu sehen. Es ist aber eher anzunehmen, daß auch Variablen, die wiederum auch vom Einkommen abh¨ angen, das Geburtsgewicht beeinflussen.
4 Wahrscheinlichkeitsrechnung
Aufgaben Aufgabe 4.1 Ein Experiment bestehe aus dem Werfen eines W¨ urfels und einer M¨ unze. (a) Geben Sie einen geeigneten Ergebnisraum Ω an. (b) Zeigt die M¨ unze Wappen, so wird die doppelte Augenzahl des W¨ urfels notiert, bei Zahl nur die einfache. Wie groß ist die Wahrscheinlichkeit, daß eine gerade Zahl notiert wird? (L¨osung siehe Seite 83)
Aufgabe 4.2 In einer Gruppe von 150 Studierenden sind 40 im 1. Studienjahr, die H¨alfte der 30 Studierenden im 4. Studienjahr wohnt in M¨ unchen, 26 der 35 im 2. Studienjahr wohnen nicht in M¨ unchen, 8 im 3. Studienjahr wohnen in M¨ unchen und ein Drittel derjenigen, die in M¨ unchen wohnen, ist im 4. Studienjahr. Erstellen Sie aus diesen Angaben eine (2 × 4) Kontingenztafel. Berechnen Sie unter der Annahme, daß jeder Student mit gleicher Wahrscheinlichkeit ausgew¨ ahlt werden kann, die Wahrscheinlichkeiten f¨ ur die folgenden vier Ereignisse: Ein zuf¨ allig ausgew¨ ahlter Student A: wohnt in M¨ unchen B: ist im 2. Studienjahr C: wohnt nicht in M¨ unchen und ist im 3. Studienjahr D: wohnt in M¨ unchen und ist noch nicht im 4. Studienjahr. (L¨osung siehe Seite 83)
78
4. Wahrscheinlichkeitsrechnung
Aufgabe 4.3 Aus einer Grundgesamtheit G = {1, 2, 3, 4} wird eine reine Zufallsstichprobe vom Umfang n = 2 gezogen. Betrachten Sie die beiden F¨alle “Modell mit Zur¨ ucklegen” und “Modell ohne Zur¨ ucklegen”. (a) Listen Sie f¨ ur beide F¨ alle alle m¨ oglichen Stichproben auf. (b) Wie groß ist jeweils f¨ ur ein einzelnes Element die Wahrscheinlichkeit, in die Stichprobe zu gelangen? (c) Wie groß ist jeweils die Wahrscheinlichkeit, daß die Elemente 1 und 2 beide in die Stichprobe gelangen? (L¨osung siehe Seite 84)
Aufgabe 4.4 Wir betrachten drei faire sechsseitige W¨ urfel. Auf den Seiten der drei W¨ urfel sind folgende Augenzahlen aufgedruckt: W¨ urfel A: 6,6,2,2,2,2 W¨ urfel B: 5,5,5,5,1,1 W¨ urfel C: 4,4,4,3,3,3 (a) W¨ urfel B wird zweimal hintereinander geworfen. i) Geben Sie einen geeigneten Ergebnisraum zur Beschreibung dieses Zufallsexperimentes an. Bestimmen Sie die Wahrscheinlichkeiten f¨ ur die Elementarereignisse. ii) Bezeichne S die Zufallsvariable Summe der beiden Augenzahlen“. ” Bestimmen Sie die Wahrscheinlichkeiten P (S = 6) und P (S ≤ 10). (b) Zwei Personen spielen gegeneinander. Jeder Spieler w¨ahlt einen der drei W¨ urfel A, B oder C aus und wirft einmal. Der Spieler mit der h¨ochsten geworfenen Augenzahl gewinnt. Bestimmen Sie die Wahrscheinlichkeiten, dass urfel B i) Spieler 1 gewinnt, wenn Spieler 1 W¨ urfel A und Spieler 2 W¨ gew¨ ahlt hat, ii) Spieler 1 gewinnt, wenn Spieler 1 W¨ urfel B und Spieler 2 W¨ urfel C gew¨ ahlt hat, iii) Spieler 2 gewinnt, wenn Spieler 1 W¨ urfel A und Spieler 2 W¨ urfel C gew¨ ahlt hat. (c) Ist es aufgrund ihrer Ergebnisse aus Aufgabe (b) m¨oglich eine Aussage zu treffen, welcher der drei W¨ urfel der Beste“ ist. ” (L¨osung siehe Seite 84)
4. Wahrscheinlichkeitsrechnung
79
Aufgabe 4.5 Aus einer Gruppe von drei M¨ annern und vier Frauen sind drei Positionen in verschiedenen Kommissionen zu besetzen. Wie groß ist die Wahrscheinlichkeit f¨ ur die Ereignisse, daß mindestens eine der drei Positionen mit einer Frau besetzt wird bzw., daß h¨ ochstens eine der drei Positionen mit einer Frau besetzt wird, (a) falls jede Person nur eine Position erhalten kann? (b) falls jede Person mehrere Positionen erhalten kann? (L¨osung siehe Seite 85)
Aufgabe 4.6 Zeigen Sie: Sind A und B stochastisch unabh¨ angig, dann sind auch A und B stochastisch unabh¨ angig. (L¨osung siehe Seite 86)
Aufgabe 4.7 Eine Gruppe von 60 Drogenabh¨ angigen, die Heroin spritzen, nimmt an einer Therapie teil (A = station¨ ar, A = ambulant). Zudem unterziehen sich die Drogenabh¨ angigen freiwillig einem HIV-Test (B = HIV-positiv, B = HIV-negativ). Dabei stellen sich 45 der 60 Personen als HIV-negativ und 15 als HIV-positiv heraus. Von denen, die HIV-positiv sind, sind 80 % in der station¨ aren Therapie, w¨ ahrend von den HIV-Negativen nur 40 % in der station¨ aren Therapie sind. (a) Formulieren Sie die obigen Angaben als Wahrscheinlichkeiten. (b) Sie w¨ ahlen zuf¨ allig eine der 60 drogenabh¨ angigen Personen aus. Berechnen Sie die Wahrscheinlichkeit, daß diese (b1) an der station¨ aren Therapie teilnimmt und HIV-positiv ist, (b2) an der station¨ aren Therapie teilnimmt und HIV-negativ ist, (b3) an der station¨ aren Therapie teilnimmt. (c) Berechnen Sie P (B|A), und fassen Sie das zugeh¨orige Ereignis in Worte. (d) Welcher Zusammenhang besteht zwischen P (A|B) und P (A), wenn A und B unabh¨angig sind? (L¨osung siehe Seite 87)
80
4. Wahrscheinlichkeitsrechnung
Aufgabe 4.8 An einer Studie zum Auftreten von Farbenblindheit nimmt eine Gruppe von Personen teil, die sich zu 45 % aus M¨ annern (M ) und zu 55 % aus Frauen (M ) zusammensetzt. Man weiß, daß im allgemeinen 6 % der M¨anner farbenblind (F ) sind, d.h. es gilt P (F |M ) = 0.06. Dagegen sind nur 0.5 % der Frauen farbenblind, d.h. P (F |M ) = 0.005. Verwenden Sie diese Information zum Berechnen der Wahrscheinlichkeit, daß eine per Los aus der Gruppe ausgew¨ ahlte Person eine farbenblinde Frau ist, d.h. zum Berechnen von P (F ∩ M ). Bestimmen Sie außerdem P (M ∩ F ), P (M ∩ F ), P (F ) und P (M |F ), und beschreiben Sie die zugeh¨ origen Ereignisse in Worten. (L¨osung siehe Seite 87) Aufgabe 4.9 Um sich ein Bild der Situation des weiblichen wissenschaftlichen Nachwuchses zu machen, befragt die Frauenbeauftragte einer Universit¨at das gesamte weibliche wissenschaftliche Personal. Die 80 Frauen werden danach befragt, ob sie eine Vollzeitbesch¨ aftigung haben (A: Vollzeit, A: Teilzeit), und ob sie ihre Promotion abgeschlossen haben (B: Promotion abgeschlossen, B: Promotion nicht abgeschlossen). Die Ergebnisse der Befragung sind in folgendem Venn-Diagramm dargestellt:
35 ................................................ ................................................................. ........... . . .................. ........ ........................ ........... ....... ....... ........ ........ ...... ...... ....... ....... ..... ..... . .... . . . . . . . . ... ... ... ... ... . . ... . . ... . . ... . . . . .. .. .... .... . ... ... ... .... .. . .. . . . ... ... .. .. . . .... . . .... .. ... . . ..... . . ..... . . . . .. ...... ... ...... ...... ....... ...... ........ ......... ............... .......... ........ .. ... ......... .............. ........................................................... ......................................................................
A
B
20
15
10
Ω (a) Geben Sie die beiden folgenden Ereignisse in Worten wieder, und ermitteln Sie die zugeh¨ origen Anzahlen: (A ∪ B), Ω \ B. (b) Wie groß ist die Wahrscheinlichkeit, daß eine zuf¨allig aus dem wissenschaftlichen Personal ausgew¨ ahlte Frau (b1) eine Vollzeitbesch¨ aftigung hat? (b2) eine Vollzeitbesch¨ aftigung hat und ihre Promotion abgeschlossen hat? (c) Wie groß ist die Wahrscheinlichkeit, daß eine aus dem vollzeitbesch¨aftigten wissenschaftlichen Personal ausgew¨ ahlte Frau ihre Promotion abgeschlossen hat?
4. Wahrscheinlichkeitsrechnung
81
(d) Sind die Ereignisse A und B unabh¨ angig? Begr¨ unden Sie Ihre Antwort. (L¨osung siehe Seite 88)
Aufgabe 4.10 Ein Laboratorium hat einen Alkohol-Test entworfen. Aus den bisherigen Erfahrungen weiß man, daß 60 % der von der Polizei kontrollierten Personen tats¨ achlich betrunken sind. Bez¨ uglich der Funktionsweise des Tests wurde ermittelt, daß – in 95 % der F¨alle der Test positiv reagiert, wenn die Person tats¨achlich betrunken ist, – in 97 % der F¨ alle der Test negativ reagiert, wenn die Person nicht betrunken ist. Wie groß ist die Wahrscheinlichkeit, daß eine Person betrunken ist, wenn der Test positiv reagiert? (L¨osung siehe Seite 88)
Aufgabe 4.11 An den Kassen von Superm¨ arkten und Kaufh¨ausern wird ein zus¨atzliches Ger¨ at bereitgestellt, mit dem die Echtheit von 100 Euro-Scheinen gepr¨ uft werden soll. Aus Erfahrung weiß man, daß 15 von 10000 Scheinen gef¨alscht sind. Bei diesem Ger¨ at wird durch Aufblinken einer Leuchte angezeigt, daß der Schein als falsch eingestuft wird. Es ist bekannt, daß das Ger¨at mit einer Wahrscheinlichkeit von 0.95 aufblinkt, wenn der Schein falsch ist, und mit einer Wahrscheinlichkeit von 0.1, wenn der Schein echt ist. Wie sicher kann man davon ausgehen, daß der 100 Euro-Schein tats¨achlich falsch ist, wenn das Ger¨ at aufblinkt? (L¨osung siehe Seite 89)
Aufgabe 4.12 Jeder Mensch besitzt unver¨ anderliche Blutmerkmale. Man unterscheidet die vier Blutgruppen A, B, AB und 0 und den Rhesusfaktor R+ und R−. Blutgruppe A tritt bei 42 %, B bei 10 %, AB bei 4 % und 0 bei 44 % der Menschen auf. Menschen mit Blutgruppe A und Menschen mit Blutgruppe 0 haben mit Wahrscheinlichkeit 0.85 Rhesusfaktor R+. Dagegen tritt bei Menschen mit Blutgruppe B Rhesusfaktor R+ nur noch mit Wahrscheinlichkeit 0.8 auf und bei Menschen mit Blutgruppe AB sogar nur noch mit Wahrscheinlichkeit 0.75.
82
4. Wahrscheinlichkeitsrechnung
(a) Berechnen Sie mit Hilfe des Satzes von der totalen Wahrscheinlichkeit die Wahrscheinlichkeit f¨ ur das Auftreten des Rhesusfaktors R+. (b) Berechnen Sie mit Hilfe des Satzes von Bayes die Wahrscheinlichkeit, daß ein Mensch mit Rhesusfaktor R+ der Blutgruppe AB angeh¨ort. (L¨osung siehe Seite 89)
4. Wahrscheinlichkeitsrechnung
83
L¨ osungen L¨ osung 4.1 (a) Der Ergebnisraum Ω ist gegeben als Ω
= {(1, W ), (2, W ), (3, W ), (4, W ), (5, W ), (6, W ), (1, Z), (2, Z), (3, Z), (4, Z), (5, Z), (6, Z)}.
1 Damit ist |Ω| = 12 und somit pω = 12 . (b) Das beschriebene Experiment l¨ aßt sich wie folgt in einer Tabelle veranschaulichen: 1 2 3 4 5 6 1 2 3 4 5 6 W W W W W W Z Z Z Z Z Z Ergebnis notierte 2 4 6 8 10 12 1 2 3 4 5 6 Augenzahl
Ist A das Ereignis “Eine gerade Zahl wird geworfen”, d.h. A = {(1, W ), (2, W ), (3, W ), (4, W ), (5, W ), (6, W ), (2, Z), (4, Z), (6, Z)}, dann ist |A| = 9, und es ergibt sich P (A) =
9 3 |A| = = . |Ω| 12 4
L¨ osung 4.2 Als (2 × 4) Kontingenztafel ergibt sich: Studienjahr 2 3 4
Wohnort
1
M¨ unchen
13
9
8
15
45
nicht M¨ unchen
27
26
37
15
105
40
35
45
30
150
Allgemein gilt nach der Abz¨ ahlregel: P (E) = d.h.
P (A) =
# g¨ unstiger Ereignisse |E| = , # m¨ oglicher Ereignisse |Ω|
45 = 0.3, 150 und
35 37 = 0.23, P (C) = = 0.246 150 150 30 13 + 9 + 8 = = 0.2. P (D) = 150 150 P (B) =
84
4. Wahrscheinlichkeitsrechnung
L¨ osung 4.3 (a) Beim Ziehen mit Zur¨ ucklegen ist der Ergebnisraum Ω gegeben als Ω
= {(1, 1), (1, 2), (1, 3), (1, 4), (2, 1), (2, 2), (2, 3), (2, 4), (3, 1), (3, 2), (3, 3), (3, 4), (4, 1), (4, 2), (4, 3), (4, 4)}.
Beim Ziehen ohne Zur¨ ucklegen ergibt sich Ω als Ω
=
{(1, 2), (1, 3), (1, 4), (2, 1), (2, 3), (2, 4), (3, 1), (3, 2), (3, 4), (4, 1), (4, 2), (4, 3)}.
(b) Beim Ziehen mit Zur¨ ucklegen gilt 7 f¨ ur i = 1, 2, 3, 4. 16 F¨ ur das Ziehen ohne Zur¨ ucklegen erh¨ alt man P (i ist in Stichprobe) =
P (i ist in Stichprobe) =
1 6 = 12 2
f¨ ur i = 1, 2, 3, 4.
(c) Zieht man mit Zur¨ ucklegen ist P (1 und 2 sind in Stichprobe) =
2 1 = 16 8
und beim Ziehen ohne Zur¨ ucklegen P (1 und 2 sind in Stichprobe) =
1 2 = . 12 6
L¨ osung 4.4
(a) Als Ergebnisraum ergibt sich Ω = {(1, 1), (1, 5), (5, 1), (5, 5)}. Zur Bestimmung der Wahrscheinlichkeiten f¨ ur die Elementarereignisse berechnen wir zun¨ achst die Wahrscheinlichkeiten f¨ ur die Augenzahlen 1 und 5 bei einmaligem W¨ urfeln. Offenbar gilt P ({1}) = 1/3 und P ({5}) = 2/3. Wegen der Unabh¨ angigkeit der einzelnen W¨ urfe erhalten wir somit 1 3 1 P ({1, 5}) = P ({1}) · P ({5}) = 3 2 P ({5, 1}) = P ({5}) · P ({1}) = 3 2 P ({5, 5}) = P ({5}) · P ({5}) = 3
P ({1, 1}) = P ({1}) · P ({1}) =
1 3 2 · 3 1 · 3 2 · 3 ·
1 , 9 2 = , 9 2 = , 9 4 = . 9 =
4. Wahrscheinlichkeitsrechnung
85
Damit ergeben sich die gesuchten Wahrscheinlichkeiten f¨ ur die Zufallsvariable S zu P (S = 6) = P ({(1, 5), (5, 1)}) =
2 2 4 + = 9 9 9
und P (S ≤ 10) = 1. (b) Die Wahrscheinlichkeiten berechnen sich wie folgt: i) Wir beschreiben das Zufallsexperiment durch geordnete Paare, wobei der erste Eintrag das Ergebnis von Spieler 1 darstellen soll. Der Ergebnisraum ist also gegeben durch Ω = {(2, 1), (2, 5), (6, 5), 6, 1)}. Analog zu Aufgabe a) erhalten wir die Wahrscheinlichkeiten P ({2, 1)}) = 2/9, P ({2, 5)}) = 4/9, P ({6, 5)}) = 2/9 und P ({6, 1)}) = 1/9. Spieler 1 gewinnt bei den Ergebnissen (2, 1), (6, 5) und (6, 1) und wir erhalten P (Spieler 1 gewinnt) = 5/9. ii) Analog zu i) erhalten wir P (Spieler 1 gewinnt) = 6/9. iii In zu ii) analoger Rechnung ergibt sich P (Spieler 2 gewinnt) = 3/9. (c) Den Ergebnissen i) und ii) der Aufgabe b) entnehmen wir, dass W¨ urfel urfel B gegen¨ uber W¨ urfel C u A W¨ urfel B u ¨ berlegen ist und W¨ ¨ berlegen. Eigentlich w¨ urde man erwarten, dass damit auch W¨ urfel A gegen¨ uber W¨ urfel C u ¨ berlegen ist. Die Ergebnisse aus Teil iii) wiedersprechen jedoch dieser (naheliegenden) Vermutung. W¨ urfel C ist W¨ urfel A u ¨ berlegen. Die vorliegenden W¨ urfel besitzen also eine Art Intransitivit¨atseigenschaft. Damit ist der Spieler, der den ersten W¨ urfel w¨ahlt immer im Nachteil, da sein Gegner Unabh¨ angig von der Wahl des ersten Spielers immer einen u urfel aussuchen kann. Entscheidet sich Spieler 1 f¨ ur W¨ urfel ¨ berlegenen W¨ A, so w¨ ahlt Spieler 2 W¨ urfel C. W¨ ahlt Spieler 1 W¨ urfel B so kann sein Gegner W¨ urfel A w¨ ahlen. Wenn Spieler 1 mit W¨ urfel C spielt kann Spieler 2 mit W¨ urfel B werfen.
L¨ osung 4.5 Die Grundgesamtheit ergibt sich hier als G = {M, M, M, F, F, F, F }, und damit ist |G| = 7. Die drei Positionen sind nach dem Zufallsprinzip zu besetzen. Das entspricht einer Ziehung aus G vom Umfang n = 3. (a) Falls jede Person nur eine Position erhalten kann, liegt eine Ziehung ohne Zur¨ ucklegen vor, bei der die Anzahl m¨ oglicher Stichproben berechnet wird als 7! N! = = 7 · 6 · 5 = 210. (N − n)! 4!
86
4. Wahrscheinlichkeitsrechnung
(a1) Bezeichnet man mit A das Ereignis “Mindestens eine der 3 Positionen wird mit einer Frau besetzt”, d.h. “1, 2 oder alle 3 Positionen werden mit einer Frau besetzt”, dann ist das Ereignis A gegeben als “Keine der 3 Positionen wird mit einer Frau besetzt”. Die Anzahl uhren, ergibt sich als Anzahl aller m¨ oglichen Stichproben, die zu A f¨ aller Permutationen der drei M¨ anner, also als 3! = 3 · 2 · 1 = 6. 6 = 0.0286, und es folgt P (A) = 1 − P (A) = Damit ist P (A) = 210 1 − 0.0286 = 0.9714. (a2) Bezeichnet man mit B das Ereignis “H¨ochstens eine der 3 Positionen wird mit einer Frau besetzt”, d.h. “1 oder keine Position wird mit einer Frau besetzt”, dann entspricht B den folgenden Ergebnissen mit der jeweiligen Anzahl von M¨ oglichkeiten: (M, M, M ) : (M, M, F ) :
6 M¨oglichkeiten, 3 · 2 · 4 = 24 M¨oglichkeiten,
(M, F, M ) : (F, M, M ) :
3 · 4 · 2 = 24 M¨oglichkeiten, 4 · 3 · 2 = 24 M¨oglichkeiten.
78 Insgesamt erh¨ alt man: |B| = 78 und damit P (B) = 210 = 0.3714. (b) Falls jede Person mehrere Positionen erhalten kann, liegt eine Ziehung mit Zur¨ ucklegen vor, bei der die Anzahl m¨oglicher Stichproben berechnet wird als N n = 73 = 343. 27 = (b1) Hier ergibt sich f¨ ur |A| = 3 · 3 · 3 = 27 und damit P (A) = 1 − 343 1 − 0.0787 = 0.9213. (b2) B entspricht den folgenden Ergebnissen mit der jeweiligen Anzahl von M¨ oglichkeiten:
(M, M, M ) : 3 · 3 · 3 = 27 M¨oglichkeiten, (M, M, F ) : 3 · 3 · 4 = 36 M¨oglichkeiten, (M, F, M ) : 3 · 4 · 3 = 36 M¨oglichkeiten, (F, M, M ) : 4 · 3 · 3 = 36 M¨oglichkeiten. Insgesamt erh¨ alt man: |B| = 135 und damit P (B) =
135 343
= 0.3936.
L¨ osung 4.6 Zu zeigen ist, daß P (A ∩ B) = P (A)P (B) =⇒ P (A ∩ B) = P (A)P (B). Nun gilt aber: P (A ∩ B) = =
P (B) − P (A ∩ B) = P (B) − P (A)P (B) P (B)[1 − P (A)] = P (B)P (A).
4. Wahrscheinlichkeitsrechnung
87
L¨ osung 4.7 (a) Aus den Angaben ergeben sich folgende Wahrscheinlichkeiten: P (B) = 45 15 60 = 0.75, P (B) = 60 = 0.25, P (A|B) = 0.8 und P (A|B) = 0.4. (b) Die gesuchten Wahrscheinlichkeiten sind (b1) P (A ∩ B) = P (A|B) · P (B) = 0.8 · 0.25 = 0.2, (b2) P (A ∩ B) = P (A|B) · P (B) = 0.4 · 0.75 = 0.3, (b3) P (A) = 0.2 + 0.3 = 0.5. (c) Diese bedingte Wahrscheinlichkeit berechnet sich als: P (B|A) =
0.2 P (A ∩ B) = = 0.4. P (A) 0.5
Eine zuf¨ allig unter den Personen, die in station¨arer Behandlung sind, ausgew¨ ahlte Person ist HIV positiv. (d) Sind A und B unabh¨ angig, dann gilt P (A|B) = P (A).
L¨ osung 4.8 Bezeichnen M das Ereignis “Mann” und F das Ereignis “Farbenblind”. Dann erh¨ alt man aus den Angaben P (M ) = 0.45, P (F |M ) = 0.06, P (M ) = 0.55 und P (F |M ) = 0.005. Daraus berechnet man die gesuchten Wahrscheinlichkeiten wie folgt: – P (F ∩ M ) = P (F |M ) · P (M ) = 0.005 · 0.55 = 0.00275. – M ∩ F : “Eine zuf¨ allig ausgew¨ ahlte Person ist weiblich und nicht farbenblind” mit P (M ∩ F ) = =
P (F ∩ M ) = P (F |M ) · P (M ) = [1 − P (F |M )] · P (M ) (1 − 0.005) · 0.55 = 0.995 · 0.55 = 0.54725.
– M ∩ F : “Eine zuf¨ allig ausgew¨ ahlte Person ist m¨annlich und farbenblind” mit P (M ∩ F ) = P (F |M ) · P (M ) = 0.06 · 0.45 = 0.027. – F : “Eine zuf¨ allig ausgew¨ ahlte Person ist farbenblind” mit P (F )
= P (F |M ) · P (M ) + P (F |M ) · P (M ) = P (F ∩ M ) + P (F ∩ M ) = 0.00275 + 0.027 = 0.02975,
wobei diese Formel zur Berechnung von P (F ) gerade aus dem Satz von der totalen Wahrscheinlichkeit resultiert. – “Eine unter den farbenblinden Personen zuf¨allig ausgew¨ahlte Person ist weiblich” mit P (M |F ) =
P (M ∩ F ) 0.00275 = = 0.09244. P (F ) 0.02975
88
4. Wahrscheinlichkeitsrechnung
L¨ osung 4.9 Betrachtet werden die Ereignisse A: “Vollzeit”, A: “Teilzeit”, B: “Promotion abgeschlossen” und B: “Promotion nicht abgeschlossen”. (a) Die gesuchten Ereignisse und deren Anzahlen lauten: • (A ∪ B) = A ∩ B: “Weibliches wissenschaftliches Personal, das weder die Promotion abgeschlossen noch eine Vollzeitbesch¨aftigung hat” mit |A ∪ B| = 35. • Ω \ B = B: “Weibliches wissenschaftliches Personal, das die Promotion nicht abgeschlossen hat” mit |B| = 50. (b) Die gesuchten Wahrscheinlichkeiten lassen sich direkt mit der Abz¨ahlregel ermitteln als: 35 = 0.4375. (b1) P (Vollzeitbesch¨ aftigung) = P (A) = 80 (b2) P (Vollzeitbesch¨ aftigung und Promotion abgeschlossen) 20 = 0.25. = P (A ∩ B) = 80 (c) Diese bedingte Wahrscheinlichkeit berechnet sich mit Hilfe der Ergebnisse 20/80 20 P (A ∩ B) = = = 0.571. aus (a) als: P (B|A) = P (A) 35/80 35 (d) Will man die Frage beantworten, ob A und B unabh¨angig sind, so ist zu pr¨ ufen, ob P (A ∩ B) = P (A) · P (B) oder ob P (B|A) = P (B). Hier gelten beispielsweise P (A ∩ B) = 0.25 = P (A) · P (B) = 0.4375 · 0.375 = 0.164 und
30 = 0.375 = 0.571 = P (B|A). 80 Also sind die Ereignisse A und B nicht unabh¨angig voneinander. P (B) =
L¨ osung 4.10 Bezeichnen B das Ereignis “Person ist betrunken” und P das Ereignis “Test ist positiv”. Dann ergibt sich aus den Angaben der Aufgabe P (B) = 0.6, P (P |B) = 0.95, P (B) = 0.4, P (P |B) = 0.97 und somit P (P |B) = 0.03. Mit Hilfe des Satzes von Bayes berechnet man daraus: P (B|P ) =
P (P |B) · P (B) P (B ∩ P ) = P (P ) P (P |B) · P (B) + P (P |B) · P (B)
=
0.95 · 0.6 0.57 0.57 = = 0.95 · 0.6 + 0.03 · 0.4 0.57 + 0.012 0.582
=
0.979.
4. Wahrscheinlichkeitsrechnung
89
Damit kann man bei einem positiven Testergebnis mit einer Wahrscheinlichkeit von 97.9 % davon ausgehen, daß die Person tats¨achlich betrunken ist.
L¨ osung 4.11 Bezeichnet man mit A das Ereignis “100 Euro Schein ist falsch” und mit B das Ereignis “Ger¨ at blinkt auf”, dann ergibt sich mit dem Satz von Bayes: P (A|B) =
P (A|B) · P (A) . P (A|B) · P (A) + P (A|B) · P (A)
15 Da hier P (A) = 10000 = 0.0015, P (A) = 1 − P (A) = 0.9985, P (B|A) = 0.95 und P (B|A) = 0.1 gegeben sind, erh¨ alt man
P (A|B)
= =
0.001425 0.95 · 0.0015 = 0.95 · 0.0015 + 0.1 · 0.9985 0.001425 + 0.09985 0.001425 = 0.0141. 0.101275
Blinkt das Ger¨ at, kann man also nur mit einer Sicherheit von 1.4 % davon ausgehen, daß der Schein gef¨ alscht ist.
L¨ osung 4.12 Aus der Angabe entnimmt man folgende Wahrscheinlichkeiten: P (A) = 0.42, P (B) = 0.10, P (AB) = 0.04 und P (0) = 0.44. Zudem erh¨alt man P (R+|A) = 0.85, P (R + |0) = 0.85, P (R + |B) = 0.80 und P (R + |AB) = 0.75. (a) Nach dem Satz von der totalen Wahrscheinlichkeit ergibt sich damit P (R+) = P (R + |A)P (A) + P (R + |B)P (B) + P (R + |AB)P (AB) + P (R + |0)P (0) = 0.85 · 0.42 + 0.8 · 0.1 + 0.75 · 0.04 + 0.85 · 0.44 = 0.357 + 0.08 + 0.03 + 0.374 = 0.841. (b) Der Satz von Bayes liefert dann P (AB|R+) =
P (R + |AB) · P (AB) 0.03 = = 0.036, P (R+) 0.841
d.h. mit einer Wahrscheinlichkeit von 3.6 % kann man bei einem positiven Rhesusfaktor davon ausgehen, daß die betreffende Person Blutgruppe AB hat.
5 Diskrete Zufallsvariablen
Aufgaben Aufgabe 5.1 Sie und Ihr Freund werfen je einen fairen W¨ urfel. Derjenige, der die kleinere Zahl wirft, zahlt an den anderen so viele Geldeinheiten, wie die Differenz der Augenzahlen betr¨agt. Die Zufallsvariable X beschreibt Ihren Gewinn, wobei ein negativer Gewinn f¨ ur Ihren Verlust steht. (a) Bestimmen Sie die Wahrscheinlichkeitsfunktion von X, und berechnen Sie den Erwartungswert. (b) Falls Sie beide die gleiche Zahl w¨ urfeln, wird der Vorgang noch einmal wiederholt, aber die Auszahlungen verdoppeln sich. W¨ urfeln Sie wieder die gleiche Zahl, ist das Spiel beendet. Geben Sie f¨ ur das modifizierte Spiel die Wahrscheinlichkeitsfunktion f¨ ur Ihren Gewinn bzw. Verlust Y an. (L¨osung siehe Seite 100)
Aufgabe 5.2 In einer Urne befinden sich N = 4 Kugeln, welche die Zahlen 2, 4, 8 und 16 tragen. Es werden nach dem Modell mit Zur¨ ucklegen n = 2 Kugeln entnommen. Man definiert die Zufallsvariable X als den Durchschnitt der beiden Zahlen, die die beiden entnommenen Kugeln tragen. (a) Z¨ ahlen Sie die 16 m¨ oglichen Ergebnisse des Zufallsvorgangs in Form von Zahlenpaaren auf, und bestimmen Sie die m¨oglichen Auspr¨agungen von X. (b) Ermitteln Sie die Wahrscheinlichkeits- und die Verteilungsfunktion von X. (c) Bestimmen Sie den Median, das 25 %- und das 75 %- Quantil. (L¨osung siehe Seite 101)
92
5. Diskrete Zufallsvariablen
Aufgabe 5.3 Gegeben ist die Wahrscheinlichkeitsfunktion: x P (X = x)
−1 0.2
1 0.1
2 0.7
(a) Zeichnen Sie die Verteilungsfunktion von X, und berechnen Sie den Erwartungswert und die Standardabweichung von X. (b) Ermitteln Sie die Wahrscheinlichkeitsfunktion von Y = 2 + 4X, und zeichnen Sie die Verteilungsfunktion von Y . (c) Berechnen Sie den Erwartungswert und die Standardabweichung von Y und zwar direkt aus der Verteilung von Y sowie anhand der Ergebnisse u ¨ ber Erwartungswerte und Standardabweichungen von linear transformierten Zufallsvariablen. (L¨osung siehe Seite 102)
Aufgabe 5.4 Die Firma Dr. L. GmbH hat sich auf die Produktion von Statistiklehrb¨ uchern spezialisiert. F¨ ur die Produktion des neuesten Titels Datenfreie Stati” stik“ hat die Firma die Wahl zwischen den zwei Standorten Leipzig und Dresden. Leider h¨ angt die j¨ ahrliche Produktion an B¨ uchern von vielen zuf¨alligen Faktoren ab und kann nicht genau bestimmt werden. Bezeichne L die Zufallsvariable produzierte St¨ uckzahl in Leipzig“ und D die Zufallsvariable ” produzierte St¨ uckzahl in Dresden“. Die beiden folgende Tabellen geben die ” Wahrscheinlichkeitsfunktionen f¨ ur die j¨ ahrliche Produktion in Leipzig und Dresden (in 1000 St¨ uck) an. l P (L = l)
2 0.4
3 0.3
4 0.2
5 0.1
Tabelle 5.1. Wahrscheinlichkeitsfunktion f¨ ur die j¨ ahrliche Produktion (in 1000 St¨ uck) in Leipzig.
d P (D = d)
1 0.1
2 0.4
3 0.4
4 0.1
Tabelle 5.2. Wahrscheinlichkeitsfunktion f¨ ur die j¨ ahrliche Produktion (in 1000 St¨ uck) in Dresden.
(a) Bestimmen Sie f¨ ur beide Standorte die Wahrscheinlichkeit, dass
5. Diskrete Zufallsvariablen
93
– mehr als 3000 B¨ ucher produziert werden. – mindestens 4000 B¨ ucher produziert werden. – zwischen 3400 und 4500 B¨ ucher produziert werden. (b) Bestimmen Sie f¨ ur beide Standorte die erwartete Anzahl an produzierten B¨ uchern. (c) F¨ ur welchen Standort entscheiden Sie sich, wenn Sie die erwartete Anzahl an produzierten B¨ uchern maximieren wollen. (d) Die Kosten f¨ ur jedes produzierte Buch sind f¨ ur die beiden Standorte unterschiedlich. In Leipzig entstehen 11 Euro pro Buch, in Dresden entstehen nur 60 Prozent der Kosten in Leipzig. Jedes produzierte Buch bringt einen Erl¨ os von 15 Euro. F¨ ur welchen Standort entscheiden Sie sich, wenn Sie den erwarteten j¨ ahrlichen Gewinn maximieren wollen (genaue Begr¨ undung)? (L¨osung siehe Seite 104)
Aufgabe 5.5 Aus einer Urne mit 4 Kugeln, die die Zahlen −3, −1, 1 und 3 tragen, wird zweimal mit Zur¨ ucklegen gezogen. Man bestimme die Verteilung der Summe der Zahlen auf den gezogenen Kugeln ( = X). (a) Wie groß ist die Wahrscheinlichkeit, daß die Summe echt positiv ist? (b) Wie lautet die Verteilung von Z = X 2 ? (c) Sei Y die Zufallsgr¨ oße “Summe der quadrierten Zahlen auf den gezogenen Kugeln”. Wie lautet die Verteilung von Y ? (d) Wie groß ist die Wahrscheinlichkeit, daß Y echt gr¨oßer X 2 ist? (L¨osung siehe Seite 105)
Aufgabe 5.6 Die diskrete Zufallsvariable X kann nur die ganzzahligen Werte zwischen −3 und +4 annehmen. Ihre Verteilungsfunktion F (x) lautet an diesen Werten: x F (x)
−3 0.05
−2 0.15
−1 0.30
0 0.40
1 0.65
2 0.85
3 0.95
4 1
(a) Bestimmen Sie die Wahrscheinlichkeiten P (−1 < X ≤ 3), P (−1 < X < 3), P (−1 ≤ X < 3) und P (−1 ≤ X ≤ 3). (b) Bestimmen Sie die Verteilungsfunktion von Y = X 2 . (L¨osung siehe Seite 107)
94
5. Diskrete Zufallsvariablen
Aufgabe 5.7 Sei X eine diskrete Zufallsvariable mit Wahrscheinlichkeitsfunktion f (x) und Verteilungsfunktion F (x). Sei ferner der geordnete Wertebereich von X gleich x1 < x2 < . . . < xn . Sind die folgenden Aussagen richtig oder falsch? (a) Unter Umst¨ anden kann f (xi ) < 0 sein. f (xi ). (b) F (x) = xi x) = 1 − F (x). (d) F (xi ) = 1. xi
(e) Ist xi < xj so ist F (xi ) ≤ F (xj ). ur i = 2, . . . , n. (f) f (xi ) = F (xi ) − F (xi−1 ) f¨ ur alle i = 1, . . . , n. (g) f (xi ) < F (xi ) f¨ (h) f (x1 ) = F (x1 ). (L¨osung siehe Seite 107)
Aufgabe 5.8 Zwei faire W¨ urfel werden unabh¨ angig voneinander geworfen. Bezeichne X1 die Augenzahl des ersten und X2 die des zweiten W¨ urfels. Geben Sie f¨ ur die daraus abgeleiteten Zufallsvariablen Y und Z zuerst jeweils den Tr¨ager TY und TZ an. Sind Y und Z stochastisch unabh¨angig oder abh¨angig? (a) Y = X1 , Z = 2 · X2 . (b) Y = X1 , Z = X1 + X2 . (c) Y = X1 + X2 , Z = X1 − X2 . (L¨osung siehe Seite 108)
Aufgabe 5.9 Sind die beiden Zufallsvariablen X und Y , die die Augensumme bzw. die Differenz beim Werfen zweier fairer W¨ urfel angeben, unabh¨angig? (L¨osung siehe Seite 109)
Aufgabe 5.10 Berechnen Sie den Erwartungswert und die Varianz der diskreten Gleichverteilung auf dem Tr¨ ager T = {a, a + 1, a + 2, . . . , b − 2, b − 1, b}. (L¨osung siehe Seite 109)
5. Diskrete Zufallsvariablen
95
Aufgabe 5.11 Bestimmen Sie den Median der geometrischen Verteilung mit dem Parameter π = 0.5. Vergleichen Sie Ihr Resultat mit dem Erwartungswert dieser Verteilung. Was folgt gem¨ aß der Lageregel f¨ ur die Gestalt des Wahrscheinlichkeitshistogramms? Skizzieren Sie das Wahrscheinlichkeitshistogramm, um Ihre Aussage zu u ufen. ¨ berpr¨ (L¨osung siehe Seite 110)
Aufgabe 5.12 Sei X eine diskrete Zufallsvariable mit Erwartungswert E(X) und Varianz V ar(X). Sei ferner der geordnete Wertebereich von X gleich x1 < x2 < . . . < xn . Sind die folgenden Aussagen richtig oder falsch? (a) V ar(X) ≥ 0. (b) E(X) ≥ x1 . (c) V ar(X) ≥ x1 . (d) V ar(X) ≥ E(X). (e) V ar(X) ≤ E(X 2 ). (f) V ar(X) ≤ E(X)2 . (L¨osung siehe Seite 111)
Aufgabe 5.13 Sei X eine diskrete, um null symmetrische Zufallsvariable. Zeigen Sie, daß dann E(X) = 0 gilt. Verallgemeinern Sie diese Aussage auf Zufallsvariablen, die um einen Punkt c symmetrisch sind. (L¨osung siehe Seite 112)
Aufgabe 5.14 Welche Verteilungen besitzen die folgenden Zufallsvariablen: (a) Die Anzahl der Richtigen beim Lotto “6 aus 49” (X1 ). (b) Die Anzahl der Richtigen beim Fußballtoto, wenn alle Spiele wegen unbespielbarem Platz ausfallen und die Ergebnisse per Los ermittelt werden (X2 ). (c) Die Anzahl von Telephonanrufen in einer Auskunftstelle w¨ahrend einer Stunde (X3 ).
96
5. Diskrete Zufallsvariablen
(d) In einer Urne mit 100 Kugeln befinden sich 5 rote Kugeln. X4 sei die Anzahl der roten Kugeln in der Stichprobe, wenn 10 Kugeln auf einen Schlag entnommen werden. (e) Die Anzahl der Studenten, die den Unterschied zwischen der Binomialund der hypergeometrischen Verteilung verstanden haben, unter 10 zuf¨ allig ausgew¨ ahlten H¨ orern einer Statistikveranstaltung, an der 50 Studenten teilnehmen (X5 ). (f) Die St¨ uckzahl eines selten gebrauchten Produkts, das bei einer Lieferfirma an einem Tag nachgefragt wird (X6 ). (L¨osung siehe Seite 112)
Aufgabe 5.15 Eine Teetrinkerin behauptet schmecken zu k¨ onnen, ob der Tee beim Eingießen auf die Milch gegeben wurde oder umgekehrt. Sie erkl¨art sich auch zu einem Experiment bereit. Eine Person f¨ ullt zehn Tassen mit Milch und Tee. Bei jeder Tasse entscheidet sie rein zuf¨ allig, ob zuerst die Milch oder zuerst der Tee in die Tasse gegeben wird. Nachdem alle Tassen gef¨ ullt sind, wird die Teetrinkerin ins Zimmer gelassen und darf probieren. Nehmen Sie an, sie r¨ at nur und tippt bei jeder Tasse (jeweils unabh¨angig von den anderen) mit Wahrscheinlichkeit 0.5 auf die richtige Reihenfolge von Tee und Milch. Wie groß ist dann die Wahrscheinlichkeit, daß sie mindestens achtmal richtig tippt? (L¨osung siehe Seite 113)
Aufgabe 5.16 In einer T¨ ute befinden sich zehn Pralinen: vier aus Nougat und sechs aus Marzipan. Hein, der absolut keine Nougat-Pralinen mag, darf nun drei Pralinen zuf¨ allig (ohne Zur¨ ucklegen) ausw¨ ahlen. (a) Wie ist die Anzahl X gezogener Marzipan-Pralinen verteilt? Wieviele Marzipan-Pralinen kann Hein erwarten? Wie groß ist die Wahrscheinlichkeit, daß Hein (b) genau 3 Marzipan-Pralinen zieht? (c) mindestens 1 Marzipan-Praline zieht? (L¨osung siehe Seite 113)
5. Diskrete Zufallsvariablen
97
Aufgabe 5.17 Ein Student, der keine Zeit hat, sich auf einen 20-Fragen-Multiple-ChoiceTest vorzubereiten, beschließt, bei jeder Frage aufs Geratewohl zu raten. Dabei besitzt jede Frage f¨ unf Antwortm¨ oglichkeiten. (a) Welche Verteilung hat die Zufallsvariable, die die Anzahl der richtigen Antworten angibt? Wieviele Fragen wird der Student im Mittel richtig beantworten? (b) Der Test gilt als bestanden, wenn zehn Fragen richtig beantwortet sind. Wie groß ist die Wahrscheinlichkeit des Studenten, den Test zu bestehen? Wo m¨ ußte die Grenze liegen, wenn die Chance des Studenten, die Klausur durch Raten zu bestehen, gr¨ oßer als 5 % sein soll? (L¨osung siehe Seite 114)
Aufgabe 5.18 Ein Großh¨ andler versorgt acht Gesch¨ afte, von denen jedes eine Bestellung f¨ ur den n¨ achsten Tag unabh¨ angig vom anderen Gesch¨aft mit Wahrscheinlichkeit π = 0.3 aufgibt. (a) Wie viele Bestellungen laufen mit gr¨ oßter Wahrscheinlichkeit ein? (b) Mit welcher Wahrscheinlichkeit weicht die Zahl der Bestellungen um h¨ ochstens eine vom wahrscheinlichsten Wert ab? (c) Der Großh¨ andler kann an einem Tag nicht mehr als sechs Gesch¨afte p¨ unktlich beliefern. Die anderen Gesch¨ afte erhalten die Lieferung versp¨ atet. (c1) Wie wahrscheinlich ist es, daß nicht alle Gesch¨afte p¨ unktlich beliefert werden k¨onnen? (c2) Wieviele Gesch¨ afte erhalten die Lieferung im Schnitt zu sp¨at? (L¨osung siehe Seite 114)
Aufgabe 5.19 Bei einem Fußballspiel kommt es nach einem Unentschieden zum Elfmeterschießen. Zun¨ achst werden von jeder Mannschaft f¨ unf Elfmeter geschossen, wobei eine Mannschaft gewinnt, falls sie h¨ aufiger getroffen hat als die andere. Nehmen Sie an, daß die einzelnen Sch¨ usse unabh¨angig voneinander sind und jeder Sch¨ utze mit einer Wahrscheinlichkeit von 0.8 trifft. Wie groß ist unf pro Mannschaft) zu die Wahrscheinlichkeit, daß es nach zehn Sch¨ ussen (f¨ einer Entscheidung kommt? (L¨osung siehe Seite 115)
98
5. Diskrete Zufallsvariablen
Aufgabe 5.20 Aus Erfahrung weiß man, daß die Wahrscheinlichkeit daf¨ ur, daß bei einem Digitalcomputer eines bestimmten Typus w¨ ahrend 12 Stunden kein Fehler auftritt, 0.7788 betr¨ agt. (a) Welche Verteilung eignet sich zur n¨ aherungsweisen Beschreibung der Zufallsvariable X = Anzahl der Fehler, die w¨ahrend 12 Stunden auftreten? (b) Man bestimme die Wahrscheinlichkeit daf¨ ur, daß w¨ahrend 12 Stunden mindestens zwei Fehler auftreten. (c) Wie groß ist die Wahrscheinlichkeit, daß bei vier (voneinander unabh¨angigen) Digitalcomputern desselben Typus w¨ahrend 12 Stunden genau ein Fehler auftritt? (L¨osung siehe Seite 115)
Aufgabe 5.21 Von den 20 Verk¨ auferinnen eines mittelgroßen Gesch¨aftes sind vier mit l¨angeren Laden¨ offnungszeiten einverstanden. Ein Journalist befragt f¨ ur eine Do¨ ¨ kumentation der Einstellung zu einer Anderung der Offnungszeiten f¨ unf Angestellte, die er zuf¨ allig ausw¨ ahlt. Wie groß ist die Wahrscheinlichkeit, daß ¨ sich keine der Befragten f¨ ur l¨ angere Offnungszeiten ausspricht? Mit welcher Wahrscheinlichkeit sind genau bzw. mindestens zwei der ausgew¨ahlten Angestellten bereit, l¨ anger zu arbeiten? (L¨osung siehe Seite 116)
Aufgabe 5.22 Zeigen Sie f¨ ur zwei unabh¨ angige bin¨ are Zufallsvariablen X ∼ B(1, π) und Y ∼ B(1, ρ) die Linearit¨ at von Erwartungswert und Varianz: E(X + Y ) = E(X) + E(Y ) ,
V ar(X + Y ) = V ar(X) + V ar(Y )
sowie die Produktregel f¨ ur Erwartungswerte: E(X · Y ) = E(X) · E(Y ). (L¨osung siehe Seite 116)
5. Diskrete Zufallsvariablen
99
Aufgabe 5.23 Eine diskrete Zufallsvariable X nimmt nur die Werte 0, 1 oder 2 an. Die Wahrscheinlichkeitsfunktion f (x) = P (X = x) von X h¨angt von einem Parameter θ ∈ [0, 1] ab: P (X = 0) = 0.36, P (X = 1) = 0.64 · θ, P (X = 2) = 0.64 · (1 − θ). F¨ ur welchen Wert von θ ist X binomialverteilt? (L¨osung siehe Seite 118)
Aufgabe 5.24 F¨ ur welchen Wert von π hat eine binomialverteilte Zufallsvariable X ∼ B(n, π) bei festem n maximale Varianz? (L¨osung siehe Seite 118)
Aufgabe 5.25 Eine R¨ uckversicherung will die Pr¨ amien f¨ ur Versicherungen gegen Großunf¨ alle kalkulieren. Aus Erfahrung weiß sie, daß im Mittel 3.7 bzw. 5.9 Großunf¨ alle im Winter- bzw. Sommerhalbjahr vorfallen. (a) Welche Verteilungsannahme erscheint f¨ ur die Zufallsvariablen X
= Anzahl der Großunf¨ alle im Winterhalbjahr
Y
= Anzahl der Großunf¨ alle im Sommerhalbjahr
sinnvoll? (b) Wie wahrscheinlich ist es, daß im Winterhalbjahr nicht mehr als zwei Großunf¨ alle vorfallen? Wie wahrscheinlich ist es im Sommerhalbjahr? (c) Wie wahrscheinlich ist es, daß sowohl im Winter- als auch im Sommerhalbjahr nicht mehr als zwei Großunf¨ alle vorfallen? Welche Annahme unterstellen Sie dabei? (L¨osung siehe Seite 118)
100
5. Diskrete Zufallsvariablen
L¨ osungen L¨ osung 5.1 Ein geeigneter Ergebnisraum ist Ω={
(1, 1), (2, 1), (3, 1), (4, 1), (5, 1), (6, 1),
(1, 2), (2, 2), (3, 2), (4, 2), (5, 2), (6, 2),
(1, 3), (2, 3), (3, 3), (4, 3), (5, 3), (6, 3),
(1, 4), (2, 4), (3, 4), (4, 4), (5, 4), (6, 4),
(1, 5), (2, 5), (3, 5), (4, 5), (5, 5), (6, 5),
(1, 6), (2, 6), (3, 6), (4, 6), (5, 6), (6, 6) }
mit |Ω| = 62 = 36. (a) Abz¨ ahlen liefert die Wahrscheinlichkeitsfunktion in Tabellenform: x P (X = x)
–5
–4
–3
–2
–1
0
1
2
3
4
5
1 36
2 36
3 36
4 36
5 36
6 36
5 36
4 36
3 36
2 36
1 36
F¨ ur den Erwartungswert gilt: E(X) = −5 ·
2 1 1 −4· + ...+ 5 · = 0. 36 36 36
(b) Es gilt: P (Y = −10) = P (Y = −8)
=
P (Y = −6)
=
P (Y = −5)
=
P (Y = −4)
=
P (Y = −3)
=
P (Y = −2)
=
P (Y = −1)
=
P (Y = 0)
=
1· 1 6 36 1· 2 6 36 1· 3 6 36 1 36 2 1 36 + 6 3 36 4 1 36 + 6 5 36 1 1 36 · 6
= = = = 4 · 36
= =
5 · 36
= = =
1 216 2 216 3 216 6 216 16 216 18 216 29 216 30 216 6 216
=
P (X = 10)
=
P (X = 8)
=
P (X = 6)
=
P (X = 5)
=
P (X = 4)
=
P (X = 3)
=
P (X = 2)
=
P (X = −1)
5. Diskrete Zufallsvariablen
101
L¨ osung 5.2 Die Urne enth¨ alt vier Kugeln mit den Zahlen 2, 4, 8, 16. Daraus wird zweimal mit Zur¨ ucklegen gezogen, d.h. G = {2, 4, 8, 16}, N = 4 und n = 2. Dabei interessiert die Variable X = Durchschnitt der Zahlen der beiden entnommenen Kugeln. (a) Der Ergebnisraum ist gegeben als Ω
{(2, 2), (2, 4), (2, 8), (2, 16), (4, 2), (4, 4), (4, 8), (4, 16),
=
(8, 2), (8, 4), (8, 8), (8, 16), (16, 2), (16, 4), (16, 8), (16, 16)}. Damit besitzt X folgende Auspr¨agungen: 2, 3, 4, 5, 6, 8, 9, 10, 12, 16. (b) Die Wahrscheinlichkeits- und die Verteilungsfunktion von X lauten: x
2
3
4
5
6
8
9
10
12
16
P (X = x)
1 16
2 16
1 16
2 16
2 16
1 16
2 16
2 16
2 16
1 16
F (x)
1 16
3 16
4 16
6 16
8 16
9 16
11 16
13 16
15 16
1.
(c) • Bestimme den Median x0.5 mit P (X ≤ x0.5 ) ≥ 0.5 und P (X ≥ x0.5 ) ≥ 1 − 0.5 = 0.5. Dazu betrachte zun¨ achst x = 6: 8 = 0.5 und P (X ≥ 6) = 10 Hier gelten P (X ≤ 6) = 16 16 ≥ 0.5. 9 F¨ ur x = 8 erh¨ alt man entsprechend P (X ≤ 8) = 16 ≥ 0.5 und P (X ≥ 8 8) = 16 = 0.5. Der Median ist also nicht eindeutig bestimmt. Alle Zahlen zwischen 6 und 8 sind Median. Per Konvention w¨ahlt man den kleinsten Wert, d.h. x0.5 = 6. • Bestimme x0.25 mit P (X ≤ x0.25 ) ≥ 0.25 und P (X ≥ x0.25 ) ≥ 1 − 0.25 = 0.75. Betrachte zun¨ achst x = 4: 4 Hier gelten P (X ≤ 4) = 16 = 0.25 und P (X ≥ 4) = 13 16 = 0.8125 > 0.75. 6 = 0.375 ≥ F¨ ur x = 5 erh¨ alt man entsprechend P (X ≤ 5) = F (5) = 16 12 0.25 und P (X ≥ 5) = 16 = 0.75. Damit sind alle Zahlen zwischen 4 und 5 unteres Quartil; w¨ahle per Konvention x0.25 = 4. • Bestimme x0.75 mit P (X ≤ x0.75 ) ≥ 0.75 und P (X ≥ x0.75 ) ≥ 1 − 0.75 = 0.25. Betrachte zun¨ achst x = 10: Hier gelten P (X ≤ 10) = F (10) = 13 16 = 0.8125 ≥ 0.75 und P (X ≥ 5 = 0.3125 ≥ 0.25. Das obere Quartil ist eindeutig: x0.75 = 10. 10) = 16
102
5. Diskrete Zufallsvariablen
L¨ osung 5.3 (a) Die Verteilungsfunktion von X lautet −1 0.2 0.2
x P (X = x) F (x)
1 0.1 0.3
2 0.7 1
und hat folgende graphische Darstellung: F (x)
6
1
s
........................................................................
0.5 s .s .......................................................................c
c
....................................
0.3 0.2
c −1
....................................
−2
0
1
2
3
x
Der Erwartungswert von X ergibt sich als E(X) =
∞
xi · P (X = xi ) =
i=1
=
3
xi · P (X = xi )
i=1
−1 · 0.2 + 1 · 0.1 + 2 · 0.7 = 1.3.
Die Varianz von X ist gegeben als: V ar(X) = mit
2
E(X ) =
E(X 2 ) − [E(X)]2 1 · 0.2 + 1 · 0.1 + 4 · 0.7 = 3.1.
Damit ergibt sich die Varianz von X zu V ar(X) = 3.1 − 1.32 = 1.41, und man erh¨ alt f¨ ur die Standardabweichung von X: V ar(X) = 1.187.
5. Diskrete Zufallsvariablen
103
(b) Mit Y = 2 + 4X ergibt sich f¨ ur die Wahrscheinlichkeits- und Verteilungsfunktion von Y y P (Y = y) F (y)
−2 0.2 0.2
6 0.1 0.3
10 0.7 1
und die folgende graphische Darstellung der Verteilungsfunktion F (y) 1
6
s
......................................................
0.5 0.3 0.2
s .s ..............................................................................................................................................c
c
......................................................
c −2
..................
0 1
5 6
10
y
(c) Die Berechnung von E(Y ) und V ar(Y ) kann • zum einen u ¨ ber die Verteilung von Y erfolgen: E(Y ) = 2
E(Y ) = Damit ist V ar(Y ) = und V ar(Y ) =
−2 · 0.2 + 6 · 0.1 + 10 · 0.7 = 7.2, 4 · 0.2 + 36 · 0.1 + 100 · 0.7 = 74.4. 74.4 − (7.2)2 = 22.56 4.75.
• und zum anderen anhand der Ergebnisse f¨ ur X: E(Y ) =
2 + 4 · E(X) = 2 + 4 · 1.3 = 7.2,
V ar(Y ) = V ar(Y ) =
16 · V ar(X) = 16 · 1.41 = 22.56, 4 · V ar(X) = 4 · 1.187 = 4.75.
104
5. Diskrete Zufallsvariablen
L¨ osung 5.4
(a) F¨ ur Leipzig erh¨ alt man P (L > 3) = P (L = 4) + P (L = 5) = 0.2 + 0.1 = 0.3, P (L ≥ 4) = P (L = 4) + P (L = 5) = 0.3, P (3.4 ≤ L ≤ 4.5) = P (L = 4) = 0.2. Entsprechend ergibt sich f¨ ur Dresden: P (D > 3) = P (D = 4) = 0.1, P (D ≥ 4) = P (D = 4) = 0.1, P (3.4 ≤ D ≤ 4.5) = P (D = 4) = 0.1. (b) Es gilt: E(L) =
E(D)
2 · P (L = 2) + 3 · P (L = 3) + 4 · P (L = 4) + 5 · P (L = 5)
= =
2 · 0.4 + 3 · 0.3 + 4 · 0.2 + 5 · 0.1 3
=
1 · P (D = 1) + 2 · P (D = 2) + 3 · P (D = 3) + 4 · P (D = 4)
= =
1 · 0.1 + 2 · 0.4 + 3 · 0.4 + 4 · 0.1 2.5
In Leipzig werden also im Durchschnitt 3000 B¨ ucher hergestellt, in Dresden 2500. (c) Die erwartete Produktionsmenge ist in Leipzig h¨oher als in Dresden. Daher entscheidet man sich f¨ ur Leipzig. (d) Bezeichne GL die Zufallsvariable Gewinn in Leipzig“ und GD die Zu” fallsvariable Gewinn in Dresden“. Es gilt: ” GL = (15 − 11) · 1000 · L = 4000 · L E(GL) = =
4000 · E(L) = 4000 · 3 12000 Euro
und GD E(GD)
= (15 − 0.6 · 11) · 1000 · D = 8400 · D = 8400 · E(D) = 8400 · 2.5 = 21000 Euro.
5. Diskrete Zufallsvariablen
105
Da der erwartete Gewinn in Dresden h¨ oher ist, entscheiden wir uns f¨ ur Dresden. L¨ osung 5.5 Ein geeigneter Ergebnisraum ist Ω={
(−3, −3), (−1, −3), (+1, −3), (+3, −3),
(−3, −1), (−1, −1), (+1, −1), (+3, −1),
(−3, +1), (−1, +1), (+1, +1), (+3, +1),
(−3, +3), (−1, +3), (+1, +3), (+3, +3) }
mit |Ω| = 42 = 16. (a) Die Wahrscheinlichkeitsfunktion von X erh¨alt man mit folgender Tabelle: x
–6 (−3, −3)
P (X = x)
–4 (−3, −1) (−1, −3)
–2 (−3, 1) (1, −3) (−1, −1)
1
2
3
0 (−3, 3) (3, −3) (−1, 1) (1, −1) 4
1 16
2 16
3 16
4 16
2 (3, −1) (−1, 3) (1,1) 3
2
1
3 16
2 16
1 16
Damit folgt P (X > 0) =
2 1 6 3 + + = . 16 16 16 16
(b) Es gilt 2, P (X = 6) + P (X = −6) = 16 4, P (Z = 16) = P (X = 4) + P (X = −4) = 16 6, P (Z = 4) = P (X = 2) + P (X = −2) = 16 4. P (Z = 0) = P (X = 0) = 16 Damit erh¨ alt man als Wahrscheinlichkeitsfunktion ⎧ 2 f¨ ur z = 36 ⎪ ⎪ 16 ⎪ ⎪ ⎪ ⎨ 4 f¨ ur z = 16 16 f (z) = 6 ⎪ f¨ ur z = 4 ⎪ 16 ⎪ ⎪ ⎪ ⎩ 4 f¨ ur z = 0 16 P (Z = 36) =
4 (3, 1) (1,3)
6 (3, 3)
106
5. Diskrete Zufallsvariablen
und als Verteilungsfunktion ⎧ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎨ F (z) =
⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎩
0 f¨ ur 4 16 10 16 14 16
−∞
0
=
0.
Sei Y eine diskrete Zufallsvariable und symmetrisch um c. Dann gilt: Z = Y − c ist symmetrisch um 0 und E(Z) = 0 = E(Y − c) = E(Y ) − c, woraus E(Y ) = c folgt.
L¨ osung 5.14 (a) Da die Lottozahlen ohne Zur¨ ucklegen gezogen werden, gilt X1 ∼ H(6, 6, 49). (b) Da die Einzelergebnisse voneinander unabh¨angig sind und die Wahrscheinlichkeit, ein Einzelergebnis richtig zu tippen, jeweils 1/3 betr¨agt, gilt X2 ∼ B(11, 1/3). (c) Falls eher selten angerufen wird, ist, da die einzelnen Anrufe als unabh¨ angig angesehen werden k¨ onnen, X3 P o(λ)-verteilt. Dabei ist λ die mittlere Anzahl von Anrufen pro Stunde. (d) Ziehen auf einen Schlag entspricht dem Modell ohne Zur¨ ucklegen, d.h. X4 ∼ H(10, 5, 100). (e) Befragungen entsprechen in der Regel dem Ziehen ohne Zur¨ ucklegen, d.h. orer den Unterschied verstanden haben. X5 ∼ H(10, M, 50), wobei M H¨ (f) Ist λ die Anzahl, die im Mittel an einem Tag nachgefragt wird, dann gilt X6 ∼ P o(λ).
5. Diskrete Zufallsvariablen
113
L¨ osung 5.15 Mindestens acht richtige Tips sind gleichbedeutend mit h¨ochstens zwei falschen Tips. Die Anzahl X der falschen Tips unter den zehn Versuchen ist hier aufgrund der Unabh¨ angigkeit binomialverteilt mit den Parametern π = 0.5 (Wahrscheinlichkeit f¨ ur einen falschen Tip in einem Versuch) und n = 10 (Anzahl der Versuche insgesamt). Damit ist die Wahrscheinlichkeit, daß h¨ ochstens zwei Tips falsch sind, gegeben durch: P (X ≤ 2) = P (X = 0) + P (X = 1) + P (X = 2). Mit Hilfe der Binomialverteilung ergeben sich diese Wahrscheinlichkeiten als 10 P (X = 0) = 0.50 · 0.510 = 0.000977, 0 10 P (X = 1) = 0.51 · 0.59 = 0.009766, 1 10 P (X = 2) = 0.52 · 0.58 = 0.043945. 2 Und damit ist schließlich P (X ≤ 2) = 0.054688. Alternativ erh¨ alt man dieses Ergebnis direkt mit der Verteilungsfunktion der Binomialverteilung (Tabelle B in Fahrmeir et al., 2004): P (X ≤ 2) = F (2) = 0.054688.
L¨ osung 5.16 (a) Da hier ohne Zur¨ ucklegen gezogen wird, ist die Anzahl X der gezogenen Marzipan-Pralinen hypergeometrisch verteilt mit den Parametern n = 3 (Anzahl der Z¨ uge), M = 6 (Anzahl der Marzipan-Pralinen in der T¨ ute) und N = 10 (Anzahl der Pralinen insgesamt). 6 Der Erwartungswert von X ist gegeben durch E(X) = n· M N = 3· 10 = 1.8. Hein kann also im Schnitt mit 1.8 Marzipan-Pralinen rechnen. (b) Mit Hilfe der hypergeometrischen Verteilung ergibt sich die Wahrscheinlichkeit, genau drei Marzipan-Pralinen zu ziehen, als 64 M N −M P (X = 3) =
3
N 0 n
= 3100 = 0.167. 3
114
5. Diskrete Zufallsvariablen
(c) Die Wahrscheinlichkeit, mindestens eine Marzipan-Praline zu ziehen, berechnet sich als: 64 P (X ≥ 1) = 1 − P (X < 1) = P (X = 0) = 1 − 0103 = 0.967. 3
L¨ osung 5.17 (a) Die Zufallsvariable X = Anzahl der richtigen Antworten ist binomialverteilt mit den Parametern n = 20 und π = 0.2. Es gilt E(X) = 20 · 0.2 = 4. (b) Die Wahrscheinlichkeit, den Test zu bestehen, berechnet sich zu P (X ≥ 10) = 1 − P (X ≤ 9) = 1 − 0.9974 = 0.0026. Die Wahrscheinlichkeit f¨ ur X ≤ 9 liest man aus Vertafelungen der Biomialverteilung ab. Die Grenze k, bei welcher die Wahrscheinlichkeit, die Klausur zu bestehen, mehr als 5 % betr¨ agt, berechnet sich wie folgt. Es muß P (X ≥ k) = 1 − P (X < k) > 0.05 ¨ gelten. Aquivalentes Umformen dieser Bedingung liefert ⇐⇒ ⇐⇒ ⇐⇒ ⇐⇒
P (X < k) < 0.95 P (X ≤ k − 1) < 0.95 FX (k − 1) < 0.95 k−1=6 k = 7.
Die Grenze m¨ ußte also bei k = 7 liegen.
L¨ osung 5.18 Sei X die Zufallsgr¨ oße “Anzahl der Bestellungen”. X ist binomialverteilt mit den Parametern n = 8 und π = 0.3. Die Wahrscheinlichkeits- und Verteilungsfunktion von X ergibt sich aus folgender Tabelle:
x P (X = x) FX (x)
0 0.0576 0.0576
1 0.1977 0.2553
2 0.2965 0.5518
3 4 0.2541 0.1361 0.8059 0.942
5 6 0.0467 0.01 0.9887 0.9987
7 0.0012 0.9999
8 0.0001 1
(a) Der Modus der Verteilung von X ist bei x = 2 (siehe obige Tabelle).
5. Diskrete Zufallsvariablen
115
(b) P (1 ≤ X ≤ 3) = P (X ≤ 3) − P (X = 0) = 0.8059 − 0.0576 = 0.7483 (c) Zu den Versp¨atungen gilt: (c1) P (“keine p¨ unktliche Lieferung”) = P (X = 7) + P (X = 8) = 0.0012 + 0.0001 = 0.0013. (c2) Sei Y die Zufallsgr¨ oße Anzahl der Gesch¨afte, die versp¨atet beliefert ” werden“. Dann gilt f¨ ur die Wahrscheinlichkeitsfunktion ⎧ ur y = 0 ⎪ ⎪ P (X ≤ 6) = 0.9887 f¨ ⎪ ⎪ ⎪ ⎪ ⎨ P (X = 7) = 0.0012 f¨ ur y = 1 f (y) = ⎪ ⎪ P (X = 8) = 0.0001 f¨ ur y = 2 ⎪ ⎪ ⎪ ⎪ ⎩ 0 sonst. Damit folgt E(Y ) = 1 · 0.0012 + 2 · 0.0001 = 0.0014. L¨ osung 5.19 Seien X1 = Anzahl von Treffern der Mannschaft A und X2 = Anzahl von Treffern der Mannschaft B sowie Y = Anzahl von Sch¨ ussen bis zur Entscheidung. Nach 2 · n Sch¨ ussen gilt X1 ∼ B(n, 0.8) und X2 ∼ B(n, 0.8). Insbesondere lautet die Verteilung nach f¨ unf Sch¨ ussen pro Mannschaft in Tabellenform: x 0 1 2 3 4 5 P (Xi = x), i = 1, 2 0.0003 0.0064 0.0512 0.2048 0.4096 0.3277 Die Wahrscheinlichkeit f¨ ur ein Unentschieden nach insgesamt zehn Sch¨ ussen betr¨ agt somit P (X1 = X2 ) = =
0.00032 + 0.00642 + 0.05122 +0.20482 + 0.40962 + 0.32772 0.3198
Also gilt P (Y = 10) = 1 − 0.3198 = 0.6802. L¨ osung 5.20 (a) X ∼ P o(λ) mit Wahrscheinlichkeitsfunktion f (x) =
λx −λ ur x = 0, 1, 2, . . . e f¨ x!
Wegen P (X = 0) = f (0) = e−λ = 0.7788 gilt λ = − log 0.7788 = 0.25, also X ∼ P o(0.25).
116
5. Diskrete Zufallsvariablen
(b) Man berechnet P (X ≥ 2) = 1 − P (X = 0) − P (X = 1) 0.251 = 1 − 0.7788 − 0.7788 = 0.0265. 1! (c) Sei Y = Anzahl der Fehler, die bei vier Computern w¨ahrend 12 Stunden auftreten. Dann ist Y die Summe von vier unabh¨angigen P o(0.25)verteilten Zufallsvariablen, also Y ∼ P o(1).
L¨ osung 5.21 ¨ Sei X = Anzahl der Angestellten, die sich f¨ ur l¨angere Offnungszeiten aussprechen. Dann gilt X ∼ H(5, 4, 20) und 416 1 · 4368 0 205 = P (X = 0) = = 0.2817, 15504 5 416 6 · 560 2 203 = P (X = 2) = = 0.2167, 15504 5 P (X ≥ 2) = 1 − P (X = 0) − P (X = 1) 416 = 1 − 0.2817 −
1
204 5
4 · 1820 = 1 − 0.2817 − 15504 = 1 − 0.2817 − 0.4696 = 0.2487.
L¨ osung 5.22 Da X ∼ B(1, π) hat X die Wahrscheinlichkeitsfunktion 1 x 1−x x = 0, 1 x π (1 − π) f (x) = 0 sonst mit Erwartungswert E(X) =
1
x · f (x) = 0 + 1 ·
x=0
und E(X 2 ) =
1 x=0
1 π(1 − π)0 = π 1
x2 · f (x) = 0 + 1 · 1 = π,
5. Diskrete Zufallsvariablen
117
also mit der Varianz V ar(X)
=
E(X 2 ) − (E(X))2 = π − π 2
=
π(1 − π).
Entsprechend hat Y ∼ B(1, ρ) den Erwartungswert ρ und die Varianz ρ(1−ρ). Die Zufallsvariable Z = X + Y hat die Wahrscheinlichkeitsverteilung Z =X +Y P (Z = z)
0 1 2 (1 − π)(1 − ρ) π(1 − ρ) + ρ(1 − π) π · ρ
mit Erwartungswert E(Z) = 0 + 1 · π(1 − ρ) + ρ(1 − π) + 2 · π · ρ = π−π·ρ+ρ−ρ·π+2·π·ρ=π+ρ und E(Z 2 ) = = =
0 + 1 · π(1 − ρ) + ρ(1 − π) + 4 · πρ π−π·ρ+ρ−ρ·π+4·π·ρ π + 2 ·π ·ρ + ρ,
also mit der Varianz V ar(Z)
= E(Z 2 ) − (E(Z))2 = π + 2 · π · ρ + ρ − (π + ρ)2 = π − π 2 + ρ − ρ2 = π(1 − π) + ρ(1 − ρ) .
Damit gilt E(X + Y ) =
E(X) + E(Y ) und
V ar(X + Y ) =
V ar(X) + V ar(Y ) .
Die Wahrscheinlichkeitsverteilung von V = X · Y entnimmt man folgender Tabelle: V =x·y 0 1 P (V = v) (1 − π)(1 − ρ) + π(1 − ρ) + ρ(1 − π) π · ρ Damit erh¨ alt man E(V ) = 0 + 1 · πρ = π · ρ. Also gilt E(X · Y ) = E(X) · E(Y ).
118
5. Diskrete Zufallsvariablen
L¨ osung 5.23 Es gilt P (X = 0) = 0.36. Soll X binomialverteilt sein, so muß P (X = 0) = (1 − π)2 = 0.36 gelten, woraus π = 0.4 folgt. Weiterhin folgt wegen P (X = 1) = 0.64 · θ 2 π(1 − π) = 2 · 0.4 · 0.6 = 0.64 · θ 1 und damit durch Aufl¨ osen nach θ 3 . 4 binomialverteilt, d.h. X ∼ B(2, 0.4). θ=
X ist also f¨ ur θ =
3 4
L¨ osung 5.24 Es gilt V ar(X) = n · π · (1 − π) = n · π − n · π 2 . Differenzieren und Nullsetzen liefert die Gleichung n − 2 · n · π = 0, d.h. die Varianz wird f¨ ur π =
1 2
maximal.
L¨ osung 5.25 (a) X und Y sind Poisson-verteilt, d.h. X ∼ P o(λ) und Y ∼ P o(μ). (b) Die Wahrscheinlichkeiten daf¨ ur, daß nicht mehr als zwei Großunf¨alle auftreten, berechnen sich jeweils als: P (X ≤ 2) = = = P (Y ≤ 2) = = =
P (X = 0) + P (X = 1) + P (X = 2) 0 3.7 3.71 3.72 e−3.7 · + + 0! 1! 2! −3.7 e · (1 + 3.7 + 6.845) = 0.285, P (Y = 0) + P (Y = 1) + P (Y = 2) 0 5.91 5.92 5.9 −5.9 + + e · 0! 1! 2! −5.9 e · (1 + 5.9 + 17.405) = 0.0666.
(c) Man kann annehmen, daß X und Y unabh¨angig sind. In diesem Fall folgt P (X ≤ 2 , Y ≤ 2) = P (X ≤ 2) · P (Y ≤ 2) = 0.285 · 0.0666 = 0.0188.
6 Stetige Zufallsvariablen
Aufgaben
Aufgabe 6.1 Eine stetige Zufallsvariable X habe Dichte 1 − |x| f¨ ur − 1 ≤ x ≤ 1 f (x) = 0 sonst. ¨ (a) Uberpr¨ ufen Sie, ob die Dichte wirklich die Normierungseigenschaft f (x)dx = 1 besitzt. (b) Berechnen Sie die Verteilungsfunktion F (x), und skizzieren Sie deren Verlauf. (c) Berechnen Sie die Wahrscheinlichkeit P (|X| ≤ 0.5). (L¨osung siehe Seite 129)
Aufgabe 6.2 Sei X eine stetige Zufallsgr¨ oße, f¨ ur die −4 x P (X ≥ x) = 1
f¨ ur x ≥ 1 sonst
gilt. (a) Berechnen Sie die Verteilungsfunktion von X. (b) Berechnen Sie die Dichte f (x) von X. (c) Berechnen Sie Erwartungswert und Varianz von X. (L¨osung siehe Seite 131)
120
6. Stetige Zufallsvariablen
Aufgabe 6.3 Von einer stetigen Zufallsvariable X, die von abh¨ angt, sei die Verteilungsfunktion gegeben: ⎧ ⎨ 0 1 F (x) = (x + 2) + 18 θ(x2 − 4) ⎩ 4 1
einem Parameter θ ∈ − 12 , 12 f¨ ur f¨ ur f¨ ur
x < −2 −2 ≤ x ≤ 2 x > 2.
(a) Wie lautet die Dichte f (x) von X? (b) Welche spezielle Verteilung liegt f¨ ur θ = 0 vor? (c) Berechnen Sie den Erwartungswert von X in Abh¨angigkeit von θ. (L¨osung siehe Seite 132)
Aufgabe 6.4 Das statistische Bundesamt h¨ alt f¨ ur die Wachstumsrate des Bruttosozialproduktes X alle Werte im Intervall 2 ≤ x ≤ 3 f¨ ur prinzipiell m¨oglich und unterstellt f¨ ur ihre Analyse folgende Funktion c · (x − 2) , 2 ≤ x ≤ 3 f (x) = 0 , sonst. (a) Bestimmen Sie c derart, daß obige Funktion die Dichtefunktion einer Zufallsvariable X ist. (b) Bestimmen Sie die Verteilungsfunktion der Zufallsvariable X. (c) Berechnen Sie P(2.1 < X) und P(2.1 < X < 2.8). (d) Berechnen Sie P(−4 ≤ X ≤ 3|X ≤ 2.1), und zeigen Sie, daß die Ereignisse {−4 ≤ X ≤ 3} und {X ≤ 2.1} stochastisch unabh¨angig sind. (e) Bestimmen Sie den Erwartungswert, den Median und die Varianz von X. (L¨osung siehe Seite 132)
Aufgabe 6.5 Die Firma LS (Low Sales) m¨ ochte mittels einer einmalig durchgef¨ uhrten Werbeaktion den Umsatz des Unternehmens punktuell steigern. Der Basisumsatz uhrung der geplanten WerbeakU0 sowie der Werbeeffekt W , der bei Durchf¨ tion realisiert w¨ urde, werden als unsicher angenommen. Die Zufallsvariablen angig vorausgesetzt. Die WahrscheinlichkeitsdichU0 und W seien als unabh¨ ten der Zufallsvariablen U0 und W sind in Abbildung 6.1 dargestellt. Der zu agt 1637.5 Euro. erwartende Basisumsatz E(U0 ) betr¨
6. Stetige Zufallsvariablen
121
Der Umsatz U1 , der nach Durchf¨ uhrung der Werbeaktion zu beobachten w¨are, erg¨ abe sich durch: U1
= U0 (1 + W ).
Die Kosten f¨ ur die geplante Werbeaktion betragen 100 Euro.
−1000
0
0
.5
.0001
.8
f(u)
f(w)
.0003
2.8
.00045
(a) Zeichnen Sie die Verteilungsfunktion FU0 (u) f¨ ur den bisherigen Umsatz. (b) Bestimmen Sie die folgenden Wahrscheinlichkeiten: – Wahrscheinlichkeit f¨ ur einen Umsatz U0 von h¨ochstens 3250 Euro, – Wahrscheinlichkeit f¨ ur einen Umsatz U0 von mindestens 1500 Euro, – Wahrscheinlichkeit f¨ ur einen Umsatz U0 zwischen 2000 und 5000 Euro, – Wahrscheinlichkeit f¨ ur einen positiven Werbeeffekt, – Wahrscheinlichkeit f¨ ur einen negativen Werbeeffekt. (c) Bestimmen Sie den erwarteten Werbeeffekt. (d) Bestimmen Sie den zu erwartenden Umsatz nach Durchf¨ uhrung der Werbeaktion. W¨ urden Sie der Firma LS aufgrund Ihrer Ergebnisse die Durchf¨ uhrung der Werbeaktion empfehlen?
0
1000
2000 Umsatz u
4500
5500
−.4
−.2
0
.25
.5
.7
Werbeeffekt w
Abbildung 6.1. Wahrscheinlichkeitsdichte fU0 (u) f¨ ur den Basisumsatz (links) und Wahrscheinlichkeitsdichte fW (w) f¨ ur den Werbeeffekt (rechts).
(L¨osung siehe Seite 134)
122
6. Stetige Zufallsvariablen
Aufgabe 6.6 Die Dichte einer stetigen Zufallsvariable X besitzt folgende Gestalt: f (x)
0.5
0
1
2
3
4
5
6
x
Bestimmen Sie (a) (b) (c) (d) (e) (f)
E(X), P (X < 3), P (0 < X < 3), P (X > 3), P (1 < X < 7), F (3).
(L¨osung siehe Seite 138)
Aufgabe 6.7 Sei X eine beliebige stetige Zufallsvariable mit Dichte f (x) und Verteilungsfunktion F (x). Sind die folgenden Aussagen richtig oder unter Umst¨anden falsch? (a) f (x) ≤ 1 f¨ ur alle x. (b) F (x) ≤ 1 f¨ ur alle x. ∞ (c) f (t)dt = 1 − F (x). x
(d) Ist xi < xj so ist F (xi ) ≤ F (xj ). (L¨osung siehe Seite 139)
6. Stetige Zufallsvariablen
123
Aufgabe 6.8 An der M¨ unchener U-Bahn-Station “Universit¨at” verkehren zwei Linien tags¨ uber jeweils im 10-Minuten-Takt, wobei die U3 drei Minuten vor der U6 f¨ ahrt. Sie gehen gem¨ aß einer stetigen Gleichverteilung nach der Vorlesung zur U-Bahn. Wie groß ist die Wahrscheinlichkeit, daß als n¨achstes die Linie U3 f¨ ahrt? (L¨osung siehe Seite 139) Aufgabe 6.9 Sei X eine zum Parameter λ exponentialverteilte Zufallsvariable. Zeigen Sie die “Ged¨ achtnislosigkeit” der Exponentialverteilung, d.h. daß P (X ≤ x|X > s) = P (X ≤ x − s) f¨ ur x, s ∈ IR mit s < x gilt. (L¨osung siehe Seite 139) Aufgabe 6.10 In einem Institut der Universit¨ at M¨ unchen ist der einzige Fotokopierer aus¨ gefallen. Uber die Zeit X (in Stunden), die ein Techniker ben¨otigt, um den Fotokopierer zu reparieren, ist bekannt, daß diese einer Exponentialverteilung mit Parameter λ = 3 folgt. Berechnen Sie die Wahrscheinlichkeit, daß der Techniker (a) h¨ ochstens eine Viertelstunde, (b) zwischen 0.5 und 0.75 Stunden, (c) mehr als 1 Stunde f¨ ur die Reparatur ben¨ otigt. (L¨osung siehe Seite 140) Aufgabe 6.11 In Aufgabe 5.20 wurde die Zufallsvariable X betrachtet, die die Anzahl der Fehler, die w¨ ahrend 12 Stunden an einem Digitalcomputer auftreten, beschreibt. (a) Welche Verteilung hat unter den gegebenen Voraussetzungen die Zufallsvariable Y =Wartezeit auf den n¨ achsten Fehler? (b) Wie lange wird man im Mittel auf den n¨ achsten Fehler warten? (c) W¨ ahrend 12 Stunden ist kein Fehler aufgetreten. Wie groß ist die Wahrscheinlichkeit, daß sich in den n¨ achsten 12 Stunden ebenfalls kein Fehler ereignet?
124
6. Stetige Zufallsvariablen
(L¨osung siehe Seite 140)
Aufgabe 6.12 Beweisen Sie die Markov-Ungleichung P (X ≥ c) ≤
E(X) c
f¨ ur jede positive Zahl c, falls X nur nichtnegative Werte annimmt. (L¨osung siehe Seite 141)
Aufgabe 6.13 Die Erlang-n-Verteilung wird h¨ aufig zur Modellierung von Einkommensverteilungen verwendet. Sie ergibt sich als Summe von n unabh¨angigen mit Parameter λ exponentialverteilten Zufallsgr¨ oßen. Beispielsweise hat f¨ ur n = 2 die Dichte die Form 2 −λx λ xe , x≥0 f (x) = 0 , sonst. (a) Zeigen Sie, daß f (x) tats¨ achlich eine Dichtefunktion ist. (b) Zeigen Sie, daß 0, x < 0 F (x) = 1 − e−λx (1 + λx) , x ≥ 0 die zugeh¨ orige Verteilungsfunktion ist. (c) Berechnen Sie den Erwartungswert, den Median und den Modus der Erlang-2-Verteilung mit Parameter λ = 1. Was folgt gem¨aß der Lageregel f¨ ur die Gestalt der Dichtefunktion? Skizzieren Sie die Dichte, um Ihre Aussage zu u ufen. ¨berpr¨ (d) Bestimmen Sie den Erwartungswert und die Varianz der Erlang-nVerteilung f¨ ur beliebige n ∈ N und λ ∈ IR+ . (L¨osung siehe Seite 141)
Aufgabe 6.14 Sei Y eine stetige, um c ∈ IR symmetrische Zufallsvariable. Zeigen Sie, daß dann E(Y ) = c gilt. (L¨osung siehe Seite 143)
6. Stetige Zufallsvariablen
125
Aufgabe 6.15 In einer Klinik wird eine Studie zum Gesundheitszustand von Fr¨ uhgeburten durchgef¨ uhrt. Das Geburtsgewicht X eines in der 28ten Schwangerschaftswoche geborenen Kindes wird als normalverteilte Zufallsvariable mit Erwartungswert 1000 g und Standardabweichung 50 g angenommen. (a) Wie groß ist die Wahrscheinlichkeit, daß ein in der 28ten Schwangerschaftswoche geborenes Kind ein Gewicht zwischen 982 und 1050 g hat? (b) Bestimmen Sie das 10 %-Quantil des Geburtsgewichts. Was sagt es aus? (c) Geben Sie ein um den Erwartungswert symmetrisches Intervall an, in dem mit einer Wahrscheinlichkeit von 95 % das Geburtsgewicht liegt. (L¨osung siehe Seite 143) Aufgabe 6.16 Ein genormter Leistungstest sei normalverteilt mit μ = 150, σ = 36. (a) Skizzieren Sie die Dichte dieser Verteilung. (b) Zeichnen Sie jeweils die folgenden Wahrscheinlichkeiten als Fl¨ache unter der Dichte ein, und berechnen Sie die Wahrscheinlichkeiten, Werte zu erreichen, die (b1) kleiner sind als 140, (b2) nicht im Bereich von 114 bis 190 liegen, (b3) gr¨ oßer sind als 175, (b4) kleiner als 200 und gr¨ oßer als 130 sind. (c) Bestimmen Sie den 10 %-Quantilswert, und fassen Sie in Worte, was er aussagt. (d) Der Leistungstest wird nun an 49 Personen unabh¨angig voneinander durchgef¨ uhrt. Wie wahrscheinlich ist es, einen Mittelwert kleiner als 140 zu beobachten? Vergleichen Sie Ihr Ergebnis mit dem aus (b1). Wie erkl¨ aren Sie sich den Unterschied? (L¨osung siehe Seite 144)
Aufgabe 6.17 Die t¨ aglichen Ver¨anderungen des Kurses eines Wertpapieres (in EUR) seien normalverteilt mit Erwartungswert 0 und Varianz 3. (a) Wie groß ist die Wahrscheinlichkeit, dass der Kurs an einem Tag um mindestens 2 EUR steigt? (b) Mit welcher Wahrscheinlichkeit betr¨ agt die absolute t¨agliche Ver¨anderung des Kurses h¨ ochstens 1 EUR?
126
6. Stetige Zufallsvariablen
(c) Gehen Sie davon aus, dass das Wertpapier mit einem Kurs von 2 EUR gestartet ist und dass die t¨ aglichen Ver¨ anderungen unabh¨angige Zufallsvariablen X1 , X2 , . . . mit der gleichen Verteilung N (0, 3) sind. – Welche Verteilung hat die Zufallsvariable Y = Kurs des Wertpapiers ” nach 10 Tagen“? – Berechnen Sie die Wahrscheinlichkeit, dass der Kurs an vier aufeinanderfolgenden Tagen um jeweils mindestens 0.50 EUR f¨allt. (d) Es sei Z die Anzahl der Tage einer Woche (5 Tage), an denen der Kurs des Wertpapieres f¨ allt. – Welche Verteilung hat Z? – Wie groß ist die Wahrscheinlichkeit, dass innerhalb einer Woche der Kurs h¨ aufiger steigt als f¨ allt? (L¨osung siehe Seite 148)
Aufgabe 6.18 Ein Anleger besitzt das Verm¨ ogen v. Er m¨ ochte einen Betrag x in eine risikobehaftete Anlage investieren mit normalverteilter Rendite R ∼ N (μ, σ 2 ). Der Restbetrag v − x wird zum festen Zinssatz z risikofrei investiert. (a) Bestimmen Sie das Endverm¨ ogen W in Abh¨angigkeit von v, R, x und z. Welche Verteilung besitzt W ? (b) Mit welcher Wahrscheinlichkeit w¨ achst das Verm¨ogen um mindestens 5 Prozent, wenn v = 10000, μ = 0.03, σ 2 = 0.0009, z = 0.04 und x = 5000 gilt. (c) Wie ¨ andert sich die in (b) berechnete Wahrscheinlichkeit, wenn – μ erh¨ oht wird, – z erh¨ oht wird, oht wird. – σ 2 erh¨ Es reicht die Angabe, ob die Wahrscheinlichkeit gr¨oßer oder kleiner wird. (d) Nach dem Erwartungsnutzenprinzip existiert f¨ ur jeden Anleger eine Nutzenfunktion u, die verschiedene Portfolios aufgrund des zugeh¨origen Nutzenerwartungswertes beurteilt. Ein Portfolio P mit Rendite RP wird dann durch die Funktion E(U (Rp )) bewertet. Gehen Sie davon aus, dass unser Anleger mit einer exponentiellen Nutzenfunktion U (W ) = − exp(−W/a) sein Endverm¨ ogen beurteilt. Der Parameter a > 0 wird dabei als Risikoaversionskoeffizient bezeichnet.
6. Stetige Zufallsvariablen
127
– Wie w¨ urde man prinzipiell ansetzen, um E(U (W )) zu berechnen. – Bestimmen Sie den optimalen Anlagebetrag x f¨ ur die Anlage in das risikobehaftete Wertpapier. Dabei d¨ urfen Sie benutzen, dass aus W ∼ 2 N (μW , σW ) σ2 E(U (W )) = μW − a W 2 folgt. – Wie ¨ andert sich der berechnete optimale Anlagebetrag in Abh¨angigkeit - vom Anfangsverm¨ ogen, - von Erwartungswert und Varianz der unsicheren Anlage, - vom Zinssatz der sicheren Anlage, - vom Risikoaversionskoeffizienten. (L¨osung siehe Seite 149)
Aufgabe 6.19 Seien X1 , X2 , . . . , Xn unabh¨ angig und jeweils normalverteilt mit Mittelwert μ und Varianz σ 2 . ¯ = (a) Wie ist X (b) Wie ist
1 n (X1
+ X2 + . . . + Xn ) verteilt? ¯ −μ √ X n· σ
verteilt? (c) Wichtige p-Quantile der Standardnormalverteilung sind in folgender Tabelle gegeben: p Zp
75 % 0.67
90 % 1.28
95 % 1.64
97.5 % 1.96
99 % 2.33
Berechnen Sie an Hand dieser Tabelle die 1, 2.5, 5, 10, 25, 50, 75, 90, ¯ f¨ 95, 97.5 und 99 % Quantile der Verteilung von X ur n = 5, μ = 1 und 2 σ = 25. (d) Leiten Sie schließlich an Hand dieser Berechnungen zentrale Schwan¯ ab. Geben Sie auch die Wahrscheinlichkeit α an, kungsintervalle f¨ ur X ¯ mit der X nicht in dem jeweiligen Intervall liegt. (L¨osung siehe Seite 150)
128
6. Stetige Zufallsvariablen
Aufgabe 6.20 Da Tagesrenditen von Aktien oft Ausreißer enthalten, wird zu ihrer Modellierung h¨ aufig anstelle einer Normalverteilung eine t-Verteilung verwendet. Beispielsweise lassen sich die Renditen der Aktie der M¨ unchner R¨ uckversicherung (= X) nach der Transformation Y = (X − 0.0007)/0.013 durch eine t-Verteilung mit einem Freiheitsgrad gut approximieren. Wie groß ist demnach die Wahrscheinlichkeit, eine Rendite gr¨oßer als 0.04 zu erzielen? Wie groß w¨ are diese Wahrscheinlichkeit, wenn f¨ ur X eine N (0.0007, 0.0132)Verteilung zugrunde gelegt w¨ urde? Geben Sie ferner f¨ ur das Modell mit Normalverteilungsannahme ein zentrales Schwankungsintervall an, in dem mit einer Wahrscheinlichkeit von 99 % die Tagesrenditen liegen. Warum kann bei Annahme einer t-Verteilung f¨ ur X kein zentrales Schwankungsintervall berechnet werden? (Vergleiche zu dieser Aufgabe auch das entsprechende Beispiel in Fahrmeir et al., 2004, in Abschnitt 2.1.2.) (L¨osung siehe Seite 151)
6. Stetige Zufallsvariablen
129
L¨ osungen L¨ osung 6.1 Durch Aufl¨ osen des Betragszeichens erh¨ alt man: 1 + x f¨ ur −1 ≤ x ≤ 0 f (x) = 1 − x f¨ ur 0 < x ≤ 1. Die folgende Skizze zeigt die Gestalt obiger Dichte:
f (x) 1...................
.. ... .... .... ... . . . ... .... ... .... .... . . .... ... .... ... .... . . .... ... .... .... ... . . .
.... .... ... .... ... .... .... ... .... ... .... ... .... .... ... .... ... .... .... ... .... ... ..
A
−1
B
0
1
x
1 (a) f ist symmetrisch um null. Es gen¨ ugt daher
f (x)dx = 0
1
1 zu zeigen: 2
1 f (x)dx
(1 − x) dx
=
0
0
= =
x− 1−
1 x2 2 0
1 1 = . 2 2
Ein Blick auf die graphische Darstellung der Dichte zeigt, daß der Wert des Integrals u ¨ ber f auch ohne explizite Anwendung der Integralrechnung bestimmt werden kann. Die Fl¨ ache unter der Dichte ist n¨amlich gegeben durch die Fl¨achen A und B der beiden rechtwinkligen Dreiecke (siehe Skizze). Daf¨ ur gilt A = B = 0.5 · Grundfl¨ ache · H¨ ohe = 0.5 · 1 · 1 = 0.5, womit ebenfalls gezeigt wurde, daß f tats¨ achlich die Dichte einer stetigen Zufallsvariable ist.
130
6. Stetige Zufallsvariablen
(b) Die Verteilungsfunktion berechnet ⎧ 0 ⎪ ⎪ ⎪ ⎪ x ⎪ ⎪ ⎪ ⎪ f (t) dt ⎪ ⎪ ⎨ −1 F (x) = x ⎪ ⎪ 1 ⎪ ⎪ + f (t) dt ⎪ ⎪ ⎪ 2 ⎪ ⎪ 0 ⎪ ⎩ 1
=
=
sich als f¨ ur
x < −1
f¨ ur
−1 ≤ x ≤ 0
f¨ ur
0 1
⎧ 0 ⎪ ⎪ ⎪ 2 ⎪ ⎪ ⎨ x + x2 − (−1 + 12 ) ⎪ ⎪ ⎪ ⎪ ⎪ ⎩
1 2
2 + x − x2
1
⎧ 0 ⎪ ⎪ ⎪ 2 ⎪ ⎪ ⎨ x + x2 + ⎪ ⎪ ⎪ ⎪ ⎪ ⎩
1 2
1 2 2
+ x − x2
1
f¨ ur f¨ ur
x
< −1
−1 ≤ x ≤ 0
f¨ ur
0
1
< −1
f¨ ur
x
f¨ ur
−1
≤x≤0
f¨ ur
0
1
Auch bei dieser Teilaufgabe ist eine rein graphische L¨osung m¨oglich. Die folgende Skizze zeigt den Verlauf von F (x):
F (x)
1.0
0.5
........................................................... ............. ....... ...... ....... . . . . . . ..... ..... ..... ..... .... . . . ... .... ... ... ... . . ... .... .... ... .... . . . . ..... .... ..... ...... ....... . . . . . .... ......... ........................
−1
0
1
x
(c) Die gesuchte Wahrscheinlichkeit l¨ aßt sich u ¨ ber die Verteilungsfunktion ermitteln: P (|X| ≤ 0.5) = P (−0.5 ≤ X ≤ 0.5)
6. Stetige Zufallsvariablen
131
= 2 · (F (0.5) − F (0)) 1 1 1 1 3 = 2·( + − − )= . 2 2 8 2 4
L¨ osung 6.2 (a) Es gilt P (X ≥ x) = 1 − P (X ≤ x) = 1 − F (x) und damit
F (x) =
1 − x−4 0
x≥1 sonst.
f¨ ur
(b) Die Dichte von F (x) erh¨ alt man als Ableitung der Verteilungsfunktion: ∂ 4 · x−5 f¨ ur x ≥ 1 f (x) = F (x) = 0 sonst. ∂x (c) Erwartungswert und Varianz bestimmt man als ∞
−5
x·x
E(X) = 4 ·
∞ dx = 4 ·
1
∞
x−4 dx
1
1 = 4 · − · x−3 3 1 1 4 = 4· 0− − = , 3 3 2
∞
E(X ) = 4 ·
2
−5
x ·x 1
∞ dx = 4 · ∞
1 = 4 · − · x−2 2 1 1 = 4· 0− − = 2, 2 V ar(X)
x−3 dx
1
2 4 2 16 = . =2− = E(X ) − E(X) = 2 − 3 9 9 2
2
132
6. Stetige Zufallsvariablen
L¨ osung 6.3 (a) Die Dichte von X erh¨ alt man als Ableitung der Verteilungsfunktion: f (x)
∂ F (x) ∂x 1 1 ∂ 1 1 ( · x + + · θ · x2 − · θ) ∂x 4 2 8 2 1 1 + · θ · x. 4 4
= = =
(b) F¨ ur θ = 0 ergibt sich f (x) = 14 , d.h. es liegt eine (stetige) Gleichverteilung vor. (c) Der Erwartungswert von X berechnet sich als 2 E(X) = −2
2 = −2
= = = =
1 1 x · ( + · θ · x) dx 4 4 1 1 ( x · + · θ · x2 ) dx 4 4
3 2 2 1 x2 x 1 · + ·θ· 4 2 −2 4 3 −2 1 8 −8 1 4 4 ·( − )+ ·θ·( − ) 4 2 2 4 3 3 1 16 0+ ·θ· 4 3 4 θ· . 3
L¨ osung 6.4 3 (a) Damit f (x) Dichte ist, muß
f (x) dx = 1 gelten. Dies ist ¨aquivalent zu 2
3 c · (x − 2) = 1 2
3 2 c · x2 − 2x = 1 2 ! " 4 9 ⇔ c· 2 −6− 2 +4 =1
⇔
6. Stetige Zufallsvariablen
133
1 2 ·c= 1 c = 2.
⇔ ⇔
(b) F¨ ur die Verteilungsfunktion erh¨ alt man ⎧ f¨ ur ⎨ 0 x2 − 4x + 4 f¨ ur F (x) = ⎩ 1 f¨ ur
x 3.
(c) Die Wahrscheinlichkeiten lassen sich u ¨ ber die Verteilungsfunktion bestimmen als P (X > 2.1)
= = =
P (2.1 < X < 2.8) = = =
1 − P (X ≤ 2.1) = 1 − F (2.1) 1 − (2.12 − 4 · 2.1 + 4) 1 − 0.01 = 0.99, P (X ≤ 2.8) − P (X ≤ 2.1) F (2.8) − F (2.1) 0.64 − 0.01 = 0.63.
(d) Die bedingte Wahrscheinlichkeit berechnet sich als: P (−4 ≤ X ≤ 3 | X ≤ 2.1) = = = =
P (−4 ≤ X ≤ 3 , X ≤ 2.1) P (X ≤ 2.1) P (−4 ≤ X ≤ 2.1) P (X ≤ 2.1) F (2.1) − F (−4) F (2.1) 1.
Die stochastische Unabh¨ angigkeit der Ereignisse l¨aßt sich nachweisen, indem man zeigt, daß die Wahrscheinlichkeit f¨ ur das gemeinsame Ereignis mit dem Produkt der Einzelwahrscheinlichkeiten u ¨bereinstimmt: P ({−4 ≤ X ≤ 3} ∩ {X ≤ 2.1}) = =
P (−4 ≤ X ≤ 2.1) F (2.1)
=
P (−4 ≤ X ≤ 3) · P (X ≤ 2.1)
=
1 · F (2.1).
(e) F¨ ur den Erwartungswert erh¨ alt man 3 E(X) = 2
(2x2 − 4x) dx
134
6. Stetige Zufallsvariablen
= = =
3
2x3 4x2 − 3 2 2 2 · 27 4 · 9 2 · 8 4 · 4 − − + 3 2 3 2 16 . 6
Der Median berechnet sich als F (xmed ) − 4xmed + 4
= 0.5 = 0.5
(xmed − 2)2 √ ⇔ xmed = 0.5 + 2
= 0.5
⇔
x2med
⇔
= 2.707.
Die Varianz ermittelt man, indem man zun¨achst E(X 2 ) berechnet als 3
2
E(X ) =
(2x3 − 4x2 ) dx
2
= = =
3
2x4 4x3 − 4 3 2 2 · 81 4 · 27 2 · 16 4 · 8 − − + 4 3 4 3 43 , 6
woraus sich die Varianz ergibt als V ar(X) = E(X 2 ) − E(X)2 =
43 − 6
16 6
2 =
1 . 18
L¨ osung 6.5 (a) Zur L¨ osung des Aufgabenteil a) ergeben sich mehrere L¨osungsans¨atze, die sich erheblich in ihrer Zeitintensit¨ at unterscheiden. Hier zun¨achst der u osungsweg. Durch Ablesen der Werte aus der in der Aufgaben¨ bliche L¨ stellung dargestellten Dichte f¨ ur den Umsatz U0 erhalten wir: ⎧ 0.0003 0 ≤ u < 1000 ⎪ ⎪ ⎨ 0.00045 1000 ≤ u < 2000 fU0 (u) = 0.0001 2000 ≤ u < 4500 ⎪ ⎪ ⎩ 0 sonst
6. Stetige Zufallsvariablen
135
Die Verteilungsfunktion FU0 (u) erh¨ alt man dann durch die Anwendung der Definition der Verteilungsfunktion: 1. Fall: x < 0 x FU0 (x)
=
fU0 (u) du = 0 −∞
2. Fall: 0 ≤ x < 1000 x FU0 (x)
=
fU0 (u) du −∞
0
x
=
fU0 (u) du + −∞ x
=
fU0 (u) du 0
0.0003 du 0
=
0.0003x
3. Fall: 1000 ≤ x < 2000 x FU0 (x)
=
fU0 (u) du −∞ 1000
=
x
fU0 (u) du + −∞
fU0 (u) du 1000
=
0.3 + 0.00045(x − 1000)
=
−0.15 + 0.00045x
4. Fall: 2000 ≤ x < 4500 x FU0 (x)
=
fU0 (u) du −∞ 2000
=
x
fU0 (u) du + −∞
fU0 (u) du 2000
=
0.75 + 0.0001(x − 2000)
=
0.55 + 0.0001x
136
6. Stetige Zufallsvariablen
5. Fall: x > 4500 x FU0 (x)
=
fU0 (u) du −∞ 4500
= −∞
=
x
fU0 (u) du +
fU0 (u) du 4500
1
Folglich erhalten wir die folgende Verteilungsfunktion f¨ ur den Umsatz U0 (siehe Abbildung 6.2): ⎧ 0 u 4500 Nun der deutlich k¨ urzere L¨ osungsweg. Da die Dichte des bisherigen Umsatzes eine Treppenfunktion darstellt, ist diese auf ihrem Wertebereich st¨ uckweise konstant. Daher ist die Verteilungsfunktion st¨ uckweise linear. Es reicht also die jeweiligen Anfangs- bzw. Endpunkte dieser linearen Bereiche zu bestimmen und anschließend zu verbinden. Der erste von Null verschiedene Abschnitt auf dem die Dichte von U0 den gleichen Wert annimmt ist [0, 1000]. Der Anfangspunkt ist gegeben durch die Fl¨ ache, die zwischen der x-Achse und der Dichte auf dem Intervall [−∞, 0] liegt. Da die Dichte auf diesem Bereich identisch Null ist, ist auch die zugeh¨ orige Fl¨ ache gleich Null. Der Endpunkt ist gegeben durch die Fl¨ ache, die zwischen der x-Achse und der Dichte auf dem Intervall [0, 1000] liegt. Also m¨ ussen wir lediglich die Fl¨ache eines Rechtecks berechnen, welches durch die Eckpunkte des betrachteten Intervalls und dessen H¨ ohe gegeben ist. Die H¨ ohe betr¨ agt 0.0003. Also erhalten wir die Fl¨ ache (1000 − 0)0.0003 = 0.3. Hieraus folgt, dass die Werte der Verteilungsfunktion auf [0, 1000] linear sind mit Anfangspunkt 0 und Endpunkt 0.3. Die weiteren Werte der Verteilungsfunktion erhalten wir durch das gleiche Prinzip, indem wir den Endpunkt des vorherigen Bereichs als Anfangspunkt des aktuellen Bereichs setzen und den Endpunkt des aktuellen Bereichs als die Fl¨ ache des relevanten Rechtecks zuz¨ uglich des aktuellen Anfangspunktes. Also betrachten wir den Bereich [1000, 2000]. Auf diesem Bereich nimmt die Dichte den Wert 0.00045 an. Die resultierende Fl¨ ache betr¨ agt somit (2000 − 1000)0.00045 = 0.45. Also lautet der Endpunkt des Wertebereichs auf [1000, 2000] 0.75. Somit ist FU0 auf [1000, 2000] linear mit Anfangspunkt 0.3 und Endpunkt 0.75. Als letzten Abschnitt betrachten wir [2000, 4500]. Die relevante Fl¨ache ist beschrieben durch (4500−2000)0.001 = 0.25. Somit ist FU0 auf [2000, 4500] linear
6. Stetige Zufallsvariablen
137
0
.3
f(u)
.75
1
mit Anfangspunkt 0.75 und Endpunkt 1. Auf dem Intervall [4500, ∞] ist die Dichte identisch Null, somit w¨ achst die Verteilungsfunktion auf diesem Bereich nicht weiter an, hat also den Wert 1. Eine grafische Darstellung der resultierenden Verteilungsfunktion f¨ ur den bisherigen Umsatz U0 ist in Abbildung 6.2 zu finden.
−1000
0
1000
2000 Umsatz u
4500
5500
Abbildung 6.2. Verteilungsfunktion FU0 (u) f¨ ur den bisherigen Umsatz.
(b) Die gesuchten Wahrscheinlichkeiten berechnen sich wie folgt: 0.25 2
P (U0 ≤ 3250)
= FU0 (3250) = 0.75 +
P (U0 ≥ 1500)
= 1 − P (U0 < 1500) = 1 − FU0 (1500)
= 0.875,
= 1 − ( 0.45 2 + 0.3) = 1 − 0.525 = 0.475, P (2000 ≤ U0 ≤ 5000) = P (U0 ≤ 5000) − P (U0 < 2000) = FU0 (5000) − FU0 (2000) = 1 − 0.75 = 0.25, P (W > 0)
= 1 − P (W ≤ 0) = 1 − FW (0) = 1 − 0.1 = 0.9
P (W < 0)
= FW (0) = 0.1.
(c) Der Erwartungswert f¨ ur den Werbeeffekt l¨ asst sich auf zwei Arten bestimmen. Die naheliegende L¨ osung ergibt sich durch Einsetzen in die Formel
138
6. Stetige Zufallsvariablen
f¨ ur den Erwartungswert stetiger Zufallsvariablen: #∞
E(W ) =
−∞ #0
wfW (w)dw
0.25 0.5 # # 0.5w dw + 2.8w dw + 0.8w dw −0.2 0 0.25 0 0.25 0.5 2 2 2 = 0.5 w2 + 2.8 w2 + 0.8 w2
=
−0.2
0
=
−0.01 + 0.0875 + 0.075
=
0.1525
0.25
Der Erwartungswert einer Zufallsvariable mit st¨ uckweise konstanter Dichte l¨ asst sich auch noch anders bestimmen, n¨amlich als gewichtete Summe der jeweiligen Intervallmitten, wobei mit den Wahrscheinlichkeiten f¨ ur jedes Intervall gewichtet wird. Wir erhalten also E(W )
= −0.1 · P (−0.2 ≤ W ≤ 0) + 0.125 · P (0 ≤ W ≤ 0.25)+ 0.375 · P (0.25 ≤ W ≤ 0.5) = −0.1 · 0.2 · 0.5 + 0.125 · 0.25 · 2.8 + 0.375 · 0.25 · 0.8 = 0.1525
(d) Nach Aufgabenstellung gilt: U1 = U0 (1 + W ). Wegen der stochastischen Unabh¨ angigkeit von U0 und W und unter Verwendung der Ergebnisse aus Aufgabenteil c) gilt dann f¨ ur den Erwartungswert von U1 : E(U1 ) =
E(U0 (1 + W ))
= =
E(U0 + U0 W ) E(U0 ) + E(U0 )E(W )
= =
1637.5 + 249.72 1887.22
Da E(U1 ) − 100 > E(U0 ) w¨ are die Durchf¨ uhrung der Werbeaktion sinnvoll.
L¨ osung 6.6 Bei der L¨ osung der Aufgabe sollte die Symmetrie der Dichte um den Wert 3 ausgenutzt werden. (a) Aufgrund der Symmetrie der Dichte ergibt sich unmittelbar E(X) = 3. (b) P (X < 3) = 0.5.
6. Stetige Zufallsvariablen
(c) (d) (e) (f)
139
P (0 < X < 3) = 0.5. P (X > 3) = 0.5. P (1 < X < 7) = 1. F (3) = P (X ≤ 3) = 0.5.
L¨ osung 6.7 (a) f (x) ≤ 1 ist falsch. Betrachte als Gegenbeispiel die stetige Gleichverteilung zwischen a = 0 und b = 0.1. Hier gilt 10 f¨ ur 0 ≤ x ≤ 0.1 f (x) = 0 sonst. (b) F (x) ≤ 1 ist nach Definition richtig. ∞ (c) f (t) dt = 1 − F (x) ist richtig, denn x
∞ f (t) dt = P (X ≥ x) = 1 − P (X ≤ x) = 1 − F (x). x
(d) F (xi ) ≤ F (xj ) ist richtig, da F monoton wachsend ist.
L¨ osung 6.8 Mit Wahrscheinlichkeit 0.7 ist als letztes eine U6 gefahren, so daß als n¨achstes mit Wahrscheinlichkeit 0.7 eine U3 f¨ ahrt.
L¨ osung 6.9 F¨ ur s < x gilt mit der Verteilungsfunktion der Exponentialverteilung P (X ≤ x|X > s) = = = = =
P (s < X ≤ x) P (X > s) P (X ≤ x) − P (X ≤ s) P (X > s) λx 1 − e − 1 + e−λs 1 − 1 + e−λs 1 − e−λ(x−s) P (X ≤ x − s).
140
6. Stetige Zufallsvariablen
L¨ osung 6.10 Sei X die Zeit in Stunden, die ben¨ otigt wird, um den Fotokopierer zu reparieren mit X ∼ Ex(3).
Dann ist f (x) =
und F (x) =
3e−3x 0
1 − e−3x 0
f¨ ur x ≥ 0 sonst, f¨ ur x ≥ 0 sonst.
Damit ergeben sich folgende Wahrscheinlichkeiten (a) P (X ≤ 0.25) = F (0.25) = 1 − e−3·0.25 = 1 − 0.4724 = 0.5276. (b) P (0.5 < X ≤ 0.75) = F (0.75) − F (0.5) = 1 − e−3·0.75 − (1 − e−3·0.5 ) = e−1.5 − e−2.25 = 0.2231 − 0.1054 = 0.1177. (c) P (X > 1) = 1 − P (X ≤ 1) = 1 − F (1) = 1 − (1 − e−3·1 ) = 0.0498.
L¨ osung 6.11 (a) Wegen X ∼ P o(0.25) ist die Wartezeit Y exponentialverteilt mit Parameter λ = 0.25. agt die mittlere Wartezeit auf den n¨achsten (b) Wegen E(Y ) = λ1 = 4 betr¨ Fehler 4 · 12 = 48 Stunden. (c) Aufgrund der Ged¨ achtnislosigkeit der Exponentialverteilung (vgl. Aufgabe 6.9) gilt: P (Y ≤ 24|Y > 12) = P (Y ≤ 12) = 1 − e−12/4 = 1 − e−3 = 0.95. Mit 95 % Wahrscheinlichkeit tritt somit auch in den n¨achsten 12 Stunden kein Fehler auf.
6. Stetige Zufallsvariablen
141
L¨ osung 6.12 Es gilt ∞ c · P (X ≥ c)
c · f (x) dx
= c
∞ x · f (x) dx
≤ c
∞ ≤
x · f (x) dx = E(X), 0
wobei die erste Ungleichung wegen c > 0 und f (x) ≥ 0 gilt und zudem nur u ¨ber x ≥ c integriert wird.
L¨ osung 6.13 (a) F¨ ur λ ≥ 0 gelten f (x) ≥ 0 und ∞
2
λ ·x·e
−λx
∞ =λ
0
λ · x · e−λx = λ ·
0
1 = 1, λ
da das Integral gerade dem Erwartungswert der Exponentialverteilung entspricht. Folglich erf¨ ullt f (x) die beiden Bedingungen an eine Dichtefunktion. (b) F¨ ur x > 0 gilt mit der Produktregel der Differentialrechnung ∂ F (x) ∂x
∂ (1 − e−λx (1 + λx)) ∂x = λe−λx (1 + λx) − λe−λx =
= λ2 xe−λx = f (x). Außerdem gilt f (x) = 0 und folglich P (X ≤ x) = 0 f¨ ur x ≤ 0. Wegen F (x) = 0 f¨ ur x < 0 und F (0) = 1 − e0 = 1 − 1 = 0 gilt F (x) = P (X ≤ x) auch f¨ ur x ≤ 0. Insgesamt ist also F (x) die zugeh¨orige Verteilungsfunktion. (c) F¨ ur n = 2 und λ = 1 ist xe−x , x ≥ 0 f (x) = 0 sonst. Dann gilt:
142
6. Stetige Zufallsvariablen
∞
∞ x · f (x) dx =
E(X) = 0
x2 e−x dx = E(Y 2 ),
0
wobei Y eine zum Parameter λ = 1 exponentialverteilte Zufallsvariable darstellt. Wegen 1 1 = V ar(Y ) = E(X 2 ) − (E(Y ))2 = E(Y 2 ) − 2 2 λ λ folgt E(X) = 2/λ2 = 2. F¨ ur den Median gilt F (xmed ) = 0.5, also 1 − e−xmed (1 + xmed ) = ⇐⇒
e
−xmed
(1 + xmed ) =
0.5 0.5.
Diese Gleichung l¨ aßt sich numerisch l¨ osen. Man erh¨alt xmed = 1.7 (vgl. die Abbildung der Verteilungsfunktion). F¨ ur den Modus gilt ∂ f (x)|x=xmod = 0, ∂x also e−xmod − xmod e−xmod = ⇐⇒ e−xmod (1 − xmod ) = ⇐⇒ xmod =
0 0 1.
Wegen xmod < xmed < E(X) liegt eine linkssteile (rechtsschiefe) Verteilung vor. Die folgende Skizze zeigt den Verlauf der Dichte und der Verteilungsfunktion: Verteilungsfunktion F(x)
Dichte f(x)
1.0 0.3
0.8 0.6
0.2
0.4 0.1
0.2 0.0
0.0 0
1
2
3 x
4
5
6
0
Modus 190) 114 − 150 190 − 150 Φ +1−Φ 36 36 Φ(−1) + 1 − Φ(1.11)
= =
1 − Φ(1) + 1 − Φ(1.11) 2 − 0.8413 − 0.8665
=
0.2922.
=
Diese Wahrscheinlichkeit l¨ aßt sich analog darstellen als: f (x)
6 ........... ... ..... ... ... ... ... ... .... ... . . ... .. . ... .... ... ... ... ... ... ... ... ... . . ... . ... . ... . ... ... .. . ... ... ... .. ... . ..... .. ... ... ...... . . . . . ... ... ... .... ... .. ... ... .... . ... ... ... .... ... ... ... ... ... ... ... ... ... . ... . . ...... . .. ......... . . . .... ....... .. . .... ... .... ... ... . .. ... .. . . . . . ... . . .. . .. ... ... . ... . . . . ... . . .. . ... ... . . .. . .. . ..... . . . . . ...... . . ... . . . . . . . . ........ . .... . . . .................................... . . . . . . . . . . . . . . . . . ......................
P (X < 114)
P (X > 190)
114
190
(b3) Hier ergibt sich: P (X > 175) = 1 − P (X ≤ 175) 175 − 150 = 1−Φ 36 = 1 − Φ(0.69) = 1 − 0.7549 = 0.2451.
x
6. Stetige Zufallsvariablen
147
Die Skizze dieser Wahrscheinlichkeit hat folgende Gestalt: f (x)
6 ...... .... ...... ... ... ... ... ... .. . ... .. . ... .. . ... .. .... . ....... . . .. .... .. .... ... . ... .... .. ... .. .... .. .. ... ... ... .... .... ... .. . ... ... .... . ... .. ... ... ... ... ..... .. ... .. ... ... .... .... ... . ... ... .. ........ ... ... ... ... . .... .... .. . . ..... .. .. . . . ..... . .. ... ... . ...... . . . . .. ... . ....... . . .... . . . . . . . ............. . ... . . . . . . .................................... . . . .................................. .
P (X > 175)
175
x
(b4) Analog zu oben l¨ aßt sich diese Wahrscheinlichkeit berechnen als: 200 − 150 130 − 150 P (130 < X < 200) = Φ −Φ 36 36 = Φ(1.39) − Φ(−0.56) = 0.9177 − 1 + Φ(0.56) = =
0.9177 − 1 + 0.7123 0.63
mit der folgenden Darstellung: f (x)
6
P (130 < X < 200)
... ... ... .............. . . .. .... ...... . .. .. ... . ... ... ... .. . ..... .... . .. .... ...... ... . .... .... .. . . .. ... . ..... .. .... .. . .... . .. . . .... . .... ... . . .... . .. ... ... . ..... . .... ... . .... . .. . . . . . ..... . .... ... . . ..... ... .... ... . . ...... . .... ... . . . ...... . . . . ... .... . .... ... .. .. . . . ... ..... . . .... ... . . ... ..... . .. . . . .. .... . .. . . . . ... . .. . . ... ... ... .. .... . . . . . .. . ..... . ... . . . . . ....... . . . . . . . . . .... . .............. . . . . . . . . . . . . ......................... ............................. . .
130
200
x
(c) Gesucht ist hier das 10 %-Quantil x0.1 mit P (X ≤ x0.1 ) = 0.1. Zur Berechnung nutzt man aus, daß x0.1 = z0.1 · σ + μ, wobei z0.1 das 10 %Quantil der N (0, 1).
148
6. Stetige Zufallsvariablen
Aus Tabelle A in Fahrmeir et al. (1998) l¨aßt sich das 90 %-Quantil der Standardnormalverteilung ablesen: z0.9 = 1.2816 =⇒ z0.1 = −1.2816 =⇒ x0.1 = −1.2816 · 36 + 150 = 103.8624, d.h. mit einer Wahrscheinlichkeit von 10 % sind die im Leistungstest erreichten Punktezahlen kleiner gleich 103.8624. (d) Der Leistungstest wird an n = 49 Personen unabh¨angig durchgef¨ uhrt, ur jede der 49 Personen mit Xi u.i.v. d.h. X1 , ..., X49 = Punktzahlen f¨ ¯ = 1 49 Xi . Es gilt: X ¯ ∼ N (150, 362 ), gem¨ aß N (150, 362). Betrachte X i=1 49 49 woraus folgt: 140 − 150 ¯ P (X < 140) = Φ = Φ(−1.94) 36/7 = 1 − Φ(1.94) = 1 − 0.9738 = 0.0262. ¯ Werte kleiner als 140 annimmt, ist mit Die Wahrscheinlichkeit, daß X 0.0262 wesentlich kleiner als die 0.3897 f¨ ur jedes einzelne Xi . Das liegt 2 ¯ daran, daß X eine kleinere Varianz besitzt ( σn ) als Xi (σ 2 ). Das bedeutet, daß sich die Wahrscheinlichkeitsmasse st¨arker um μ konzentriert und dadurch extreme Werte mit geringerer Wahrscheinlichkeit auftreten.
L¨ osung 6.17 Sei X die Zufallsvariable t¨ agliche Ver¨ anderung in Euro“. Es gilt X ∼ N (0, 3) ” und somit √X3 ∼ N (0, 1). (a) Die gesuchte Wahrscheinlichkeit berechnet sich wie folgt: P (X ≥ 2) = =
1 − P (X ≤ 2) = 1 − P ( √X3 ≤
√2 ) 3
1 − Φ(1.15) = 1 − 0.8749 = 0.1251.
(b) Die Wahrscheinlichkeit f¨ ur eine absolute Ver¨anderung von h¨ochstens 1 EUR betr¨ agt P (|X| ≥ 1) = P (−1 ≤ X ≤ 1) = Φ( √13 ) − Φ(− √13 ) = 2 · Φ(0.58) − 1 = 2 · 0.7190 − 1 = 0.438. (c) Der Kurs Y nach 10 Tagen ist gegeben durch Y = 2 + X1 + . . . + X10 . Die Summe unabh¨ angiger normalverteilter Zufallsvariablen ist wieder normalverteilt. Außerdem gilt E(Y ) = 2 + 10 · E(X) = 2 + 10 · 0 = 2 und
6. Stetige Zufallsvariablen
149
V ar(Y ) = 10 · V ar(X) = 10 · 3 = 30, so dass wir Y ∼ N (2, 30) erhalten. Die Wahrscheinlichkeit, dass an 4 Tagen der Kurs um mindestens 0.50 EUR f¨allt, errechnet sich wie folgt: P (X1 ≤ −0.5, X2 ≤ −0.5, X3 ≤ −0.5, X4 ≤ −0.5) =
P (X1 ≤ −0.5)4
=
√ )4 Φ( −0.5 3
=
(1 − Φ(0.29))4
=
0.0222.
Dabei haben wir die Unabh¨ angigkeit der Zufallszahlen X1 − X4 ausgenutzt. (d) Die Zufallsvariable Z ist Binomialverteilt mit Parametern n = Anzahl der Tage = 5 und π = P ( Kurs f¨ allt“) = P (X < 0) = Φ(0) = 12 . ” 1 Es gilt also Z ∼ B(5, 2 ) Damit der Kurs an 5 Tagen h¨aufiger steigt als f¨ allt, muss er an mindestens 3 Tagen steigen. Wir erhalten P (Z ≥ 3) = = =
P (Z = 3) + P (Z = 4) + P (Z = 5) 5 5 5 0.55 + 0.55 + 0.55 3 5 5 (10 + 5 + 1) · 0.55 = 0.5.
¨ Alternativ l¨ asst sich die gesuchte Wahrscheinlichkeit durch einfache Uberlegung bestimmen: An f¨ unf Tagen kann der Kurs nicht gleich oft steigen und fallen. Da die Wahrscheinlichkeit f¨ ur ein Fallen des Kurses genau 1 betr¨ a gt, m¨ u ssen aus Symmetriegr¨ u nden die Wahrscheinlichkeiten f¨ ur 2 h¨ aufiger Steigen bzw. h¨ aufiger Fallen gleich groß sein, d.h. beide gleich 1 2.
L¨ osung 6.18 (a) Das Endverm¨ogen ist gegeben durch W
=
x(1 + R) + (v − x)(1 + z)
= ∼
x + xR + v − x + (v − x)z N (xμ + v + (v − x)z, x2 σ 2 ).
(b) Mit den gegebenen Werten erhalten wir als Verm¨ogen W
∼ N (5.000 · 0.03 + 10000 + 5000 · 0.04, 50002 · 0.032 ) = N (10350, 1502).
Damit berechnet sich die gesuchte Wahrscheinlichkeit wie folgt:
150
6. Stetige Zufallsvariablen
P (W ≥ 10500) = 1 − P (W ≤ 10500) 10500 − 10350 = 1−Φ 150 = 1 − Φ(1) = 1 − 0.8413 = 0.1587. (c) Eine Erh¨ ohung von μ, z oder σ 2 erh¨ oht jeweils die Wahrscheinlichkeit eines mindestens 5 prozentigen Wachstums. (d) Der erwartete Nutzen berechnet sich prinzipiell durch ∞ E(U (W )) = −∞
! w" · f (w) dw, − exp − a
wobei f (w) die Dichte einer N (xμ + v + (v − x)z, x2 σ 2 ) Verteilung ist. Unter Ausnutzung der angegebenen Formel f¨ ur E(U (W )) erhalten wir E(U (W )) = xμ + v + (v − x)z − a
x2 σ 2 . 2
Differenzieren nach x und Nullsetzen liefert ∂E(U (W )) = μ − z − axσ 2 = 0. ∂x Aufl¨ osen nach x liefert den optimalen Anlagebetrag xopt =
μ−z . aσ 2
Der optimale Anlagebetrag wird wie folgt von den jeweiligen Gr¨oßen beeinflusst: – xopt ist unabh¨angig vom Anfangsverm¨ ogen v. – xopt ist umso gr¨ oßer, je gr¨ oßer die erwartete Rendite μ der unsicheren Anlage. xopt steigt linear mit μ. – xopt sinkt linear mit steigendem Zinssatz z der sicheren Anlage. – xopt sinkt mit steigender Varianz σ 2 der unsicheren Anlage. – xopt sinkt mit steigendem Risikoaversionskoeffizient a.
L¨ osung 6.19 ¯ gilt X ¯ ∼ N (μ, σ2 ). (a) F¨ ur das arithmetische Mittel X n ¯ ¯ ¯ = σ2 , ist √n X−μ gerade die standardisierte Form von X, (b) Da V ar(X) n σ und damit gilt: ¯ −μ √ X ∼ N (0, 1). n σ
6. Stetige Zufallsvariablen
151
¯ ∼ N (1, 5). Die Quantile sind folgender Tabelle zu entnehmen: (c) Es gilt X
75 90 95 97.5 99
p % % % % %
Zp 0.67 1.28 1.64 1.96 2.33
¯p X 1−p 2.498 25 % 3.862 10 % 4.667 5% 5.383 2.5 % 6.210 1%
¯ 1−p X −0.498 −1.862 −2.667 −3.383 −4.210
Betrachte als Berechnungsbeispiel f¨ ur p = 99 % und p = 1 % (siehe Formeln in Abschnitt 6.3.1, Fahrmeir et al., 1998): √ ¯ 0.99 = 1 + 5 · 2.33 = 6.21, X √ ¯ 0.01 = 1 + 5 · (−2.33) = −4.21. X (d) Beispielsweise ist ein 90 % Schwankungsintervall gegeben durch: I90 = [−2.667 , ↑ 5% Quantil ¯ von X
4.667] ↑ 95 % Quantil ¯ von X
¯∈ Es gilt α = P (X / I90 ) = 0.1. V¨ ollig analog erh¨ alt man weitere zentrale Schwankungsintervalle.
L¨ osung 6.20 (a) Wir beginnen zuerst mit der Annahme, daß X normalverteilt ist. Dann gilt Y = X−0.0007 ∼ N (0, 1), und es folgt 0.013 P (X > 0.04) = = = =
1 − P (X ≤ 0.04) 1 − P Y ≤ 0.04−0.0007 0.013 1 − P (Y ≤ 3.023) 1 − 0.9987 = 0.0013.
Das zentrale Schwankungsintervall ist gegeben durch μ ± σ · z0.995 = 0.0007 ± 0.013 · 2.57. Man erh¨ alt also als zentrales Schwankungsintervall I = [−0.03271, 0.03411].
152
6. Stetige Zufallsvariablen
(b) Empirische Analysen zeigen, daß eine t-Verteilung besser zur Modellierung von Renditen geeignet ist. Wir treffen deshalb die Verteilungsannahme Y ∼ t(1). Damit folgt P (X > 0.04) = 1 − P (Y ≤ 3.023) ≈ 1 − 0.9 ≈ 0.1. Ein zentrales Schwankungsintervall kann hier nicht berechnet werden, weil die t-Verteilung mit einem Freiheitsgrad keinen Erwartungswert besitzt.
7 Mehr u ¨ber Zufallsvariablen und Verteilungen
Aufgaben Aufgabe 7.1 Welche approximativen Verteilungen besitzen die folgenden Zufallsvariablen? (a) Der Frauenanteil an der Gesamtzahl der Besch¨aftigten liegt im Land NRW bei 41.4 % (Ende M¨ arz 1990). X1 sei die Anzahl der Frauen unter 100 zuf¨ allig ausgew¨ ahlten Besch¨ aftigten dieses Landes. (b) Eine Pharmagroßhandlung beliefert t¨ aglich 500 Apotheken. Die Wahrscheinlichkeit einer Reklamation betr¨ agt bei allen Apotheken (unabh¨ angig voneinander) 0.02. X2 sei die Anzahl der Reklamationen an einem Tag. (c) Der spiels¨ uchtige Willi verbringt seine Abende oft an einem Spielautomaten, bei dem ein Spiel 50 Pfennig kostet. Die Zufallsvariable X = Gewinn (in DM) hat folgende Wahrscheinlichkeitsfunktion: P(X = −0.5) = 0.6 ,
P(X = 0) = 0.2 ,
P(X = 1) = 0.2.
Sei X3 der Gewinn bei 100 Spielen. (d) Ein Mann, der jeden Morgen mit dem Bus zur Arbeit f¨ahrt, hat oftmals das Pech, daß die ankommenden Busse u ullt sind und weiterfahren. ¨berf¨ Er weiß aus Erfahrung, daß die Anzahl der an einem Morgen vorbeifahrenden Busse Poisson-verteilt ist mit Erwartungswert 1. Sei X4 die Anzahl der pro Halbjahr (=100 Arbeitstage) vorbeifahrenden Busse. (L¨osung siehe Seite 156)
Aufgabe 7.2 Die Studie zum Gesundheitszustand von Fr¨ uhgeburten aus Aufgabe 6.15 wurde an mehreren Kliniken durchgef¨ uhrt, so daß insgesamt 500 Kinder teilgenommen haben. Welche Verteilung besitzt die Anzahl der Kinder, die weniger
154
7. Mehr u ¨ ber Zufallsvariablen und Verteilungen
als 980 g wiegen? Wie groß ist die Wahrscheinlichkeit, daß genau 175 Kinder der Studie ein Geburtsgewicht kleiner als 980 g aufweisen? (L¨osung siehe Seite 156)
Aufgabe 7.3 In der Situation von Aufgabe 5.21 befragt der Journalist zuf¨allig f¨ unf der 200 Angestellten eines Kaufhauses. Wie lauten ann¨ahernd die gesuchten Wahrscheinlichkeiten, wenn der Anteil der Angestellten, die bereit sind, l¨anger zu arbeiten, wieder gleich 0.2 ist? Welche approximative Verteilung hat die interessierende Zufallsvariable ferner, wenn 40 Personen der ganzen Warenhauskette mit 1000 angestellten Verk¨ auferinnen befragt w¨ urden? (L¨osung siehe Seite 156)
Aufgabe 7.4 In einem sehr fruchtbaren Land erntet ein Bauer jede Woche 700 Salatk¨opfe. Sein Bruder, der in einem ¨ außerst unfruchtbaren Land lebt, kann von seinem Feld w¨ ochentlich lediglich 40 Salatk¨ opfe ernten. Aus langj¨ahriger Erfahrung ist bekannt, daß ein Prozent der Salatk¨ opfe von der sch¨adlichen Salatfraßraupe befallen werden. Welche Verteilungsmodelle eignen sich jeweils zur Approximation der Anzahl der w¨ ochentlich von der Raupe befallenen Salatk¨opfe? Bestimmen Sie die Wahrscheinlichkeit, daß mindestens zwei, aber nicht mehr als sechs Salatk¨ opfe befallen sind. (L¨osung siehe Seite 157)
Aufgabe 7.5 Ihr kleiner Neffe bastelt eine 50-teilige Kette, deren einzelne Glieder im Mittel eine L¨ ange von 2 cm mit einer Standardabweichung von 0.2 cm aufweisen. Welche Verteilung hat die Gesamtl¨ ange der Spielzeugkette? (L¨osung siehe Seite 158)
Aufgabe 7.6 Die Nettomiete von Zwei-Zimmer-Wohnungen eines Stadtteils sei ann¨ahernd symmetrisch verteilt mit Erwartungswert 570 und Standardabweichung 70. Es wird eine Zufallsstichprobe von 60 solcher Wohnungen gezogen. Geben Sie mit Hilfe der Ungleichung von Tschebyscheff ein um den Erwartungswert symmetrisches Intervall an, in dem das Stichprobenmittel mit 95 % Wahrscheinlichkeit liegt. (L¨osung siehe Seite 158)
7. Mehr u ¨ ber Zufallsvariablen und Verteilungen
155
Aufgabe 7.7 Eine Fertigungslinie stellt Fußb¨ alle her, deren Durchmesser im Mittel normgerecht ist, aber eine Standardabweichung von 0.4 cm aufweisen. B¨alle, die mehr als 0.5 cm von der Norm abweichen, gelten als Ausschuß. Wie groß ist der Ausschußanteil h¨ ochstens? (L¨osung siehe Seite 158)
Aufgabe 7.8 Wie kann man mit Hilfe von normalverteilten Zufallszahlen t-verteilte Zufallszahlen simulieren? (L¨osung siehe Seite 158)
Aufgabe 7.9 Bestimmen Sie den Quartilskoeffizienten der geometrischen Verteilung mit π = 0.5 sowie der Exponentialverteilung mit dem Parameter λ = 0.5. (L¨osung siehe Seite 159)
156
7. Mehr u ¨ ber Zufallsvariablen und Verteilungen
L¨ osungen L¨ osung 7.1 a
(a) X1 ∼ B(100, 0.414) ∼ N (100 · 0.414, 100 · 0.414 · 0.586) = N (41.4, 24.26). a (b) X2 ∼ B(500, 0.02) ∼ P o(500 · 0.02) = P o(10). (c) Sei Yi = Gewinn bei einem Spiel, i = 1, . . . , 100. Es gilt = E(Yi ) V ar(Yi ) =
−0.5 · 0.6 + 1 · 0.2 = −0.1, 0.25 · 0.6 + 0.2 − 0.01 = 0.34.
Damit folgt X3 =
100
a
Yi ∼ N (−10, 34).
i=1 a
(d) X4 ∼ P o(100) ∼ N (100, 100).
L¨ osung 7.2 Zun¨ achst gilt: X − 1000 ≤ −0.4 = Φ(−0.4) P (X < 980) = P (X ≤ 980) = P 50 = 1 − Φ(0.4) = 1 − 0.6554 = 0.3446.
Damit ist Y = Anzahl der Kinder mit weniger als 980 Gramm binomialverteilt mit Y ∼ B(500, 0.34446), und es gilt (unter Ber¨ ucksichtigung der Stetigkeitskorrektur) 175 + 0.5 − 500 · 0.3446 P (Y = 175) ≈ Φ √ 500 · 0.3446 · 0.6554 175 − 0.5 − 500 · 0.3446 −Φ √ 500 · 0.3446 · 0.6554 = Φ(0.3) − Φ(0.21) = 0.6179 − 0.5832 = 0.0347.
L¨ osung 7.3 Exakt gilt X ∼ H(5, 40, 200). Wegen n/N = 5/200 = 0.025 ≤ 0.05 kann die hypergeometrische Verteilung durch die Binomialverteilung approximiert a alt man mit Hilfe der Tabelle werden, d.h. X ∼ B(5, 0.2). Dann erh¨
7. Mehr u ¨ ber Zufallsvariablen und Verteilungen
P (X = 0) ≈
0.3277,
P (X = 2) ≈ P (X ≥ 2) ≈
0.9421 − 0.7373 = 0.2048, 1 − P (X ≤ 1) = 1 − 0.7373 = 0.2627.
157
F¨ ur n = 40 und N = 1000 ist wegen n/N = 0.04 ≤ 0.05, nM/N = 40 · 0.2 = 8 ≥ 5 und n(1 − M/N ) = 40 · 0.8 = 32 ≥ 5 die Faustregel zur Approximation a der H(40, 200, 100) durch die Normalverteilung erf¨ ullt, d.h. X ∼ N (8, 6.4)
L¨ osung 7.4 Sei X1 = Anzahl der befallenen Salatk¨ opfe im fruchtbaren Land und entspreopfe im unfruchtbaren Land. Unter chend X2 = Zahl der befallenen Salatk¨ der Annahme, daß die Salatk¨ opfe unabh¨ angig voneinander befallen werden, gilt X1 ∼ B(700, 0.01) und X2 ∼ B(40, 0.01). Wegen nπ = 700 · 0.01 ≥ 5 und n(1 − π) = 700 · 0.99 = 693 ≥ 5 sind die Faustregeln f¨ ur die Approximation der Binomialverteilung durch die Normalverteilung erf¨ ullt und man erh¨alt a
X1 ∼ N (nπ, nπ(1 − π)) = N (7, 6.93). Dar¨ uber hinaus kann die Verteilung von X1 wegen π = 0.01 ≤ 0.05 und n = 700 > 30 auch durch die Poisson-Verteilung approximiert werden, d.h. a
X1 ∼ P o(7). Unter Zuhilfenahme der Normalapproximation erh¨alt man P (2 ≤ X1 ≤ 6) = = =
√ √ Φ( 6+0.5−7 ) − Φ( 1+0.5−7 ) 6.93 6.93 Φ(−0.19) − Φ(−2.09) 1 − 0.5753 − 1 + 0.9817 = 0.4064.
Dagegen erh¨ alt man unter Ber¨ ucksichtigung der Poissonapproximation P (2 ≤ X1 ≤ 6) = 0.0223 + 0.05212 + 0.0912 + 0.1277 + 0.149 = 0.4423. aßt sich nicht durch eine Normalverteilung approxiDie Verteilung von X2 l¨ mieren, jedoch wegen n = 40 ≥ 30 und π = 0.01 ≤ 0.05 durch eine PoissonVerteilung. Es gilt also a
X2 ∼ P o(40 · 0.01) = P o(0.4). Damit erh¨ alt man P (2 ≤ X2 ≤ 6) = 0.0536 + 0.0071 + 0.0007 + 0 + 0 = 0.0615.
158
7. Mehr u ¨ ber Zufallsvariablen und Verteilungen
L¨ osung 7.5 ange des i-ten Gliedes. Dann gilt E(Xi ) = 2 und V ar(Xi ) = 0.04 Sei Xi = L¨ f¨ ur alle i = 1, . . . , 50. Nach zentralen Grenzwertsatz ist dann die Gedem 50 samtl¨ ange der Kette Y = i=1 Xi approximativ normalverteilt mit Erwartungswert E(Y ) = 50 · 2 = 100 und Varianz V ar(Y ) = 50 · 0.04 = 2.0.
L¨ osung 7.6 Sei Xi = Nettomiete der i-ten Wohnung in der Stichprobe mit E(Xi ) = 570 ¯ = 1 60 Xi hat dann den und V ar(Xi ) = 4900. Das Stichprobenmittel X i=1 60 ¯ = 570 und die Varianz V ar(X) ¯ = 4900/60 = 81.67. Erwartungswert E(X) Nach der Ungleichung von Tschebyscheff gilt f¨ ur c > 0 ¯ − 570|) < c) ≥ 1 − 81.67 . P (|X c2 ¯ mit mindestens 95 % Wahrscheinlichkeit in dem gesuchten Intervall Da X I liegen soll, folgt 1 − 81.67/c2 = 0.95 und c = 81.67/0.05 = 40.41, also I = [529.6, 610.4].
L¨ osung 7.7 Sei X = Abweichung des Durchmessers des Fußballs vom Normwert mit E(X) = 0 und V ar(X) = 0.16. Dann gilt nach der Ungleichung von Tschebyscheff 0.16 P (|X| > 0.5) ≤ = 0.64, 0.25 d.h. der Ausschußanteil betr¨ agt h¨ ochstens 64 %.
L¨ osung 7.8 Angenommen, man verf¨ ugt u ¨ ber Zufallszahlen x, z1 , . . . , zn , die als Realisationen von unabh¨ angigen standardnormalverteilten Zufallsvariablen angesehen n werden k¨ onnen. Dann erh¨ alt man mit z = zi2 eine χ2 (n)-verteilte Zufallsi=1 zahl, und t = x/ z/n kann als t(n)-verteilte Zufallszahl betrachtet werden.
7. Mehr u ¨ ber Zufallsvariablen und Verteilungen
159
L¨ osung 7.9 Die Wahrscheinlichkeitsverteilung der geometrischen Verteilung f¨ ur π = 0.5 entnimmt man unter Zuhilfenahme von P (X = x) = 0.5x folgender Tabelle: x P (X = x)
1 2 3 ··· 0.5 0.25 0.125 · · ·
Wegen P (X ≤ 1) = 0.5 ≥ 0.25 und P (X ≥ 1) = 1.0 ≥ 0.75 gilt x0.25 = 0.5. Ferner erh¨ alt man xmed = 1 und x0.75 = 2, also
γ0.25
= =
(x0.75 − xmed ) − (xmed − x0.25 ) x0.75 − xmed (2 − 1) − (1 − 1) = 1. 2−1
Die Verteilungsfunktion der Exponentialverteilung mit Parameter λ = 0.5 lautet F (X) = 1 − e−0.5x (x > 0). Folglich gilt 1 − e−0.5xp ⇐⇒ −0.5xp ⇐⇒ xp
= = =
p log(1 − p) −2 log(1 − p)
und damit x0.25 = 0.575, xmed = 1.386 und x0.75 = 2.773. Daraus ergibt sich
γ0.25
= =
(2.773 − 1.386) − (1.386 − 0.575) 2.773 − 0.575 0.576 = 0.262. 2.198
8 Mehrdimensionale Zufallsvariablen
Aufgaben Aufgabe 8.1 Die gemeinsame Verteilung von X und Y sei durch die folgende Kontingenztafel der Auftretenswahrscheinlichkeiten gegeben:
X
1 2
1 0.25 0.10
Y 2 0.15 0.15
3 0.10 0.25
Man bestimme (a) (b) (c) (d)
den Erwartungswert und die Varianz von X bzw. Y , die bedingten Verteilungen von X|Y = y und Y |X = x, die Kovarianz und die Korrelation von X und Y , die Varianz von X + Y .
(L¨osung siehe Seite 165)
Aufgabe 8.2 Gegeben sind zwei diskrete Zufallsvariablen X und Y . Die Zufallsvariable X ¨ kann die Werte 1, 2 und Y die Werte −1, 0 und 1 annehmen. Uber die gemeinsame Wahrscheinlichkeitsverteilung von X und Y ist folgendes bekannt:
1
−1 p
yj 0 0.1
1 0.5
xi 2
0.2 0.35
(a) Bestimmen Sie p so, daß X und Y unkorreliert sind. Berechnen Sie dazu zun¨ achst E(X) und E(Y ) und zudem E(XY ) in Abh¨angigkeit von p.
162
8. Mehrdimensionale Zufallsvariablen
(b) Sind X und Y unabh¨ angig? Begr¨ unden Sie Ihre Antwort. (L¨osung siehe Seite 166)
Aufgabe 8.3 X und Y seien zwei abh¨ angige Zufallsvariablen. Die Randdichte von X und die bedingten Dichten von Y gegeben X = 1 bzw. X = 2 sind folgendermaßen gegeben: xi
1
2
P (X = xi )
1 5
4 5
−1
0
1
P (Y = yj | X = 1)
1 4
1 4
2 4
P (Y = yj | X = 2)
1 3
1 3
1 3
yj
Bestimmen Sie (a) die gemeinsame diskrete Dichte von X und Y , (b) die Wahrscheinlichkeitsfunktion von Z = X + Y , (c) E(Z) und V ar(Z) (c1) direkt u ¨ ber die Verteilung von Z, (c2) u ¨ ber die Verteilungen von X und Y . (L¨osung siehe Seite 167)
Aufgabe 8.4 Gegeben sei die von einem Parameter c abh¨ angige Funktion cx + y f¨ ur 0 ≤ x ≤ 1 und 0 ≤ y ≤ 1 f (x, y) = 0 sonst. (a) Bestimmen Sie c so, daß f (x, y) eine Dichtefunktion ist. (b) Berechnen Sie die Randdichten und Randverteilungsfunktionen von X und Y . (c) Sind X und Y voneinander unabh¨ angig? Begr¨ unden Sie Ihre Antwort. (d) Bestimmen Sie die Verteilungsfunktion F (x, y) . (L¨osung siehe Seite 169)
Aufgabe 8.5 Die gemeinsame Wahrscheinlichkeitsfunktion von X und Y sei bestimmt durch x+y ur x, y ∈ {0, 1, . . .} e−2λ λx!y! f¨ f (x, y) = 0 sonst.
8. Mehrdimensionale Zufallsvariablen
163
(a) Man bestimme die Randverteilungen von X und Y . (b) Man bestimme die bedingten Verteilungen von X|Y = y und Y |X = x und vergleiche diese mit den Randverteilungen. (c) Man bestimme die Kovarianz von X und Y . (L¨osung siehe Seite 170) Aufgabe 8.6 Die Zufallsvariable X besitze folgende Wahrscheinlichkeitsfunktion: 1 i ∈ {1, . . . n} n P (X = i) = 0 sonst. Die Zufallsvariable Y kann nur die Auspr¨ agungen 1, 2 oder 3 annehmen, wobei gilt: – P (Y = 1) = 2 · P (Y = 2) = 4 · P (Y = 3). – X und Y sind stochastisch unabh¨ angig. (a) Bestimmen Sie die gemeinsame Wahrscheinlichkeitsfunktion der Zufallsvariable (X, Y ). (b) Berechnen Sie P (X > n2 , Y ≤ 2). (c) Berechnen Sie E(X · Y ). (L¨osung siehe Seite 171) Aufgabe 8.7 Der T¨ ursteher einer Nobeldiskothek entscheidet sequentiell. Der erste Besucher wird mit der Wahrscheinlichkeit 0.5 eingelassen, der zweite mit 0.6 und der dritte mit 0.8. Man betrachte die Zufallsvariable X: “Anzahl der eingelassenen Besucher unter den ersten beiden Besuchern” und Y : “Anzahl der eingelassenen Besucher unter den letzten beiden Besuchern”. (a) Man gebe die gemeinsame Wahrscheinlichkeitsfunktion von X und Y an. (b) Man untersuche, ob X und Y unabh¨ angig sind. (L¨osung siehe Seite 172) Aufgabe 8.8 Ein Anleger verf¨ ugt zu Jahresbeginn u ¨ber 200000 Euro. 150000 Euro legt er bei einer Bank an, die ihm eine zuf¨ allige Jahresrendite R1 garantiert, welche gleichverteilt zwischen 6 % und 8 % ist. Mit den restlichen 50000 Euro spekuliert er an der B¨ orse, wobei er von einer N (8, 4)-verteilten Jahresrendite R2 (in %) ausgeht. Der Anleger geht davon aus, daß die Renditen R1 und R2 unabh¨ angig verteilt sind.
164
8. Mehrdimensionale Zufallsvariablen
(a) Man bestimme den Erwartungswert und die Varianz von R1 und R2 . (b) Man berechne die Wahrscheinlichkeiten, daß der Anleger an der B¨orse eine Rendite von 8 %, von mindestens 9 % bzw. zwischen 6 % und 10 % erzielt. (c) Wie groß ist die Wahrscheinlichkeit, daß der Anleger bei der Bank eine Rendite zwischen 6.5 % und 7.5 % erzielt? (d) Man stelle das Jahresendverm¨ ogen V als Funktion der Renditen R1 und R2 dar und berechne Erwartungswert und Varianz von V . (e) Angenommen, die beiden Renditen sind nicht unabh¨angig, sondern korrelieren mit ρ = −0.5. (e1) Wie lautet die Kovarianz zwischen R1 und R2 ? (e2) Wie w¨ urden Sie die 200000 Euro aufteilen, um eine minimale Varianz der Gesamtrendite zu erzielen? Wie ¨andert sich die zu erwartende Rendite? (L¨osung siehe Seite 173)
Aufgabe 8.9 Von den Zufallsvariablen X und Y ist bekannt, daß V ar(X) = 1, V ar(Y ) = 4 und V ar(3X +2Y ) = 13 gelten. Wie groß ist dann der Korrelationskoeffizient ρ(X, Y )? (L¨osung siehe Seite 175)
8. Mehrdimensionale Zufallsvariablen
L¨ osungen L¨ osung 8.1 (a) Es gelten P (X = 1) = 0.25 + 0.15 + 0.10 = 0.5, P (X = 2) = 0.10 + 0.15 + 0.25 = 0.5 und damit E(X) = E(X 2 ) =
1 · 0.5 + 2 · 0.5 = 1.5, 1 · 0.5 + 4 · 0.5 = 2.5,
woraus man berechnet: V ar(X) = E(X 2 ) − (E(X))2 = 2.5 − 2.25 = 0.25. Analog erh¨ alt man E(Y ) E(Y 2 ) V ar(Y )
= 1 · 0.35 + 2 · 0.3 + 3 · 0.35 = 2 , = 1 · 0.35 + 4 · 0.3 + 9 · 0.35 = 4.7 , = 4.7 − 4 = 0.7 .
(b) Die bedingte Verteilung von X gegeben Y = y berechnet sich als:
fX (x | y = 1) =
fX (x | y = 2) =
⎧ 0.25 ⎪ ⎪ ⎨ 0.35 = 0.71 ⎪ ⎪ ⎩ 0.10 = 0.29 0.35 ⎧ 0.15 ⎪ ⎪ ⎨ 0.30 = 0.50
⎪ ⎪ ⎩ 0.15 = 0.50 0.30 ⎧ 0.10 ⎪ ⎪ ⎨ 0.35 = 0.29 fX (x | y = 3) = ⎪ ⎪ ⎩ 0.25 = 0.71 0.35
f¨ ur x = 1 f¨ ur x = 2, f¨ ur x = 1 f¨ ur x = 2. f¨ ur x = 1 f¨ ur x = 2.
165
166
8. Mehrdimensionale Zufallsvariablen
Ebenso erh¨ alt man als bedingte Verteilung von Y gegeben X = x: ⎧ 0.25 ⎪ ⎪ = 0.50 f¨ ur y = 1 ⎪ ⎪ 0.50 ⎪ ⎪ ⎪ ⎪ ⎨ 0.15 fY (y | x = 1) = = 0.30 f¨ ur y = 2 ⎪ 0.50 ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎩ 0.10 = 0.20 f¨ ur y = 3, 0.50 ⎧ 0.10 ⎪ ⎪ = 0.20 f¨ ur y = 1 ⎪ ⎪ 0.50 ⎪ ⎪ ⎪ ⎪ ⎨ 0.15 fY (y | x = 2) = = 0.30 f¨ ur y = 2 ⎪ 0.50 ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎩ 0.25 = 0.50 f¨ ur y = 3. 0.50 (c) Es gilt E(X · Y ) = =
1 · 0.25 + 2 · (0.15 + 0.1) + 3 · 0.1 + 4 · 0.15 + 6 · 0.25 0.25 + 0.5 + 0.3 + 0.6 + 1.5 = 3.15 .
Damit erh¨ alt man Cov(X, Y ) = = =
E(X · Y ) − E(X) · E(Y ) 3.15 − 1.5 · 2 0.15
und folglich Cov(X, Y ) 0.15 ρ(X, Y ) = =√ = 0.359. 0.25 · 0.7 V ar(X) · V ar(Y ) (d) F¨ ur die Varianz von X + Y gilt: V ar(X + Y ) = =
V ar(X) + V ar(Y ) + 2 · Cov(X, Y ) 0.25 + 0.7 + 2 · 0.15 = 1.25.
L¨ osung 8.2 (a) Zun¨ achst werden die Erwartungswerte von X und Y sowie von E(XY ) in Abh¨ angigkeit von p berechnet, wobei man f¨ ur X und Y jeweils die Randwahrscheinlichkeiten verwendet, f¨ ur die p keine Rolle spielt.
8. Mehrdimensionale Zufallsvariablen
E(X) = E(Y ) = und
E(XY ) = = =
167
0.5 · 1 + 0.5 · 2 = 1.5, 0.35 · (−1) + 0.35 · 1 = 0 (−2)(0.35 − p) + (−1)p + 1(0.4 − p) + 2(p − 0.05) −0.7 + 2p − p + 0.4 − p + 2p − 0.1 2p − 0.4.
Nun ist Cov(XY ) = E(XY ) − E(X)E(Y ) = 2p − 0.4 = 0 ⇐⇒ ⇐⇒
2p = 0.4 p = 0.2.
(b) X und Y sind nicht unabh¨ angig voneinander, da beispielsweise P (X = 1, Y = −1) = =
p = 0.2 = 0.175 = 0.5 · 0.35 P (X = 1)P (Y = −1).
L¨ osung 8.3 (a) Es gilt allgemein f¨ ur die gemeinsame diskrete Dichte: P (X = xi , Y = yj ) = P (Y = yj |X = xi ) · P (X = xi ). Daraus ergibt sich z.B.: P (X = 1, Y = −1) = P (Y = −1|X = 1) · P (X = 1) =
1 3 1 1 · = = 4 5 20 60
und insgesamt:
1 xi
2
−1
yj 0
1
3 60 16 60 19 60
3 60 16 60 19 60
6 60 16 60 22 60
12 60 48 60
= =
1 5 4 5
}
Randverteilung von X wie in Aufgabenstellung
1
Randverteilung von Y
(b) F¨ ur Z = X + Y ergibt sich die Verteilung von Z als zi
0
1
2
3
P(Z = zi )
3 60
19 60
22 60
16 60
168
8. Mehrdimensionale Zufallsvariablen
(c) Die Berechnung von E(Z) und V ar(Z) erfolgt (c1) zun¨ achst u ¨ ber die Verteilung von Z: E(Z) = E(Z 2 ) = V ar(Z)
=
19 22 3 +1· +2· +3· 60 60 60 19 22 3 +1· +4· +9· 0· 60 60 60 2 4.18¯ 3 − (1.85) = 0.7608.
0·
16 = 1.85, 60 16 = 4.18¯3, 60
(c2) und anschließend u ¨ ber die Verteilungen von X und Y : 4 9 1 +2· = , 5 5 5 4 17 1 , 1· +4· = 5 5 5
1·
E(X) = E(X 2 ) = und es ergibt sich V ar(X) =
E(Y ) = E(Y 2 ) =
17 5
− ( 95 )2 =
4 25 .
19 19 22 3 +0· +1· = , 60 60 60 60 19 22 41 19 +0· +1· = , 1· 60 60 60 60
−1 ·
3 2 und damit ist V ar(Y ) = 41 60 − ( 60 ) = 0.6808. Da Cov(X, Y ) = E(X · Y ) − E(X) · E(Y ) und
E(X · Y )
3 6 16 3 +1·0· +1·1· + 2 · (−1) · 60 60 60 60 16 3 16 +2·1· = , +2·0· 60 60 60
= 1 · (−1) ·
berechnet sich die Kovarianz von X und Y zu Cov(X, Y ) =
3 9 3 1 − · =− . 60 5 60 25
Damit ergeben sich insgesamt: E(Z) = E(X) + E(Y ) = und
V ar(Z)
3 9 + = 1.85 5 60
= V ar(X + Y ) = V ar(X) + V ar(Y ) + 2Cov(X, Y ) 2 4 + 0.6808 − = 25 25 = 0.7608.
8. Mehrdimensionale Zufallsvariablen
169
L¨ osung 8.4 (a) Damit f (x, y) eine Dichtefunktion ist, muß diese gr¨oßer gleich 0 sein, was offensichtlich erf¨ ullt ist, und zudem muß gelten: 1
11 f (x, y) dx dy = 1 ⇔ 0 0
⇔
0
1 ! 0
⇔
"
c + y dy = 1 ⇔ 2
cx2 + yx 2
x=1
dy = 1 x=0
c y2 y+ 2 2
y=1
=1 y=0
c 1 + = 1 ⇔ c = 1. 2 2
(b) Die Randdichten berechnen sich als: ⎧ 1 y=1 ⎪ ⎪ 1 2 ⎪ ⎪ y (x + y) dy = xy + ⎪ ⎪ ⎨ 2 y=0 0 fX (x) = 1 = x + f¨ u r 0 ≤ x ≤ 1 ⎪ ⎪ 2 ⎪ ⎪ ⎪ ⎪ ⎩ 0 sonst, ⎧ 1 ⎪ ⎨ y+ f¨ ur 0 ≤ y ≤ 1 2 fY (y) = ⎪ ⎩ 0 sonst. Als Verteilungsfunktionen von X und Y erh¨alt man somit: ⎧ 0 f¨ ur x < 0 ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ 2 x ⎪ x ⎪ ⎪ v 1 1 ⎨ + v v+ dv = 2 2 2 0 FX (x) = ⎪ 0 ⎪ 2 ⎪ ⎪ ⎪ = x 2+x f¨ ur 0 ≤ x ≤ 1 ⎪ ⎪ ⎪ ⎪ ⎪ ⎩ 1 f¨ ur x > 1, ⎧ 0 f¨ ur y < 0 ⎪ ⎪ ⎪ ⎪ ⎪ ⎨ 2 y +y FY (y) = f¨ ur 0 ≤ y ≤ 1 ⎪ 2 ⎪ ⎪ ⎪ ⎪ ⎩ 1 f¨ ur y > 1.
170
8. Mehrdimensionale Zufallsvariablen
(c) Da gilt
1 1 x+ · y+
fXY , = 2 2 sind X und Y nicht unabh¨ angig. (d) Es gilt: fX · fY =
x
xy (u + v)du dv = 0 0
0
x = 0
= Damit folgt:
u=y
dv u=0
1 2 1 2 1 y v + yv 2 ( y + yv)dv = 2 2 2
v=x v=0
1 2 1 1 y x + yx2 = (y 2 x + x2 y). 2 2 2
⎧ 0 ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ 1 2 ⎪ ⎪ ⎪ (y x + x2 y) ⎪ ⎪ 2 ⎪ ⎨
F (x, y) =
1 2 u + uv 2
⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎩
f¨ ur x < 0 ∨ y < 0 f¨ ur 0 ≤ x ≤ 1 ∧ 0 ≤ y ≤ 1
FX (x)
f¨ ur 0 ≤ x ≤ 1 ∧ y > 1
FY (y)
f¨ ur 0 ≤ y ≤ 1 ∧ x > 1 f¨ ur x ≥ 1 ∧ y ≥ 1.
1
L¨ osung 8.5 (a) Die Randdichten von X und Y lassen sich wie folgt berechnen, wobei f¨ ur x ∈ {0, 1, . . .} gilt: fX (x)
=
∞
e−2λ
y=0
=
e−λ
∞ λx+y λx −λ λy = e−λ e x!y! x! y=0 y!
λx x!
und f¨ ur y ∈ {0, 1, . . .} gilt: fY (y) =
∞
e−2λ
x=0
= e−λ
∞ λx+y λy −λ λx = e−λ e x!y! y! x=0 x!
λy . y!
F¨ ur x = y = 0 gilt fX (0) = 0 und fY (0) = 0. Man erh¨alt somit f¨ ur die Randdichten jeweils eine Poisson-Verteilung mit Parameter λ.
8. Mehrdimensionale Zufallsvariablen
171
(b) Man betrachte zun¨ achst die bedingte Verteilung von X|Y = y. F¨ ur y ∈ {0, 1, . . .} gilt: −2λ x+y e λ /(x!y!) = e−λ λx /x! f¨ ur x = 0, 1, . . . e−λ λx /y! fX (x|Y = y) = 0 sonst. Analog berechnet man die bedingte Verteilung von Y |X = x, d.h. f¨ ur x ∈ {0, 1, . . .} gilt: −λ x e λ /y! f¨ ur y = 0, 1, . . . fY (y|X = x) = 0 sonst. Damit ist also: f¨ ur y ∈ {0, 1, . . .},
fX (x|y)
=
fX (x)
fY (y|x)
=
fY (y) f¨ ur x ∈ {0, 1, . . .}.
(c) Nach (b) sind X und Y unabh¨ angig. Daraus folgt unmittelbar Cov(X, Y ) = 0.
L¨ osung 8.6 (a) Es gilt 4 2 1 , P (Y = 2) = , P (Y = 3) = . 7 7 7 Damit erh¨ alt man unter Ber¨ ucksichtigung der Unabh¨angigkeit von X und Y als gemeinsame Wahrscheinlichkeitsfunktion: ⎧ 4 ⎪ ⎪ f¨ ur x ∈ {1, . . . , n} , y = 1 ⎪ ⎪ 7n ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ 2 ⎪ ⎪ ⎨ f¨ ur x ∈ {1, . . . , n} , y = 2 7n f (x, y) = ⎪ ⎪ ⎪ 1 ⎪ ⎪ f¨ ur x ∈ {1, . . . , n} , y = 3 ⎪ ⎪ ⎪ 7n ⎪ ⎪ ⎪ ⎪ ⎩ 0 sonst. P (Y = 1) =
172
8. Mehrdimensionale Zufallsvariablen
(b) Die gesuchte Wahrscheinlichkeit berechnet sich als " ! ! n" n = P X> · P (Y ≤ 2) P X > ,Y ≤ 2 2 2 ! ! n "" 6 = 1−P X ≤ · 2 7 n 6 · = 1− 2 n 7 ⎧ 1 6 3 ⎪ ⎪ · = f¨ ur n gerade ⎪ ⎨ 2 7 7 = ⎪ n−1 6 ⎪ ⎪ ⎩ 1− f¨ ur n ungerade. · 2n 7 (c) Es gilt E(X) = E(Y )
=
n+1 , 2 4 2 1 11 ·1+ ·2+ ·3 = , 7 7 7 7
woraus man erh¨ alt: E(XY ) = Cov(X, Y ) + E(X)E(Y ) = 0 +
11(n + 1) n + 1 11 · = . 2 7 14
L¨ osung 8.7 (a) F¨ ur den Tr¨ ager TXY , d.h. die m¨ oglichen Auspr¨agungen von X, Y gilt: TXY = {(0, 0) , (0, 1) , (1, 0) , (1, 1) , (1, 2) , (2, 1) , (2, 2)} . Weiterhin gilt: P (X = 0, Y = 0) = P (“kein Besucher wird eingelassen”) = 0.5 · (1 − 0.6) · (1 − 0.8) = 0.04, P (X = 0, Y = 1) = P (“der letzte Besucher wird eingelassen”) = 0.5 · (1 − 0.6) · 0.8 = 0.16, P (X = 1, Y = 0) = 0.5 · 0.4 · 0.2 = 0.04, P (X = 1, Y = 1) = 0.5 · 0.6 · 0.2 + 0.5 · 0.4 · 0.8 = 0.22, P (X = 1, Y = 2) = 0.5 · 0.6 · 0.8 = 0.24, P (X = 2, Y = 1) = 0.5 · 0.6 · 0.2 = 0.06, P (X = 2, Y = 2) = 0.5 · 0.6 · 0.8 = 0.24.
8. Mehrdimensionale Zufallsvariablen
173
Damit erh¨ alt man die gemeinsame Wahrscheinlichkeitsfunktion zusammen mit den Marginalverteilungen in Tabellenform, wobei es sich bei den Werten in Klammern um die Produkte der Marginalverteilungen handelt, also um die gemeinsame Verteilung bei Unabh¨angigkeit:
0 X
1 2
0 0.04 (0.016) 0.04 (0.04) 0 (0.024) 0.08
Y 1 0.16 (0.088) 0.22 (0.22) 0.06 (0.132) 0.44
2 0 (0.096) 0.24 (0.24) 0.24 (0.144) 0.48
0.2 0.5 0.3 1
(b) X und Y sind nicht unabh¨ angig, da z.B. P (X = 0, Y = 1) = 0.16 = P (X = 0) · P (Y = 1) = 0.2 · 0.44 = 0.088 .
L¨ osung 8.8 (a) Man erh¨ alt 4 1 (8 − 6)2 = = , 12 12 3 V ar(R2 ) = 4.
6+8 = 7, 2 E(R2 ) = 8,
E(R1 ) =
V ar(R1 ) =
(b) Da R2 als N (8, 4)-verteilt angenommen wird, gilt P (R2 = 8) = 0. F¨ ur die anderen Wahrscheinlichkeiten berechnet man P (R2 ≥ 9) = = = P (6 ≤ R2 ≤ 10) = = = = (c) P (6.5 ≤ R1 ≤ 7.5) = 1 ·
1 2
1 − P (R2 ≤ 9) R2 − 8 9−8 1−P ≤ 2 2 1 − Φ(0.5) = 1 − 0.692 = 0.308, P (R2 ≤ 10) − P (R2 ≤ 6) R2 − 8 R2 − 8 P ≤1 −P ≤ −1 2 2 Φ(1) − (1 − Φ(1)) = 2Φ(1) − 1 2 · 0.841 − 1 = 0.682. = 0.5.
174
8. Mehrdimensionale Zufallsvariablen
(d) Das Jahresendverm¨ ogen V l¨ aßt sich darstellen als R1 R2 V = 150000 · 1 + + 50000 · 1 + 100 100 = 200000 + 1500 · R1 + 500 · R2 mit E(V ) = = V ar(V ) = =
200000 + 1500 · E(R1 ) + 500 · E(R2 ) 214500, 15002 · V ar(R1 ) + 5002 · V ar(R2 ) 1750000.
(e)(e1) Die Kovarianz von R1 und R2 erh¨ alt man als Cov(R1 , R2 ) = ρ · V ar(R1 ) · V ar(R2 )
1 ·2 = −0.5 · 3 = −0.577. (e2) Sei x das Verm¨ ogen, das bei der Bank angelegt wird. Dann gilt f¨ ur das Verm¨ ogen V = 200000 +
x · R1 (200000 − x) · R2 + , 100 100
und die Varianz ergibt sich durch V ar(V )
=
x2 (200000 − x)2 · V ar(R ) + · V ar(R2 ) 1 1002 1002 2 · x · (200000 − x) · Cov(R1 , R2 ). + 1002
Zur Minimierung der Varianz wird diese Summe differenziert und gleich null gesetzt: 2x · V ar(R1 ) − 2 · (200000 − x) · V ar(R2 ) !
+(400000 − 4x) · Cov(R1 , R2 ) = 0 . Aufl¨ osen nach x ergibt schließlich x ≈ 166891 , d.h. 166891 Euro werden bei der Bank angelegt. F¨ ur das zu erwartende Verm¨ ogen erh¨ alt man dann: E(V ) = =
200000 + 1668.91 · E(R1 ) + 331.09 · E(R2 ) 214331.09 Euro.
8. Mehrdimensionale Zufallsvariablen
L¨ osung 8.9 Es gilt 13 =
V ar(3X + 2Y )
=
V ar(3X) + V ar(2Y ) + 2 · Cov(3X, 2Y )
= =
9 · V ar(X) + 4 · V ar(Y ) + 2 · 3 · 2 · Cov(X, Y ) 9 + 16 + 12 · Cov(X, Y ) .
Damit folgt Cov(X, Y ) = −1 und schließlich Cov(X, Y ) −1 1 ρ(X, Y ) = = =− . 1·2 2 V ar(X) · V ar(Y )
175
9 Parametersch¨ atzung
Aufgaben Aufgabe 9.1 In einem F¨ unf-Familienhaus wohnen die Familien ’A’, ’B’, ’C’, ’D’ und ’E’ (die Familiennamen sind aus Datenschutzgr¨ unden anonymisiert worden). Von diesen Familien ist das Durchschnittseinkommen pro Monat erfaßt worden: Lfd. Nr.
Familie
1 2 3 4 5
A B C D E
monatl. Durchschnittseinkommen (netto) xi in Euro 1500 1250 1750 1750 1250
(a) Berechnen Sie das Durchschnittseinkommen μ dieser f¨ unf Familien. (b) Ziehen Sie alle m¨ oglichen Stichproben vom Umfang n = 3 ohne Zur¨ ucklegen aus dieser Grundgesamtheit vom Umfang N = 5, und sch¨atzen Sie in jeder Stichprobe das Durchschnittseinkommen, d.h. berechnen Sie x ¯. ¯ (c) Bestimmen und zeichnen Sie die Wahrscheinlichkeitsverteilung von X. Berechnen Sie Erwartungswert, Varianz und Standardabweichung von ¯ X. (d) Welche Schl¨ usse k¨ onnen Sie aus (b) und (c) ziehen? (L¨osung siehe Seite 185)
Aufgabe 9.2 Die Suchzeiten von n Projektteams, die in verschiedenen Unternehmen dasselbe Problem l¨ osen sollen, k¨ onnen als unabh¨angig und identisch exponentialverteilt angenommen werden. Aufgrund der vorliegenden Daten soll nun
178
9. Parametersch¨ atzung
der Parameter λ der Exponentialverteilung mit der Maximum-LikelihoodMethode gesch¨ atzt werden. Es ergab sich eine durchschnittliche Suchzeit von x¯ = 98 . Man stelle die Likelihoodfunktion auf, bestimme die ML-Sch¨atzfunktion f¨ ur λ und berechne den ML-Sch¨ atzwert f¨ ur λ . (L¨osung siehe Seite 187)
Aufgabe 9.3 Die durch die Werbebl¨ ocke erzielten t¨ aglichen Werbeeinnahmen eines Fernsehsenders k¨ onnen als unabh¨ angige und normalverteilte Zufallsvariablen angesehen werden, deren Erwartungswert davon abh¨angt, ob ein Werktag vorliegt oder nicht. F¨ ur die weitere Auswertung wurden folgende Statistiken berechnet (alle Angaben in Euro) : Werktage (Mo–Fr) (n = 36) : Wochenende (Sa–So) (n = 25) :
x ¯ = 72 750 s = 16 350, x ¯ = 187 750 s = 26 350.
Man gebe jeweils ein Sch¨ atzverfahren zur Berechnung von 99 %-Konfidenzintervallen f¨ ur die wahren t¨ aglichen Werbeeinnahmen an Werktagen bzw. Wochenenden an und berechne die zugeh¨ origen Sch¨atzungen. (L¨osung siehe Seite 187)
Aufgabe 9.4 Eine Grundgesamtheit besitze den Mittelwert μ und die Varianz σ 2 . Die Stichprobenvariablen X1 , . . . , X5 seien unabh¨angige Ziehungen aus dieser Grundgesamtheit. Man betrachtet als Sch¨ atzfunktionen f¨ ur μ die Stichprobenfunktionen T1 T2 T3 T4 T5
¯ = 1 (X1 + X2 + . . . + X5 ), = X 5 1 (X1 + X2 + X3 ), = 3 1 1 (X1 + X2 + X3 + X4 ) + X5 , = 8 2 = X1 + X2 , = X1 .
(a) Welche Sch¨ atzfunktionen sind erwartungstreu f¨ ur μ ? (b) Welche Sch¨ atzfunktion ist die wirksamste, wenn alle Verteilungen mit existierender Varianz zur Konkurrenz zugelassen werden? (L¨osung siehe Seite 188)
9. Parametersch¨ atzung
179
Aufgabe 9.5 Zur Sch¨ atzung eines unbekannten Parameters θ stehen f¨ unf Sch¨atzfunktionen T 1 − T 5 zur Auswahl. Die Sch¨ atzfunktionen haben in Abh¨angigkeit vom Stichprobenumfang n folgende statistische Eigenschaften: T1 T2 T3 T4 T5
Bias(T 1) = 0 Bias(T 2) = 0 Bias(T 3) = 1 Bias(T 4) = −2 Bias(T 5) = 0
V ar(T 1) = V ar(T 2) = V ar(T 3) = V ar(T 4) = V ar(T 5) =
1 n 1 15 1 n 1 n 1 5
(a) Bestimmen Sie die MSE’s f¨ ur die Sch¨ atzverfahren T 2, T 3 und T 5. Sind die Verfahren konsistent? (b) Die f¨ unf Sch¨atzverfahren wurden mit einem Stichprobenumfang von n = 50 insgesamt 300 mal durchgef¨ uhrt, d.h. es wurden 300 Stichproben vom Umfang n = 50 gezogen und die Sch¨ atzer T 1 − T 5 jeweils berechnet. Abbildung 9.1 zeigt f¨ ur die f¨ unf Sch¨ atzverfahren Histogramme der realisierten Sch¨ atzer. Ordnen Sie den Sch¨ atzverfahren die dazu passenden Histogramme zu (mit ausf¨ uhrlicher Begr¨ undung). (c) Wie ¨ andert sich die Gestalt des Histogramms von Sch¨atzverfahren T 1 wenn der Stichprobenumfang n erh¨ oht wird. (L¨osung siehe Seite 188)
Aufgabe 9.6 Aus einer dichotomen Grundgesamtheit seien X1 , . . . , Xn unabh¨angige Wiederholungen der X mit P (X = 1) = π, P (X = 0) = 1 − π. Zufallsvariable n Bezeichne π ˆ = i=1 Xi /n die relative H¨ aufigkeit. (a) Man bestimme die erwartete mittlere quadratische Abweichung (M SE) f¨ ur π ∈ {0, 0.25, 0.5, 0.75, 1} und zeichne den Verlauf von M SE in Abh¨ angigkeit von π. (b) Als alternative Sch¨ atzfunktion betrachtet man √ n n √ 0.5. π ˆ+ T = √ n+n n+ n Man bestimme den Erwartungswert und die Varianz dieser Sch¨atzfunktion und skizziere die erwartete mittlere quadratische Abweichung. (L¨osung siehe Seite 189)
180
9. Parametersch¨ atzung
(b)
0
0
.2
1
.4
2
.6
.8
3
1
4
(a)
0
1
2
3
−1
0
1
2
3
Realisierte Schätzer
(c)
(d)
2 0
0
1
.5
1
3
1.5
4
Realisierte Schätzer
2
−1
−1
0
1
2
3
−1
0
Realisierte Schätzer
1
2
3
Realisierte Schätzer
0
1
2
3
4
(e)
−1
0
1
2
3
Realisierte Schätzer
Abbildung 9.1. Histogramme der 300 realisierten Sch¨ atzer T 1, T 2, T 3, T 4 und T 5.
9. Parametersch¨ atzung
181
Aufgabe 9.7 Bei der Analyse der Dauer von Arbeitslosigkeit wurde der Zusammenhang zwischen Ausbildungsniveau und Dauer der Arbeitslosigkeit untersucht. Unter den 123 Arbeitslosen ohne Ausbildung waren 86 Kurzzeit-, 19 mittelfristige und 18 Langzeitarbeitslose. (a) Man sch¨ atze die Wahrscheinlichkeit, daß ein Arbeitsloser ohne Ausbildung kurzzeitig, mittelfristig oder langfristig arbeitslos ist, und gebe f¨ ur jede der Sch¨ atzungen ein 95 %- und 99 %-Konfidenzintervall an. (b) Wieviel gr¨ oßer m¨ ußte der Stichprobenumfang sein, um die L¨ange der Konfidenzintervalle zu halbieren? (L¨osung siehe Seite 190)
Aufgabe 9.8 Wir betrachten Konfidenzintervalle zum Niveau 95% f¨ ur μ bei einem normalverteilten Merkmal mit ebenfalls unbekannter Varianz. Welche der folgenden Aussagen sind richtig? (a) Die Breite der Konfidenzintervalle ist zuf¨allig. d.h. bei wiederholter Durchf¨ uhrung des Experiments sind die realisierten Intervalle unterschiedlich breit. (b) Bei wiederholter Durchf¨ uhrung des Experiments f¨allt der Parameter μ mit 95% Wahrscheinlichkeit in das Konfidenzintervall. (c) Bei wiederholter Durchf¨ uhrung des Experiments u ¨ berdeckt das Konfidenzintervall den Parameter μ mit 95% Wahrscheinlichkeit. (d) Als realisiertes Konfidenzintervall erh¨ alt man [0.2; 0.6]. Mit 95 prozentiger Wahrscheinlichkeit liegt der wahre Parameter in diesem Intervall. (e) Mit wachsendem Stichprobenumfang nimmt die L¨ange der Konfidenzintervalle im Mittel ab. (f) Unter- und Obergrenze eines Konfidenzintervalls sind zuf¨allig. (L¨osung siehe Seite 190)
Aufgabe 9.9 ¨ Der Bundeskanzler stellt mal wieder die Vertrauensfrage. Uber die Wahrscheinlichkeit π, dass ein Bundestagsabgeordneter dem Kanzler das Vertrauen ausspricht gibt es unterschiedliche Aussagen. In Kreisen der Opposition geht man von π = 0.3 aus, die meisten Regierungsmitglieder gehen von π = 0.6 aus und in den Medien ist von π = 0.5 die Rede. Um sicher zu gehen, f¨ uhrt der Bundeskanzler eine Zufallsstichprobe vom Umfang n = 5 (mit Zur¨ ucklegen) unter den 601 Bundestagsabgeordneten durch. Von den 5 befragten
182
9. Parametersch¨ atzung
Abgeordneten w¨ urden ihm die ersten drei das Vertrauen aussprechen, die anderen beiden nicht. (a) Bestimmen Sie den Maximum-Likelihood Sch¨atzer f¨ ur π. (b) W¨ urde sich der in (a) berechnete Maximum-Likelihood Sch¨atzer a¨ndern, wenn anstelle der ersten drei Abgeordneten der erste, dritte und f¨ unfte befragte Abgeordnete das Vertrauen aussprechen w¨ urde (und die anderen beiden nicht). Begr¨ undung! (c) Gehen Sie jetzt davon aus, dass 301 der 601 Abgeordneten das Vertrauen aussprechen. Im Vorfeld werden ohne Zur¨ ucklegen f¨ unf Abgeordnete befragt. Bestimmen Sie (eventuell durch geeignete Approximation) die Wahrscheinlichkeit, dass genau drei Abgeordnete das Vertrauen aussprechen. (L¨osung siehe Seite 191)
Aufgabe 9.10 Sei x eine Realisation einer binomialverteilten Zufallsvariable, d.h. X ∼ ¯ = X/n gesch¨atzt werden. B(n, π) . Der Anteilswert π soll durch X ¯ ist Maximum-Likelihood-Sch¨atzer f¨ (a) Zeigen Sie: X ur π . ¯ erwartungstreu f¨ (b) Ist X ur π ? ¯ f¨ (c) Wie groß muß n sein, damit die Varianz von X ur alle m¨oglichen Werte von π kleiner als 0.01 ist? ¯? (d) Wie groß ist der M SE von X (L¨osung siehe Seite 192)
Aufgabe 9.11 Zeigen Sie, daß f¨ ur die empirische Varianz S˜2 gilt: Eσ2 (S˜2 ) = (n − 1)/n σ 2 . (L¨osung siehe Seite 193)
Aufgabe 9.12 (a) Die Suchzeit X nach der Ursache eines Defekts in einem technischen Ger¨ at werde als exponentialverteilt mit Parameter λ angenommen. Es sei bekannt, daß die mittlere Suchzeit 100 Tage betr¨agt. (a1) Geben Sie den Parameter λ der Exponentialverteilung an. (a2) Wie groß ist die Wahrscheinlichkeit, daß die Suchzeit zwischen 90 und 110 Tagen liegt?
9. Parametersch¨ atzung
183
(b) Die Suchzeiten bei n Ger¨ aten k¨ onnen als unabh¨angig und identisch exponentialverteilt angenommen werden. Aufgrund der vorliegenden Daten soll nun der Parameter λ der Exponentialverteilung mit der MaximumLikelihood-Methode gesch¨ atzt werden. Es ergab sich eine durchschnittliche Suchzeit von x ¯ = 98. (b1) Stellen Sie die Likelihoodfunktion auf. (b2) Bestimmen Sie die ML-Sch¨ atzfunktion f¨ ur λ. (b3) Berechnen Sie den ML-Sch¨ atzwert f¨ ur λ. (L¨osung siehe Seite 193)
Aufgabe 9.13 In der folgenden Tabelle sind die L¨ angen der Kelchbl¨atter xi und Bl¨ utenbl¨ atter yi von n = 12 Pflanzen einer Art gegeben. i xi yi
1 7.8 2.4
2 6.9 2.1
3 5.4 1.7
4 5.8 1.9
5 6.3 2.0
6 7.2 2.3
7 5.1 1.5
8 6.1 1.9
9 5.8 1.8
10 7.4 2.3
11 6.4 2.1
12 6.6 2.0
Fassen Sie die xi und die yi als Realisationen von 12 unabh¨angigen Zufallsvariablen auf, die alle dieselbe Verteilung wie X: “L¨ange der Kelchbl¨atter” bzw. Y : “L¨ ange der Bl¨ utenbl¨ atter” besitzen. (a) Sch¨ atzen Sie die Erwartungswerte und die Varianzen von X und Y anhand der obigen Daten. ¨ (b) Uberlegen Sie sich sinnvolle Sch¨ atzer f¨ ur die Kovarianz und die Korrelation zwischen X und Y , und berechnen Sie diese. Was l¨aßt sich u ¨ ber den Zusammenhang von X und Y sagen? (L¨osung siehe Seite 194)
Aufgabe 9.14 F¨ ur die Durchf¨ uhrung eines Entwicklungshilfeprojekts soll in einem Entwicklungsland zun¨ achst der Anteil der Personen ermittelt werden, die unter dem Existenzminimum leben. In einer Pilotstudie mit n = 50 Personen wurden 30 als “arm”, d.h. als “unter dem Existenzminimum lebend” eingestuft. (a) Sch¨ atzen Sie aus obigen Angaben den Anteil der Armen in diesem Land. (b) Berechnen Sie ein n¨ aherungsweises 90 %-Konfidenzintervall f¨ ur den Anteil der armen Bev¨ olkerung in diesem Entwicklungsland. (c) Berechnen Sie ein 95 %-Konfidenzintervall f¨ ur den Anteil der Armen, und vergleichen Sie es mit dem in (b) berechneten.
184
9. Parametersch¨ atzung
(d) In einer weiteren Zufallsstichprobe werden n = 200 Personen befragt. Auch bei dieser gr¨ oßeren Stichprobe ergab sich ein Anteil von 0.6 an Personen, die unter dem Existenzminimum leben. Geben Sie ebenfalls ein 95 %-Konfidenzintervall an, und vergleichen Sie es mit dem in (c) berechneten. Womit l¨ aßt sich der Unterschied erkl¨aren? (e) Bestimmen Sie den notwendigen Stichprobenumfang, damit der gesch¨atzte Anteil Armer in der Bev¨ olkerung mit 90 % Sicherheitswahrscheinlichkeit um weniger als 5 Prozentpunkte vom wahren Wert abweicht. (L¨osung siehe Seite 195)
9. Parametersch¨ atzung
185
L¨ osungen L¨ osung 9.1 In diesem Fall entsprechen die f¨ unf Familien der Grundgesamtheit. (a) Das Durchschnittseinkommen dieser f¨ unf Familien ist damit der Parameter μ der Grundgesamtheit mit 5
μ=
1 1 xi = · 7500 = 1500. 5 i=1 5
(b) In der folgenden Tabelle sind alle m¨ oglichen Stichproben und die jeweils resultierenden Sch¨ atzwerte f¨ ur μ aufgef¨ uhrt: Stichprobe ABC ACD ADE ABD ABE ACE BCD BDE CDE BCE
x¯ = 1 3 (1500 +
1250 + 1750) =
1 3 xj 3 j=1
1500 1666.67 1500 1500 1333.33 1500 1583.33 1416.67 1583.33 1416.67
¯ kann f¨ (c) X unf Auspr¨ agungen annehmen, wobei gilt Anzahl g¨ unstiger Ereignisse ¯ =x . P (X ¯) = Anzahl m¨ oglicher Ereignisse Es gibt zehn m¨ ogliche Ereignisse. Daraus ergibt sich die Wahrscheinlich¯ als: keitsverteilung von X x ¯ ¯ = x¯) P (X
1333.33 0.1
1416.67 0.2
1500 0.4
1583.33 0.2
1666.67 0.1
Dabei ist beispielsweise 4 unstiger Ereignisse ¯ = 1500) = Anzahl g¨ = = 0.4. P (X Anzahl m¨ oglicher Ereignisse 10
186
9. Parametersch¨ atzung
Graphisch l¨ aßt sich diese Wahrscheinlichkeitsverteilung als Stabdiagramm veranschaulichen: ¯ =x P (X ¯)
6
0.4
0.2 ... ... .. ... ... ... ... .
0.1
..... ... .. ... ... .. ..... .. ... ... ... ... ... ... .
1333.33 1416.67
.... ... .. ... ... ... ... ... ... .... .. ... .... .. ... ... .... .. .. ..... .. ... ... ... ... ... ... ... .
1500
.... .. .. .... ... .... .. ... ... ... ... ... ... ... .
... ... .. ... ... ... ... .
1583.33 1666.67
x ¯
¯ berechnet sich als Der Erwartungswert von X ¯ = E(X)
1333.33 · 0.1 + 1416.67 · 0.2 + 1500 · 0.4 + 1583.33 · 0.2 + 1666.67 · 0.1 = 1500.
Mit ¯ 2) = E(X =
1333.332 · 0.1 + 1416.672 · 0.2 + 15002 · 0.4 + 1583.332 · 0.2 + 1666.672 · 0.1 2258333.30
¯ ergibt sich f¨ ur die Varianz von X ¯ = E(X ¯ 2 ) − [E(X)] ¯ 2 = 2258333.30 − 15002 = 8333.33 V ar(X) und f¨ ur die Standardabweichung ¯ = 91.29. V ar(X) (d) Zum einen wird in (b) klar, daß das Ergebnis der Sch¨atzung, also die ¯ je nach gezogener Stichprobe unterschiedlich ist, also Realisation von X, vom Zufall abh¨ angt. Zum anderen zeigt die Abbildung in (c), daß das wahre μ weder systematisch u atzt wird. Die Sch¨atzungen “pendeln” sich ¨ ber- noch untersch¨ ¯ bei μ ein. Dies erkennt man auch am Wert von E(X).
9. Parametersch¨ atzung
187
L¨ osung 9.2 ur x = (x1 , . . . , xn ) ergibt sich die Sei Xi die Suchzeit des i-ten Teams. F¨ Likelihoodfunktion f (x | λ) =
n $
λe−λxi = λn e−λ
xi
.
i=1
Zur Bestimmung des ML-Sch¨ atzers wird diese nach λ differenziert und gleich null gesetzt: nλn−1 e−λ
xi
− λn e−λ
xi
n
!
xi = 0
i=1 n
1 xi = 0 ⇔ λ = . ⇔ n−λ x ¯ i=1 ˆ = Man erh¨ alt also allgemein λ Beispiel gilt
1 x ¯
als ML-Sch¨atzer f¨ ur λ. Im vorliegenden
ˆ = 1 = 0.01. λ 98 L¨ osung 9.3 Ein 99 % Konfidenzintervall f¨ ur μ unter Normalverteilung und unbekannter Varianz ist gegeben durch (vgl. Abschnitt 9.4.1 in Fahrmeir et al., 2004) ¯ − t0.995 (n − 1) · √s , X ¯ + t0.995 (n − 1) · √s . X n n F¨ ur n > 30 erh¨ alt man ein approximatives Konfidenzintervall durch ¯ − z0.995 · √s , X ¯ + z0.995 · √s . X n n Somit erh¨ alt man f¨ ur die Werktage 16350 16350 , 72750 + 2.58 · 72750 − 2.58 · = [65719.5, 79780.5] 6 6 als approximatives Konfidenzintervall und f¨ ur das Wochenende 26350 26350 , 187750 + 2.7969 · 187750 − 2.7969 · = [173010.34, 202489.66] 5 5 als Konfidenzintervalle.
188
9. Parametersch¨ atzung
L¨ osung 9.4 ¨ (a) Zur Uberpr¨ ufung, welche Sch¨ atzfunktionen erwartungstreu sind f¨ ur μ, werden deren Erwartungswerte unter Verwendung bereits bekannter Resultate (s. etwa Abschnitt 9.2.1 in Fahrmeir et al., 2004) berechnet: E(T1 ) = μ , E(T2 ) = μ , 1 1 1 1 E(T3 ) = 4μ + μ = μ + μ = μ , 8 2 2 2 E(T4 ) = μ + μ = 2μ , E(T5 ) = μ . Mit Ausnahme der Sch¨ atzfunktion T4 sind also alle Sch¨atzfunktionen erwartungstreu f¨ ur μ . (b) Zun¨ achst berechnet man den jeweiligen M SE, der bei den erwartungstreuen Sch¨ atzern mit der Varianz u ¨bereinstimmt: 1 1 5σ 2 = σ 2 , M SE(T1 ) = V ar(T1 ) = 25 5 1 2 1 2 M SE(T2 ) = V ar(T2 ) = 3σ = σ , 9 3 1 1 1 2 1 2 5 2 2 4σ + σ 2 = σ + σ = σ , M SE(T3 ) = V ar(T3 ) = 64 4 16 4 16 M SE(T4 ) = V ar(T4 ) + (Bias(T4 ))2 = 2σ 2 + (2μ − μ)2 = 2σ 2 + μ2 , M SE(T5 ) =
V ar(T5 ) = σ 2 .
ur alle σ 2 den kleinsten M SE und Damit besitzt die Sch¨ atzfunktion T1 f¨ ist somit unter den angegebenen Funktionen T1 bis T5 am wirksamsten. L¨ osung 9.5 (a) Die MSE’s sind gegeben durch M SE(T2 )
= V ar(T2 ) + Bias2 (T2 ) =
1 15
M SE(T3 )
= V ar(T3 ) + Bias2 (T3 ) =
1 n
+ 1,
M SE(T5 )
= V ar(T5 ) + Bias2 (T5 ) =
1 5
+ 0 = 15 .
+0=
Keines der Sch¨ atzverfahren T2 , T3 und T5 ist konsistent, da lim M SE(T2 ) =
1
= 0 15
lim M SE(T3 ) =
1 = 0
lim M SE(T5 ) =
1
= 0. 5
n→∞
n→∞
n→∞
1 15 ,
9. Parametersch¨ atzung
189
(b) Drei der Sch¨atzverfahren sind erwartungstreu und zwei Sch¨atzverfahren sind verzerrt. Damit m¨ ussen drei der f¨ unf Histogramme um den selben Wert schwanken. Es handelt sich um die Histogramme in den Abbildungen b), c) und d), die alle um den Wert 2 schwanken. Damit korrespondiert Histogramm b) mit dem unverzerrten Sch¨atzer mit der gr¨oßten Varianz, also T5 . Histogramm c) korrespondiert mit dem unverzerrten Sch¨ atzer mit der zweitgr¨ oßten Varianz, also T2 . Histogramm d) ist demnach dem Sch¨ atzer T1 zuzuordnen. T3 korrespondiert zu Histogramm a), da T3 einen positiven Bias besitzt. T4 korrespondiert zu Histogramm e), da T4 einen negativen Bias besitzt. (c) Die Histogramme werden mit wachsendem Stichprobenumfang immer steiler und sind immer mehr auf einen Wert (2) konzentriert.
L¨ osung 9.6 ¯ = π und V ar(X) ¯ = 12 nπ(1 − π) = π(1 − π)/n gilt f¨ (a) Wegen E(X) ur die n mittlere quadratische Abweichung: ¯ + Bias(X) ¯ 2 = V ar(X)
¯ M SE(X)
= π(1 − π)/n. Daraus ergibt sich π M SE
0 0
1/4
1/2
3/4
3/16 n
1/4 n
3/16 n
1 0
¯ ist eine konkave Funktion u Der M SE(X) ¨ ber [0, 1] mit dem Maximum bei π = 0.5. Weiterhin ist diese Funktion spiegelsymmetrisch um π = 0.5. (b) Man erh¨ alt unter Ausnutzung bekannter Rechenregeln f¨ ur Erwarungswert und Varianz: √ √ 1 n n √ √ E(ˆ π) + 0.5 = √ (nπ + n0.5), E(T ) = n+n n+n n+n 2 n √ V ar(T ) = V ar(ˆ π) n+n 2 n n √ π(1 − π)/n = √ π(1 − π), = n+n ( n + n)2 M SE(T ) = V ar(T ) + Bias(T )2 = V ar(T ) + (E(T ) − π)2 2 √ 1 n √ = √ π(1 − π) + n0.5) − π (nπ + ( n + n)2 n+n √ √ 1 = √ (nπ(1 − π)) + (nπ + n0.5 − ( n + n)π)2 2 ( n + n)
190
9. Parametersch¨ atzung
= = =
√ 1 √ (nπ(1 − π) + ( n(0.5 − π))2 ) 2 ( n + n) 1 √ (nπ − nπ 2 + n(0.25 − π + π 2 )) ( n + n)2 0.25n √ . ( n + n)2
Der M SE(T ) ist konstant, d.h. nicht abh¨angig von π. Als Funktion entspricht er einer Parallele zur π-Achse.
L¨ osung 9.7 (a) Es gilt: π ˆkurz π ˆmittel π ˆlang
= = =
86/123 ≈ 19/123 ≈ 18/123 ≈
0.699, 0.154, 0.146.
Ein approximatives Konfidenzintervall f¨ ur die Anteilswerte πi , i = kurz, mittel und lang ist gegeben durch
π ˆi (1 − π ˆi ) π ˆi ± z1− α2 n (vgl. Abschnitt 9.4.2 in Fahrmeir et al., 2004). In der folgenden Tabelle sind die 95 %- und die 99 %-Konfidenzintervalle f¨ ur πkurz , πmittel und πlang abgedruckt:
95 % 99 %
πkurz πmittel πlang [0.61814, 0.78024] [0.09060, 0.21835] [0.08388, 0.20881] [0.59250, 0.80587] [0.07039, 0.23855] [0.06412, 0.22857]
(b) F¨ ur die Breite b der Konfidenzintervalle gilt
π ˆi (1 − π ˆi ) α . b = 2 · z1− 2 n Um die Breite zu halbieren, muß also n vervierfacht werden.
L¨ osung 9.8 Allgemein ist das 95% Konfidenzintervall f¨ ur μ bei normalverteiltem Merkmal mit unbekannter Varianz gegeben durch ¯ + t1−α/2 (n − 1) √S ]. ¯ − t1−α/2 (n − 1) √S , X [X n n
9. Parametersch¨ atzung
191
(a) Die Breite des Intervalls ist S B = 2t1−α/2 (n − 1) √ . n
(b)
(c)
(d)
(e)
(f)
Die darin enthaltenen Standardabweichung S ist eine Zufallsvariable und damit auch die Breite B des Konfidenzintervalls. Die Aussage ist also richtig. Der Parameter μ ist nicht zuf¨ allig, kann also auch nicht in das Konfidenzintervall fallen. Zuf¨ allig ist per Konstruktion das Konfidenzintervall. Die Aussage ist somit falsch. Dies ist die korrekte H¨ aufigkeitsinterpretation von Konfidenzintervallen. Das zuf¨ allige Intervall u ¨ berdeckt in 95 Prozent der F¨alle den unbekannten Parameter. Nach Durchf¨ uhrung des Experiments sind Wahrscheinlichkeitsaussagen nicht mehr sinnvoll. Das realisierte Intervall ist eine nicht zuf¨allige Gr¨oße. Die Aussage ist also falsch. Diese Aussage ist richtig, da die Breite reziprok von n abh¨angt und dar¨ uberhinaus die Standardabweichung im Durchschnitt bzw. tendenziell mit wachsendem Stichprobenumfang kleiner wird. Etwas formaler m¨ usste man E(B) bestimmen und zeigen, dass E(B) mit wachsendem n kleiner wird. Die Grenzen des Konfidenzintervalls h¨ angen von den zuf¨alligen Gr¨oßen ¯ und S ab, so dass diese tats¨ X achlich zuf¨ allig sind. Die Aussage ist somit korrekt.
L¨ osung 9.9 (a) Definiere f¨ ur i = 1, . . . , 5 die Zufallsvariablen: 1 i–te befragte Abgeordnete spricht Vertrauen aus Xi = 0 sonst. Es gilt Xi ∼ B(1, π) mit π ∈ {0.3, 0.5, 0.6}. Der ML Sch¨atzer kann durch die folgenden beiden Schritte bestimmt werden: 1. Bestimmung der Likelihood L(π) = π 3 (1 − π)5−3 = π 3 (1 − π)2 2. Likelihood in Abh¨ angigkeit von π πOp
= 0.3
L(0.3) = 0.01323
πMed
= 0.5
L(0.5) = 0.03125
πRia
= 0.6
L(0.6) = 0.03456
192
9. Parametersch¨ atzung
Damit ist π ˆ = 0.6 der ML–Sch¨ atzer. (b) Der ML–Sch¨ atzer ist unabh¨ angig von der Reihenfolge der ja/nein Antworten (siehe Likelihood). Damit ¨ andert sich der Sch¨atzer nicht. (c) Sei X = Anzahl Vertrauensfrage mit ja“. Es gilt X ∼ H(5, 601, 301). ” Diese hypergeometrische Verteilung kann durch eine Binomialverteilung a = 0.5 . Damit erh¨alt man approximiert werden, d.h. X ∼ B 5, 301 601 5 P (X = 3) = 0.53 (1 − 0.5)2 = 0.3125. 3
L¨ osung 9.10
(a) Die Likelihood ist gegeben durch L(π) = nx π x (1 − π)n−x . Differenzieren von L(π) und Nullsetzen liefert ! n x−1 ∂L(π) = · xπ (1 − π)n−x + π x (n − x)(1 − π)n−x−1 · (−1) = 0 . x ∂π Durch Aufl¨ osen nach π erh¨ alt man π ˆML = ¯ = (b) Da E(X) (c) Es gilt
x . n
1 1 ¯ ist erwartungstreu f¨ E(X) = nπ = π, ist X ur π . n n V ar(X) = nπ(1 − π) ≤
1 n. 4
Damit folgt ¯ V ar(X)
= V ar =
X n
1 1 . V ar(X) ≤ 2 n 4n
Es muß gelten 1 ≤ 0.01 , 4n so daß schließlich n ≥ 25 folgt.
¯ = V ar(X) ¯ + Bias(X) ¯ 2 = 1 π (1 − π). (d) M SE(X) n
9. Parametersch¨ atzung
193
L¨ osung 9.11 Der Erwartungswert von S˜2 leitet sich wie folgt her: n 1 ¯ 2 E(S˜2 ) = E (Xi − X) n i=1 n 1 2 2 ¯ +X ¯ = E X − 2Xi X n i=1 i =
n & 1 % ¯ + E(X¯2 ) E(Xi2 ) − 2E(Xi X) n i=1
=
n n n n n 2 1 1 E(Xi2 ) − 2 E(Xi Xj ) + 2 E(Xi Xj ) n i=1 n i=1 j=1 n i=1 j=1
n n n 1 1 E(Xi2 ) − 2 E(Xi Xj ) n i=1 n i=1 j=1 n 1 1 1 E(Xi2 ) − 2 E(Xi Xj ) − 2 = n n n
=
i=j
i=1
= = =
n n−1
n2
1 E(Xi2 ) + 2 E(Xi )E(Xj ) n i=1 i=j
(n − 1)n 1 E(X 2 ) + 2 n(n − 1)E(X)2 2 n n & n−1 2 n−1% 2 E(X ) − E(X)2 = σ . n n
L¨ osung 9.12 1 (a)(a1) Es gilt: E(X) = λ1 . Da E(X) = 100, folgt λ = 100 = 0.01. (a2) Die Suchzeit liegt zwischen 90 und 110 Tagen mit einer Wahrscheinlichkeit von:
P (90 ≤ X ≤ 110) = =
P (X ≤ 110) − P (X ≤ 90) 1 − e−λ·110 − 1 − e−λ·90
=
e−90/100 − e−110/100 = 0.07369.
(b)(b1) Die Likelihoodfunktion lautet hier L(λ) =
n $ i=1
λ · e−λxi = λn ·
n $ i=1
e−λxi ,
194
9. Parametersch¨ atzung
woraus man die Log-Likelihood direkt erh¨alt als: l(λ) = log L(λ) = n · log(λ) − λ
n
xi .
i=1
(b2) Zur Bestimmung des ML-Sch¨ atzers wird die Log-Likelihood zun¨achst differenziert mit n xi l (λ) = − λ und anschließend gleich null gesetzt und nach λ aufgel¨ost: n ! l (λ) = 0 = xi ⇔ ˆ λ ˆ = n = 1 . ⇔ λ xi x ¯ Die ML-Sch¨ atzfunktion lautet 1/¯ x. (b3) Der ML-Sch¨ atzwert f¨ ur λ ergibt sich hier zu 1/¯ x = 1/98 = 0.0102.
L¨ osung 9.13 (a) Die Sch¨ atzungen f¨ ur die Erwartungswerte von X und Y sind 12
x ¯=
1 1 · 76.8 = 6.4 xi = 12 i=1 12
y¯ =
1 1 · 24.0 = 2.0. yi = 12 i=1 12
und
12
Die Varianzen von X und Y werden durch 12 12 1 1 2 2 2 2 sX = (xi − x¯) = x − 12 · x ¯ 11 i=1 11 i=1 i = =
1 1 (498.92 − 12 · 6.42 ) = · 7.4 11 11 0.673
und 12
s2Y
1 1 1 = (yi − y¯)2 = (48.76 − 12 · 22 ) = · 0.76 = 0.069 11 i=1 11 11
gesch¨ atzt.
9. Parametersch¨ atzung
195
(b) Als Sch¨ atzer f¨ ur die Kovarianz und die Korrelation bieten sich die entsprechenden deskriptiven Maße an, d.h. f¨ ur die Kovarianz 12 12 1 1 sXY = (xi − x ¯)(yi − y¯) = xi yi − 12 · x ¯y¯ 11 i=1 11 i=1 = =
1 1 (155.91 − 12 · 6.4 · 2.0) = · 2.31 11 11 0.21
und damit f¨ ur die Korrelation rXY
=
sXY 0.21 0.21 √ =√ = sX · sY 0.2155 0.0673 0.069
= 0.9745, d.h. zwischen Kelch- und Bl¨ utenbl¨ attern besteht ein nahezu vollst¨andiger, positiver, linearer Zusammenhang.
L¨ osung 9.14 In der Stichprobe vom Umfang n = 50 werden 30 Personen als arm eingestuft. (a) Eine Sch¨ atzung des Anteils der Armen ergibt sich mit diesen Angaben zu 30 3 π ˆ= = = 0.6. 50 5 (b) Da n = 50 ≥ 30, ist die Faustregel erf¨ ullt. Es kann also mit Hilfe der Normalverteilung ein approximatives 90 %-Konfidenzintervall bestimmt werden. Dieses ist gegeben durch ( '
π ˆ (1 − π ˆ) π ˆ (1 − π ˆ) , π ˆ + z1−α/2 · . π ˆ − z1−α/2 · n n Hier ergibt sich mit π ˆ = 0.6, α = 0.1, z1−α/2 = z0.95 = 1.6449, n = 50 ˆ (1 − π ˆ )/n = 0.6 · 0.4/50 = 0.06928 das Intervall und π [0.486 , 0.714]. (c) Nun sei α = 0.05, d.h. es ist eine gr¨ oßere Sicherheit verlangt. Mit z1−α/2 = z0.975 = 1.96 erh¨ alt man das Intervall [0.464 , 0.736]. Dieses Konfidenzintervall ist etwas breiter als das unter (b) berechnete, d.h. f¨ ur den Wunsch nach mehr Sicherheit “zahlt” man mit gr¨oßerer Sch¨ atzungenauigkeit.
196
9. Parametersch¨ atzung
(d) Seien nun n = 200, π ˆ = 0.6, α = 0.05, z0.975 = 1.96 und π ˆ (1 − π ˆ )/n = 0.6 · 0.4/200 = 0.034641. Mit diesen Werten erh¨alt man [0.532 , 0.668]. Dieses Konfidenzintervall ist viel k¨ urzer als das unter (c) errechnete. Diese Erh¨ ohung der Sch¨ atzgenauigkeit wird durch die Vergr¨oßerung des Stichprobenumfangs erzielt. (e) Will man nun den Anteil von Armen auf f¨ unf Prozentpunkte genau mit einer Sicherheitswahrscheinlichkeit von 90 % sch¨atzen, so reicht dazu ein Stichprobenumfang n mit n≥ also n = 271 aus.
!z
1−α/2
2d
"2 =
1.6449 2 · 0.05
2 = 270.57,
10 Testen von Hypothesen
Aufgaben Aufgabe 10.1 Eine Verbraucherzentrale m¨ ochte u ufen, ob ein bestimmtes Milchpro¨ berpr¨ ¨ dukt Ubelkeit bei den Konsumenten ausl¨ ost. In einer Studie mit zehn Personen wird bei sieben Personen nach dem Genuß dieses Milchprodukts ei¨ ¨ ne auftretende Ubelkeit registriert. Uberpr¨ ufen Sie zum Signifikanzniveau α = 0.05 die statistische Nullhypothese, daß der Anteil der Personen mit ¨ Ubelkeitssymptomen nach dem Genuß dieses Produkts in der Grundgesamtheit h¨ ochstens 60 % betr¨ agt. Geben Sie zun¨ achst das zugeh¨orige statistische Testproblem an. (L¨osung siehe Seite 203)
Aufgabe 10.2 Bisher ist der Betreiber des ¨ offentlichen Verkehrsnetzes in einer Großstadt davon ausgegangen, daß 35 % der Fahrg¨ aste Zeitkarteninhaber sind. Bei einer Fahrgastbefragung geben 112 der insgesamt 350 Befragten an, daß sie eine Zeitkarte benutzen. Testen Sie zum Niveau α = 0.05, ob sich der Anteil der Zeitkarteninhaber ver¨ andert hat. Formulieren Sie die Fragestellung zun¨achst als statistisches Testproblem. (L¨osung siehe Seite 204)
Aufgabe 10.3 Eine Brauerei produziert ein neues alkoholfreies Bier. In einem Geschmackstest erhalten 150 Personen je ein Glas alkoholfreies bzw. gew¨ohnliches Bier, und sie sollen versuchen, das alkoholfreie Bier zu identifizieren. (a) Das gelingt 98 Personen. Testen Sie anhand dieser Daten die Hypothese, alkoholfreies und gew¨ ohnliches Bier seien geschmacklich nicht zu unterscheiden (α = 0.1).
198
10. Testen von Hypothesen
(b) Unter den befragten Personen waren 15 Besch¨aftigte der Brauerei. Von diesen gelingt neun die richtige Identifizierung. Man u ufe die Hypo¨berpr¨ these aus (a) f¨ ur diese Subpopulation mit einem exakten Testverfahren. (L¨osung siehe Seite 204)
Aufgabe 10.4 Nehmen Sie an, ein Test zur Messung der sozialen Anpassungsf¨ahigkeit von Schulkindern sei genormt auf Mittelwert μ = 50 und Varianz σ 2 = 25. Ein Soziologe glaubt, eine M¨ oglichkeit zur Organisation des Unterrichts gefunden zu haben, die den Umgang der Sch¨ uler miteinander u.a. durch vermehrte Teamarbeit f¨ ordert und damit die soziale Anpassungsf¨ahigkeit erh¨oht. Aus der Grundgesamtheit aller Sch¨ uler und Sch¨ ulerinnen werden 84 zuf¨allig ausgew¨ ahlt und entsprechend dieses neuen Konzepts unterrichtet. Nach Ablauf eines zuvor festgelegten Zeitraums wird bei diesen Kindern ein mittlerer Testwert f¨ ur die soziale Anpassungsf¨ ahigkeit von 54 beobachtet. (a) L¨ aßt sich damit die Beobachtung des Soziologen st¨ utzen? D.h. entscheiden Sie u ber die Behauptung des Soziologen anhand eines geeigneten ¨ statistischen Tests zum Niveau α = 0.05. Formulieren Sie zun¨achst die Fragestellung als statistisches Testproblem. (b) Was a ¨ndert sich in (a), wenn (b1) der Stichprobenumfang n = 25, (b2) der beobachtete Mittelwert x¯ = 51, (b3) die Standardabweichung σ = 9, (b4) das Signifikanzniveau α = 0.01 betr¨ agt? (L¨osung siehe Seite 205)
Aufgabe 10.5 Von einer Zufallsvariable X mit Erwartungswert E(X) = μ ist bekannt, dass sie mit Varianz σ 2 = 4 normalverteilt ist. Aus einer i.i.d. Stichprobe X1 , · · · , X15 vom Umfang n = 15 ist das arithmetische Mittel x = 1.5 errechnet worden. (a) Testen Sie die Hypothese H0 : μ = 1 zweiseitig mit α = 0.05 gegen die Alternativhypothese H1 : μ = 1. (b) In der folgenden Abbildung sind vier G¨ utefunktionen des Tests in (a) f¨ ur verschiedene Stichprobenumf¨ ange gegeben. Ordnen Sie die folgenden Stichprobenumf¨ ange • n1 = 100
10. Testen von Hypothesen
199
• n2 = 15 • n3 = 5 • n4 = 30 jeweils einem G¨ utefunktionsgraphen zu. Die Zuordnung tragen Sie bitte in der Legende von Abbildung 10.1 ein, indem Sie jedem Linienmuster das entsprechende n zuordnen. Begr¨ unden Sie Ihre Zuordnung ausf¨ uhrlich!
0
.2
g(mu) .4 .6
.8
1
Gütefunktionen verschiedener Stichprobenumfänge
−3
−2
−1
0 n= n=
Abbildung numf¨ angen.
1 mu
2
3
4
5
n= n=
10.1. G¨ utefunktionen basierend auf verschiedenen Stichprobe-
(c) Bestimmen Sie ein Konfidenzintervall f¨ ur μ zur Irrtumswahrscheinlichkeit α = 0.05, wenn f¨ ur eine Stichprobe vom Umfang n = 15 das arithmetische Mittel x = 1.5 errechnet wurde. (d) Welche Auswirkung hat eine Erh¨ ohung des Stichprobenumfangs auf das in (c) berechnete Konfidenzintervall, wenn angenommen wird, dass das arithmetische Mittel x und die Varianz σ 2 unver¨andert bleiben? (L¨osung siehe Seite 206)
Aufgabe 10.6 Betrachten Sie einen Gauß-Test f¨ ur H0 : μ = 0 gegen H1 : μ = 0 zum Niveau α = 0.05. Welche der folgenden Aussagen sind richtig?
200
10. Testen von Hypothesen
(a) Betr¨ agt der p-Wert 0.02, dann wird die Nullhypothese abgelehnt. (b) Betr¨ agt der p-Wert 0.02, dann ist H1 mit Wahrscheinlichkeit 0.98 wahr. (c) Wird H0 aufgrund der Teststatistik abgelehnt, dann ist die Nullhypothese mit absoluter Sicherheit falsch. (d) Die Wahrscheinlichkeit einer Fehlentscheidung ist 5%. (L¨osung siehe Seite 207)
Aufgabe 10.7 Aufgrund einer Theorie u ¨ ber die Vererbung von Intelligenz erwartet man bei einer bestimmten Gruppe von Personen einen mittleren Intelligenzquotienten (IQ) von 105. Dagegen erwartet man bei Nichtg¨ ultigkeit der Theorie einen mittleren IQ von 100. Damit erh¨ alt man das folgende statistische Testproblem: H0 : μ = 100 gegen H1 : μ = 105 . Die Standardabweichung des als normalverteilt angenommenen IQs sei σ = 15. Das Signifikanzniveau sei mit α = 0.1 festgelegt. (a) Geben Sie zun¨ achst allgemein f¨ ur eine Stichprobe vom Umfang n = 25 • den Ablehnungsbereich eines geeigneten statistischen Tests, • den Annahmebereich dieses Tests und • die Wahrscheinlichkeit f¨ ur den Fehler 2. Art an. (b) Welchen Bezug haben die Wahrscheinlichkeiten f¨ ur den Fehler 1. Art und f¨ ur den Fehler 2. Art zur G¨ utefunktion dieses Tests? (c) Sie beobachten in Ihrer Stichprobe einen mittleren IQ von 104. Zu welcher Entscheidung kommen Sie? (L¨osung siehe Seite 208)
Aufgabe 10.8 Im Rahmen einer großangelegten Studie u ¨ ber “Frauen und Schwangerschaft“ interessiert u.a. das Alter von Frauen bei der Geburt des ersten Kindes. Es wird vermutet, daß das Durchschnittsalter Erstgeb¨arender bei u ¨ ber 25 Jahren liegt. ¨ Zur Uberpr¨ ufung dieser Hypothese werden 49 M¨ utter zuf¨allig ausgew¨ahlt und nach ihrem Alter bei der Geburt des ersten Kindes befragt. Es ergab sich ein Durchschnittsalter von x ¯ = 26. ¨ (a) Uberpr¨ ufen Sie zum Niveau α = 0.05 die statistische Nullhypothese H0 : μ ≤ 25 gegen die Alternative H1 : μ > 25. Gehen Sie davon aus, daß das Alter Erstgeb¨ arender normalverteilt ist. Dabei ist die Varianz mit σ 2 = 9 aus Erfahrung bekannt. Interpretieren Sie Ihr Ergebnis.
10. Testen von Hypothesen
201
(b) Wie ist der Fehler 1. Art definiert, und was sagt er hier aus? (c) Bestimmen Sie die Wahrscheinlichkeit f¨ ur den Fehler 2. Art unter der Annahme, daß μ = 27 das wahre Alter Erstgeb¨arender ist. (d) Bestimmen Sie ein 95 %-Konfidenzintervall f¨ ur das Alter Erstgeb¨arender. (L¨osung siehe Seite 209)
Aufgabe 10.9 Ein Marktforschungsinstitut f¨ uhrt j¨ ahrliche Untersuchungen zu den Lebenshaltungskosten durch. Die Kosten f¨ ur einen bestimmten Warenkorb beliefen sich in den letzten Jahren auf durchschnittlich 600 Euro. Im Beispieljahr wurde in einer Stichprobe von 40 zuf¨ allig ausgew¨ahlten Kaufh¨ausern jeweils der aktuelle Preis des Warenkorbs bestimmt. Als Sch¨atzer f¨ ur den aktuellen Preis des Warenkorbs ergab sich ein mittlerer Preis von 605 Euro. Die Variahriger Erfahrung bekannt. Gehen Sie von anz σ 2 = 225 sei aufgrund langj¨ einer Normalverteilung des Preises f¨ ur den Warenkorb aus. (a) Hat sich der Preis des Warenkorbs im Vergleich zu den Vorjahren signifikant zum Niveau α = 0.01 erh¨ oht? Wie lautet das zugeh¨orige statistische Testproblem? (b) Was sagt der Fehler 2. Art hier aus? Bestimmen Sie die Wahrscheinlichkeit f¨ ur den Fehler 2. Art unter der Annahme, daß 610 Euro der tats¨achliche aktuelle Preis des Warenkorbs ist. Geben Sie zun¨achst die allgemeine Formel f¨ ur die G¨ utefunktion des obigen Tests in diesem konkreten Testproblem an. (c) Wie groß m¨ ußte der Stichprobenumfang mindestens sein, um bei einem Niveau von α = 0.01 eine Erh¨ ohung des mittleren Preises um 5 Euro als ¨ signifikant nachweisen zu k¨ onnen? Uberlegen Sie sich dazu eine allgemeine Formel zur Bestimmung des erforderlichen Stichprobenumfangs. (L¨osung siehe Seite 210)
Aufgabe 10.10 Betrachten Sie eine Stichprobe aus Bernoulli-verteilten Zufallsvariablen X1 , . . . , Xn mit Xi ∼ B(1, π), i = 1, . . . , n. Das interessierende Testproblem sei H0 : π ≤ 0.5
gegen
H1 : π > 0.5.
F¨ ur eine Stichprobe vom Umfang n = 10 wird der exakte Binomialtest mit dem Ablehnungsbereich C = {6, 7, . . . , 10} durchgef¨ uhrt. (a) Welches Niveau besitzt der Test?
202
10. Testen von Hypothesen
(b) Bestimmen Sie die G¨ utefunktion des Tests an den Stellen π = 0, 0.05, 0.1, . . . , 1, und skizzieren Sie diese. (L¨osung siehe Seite 211)
Aufgabe 10.11 Der Wirt einer Kneipe in Schwabing denkt u ¨ber ein Handy-Verbot in seinem Lokal nach. Er vermutet, daß mehr als 50 % seiner G¨aste ein derartiges Verbot begr¨ ußen w¨ urden. Um seine Behauptung zu st¨ utzen, plant er die Durchf¨ uhrung einer Befragung seiner G¨ aste zu diesem Thema. Anschließend m¨ ochte er einen statistischen Test zum Niveau α = 0.1 durchf¨ uhren. An der Befragung sollen 15 zuf¨ allig ausgew¨ ahlte G¨aste teilnehmen und danach befragt werden, ob sie ein Verbot begr¨ ußen w¨ urden oder nicht. ¨ (a) Welcher Test ist zur Uberpr¨ ufung der Fragestellung geeignet? Geben Sie den Test an, d.h. formulieren Sie die Hypothesen, geben Sie die Testgr¨ oße und deren exakte Verteilung an, und bestimmen Sie daraus den Ablehnbereich des Tests. (b) Wie groß ist in dem von Ihnen angegebenen Test die Wahrscheinlichkeit f¨ ur den Fehler 1. Art maximal? (c) Angenommen, der wahre Anteil der G¨aste, die ein Verbot begr¨ ußen w¨ urden, w¨ are nur 45 %. Mit welcher Wahrscheinlichkeit w¨ urde der in (a) angegebene Test trotzdem die Vermutung des Wirts best¨atigen? (d) Der Wirt hat die Befragung durchgef¨ uhrt. Neun der 15 Befragten haben angegeben, daß sie ein Verbot begr¨ ußen w¨ urden. Zu welcher Entscheidung hinsichtlich der Vermutung des Wirts kommen Sie aufgrund dieses Ergebnisses? uhrte (e) Ein anderer Wirt interessierte sich f¨ ur dieselbe Fragestellung und f¨ eine Totalerhebung durch. Dabei ermittelte er den wahren Anteil der G¨ aste, die ein Handy-Verbot begr¨ ußen w¨ urden als π = 65 %. Wie groß ist die Wahrscheinlichkeit f¨ ur den Fehler 2. Art, wenn der tats¨achliche Anteil auch f¨ ur die Kneipe des ersten Wirts 0.65 betr¨agt? (f) Durch welche Verteilung l¨ aßt sich die in (a) gefragte Verteilung der Testgr¨ oße approximieren? L¨ osen Sie die Teilaufgaben (a) bis (e) nun auch mit Hilfe dieser approximierenden Verteilung. (L¨osung siehe Seite 212)
10. Testen von Hypothesen
203
L¨ osungen L¨ osung 10.1 Die Verbraucherzentrale m¨ ochte die Bef¨ urchtung u ufen, daß das Milch¨berpr¨ ¨ ¨ produkt Ubelkeit hervorruft, also daß der Anteil der Personen mit Ubelkeitssymptomen u ¨ ber ein bestimmtes Maß, hier 60 %, hinausgeht. Damit lautet das statistische Testproblem: H0 : π ≤ π0 = 0.6
gegen
H1 : π > π0 = 0.6.
Wenn H0 verworfen wird, ist folgende Aussage der Verbraucherzentrale zul¨ assig: “Wir haben herausgefunden, daß das Milchprodukt mit einer Si¨ cherheitswahrscheinlichkeit von 1 − α Ubelkeit hervorruft.” Bei der Wahl eines geeigneten Tests und seiner Durchf¨ uhrung sind folgende Aspekte zu beachten: ¨ • Das Merkmal (Ubelkeit: Ja/Nein) ist bin¨ ar, • die Hypothese ist u ¨ ber einen Anteil formuliert, d.h. es ist der Binomialtest zu w¨ ahlen, und zwar der exakte (vgl. Abschnitt 10.1.1 in Fahrmeir et al., 2004), da n · π0 = 10 · 0.6 = 6 ≥ 5, aber n · (1 − π0 ) = 10 · 0.4 < 5, ¨ • die Pr¨ ufgr¨ oße ist somit die Anzahl der Personen mit Ubelkeit, kurz be H0 zeichnet mit Xi , wobei gilt: Xi ∼ B(10, 0.6), • der Ablehnungsbereich ist durch “große” Werte von Xi und α = 0.05 festgelegt. Bei der Bestimmung des kritischen Werts nutze man aus, daß f¨ ur π > 0.5 gilt: B(x|n, π) = P (X ≤ x|n, π) = 1 − B(n − x − |n, 1 − π), d.h. man erh¨ alt hier B(x|10, 0.6) = 1 − B(10 − x − 1|10, 0.4). Gesucht ist nun x, so daß P (X ≥ x|0.6) ≤
0.05
P (X ≥ x − 1|0.6) >
0.05.
und
Da P (X ≥ x|0.6) = = =
1 − P (X < x|0.6) = 1 − P (X ≤ x − 1|0.6) 1 − [1 − B(10 − (x − 1) − 1|10, 0.4)] B(10 − x|10, 0.4),
gilt: P (X ≥ 10|0.6) = B(0|10, 0.4) = 0.006
< 0.05,
P (X ≥ 9|0.6) = B(1|10, 0.4) = 0.0464 < 0.05, P (X ≥ 8|0.6) = B(2|10, 0.4) = 0.1673 > 0.05.
204
10. Testen von Hypothesen
Damit ist neun der kritische Wert, woraus sich der Ablehnungsbereich C = ¨ {9, 10} ergibt. Also kann erst bei neun oder zehn Personen mit Ubelkeit in einer Stichprobe vom Umfang zehn die Nullhypothese zum Niveau α = 0.05 verworfen werden, d.h. diese Werte sind zu “unwahrscheinlich”, wenn H0 wahr w¨ are. ¨ Da in diesem Beispiel nur sieben Personen Ubelkeitssymptome aufweisen, kann H0 nicht verworfen werden, d.h. es kann also nicht entschieden werden, ¨ daß das Milchprodukt Ubelkeit ausl¨ ost.
L¨ osung 10.2 Das statistische Testproblem lautet hier H0 : π = π0 = 0.35
H1 : π = π0 = 0.35.
gegen
Es handelt sich also um einen Test auf den unbekannten Anteil in der Grundgesamtheit. Da der Stichprobenumfang sehr groß ist, kann der approximative Binomialtest (vgl. Abschnitt 10.1.2 in Fahrmeir et al., 2004) angewendet werden, denn 350 · 0.35 = 122.5 > 5
und
350 · (1 − 0.35) = 227.5 > 5.
Damit lautet die Pr¨ ufgr¨ oße ) ) ) Xi − nπ0 )) ) |Z| = ) ), ) nπ0 (1 − π0 ) ) wobei H0 zum Niveau α = 0.05 verworfen wird, falls |z| > z1−α/2 = z0.975 = 1.96. xi = 112 ergibt sich Mit n = 350, π0 = 0.35 und ) ) ) 112 − 122.5 ) ) = | − 1.177| = 1.177. |z| = )) √ 350 · 0.35 · 0.65 ) Da z = 1.177 > 1.96, kann H0 zum Niveau α = 0.05 nicht verworfen werden, d.h. die Beobachtung von 112 Zeitkarteninhabern spricht nicht daf¨ ur, daß sich der Anteil an Zeitkarteninhabern ver¨ andert hat.
L¨ osung 10.3 (a) Untersucht wird das Hypothesenpaar H0 : π = 0.5,
H1 : π > 0.5.
10. Testen von Hypothesen
205
Als Teststatistik wird diejenige des approximativen Binomialtests verwendet: 98 − 150 · 0.5 x − nπ = 3.75. = √ z= nπ(1 − π) 150 · 0.52 Der Vergleich mit z0.9 = 1.28 ergibt, daß H0 zugunsten von H1 verworfen wird. (b) F¨ ur den exakten Binomialtest bei n = 15 ergibt sich f¨ ur X ∼ B(15, 0.5) der p-Wert als: P (X ≥ 9) = 1 − P (X ≤ 8) = 1 − 0.696 = 0.304. Die Nullhypothese ist wegen 0.304 > α = 0.10 nicht abzulehnen.
L¨ osung 10.4 (a) Die Forschungshypothese lautet: “Die neue Form der Unterrichtsorganisation erh¨ oht die soziale Anpassungsf¨ ahigkeit.” Damit ergibt sich das statistische Testproblem als: H0 : μ = 50 gegen H1 : μ > 50. Da σ 2 = 25 bekannt und n = 84 groß ist, kann der approximative GaußTest verwendet werden, d.h. also folgende Pr¨ ufgr¨oße Z=
¯ − μ0 √ X , n σ
wobei große Werte von Z f¨ ur H1 sprechen. Genauer wird H0 zum Niveau α = 0.05 verworfen, falls z > z1−α = z0.95 = 1.64. √ Da z = 84 54−50 = 7.33 > 1.64, kann H0 zum Niveau α = 0.05 ver5 worfen werden, d.h. man entscheidet aufgrund des Testergebnisses, daß der Vorschlag des Soziologen tats¨ achlich zu einer Erh¨ohung der sozialen Anpassungsf¨ ahigkeit f¨ uhrt. (b) Der in (a) durchgef¨ uhrte Test ver¨ andert sich wie folgt, falls = 4 > 1.64, d.h. H0 kann noch (b1) n = 25 : Damit ergibt sich z = 5 54−50 5 verworfen werden, es ist aber bei der Verwendung des approximativen Tests Vorsicht geboten. √ = 1.83 > 1.64, d.h. selbst (b2) x ¯ = 51 : Damit ergibt sich z = 84 51−50 5 dieser geringe Unterschied von einem Punkt f¨ uhrt noch zur Verwerfung von H0 , aber die Frage ist, ob dieser Unterschied noch von inhaltlicher Relevanz ist. √ (b3) σ = 9 : Damit ergibt sich z = 84 54−50 = 4.07 > 1.64, d.h. H0 9 kann noch verworfen werden. Man sieht recht deutlich, daß sowohl eine Verringerung von n (b1) als auch eine Erh¨ohung von σ (b3) zu einer gr¨ oßeren “Unsicherheit” in dem beobachteten Ergebnis f¨ uhrt und sich dementsprechend in der Pr¨ ufgr¨oße niederschl¨agt.
206
10. Testen von Hypothesen
(b4) α = 0.01 : Damit ergibt sich z = 7.33 > z0.99 = 2.33, d.h. H0 h¨atte auch noch zu einem kleineren Niveau verworfen werden k¨onnen. Das Fazit lautet: Eine Verkleinerung von n, eine Verringerung des Aboßerung von σ und eine Verkleinerung von α stands zu H0 , eine Vergr¨ bewirken jeweils eine “Verknappung” des Testergebnisses.
L¨ osung 10.5 (a) Es handelt sich wegen der bekannten Varianz um einen Gaußtest. Die Teststatistik ist gegeben durch √ √ (1.5 − 1) 15 (x − μ) n = = 0.968. t= σ 2 Die Nullhypothese wird abgelehnt, falls |t| > t1−α/2 = 1.96. Da t = 0.968 < 1.96 kann die Nullhypothese nicht abgelehnt werden. (b) Abbildung 10.1 zeigt die Zuordnung der Stichprobenumf¨ange zu den entsprechenden G¨ utefunktionen. Mit wachsendem Stichprobenumfang n
0
.2
g(mu) .4 .6
.8
1
Gütefunktionen verschiedener Stichprobenumfänge
−3
−2
−1
0 n= 5 n= 30
1 mu
2
3
4
5
n= 15 n=100
Abbildung 10.2. Zuordnung der G¨ utefunktionen zu den verschiedenen Stichprobenumf¨ angen.
wird der Test bei festem α trennsch¨ arfer. Angenommen der wahre Mittelwert l¨ age bei 2. F¨ ur n = 5 w¨ are die Wahrscheinlichkeit die H0 Hypothese
10. Testen von Hypothesen
207
abzulehnen bei ≈ 0.2. Im Fall von n = 100 w¨are diese Wahrscheinlichkeit bereits bei 1. (c) Das Konfidenzintervall berechnet sich durch: σ σ [x − t(1− α2 ) √ , x + t(1− α2 ) √ ] = n n =
2 2 [1.5 − 1.96 √ , 1.5 + 1.96 √ ] 15 15 [0.49, 2.51]
(d) Die Breite B des Intervalls ist gegeben durch σ B = 2 · t(1− α2 ) √ . n Durch die Erh¨ ohung des Stichprobenumfangs verringert sich also die Breite des Konfidenzintervalls.
L¨ osung 10.6 (a) Die Testentscheidung kann aufgrund des p-Werts getroffen werden. Die Nullhypothese wird abgelehnt, falls der p-Wert kleiner als das Signifikanzniveau ist. Die Aussage ist also richtig. (b) Beim p-Wert handelt es sich um die Wahrscheinlichkeit die realisierte Teststatistik oder einen in Richtung H1 extremeren Wert zu erhalten, unter der Annahme, dass H0 wahr ist. Eine Aussage u ¨ ber den Wahrheitsgehalt von H1 ist damit nicht verbunden. Die Behauptung ist also falsch. (c) Bei Testentscheidungen handelt es sich stets um Entscheidungen unter Unsicherheit. Absolute Sicherheit ist nicht m¨oglich, d.h. Fehlentscheidungen sind grunds¨ atzlich m¨ oglich. Der Test wird lediglich so konstruiert, dass die Wahrscheinlichkeit des Fehlers 1. Art klein ist (hier 5%). Die Aussage ist also nicht korrekt. (d) Auch diese Aussage ist falsch. Der Begriff Signifikanzniveau bzw. vor allem Irrtumswahrscheinlichkeit suggeriert, dass die Gesamtfehlerrate 5% betr¨ agt. Tats¨achlich kann die Gesamtfehlerrate ohne Zusatzinformation nicht bestimmt werden und sogar deutlich h¨oher als das Signifikanzniveau sein. Hierzu ein Beispiel: Nehmen wir an Nullhypothese und Gegenhypothese sind je mit Wahrscheinlichkeit 50% wahr. Dar¨ uber hinaus besitze der Test eine Wahrscheinlichkeit f¨ ur den Fehler 1. bzw. 2. Art von 5% bzw. 10%. Dann ist die Fehlerwahrscheinlichkeit gegeben durch P (Fehler) = 0.5 · 0.05 + 0.5 · 0.1 = 0.075, also h¨ oher als das Signifikanzniveau.
208
10. Testen von Hypothesen
L¨ osung 10.7 (a) Ein geeigneter Test f¨ ur das vorliegende Problem ist der Gauß-Test mit der Teststatistik Z=
¯ − 100 ¯ − μ0 √ ¯ − 100 X X X · n= ·5= . σ 15 3
Unter H0 gilt: Z ∼ N (0, 1). H0 wird demnach abgelehnt, falls z > z1−α = z0.9 = 1.28, und beibehalten, falls z ≤ 1.28. Um die Wahrscheinlichkeit f¨ ur den Fehler 2. Art berechnen zu k¨onnen, muß zun¨ achst die Verteilung der Teststatistik unter H1 bestimmt werden. ¯ ∼ N (μ1 , σ 2 ) und folglich Unter H1 gilt X √ μ1 − μ0 5 Z ∼N ,1 = N ,1 . n· σ 3 Damit erh¨ alt man P (H0 beibehalten |μ = μ1 ) = =
P (Z ≤ 1.28|μ = μ1 ) = Φ
1.28 − 1.¯6 1
Φ(−0.38¯6) = 0.3498
als Wahrscheinlichkeit f¨ ur den Fehler 2. Art. (b) Betrachtet man die beiden Fehlerwahrscheinlichkeiten, so lassen sich diese umschreiben als P (Fehler 1. Art)
= P (H0 wird abgelehnt |μ = μ0 ) = α = g(μ0 ) und
P (Fehler 2. Art)
= P (H0 beibehalten |μ = μ1 ) = 1 − P (H0 ablehnen |μ = μ1 ) = 1 − g(μ1 ).
(c) F¨ ur x¯ = 104 erh¨ alt man z= d.h. H0 wird abgelehnt.
104 − 100 4 = = 1.¯3 > 1.28, 3 3
10. Testen von Hypothesen
209
L¨ osung 10.8 (a) Das statistische Testproblem lautet hier: H0 : μ ≤ 25
gegen
H1 : μ > 25.
Da die Zufallsvariable X: “Alter Erstgeb¨ arender” als N (μ, 9)-verteilt vorausgesetzt wird, kann folgende Pr¨ ufgr¨ oße verwendet werden: Z=
¯ − μ0 √ X , n σ
wobei H0 zum Niveau α = 0.05 verworfen werden kann, falls z > z1−α = oße berechnet sich hier mit x ¯ = 26, μ0 = 25, z0.95 = 1.64. √ Die√Testgr¨ σ = 3 und n = 49 = 7 als z=
26 − 25 · 7 = 2.333. 3
Da 2.333 > 1.64, kann H0 verworfen werden. D.h. die Vermutung, daß das Alter Erstgeb¨arender gr¨ oßer als 25 Jahre ist, kann zum Niveau α = 0.05 best¨ atigt werden. (b) Der Fehler 1. Art entspricht dem Ereignis “Lehne H0 ab, obwohl H0 wahr ist”, d.h. H0 wird f¨ alschlicherweise verworfen. Hier bedeutet der Fehler 1. Art, daß man sich daf¨ ur entscheidet, daß das Alter Erstgeb¨arender u ahrend Frauen bei der Geburt des ersten Kindes in ¨ ber 25 Jahre liegt, w¨ Wirklichkeit j¨ unger sind. (c) Die Wahrscheinlichkeit f¨ ur den Fehler 2. Art l¨aßt sich wie folgt bestimmen, wobei ein Fehler 2. Art dann eintritt, wenn H0 angenommen wird, obwohl H1 : μ = 27 zutrifft: P (Fehler 2. Art) = = = = = . =
P (H0 annehmen|μ = 27) ¯ X − 25 · 7 < 1.64|μ = 27 P 3 ¯ X − 27 + 27 − 25 P · 7 < 1.64|μ = 27 3 ¯ X − 27 27 − 25 P · 7 < 1.64 − ·7 3 3 P (Z < −3.02¯ 6) = Φ(−3.02¯6) 0.
(d) Das 95 %-Konfidenzintervall f¨ ur das Alter ist aufgrund der obigen Annahmen gegeben als ¯ − z0.975 · √σ , X ¯ + z0.975 · √σ ] [X n n
210
10. Testen von Hypothesen
und berechnet sich hier als [26 − 1.96 ·
3 3 , 26 + 1.96 · ] = [25.16 , 26.84]. 7 7
L¨ osung 10.9 (a) Sei X der Preis des Warenkorbs mit X ∼ N (μ, 225). Es soll H0 : μ ≤ 600 gegen H1 : μ > 600 getestet werden. Verwende dazu den Gaußtest (vgl. Abschnitt 10.1.3 in Fahrmeir et al., 2004) mit der Teststatistik Z=
¯ − 600 √ X 40. 15
H0 wird abgelehnt, falls z > z0.99 = 2.3263. Im vorliegenden Fall gilt z=
605 − 600 √ 40 = 2.108 < 2.3263, 15
d.h. H0 wird beibehalten. Der Preis des Warenkorbs hat sich also nicht signifikant ver¨ andert. (b) Allgemein handelt es sich beim Fehler 2. Art um die Wahrscheinlichkeit, H0 beizubehalten, obwohl H1 zutrifft. Hier bedeutet dies, daß der Preis f¨ ur den Warenkorb tats¨ achlich gestiegen ist, w¨ahrend der Test f¨alschlicherweise H0 (Preis kleiner gleich 600 Euro) beibeh¨alt. F¨ ur die explizite Berechnung des Fehlers 2. Art muß die Verteilung von Z im Falle μ = 610 berechnet werden. Es gilt X ∼ N (610, 225) und damit 610 − 600 √ Z ∼N · 40, 1 ∼ N (4.216, 1). 15 Damit erh¨ alt man f¨ ur den Fehler 2. Art P (Z ≤ 2.3263|μ = 610) = = =
Φ 2.3263−4.216 1 Φ(−1.89) = 1 − Φ(1.89) 1 − 0.9706 = 0.0294.
(c) Es muß
605 − 600 √ · n > 2.3263 15 ¨ gelten. Aquivalentes Umformen dieser Bedingung liefert 1 √ n > 2.3263 3 · ⇔ n > 48.7. z=
Der Stichprobenumfang muß also mindestens n = 49 betragen.
10. Testen von Hypothesen
211
L¨ osung 10.10 Seien X1 , ..., Xn u.i.v. mit Xi ∼ B(1, π). Das statistische Testproblem ist gegeben als: H0 : π ≤ 0.5 gegen H1 : π > 0.5. Seien n=10 und der Ablehnbereich gegeben als C = {6, 7, ..., 10}. (a) Bei der Bestimmung der maximalen Wahrscheinlichkeit f¨ ur den Fehler wahr ist, ist folgende 1. Art, d.h. f¨ ur die Ablehnung von H0 , obwohl H0 ¨ Xi im AblehnungsUberlegung anzustellen:H0 wird abgelehnt, falls bereich liegt, also falls Xi ≥ 6, wobei 10
H
Xi ∼0 B(10, 0.5).
i=1
Damit berechnet man 10 P Xi ≥ 6|π ∈ H0
=
i=1
10 10 π k (1 − π)10−k k k=6
≤
=
10 10 0.5k (1 − 0.5)10−k k k=6 10 P Xi ≥ 6|0.5 i=1
=
1−P
=
1−P
10
Xi < 6|0.5
i=1 10
Xi ≤ 5|0.5
= 1 − 0.6230
i=1
=
0.377.
(b) Die Bestimmung der G¨ utefunktion erfordert die Berechnung folgender Wahrscheinlichkeit in Abh¨ angigkeit von π: 10 10 Xi ≥ 6|π = 1 − P Xi < 6|π g(π) = P i=1
= 1−P
10 i=1
Xi ≤ 5|π .
i=1
212
10. Testen von Hypothesen
Man erh¨ alt π g(π) π g(π) π g(π)
0 0.0000 0.35 0.0949 0.7 0.8497
0.05 0.0000 0.4 0.1662 0.75 0.9219
0.1 0.0001 0.45 0.2616 0.8 0.9672
0.15 0.0014 0.5 0.3770 0.85 0.9901
0.2 0.0064 0.55 0.5044 0.9 0.9984
0.25 0.0197 0.6 0.6331 0.95 0.9999
0.3 0.0473 0.65 0.7515
F¨ ur π > 0.5 beachte man bei der Berechnung: 10 10 P Xi ≥ 6|π = 1 − P Xi ≤ 5|π i=1
= 1−
1−P
i=1
= P
10 −
i=1 10
10 −
10
Xi ≤ 10 − 5 − 1|1 − π
Xi ≤ 4|1 − π .
i=1
Die Skizze der G¨ utefunktion hat folgende Gestalt, wobei die gepunktete Linie die maximale Wahrscheinlichkeit f¨ ur den Fehler 1. Art anzeigt: g(π) 6 0.9984 0.8497 0.6331 0.3770 0.1662 0.0473
.......... .................................. .. ........ ....... ...... ...... . . . . ..... ..... .... .... .... . . .. ... ... ... ... . . .. ... ... ... ... . . . . .... . . . . . . . . . . . . . . . . . . . . . . ........ ... .... . . . ... . .... ... . .... . ..... . . . . . . ...... ...... . . . . . . .... . . . . . . . . ..... . . . . . . . . . . . . . . . . .................................................................
0
0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9
π
L¨ osung 10.11 (a) Es handelt sich hier um einen Test auf den Anteil eines dichotomen Merkmals. Damit ist der Binomialtest geeignet. Das statistische Testproblem lautet hier: H0 : π ≤ 0.5 gegen H1 : π > 0.5. Als Testgr¨ oße verwendet man die Anzahl X der G¨aste, die ein Verbot begr¨ ußen. X ist unter H0 binomialverteilt mit den Parametern n = 15
10. Testen von Hypothesen
213
und π = 0.5. Große Werte der Testgr¨ oße X sprechen f¨ ur H1 und f¨ uhren somit zur Ablehnung von H0 . Zur Festlegung des Ablehnungbereichs ist die kleinste Zahl c gesucht, f¨ ur die folgende Bedingung gilt P (X > c|π0 = 0.5) ≤ α = 0.1. Dies ist gleichbedeutend mit P (X ≤ c|π0 = 0.5) ≥ 0.9. Aus der Tafel der Binomialverteilung (Fahrmeir et al., 2004, Tabelle B) bestimmt man
und
P (X ≤ 9|π0 = 0.5) =
0.8491 < 0.9
P (X ≤ 10|π0 = 0.5) =
0.9408 > 0.9.
Damit ist c = 10, und der Ablehnungsbereich C des Tests ist gegeben durch C = {x : x > 10} = {11, 12, 13, 14, 15}. (b) Der Fehler 1. Art tritt ein, wenn H0 abgelehnt wird, obwohl H0 wahr ist. Zur Bestimmung der maximalen Wahrscheinlichkeit f¨ ur das Eintreten des Fehlers 1. Art gen¨ ugt es, den ung¨ unstigsten Fall, d.h. π0 = 0.5 zu betrachten: P (X > 10|π0 = 0.5) = 1 − P (X ≤ 10|π0 = 0.5) = 1 − 0.9408 = 0.0592. Die Wahrscheinlichkeit f¨ ur das Eintreten des Fehlers 1. Art ist also maximal 0.0592. Damit wird das Niveau des Tests nicht ausgesch¨opft. (c) Geht man davon aus, daß der wahre Anteil der G¨aste, die ein HandyVerbot begr¨ ußen w¨ urden, π = 0.45 ist, ergibt sich f¨ ur die Wahrscheinlichkeit der Ablehnung von H0 : P (X > 10|π = 0.45) = 1 − P (X ≤ 10|π = 0.45) = 1 − 0.9745 = 0.0255. (d) Der Wert neun liegt nicht im Ablehnungsbereich C des Tests. H0 kann also nicht verworfen werden. Der Wirt kann nicht davon ausgehen, daß der Anteil der G¨ aste, die ein Handy-Verbot begr¨ ußen w¨ urden, gr¨oßer als 50 % ist. (e) Geht man nun davon aus, daß der wahre Anteil der G¨aste, die ein HandyVerbot begr¨ ußen w¨ urden, π = 0.65 ist, ergibt sich mit Y = n − X f¨ ur die Wahrscheinlichkeit der Beibehaltung von H0 : P (X ≤ 10|π = 0.65) = = = =
P (n − X ≥ 5|π = 0.65) P (Y ≥ 5|πY = 0.35) 1 − P (Y ≤ 4|πY = 0.35) = 1 − 0.3519 0.6481.
214
10. Testen von Hypothesen
Die Wahrscheinlichkeit f¨ ur den Fehler 2. Art ist also fast 65 %. Das Ergebnis “H0 wird beibehalten” ist demnach unter π = 0.65 nicht unwahrscheinlich und somit nicht besonders u ¨ berraschend. (f) Da hier nπ0 = n(1 − π0 ) = 15 · 0.5 = 7.5 > 5 ist, ist eine Approximation der Binomialverteilung durch die Normalverteilung m¨oglich. Genauer bedeutet dies a X ∼ N (nπ0 , nπ0 (1 − π0 )). Damit erh¨ alt man X − nπ0 a Z= ∼ N (0, 1). nπ0 (1 − π0 ) (f1) Der Test l¨ aßt sich also alternativ anhand der standardnormalverteilten Testgr¨ oße Z durchf¨ uhren, wobei H0 verworfen wird, falls z > z1−α bzw. falls x > nπ0 + nπ0 (1 − π0 ) · z1−α . Da hier α = 0.1 ist, ergibt sich mit z1−α = z0.9 = 1.29 die Entscheidungsregel: √ Verwirf H0 , falls x > 15 · 0.5 + 15 · 0.5 · 0.5 · 1.29 = 9.997. Damit ist der Ablehnungsbereich C = {x : x > 9.997} = {10, 11, 12, 13, 14, 15}. (f2) Die maximale Wahrscheinlichkeit f¨ ur den Fehler 1. Art ist P (X > 9.997|π0 = 0.5) = 1 − P (X ≤ 9.997|π0) 9.997 − 7.5 ) = 1 − P (Z ≤ 1.936 = 1 − Φ(1.29) = 1 − 0.90 = 0.10. Das Niveau wird also hier voll ausgesch¨opft. (f3) F¨ ur π = 0.45 ergibt sich f¨ ur die Wahrscheinlichkeit der Ablehnung von H0 : P (X > 9.997|π = 0.45) = = = =
9.997 − 15 · 0.45 ) 1 − P (Z ≤ √ 15 · 0.45 · 0.55 3.247 1 − P (Z ≤ ) 1.927 1 − Φ(1.685) = 1 − 0.954 0.046.
(f4) Da 9 ∈ / C, kann H0 auch hier nicht verworfen werden.
10. Testen von Hypothesen
215
(f5) Geht man nun wieder davon aus, daß der wahre Anteil π = 0.65 ist, erh¨ alt man 9.997 − 15 · 0.65 ) P (X ≤ 9.997|π = 0.65) = Φ( √ 15 · 0.65 · 0.35 9.997 − 9.75 = Φ( ) 1.847 0.247 = Φ( ) = Φ(0.134) 1.847 = 0.552. Die Wahrscheinlichkeit f¨ ur den Fehler 2. Art betr¨agt hier also fast 55 %, und damit kommt man zu derselben Interpretation des Ergebnisses wie beim exakten Binomialtest.
11 Spezielle Testprobleme
Aufgaben Aufgabe 11.1 Von einem Intelligenztest X ist bekannt, daß er normalverteilte Werte liefert und V ar(X) = 225 gilt. Zu testen ist aus einer Stichprobe vom Umfang n = 10 die Nullhypothese E(X) ≤ 110. (a) Welchen Ablehnungsbereich erh¨ alt man bei einem geeigneten Testverfahren? W¨ ahlen Sie dazu α=0.05. (b) Wie lautet die Testentscheidung, wenn x ¯ = 112 resultiert? (c) Wie groß ist der Fehler 2. Art, wenn der tats¨achliche Erwartungswert 120 betr¨ agt? (d) Welchen Ablehnungsbereich erh¨ alt man, wenn die Varianz nicht bekannt ist, daf¨ ur aber s2 = 230 berechnet wurde. Wird H0 abgelehnt? (L¨osung siehe Seite 225)
Aufgabe 11.2 In einer Untersuchung u ahrungsverhalten nehmen 32 zuf¨allig aus¨ ber das Ern¨ gew¨ ahlte Personen teil. Ein Aspekt der Untersuchung ist der Vergleich von fleischloser und nicht fleischloser Ern¨ ahrung. Dabei lautet die Forschungshypothese, daß Personen mit fleischloser Ern¨ ahrung im Mittel weniger Kalorien am Tag zu sich nehmen als Menschen, die sich nicht fleischlos ern¨ahren. Von den 32 Personen in der Stichprobe ern¨ ahren sich 12 fleischlos. F¨ ur diese Gruppe ergibt sich ein Stichprobenmittelwert von x¯1 = 1780 Kalorien pro Tag, w¨ ahrend die 20 Personen in der Stichprobe, die sich nicht fleischlos ern¨ahren, im Mittel x ¯2 = 1900 Kalorien zu sich nehmen. Außerdem ergeben sich die zugeh¨ origen gesch¨ atzten Standardabweichungen als s1 = 230 und s2 = 250. Man kann davon ausgehen, daß die Kalorienmenge, die eine Person am Tag zu sich nimmt, eine normalverteilte Zufallsgr¨ oße ist. Außerdem nimmt man an, daß die Varianz dieser Zufallsgr¨ oße bei Personen mit fleischloser Ern¨ahrung mit der bei Personen mit nicht fleischloser Ern¨ahrung u ¨ bereinstimmt.
218
11. Spezielle Testprobleme
¯ ein geeigneter Punktsch¨atzer? (a) F¨ ur welchen Parameter ist die Statistik X Welche Eigenschaften besitzt dieser Sch¨ atzer in diesem Fall? (b) Berechnen Sie jeweils ein 95 % Konfidenzintervall f¨ ur die durchschnittliche Kalorienmenge f¨ ur die beiden Gruppen. (c) Wie beurteilen Sie die obige Forschungshypothese aufgrund der in (a) berechneten Konfidenzintervalle? ¨ (d) Welcher Test w¨ are zur Uberpr¨ ufung der Forschungshypothese geeignet? Begr¨ unden Sie Ihre Wahl ausf¨ uhrlich, und f¨ uhren Sie den Test zum Niveau α = 0.05 durch. (L¨osung siehe Seite 226)
Aufgabe 11.3 Der Kinderschutzbund f¨ uhrt eine Untersuchung zur Situation von Pflegekindern durch. Dabei interessiert vor allem, ob das Pflegekind in einer Familie mit weiteren Kindern im Mittel besser integriert wird als bei Pflegeeltern ohne eigene Kinder. An der Studie nehmen acht Pflegeeltern teil, die auch eigene Kinder haben, und sechs Pflegeltern, die keine eigenen Kinder besitzen. Mit Hilfe eines Fragebogens wird ein Integrationsscore ermittelt, der umso h¨ohere Werte annimmt, je besser das Pflegekind in die Familie integriert wird. Folgende Scores wurden ermittelt: Pflegeeltern mit eigenen Kindern xi ohne eigene Kinder yj
8 12
13 9
16 13
Scores 20 24 11 19
17 15
18
25
(a) Sie m¨ ochten die obige Fragestellung mit einem statistischen Test u ¨berpr¨ ufen. Welcher Test ist dazu geeignet? (Normalverteilungsannahme ist hier nicht gegeben!) Begr¨ unden Sie kurz Ihre Wahl. ¨ (b) Uberpr¨ ufen Sie die obige Fragestellung mit dem von Ihnen in (a) genannten Test zum Niveau α = 0.1. Interpretieren Sie Ihr Ergebnis. (L¨osung siehe Seite 227)
Aufgabe 11.4 Wie lauten Annahme- und Ablehnungsbereich der Tests in Aufgabe 10.7 und 10.9, wenn die Standardabweichungen σ unbekannt sind. Gehen Sie jeweils von einer beobachteten empirischen Standardabweichung von s = 15 aus. Bestimmen Sie f¨ ur Aufgabe 10.9 auch den p-Wert. (L¨osung siehe Seite 227)
11. Spezielle Testprobleme
219
Aufgabe 11.5 Mendel erhielt bei einem seiner Kreuzungsversuche von Erbsenpflanzen folgende Werte: 315 runde gelbe Erbsen, 108 runde gr¨ une Erbsen, 101 kantige gelbe Erbsen, 32 kantige gr¨ une Erbsen. Sprechen diese Beobachtungen f¨ ur oder gegen die Theorie, daß das Verh¨altnis der 4 Sorten 9:3:3:1 sein m¨ ußte (α = 0.05)? (L¨osung siehe Seite 228)
Aufgabe 11.6 F¨ ur den Tagesabsatz an Normalbenzin einer Selbstbedienungstankstelle an 240 Werktagen ergab sich folgende Tabelle: Tagesabsatz (in 1000 Litern) bis 7 bis 8 bis 9 bis 10
Anzahl der Werktage 32 120 211 240
Man pr¨ ufe die Hypothese, der Tagesabsatz an Normalbenzin besitze die Dichtefunktion ⎧ 1 f¨ ur 6 ≤ x ≤ 8 ⎨ 4 x − 32 f (x) = − 41 x + 52 f¨ ur 8 ≤ x ≤ 10 ⎩ 0 sonst (Dreiecksverteilung) zu einem Signifikanzniveau von α = 0.05. (L¨osung siehe Seite 229)
Aufgabe 11.7 In einer empirischen Studie zum Rauchverhalten wurden 10 Raucher befragt, wieviele Zigaretten sie durchschnittlich pro Tag rauchen. Es wurden folgende Angaben gemacht: 26
34
5
20
50
44
18
39
29
19.
¨ (a) Uberpr¨ ufen Sie anhand des Vorzeichen-Tests zum Niveau α = 0.1, ob der Median der Anzahl der gerauchten Zigaretten gr¨oßer ist als 25. ¨ (b) Uberpr¨ ufen Sie die Hypothese aus (a) auch mit Hilfe des WilcoxonVorzeichen-Rang-Tests zum Niveau α = 0.1.
220
11. Spezielle Testprobleme
(c) Nehmen Sie nun an, daß f¨ ur die durchschnittliche Anzahl der gerauchten Zigaretten pro Tag eine Normalverteilung unterstellt werden kann. F¨ uhren Sie zum Niveau α = 0.1 einen geeigneten parametrischen Test durch. Vergleichen Sie Ihr Ergebnis mit denen aus (a) und (b). (L¨osung siehe Seite 230) Aufgabe 11.8 In einer Universit¨ atsklinik wird eine umfangreiche Studie u ¨ber Behandlungsverfahren bei Patienten mit chronischen Schmerzen durchgef¨ uhrt. Dazu wird u.a. der Befindlichkeitszustand der Patienten zu verschiedenen Zeitpunkten der Behandlung mit Hilfe eines Fragebogens erhoben. Erfaßt wird beispielsweise die H¨ aufigkeit und Intensit¨ at des Auftretens der Schmerzen und der psychische Zustand der Patienten. Aus all diesen Variablen wird ein standardisierter Score gebildet, der ein Maß f¨ ur die Befindlichkeit darstellt. Im Rahmen der Studie soll nun getestet werden, ob davon ausgegangen werden kann, daß der Befindlichkeitsscore eine standardnormalverteilte Zufallsgr¨ oße ist. In einer Stichprobe von 50 Patienten ergab sich f¨ ur den Befindlichkeitsscore folgende gruppierte H¨ aufigkeitsverteilung: i 1 2 3 4 5
Klasse Ki [−2.5, −1.5) [−1.5, −0.5) [−0.5, 0.5) [0.5, 1.5) [1.5, 2.5)
absolute H¨aufigkeit 6 10 5 7 22
(a) Zeichnen Sie ein Histogramm f¨ ur die Verteilung des Befindlichkeitsscores in der Stichprobe zu der oben angegebenen Klasseneinteilung. Beurteilen Sie aufgrund des Histogramms die Hypothese, daß der Score standardnormalverteilt ist. (b) F¨ uhren Sie f¨ ur die obige Fragestellung den χ2 -Anpassungstest zum Niveau α = 0.05 und der Klasseneinteilung: (−∞, −1.5),
[−1.5, −0.5),
[−0.5, 0.5),
[0.5, 1.5),
[1.5, ∞)
durch. Formulieren Sie dazu zun¨ achst das statistische Testproblem. Interpretieren Sie Ihr Ergebnis. (L¨osung siehe Seite 231) Aufgabe 11.9 Auf zwei Maschinen A und B wird Tee abgepackt. Auf Stichprobenbasis soll nachgewiesen werden, daß die Maschine A mit einem gr¨oßeren durchschnittlichen F¨ ullgewicht arbeitet als die Maschine B (α = 0.01).
11. Spezielle Testprobleme
221
(a) Man weiß, daß die F¨ ullgewichte der beiden Maschinen ann¨ahernd nor2 2 = 49 g2 und σB = 25 g2 . Eine Zufallsstichprobe malverteilt sind mit σA vom Umfang nA = 12 aus der Produktion der Maschine A liefert ein durchschnittliches F¨ ullgewicht von x ¯A = 140 g. Eine Zufallsstichprobe aus der Produktion der Maschine B vom Umfang nB = 10 ergibt ein durchschnittliches F¨ ullgewicht von x ¯B = 132 g. Man f¨ uhre einen geeigneten Test durch. (b) Die Varianzen seien nun unbekannt, aber man kann davon ausgehen, daß sie gleich sind. Man erh¨ alt als Sch¨ atzungen der Standardabweichungen uhre mit den Resultaten aus (a) einen sA = 5 und sB = 4.5. Man f¨ geeigneten Test durch. (L¨osung siehe Seite 233)
Aufgabe 11.10 Nach einem Schlaganfall ist die Motorik der Patienten h¨aufig erheblich gest¨ ort. In einem großen REHA-Zentrum befindet sich eine neue REHAMaßnahme zur Verbesserung der Feinmotorik in der Entwicklung. Die Feinmotorik soll mittels zehn verschiedener Geschicklichkeits¨ ubungen gemessen werden, die die Patienten sowohl vor als auch nach der REHA-Maßnahme absolvieren m¨ ussen. Es werden jeweils die als erfolgreich eingestuften Aufgaben gez¨ ahlt. Von Interesse ist zu erfahren, ob die Patienten nach der REHAMaßnahme tats¨ achlich bessere motorische F¨ ahigkeiten haben. ¨ Uberpr¨ ufen Sie diese Frage mittels eines geeigneten statistischen Tests zum Niveau α = 0.05 (Annahme der Normalverteilung ist hier nicht gegeben) anhand der f¨ ur elf zuf¨ allig ausgew¨ ahlte Schlaganfallpatienten ermittelten An¨ zahlen an erfolgreich absolvierten Ubungen: Patient vor REHA nach REHA
1 7 5
2 4 4
3 7 8
4 3 1
5 3 9
6 3 7
7 5 5
8 2 1
9 7 10
10 3 1
11 2 7
(L¨osung siehe Seite 234)
Aufgabe 11.11 Bei f¨ unf Personen wurde der Hautwiderstand jeweils zweimal gemessen, einmal bei Tag (X) und einmal bei Nacht (Y ). Man erhielt f¨ ur das metrische Merkmal Hautwiderstand folgende Daten Xi Yi
24 28 21 27 20 25 15 22
23 18
222
11. Spezielle Testprobleme
(a) Die Vermutung in Forscherkreisen geht dahin, daß der Hautwiderstand nachts absinkt. L¨ aßt sich diese Vermutung durch die vorliegende Untersuchung erh¨ arten? Man teste einseitig mit einem verteilungsfreien Verfahren (α = 0.05). (b) Man u ufe die Nullhypothese aus (a), wenn bekannt ist, daß der ¨berpr¨ Hautwiderstand normalverteilt ist. (L¨osung siehe Seite 235)
Aufgabe 11.12 100 zuf¨ allig ausgew¨ ahlte Studenten der LMU M¨ unchen wurden im Dezember 1997 nach ihrem Studienfach und nach ihrer Einstellung zum Studentenstreik befragt. Dabei ergaben sich folgende H¨ aufigkeiten: Einstellung Studienfach Naturwissenschaften Geisteswissenschaften Wirtschaftswissenschaften
positiv
negativ
neutral
20 10 10
5 5 20
15 5 10
Testen Sie zum Signifikanzniveau von 0.01, ob die Merkmale “Studienfach” und “Einstellung zum Studentenstreik” unabh¨angig sind. (L¨osung siehe Seite 236)
Aufgabe 11.13 Betrachten Sie die Daten aus Aufgabe 3.5 als Zufallsstichprobe eines Jahres. ¨ Uberpr¨ ufen Sie anhand eines geeigneten statistischen Tests zum Niveau α = 0.05, ob die beiden Merkmale “Schulart” und “Staatsangeh¨origkeit” abh¨angig sind. (L¨osung siehe Seite 237)
Aufgabe 11.14 Bei n = 10 Probanden wurden Intelligenz (Variable X) und Ged¨achtnisleistung (Variable Y ) ermittelt. Man erhielt die Wertepaare: X Y
124 79 118 102 86 89 109 128 114 95 100 94 101 112 76 98 91 73 90 84
Man teste die Hypothese der Unabh¨ angigkeit von X und Y unter Verwendung des Bravais-Pearsonschen Korrelationskoeffizienten (α = 0.05). 2 Hinweis: xi = 111 548, yi2 = 85 727, xi yi = 95 929. (L¨osung siehe Seite 238)
11. Spezielle Testprobleme
223
Aufgabe 11.15 Bei einer Umfrage zur Kompetenzeinsch¨ atzung der Politiker A und B werden folgende Zufallsvariablen betrachtet 1 A ist kompetent 1 B ist kompetent X= Y = 0 A ist nicht kompetent, 0 B ist nicht kompetent. Es wird eine Stichprobe von n = 100 befragt. 60 Personen halten A f¨ ur kompetent, 40 Personen halten B f¨ ur kompetent, 35 Personen halten beide f¨ ur kompetent. (a) Man gebe die gemeinsame (absolute) H¨ aufigkeitsverteilung der Zufallsvariablen X und Y in einer Kontingenztafel an. (b) Man teste die Hypothese der Unabh¨ angigkeit von X und Y (α = 0.05). (L¨osung siehe Seite 238) Aufgabe 11.16 Ein Investor hat f¨ ur zwei unabh¨ angige Anlageformen A und B die Monatsrenditen XA,i bzw. YB,j der letzten nA = 25 bzw. nB = 36 Monate ermittelt. Es wurden folgende Statistiken berechnet: x ¯A = 0.0047,
sA = 0.0144,
x ¯B = 0.0072,
sB = 0.0149.
(a) Gehen Sie davon aus, daß die Renditen jeweils unabh¨angig und identisch normalverteilt sind: 2 2 XA,i ∼ N (μA , σA ), XB,j ∼ N (μB , σB ).
Der Investor geht davon aus, daß beide Investments im Mittel positive Monatsrenditen erzielen. Untersuchen Sie mittels statistischer Tests (α = 0.05), ob diese Behauptungen statistisch nachgewiesen werden k¨onnen. (a1) Stellen Sie die Hypothesen der beiden Testprobleme auf. (a2) Wie lauten die Pr¨ ufgr¨ oßen? Wie sind sie unter H0 verteilt? (a3) Bestimmen Sie f¨ ur die Tests die Ablehnungsbereiche. (a4) Wie lauten die Testentscheidungen? F¨ ur die Anlageform B sei der p-Wert durch pB = 0.0085 gegeben. (b) Sie erfahren aus der Literatur, daß f¨ ur Renditen zwar die Normalverteilungsannahme nicht immer gerechtfertigt ist, jedoch stets davon ausgegangen werden kann, daß sie symmetrisch verteilt sind. Untersuchen Sie nun jeweils durch einen Wilcoxon-Vorzeichen-Rang-Test (α = 0.05), ob nachgewiesen werden kann, daß die Investments eine positive Median-Rendite aufweisen. Hierzu wurden folgende Werte der Teststatistiken berechnet: WA+ = 225 und
WB+ = 509.
224
11. Spezielle Testprobleme
(b1) Stellen Sie die Hypothesen der Testprobleme auf. (b2) Wie lauten die Pr¨ ufgr¨ oßen? Wie sind sie unter H0 (approximativ) verteilt? (b3) Bestimmen Sie f¨ ur den Test der Anlageform A den Ablehnungsbereich, und f¨ uhren Sie den Test durch. (c) Der Investor ist der Auffassung, daß Anlageform B im Mittel eine h¨ohere Monatsrendite erzielt als Anlageform A. Untersuchen Sie durch einen statistischen Test zum Niveau α = 0.05, ob sich diese Auffassung statistisch erh¨ arten l¨ aßt. Gehen Sie von normalverteilten Renditen unter der Annahme σA = σB aus. Ihnen steht folgende zus¨ atzliche Angabe zur Verf¨ ugung: (nA − 1) · s2A + (nB − 1) · s2B 1 1 = 0.00384. + nA nB nA + nB − 2 (c1) Stellen Sie die Hypothesen des Testproblems auf. (c2) Wie lautet die Pr¨ ufgr¨ oße? Wie ist sie unter H0 verteilt? (c3) Wie lautet die Testentscheidung? (Kurz!) (L¨osung siehe Seite 239)
11. Spezielle Testprobleme
225
L¨ osungen L¨ osung 11.1 (a) Das Hypothesenpaar ist H0 : μ ≤ 110,
H1 : μ > 110.
F¨ ur den Gauß-Test
¯ − μ0 √ X n σ ur α = 0.05 ergibt sich erh¨ alt man den Ablehnungsbereich (z1−α , ∞). F¨ (1.64, ∞). (b) Mit α = 0.05 ergibt sich aus Z=
z=
2√ 112 − 110 √ 10 = 10 = 0.42, 15 15
daß H0 nicht verworfen wird. (c) Der Fehler 2. Art ist bestimmt durch P (Z ≤ z1−α | μ = 120) = ¯ X − 120 + 120 − μ0 √ = P n ≤ z1−α σ 120 − μ0 √ n ≤ z1−α = P Z+ σ 120 − μ0 √ = P Z ≤ z1−α − n σ 10 √ 10 = P (Z ≤ −0.46) = P Z ≤ 1.64 − 15 = Φ(−0.46) = 1 − Φ(0.46) = 1 − 0.677 = 0.323. (d) Der Ablehnungsbereich des t-Tests ist gegeben als (t1−α (n − 1), ∞). F¨ ur α = 0.05 ergibt sich (t0.95 (9), ∞), also (1.83, ∞). Die Teststatistik erh¨ alt man als t=
x ¯ − μ0 √ 112 − 110 √ n= √ 10 = 0.417. s 230
Die Nullhypothese wird demnach nicht abgelehnt.
226
11. Spezielle Testprobleme
L¨ osung 11.2 ¯ ist ein geeigneter Punktsch¨ (a) X atzer f¨ ur den Erwartungswert μ der Vertei¯ ist erwartungstreu f¨ lung von X. X ur μ, konsistent und effizient. ¯1 = 1780, n1 = 12 und s1 = (b) Das Konfidenzintervall f¨ ur μ1 lautet mit x 230: s1 s1 ¯1 + t0.975 (n1 − 1) · √ ] [¯ x1 − t0.975 (n1 − 1) · √ , x n1 n1 230 = [1780 − 2.2010 · √ , 1780 + 2.2010 · 66.3953] 12 = [1633.86, 1926.14]. Da x ¯2 = 1900, n2 = 20 und s2 = 250, ergibt sich als Konfidenzintervall f¨ ur μ2 :
=
250 [1900 − 2.0930 · √ , 1900 + 2.0930 · 55.9017] 20 [1783.00, 2017.00].
(c) Die beiden Konfidenzintervalle u ¨ berlappen sich. Man kann also aufgrund der Beobachtungen und dem vorgegebenen Signifikanzniveau von 5 % nicht schließen, daß sich die mittleren Kalorienmengen bei Personen mit fleischloser bzw. nicht fleischloser Ern¨ ahrung unterscheiden. (d) Da von einer Normalverteilung und unbekannten, aber gleichen Varianzen σ12 und σ22 ausgegangen werden kann, ist zum Vergleich der Erwartungswerte der Zwei-Stichproben-t-Test f¨ ur unverbundene Stichproben mit folgender Testgr¨ oße geeignet: T
=
¯1 − X ¯2 X , wobei S n11 + n12
S2
=
1 [(n1 − 1)S12 + (n2 − 1)S22 ]. n1 + n2 − 2
Mit n1 = 12, n2 = 20, s1 = 230 und s2 = 250 ergibt sich: 1 1 (11 · 2302 + 19 · 2502 ) = (581900 + 1187500) = 58980 12 + 32 − 2 30 √ und damit s = 58980 = 242.85. Somit erh¨ alt man s2 =
t=
120 1780 − 1900 = −1.35. =− 88.73 1 1 242.85 12 + 20
Da t = −1.35 < −1.697 = t1−α (n + m − 2) = t0.95 (30), kann H0 nicht verworfen werden. Man kann also bei einem Signifikanzniveau von α =
11. Spezielle Testprobleme
227
0.05 nicht schließen, daß Personen, die sich fleischlos ern¨ahren, am Tag weniger Kalorien zu sich nehmen als Personen, bei denen auch Fleisch auf dem Speiseplan steht.
L¨ osung 11.3 (a) Es handelt sich hier um ein Zwei-Stichprobenproblem mit unabh¨angigen Stichproben. Da man nicht von einer Normalverteilung ausgehen kann und die Stichprobenumf¨ ange klein sind, ist ein verteilungsfreier Test und zwar der Wilcoxon-Rangsummen-Test angebracht. (b) Das statistische Testproblem lautet H0 : xmed ≤ ymed
gegen H1 : xmed > ymed ,
d.h. X nimmt unter H0 im Mittel kleinere Werte an als Y . Zur Berechnung der Testgr¨ oße werden in der gemeinsamen Stichprobe die R¨ange verteilt, wie der folgenden Arbeitstabelle entnommen werden kann: gemeinsame Stichprobe (Y ) Rang gemeinsame Stichprobe (X) Rang
8 1
13 5.5
16 8
20 12
24 13
17 9
12 4
9 2
13 5.5
11 3
19 11
15 7
18 10
25 14
Damit ergibt sich f¨ ur die Testgr¨ oße: TW =
n
R(Xi ) = 4 + 2 + 5.5 + 3 + 11 + 7 = 32.5.
i=1
H0 kann verworfen werden, falls TW < wα (n, m). Da hier wα (n, m) = w0.1 (6, 8) = 35 > 32.5 = TW ist, kann H0 verworfen werden. H1 ist signifikant zum Niveau α = 0.1. Man kann also bei einem Signifikanzniveau α = 0.1 nachweisen, daß Pflegekinder in Pflegefamilien, in denen weitere Kinder sind, besser integriert werden.
L¨ osung 11.4 ussen in den Aufgaben 10.7 Da nun σ 2 als unbekannt vorausgesetzt wird, m¨ und 10.9 t-Tests anstelle von Gaußtests durchgef¨ uhrt werden. Die Teststatistik lautet damit: T =
¯ − μ0 √ X · n ∼ t(n − 1). S
228
11. Spezielle Testprobleme
Zu Aufgabe 10.7: H0 wird nun abgelehnt, falls T =
¯ − 100 √ X · n > t0.9 (24) = 1.318, S
ur d.h. im Vergleich zum Gaußtest (mit bekannter Varianz) wird H0 erst f¨ gr¨ oßere Werte der Teststatistik abgelehnt. F¨ ur die Teststatistik ergibt sich t=
104 − 100 √ 25 = 1.¯3, 15
so daß H0 abgelehnt wird. Zu Aufgabe 10.9: H0 wird abgelehnt, falls ¯ − 600 √ X · 40 > t0.99 (39) ≈ t0.99 (∞) = 2.3263. S Aufgrund des großen Stichprobenumfangs stimmen hier t-Test und Gaußtest u ¨berein. Der p-Wert kann somit aus der Standardnormalverteilung bestimmt werden: T =
p = Pμ=μ0 (T > 2.108) = 1 − Pμ=100 (T ≤ 2.108) = 1 − Φ(2.108) = 0.0174.
L¨ osung 11.5 Sei X der Ausgang des Kreuzungsexperiments mit ⎧ 1, falls rund und gelb ⎪ ⎪ ⎨ 2, falls rund und gr¨ un X= 3, falls kantig und gelb ⎪ ⎪ ⎩ 4, falls kantig und gr¨ un. Die hypothetischen Wahrscheinlichkeiten sollen im Verh¨altnis 9 : 3 : 3 : 1 stehen, d.h. 9 3 3 1 π1 = , π2 = , π3 = , π4 = . 16 16 16 16 Zu testen ist H0 : P (X = i) = πi f¨ ur i = 1, 2, 3, 4 gegen H1 : P (X = i) = πi f¨ ur mindestens ein i = 1, 2, 3, 4.
11. Spezielle Testprobleme
229
Verwende als Teststatistik: χ2 =
4 (hi − nπi )2 i=1
nπi
,
wobei hi die absoluten H¨ aufigkeiten bezeichnen und n = 556 den Stichprobenumfang. Der folgenden Tabelle entnimmt man die f¨ ur die Berechnung von χ2 notwendigen Werte: hi
nπi
315 312.75 108 104.25 101 104.25 32 34.75
hi − nπi
(hi −nπi )2 nπi
2.25 3.75 −3.25 −2.75
0.0162 0.1349 0.1013 0.2176
Damit erh¨ alt man χ2
(315 − 312.75)2 (108 − 104.25)2 + + 312.75 104.25 (101 − 104.25)2 (32 − 34.75)2 + 104.25 34.75 = 0.47.
=
a
Unter H0 gilt χ2 ∼ χ2 (3), d.h. H0 wird abgelehnt, falls χ2 > χ20.95 (3) = 7.815. Da χ2 = 0.47 < 7.815, wird H0 beibehalten.
L¨ osung 11.6 Ein geeigneter Test f¨ ur das vorliegende Problem ist der χ2 -Anpassungstest. Zur L¨ osung der Aufgabe wird zun¨ achst die Verteilungsfunktion der Dichte f ben¨ otigt. Sie ist gegeben durch ⎧ 0 ⎪ ⎪ ⎨ 1
f¨ ur 3 2 x − x + 4.5 f¨ u r 8 2 F (x) = 1 2 5 x + x − 11.5 f¨ u r ⎪ 2 ⎪ ⎩ 8 1 f¨ ur
x 10.
Damit erh¨ alt man P (X ≤ 7) P (7 < X ≤ 8) P (8 < X ≤ 9) P (9 < X ≤ 10)
= = = =
0.125 · 72 − 1.5 · 7 + 4.5 0.5 − 0.125 0.875 − 0.5 1 − 0.875
= = = =
0.125, 0.375, 0.375, 0.125.
230
11. Spezielle Testprobleme
Aus diesen Wahrscheinlichkeiten lassen sich die unter der Nullhypothese erwarteten Anzahlen der Werktage berechnen und ergeben:
χ2
(88 − 0.375 · 240)2 (32 − 0.125 · 240)2 + 0.125 · 240 0.375 · 240 (29 − 0.125 · 240)2 (91 − 0.375 · 240)2 + 0.375 · 240 0.125 · 240 0.222.
= = =
Die Nullhypothese wird abgelehnt, falls χ2 > χ20.95 (3) = 7.91. Da χ2 = 0.222 < 7.91, wird H0 beibehalten.
L¨ osung 11.7 In dieser Aufgabe werden der Vorzeichen-Test, der Wilcoxon-VorzeichenRang-Test und der t-Test miteinander verglichen. (a) Dem Vorzeichen-Test liegt folgendes statistische Testproblem zugrunde H0 : xmed ≤ 25
gegen
H1 : xmed > 25.
oße A die Anzahl aller Beobachtungen Da δ0 = 25, ermittle man als Testgr¨ mit einem Wert kleiner als 25. Diese ist unter H0 binomialverteilt mit Parametern n = 10 und π = 0.5. Damit wird H0 verworfen, falls A ≤ bα mit B(bα ) ≤ α < B(bα + 1). Man erh¨ alt aus Tabelle B (Fahrmeir et al., 2004): B(2) = 0.0547 ≤ B(3) = 0.1719 >
α = 0.1 α
und damit bα = 2. Da A = 4 > 2, wird H0 beibehalten. Es kann also nicht davon ausgegangen werden, daß der Median der Anzahl der gerauchten Zigaretten gr¨ oßer als 25 ist. (b) Das Testproblem beim Wilcoxon-Vorzeichen-Rang-Test entspricht dem des Vorzeichen-Tests. Zur Berechnung der Teststatistik erstelle man zun¨ achst eine Arbeitstabelle: xi
26
34
5
20
50
44
18
39
29
19
Di
1
9
−20
−5
25
19
−7
14
4
−6
|Di |
1
9
20
5
25
19
7
14
4
6
rg|Di |
1
6
9
3
10
8
5
7
2
4
Zi
1
1
0
0
1
1
0
1
1
0
11. Spezielle Testprobleme
231
aus der man die Teststatistik W + = 1 + 6 + 10 + 8 + 7 + 2 = 34 erh¨alt. Dabei ist H0 zum Niveau α = 0.1 bei einem Stichprobenumfang von n = 10 zu verwerfen (vgl. Abschnitt 11.1.1 und Tabelle F in Fahrmeir + + et al., 2004), falls W + > w1−α (n) = w0.9 (10) = 39. Da W + = 34 < 39, kann H0 nicht verworfen werden. (c) Der t-Test kann unter der zus¨ atzlichen Annahme durchgef¨ uhrt werden, daß die durchschnittliche Anzahl gerauchter Zigaretten X pro Tag normalverteilt ist, d.h. X ∼ N (μ, σ 2 ), σ 2 unbekannt. Diese Annahme ist allerdings problematisch, da es sich bei X um eine diskrete Zufallsvariable handelt. Nun wird das statistische Testproblem u ¨ ber den Erwartungswert formuliert als: H0 : μ ≤ 25
gegen
H1 : μ > 25,
wobei unter Normalverteilungsannahme μ und xmed u ¨ bereinstimmen. Die Pr¨ ufgr¨ oße ist gegeben als: T =
¯ − μ0 √ X n. S
x2i = 9740 und " 1 1 ! 2 xi − n¯ x2 = (9740 − 10 · 28.42 ) = 186.0¯4, s2 = n−1 9
Mit x ¯ = 28.4,
d.h. s = 13.64, ergibt sich: t=
28.4 − 25 √ 10 = 0.789, 13.64
wobei H0 zu verwerfen ist, falls T > t1−α (n − 1) = t0.9 (9) = 1.383 (nach Tabelle D in Fahrmeir et al., 2004). Da t = 0.788 < 1.383, kann H0 nicht verworfen werden, d.h. alle drei Tests kommen zu derselben Entscheidung. L¨ osung 11.8 (a) Zur Erstellung des Histogramms wird zun¨achst die folgende Arbeitstabelle angelegt: Klassenbreite
absolute H¨ aufigkeit
relative H¨aufigkeit
[−2.5, −1.5)
1
6
0.12
2
[−1.5, −0.5)
1
10
0.20
3
[−0.5, 0.5)
1
5
0.10
4
[0.5, 1.5)
1
7
0.14
5
[1.5, 2.5)
1
22
0.44
i
Klasse Ki
1
232
11. Spezielle Testprobleme
Damit ergibt sich das folgende Histogramm: fi
6
...................................... ... ... .... .... .. .. ... ... .... .... .. .. ... ... .... .... .. .. ... ... ... ... .... .... .. .. ... ... .... .... .. .. ...................................... ... ... ... ... .... .... .. .. ... ... . ... .... .... .. . . .. .. . . .. .. . ........................................ . . . . ..... .... .... ......................................... ..... . ..................................... .... .... ... .... .... .. .. ... ... ... ... ... ... ... ... .... .... ... ... ... ... .. .. ... ... ... ... .. . ... ... ... . ... .... .... ..... .... ..... .... . . . . . .
0.4 0.3 0.2 0.1
−3
−2
−1
0
1
2
3
x
Die Verteilung ist nicht symmetrisch. Es liegt ein starkes Gewicht auf den R¨ andern. Damit spricht das Histogramm eher gegen die Annahme einer Normalverteilung. (b) Das statistische Testproblem ist hier gegeben als: H0 : X ∼ N (0, 1)
gegen
H1 : X ∼ N (0, 1).
¨ Zur Uberpr¨ ufung der Nullhypothese werden zun¨achst die unter H0 erwarteten Besetzungswahrscheinlichkeiten berechnet. Diese ergeben sich als: π1
= P (−∞ < X < −1.5) = 1 − Φ(1.5) = 1 − 0.9332 = 0.0668,
π2
= P (−1.5 ≤ X < −0.5) = Φ(−0.5) − Φ(−1.5) = 1 − Φ(0.5) − [1 − Φ(1.5)]
π3
= Φ(1.5) − Φ(0.5) = 0.9332 − 0.6915 = 0.2417, = P (−0.5 ≤ X < 0.5) = Φ(0.5) − Φ(−0.5) = Φ(0.5) − [1 − Φ(0.5)] = 2 · Φ(0.5) − 1 = 2 · 0.6915 − 1 = 1.383 − 1 = 0.383.
Aufgrund der Symmetrie der Normalverteilung gilt π4 = π2 und π5 = π1 . Damit l¨ aßt sich obiges Testproblem genauer formulieren als: H0 : P (X ∈ Ki ) = πi H1 : P (X ∈ Ki ) = πi
f¨ ur i = 1, ..., 5 gegen
f¨ ur mindestens ein i ∈ {1, ..., 5}.
Zur Berechnung der Pr¨ ufgr¨ oße χ2 =
5 (hi − nπi )2 i=1
nπi
11. Spezielle Testprobleme
233
des χ2 -Anpassungstests ist folgende Arbeitstabelle hilfreich: hi
nπi
(hi − nπi )2 nπi
6 10 5 7 22
3.34 12.09 19.15 12.09 3.34
2.118 0.361 10.455 2.143 104.250
H0 wird nun zum Niveau α = 0.05 verworfen, falls χ2 > χ20.95 (k − 1) = χ20.95 (4) = 9.49. Da hier χ2 = 119.327 > 9.49, wird H0 verworfen, d.h. man kann zum Niveau α = 0.05 schließen, daß der Befindlichkeitsscore keine standardnormalverteilte Zufallsvariable ist.
L¨ osung 11.9 Seien X das F¨ ullgewicht auf Maschine A und Y das F¨ ullgewicht auf Maschine B. Man geht davon aus, daß X und Y unabh¨angig sind und normalverteilt 2 2 mit X ∼ N (μA , σA ) und Y ∼ N (μB , σB ). (a) Zu testen sind die Hypothesen H0 : μA ≤ μB
gegen H1 : μA > μB .
Verwende als Test den Zwei-Stichproben-Gaußtest mit der Teststatistik Z=
√
¯ − Y¯ X nA nB · . 2 + n σ2 nB σA A B
Unter H0 ist Z standardnormalverteilt. H0 wird abgelehnt, falls z > z0.99 = 2.3263. Im vorliegenden Fall gilt z=
√ 140 − 132 12 · 19 · √ = 3.1179 > 2.3263, 19 · 49 + 12 · 25
d.h. H0 wird abgelehnt. Zu einem Signifikanzniveau von α = 0.01 l¨aßt sich nachweisen, daß Maschine A mit einem h¨ oheren F¨ ullgewicht als Maschine B arbeitet.
234
11. Spezielle Testprobleme
(b) Verwende nun als Test den t-Test mit der Teststatistik
¯ − Y¯ X nA nB ∼ t(nA + nB − 2) T = · nA + nB S mit S2 =
2 2 + (nB − 1)SB (nA − 1)SA . nA + nB − 2
H0 wird abgelehnt, falls T > t0.99 (nA + nB − 2) = t0.99 (20) = 2.53.
t=
12 · 10 140 − 132 ·√ = 3.9076, 12 + 10 22.8625
d.h. auch hier wird H0 abgelehnt.
L¨ osung 11.10 Da die gleichen Patienten vor und nach der REHA den Test absolvieren, liegt der Fall von verbundenen Stichproben vor. Außerdem ist die Annahme der Normalverteilung nicht gegeben. Damit ist bei dieser geringen Anzahl von Patienten ein verteilungsfreier Test eher geeignet wie z.B. der WilcoxonVorzeichen-Rang-Test mit der Pr¨ ufgr¨ oße (vgl. Abschnitt 11.3 in Fahrmeir et al., 2004): W+ =
n
rg|Di |Zi
mit Zi =
i=1
1 0
f¨ ur Di > 0 , f¨ ur Di < 0
wobei Di = Xi − Yi mit X
=
Anzahl erfolgreich absolvierter Aufgaben nach REHA,
Y
=
Anzahl erfolgreich absolvierter Aufgaben vor REHA.
Die Frage danach, ob nach der REHA die motorischen F¨ahigkeiten besser geworden sind, l¨ aßt sich u ¨ ber die mittlere Anzahl der erfolgreich absolvierten Aufgaben wie folgt als statistisches Testproblem formulieren: H0
: xmed ≤ ymed
gegen
H1 : xmed > ymed
H0
: Dmed ≤ 0
gegen
H1 : Dmed > 0.
bzw.
11. Spezielle Testprobleme
235
Zur Berechnung der Pr¨ ufgr¨ oße wird folgende Arbeitstabelle erstellt: i
1
2
3
4
5
6
7
8
9
10
11
xi yi
5 7
4 4
8 7
1 3
9 3
7 3
5 5
1 2
10 7
1 3
7 2
Di |Di | rg|Di | Zi
−2 2 4 0
0 0 -
1 1 1.5 1
−2 2 4 0
6 6 9 1
4 4 7 1
0 0 -
−1 1 1.5 0
3 3 6 1
−2 2 4 0
5 5 8 1
aus der sich die Pr¨ ufgr¨ oße W + = 1.5 + 9 + 7 + 6 + 8 = 31.5 ergibt. Da zwei Di den Wert null annehmen, gehen nur neun Beobachtungen in die Analyse ein, wobei H0 zum Niveau α = 0.05 zu verwerfen ist, falls W + > + w0.95 (9) = 35. Da 31.5 < 35, kann H0 nicht verworfen werden, d.h. aufgrund der vorliegenden Beobachtungen kann zum Niveau α = 0.05 nicht geschlossen werden, daß die neuentwickelte REHA-Maßnahme zu einer Verbesserung der Feinmotorik f¨ uhrt.
L¨ osung 11.11 (a) Da es sich hier um eine verbundene Stichprobe handelt, geht man u ¨ ber zu den Differenzen Di = Xi − Yi . Da man nicht von der Normalverteilungsannahme ausgehen kann, erweist sich der Wilcoxon-Vorzeichen-Rang-Test als geeignet. Die Hypothesen H0 : Xmed ≤ Ymed
gegen H1 : Xmed > Ymed
sind ¨ aquivalent zu H0 : Dmed ≤ 0 gegen H1 : Dmed > 0. Die Teststatistik lautet W+
=
Zi
=
5 i=1
rg|Di |Zi mit
1, falls Di > 0 0, falls Di ≤ 0.
236
11. Spezielle Testprobleme
Der folgenden Tabelle entnimmt man die zur Berechnung von W + ben¨ otigten Gr¨ oßen: xi yi Di = xi − yi rg(Di ) Zi
24 28 21 27 23 20 25 15 22 18 4 3 6 5 5 2 1 5 3.5 3.5 1 1 1 1 1
Damit erh¨ alt man W + = 2 + 1 + 5 + 3.5 + 3.5 = 15. H0 wird abgelehnt, falls + W + > w0.95 (5) = 13.
Im vorliegenden Fall wird also H0 abgelehnt, d.h. das Absinken des Hautwiderstands ist signifikant zu α = 0.05. (b) Bei normalverteilten Merkmalen kann der einfache t-Test zum Test von H0 : μD ≤ 0
gegen H1 : μD > 0
verwendet werden. Die Teststatistik lautet T =
¯ −0 √ D · n. S
Es gilt d¯ = 4.6 und s2 = 1.3 und damit t=
4.6 √ 5 = 9.023. 1.14
H0 wird abgelehnt, falls T > t0.95 (4) = 2.1318. Wie beim Wilcoxon-Test wird also auch hier H0 abgelehnt.
L¨ osung 11.12 Zu testen sind die Hypothesen H0 : Unabh¨ angigkeit zwischen Studienfach und Einstellung angigkeit zwischen Studienfach und Einstellung. gegen H1 : Abh¨
11. Spezielle Testprobleme
237
Verwende als Test einen χ2 -Unabh¨ angigkeitstest mit der Teststatistik χ2 =
k m ˜ ij )2 (hij − h ˜ hij i=1 j=1
und
˜ ij = hi. h.j . h n Der folgenden Tabelle entnimmt man die f¨ ur die Berechnung von χ2 notwen˜ digen hij : positiv negativ Naturwissenschaften 16 12 Geisteswissenschaften 8 6 Wirtschaftswissenschaften 16 12 40 30
neutral 12 40 6 20 12 40 30 100
Es gilt: χ2 =
(20 − 16)2 (5 − 12)2 (15 − 12)2 (10 − 12)2 + + + ···+ = 14.58¯3. 16 12 12 12
H0 wird abgelehnt, falls χ2 > χ20.99 ((k − 1)(m − 1)) = χ20.99 (4) = 13.277. ¯ > 13.277, wird im vorliegenden Fall die Nullhypothese verDa χ2 = 14.583 worfen. Es besteht also ein signifikanter Zusammenhang zwischen Studienfach und Einstellung zum Studentenstreit.
L¨ osung 11.13 Da die beiden Merkmale “Schulart” und “Staatsangeh¨origkeit” nominal ska¨ liert sind, ist der χ2 -Unabh¨ angigkeitstest zur Uberpr¨ ufung geeignet. Das statistische Testproblem lautet angig H0 : X, Y unabh¨
gegen
H1 : X, Y abh¨angig
H0 : P (X = i, Y = j) = P (X = i) · P (Y = j)
bzw.
gegen
ur mindestens ein Paar (i, j). H1 : P (X = i, Y = j) = P (X = i) · P (Y = j) f¨ Als Testgr¨ oße dient hier die Gr¨ oße χ2 , die schon in Aufgabe 3.5 berechnet wurde. Dort ergab sich der Wert χ2 = 21673.08. H0 kann nun verworfen werden, falls χ2 > χ21−α ((k − 1)(m − 1)) = χ20.95 (2) = 5.9915. Da hier χ2 = 21673.08 > 5.9915, kann H0 zum Niveau α = 0.05 verworfen werden, d.h. es liegt ein zum Niveau α = 0.05 signifikanter Zusammenhang zwischen den Merkmalen “Schulart” und “Staatsangeh¨origkeit” vor.
238
11. Spezielle Testprobleme
L¨ osung 11.14 Unter der Annahme, daß die (Xi , Yi )i=1...n unabh¨angig und gemeinsam normalverteilt sind, lauten die zu testenden Hypothesen H0 : ρXY = 0 gegen H1 : ρXY = 0. Als Testgr¨ oße verwende man hier √ rXY · n − 2. T = 2 1 − rXY Unter H0 gilt T ∼ t(n − 2). Im vorliegenden Fall gilt x ¯ = 104.4, y¯ = 91.9 und damit 95 929 − 10 · 104.4 · 91.9 rXY = = −0.0081. (111 548 − 10 · 104.42 )(85 727 − 10 · 91.92 ) F¨ ur T erh¨ alt man also: √ −0.0081 t= √ · 8 = −0.0229. 1 − 0.00812 H0 wird abgelehnt, falls |T | > t0.975 (8) = 2.3060. Im vorliegenden Fall wird also H0 nicht abgelehnt.
L¨ osung 11.15 (a) Die H¨ aufigkeitsverteilung ergibt sich als Y X
1 0
1 35 5 40
0 25 35 60
60 40 100
(b) Man erh¨ alt f¨ ur die unter Unabh¨ angigkeit zu erwartenden Beobachtungen ˜ ij = hi· hj· /n die Tafel h Y X
1 0
1 24 16 40
0 36 24 60
60 40 100
11. Spezielle Testprobleme
239
Daraus ergibt sich χ2
=
(hij − h ˜ ij )2 ˜ ij h i,j
= =
(25 − 36)2 (5 − 16)2 (35 − 24)2 (35 − 24)2 + + + 24 36 16 24 5.042 + 3.361 + 7.563 + 5.042
=
21.007.
Der Vergleich mit χ20.95 (1) = 3.84 zeigt, daß H0 abgelehnt wird.
L¨ osung 11.16 (a)(a1) Die Testprobleme lauten hier: H0A : μA ≤ 0
gegen
H1A : μA > 0,
H0B : μB ≤ 0
gegen
H1B : μB > 0.
(a2) Da nA = 25 ≤ 30 gilt: TA =
¯ A H0A √ X nA · ∼ t(nA − 1). SA
Wegen nB = 36 > 30 gilt: TB =
√
nB ·
¯ B H0B X ∼ N (0, 1). SB
(a3) Der Ablehnungsbereich zu A lautet: {tA : tA > t0.95 (24)} mit t0.95 (24) = 1.7109. Entsprechend ergibt sich der Ablehnungsbereich zu B als: {tB : tB > z0.95 } mit z0.95 = 1.64. √ A (a4) Da tA = 25 · 0.0047 0.0144 = 1.6319 < 1.7109, wird H0 beibehalten, und B da der p-Wert pB = 0.0085 < α = 0.05, wird H0 verworfen. (b)(b1) Hier werden die Testprobleme u ¨ ber den Median formuliert: A A H0 : XA,med ≤ 0 gegen H1 : XA,med > 0, H0B : XB,med ≤ 0 gegen H1B : XB,med > 0. (b2) Die Pr¨ ufgr¨ oße des Wilcoxon-Vorzeichen-Rang-Tests lautet z.B. f¨ ur die Anlageform A nA WA+ = rg|Di |Zi , i=1
240
11. Spezielle Testprobleme
wobei Di Zi
= Xi − 0 = Xi und 1 Xi > 0 = 0 Xi < 0.
Es gilt: WA+
H0A
WB+
H0B
nA (nA + 1) nA (nA + 1)(2nA + 1) , , 4 24 nB (nB + 1) nB (nB + 1)(2nB + 1) N , . 4 24
∼
N
∼
(b3) Es gilt unter XA,med = 0: + W − nA (nA + 1)/4 W + − 162.5 A . = A 37.17 nA (nA + 1)(2nA + 1)/24 Es wird H0 verworfen, wenn WA+ − 162.5 > z0.95 = 1.64, 37.17 d.h. wenn WA+ > 223.46. H0A wird somit abgelehnt. Alternativ betrachtet man die normierte Teststatistik 225 − 25 · 26/4 62.5 = 1.6817 > 1.64 = z0.95 . = 37.165 25·26·(50+1) 24
(c)(c1) Das Testproblem lautet nun: H0 : μA ≥ μB gegen H1 : μA < μB . (c2) Die Pr¨ ufgr¨ oße ist die des Zwei-Stichproben-t-Tests: T = !
1 nA
+
1 nB
¯B − X ¯A X " 2
2 (nA −1)·SA +(nB −1)·SB
H0
∼ t(nA + nB − 2) = t(59).
nA +nB −2
(c3) Der Ablehnungsbereich bestimmt sich durch {t : t > t0.95 (59)}, t0.95 (59) ≈ t0.95 (60) = 1.6706. Mit t =
0.0072−0.0047 0.00384
= 0.651 < 1.6706 wird H0 beibehalten.
12 Regressionsanalyse
Aufgaben Aufgabe 12.1 (Fortsetzung von Aufgabe 3.12) (a) Sch¨ atzen Sie V ar(i ) = σ 2 . (b) Pr¨ ufen Sie anhand des F -Tests zum Niveau α = 0.05, ob β von null verschieden ist. Interpretieren Sie Ihr Ergebnis. (L¨osung siehe Seite 253)
Aufgabe 12.2 In einer Studie zur Untersuchung von Herzkreislauferkrankungen wurde bei sechs M¨ annern der BodyMassIndex (Gewicht in kg/(K¨orpergr¨oße in m)2 ) ermittelt. Zus¨ atzlich wurde deren systolischer Blutdruck gemessen, da ver¨ mutet wurde, daß Ubergewicht Bluthochdruck hervorruft. Bezeichne X den BMI und Y die Systole. F¨ ur eine Vorstichprobe von sechs M¨annern erhielt man folgende Werte: xi yi
26 170
23 150
27 160
28 175
24 155
25 150
Nehmen Sie an, daß sich der Zusammenhang zwischen X und Y durch folgende Beziehung beschreiben l¨ aßt: yi = a + βxi + i ,
i = 1, . . . , 6.
(a) Bestimmen Sie die KQ-Sch¨ atzer f¨ ur α und β. (b) Berechnen Sie ein 95 %-Konfidenzintervall f¨ ur β. (c) F¨ uhren Sie auf der Basis des Konfidenzintervalls einen Test zum Niveau
0 durch. α = 5 % f¨ ur die Hypothese H0 : β = 0 gegen H1 : β = Interpretieren Sie Ihr Ergebnis. (L¨osung siehe Seite 254)
242
12. Regressionsanalyse
Aufgabe 12.3 In Fahrmeir et al. (2004), Abschnitt 3.6.2, wurde ein lineares Regressionsmodell besprochen, das den Einfluß der t¨ aglichen Fernsehzeit auf das Schlafverhalten von Kindern untersucht. (a) Testen Sie unter Normalverteilungsannahme, ob die vor dem Fernseher verbrachte Zeit einen signifikanten Einfluß auf die Dauer des Tiefschlafs aus¨ ubt (α = 0.05). Warum ist die Normalverteilungsannahme hier problematisch? (b) Ein weiteres Kind sah tags¨ uber 1.5 Stunden fern. Wie lange wird gem¨aß der angepaßten Regression sein Tiefschlaf erwartungsgem¨aß dauern? Geben Sie zu Ihrer Prognose auch ein 95 %-Konfidenzintervall an. (L¨osung siehe Seite 255)
Aufgabe 12.4 (Fortsetzung von Aufgabe 3.7) (a) Nennen Sie einen Test, mit dem sich u ufen l¨aßt, ob die Dosis des ¨ berpr¨ Medikaments einen Einfluß auf die Reaktionszeit hat. Formulieren Sie diese Frage als statistisches Testproblem, und geben Sie die Testgr¨oße an. Formen Sie die Testgr¨ oße so um, daß sie nur noch vom Bestimmtheitsmaß und vom Stichprobenumfang abh¨ angt. F¨ uhren Sie den Test zum Niveau α = 0.05 durch, und interpretieren Sie das Ergebnis. (b) Geben Sie ein Prognoseintervall f¨ ur eine Dosierung von Y0 = 5.5mg an. (L¨osung siehe Seite 257)
Aufgabe 12.5 Das folgende Streudiagramm veranschaulicht f¨ ur n = 20 Beobachtungen den Zusammenhang zweier Variablen Y und X:
12. Regressionsanalyse
243
(a) Welches der folgenden beiden Regressionsmodelle wird den im Streudiagramm dargestellten Daten am besten gerecht? (Begr¨ undung!) Modell 1: yi Modell 2: yi
= =
α + βxi + i α + βx2i + i
i = 1, . . . , 20, i = 1, . . . , 20.
(b) Bestimmen Sie die KQ-Sch¨ atzer α ˆ und βˆ f¨ ur das in (a) ausgew¨ahlte Modell. Verwenden Sie dabei einige der folgenden Gr¨oßen: 2 4 335.44, xi = −8.50, xi = 65.00, xi = yi = 105.65, yi xi = −23.33, yi x2i = 465.63. (c) Das Bestimmtheitsmaß ist R2 = 0.87. Wie lautet der Korrelationskoeffizient nach Bravais-Pearson? (d) Das 95 %-Konfidenzintervall f¨ ur β lautet [0.80, 1.17]. Testen Sie zum Signifikanzniveau α = 0.05 H0 : β = 0
gegen
H1 : β = 0.
(e) Welchen Wert y0 prognostizieren Sie f¨ ur einen neuen Wert x0 = 1.5? Geben Sie auch ein 95 % Prognoseintervall an (ˆ σ = 0.97). (L¨osung siehe Seite 258)
Aufgabe 12.6 Nach dem Sch¨ atzen einer linearen Einfachregression Yi = α + βxi + i ist oft ein Blick auf die Residuen ˆi hilfreich, um Modellannahmen zu u ufen. ¨ berpr¨ (a) Welche Annahmen stellt man an die Fehlerterme i und damit implizit an die Residuen ˆi ? (b) Welche zus¨ atzlichen Modellannahmen sind unter Umst¨anden nicht erf¨ ullt? ¨ (c) Ein exploratives Mittel zur Uberpr¨ ufung der Modellannahmen ist der sogenannte Residualplot, das Streudiagramm der (xi , ˆi )-Werte. Nachfolgend sind f¨ ur f¨ unf verschiedene Datens¨ atze Residualplots dargestellt. ¨ Uberlegen Sie bei jedem Bild, ob und wenn ja welche Annahme verletzt sein k¨ onnte.
12. Regressionsanalyse
2 0
residual
-2
0
-4
-10
residual
10
4
244
0
2
4
6
8
10
1
2
4
residual
-0.2
0.0
0.2
10 5 0
residual
-5
-0.4
-10
1
2
3
4
5
0
4 2 0 -2 -4 -6 0.0
0.5
1.0
1.5 x
(L¨osung siehe Seite 259)
2
4
6 x
6
x
residual
3 x
0.4
x
2.0
2.5
3.0
8
10
12. Regressionsanalyse
245
Aufgabe 12.7 Zum Sch¨ atzen und Testen der linearen Einfachregression Yi = α + βxi + i ,
i = 1, . . . , n,
gehen implizit und explizit verschiedene Annahmen ein, die bei realen Datens¨ atzen unter Umst¨ anden verletzt sind. In den folgenden vier Bildern sind vier problematische Datens¨ atze graphisch dargestellt. Welche Annahme erscheint Ihnen jeweils am kritischsten? Es gen¨ ugt jeweils eine stichwortartige Antwort.
(b)
5
10
Y
3 0
-5
1
0
2
Y
4
15
5
20
6
25
(a)
2
3
4
5
0
2
4
6
x
x
(c)
(d)
8
10
8
10
Y
0
24
20
26
40
Y
28
60
30
80
1
0
1
2
3 x
(L¨osung siehe Seite 259)
4
0
2
4
6 x
246
12. Regressionsanalyse
Aufgabe 12.8 Betrachten Sie die lineare Einfachregression als Spezialfall der multiplen Re¨ gression. Zeigen Sie die Aquivalenz der beiden Teststatistiken T und F zum Pr¨ ufen der Hypothese H0 : β1 = 0. (L¨osung siehe Seite 260)
Aufgabe 12.9 Nach der sogenannten Permanent Income-Hypothese von M. Friedman (1957) h¨angt der Konsum C zum Zeitpunkt t vom Volkseinkommen und vom Konsum der Vorperiode ab, d.h. Ct = β1 Yt + β2 Ct−1 + t . Die nachfolgende Tabelle zeigt Sch¨ atzergebnisse f¨ ur dieses multiple Regressionsmodell: Kovariable Volkseinkommen verz. Konsum
βˆj 0.0700088 0.9239275
σ ˆj 0.0144448 0.0159818
(Datengrundlage: Saisonbereinigte Quartalsdaten vom ersten Quartal 1969 bis zum zweiten Quartal 1990, t = 1, . . . , 102). (a) Bestimmen Sie f¨ ur β1 und β2 jeweils 95 %-Konfidenzintervalle. Sind die beiden Kovariablen signifikant (α = 0.05)? (b) Interpretieren Sie die erhaltenen Ergebnisse inhaltlich. Ber¨ ucksichtigen Sie dabei auch die Ergebnisse aus Teilaufgabe (a). (c) Prognostizieren Sie den Konsum f¨ ur das dritte Quartal 1990 (t = 103) bei einem Volkseinkommen von 6.4 und einem verz¨ogerten Konsum von 5.7. (d) Welche Annahme(n) des linearen Regressionsmodells ist(sind) verletzt? (L¨osung siehe Seite 261)
Aufgabe 12.10 An einer Meßstation in M¨ unchen wurden an 14 Tagen neben anderen Luftschadstoffen auch die Schwefeldioxidkonzentrationen gemessen und Tagesmittelwerte gebildet. Untersuchen Sie den Einfluß der Tagesdurchschnittstemunden logarithmierten peratur in Grad Celsius (X1 ) auf die aus Symmetriegr¨ SO2 -Konzentrationen (Y ). Liegt ein Wochenendeffekt vor? Die Variable X2 gibt an, ob an einem Samstag oder Sonntag gemessen wurde (X2 = 1) oder nicht (X2 = 0).
12. Regressionsanalyse
247
Es gilt: y x1 x2 y x1 x2
−3.15 16.47 0 −3.35 18.32 0
(X X)−1 X y
−2.83 −3.02 16.02 16.81 0 0 −2.76 −1.90 15.96 15.36 0 0 ⎛ 1.5488742 = ⎝ −0.0882330 ⎛ −0.0162669 −38.16486 = ⎝ −656.46618 −11.19324
−3.08 22.87 1 −2.12 12.47 1
−3.54 21.68 1 −2.45 12.46 1
−2.98 21.23 0 −1.97 11.77 0
−2.78 20.55 0 −2.23 11.72 0 ⎞ −0.0882330 −0.0162669 0.0053732 −0.0050992 ⎠ , −0.0050992 0.3548391 ⎞ ⎠.
(a) Sch¨ atzen Sie die Regressionskoeffizienten im zugeh¨origen multiplen linearen Modell, und kommentieren Sie Ihr Ergebnis. (b) Als Bestimmheitsmaß erh¨ alt man R2 = 0.5781. Tragen die Regressoren u arung der SO2 -Konzentration bei? F¨ uhren Sie einen ¨ berhaupt zur Erkl¨ Overall-F -Test zum Niveau α = 0.01 durch. ˆ2 = (c) Die gesch¨ atzten Standardabweichungen betragen σ ˆ1 = 0.0267 und σ 0.2169. Testen Sie die Hypothesen βi = 0 f¨ ur i = 1, 2 zum Niveau α = 0.05. Entfernen Sie die Kovariable aus dem Modell, die offenbar keinen Einfluß hat, und f¨ uhren Sie eine lineare Einfachregression durch. (L¨osung siehe Seite 261)
Aufgabe 12.11 In 41 US-amerikanischen St¨ adten wurde die Schwefeldioxid-Konzentration in der Luft in Abh¨ angigkeit von klimatischen und geographischen Variablen untersucht. U. a. wurde auch ein multiples lineares Regressionsmodell mit den folgenden drei erkl¨ arenden Variablen gerechnet: Variable temp entrpr wind
Beschreibung Jahresdurchschnittstemperatur in Grad Fahrenheit Anzahl der produzierenden Unternehmen mit mehr als 20 Arbeitern j¨ ahrliche durchschnittliche Windgeschwindigkeit in Meilen pro Stunde
Die abh¨ angige Variable war die logarithmierte j¨ahrliche durchschnittliche Schwefeldioxidkonzentration in Mikrogramm pro Quadratmeter log(so2) (Datenquelle: Hand et al. , 1994, Small Data Sets).
248
12. Regressionsanalyse
Mit einem Statistikprogrammpaket erhielt man die folgenden Sch¨atzungen: Variable Intercept temp enterpr wind
Koeffizient 7.4893 −0.0557 0.0006 −0.1580
Std. Fehler 0.9928 0.0117 0.0001 0.0598
(a) Geben Sie die zugeh¨ orige Regressionsgleichung an. Welche Voraussetzungen m¨ ussen erf¨ ullt sein, um auch auf Signifikanz der Regressionkoeffizienten testen zu k¨ onnen? Warum war es sinnvoll, die logarithmierten Schadstoffkonzentrationen zu betrachten? (b) Bestimmen Sie ein zweiseitiges Konfidenzintervall zur Sicherheitswahrscheinlichkeit 1 − α = 0.95 f¨ ur den Regressionskoeffizienten, der den Einfluß der Windgeschwindigkeit beschreibt. Ist dieser Koeffizient signifikant von null verschieden (α = 0.05)? (Rechnung ist nicht erforderlich, aber eine Begr¨ undung!) (L¨osung siehe Seite 263) Aufgabe 12.12 Der Datensatz golf enth¨ alt Daten zum Verkaufspreis gebrauchter Golf Modelle der Marke VW. Der Stichprobenumfang betr¨agt n = 169. Tabelle 12.1 enth¨ alt eine Beschreibung der im Datensatz enthaltenen Variablen. Ziel ist die Modellierung des Zusammenhangs zwischen dem Verkaufspreis (Variable preis) und den erkl¨ arenden Variablen (alter, kilstand, tuev, sonderaus1, sonderaus2) anhand geeigneter Regressionsmodelle. Variable preis alter kilstand tuev sonderaus1 sonderaus2
Beschreibung Verkaufspreis in 1000 Euro Alter des Autos in Monaten Kilometerleistung in 1000 Km Anzahl der Monate bis zum n¨ achsten T¨ uv Termin Sonderausstatung ABS vorhanden 0 = ABS nicht vorhanden 1 = ABS vorhanden Schiebedach vorhanden 0 = Schiebedach nicht vorhanden 1 = Schiebedach vorhanden
Tabelle 12.1. Variablenbeschreibung
(a) Abbildung 12.1 zeigt Streudiagramme zwischen dem Verkaufspreis und den metrischen erkl¨ arenden Variablen alter, kilstand und tuev. Abbildung 12.2 zeigt Boxplots f¨ ur den Preis geschichtet nach den Werten der
12. Regressionsanalyse
249
bin¨ aren Variablen sonderaus1 und sonderaus2. Interpretieren Sie die Grafiken. Welche Aussagen lassen sich u ¨ ber den Zusammenhang zwischen preis und den erkl¨ arenden Variablen treffen? (b) Welche Aussagen k¨ onnen Sie u ¨ ber die 3 Korrelationskoeffizienten zwischen dem preis und den erkl¨ arenden Variablen alter, kilstand und tuev treffen? Hinweis: Eine genaue Angabe der Korrelationskoeffizienten ist nicht m¨ oglich, Sie sollen ihre Aussagen jedoch so genau wie m¨oglich treffen. (c) Abbildung 12.3 zeigt das Streudiagramm zwischen Preis und Kilometerstand. Zus¨ atzlich eingezeichnet sind die gesch¨atzten durchschnittlichen Zusammenh¨ ange f¨ ur die Modelle M 1 : preis = β0 + β1 · kilstand + ε (durchgezogene Linie) und M 2 : preis = β0 + β1 · 1/kilstand + ε (gestrichelte Linie). Die gesch¨ atzten Regressionskoeffizienten betragen ur Modell M 1 und βˆ0 = 1.296881, βˆ0 = 5.597714, βˆ1 = −0.0162792 f¨ ˆ β1 = 254.5488 f¨ ur Modell M 2. Die jeweiligen Bestimmtheitsmaße sind R2 = 0.3250 und R2 = 0.3760. Wie lauten die Prognoseformeln der beiden Modellen? Interpretieren Sie die Ergebnisse. Welches Modell w¨ urden Sie bevorzugen (mit kurzer Begr¨ undung)? (d) Tabelle 12.2 enth¨ alt Sch¨ atzergebnisse f¨ ur ein multiples Regressionsmodell mit den erkl¨ arenden Variablen kilstandinv = 1/kilstand, alter und sonderaus1. Wie lautet die Modellgleichung, wie lautet die Formel f¨ ur Interpretieren Sie die Ergebnisse. Sind die Effekte der Variablen preis? alter und sonderaus1 zum Niveau α = 0.05 signifikant?
Variable Konstante kilstandinv alter sonderaus1
R2 = 0.6320 Gesch¨ atzter Koeffizient Gesch¨ atzter Standard-Fehler 6.259881 0.4944898 βˆ0 = 161.0861 21.48556 βˆ1 = −0.0356507 0.0033467 βˆ2 = −0.2331171 0.1240331 βˆ3 =
Tabelle 12.2. Sch¨ atzergebnis des multiplen Regressionsmodells aus Aufgabenteil (d).
Verkaufspreis versus Alter Verkaufspreis in 1000 Euro 65
75
85
1.5 2.5 3.5 4.5 5.5 6.5 7.5
Verkaufspreis in 1000 Euro
12. Regressionsanalyse
1.5 2.5 3.5 4.5 5.5 6.5 7.5
250
95 105 115 125 135
50
Verkaufspreis in 1000 Euro
Alter in Monaten
1.5 2.5 3.5 4.5 5.5 6.5 7.5
Verkaufspreis versus Kilometerstand
90
130
170
210
250
Kilometerstand in 1000 Km
Verkaufspreis versus Monate bis Tüv
0
3
6
9
12 15 18 21 24
Monate bis zum nächsten Tüv
Abbildung 12.1. Streudiagramme zwischen dem Verkaufspreis und den metrischen erkl¨ arenden Variablen Alter, Kilometerstand und Monate bis zum n¨ achsten T¨ uv.
7.5
Verkaufspreis mit und ohne Schiebedach
1.5
2.5
3.5
4.5
5.5
6.5
Verkaufspreis in 1000 Euro
7.5 6.5 5.5 4.5 3.5 2.5 1.5
Verkaufspreis in 1000 Euro
Verkaufspreis mit und ohne ABS
kein ABS
ABS
kein Schiebedach
Schiebedach
Abbildung 12.2. Boxplots f¨ ur den Preis geschichtet nach den Werten der bin¨ aren Variablen sonderaus1 und sonderaus2.
preis = beta_0 + beta_1 kilstand + epsilon
−1
0
1
2
3
Verkaufspreis versus Kilometerstand
251
−2
Verkaufspreis in 1000 Euro
1.5 2.5 3.5 4.5 5.5 6.5 7.5
12. Regressionsanalyse
50
90
130
170
210
250
50
Kilometerstand in 1000 Km
90
130
170
210
250
Kilometerstand in 1000 Km
−2
−1
0
1
2
3
preis = beta_0 + beta_1 1/kilstand + epsilon
50
90
130
170
210
250
Kilometerstand in 1000 Km
Abbildung 12.3. Streudiagramm zwischen Preis und Kilometerstand. Zus¨ atzlich eingezeichnet sind die gesch¨ atzten durchschnittlichen Zusammenh¨ ange f¨ ur die beiden Modelle M1 und M2. Die beiden unteren Grafiken zeigen die Residuen f¨ ur die beiden Modelle in Abh¨ angigkeit vom Kilometerstand.
(L¨osung siehe Seite 264) Aufgabe 12.13 Im Zusammenhang mit der Berechnung von Preisindizes f¨ ur Gebrauchtwagen wurden vom Statistischen Bundesamt im Herbst 2003 Regressionsanalysen zur Sch¨ atzung des durchschnittlichen Preises in Abh¨angigkeit von Charakteristika der Gebrauchtwagen durchgef¨ uhrt. Der untersuchte Datensatz besitzt eine hohe Anzahl an Beobachtungen. Die in der Analyse verwendeten Variablen sind in Tabelle 12.3 abgedruckt. Tabelle 12.4 enth¨alt Sch¨atzergebnisse f¨ ur ein multiples Regressionsmodell zwischen dem logarithmierten Verkaufspreis ln(V P ) und den erkl¨ arenden Variablen. Dabei wurde das folgende Modell gesch¨ atzt: ln(V P ) =
β0 + β1 · Alt + β2 · Kil + β3 · ln(N P )+ β4 · DAUDI + . . . + β18 · DT OY OT A + β19 · DZeit + ε
(a) Interpretieren Sie die Sch¨ atzergebnisse. Gehen Sie dabei nicht auf die Ergebnisse f¨ ur die Dummyvariablen der Automarken ein.
252
12. Regressionsanalyse
(b) Testen Sie, zum Signifikanzniveau α = 0.01, ob die Variable Kil einen signifikanten Einfluss auf den (logarithmierten) durchschnittlichen Verkaufspreis besitzt. (c) Bestimmen Sie anhand des gesch¨ atzten Koeffizienten der Variable Alt sowohl die durchschnittliche prozentuale monatliche als auch die j¨ahrliche Wert¨ anderung eines Gebrauchtwagens. Variable VP NP Alt Kil DM arke DZeit
Beschreibung Verkaufspreis deflationierter ehemaliger Neupreis Fahrzeugalter in Monaten Relative Kilometerzahl(geleistete Kilometer je Monat des Fahrzeugalters) 15 Dummyvariablen f¨ ur die Hersteller (Audi, BMW, Mercedes Benz, VW, etc.) Zeitdummyvariable DZeit = 0 f¨ ur Daten aus August 2003 DZeit = 1 f¨ ur Daten aus September 2003
Tabelle 12.3. Variablenbeschreibung. R2 = 0.96 ParameterStandard sch¨ atzer Fehler Absolutglied 0.97948 0.0036 βˆ0 = Alt −0.01437 0.00000279 βˆ1 = Kil −0.000117 0.0000006125 βˆ2 = ln(N P ) 0.91569 0.000442244 βˆ3 = Hersteller-Dummyvariable (Referenzmarke = Volkswagen) AUDI 0.09288 0.0003721 βˆ4 = BMW 0.07717 0.00037003 βˆ5 = CITROEN −0.20343 0.00064163 βˆ6 = NISSAN −0.03100 0.00056686 βˆ7 = FIAT −0.10170 0.00044523 βˆ8 = FORD −0.06579 0.00035724 βˆ9 = HONDA −0.03123 0.00064286 βˆ10 = MAZDA −0.02799 0.00068333 βˆ11 = BENZ 0.09663 0.00031242 βˆ12 = MITSUBISHI βˆ13 = 0.03830 0.00063516 OPEL −0.09666 0.00027435 βˆ14 = PEUGEOT −0.04159 0.00056052 βˆ15 = RENAULT 0.00953 0.00032103 βˆ16 = SEAT −0.04029 0.00052788 βˆ17 = TOYOTA 0.00265 0.00060993 βˆ18 = Zeitvariable 0.00282 0.00016214 βˆ19 = Variable
Tabelle 12.4. Sch¨ atzergebnisse.
(L¨osung siehe Seite 266)
12. Regressionsanalyse
253
L¨ osungen L¨ osung 12.1 (a) In Erg¨ anzung zu Aufgabe 3.12 kann V ar(i ) = σ 2 erwartungstreu gesch¨ atzt werden durch σ2 =
1 1 (Yi − Yˆi )2 = SQR, n−2 n−2
wobei
(Yi − Y¯ )2 SQT
d.h.
=
(Yˆi − Y¯ )2 +
(Yi − Yˆi )2 ,
= SQE + SQR,
SQR = SQT − SQE.
Zur Berechnung kann man ausnutzen, daß folgende Resultate bereits vorliegen: 2 • SQT = yi − n¯ y 2 = 12.90821, SQE • R2 = 0.997 = =⇒ SQE = SQT · 0.997 = 12.87. SQT Damit berechnet man: SQR = 12.90821 − 12.87 = 0.03821, woraus folgt: 1 · 0.03821 = 0.0047. 8 (b) Das Testproblem lautet hier: σ ˆ2 =
H0 : β = 0 gegen H1 : β = 0. Die Pr¨ ufgr¨ oße ist gegeben als (s. Abschnitt 12.1.2 in Fahrmeir et al., 2004): SQE/1 R2 F = oder F = · (n − 2). SQR/(n − 2) 1 − R2 Die Pr¨ ufgr¨ oße berechnet sich als: (c) 12.87 = 2738.3. (b1) F = 0.0047 0.997 (b2) F = · 8 = 2658.67. 1 − 0.997 Die verschiedenen Werte f¨ ur die Pr¨ ufgr¨ oße lassen sich auf Rundungsfehler zur¨ uckf¨ uhren. Da F = 2738.3 > 5.318 = F0.95 (1, 8), kann H0 zum Niveau α = 0.5
254
12. Regressionsanalyse
verworfen werden, d.h. es kann aus den vorliegenden Werten geschlossen werden, daß der Grad der Drehung zur linearen Vorhersage der Reaktionszeit geeignet ist. Bemerkung: Es ist sinnvoll, zur Pr¨ ufung der Modellanpassung auch Residualplots zu zeichnen.
L¨ osung 12.2 (a) Die KQ-Sch¨ atzer lassen sich berechnen als x y¯ xi yi − n¯ ˆ , α ˆ = y¯ − βˆx ¯. β= 2 x2 xi − n¯ Mit den folgenden Hilfsgr¨ oßen: x¯ = 25.5, x2i = 3919 y¯ = 160,
=⇒
xi yi = 24560 =⇒
x2i − n¯ x2 = 17.5
xi yi − n¯ x y¯ = 80
ergeben sich diese als 80 = 4.57, α ˆ = 160 − 4.57 · 25.5 = 43.465. βˆ = 17.5 (b) Ein (1 − α)-KI f¨ ur β ist gegeben als (s. Abschnitt 12.1.2 in Fahrmeir et al., 2004): [βˆ − t1−α/2 (n − 2) · σ ˆβˆ , βˆ + t1−α/2 (n − 2) · σ ˆβˆ ], wobei ˆ · σ ˆβˆ = σ mit σ ˆ2 =
1 (xi −
x ¯)2
=σ ˆ ·
1 x2i
− n¯ x2
1 2 1 1 SQR. ˆi = (Yi − Yˆi )2 = n−2 n−2 n−2
Hier berechnet man σ ˆ 2 direkt. Dazu erstellt man zun¨achst die folgende Arbeitstabelle: i
1
2
3
4
5
6
xi
26
23
27
28
24
25
yi
170
150
160
175
155
150
yˆi
162.285
148.566
166.855
171.425
153.145
157.715
i ˆ
7.715
1.434
−6.855
3.575
1.855
−7.715.
12. Regressionsanalyse
255
1 ˆ = 6.79, woraus Daraus ergibt sich σ ˆ 2 = · 184.31 = 46.08 und somit σ 4 man insgesamt erh¨ alt: σ ˆβˆ = 6.79 · √
1 = 1.623. 17.5
Damit berechnet sich obiges KI mit t0.975 (4) = 2.776 als [4.57 − 2.776 · 1.623 , 4.57 + 2.776 · 1.623] = [0.06 , 9.08]. (c) Zu u ufen ist: H0 : β = 0 gegen H1 : β = 0 anhand des Konfi¨ berpr¨ denzintervalls aus (b). Da β0 = 0 ∈ [0.06 , 9.08], kann H0 verworfen werden, d.h. man kann zum Niveau α = 5 % schließen, daß das K¨orpergewicht gemessen u ¨ ber BMI einen linearen Einfluß auf den systolischen Blutdruck hat.
L¨ osung 12.3 (a) In Fahrmeir et al. (2004) erhielt man basierend auf n = 9 Kindern ˆ = 6.16 − 0.45x. yˆ = α ˆ + βx Um zu untersuchen, ob die vor dem Fernseher verbrachte Zeit einen signifikanten Einfluß auf die Dauer des Tiefschlafs aus¨ ubt, ist gegen H1 : β = 0
H0 : β = 0
zu testen. Die Teststatistik lautet T β0 =
βˆ . σ ˆβˆ
Unter der Normalverteilungsannahme f¨ ur i bzw. Yi gilt unter H0 : Tβ0 ∼ t(n − 2), also Tβ0 ∼ t(7). Der Sch¨ atzer σ ˆβˆ berechnet sich als: σ ˆ σ ˆ σ ˆβˆ = = n n (xi − x ¯)2 x2i − n¯ x2 i=1
mit σ ˆ=
√ σ ˆ 2 und σ ˆ=
i=1
1 2 1 ˆ i ). ˆi = (yi − α ˆ − βx n − 2 i=1 n − 2 i=1 n
n
256
12. Regressionsanalyse
Zur Bestimmung der Residuenquadratsumme betrachtet man folgende Tabelle: i xi yi yˆi ˆi
1 0.3 5.8 6.02 −0.22
2 2.2 4.4 5.17 −0.77
3 0.5 6.5 5.93 0.57
4 0.7 5.8 5.84 −0.04
5 1.0 5.6 5.71 −0.11
6 1.8 5.0 5.35 −0.35
7 3.0 4.8 4.81 −0.01
8 0.2 6.0 6.07 −0.07
Daraus berechnet man 9
ˆi 2
= 0.0484 + 0.5929 + 0.3249 + 0.0016 + 0.0121 +
i=1
0.1225 + 0.0001 + 0.0049 + 0.9604 = 2.0678
und schließlich
σ ˆ=
sowie
2.0678 √ = 0.2954 = 0.5435 7
0.5435 0.5435 σ ˆβˆ = ≈ 0.19. = √ 2 8.24 24.24 − 9 · 1.3
Damit erh¨ alt man als Realisation der Teststatistik T β0 =
−0.45 = −2.37. 0.19
Tβ0 liegt im Ablehnungsbereich, denn |Tβ0 | > t1− α2 (n − 2) = t0.975 (7) = 2.3646, d.h. die Fernsehzeit hat einen signifikanten Einfluß auf die Dauer des Tiefschlafs. (b) Mit x0 = 1.5 erh¨ alt man den Prognosewert yˆ0 = 6.16 − 0.45x0 = 5.485. Anhand der allgemeinen Formel zur Berechnung des Konfidenzintervalls f¨ ur Y0
(x0 − x ¯)2 1 Yˆ0 ± t1− α2 (n − 2)ˆ σ 1 + + 2 n x2 xi − n¯
9 2.3 6.1 5.12 0.98
12. Regressionsanalyse
257
erh¨ alt man hier
5.485 ± ⇐⇒ 5.485 ± ⇐⇒ 5.485 ±
2.3648 · 0.5435 · √ 1.2853 · 1.11 1.354
1+
1 (1.5 − 1.3)2 + 9 8.24
und damit das Konfidenzintervall KI = [4.13, 6.84]. Die Normalverteilungsannahme ist problematisch, da die Dauer des Tiefschlafs keine negativen Werte annehmen kann.
L¨ osung 12.4 (a) Das statistische Testproblem lautet hier: H0 : β = 0 gegen H1 : β = 0. Ein geeigneter Test f¨ ur dieses Testproblem ist erneut der F -Test mit der Testgr¨ oße: F =
SQE/1 R2 (n − 2) 6.4 0.8 · 8 = = = 32. = 2 SQR/(n − 2) 1−R 0.2 0.2
Da hier F = 32 > 5.32 = F0.95 (1, 8), kann H0 verworfen werden. Die Dosis des Medikaments hat also einen zum Niveau α = 0.05 signifikanten Einfluß auf die Reaktionszeit. (b) Nach Abschnitt 12.1.2 in Fahrmeir et al. (2004) ist das Prognoseintervall gegeben durch (x0 − x ¯)2 1 Yˆ0 ± t1− α2 (n − 2) · σ . ˆ· 1+ + 2 n x xi − n¯ Einsetzen der vorliegenden Werte liefert
4.36 ± 2.3060 · 1.1886 ·
1 + 0.1 +
und schließlich KI = [1.48, 7.24].
0.52 86
258
12. Regressionsanalyse
L¨ osung 12.5 (a) Offensichtlich besteht kein positiver linearer Zusammenhang zwischen Y und X, so daß Modell 1 nicht ad¨ aquat ist. In Modell 2 wird ein quadratischer Zusammenhang zwischen Y und X modelliert, was den Daten eher gerecht wird. (b) Man erh¨ alt n
βˆ =
yi x2i − nyx2
i=1 n
x4i − nx2
2
i=1
= =
465.63 − 20 · 5.28 · 3.25 335.44 − 20 · 3.252 122.43 = 0.986, 124.19
α ˆ = y − βˆ x2 = 5.28 − 0.986 · 3.25 = 2.075. (c) Der Korrelationskoeffizient berechnet sich zu √ rX 2 Y = + 0.87 = +0.933. (d) Da das Konfidenzintervall den Wert β = 0 nicht enth¨alt, kann die Nullhypothese abgelehnt werden. X 2 besitzt also einen signifikanten Einfluß auf Y . (e) Man prognostiziert yˆ0 = 2.075 + 0.986 · 1.52 = 4.29. Das 95 % Prognoseintervall ist gegeben durch
(1.52 − x2 )2 1 ˆ · 1 + 20 + n yˆ0 ± t0.975 (18) · σ x4i − 20 · x2
⇔ 4.29 ± ⇔ 4.29 ± ⇔ 4.29 ±
i=1
(2.25 − 3.252 )2 1 + 20 335.44 − 20.325 1 2.03787 · 1.05 + 270.44 2.03787 · 1.0265. 2.1009 · 0.97 ·
1+
Damit erh¨ alt man das Intervall KI = [2.19813, 6.38187] als 95 %-Prognoseintervall f¨ ur y0 .
12. Regressionsanalyse
259
L¨ osung 12.6 (a) Folgende Annahmen werden getroffen: (i) E(i ) = 0. (ii) V ar(i ) = σ 2 , d.h. die Varianz der i bleibt konstant. (iii) Cov(i , j ) = E(i , j ) = 0, d.h. die i sind paarweise unkorreliert. (iv) Die i sind normalverteilt. (b) Der Einfluß von Y auf X k¨ onnte unter Umst¨anden nicht linear sein. Denkbar w¨ are etwa yi = α + βx2i + i oder yi = β0 + β1 exp(−β2 xi ) + i . (c) Aus den Graphiken kann man entnehmen: 1. |i | w¨ achst mit wachsendem x, was auf eine Verletzung der Varianzhomogenit¨ at hindeutet (Annahme (ii)). 2. Die Residuen liegen auf parallelen Ebenen. Dies deutet darauf hin, daß die yi diskret sind, d.h. die Normalverteilungsannahme w¨are verletzt. 3. Hier sind keine Verletzungen der Modellannahmen erkennbar. 4. Hier sind die Residuen autokorreliert, d.h. sie weisen einen Trend in Abh¨ angigkeit von x auf. M¨ ogliche Gr¨ unde hierf¨ ur: – Der Einfluß von X ist eigentlich nicht linear. angig, sondern h¨angen voneinander ab, sind – Die i sind nicht unabh¨ also korreliert. Beide F¨ alle kann man anhand der Residualplots nicht unterscheiden. 5. Siehe 4.
L¨ osung 12.7 Im linearen Regressionsmodell werden folgende Annahmen getroffen: (i) (ii) (iii) (iv)
E(i ) = 0. V ar(i ) = σ 2 , d.h. die Varianz der i bleibt konstant. Cov(i , j ) = 0, d.h. die i sind paarweise unkorreliert . Die i sind normalverteilt und damit auch die Yi .
Folgende Annahmen scheinen in den abgedruckten Graphiken verletzt: (a) Die Y -Beobachtungen sind offenbar ganzzahlig, so daß Annahme (iv) verletzt ist. (b) Hier scheint Annahme (ii) verletzt, da die Streuung von Y mit wachsendem X zunimmt. (c) , (d) Hier scheinen eher nichtlineare Beziehungen zwischen Y und X gegeben zu sein.
260
12. Regressionsanalyse
L¨ osung 12.8 Im multiplen Regressionsmodell gilt −1 βˆ = (X X) X Y.
Speziell f¨ ur die lineare Einfachregression gilt ⎛ n xi n ⎜ ⎜ i=1 XX=⎜ n n ⎝ xi x2i i=1
und somit −1
(X X)
⎞ ⎟ ⎟ ⎟ ⎠
i=1
⎛ n x2i ⎜ 1 ⎜ i=1 = ⎜ n n n ⎝ − xi n x2i − ( xi )2 i=1
Ferner ist
−
n i=1
n
⎞ xi ⎟ ⎟ ⎟. ⎠
i=1
i=1
⎛ n Yi ⎜ ⎜ i=1 XY=⎜ n ⎝ xi Yi
⎞ ⎟ ⎟ ⎟. ⎠
i=1
Insgesamt erh¨ alt man also βˆ =
n
x2i
⎛
1 ⎜ ⎝ − ( xi )2
−
x2i xi
Yi xi Yi
−
n
xi
xi Yi
⎞ ⎟ ⎠.
Yi
Die zweite Komponente von βˆ ist wie gefordert ¨aquivalent zu βˆ aus dem Einfachregressionsmodell. Die erste Komponente ergibt Yi − xi xi Yi x2i − Y¯ + Y¯ n x2i − ( xi )2 2 Yi − xi xi Yi − x2i Y + Yi ( xi )2 /n xi 2 2 i + n x − ( xi ) i 2 Yi ( xi ) /n − xi xi Yi + n x2i − ( xi )2 − Yi xi + n xi Yi 1 2 2 − · xi n xi − ( xi ) n − βˆx¯.
α ˆ = =
Y¯
=
Y¯
=
Y¯
=
Y¯
12. Regressionsanalyse
261
Die Teststatistik des F -Tests lautet F
= = = = =
n − p − 1 SQE · p SQR ˆ (Yi − Y¯ )2 (n − 2) · (Yˆi − Yi )2 ˆ − Y¯ )2 (ˆ α + βx 2i (n − 2) · i ¯ ˆ i − Y¯ )2 (Y − βˆx ¯ + βx (n − 2) · σ ˆ2 2 ˆ (xi − x¯)2 β (n − 2) · . σ ˆ2
Diese ist F (1, n − 2)-verteilt, d.h. ihre Wurzel, die mit der Teststatistik T aus der linearen Einfachregression identisch ist, ist t(n − 2) verteilt. L¨ osung 12.9 (a) Ein 95 % Konfidenzintervall f¨ ur β1 ist gegeben durch ˆ1 · t0.975 (100) = βˆ1 ± σ ˆ1 · z0.975 = 0.0700088 ± 0.0144448 · 1.96. βˆ1 ± σ Somit erh¨ alt man KI1 = [0.042, 0.098] als Konfidenzintervall f¨ ur β1 . Durch analoge Rechnung erh¨ alt man KI2 = [0.893, 0.955] als Konfidenzintervall f¨ ur β2 . Da beide Konfidenzintervalle den Nullpunkt nicht enthalten, sind beide Kovariablen signifikant. (b) Da beide Kovariablen signifikant sind, kann Friedmans Konsumtheorie nicht widerlegt werden. (c) Man prognostiziert yˆ103 = 0.0700088 · 6.4 + 0.9239275 · 5.7 ≈ 5.71. (d) Da der verz¨ogerte Konsum als unabh¨ angige Variable im Modell auftaucht, sind die Beobachtungen nicht unabh¨angig.
L¨ osung 12.10 (a) Man erh¨ alt
⎛
⎞ −1.008 βˆ = (X X)−1 X y = ⎝ −0.103 ⎠ . −0.004
Die Temperatur hat wegen β1 = −0.103 einen negativen Effekt auf die SO2 -Konzentration in der Luft, d.h. die SO2 -Konzentration nimmt mit steigenden Temperaturen ab. Dies ist typisch f¨ ur Inversionswetterlagen. Wegen β2 = −0.004 ist am Wochenende die Schadstoffkonzentration niedriger als an Werktagen.
262
12. Regressionsanalyse
(b) Das Testproblem ist gegeben als ur mindestens ein j. H0 : β1 = β2 = . . . = β5 = 0 gegen H1 : βj = 0 f¨ Die Teststatistik lautet F =
R2 n − p − 1 H0 · ∼ F (p, n − p − 1) 1 − R2 p
und ist hier also F (2, 11)-verteilt. Als Ablehnbereich erh¨ alt man F > F1−α (2, 11) = F0.99 (2, 11) = 7.2. Den Wert 7.2 erh¨ alt man als N¨ aherung aus der Tabelle der F -Verteilung als arithmetisches Mittel aus F0.99 (2, 10) = 7.5594 und F0.99 (2, 12) = 6.9266. Mit Statistikprogrammpaketen erh¨alt man F0.99 (2, 11) = 7.2057. Mit R2 = 0.5781 erh¨ alt man hier die Realisation der Teststatistik F =
11 0.5781 · = 7.536, 1 − 0.5781 2
d.h. H0 kann abgelehnt werden, die Regressoren haben einen signifikanten Einfluß. (c) Das Testproblem ist gegeben als H0 : βj = 0 gegen H1 : βj = 0. Die Teststatistiken lautet T βj =
βˆj . σ ˆj
Im vorliegenden Fall erh¨ alt man also als Realisationen der Teststatistiken T β1 =
−0.103 = −3.858 0.0267
T β2 =
−0.004 = −0.018. 0.2169
und
Als Ablehnbereich ergibt sich |Tβj | > t1− α2 (n − p − 1) = t0.975 (11) = 2.201. Folglich hat die Temperatur einen signifikanten Einfluß auf die (logarithmierte) SO2 -Konzentration, wohingegen ein signifikanter Wochenendeffekt hier nicht nachgewiesen werden kann.
12. Regressionsanalyse
263
Zur Bestimmung der linearen Einfachregression zwischen der logarithmierten Schwefeldioxidkonzentration Y und der Temperatur X1 berechnet man zun¨achst die folgenden Hilfsgr¨ oßen 14
xi = 233.69,
i=1
14
14
x2i = 4089.47,
i=1
yi = −38.165,
i=1
14
xi yi = −656.4754.
i=1
Damit erh¨ alt man n
βˆ =
xi yi − n¯ x y¯
i=1 n
= x2i − n¯ x2
−656.4754 + 14 · 16.69 · 2.726 −19.5182 = 4089.47 − 14 · 16.692 189.6846
i=1
= α ˆ = =
−0.103, y¯ − βˆx¯ = −2.726 + 0.103 · 16.69 −1.007.
L¨ osung 12.11 (a) Die Regressionsgleichung lautet yi = β0 + β1 · tempi + β2 · entrpri + β1 · windi + i
f¨ ur i = 1, . . . , 41.
Um testen zu k¨ onnen, ob die Regressionskoeffizienten signifikant von null verschieden sind, m¨ ussen die Fehlervariablen i als unabh¨angig und identisch N (0, σ 2 ) vorausgesetzt werden. Schadstoffkonzentrationen sind stets positiv, h¨ aufig eher klein mit wenigen sehr großen Ausreißern, d.h. ihre Verteilung ist eher linkssteil bzw. rechtsschief. Durch die Transformation der Schwefeldioxidkonzentration erreicht man eine gr¨oßere Symmetrie der Verteilung der abh¨ angigen Variablen. Dadurch sind die Voraussetzungen an die Fehlervariablen eher erf¨ ullt. (b) Allgemein ist das Konfidenzintervall gegeben durch ˆ. βˆ3 ± z1− α2 · σ Wegen n = 41 kann die Tabelle der Standardnormalverteilung anstelle der t−Verteilung verwendet werden. Einsetzen liefert −0.1580 ± 1.96 · 0.0598 und damit das Konfidenzintervall
264
12. Regressionsanalyse
KI = [−0.275, −0.0408]. Die Testhypothesen lauten H0 : β3 = 0 gegen H1 : β3 = 0. H0 kann verworfen werden; β3 ist signifikant von null verschieden, da das Konfidenzintervall die null nicht enth¨alt. (1 − α)-Konfidenzintervalle werden ja gerade so konstruiert, daß sie dem Annahmebereich des zugeh¨ origen zweiseitigen Tests entsprechen.
L¨ osung 12.12 (a) Wir erhalten folgende Interpretation: Alter: Wahrscheinlich besteht ein negativer ann¨ahernd linearer Zusammenhang; je ¨ alter das Auto desto niedriger der Preis des Autos. Kilometerstand: Wahrscheinlich besteht ein negativer schwach nichtlinearer linearer Zusammenhang; je h¨ oher der Kilometerstand, desto geringer ist der Preis des Autos. ¨ Hier ist kein Zusammenhang erkennbar. Monate bis TUV: ABS: Bei nicht-vorhandenem ABS ist der Median der Verkaufspreise geringer als bei vorhandenem ABS, wobei die Preise eine hohe Streuung aufweisen und nicht symmetrisch um den Median verteilt sind. Bei vorhandenem ABS ist der Median h¨ oher als bei Autos ohne ABS. Die Streuung um den Median ist geringer und erscheint ann¨ahernd symmetrisch. Schiebedach: Hier ergibt sich eine ¨ ahnliche Interpretation wie beim ABS. Der Unterschied der Mediane ist nicht ganz so deutlich wie beim ABS. (b) Folgende Aussagen k¨ onnen getroffen werden: Alter: Der Korrelationskoeffizient ist negativ und d¨ urfte betragsm¨aßig relativ hoch sein. Kilometerstand: Der Korrelationskoeffizient ist wieder negativ. Allerdings sollte der Korrelationskoeffizient betragsm¨aßig kleiner sein als beim Alter. ¨ Anhand des Streudiagramms l¨ TUV: asst sich ein Korrelationskoeffizient von nahe Null vermuten. (Anmerkung die exakten Korrelationskoeffizienten sind -0.71, -0.58 und -0.03.) (c) Die Prognoseformeln sind gegeben durch = 5.597714 − 0.0162792 · kilstand preis
12. Regressionsanalyse
265
f¨ ur Modell M 1 und = 1.296881 + 254.5488 · 1/kilstand preis f¨ ur Modell M 2. Zur Interpretation: Im ersten Modell M 1 wird ein linearer Zusammenhang gesch¨ atzt. Hierbei ist der gesch¨ atzte Zusammenhang negativ. Je h¨ oher der Kilometerstand, desto niedriger ist der Preis. Erh¨oht sich der Kilometerstand um 1000 Km verringert sich der Wert des Autos durchschnittlich um 0.0162792 · 1000 = 16.28 Euro. Im zweiten Modell M 2 ist der Zusammenhang bez¨ uglich des invertierten Kilometerstands positiv. Je h¨ oher der invertierte Kilometerstand, desto h¨oher ist der Preis, d.h. mit steigendem Kilometerstand sinkt der Preis nichtlinear. Zum Vergleich der beiden Modelle bietet sich das Bestimmtheitsmaß R2 an. Da das Bestimmtheitsmaß des zweiten Modells M 2 h¨oher ist, ist das zweite Modell zu bevorzugen. (d) Die Modellgleichung lautet: preis = β0 + β1 · kilstandinv + β2 · alter + β3 · sonderaus1 + ε Die Prognosegleichung ist gegeben durch preis
=
6.259881 + 161.0861 · kilstandinv − 0.0356507 · alter− 0.2331171 · sonderaus1.
Zur Interpretation: - Es besteht ein positiver Zusammenhang zwischen kilstandinv und preis, je h¨ oher der inverse Kilometerstand desto h¨oher der Preis. Oder umgekehrt, je h¨ oher der Kilometerstand, desto geringer ist der Preis. - Es wird ein negativer linearer Zusammenhang zwischen alter und preis gesch¨ atzt. Je ¨ alter das Auto, desto billiger ist es. - Autos mit ABS sind durchschnittlich um 233.18 Euro billiger als Autos ohne ABS. (Es ist zu beachten, dass der preis in Tsd. Euro gemessen wurde.) - Das Bestimmtheitsmaß R2 ist mit 0.6320 relativ hoch. Zur Signifikanz der Koeffizienten der Variablen alter und sonderaus1: Berechne zun¨achst das Quantil der Standardnormalverteilung mit α = 0.05: z1− α2 = z0.975 = 1.96 Als Testgr¨ oßen erhalten wir zalter
=
zsonderaus1
=
βˆ3
−0.0356507 = −10.6525, = σ ˆalter 0.0033467 βˆ2 0.2331171 = −1.8795 = σ ˆsonderaus1 0.1240331
266
12. Regressionsanalyse
Wegen 1.96 = z0.975
>
|zalter | = 1.8795
1.96 = z0.975
3.6823 = F0.95 (2, 15), kann H0 verworfen werden. Es kann also signifikant zum Niveau α = 0.05 geschlossen werden, daß die Sprache des Beraters einen Einfluß auf die Dauer des Gespr¨achs hat.
L¨ osung 13.2 (a) Die Sch¨ atzer f¨ ur αi sind gegeben als (vgl. Abschnitt 13.1 in Fahrmeir et al., 2004) α ˆ i = y¯i. − y¯.. , wobei
y¯i. =
ni 1 yij ni j=1
1 ni y¯i. n i=1 I
und
y¯.. =
Hier ergibt sich mit n1 = n2 = n3 = 4 : 3), y¯2. = 60.75 (s22 = 1.58¯3), y¯3. = 63 (s23 = 2), y¯1. = 59.75 (s21 = 1.58¯ 1 woraus man als Gesamtmittel y¯.. = 12 (4 · 59.75 + 4 · 60.75 + 4 · 63) = 61.17 berechnet. Damit erh¨ alt man als Sch¨ atzer f¨ ur die Effekte
α ˆ1
=
59.75 − 61.17 = −1.42,
α ˆ3
=
63.00 − 61.17 = 1.83.
α ˆ 2 = 60.75 − 61.17 = −0.42,
Das erste Herstellungsverfahren f¨ uhrt zu einem Gehalt der krebserregenden Substanz, der unterhalb des allgemeinen Durchschnitts liegt. Das zweite Verfahren bewirkt eine leichte Reduktion, w¨ahrend das dritte Verfahren zu einer starken Erh¨ ohung des Gehalts f¨ uhrt. (b) Die Fragestellung l¨ aßt sich u ¨ ber die Effekte wie folgt als statistisches Testproblem formulieren: H0 : α1 = α2 = α3 = 0
gegen H1 : mindestens zwei αi = 0.
Zur Berechnung der Pr¨ ufgr¨ oße ermittelt man die folgenden Quadratsummen: SQE
=
3
ni α ˆ 2i = 4 · [(−1.42)2 + (−0.42)2 + 1.832 ] = 22.17,
i=1
SQR =
3 i=1
(ni − 1) · s2i = 3 · [1.58¯3 + 1.58¯3 + 2] = 15.5.
13. Varianzanalyse
273
Wie in der Varianzanalyse u ¨blich, werden die einzelnen Teilergebnisse in einer ANOVA-Tabelle (vgl. Abschnitt 13.1 in Fahrmeir et al., 2004) zusammengefaßt: Streuungsursache
Streuung
Freiheitsgrade
mittl. quadr. Fehler
Gruppen
22.17
I −1=2
22.17/2 = 11.08
Residuen
15.5
n−I =9
15.5/9 = 1.72
Pr¨ ufgr¨oße 11.08 1.72
= 6.44
Dabei ist H0 zum Niveau α = 0.05 abzulehnen, falls F > F1−α (I − 1, n − I) = F0.95 (2, 9) = 4.256. Da F = 6.44 > 4.256, kann H0 zum Niveau α = 0.05 verworfen werden. Damit wirkt sich das Herstellungsverfahren statistisch signifikant auf den Gehalt der krebserregenden Substanz aus.
L¨ osung 13.3 (a) Die Sch¨ atzung der Effekte erfolgt allgemein gem¨aß α ˆ i = y¯i. − y¯.. . Mit n = 10 + 6 + 8 = 24 ergibt sich zun¨ achst y¯.. =
1 348 (10 · 17 + 6 · 15 + 8 · 11) = = 14.5. 24 24
Damit ergeben sich die gesch¨ atzten Effekte als α ˆ1 = 17 − 14.5 = 2.5,
α ˆ 2 = 15 − 14.5 = 0.5,
α ˆ 3 = 11 − 14.5 = −3.5.
Es sind also deutliche Effekte der Behandlung auf den Befindlichkeitsscore zu erkennen: W¨ ahrend der Score bei den Patienten, die zus¨atzlich zu den Medikamenten noch mit Akupunktur behandelt werden, etwa dem Durchschnitt entspricht, ist dieser bei den Patienten mit zus¨atzlicher psychotherapeutischer Behandlung deutlich erh¨oht. Die Befindlichkeit dieser Patientengruppe ist also besser als durchschnittlich. Dagegen zeigen Patienten, die ausschließlich medikament¨ os therapiert werden, deutlich niedrigere Scores als der Durchschnitt, d.h. ihre Befindlichkeit ist tendenziell schlechter. (b) Die Fragestellung l¨ aßt sich wie folgt als statistisches Testproblem formulieren: H0 : α1 = α2 = α3 = 0
gegen H1 : mindestens zwei αi = 0.
274
13. Varianzanalyse
Zur Berechnung der Pr¨ ufgr¨ oße wird eine ANOVA-Tabelle erstellt: Streuungsursache
Streuung
Freiheitsgrade
mittl. quadr. Fehler
Gruppen
162
I −1=2
162/2 = 81
Residuen
167.4
n − I = 21
167.4/21 = 7.97
Pr¨ ufgr¨oße 81 7.97
= 10.16
= ni α ˆ 2i = 10 · 2.52 + 6 · 0.52 + 8 · (−3.5)2 = 62.5 + 1.5 + 98 = 162 und SQR = (ni − 1)s2i = 9 · 10.4 + 5 · 4.4 + 7 · 7.4 = 93.6 + 22 + 51.8 = 167.4. mit SQE
Da hier F = 10.16 > F0.95 (2, 21) = 3.4668, kann H0 verworfen werden. Man kann also zum Niveau α = 0.05 davon ausgehen, daß die Behandlungsmethode einen signifikanten Einfluß auf den Befindlichkeitsscore hat.
L¨ osung 13.4 (a) F¨ ur die mittleren Ums¨ atze μij und die Standardabweichungen erh¨alt man folgende Sch¨ atzungen:
Land
A B C
Produkt I y¯ij. s2ij
Produkt II y¯ij. s2ij
42.4 35.6 32.4
38.8 37.4 34.6
1.517 0.548 0.548
1.483 1.949 1.342
13. Varianzanalyse
275
Folgende Skizzen zeigen die graphische Darstellung obiger Mittelwertsverl¨ aufe: mittlerer Umsatz 6
mittlerer Umsatz 6 •..
40
•. .
. . . . . . . . . . . . . . . .. .. . . . . . . . . . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
40
.
.
.
35
•
.
•
.
.
31 B
.
.
.
.
35
A
.
.
C
.
.
.
.
.
.
.
•
.
.
31
Land
I
• : Produkt I : Produkt II
II
Produkt
• : Land A : Land B : Land C
F¨ ur beide Produkte sind die Ums¨ atze in Land A gr¨oßer als in den beiden anderen L¨ andern. Allerdings ist dieser Effekt bei Produkt I wesentlich st¨ arker zu erkennen als bei Produkt II. In den L¨andern B und C erzielt dagegen Produkt II jeweils den h¨ oheren Umsatz, wobei die Ums¨atze f¨ ur beide Produkte in Land B besser sind als in Land C. Die Mittelwerte f¨ ur die L¨ ander y¯i.. ergeben sich als: y¯1.. = y¯A = 40.6,
y¯2.. = y¯B = 36.5,
y¯3.. = y¯C = 33.5.
Entsprechend berechnet man die Mittelwerte f¨ ur die Produkte y¯.j. als: y¯.1. = y¯I = 36.8,
y¯.2. = y¯II = 36.93¯3
und den Mittelwert y¯... insgesamt als: 6. y¯... = 36.86¯
276
13. Varianzanalyse
(b) Mit μ ˆ = y¯... = 36.86¯ 6 erh¨ alt man als Sch¨atzer f¨ ur die Haupteffekte von Faktor A, hier das Land, und Faktor B, hier das Produkt (vgl. Abschnitt 13.2 in Fahrmeir et al., 2004): α ˆ1 = α ˆA
= =
α ˆ2 = α ˆB
= =
α ˆ3 = α ˆC
= =
βˆ1 = βˆI
=
βˆ2 = βˆII
= = =
y¯1.. − y¯... = y¯A − y¯... = 40.6 − 36.86¯6 3.73¯ 3, y¯2.. − y¯... = y¯B − y¯... = 36.5 − 36.86¯6 −0.36¯ 6, y¯3.. − y¯... = y¯C − y¯... = 33.5 − 36.86¯6 −3.36¯ 6, y¯.1. − y¯... = y¯I − y¯... = 36.8 − 36.86¯6 −0.06¯ 6, y¯.2. − y¯... = y¯II − y¯... = 36.93¯3 − 36.86¯6 ¯ 0.066.
Die Wechselwirkungen werden allgemein gesch¨atzt als: 0 ij = y¯ij. − y¯i.. − y¯.j. + y¯... . (αβ) Damit berechnet man hier: 0 AI 0 11 = (αβ) (αβ)
0 12 = (αβ) 0 AII (αβ) 0 21 = (αβ) 0 BI (αβ) 0 22 = (αβ) 0 BII (αβ) 0 31 = (αβ) 0 CI (αβ) 0 32 = (αβ) 0 CII (αβ)
=
y¯11. − y¯1.. − y¯.1. + y¯...
= =
42.4 − 40.6 − 36.8 + 36.86¯6 1.86¯ 6, 38.8 − 40.6 − 36.93¯3 + 36.86¯6 −1.86¯ 6,
= = = = = = = = = =
35.6 − 36.5 − 36.8 + 36.86¯6 −0.83¯ 3, 37.4 − 36.5 − 36.933¯ + 36.86¯6 0.83¯ 3, 32.4 − 33.5 − 36.8 + 36.86¯6 −1.03¯ 3, 34.6 − 33.5 − 36.93¯3 + 36.86¯6 1.03¯ 3.
Land A hat einen relativ großen positiven Einfluß auf den Umsatz 3). Land B und Land C haben negative Effekte, wobei Land (ˆ αA = 3.73¯ C mit α ˆ C = −3.36¯ 6 am schlechtesten abschneidet. Damit best¨atigen die gesch¨ atzten Haupteffekte die in (a) formulierten Aussagen. Auch die gesch¨ atzten Wechselwirkungsterme untermauern die Interpretationen aus (a). W¨ ahrend bei Land A Produkt I einen positiven Effekt auf den Umsatz hat, ist dieser bei den anderen beiden L¨andern negativ.
13. Varianzanalyse
277
(c) Die Pr¨ ufgr¨ oßen lassen sich wie u ¨ blich in einer Varianzanalysetabelle zusammenfassen: Streuungsursache
Streuung
FG
mittl. quadr. Fehler
Pr¨ ufgr¨oße
Faktor A
254.06
2
127.029
FA = 71.232
Faktor B
0.13¯ 3
1
0.13¯3
FB = 0.075
A×B
52.46¯ 6
2
26.23¯3
FA×B = 14.710
Residuen
42.8
24
1.78¯3
Dabei sind hier mit K = 5, I = 3 und J = 2: SQA =
K ·J ·
I
(¯ yi.. − y¯... )2 = K · J ·
i=1
SQB
I
α ˆ 2i
i=1
=
" ! 5 · 2 · 3.73¯ 32 + (−0.36¯6)2 + (−3.36¯6)2
=
10 · (13.938 + 0.134 + 11.334)
= =
254.06, J J K ·I · (¯ y.j. − y¯... )2 = K · I · βˆj2
=
" ! 5 · 3 · (−0.06¯ 6)2 + 0.06¯62
j=1
= = SQ(A × B) =
j=1
15 · (0.004¯ 4 + 0.004¯ 4) ¯ 0.133, K·
I J
(¯ yij. − y¯i.. − y¯.j. + y¯... )2
i=1 j=1
=
K·
I J
0 2 (αβ) ij
i=1 j=1
!
=
5 · 1.86¯ 62 + (1.86¯ 6)2 + (−0.83¯3)2 " +0.83¯ 32 + (−1.03¯ 3)2 + 1.03¯32
=
5 · (3.484 + 3.484 + 0.694 + 0.694 + 1.06¯7 + 1.06¯7) 52.46¯ 6,
= SQR =
I J K i=1 j=1 k=1
(yijk − y¯ij. )2 = (K − 1) ·
I J i=1 j=1
=
4 · (2.3 + 2.2 + 0.3 + 3.8 + 0.3 + 1.8)
=
42.8.
s2ij
278
13. Varianzanalyse
Da FA×B = 14.710 > 3.4028 = F0.95 (2, 24), kann davon ausgegangen werden, daß zum Niveau α = 0.05 signifikante Wechselwirkungen zwischen den Faktoren Land und Produkt vorliegen. Der Pr¨ ufgr¨oßenwert zum Faktor A, das Land, FA = 71.232 ist ebenfalls gr¨oßer als der zugeh¨ orige Quantilswert F0.95 (2, 24). Damit ist dieser Haupteffekt zum obigen Niveau signifikant. Dagegen ist FB = 0.075 < 2.9271 = F0.95 (1, 24). Das Produkt hat also zum Niveau α = 0.05 keinen signifikanten Einfluß auf den Umsatz.
14 Zeitreihen
Aufgaben Aufgabe 14.1 Betrachten Sie den folgenden Ausschnitt aus der Zeitreihe der Zinsen deutscher festverzinslicher Wertpapiere 7.51 6.95
7.42 6.77
6.76 6.86
5.89 6.95
5.95 6.66
5.35 6.26
5.51 6.18
6.13 6.07
6.45 6.52
6.51 6.52
6.92 6.71
und bestimmen Sie den gleitenden 3er- und 11er-Durchschnitt. Anstelle gleitender Durchschnitte k¨ onnen zur Gl¨ attung einer Zeitreihe auch gleitende Mediane verwendet werden, die analog definiert sind. Berechnen Sie die entsprechenden gleitenden Mediane. Zeichnen Sie die Zeitreihe zusammen mit Ihren Resultaten. (L¨osung siehe Seite 282)
Aufgabe 14.2 Einer Zeitreihe {yt , t = 1, . . . , n} wird oft ein linearer Trend yt = α + β · t + t ,
t = 1, . . . , n,
unterstellt. (a) Vereinfachen Sie die gew¨ ohnlichen KQ-Sch¨atzer. (b) Von 1982 bis 1987 wird im folgenden die Anzahl der gemeldeten AIDSInfektionen in den USA viertelj¨ ahrlich angegeben: 185 1147 3819
200 1369 4321
293 1563 4863
374 1726 5192
554 2142 6155
Bestimmen Sie die Regressionskoeffizienten.
713 2525 6816
763 2951 7491
857 3160 7726
280
14. Zeitreihen
(c) Die Annahme eines linearen Trends ist hier unter Umst¨anden fragw¨ urdig. Exponentielles Wachstum yt = α·exp(β ·t)·t kann durch Logarithmieren wieder in ein klassisches Regressionsmodell transformiert werden. Berechnen Sie f¨ ur dieses transformierte Modell die Regressionskoeffizienten. (L¨osung siehe Seite 283)
Aufgabe 14.3 Die folgende Abbildung zeigt zu der Zeitreihe der Zinsen deutscher festverzinslicher Wertpapiere gleitende Durchschnitte und Mediane. Bei den Abbildungen (a) und (c) handelt es sich um gleitende 5er bzw. 21er Durchschnitte und bei den Abbildungen (b) und (d) um die entsprechenden 5er und 21er Mediane. (a)
(b)
12
12
10
10
8
8
6
6
4
4 0
50
100
150
200
250
300
350
0
50
100
(c) 12
10
10
8
8
6
6
4
4 50
100
150
200
250
300
350
250
300
350
(d)
12
0
150
200
250
300
350
0
50
100
150
200
Vergleichen Sie die gegl¨ atteten Zeitreihen, und kommentieren Sie Unterschie¨ de und Ahnlichkeiten. (L¨osung siehe Seite 284)
14. Zeitreihen
281
Aufgabe 14.4
80000 0
-4000
Rest
0
400
-5000
Saison
5000
50000
Trend
70000
900
50000
Daten
Die folgende Abbildung zeigt die monatlichen Geburten in der BRD von 1950 bis 1980. Kommentieren Sie den Verlauf der Zeitreihe sowie Trend und Saison, die mittels STL gesch¨ atzt wurden.
1950
1955
1960
1965 Zeit
(L¨osung siehe Seite 284)
1970
1975
1980
282
14. Zeitreihen
L¨ osungen L¨ osung 14.1 Die gegl¨ atteten Zeitreihen entnimmt man folgender Tabelle:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22
Zeitreihe 7.51 7.42 6.76 5.89 5.95 5.35 5.51 6.13 6.45 6.51 6.92 6.95 6.77 6.86 6.95 6.66 6.26 6.18 6.07 6.52 6.52 6.71
3erDurchschnitt NA 7.23 6.69 6.20 5.73 5.60 5.66 6.03 6.36 6.63 6.79 6.88 6.86 6.86 6.82 6.62 6.37 6.17 6.26 6.37 6.58 NA
3erMedian NA 7.42 6.76 5.95 5.89 5.51 5.51 6.13 6.45 6.51 6.92 6.92 6.86 6.86 6.86 6.66 6.26 6.18 6.18 6.52 6.52 NA
11erDurchschnitt NA NA NA NA NA 6.40 6.35 6.29 6.30 6.40 6.46 6.54 6.60 6.60 6.60 6.61 6.59 NA NA NA NA NA
11erMedian NA NA NA NA NA 6.45 6.45 6.45 6.45 6.51 6.66 6.66 6.66 6.66 6.66 6.66 6.66 NA NA NA NA NA
Mit Hilfe obiger Tabelle erh¨ alt man die folgenden Graphiken, in denen jeweils die Originalzeitreihe (mit Punkten versehen) und die gegl¨atteten Zeitreihen (ohne Punkte) abgedruckt sind.
14. Zeitreihen
L¨ osung 14.2 (a) Unter der Annahme eines linearen Trends, d.h. yt = α + βt + t , t = 1, . . . , n, ergeben sich
xt yt − n¯ tyt − nt¯y¯ xy¯ 2 = 2 xt − n¯ t − nt¯2 x2 n+1 und mit t¯ = 2 n+1ˆ = y¯ − βˆx ¯ = y¯ − β. 2
βˆ =
α ˆ
(b) Man berechnet zun¨ achst folgende Hilfsgr¨ oßen: tyt = 1 · 185 + 2 · 200 + . . . = 1218006 n+1 · y¯ = 24 · 12.5 · 2787.708 = 2 = 836312.5
nt¯y¯ = n ·
t2
= 4900
¯2
= 24 · 12.52 = 3750.
nt
283
284
14. Zeitreihen
Einsetzen ergibt βˆ = 331.9074 und α ˆ = −1361.134. (c) Sei yt = α · exp(βt) · t . Dann erh¨ alt man durch Logarithmieren: log yt = log α + βt + t mit α0 = log α ein lineares Regressionsmodell, und es gilt t log(yt ) − nt(log yt ) ˆ β = , 2 2 t − nt n+1ˆ β. α ˆ 0 = log yt − 2 Hier gelten t log(yt ) = 2412.93, nt(log yt )
= 24 · 12.5 · 7.42 = 2226.449.
Einsetzen ergibt βˆ = 0.1621 und n+1ˆ β = 5.395. α ˆ = log yt − 2 L¨ osung 14.3 Alle Abbildungen zeigen eine Gl¨ attung im Vergleich zum Verlauf der Zeitreihe der Daten. Insbesondere bei den gleitenden 21er-Durchschnitten und Medianen ist im wesentlichen nur noch der langfristige Trend der Zinsen zu erkennen. Gleitende Durchschnitte und Mediane der gleichen Ordnung sind sich sehr ¨ ahnlich, wobei gleitende Mediane noch mehr u ¨ber Spitzen der Zeitreihe hinweggl¨ atten. L¨ osung 14.4 Die monatlichen Geburten steigen im Trend nach dem Krieg flach an, bis nach den geburtenstarken Jahrg¨ angen in den 60er Jahren ein steiler Abfall ersichtlich wird (“Pillenknick”). Die Saisonfigur zeigt, daß im Fr¨ uhjahr mehr Geburten zu verzeichnen sind als im Herbst. Lediglich die Amplitude dieser saisonalen Schwankung ist nach einem maximalen Ausschlag in den 60er Jahren kleiner geworden.
15 ¨ Ubergreifende Aufgaben
Aufgaben In diesem Abschnitt finden Sie Aufgaben, die nicht einem speziellen Kapitel des Lehrbuchs zugeordnet sind. Bei der L¨ osung ist demnach insbesondere die Zuordnung der Aufgabe zu einem Problembereich vorzunehmen.
Aufgabe 15.1 Es soll untersucht werden, ob sich die Teilnahme an Fortbildungsmaßnahmen positiv auf die Wiedereingliederung von Langzeitarbeitslosen in den Beruf auswirkt. F¨ ur 800 Personen, die mind. 12 Monate arbeitslos waren, wurde festgestellt, ob sie in dieser Zeit an einer Fortbildungsmaßnahme teilgenommen haben (X = 1) oder nicht (X = 0) und ob sie bis zu einem Stichtag wieder Anstellung in ihrem Beruf gefunden haben (Y = 1) oder nicht (Y = 0): Y X
0 1
0 448 32
1 192 128
(a) Berechnen Sie die Randh¨ aufigkeiten von Y in relativen H¨aufigkeiten und beurteilen Sie damit die generellen Chancen f¨ ur eine Wiedereingliederung. (b) Beurteilen Sie, ob die Wiedereingliederung in den Beruf durch die Teilnahme an entsprechenden Fortbildungen erleichtert wird. Berechnen und interpretieren Sie dazu (b1) geeignete relative H¨ aufigkeitsverteilungen (b2) die relativen Chancen (b3) den Kontingenzkoeffizienten. ¨ (c) Uberpr¨ ufen Sie mit Hilfe eines geeigneten Tests (zum Niveau a = 0.01), ob die Merkmale X und Y unabh¨ angig sind.
286
¨ 15. Ubergreifende Aufgaben
(L¨osung siehe Seite 291)
Aufgabe 15.2 Die Konzentration eines spezifischen Schadstoffs in der Luft l¨aßt sich mit zwei unterschiedlichen Meßverfahren X und Y bestimmen. Bei vorliegender wahrer Schadstoffkonzentration θ gilt X ∼ N (θ, σx2 ) ,
Y ∼ N (θ, σy2 ).
Wegen der Meßungenauigkeit empfiehlt es sich, unabh¨angige Wiederholungen, X1 , X2 , . . . bzw. Y1 , Y2 , . . . durchzuf¨ uhren. Da das genauere Verfahren X doppelt so viele Risiken verursacht wie das Verfahren Y werden alternativ diskutiert das Sch¨ atzverfahren T1 =
(X1 + X2 ) , 2
das aus zwei X-Messungen resultiert und T2 =
(X1 + Y1 + Y2 ) , 3
das aus einer X- und zwei Y-Messungen resultiert. (a) Sind die Sch¨ atzfunktionen erwartungstreu und konsistent f¨ ur θ ? (b) Bestimmen Sie die Varianz von T1 und T2 . ussen sich σx2 und σy2 zueinander (c) Da σx2 < σy2 stellt sich die Frage: Wie m¨ verhalten, damit T2 die effizientere Sch¨ atzung ist? (d) Anstatt der einfachen Summe in T2 wird nun eine gewichtete Summe (0 ≤ w ≤ 1) der X- und Y- Messungen betrachtet in der Form T3 = wX1 +
(1 − w)(Y1 + Y2 ) 2
F¨ ur welchen Wert w besitzt T3 die kleinste Varianz? (L¨osung siehe Seite 292)
Aufgabe 15.3 Der BWL-Student Jan f¨ ahrt jeden Tag mit der S-Bahn zur Uni und zur¨ uck. Diese kommt allerdings h¨ aufig (mit Wahrscheinlichkeit p) zu sp¨at. Jan f¨ahrt jede Woche 10 mal mit der S-Bahn. (a) Welche Verteilung kann f¨ ur die Zufallsvariable X: “Anzahl der Versp¨atungen der S-Bahn in 1 Woche” angenommen werden? Was nehmen sie dabei an?
¨ 15. Ubergreifende Aufgaben
287
(b) Der Verkehrsverbund hat ermittelt, daß die Varianz der Zufallsvariablen X 1.6 betr¨ agt. Welchen Wert hat p ? Ber¨ ucksichtigen Sie, daß weniger als jede zweite S-Bahn versp¨atet ist. (c) Im letzten Semester benutzte Jan die S-Bahn 120 mal. Wie hoch ist die Wahrscheinlichkeit, daß die S-Bahn nicht h¨aufiger als 16 mal Versp¨atung hat? Benutzen Sie eine geeignete Approximation f¨ ur die vorliegende Verteilung! (d) Jan hat den Verdacht, daß der Verkehrsverbund optimistische Zahlen pr¨ asentiert und m¨ ochte aus den 40 Versp¨ atungen des letzten Semesters seine eigenen Schl¨ usse ziehen hinsichtlich der sich aus den Angaben des Verkehrsverbunds ergebenden Versp¨ atungswahrscheinlichkeit. Formulieren Sie das Testproblem und f¨ uhren Sie den Test durch. (L¨osung siehe Seite 293)
Aufgabe 15.4 Ein K¨ unstler erh¨alt den Auftrag, ein Mosaik auf dem Marktplatz vor dem Rathaus seiner Gemeinde auszulegen. Die quadratischen Mosaiksteine bezieht er von einer Firma in T¨ uten zu je 100 St¨ uck. Leider geraten manchmal einige runde Mosaiksteine in die T¨ uten. Sei das Merkmal X die Anzahl der runden Steine pro T¨ ute. Gehen Sie davon aus, daß X Poisson–verteilt ist mit Parameter λ, es gilt also P (X = x) =
λx −λ e x!
mit
x ∈ {0, 1, 2, . . .},
und
E(X) = λ, V ar(X) = λ.
λ>0
uten ergab sich ein Mittelwert Bei einer Stichprobe X1 , . . . , Xn von n = 40 T¨ von x ¯ = 3, 4 und eine Stichprobenvarianz von s2 = 3, 4. (a) Zeigen Sie, daß der Maximum–Likelihood–Sch¨atzer f¨ ur den unbekannten ˆML = x¯. Parameter λ der Poisson–Verteilung gegeben ist durch λ Welche Annahme haben Sie bei der Berechnung verwendet? (b) Bestimmen Sie ein (approximatives) 99%–Konfidenzintervall f¨ ur λ. Die Herstellerfirma der Mosaiksteinchen gibt zu, daß f¨ ur gew¨ohnlich ein gewisser Anteil an runden Steinen in jeder T¨ ute enthalten ist. Der Anteil ist sogar Poisson–verteilt mit einem Parameter λ0 , allerdings betr¨agt P (X = 0), also die Wahrscheinlichkeit, eine T¨ ute ohne runde Steine zu erhalten, nach Herstellerangabe 6.72%. (c) Berechnen Sie den Parameter λ0 , der vom Hersteller angegeben wird. ¨ (d) Uberpr¨ ufen Sie die Herstellerangabe mit einem geeigneten (approximativen) Test. Welche Entscheidung ist anhand der obigen Stichprobe hinsichtlich der Hypothesen
288
¨ 15. Ubergreifende Aufgaben
H0 : λ ≤ λ0
gegen H1 : λ > λ0 .
bei einem Signifikanzniveau von α = 0.01 zu treffen? Interpretieren Sie das Ergebnis inhaltlich! (e) Berechnen und interpretieren Sie den p–Wert des eben durchgef¨ uhrten Tests. (L¨osung siehe Seite 293)
Aufgabe 15.5 Die Verbreitung von Pay–TV Sendern ist auch nach jahrelanger Marktpr¨ asenz noch sehr gering. Anhand einer Stichprobe von n1 = 10000 Personen wird der Zusammenhang zwischen dem Merkmal Pay–TV und dem kategorisierten Merkmal Einkommen (Tafel 1) untersucht. In einer Teilstichprobe vom Umfang n2 = 1000 wird das bevorzugte Interessensgebiet (Tafel 2) erhoben. Einkommen Tafel 1 ≤ 2000 > 2000 Pay ja 150 350 TV nein 3900 5600 Interessensgebiet Tafel 2 Spielfilme Sport Sonstiges Pay ja 21 28 1 TV nein 279 222 449 (a) Berechnen Sie f¨ ur Tafel 1 den χ2 –Koeffizienten und den Kontingenzkoeffizienten. Vergleichen Sie die Ergebnisse mit Tafel 2 (χ2 = 44.38). Bei welcher Tafel liegt der st¨ arkere Zusammenhang vor? (b) Erstellen Sie die Tafeln der relativen H¨ aufigkeiten, zusammen mit allen relativen Randh¨ aufigkeiten. Setzen Sie nun voraus, daß es sich bei den in (b) berechneten Tafeln um die wahren Wahrscheinlichkeitsfunktionen der drei Merkmale handelt. (c) Geben Sie die bedingte Wahrscheinlichkeitsfunktion des Merkmals Einkommen an, unter der Bedingung, daß Pay–TV vorhanden ist (Y = ja). Tragen Sie die Ergebnisse in die folgende Kontingenztabelle zwischen den Merkmalen X1 (Einkommen) und X2 (Interessensgebiet) ein: Pay–TV vorhanden Einkommen ≤ 2000 (X1 ) > 2000 f (X2 |Y = ja)
Interessensgebiet (X2 ) Spielfilme Sport Sonstiges
0.42
0.56
0.02
f (X1 |Y = ja)
1
¨ 15. Ubergreifende Aufgaben
289
Vervollst¨ andigen Sie obige Tafel unter der Annahme, daß X1 und X2 unabh¨ angig sind. (d) Berechnen Sie mit dem Satz von Bayes die Wahrscheinlichkeit, daß eine zuf¨ allig ausgew¨ ahlte Person Pay–TV besitzt, falls sie bevorzugt Sportsendungen sieht. (L¨osung siehe Seite 295)
Aufgabe 15.6 In der Hoffnung, sich m¨ uhseliges Auswendiglernen in Zukunft zu ersparen, entschließt sich Student Fauli das Buch “Leichter Lernen mit den Sternen” zu kaufen. Dieses ist in zwei Varianten erh¨ altlich, als Taschenbuch f¨ ur 7.95 Euro und mit festem Einband f¨ ur 15 Euro. Das Merkmal Einband (Y ) sei folgendermaßen kodiert: 0 Taschenbuch Y = 1 fester Einband Jedoch l¨ aßt die Qualit¨ at der Bindung in beiden F¨allen zu w¨ unschen u ¨ brig, so daß manchmal Seiten fehlen. Aus technischen Gr¨ unden fehlen entweder 0.4 oder 8 Seiten. Die gemeinsame Verteilung der Merkmale Einband und fehlende Seiten (X) ist in der folgenden Kontingenztafel zu finden: Y
X
8 4 0
1 0,07 0,18 0,30 0,55
0 0,23 0,12 0,10 0,45
0,30 0,30 0,40 1
(a) Bestimmen sie jeweils den Erwartungswert und die Varianz der Merkmale X und Y . (b) Das Merkmal Preis (Z) ist eine lineare Transformation Z = a · Y + b des Merkmals Einband. Bestimmen Sie zun¨ achst die Konstanten a und b und zeigen Sie damit, daß E(Z) = 11.83 und V ar(Z) = 12.30 gilt. (c) Berechnen sie die Korrelation der beiden Merkmale X und Z. Geben Sie eine kurze (!) Interpretation des Ergebnisses. Nach der Lekt¨ ure dieses Buches bei Vollmond betr¨agt die Zeitersparnis beim Lernen genau 1 Stunde pro gelesener Seite. Ein vollst¨andiges Buch besitzt 50 Seiten. (d) Berechnen Sie die bedingte Verteilung des Merkmals X, falls sich Fauli ein Taschenbuch kauft. Geben Sie zus¨ atzlich den Erwartungswert an.
290
¨ 15. Ubergreifende Aufgaben
(e) Vergleichen Sie das Ergebnis aus (d) mit dem Modus der bedingten Verteilung von X. (f) Letztendlich hat sich Fauli zum Kauf der Taschenbuchausgabe entschieden. Wieviele Stunden Zeitersparnis kann Fauli nun erwarten? (L¨osung siehe Seite 297)
¨ 15. Ubergreifende Aufgaben
291
L¨ osungen L¨ osung 15.1 Die vollst¨ andige Kontingenztafel ergibt sich durch: Y X
0 1
0 448 32 480
1 192 128 320
640 160 800
(a) Y 0 h(Y ) 0.6
1 0.4
Die Wahrscheinlichkeit f¨ ur die Eingliederung ist mit 0.4 relativ niedrig. (b1) Y 0 1 h(Y |X = 0) 0.7 0.3 h(Y |X = 1) 0.2 0.8 Mit Fortbildung ist eine Eingliederung erheblich wahrscheinlicher als ohne Fortbildung (0.8 statt 0.3). (b2) γ= . (b3) Es ist χ2 =
448 · 128 = 9.33 32 · 192
800 · (448 · 128 − 192 · 32)2 = 133.33. 640 · 160 · 480 · 320
Damit ist
K
=
M
=
Kmax
=
K∗
=
χ2 = 2 χ +n
133.33 = 0.3780, 133.33 + 800
min{2, 2} = 2,
M −1 1 = , M 2 K = 0.5345 Kmax
Sowohl K ∗ als auch γ deuten auf einen starken Zusammenhang zwischen X und Y hin.
¨ 15. Ubergreifende Aufgaben
292
(c) Es gilt χ2 = 133.33 und χ21−0.01 ((2 − 1) · (2 − 1)) = χ20.99 (1) = 6.63. Wegen 133.33 > 6.63 ist die Nullhypothese “Unabh¨angigkeit von X und Y ” zu verwerfen!
L¨ osung 15.2 (a) Beide Sch¨ atzfunktionen sind erwartungstreu, wie sich aus E(T1 ) =
(E(X1 ) + E(X2 )) =θ 2
und
(E(X1 ) + E(Y1 ) + E(Y2 )) = θ ergibt 3 Keine l¨ aßt sich als konsistent betrachten, da nur 2 bzw. 3 Stichprobenvariablen benutzt werden. E(T1 ) =
(b) V ar(T1 ) = 14 (V ar(X1 ) + V ar(X2 )) =
2 σx 2 ,
V ar(T2 ) = 19 (V ar(X1 ) + V ar(Y1 ) + V ar(Y2 )) = 19 (σx2 + 2σx2 ) (c) T2 ist effizienter als T1 wenn V ar(T2 ) ≤ V ar(T1 ) ⇔
2 (σx +2σy2 ) 9
⇔
4σy2 ≤ 7σx2
⇔
σy2 ≤ 74 σx2
⇔
σy2 2 σx
≤
≤
2 σx 2
7 4
(d) Die Varianz von T3 ist eine Funktion von w in der Form g(w) = V ar(T3 ) = w2 σx2 + (1 − w)2
σy2 2
Zur Maximierung sucht man die Nullstelle der Ableitung, also g (w) = 2wσx2 − (1 − w)σy2 = 0 ⇔
w(2σx2 + σy2 ) = σy2
⇔
w=
σy2 2 +σ 2 2σx y
¨ 15. Ubergreifende Aufgaben
293
L¨ osung 15.3 (a) Da es sich um 10 Versuche handelt, ist unter der Annahme der Unabh¨ angigkeit und gleichbleibender Wahrscheinlichkeit von einer Binomialverteilung auszugehen, d.h. X ∼ B(10, p). (b) Man erh¨ alt V ar(X)
p1,2
=
!
np(1 − p) = 10p − 10p2 = 1.6
=⇒ 10p2 − 10p + 1.6 = 0 √ 10 ± 102 − 4 · 10 · 1.6 = = 2· 10 10 ± 6 0.8 = = 0.2 20
Da nur weniger als jede zweite S-Bahn versp¨atet ist, gilt p = 0.2. (c) Sei Y = Zahl der Versp¨ atungen in 1 Semester. Da n · p = 120 · 0.2 ≥ 5 und n · (1 − p) = 120 · 0.8 ≥ 5 gilt a
Y ∼ B(120, 0.2) ∼ N (120 · 0.2, 120 · 0.2 · 0.8) = N (24, 19.2).
=
16 − 24 Φ √ = 19.2 Φ(−1.826) = 1 − Φ(1.826)
=
1 − 0.996 = 0.034.
=⇒ P (Y ≤ 16) =
(d) Das Testproblem wird formuliert durch H0 : p = 0.2
H1 : p > 0.2
da es gilt, einen h¨ oheren Wert nachzuweisen. Man verwendet den approximativen Binomialtest 40 − 120 · 0.2 16 x − np = √ = 3.652 = z= 4.38 120 · 0.2 · 0.8 np(1 − p) Der Vergleich mit z0.95 = 1.64 ergibt, daß H0 bei α = 0.05 verworfen wird.
L¨ osung 15.4 (a) Unter der Voraussetzung der Unabh¨ angigkeit der Xi ergibt sich die Likelihoodfunktion L(λ) =
n $ λxi i=1
xi !
n
e−λ = e−nλ λ
i=1
xi
n $ 1 , x ! i=1 i
294
¨ 15. Ubergreifende Aufgaben
also die Loglikelihoodfunktion l(λ) = ln(L(λ)) = ln(λ)
n
xi − nλ −
i=1
Differenzieren und Nullsetzen liefert n 1 ∂l(λ) ! = xi − n = ∂λ λ i=1
n
ln(xi !).
i=1
0
1 xi λ i=1
=
n
1 λ
=
n n
ˆML λ
=
n
⇒
⇒
i=1 xi n 1 xi = x ¯, n i=1
da f¨ ur die zweite Ableitung gilt n ∂ 2 l(λ) 1 ! = − xi =≤ 0 ∂λ2 λ2 i=1
wegen xi ≥ 0, f¨ ur i = 1, . . . , n. (b) F¨ ur beliebig verteiltes X und n ≥ 30 l¨ aßt sich eine Normalverteilungsapproximation verwenden. Mit unbekannten E(X) = λ und V ar(X) = λ ist ein approximatives Konfidenzintervall gegeben durch ¯ − z1− α √S , X ¯ + z1− α √S . KI = X 2 2 n n Hier gilt: α = 0.005 ⇒ 2 also aus der Tabelle der Standardnormalverteilung 1 − α = 0, 99
⇒
α = 0.01
⇒
1−
α = 0.995 , 2
z1− α2 = 2.57. Man erh¨ alt
'
√ √ ( 3.4 3.4 KI = 3.4 − 2.57 √ , 3.4 + 2.57 √ = [2.65 , 4.15]. 40 40
(c) Nach Herstellerangabe gilt: λ00 −λ0 e 0! ⇔ e−λ0 ⇔ λ0
P (X = 0) =
!
=
0.0672
= =
0.0672 − ln(0.0672) = 2.70 .
¨ 15. Ubergreifende Aufgaben
295
(d) Man verwendet den (approximativen) Gauß–Test mit der Teststatistik ¯ − λ0 √ X 3.4 − 2.7 √ n= √ 40 = 2.40. S 3.4
T =
Es gilt z1−α = z0.99 = 2.33, also kann wegen T = 2.40 > 2.33 = z0.99 die Nullhypothese signifikant verworfen werden. Interpretation: Die Herstellerangabe ist falsch! Es sind durchschnittlich mehr runde Mosaiksteine in einer T¨ ute enthalten, als vom Hersteller behauptet wird. (e) F¨ ur den p–Wert ergibt sich p
=
P (T > 2.4)
= =
1 − P (T ≤ 2.4) 1 − Φ(2.4)
= =
1 − 0.9918 0.0082 .
Interpretation: Der Test w¨ urde die Nullhypothese verwerfen bis zu einem Signifikanzniveau von α = 0.0082.
L¨ osung 15.5 Zun¨ achst werden die Randh¨ aufigkeiten f¨ ur beide Tafeln berechnet: Tafel 1 & 2 Pay TV
ja nein
Einkommen ≤ 2000 > 2000 150 350 3900 5600 4050 5950
500 9500 10000
Interessensgebiet Spielfilme Sport Sonstiges 21 28 1 279 222 449 300 250 450
(a) Es gilt n1 = 10000 und n2 = 1000. Tafel 1: F¨ ur eine 4-Feldertafel gilt χ21
= =
n1 (ad − bc)2 (a + b)(a + c)(b + d)(c + d) 10000 · (150 · 5600 − 350 · 3900)2 = 24.08. 500 · 4050 · 5950 · 9500
50 950 1000
296
¨ 15. Ubergreifende Aufgaben
Daraus ergibt sich K1
=
χ21 = 0.049 n1 + χ21
Tafel 2: Mit χ22 = 44.38 erh¨ alt man K2
=
χ22 = 0.206. n2 + χ22
Zum Vergleich der beiden Tafeln gen¨ ugt der berechnete Kontingenzkoeffizient. Dieser ber¨ ucksichtigt bereits die unterschiedlichen Stichprobenumf¨ ange. Da bei beiden Tafeln das Minimum der Zeilen- bzw. Spaltenzahl gleich ist (M = min{k, m} = 2), ist die Berechnung des korrigierten Kontingenzkoeffizienten nicht notwendig. Der Zusammenhang ist bei Tafel 2 st¨ arker (K2 > K1 ). (b) Die Tafeln der relativen H¨ aufigkeiten sind sofort aus den Tafeln der absoluten H¨ aufigkeiten (siehe oben) abzuleiten: Tafel 1 & 2 Pay TV
ja nein
Einkommen ≤ 2000 > 2000 0.015 0.035 0.39 0.56 0.405 0.595
0.05 0.95 1
Interessensgebiet Spielfilme Sport Sonstiges 0.021 0.028 0.001 0.279 0.222 0.449 0.3 0.25 0.45
(c) Die bedingten Wahrscheinlichkeiten erh¨alt man u ¨ ber den allgemeinen Zusammenhang: f (x, y) f (x|y) = . f (y) Die gemeinsamen Wahrscheinlichkeiten und die Randwahrscheinlichkeiten sind direkt den Tafeln aus (b) zu entnehmen. Also gilt f (X1 ≤ 2000|Y = ja) =
0.015 f (X1 ≤ 2000, Y = ja) = = 0.3. f (Y = ja) 0.05
f (X1 > 2000|Y = ja) =
0.035 f (X1 > 2000, Y = ja) = = 0.7 f (Y = ja) 0.05
und
bzw. f (X1 > 2000|Y = ja) = 1 − f (X1 ≤ 2000|Y = ja) = 1 − 0.3 = 0.7 . Alle weiteren Eintr¨ age in der Tafel ergeben sich aufgrund der Unabh¨ angigkeit als Produkt der Randwahrscheinlichkeiten, somit
¨ 15. Ubergreifende Aufgaben
Pay–TV vorhanden Einkommen ≤ 2000 (X1 ) > 2000 f (X2 |Y = ja)
Interessensgebiet (X2 ) Spielfilme Sport Sonstiges 0.126 0.168 0.006 0.294 0.392 0.014 0.42 0.56 0.02
297
f (X1 |Y = ja) 0.3 0.7 1
(d) Gesucht ist die Wahrscheinlichkeit P (Y = ja|X2 = Sport). Nach dem Satz von Bayes gilt P (Y = ja|X2 = Sport)
= = =
P (X2 = Sport|Y = ja) · P (Y = ja) P (X2 = Sport) 0.56 · 0.05 0.25 0.112.
L¨ osung 15.6 (a) Merkmal X: E(X) = 0.40 · 0 + 0.30 · 4 + 0.30 · 8 = 3.6 E(X 2 ) = 0.40 · 02 + 0.30 · 42 + 0.30 · 82 = 24 V ar(X) = E(X 2 ) − E(X)2 = 24 − 3.62 = 11.04 Merkmal Y: E(Y ) = E(Y 2 ) = V ar(Y ) =
0.45 · 0 + 0.55 · 1 = 0.55 E(Y ) = 0.55 E(Y 2 ) − E(Y )2 = 0.55 − 0.552 = 0.2475
(b) F¨ ur die Konstanten a und b, muß gelten: 7.95 = a · 0 + b = b und
15.00 = a · 1 + b = a + b
⇒ b = 7.95 und
a = 7.05 .
Nach dem Transformationssatz ergibt sich E(Z) = a · E(Y ) + b = 7.05 · 0.55 + 7.95 = 11.8275 und
V ar(Z) = a2 · V ar(Y ) = 7.052 · 0.2475 = 12.30 .
(c) Zun¨ achst erfolgt die Berechnung der Kovarianz von X und Z. Es gilt E(X · Z) = + + =
8 · 15.00 · 0.07 + 4 · 15.00 · 0.18 + 0 · 15.00 · 0.30 + 37.644
8 · 7.95 · 0.23 4 · 7.95 · 0.12 0 · 7.95 · 0.10
298
¨ 15. Ubergreifende Aufgaben
und somit nach der Verschiebungsregel Cov(X, Z) = E(XZ) − E(X)E(Z) = 37.644 − 3.6 · 11.8275 = −4.935 . Damit berechnet sich die Korrelation zu −4.935 Cov(X, Z) = √ = −0.4235 . ρ(X, Z) = 11.04 · 12.30 V ar(X) · V ar(Z) Interpretation: Eine negative Korrelation zwischen den Merkmalen Preis und fehlende Seiten bedeutet, daß bei der gebundenen Ausgabe tendenziell weniger Seiten fehlen, als bei der billigeren Taschenbuchausgabe. (d) Es gilt P (X = 0|Y = 0) = P (X = 4|Y = 0) = P (X = 8|Y = 0) =
P (X=0,Y =0) P (Y =0) P (X=4,Y =0) P (Y =0) P (X=8,Y =0) P (Y =0)
= = =
0.10 0.45 0.12 0.45 0.23 0.45
= 0.2222 = 0.2667 = 0.5111
und damit E(X|Y = 0) = 0 · 0.2222 + 4 · 0.2667 + 8 · 0.5111 = 5.1556 . Es sind also 5.1556 fehlende Seiten beim Kauf eines Taschenbuchs zu erwarten. (e) Der Modus der bedingten Verteilung von X, gegeben Y=0 ist x=4 und damit kleiner als E(X|Y = 0). Der Unterschied wird durch die linkssteile Verteilung verursacht. (f) Sei V das Merkmal Zeitersparnis in Stunden, dann gilt: V = 50 − X . Somit gilt nach dem Transformationssatz f¨ ur Erwartungswerte: E(V |Y = 0) = E(50−X|Y = 0) = 50−E(X|Y = 0) = 50−5.1556 = 44.84 .
16 Computeraufgaben
Aufgaben Die Aufgaben in diesem letzten Kapitel sind kapitel¨ ubergreifend und k¨onnen nur in Verbindung mit einem Computer und einem geeigneten Statistikprogrammpaket gel¨ ost werden. Ziel dieser Aufgaben ist einerseits die Vertiefung des erworbenen statistischen Wissens anhand von praxisrelevanten Fragestellungen, andererseits soll eine gewisse Vertrautheit mit statistischen Programmpaketen und deren M¨ oglichkeiten zur Auswertung von Datens¨atzen geschaffen werden. Die Datens¨ atze, die zur L¨osung der Aufgaben ben¨otigt werden, kann man u ¨ber das Internet unter http://www.stat.uni-muenchen.de/∼fahrmeir/uebbuch/uebbuch.html beziehen. Aus Platzgr¨ unden sind L¨ osungsvorschl¨age zu den Aufgaben hier nicht abgedruckt. Diese lassen sich ebenfalls u ¨ber die oben genannte Internetseite abrufen. Bei dem Statistikprogramm, mit dem die Aufgaben gel¨ost werden k¨ onnen, ist man nicht auf ein einziges Programmpaket beschr¨ankt, vielmehr kommen mehrere g¨ angige daf¨ ur in Frage. Die meisten Unteraufgaben lassen sich bereits mit einer Tabellenkalkulation wie etwa MS-Excel l¨ osen. F¨ ur Einsteiger geeignet sind die Statistikprogramme SPSS und Stata, f¨ ur Fortgeschrittene eignen sich auch die Programme S-Plus und SAS. Aufgabe 16.1 Zur Bearbeitung dieser Aufgabe ben¨ otigen Sie den Datensatz miete2003, den Sie u ¨ber oben genannte Internetadresse abrufen k¨onnen. Dabei handelt es sich um einen Teil der Daten, die anl¨ aßlich der Erstellung des M¨ unchener Mietpiegels von 2003 erhoben wurden. Aus Datenschutzgr¨ unden wurde der vorliegende Datensatz gegen¨ uber den Originaldaten leicht ver¨andert. Ziel eines Mietspiegels ist die Bestimmung der sogenannten orts¨ ublichen Miete, deren Betrag in der Regel von Ausstattungs- und Lagemerkmalen der Mietwohnung abh¨ angt. So enth¨ alt der Datensatz miete2003 neben der Nettomiete (Variable miete), der Wohnfl¨ ache (Variable flaeche) und dem Baujahr (Variable bjahr) einer Wohnung auch Ausstattungsmerkmale wie etwa die Variablen bad (gehobenes Bad vorhanden/nicht vorhanden), zh (Zentralheizung
300
16. Computeraufgaben
vorhanden/nicht vorhanden) und kueche (gehobene K¨ uche vorhanden/nicht vorhanden). Univariate Analyse der Mietspiegeldaten Ziel der univariaten Analyse des Mietspiegeldatensatzes ist die Gewinnung ¨ eines Uberblicks u ¨ ber die Variablen. (a) Veranschaulichen Sie s¨ amtliche Variablen des Datensatzes durch geeignete graphische Hilfsmittel (etwa S¨ aulendiagramme, Kreisdiagramme, BoxPlots, Histogramme, Kerndichtesch¨ atzer etc.). (b) Berechnen Sie f¨ ur alle Variablen geeignete deskriptive Kennzahlen (Mittelwerte, Streuungsmaße, Quantile etc.). (c) Erzeugen Sie eine zus¨ atzliche Variable logmiete = ln(miete) (ln ist der nat¨ urliche Logarithmus). Veranschaulichen Sie auch diese Variable graphisch, und berechnen Sie geeignete Kennzahlen. (d) Fassen sie kurz die Informationen u ¨ ber die Verteilungen der untersuchten Variablen zusammen. Multivariate Analyse der Mietspiegeldaten Ziel der multivariaten Analyse der M¨ unchener Mietspiegeldaten ist das Auffinden von Variablen, die einen Einfluß auf die Nettomiete miete haben. Beispielsweise erscheint es plausibel, daß große Wohnungen teurer sind als kleine. In der Regel sind auch ¨ altere Wohnungen tendenziell billiger als neuere. (e) Veranschaulichen Sie den (m¨ oglichen) Zusammenhang sowohl zwischen Nettomiete und Wohnfl¨ ache als auch den Zusammenhang zwischen Nettomiete und dem Baujahr der Wohnung durch ein Streudiagramm. Berechnen Sie zus¨ atzlich die empirischen Korrelationskoeffizienten. (f) Zeichnen sie auch Streudiagramme zwischen der logarithmierten Miete und der Wohnfl¨ ache bzw. dem Baujahr. Berechnen sie auch die empirischen Korrelationskoeffizienten. (g) Welche Schl¨ usse k¨ onnen sie aus den gezeichneten Streudiagrammen ziehen? (h) Veranschaulichen Sie (m¨ ogliche) Zusammmenh¨ange zwischen der Nettomiete und den im Datensatz enthaltenen diskreten Variablen (z.B. bad, zh etc.) anhand geeigneter Hilfsmittel (etwa f¨ ur jede Kategorie getrennte Boxplots f¨ ur die Nettomiete etc.). (i) Sch¨ atzen Sie Regressionsmodelle mit der Nettomiete bzw. der logarithmierten Nettomiete als abh¨ angige Variable. Verwenden Sie als erkl¨arende Variablen diejenigen, die Ihnen aufgrund Ihrer bisherigen Ergebnisse in (e)-(h) am geeignetsten erscheinen. Beachten Sie dabei, daß kategoriale Variablen (z.B. die Wohnlage) erst mittels Dummykodierung umkodiert werden m¨ ussen, bevor diese in Ihr Regressionsmodell mit aufgenommen werden k¨ onnen. (j) Pr¨ ufen Sie, ob Ihre gesch¨ atzten Regressionsmodelle eventuell noch verbessert werden k¨ onnen durch eine feinere Modellierung des Einflusses der
16. Computeraufgaben
(k) (l)
(m) (n)
301
Wohnfl¨ ache und des Baujahrs (Transformationen der Variablen, Modellierung durch Polynome etc.). Interpretieren sie die bisher gesch¨ atzten Regressionsmodelle. ¨ Uberpr¨ ufen Sie die Modellannahmen Ihrer gesch¨atzten Regressionsmodelle mit Hilfe geeigneter Diagnoseverfahren (Normal-Quantil-Plots, Residualanalysen etc.). Welche Annahmen erscheinen besonders kritisch? Entwickeln Sie ein Regressionsmodell mit der Nettomiete pro Quadratmeter als abh¨angige Variable. Interpretieren sie wieder die Ergebnisse. Prognostizieren sie die Nettomiete auf der Basis ihrer bisher berechneten Regressionsmodelle. Gehen Sie von einer 1998 gebauten Wohnung mit 60 Quadratmetern Wohnfl¨ ache in guter Lage mit Zentralheizung und gehobener K¨ uche aus.
Aufgabe 16.2 Zur Bearbeitung der vorliegenden Aufgabe ben¨otigen Sie den Datensatz kurse. Der Datensatz kurse enth¨ alt f¨ ur den Zeitraum Januar 1980 - Dezember 1993 tagesaktuell die Zinsentwicklung deutscher festverzinslicher Wertpapiere (Variable zins) und die Kursentwicklung einiger deutscher Standardaktien (z.B. BMW, VW und Siemens). Dar¨ uber hinaus spiegelt ein Aktienindex (Variable index) analog zum Deutschen Aktienindex (DAX) die Gesamtentwicklung deutscher Aktien im genannten Zeitraum wider. (a) Stellen Sie die Zeitreihe der Zinsen graphisch dar, und identifizieren Sie Hochzins- und Niedrigzinsphasen. Erstellen Sie ein Histogramm f¨ ur die Zinsen. Was passiert, wenn Sie die Klassenbreite (bzw. Anzahl der Klassen) variieren? (b) Stellen Sie den Kursverlauf der Aktien und des Aktienindex graphisch dar. Entscheiden Sie durch geeignete Normierung der Zeitreihen, welche der Aktien sich besser und welche sich schlechter als der Gesamtmarkt entwickelt haben. (c) Bestimmen Sie f¨ ur alle Aktienkurse sowohl einen gleitenden 30 Tage- als auch 200 Tage-Durchschnitt, und stellen Sie die errechneten Zeitreihen zusammen mit den ungegl¨ atteten Zeitreihen graphisch dar. Verwenden Sie auch andere Ihnen bekannte Trendbereinigungsverfahren. Welche Unterschiede stellen Sie fest? (d) Berechnen Sie einen 200 Tage-gleitenden Durchschnitt, bei dem in die Durchschnittsbildung lediglich die Kurse der Vergangenheit einfließen. H¨ aufig gilt in Analystenkreisen das Durchbrechen dieses 200 TageDurchschnitts von unten bzw. von oben als Kauf- bzw. Verkaufssignal. Welchen Gewinn bzw. Verlust h¨ atten Sie (unter Vernachl¨assigung der Transaktionskosten) erzielt, wenn Sie zu Beginn des Untersuchungszeitraums von jeder Aktie eine gekauft h¨ atten und anschließend nach obiger Strategie ge- bzw. verkauft h¨ atten?
302
16. Computeraufgaben
(e) Erstellen Sie neue Variablen mit den jeweiligen Renditen der Aktienkurse, und stellen Sie die erhaltenen Zeitreihen graphisch dar. Bestimmen Sie auch Histogramme bzw. Kerndichtesch¨ atzer der Renditen. (f) Zeichnen Sie NQ-Plots, um einen Eindruck zu gewinnen, ob die Renditen ann¨ ahernd normalverteilt sind.
Aufgabe 16.3 Zur Bearbeitung dieser Aufgabe ben¨ otigen Sie den Datensatz kredit. Der Datensatz kredit wurde von einer großen deutschen Bank zur Beurteilung der zuk¨ unftigen Bonit¨ at potentieller Kreditnehmer erhoben. Insgesamt liegt eine geschichtete Stichprobe mit 1000 Beobachtungen vor, von denen 300 aus nichtzur¨ uckbezahlten Krediten und 700 aus zur¨ uckbezahlten Krediten bestehen. Neben der Bonit¨ at des Kunden (Variable boni) enth¨alt der Datensatz erkl¨ arende Variablen wie die Laufzeit des Kredits (Variable laufzeit), die fr¨ uhere Zahlungsmoral (Variable moral) oder die Kredith¨ohe (Variable hoehe), denen ein m¨ oglicher Einfluß auf die Bonit¨ at unterstellt wird. (a) Veranschaulichen Sie s¨ amtliche Variablen des Datensatzes durch geeignete graphische Hilfsmittel (etwa S¨ aulendiagramme, Kreisdiagramme, BoxPlots, Histogramme, Kerndichtesch¨ atzer etc.). (b) Berechnen Sie f¨ ur alle Variablen geeignete deskriptive Kennzahlen (Mittelwerte, Streuungsmaße, Quantile, Schiefemaße etc.). (c) Erstellen Sie jeweils Kontingenztafeln zwischen der Variable Bonit¨at (boni) und den (diskreten) erkl¨ arenden Variablen lfd-kont, moral, zweck, geschl und famst. Testen Sie auch jeweils auf Unabh¨angigkeit, und interpretieren Sie das Ergebnis. (d) Bestimmen Sie jeweils die bedingten relativen H¨aufigkeitsverteilungen der in (c) genannten diskreten Variablen bei gegebener guter bzw. schlechter Bonit¨ at. Interpretieren Sie Ihre Ergebnisse. Wie beeinflussen die Variablen jeweils die Bonit¨at? (e) Bestimmen Sie den Korrelationskoeffizienten nach Bravais-Pearson zwischen der Bonit¨ at und der Laufzeit des Kredits bzw. der Kredith¨ohe. Interpretieren Sie Ihr Ergebnis.
Aufgabe 16.4 Diese Aufgabe basiert auf dem Datensatz absol95. Er enth¨alt einen Teil der in der sogenannten M¨ unchener Absolventenstudie erhobenen Variablen. Diese Studie wurde 1995 vom Institut f¨ ur Soziologie der Ludwig-MaximiliansUniversit¨ at M¨ unchen durchgef¨ uhrt. Eine zentrale Fragestellung war die Bestimmung von Determinanten f¨ ur den beruflichen Erfolg von Absolventen des Diplomstudiengangs Soziologie in M¨ unchen. Der berufliche Erfolg wurde
16. Computeraufgaben
303
unter anderem durch das Einkommen operationalisiert, das in dem vorliegenden Datensatz als Variable “Stundenlohn” (stlohn) vorliegt. Zudem wurde die Variable “Zufriedenheit” (zufried) als Indikator f¨ ur den beruflichen Erfolg angesehen. Sie wurde in vier Kategorien (sehr zufrieden, zufrieden, unzufrieden, sehr unzufrieden) als Antwortm¨ oglichkeiten auf die Frage “Wie zufrieden sind Sie alles in allem mit Ihrer beruflichen Situation?” erfaßt. Als m¨ ogliche Einflußgr¨ oßen interessierten neben biographischen und rein pers¨ onlichen Variablen wie das Geschlecht (geschl) auch die Rolle von Studieninhalten, Zusatzqualifikationen und den Vorstellungen, die die Absolventen zum Studienende von ihrem zuk¨ unftigen Job hatten. Außerdem waren Variablen wie die “Art des Besch¨ aftigungsverh¨altnisses” (beschver), das die Auspr¨ agungen befristet, unbefristet und selbst¨andig bzw. freiberuflich besitzt, von Interesse, die sich auf die momentane oder letzte Besch¨aftigung beziehen. In diesen Katalog geh¨ ort auch die Variable “Fachad¨aquanz”, ein Score, der aus mehreren Items gebildet wurde, und der Werte zwischen 0 und 24 annehmen kann. Dabei sprechen hohe Punktzahlen f¨ ur eine hohe Fachad¨ aquanz, was bedeutet, daß die im Studium vermittelten Inhalte in hohem Maße f¨ ur die t¨ agliche Arbeit genutzt werden k¨onnen. ¨ Die Variable “Ubereinstimmung des Berufsfeldwunschs” (wunsch) setzt sich aus zwei der urspr¨ unglich erhobenen Variablen zusammen. Sie ist bin¨ar und nimmt den Wert eins an, wenn die momentane Besch¨aftigung im zum Studienende gew¨ unschten Berufsfeld liegt, und null, wenn dies nicht der Fall ist. Sie interessieren sich daf¨ ur, ob sich das mittlere Einkommen in den drei Gruppen, die durch die Variable “Art des Besch¨ aftigungsverh¨altnisses” gebildet werden, unterscheidet. (a) Vergleichen Sie zun¨ achst die Mittelwerte in den drei Gruppen untereinander und mit dem Gesamtmittel. (b) Sie wollen nun auch eine einfaktorielle Varianzanalyse durchf¨ uhren. Beurteilen Sie dazu vorab, ob die Modellannahmen der Varianzhomogenit¨at ullt sind, indem Sie und der Normalverteilung erf¨ (b1) die Varianzen in den Gruppen berechnen und vergleichen, (b2) die Verteilung des Stundenlohns durch ein Histogramm veranschaulichen, (b3) einen Test auf Normalverteilung des Stundenlohns durchf¨ uhren. (c) Stellen Sie nun eine ANOVA-Tabelle auf, und f¨ uhren Sie den F -Test durch. Schließen Sie im Falle einer Signifikanz von H1 weitere Paarvergleiche zur genaueren Analyse der Unterschiede an. Es ist eine bekannte Tatsache, daß Frauen in vergleichbaren Positionen tendenziell weniger verdienen als M¨ anner. ¨ (d) Uberpr¨ ufen Sie, ob auch in dieser Population der Stundenlohn bei M¨ annern im Schnitt h¨ oher ist als bei Frauen.
304
16. Computeraufgaben
¨ Betrachten Sie nun die diskreten Variablen “Zufriedenheit”, “Ubereinstimmung des Berufsfeldwunschs” und “Fachad¨ aquanz”. Teilen Sie dazu die Auspr¨ agungen der Variable “Fachad¨ aquanz” in die drei Kategorien geringe (0-8 Punkte), mittlere (9-16 Punkte) und hohe Fachad¨aquanz (17-24 Punkte) ein. ¨ Beurteilen Sie jeweils, welcher Zusammenhang zwischen “Ubereinstimmung des Berufsfeldwunschs” bzw. “Fachad¨ aquanz” und “Zufriedenheit” besteht, indem Sie (e) geeignete deskriptive Maße f¨ ur die St¨ arke des Zusammenhangs berechnen, uhren. (f) gegebenenfalls einen χ2 -Test durchf¨