Zeitreihenanalyse
Aus MM*Stat
Vorlage:Mmstat3:Statistik I&II/Zeitreihen
Grundbegriffe
Zeitreihenanalyse und Zeitreihen
Eine Zeitreihe zeichnet die Ausprägungen eines Merkmals (einer Variablen) im Zeitverlauf auf.
Die Betrachtung der Zeitreihen in den unten stehenden Beispielen lässt erkennen, wie unterschiedlich die zeitliche Entwicklung der Merkmalsausprägungen sein kann.
Diese verschiedenen Eigenschaften im jeweiligen Anwendungsfall zu erfassen, ist das Ziel der deskriptiven Analyse. Deskriptive Zeitreihenmodelle werden so gewählt, dass sie die Charakteristika der Reihe verdeutlichen.
Zeitreihen können auch als Ergebnis eines stochastischen Prozesses interpretiert werden. Vor diesem Hintergrund versucht man stochastische Modelle zu finden, die zu den Beobachtungen geführt haben könnten.
Besonderes Gewicht kommt hierbei der Identifikation von Einflussfaktoren, die häufig ebenfalls Zeitreihen sind, zu.
Ein stochastisches Zeitreihenmodell kann helfen, den Prozess, der zu den Beobachtungen geführt hat, zu verstehen.
Wenn man ferner annimmt, dass das Modell auch in der Zukunft noch gelten wird, ermöglicht es Voraussagen zukünftiger Merkmalsausprägungen.
Im folgenden werden nur deskriptive Zeitreihenmodelle betrachtet.
Komponenten einer Zeitreihe
Um ihre charakteristischen Eigenschaften offenzulegen, zerlegt man Zeitreihen häufig in Bewegungskomponenten:
- Allgemeine Tendenz der Zeitreihe.
- Kurzfristige Einflüsse, die nach einem starren Muster die langfristige Entwicklung überlagern. Die Periodenlänge beträgt häufig ein Jahr, in diesem Fall spricht man von Saisonschwankungen.
- Unregelmäßige Restschwankungen
Der Trend und Saisonschwankung gelten als systematische Komponenten und werden in den folgenden Unterkapiteln weiter diskutiert.
Beispiele
Scatterplots geben einen Eindruck von der Entwicklung der Merkmalsausprägungen im Zeitverlauf.
Auf der Abzisse werden Indikatoren für den jeweiligen Beobachtungszeitpunkt (z.B. Jahreszahlen) abgetragen, die Ordinate gibt die zugehörige Merkmalswerte an.
Wie die folgenden Beispiele illustrieren, finden sich Zeitreihen in den verschiedensten Wissensgebieten:
Reparaturen
Preisindex für fremde Reparaturen und sonstige Dienstleistungen Berlin, 1. Quartal 1977 - 4. Quartal 1989
Telefone
Anzahl der Telefone in den USA (in 1000) 1900 - 1970
<R output="display">
pdf(rpdf, width=10, height=7) S = c(1355900, 1801100, 2371044, 2808900, 3353200, 4126900, 4932800, 6118578, 6483600, 6995700, 7635400, 8348700, 8729592, 9542500, 10046400, 10523500, 11241400, 11716520, 12077600, 12668500, 13411400, 13875200, 14347395, 15369500, 16208900, 16935900, 17746200, 18522767, 19341300, 20233000, 20201600, 19707600, 17424406, 16710900, 16968800, 17424000, 18433000, 19453401, 19953000, 20831000, 21928000, 23521000, 24919000, 26381000, 26859000, 27867000, 31611000, 34867000, 38205000, 40708000, 43003800, 45636400, 48056300, 50373000, 52813000, 56243200, 60190400, 63620900, 66629600, 70819000, 74341100, 77425400, 80971700, 84450300, 88787400, 93658800, 98785600, 103751900, 109255600, 115200700, 120221000); tel = ts(S, start=1900, end=1970, fr=1) par(mar=c(5, 7, 1, 2) + 0.1) par(mgp = c(3, 1, 0)) plot(tel, lwd=3, col="blue", axes=F, xlab="Jahr", ylab="", ylim=c(0, 140000000)) axis(1, tck=-0.02) options(scipen=5) axis(2, at=seq(0, 140000000, by=20000000), label=seq(0, 140000, by=20000), las=2, tck=-0.02) par(mgp = c(5, 1, 0)) title(ylab="Anzahl der Telefone in USA (1000)") </R> |
PKW
Zulassungszahl neuer PKW in Berlin 1. Quartal 1977 - 4. Quartal 1989
<R output="display">
pdf(rpdf, width=10, height=7) a = c(15222, 17456, 12988, 13833, 15407, 19110, 13479, 13139, 16407, 18738, 11923, 11853, 15869, 16109, 12883, 11712, 14495, 15373, 10341, 11111, 12985, 13397, 9474, 10043, 13431, 15968, 11246, 11261, 14908, 14581, 10498, 10657, 11078, 14858, 11473, 12384, 13801, 17143, 14249, 14712, 12603, 16799, 15611, 15568, 13077, 17098, 14159, 13085, 14093, 16344, 12044, 13762) t = ts(a, start=c(1977,1), end=c(1989,4), fr=4) plot(t, ylim=c(8000,20000), xlab="Zeit", ylab="Zulassungszahl neuer Pkw (Tsd.)", col="red", lwd=3, axes=F) axis(1, at=seq(1977.1, 1989.4, by=1.0), label=seq(77.1, 89.4, by=1.0), tck=-0.02) axis(2, at=seq(8000, 20000, by=2000), label=seq(8, 20, by=2), las=2, tck=-0.02) </R> |
Temperaturen
Tägliche Temperaturen in New York, Mai bis September 1973
<R output="display">
pdf(rpdf, width=10, height=7) data(airquality) attach(airquality) plot(ts(Temp), xlab="Zeit", ylab="Temperatur [Fahrenheit]", axes=F, col="green", lwd=2, ylim=c(50,100)) axis(1, tck=-0.02) axis(2, tck=-0.02, las=2) </R> |
Passagiere
Anzahl der Passagiere der amerikanischen Flug-Gesellschaft Pan Am Januar 1949 - Dezember 1960
<R output="display">
pdf(rpdf, width=10, height=7) data(AirPassengers) AP = AirPassengers par(mar=c(5, 7, 1, 2) + 0.1) par(mgp = c(3, 1, 0)) plot(AP, xlab="Zeit", ylab="Anzahl der Passagiere einer Flug-Gesellschaft (Tsd.)", axes=F, col="brown", lwd=3) axis(1, tck=-0.02, at=seq(1949.083, 1961.083, by=1), label=seq(49.1, 61.1, by=1), cex.axis=0.85) axis(2, tck=-0.02, las=2) </R> |