Trend
Aus MM*Stat
Vorlage:Mmstat3:Statistik I&II/Zeitreihen
Grundbegriffe
Trend einer Zeitreihe
Die Zerlegung einer Zeitreihe beginnt mit der Extraktion der langfristigen Tendenz (Trend) aus den Beobachtungen.
Dazu stehen verschiedene Methoden, die jeweils zu unterschiedlichen Trendlinien für ein und diesselbe Reihe führen, zur Verfügung.
Die Auswahl einer dieser Methoden erfordert generell ein Abwägen zwischen Vor- und Nachteilen.
In diesem Abschnitt werden die Methode der gleitenden Durchschnitte und die Methode der kleinsten Quadrate vorgestellt.
Methode der gleitenden Durchschnitte
Filter
Der geschätzte Trend ist bei diesem Verfahren zu jedem Zeitpunkt ein gewichtetes Mittel aus den Originaldaten mehrerer Perioden:
mit
Die Gesamtheit der Gewichte nennt man Filter.
Die Wahl des Filters hängt von der Art saisonaler Schwankungen und der gewünschten Glättung ab. Meist werden symmetrische Filter, die (ausgehend von Periode ) Vergangenheit und Zukunft gleichgewichten, verwendet.
Filter, deren Gewichte für alle gleich sind, bilden sogenannte einfache gleitende Durchschnitte, alle anderen führen zu gewichteten gleitenden Durchschnitten.
Stützbereich
Der Bereich aus den Originaldaten, über den der gewichtete Durchschnitt gebildet wird, heisst Stützbereich.
Aus Prinzip kann die Reihe des geschätzten Trends höchstens so lang sein wie die Originalreihe (Gleichheit, wenn ).
Je größer man den Stützbereich wählt, umso weniger Trendwerte können berechnet werden und umso glatter wird die resultierende Trendreihe.
Symmetrischer Filter
Symmetrische Filter () werden meist so angegeben, dass die einzelnen Gewichte nebeneinander in eckigen Klammern stehen.
Die folgenden Filter finden bei der Glättung von saisonalen Zeitreihen Anwendung, weil sie für die Trendberechnung die periodischen Schwankungen aus den Originaldaten "herausfiltern".
- Halbjahresdaten
- Quartalsdaten
- Monatsdaten
Methode der kleinsten Quadrate
Eine zweite Möglichkeit den Trend einer Zeitreihe zu ermitteln, bietet die Methode der kleinsten Quadrate, wie sie im Kapitel "Schätzung der Regressionsparameter" vorgestellt wurde.
Man wählt eine Familie von Funktionen, durch die der Trend in Abhängigkeit von der Zeit beschrieben werden soll und schätzt dann deren Parameter.
Diese Parameterschätzer minimieren die Summe der quadratischen Abweichungen des Trends von den Originaldaten:
Exemplarisch werden im folgenden die Schätzer für eine einfache lineare Trendfunktion und für einen Exponentialtrend hergeleitet.
Lineare Trendfunktion
Unterstellt sei eine lineare Abhängigkeit der Variablen von der Zeit in der Form
Die Summe der Residuenquadrate in Abhängigkeit von den Parametern und ist
Die Minimierung ergibt die Parameterschätzer
Exponentialtrend
Unterstellt sei eine exponentielle Abhängigkeit der Variablen von der Zeit in der Form
bzw. in logarithmierter Form
Die Minimierung ergibt die Parameterschätzer
Zusatzinformationen
Informationen zur Ordnung des gleitenden Durchschnitts
Stützbereich: Anzahl der Werte, die in die Mittelwertberechnung eingehen.
- Ungerade Ordnung
- Gerade Ordnung
- Beispiel für ungerade Ordnung:
--- --- --- --- --- ---
- Beispiel für gerade Ordnung:
--- --- --- --- --- ---
Beispiele
Preisindex (Lineare Trendfunktion)
Preisindex für fremde Reparaturen und sonstige Dienstleistungen Berlin, 1. Quartal 1977 - 4. Quartal 1989
entspricht dem 4. Quartal 1976.
Anzahl der Telefone (Exponentialtrend)
Anzahl der Telefone in den USA (in 1000) 1900-1970
entspricht 1899.
<R output="display">
pdf(rpdf, width=10, height=7) S = c(1355900, 1801100, 2371044, 2808900, 3353200, 4126900, 4932800, 6118578, 6483600, 6995700, 7635400, 8348700, 8729592, 9542500, 10046400, 10523500, 11241400, 11716520, 12077600, 12668500, 13411400, 13875200, 14347395, 15369500, 16208900, 16935900, 17746200, 18522767, 19341300, 20233000, 20201600, 19707600, 17424406, 16710900, 16968800, 17424000, 18433000, 19453401, 19953000, 20831000, 21928000, 23521000, 24919000, 26381000, 26859000, 27867000, 31611000, 34867000, 38205000, 40708000, 43003800, 45636400, 48056300, 50373000, 52813000, 56243200, 60190400, 63620900, 66629600, 70819000, 74341100, 77425400, 80971700, 84450300, 88787400, 93658800, 98785600, 103751900, 109255600, 115200700, 120221000); tel = ts(S, start=1900, end=1970, fr=1) par(mar=c(5, 7, 1, 2) + 0.1) par(mgp = c(3, 1, 0)) plot(tel, lwd=3, col="blue", axes=F, xlab="Jahr", ylab="", ylim=c(0, 140000000)) axis(1, tck=-0.02) options(scipen=5) axis(2, at=seq(0, 140000000, by=20000000), label=seq(0, 140000, by=20000), las=2, tck=-0.02) par(mgp = c(5, 1, 0)) title(ylab="Anzahl der Telefone in USA (1000)") t = as.numeric(time(tel)-1900) tel.lm = lm(log(tel)~t) lines(exp(tel.lm$coef[1]+tel.lm$coef[2]*(time(tel)-1900)), col="red", lwd=3) </R> |
PKW (Symmetrischer Filter)
Zulassungszahl neuer PKW in Berlin 1. Quartal 1977 - 4. Quartal 1989 (Quartalsdaten)
rot: Originalzeitreihe
schwarz: geglättete Reihe (Trend)
<R output="display">
pdf(rpdf, width=10, height=7) a = c(15222, 17456, 12988, 13833, 15407, 19110, 13479, 13139, 16407, 18738, 11923, 11853, 15869, 16109, 12883, 11712, 14495, 15373, 10341, 11111, 12985, 13397, 9474, 10043, 13431, 15968, 11246, 11261, 14908, 14581, 10498, 10657, 11078, 14858, 11473, 12384, 13801, 17143, 14249, 14712, 12603, 16799, 15611, 15568, 13077, 17098, 14159, 13085, 14093, 16344, 12044, 13762) t = ts(a, start=c(1977,1), end=c(1989,4), fr=4) plot(t, ylim=c(8000,20000), xlab="Zeit", ylab="Zulassungszahl neuer Pkw (Tsd.)", col="red", lwd=3, axes=F) axis(1, at=seq(1977.1, 1989.4, by=1.0), label=seq(77.1, 89.4, by=1.0), tck=-0.02) axis(2, at=seq(8000, 20000, by=2000), label=seq(8, 20, by=2), las=2, tck=-0.02) lines(decompose(t)$trend, lwd=3) </R> |
Leistungsbilanzsalden
Die folgende Zeitreihe beschreibt die Entwicklung der Leistungsbilanzsalden (in Mio Mark) der Bundesrepublik Deutschland in den Jahren 1977 - 1995:
Der Trend dieser Zeitreihe soll mit der Methode der gleitenden Durchschnitte geschätzt werden. Hierzu verwendet man die Formel
Da ausgehend von einem Zeitpunkt Vergangenheits- und Zukunftswerte gleichgewichtet in die Trendschätzung eingehen sollen, wird gewählt.
Zur Glättung von Jahresdaten verwendet man einen einfachen gleitenden Durchschnitt, bei dem die Gewichte für alle identisch sind.
Die Gewichte müssen sich über den gesamten Stützbereich zu 1 aufaddieren. Also gilt:
für alle
In der folgenden Tabelle wurde der gleitende Durchschnitt jeweils für und berechnet.
Jahr | Leistungsbilanz | ||||
1977 | 1 | 9478 | |||
1978 | 2 | 18003 | 5483,3 | ||
1979 | 3 | -11031 | -7169,3 | -4754,2 | |
1980 | 4 | -28480 | -17084 | -4676,6 | -476 |
1981 | 5 | -11741 | -10118,3 | -6162,6 | 2161,4 |
1982 | 6 | 9866 | 2899,3 | 1631,6 | 6493,4 |
1983 | 7 | 10573 | 16126,3 | 16993 | 20325,4 |
1984 | 8 | 27940 | 28946,7 | 36499,8 | 36122,1 |
1985 | 9 | 48327 | 54020 | 50946 | 50418,9 |
1986 | 10 | 85793 | 72072,3 | 66498,6 | 63874,7 |
1987 | 11 | 82097 | 85408,7 | 81722 | 64551,3 |
1988 | 12 | 88336 | 91496,7 | 75118,4 | 56000,4 |
1989 | 13 | 104057 | 69234 | 51576,6 | 44779,3 |
1990 | 14 | 15309 | 29150 | 29113 | 29186 |
1991 | 15 | -31916 | -15609,3 | 6774,4 | 12573,9 |
1992 | 16 | -30221 | -28498 | -20875,2 | -4876,7 |
1993 | 17 | -23357 | -29256,3 | -30700,6 | |
1994 | 18 | -34191 | -30455,3 | ||
1995 | 19 | -33818 |
Wenn ist, kann man für die Periode keinen Trend schätzen, weil der Wert der Zeitreihe in unbekannt ist.
Für ist der geschätzte Trend dann
In der folgenden Grafik werden die drei Schätzungen und die Originalreihe miteinander verglichen:
<R output="display">
pdf(rpdf, width=10, height=7) a = c(9478, 18003, -11031, -28480, -11741, 9866, 10573, 27940, 48327, 85793, 82097, 88336, 104057, 15309, -31916, -30221, -23357, -34191, -33818) b = c(5483.3, -7169.3, -17084.0, -10118.3, 2899.3, 16126.3, 28946.7, 54020.0, 72072.3, 85408.7, 91496.7, 69234.0, 29150.0, -15609.3, -28498.0, -29256.3, -30455.3) c = c(-4754.2, -4676.6, -6162.6, 1631.6, 16993.0, 36499.8, 50946.0, 66498.6, 81722.0, 75118.4, 51576.6, 29113.0, 6774.4, -20875.2, -30700.6) d = c(-476.0, 2161.4, 6493.4, 20325.4, 36122.1, 50418.9, 63874.7, 64551.3, 56000.4, 44779.3, 29186.0, 12573.9, -4876.7) t1 = ts(a, start=1977, end=1995) t2 = ts(b, start=1978, end=1994) t3 = ts(c, start=1979, end=1993) t4 = ts(d, start=1980, end=1992) options(scipen=5) plot(t1, xlab="Period", ylab="Million DM", yaxt="n", lwd=2) axis(2, at=c(0, 50000, 100000)) lines(t2, col="green", lwd=2) lines(t3, col="red", lwd=2) lines(t4, col="blue", lwd=2) </R> |
Man erkennt zwei wichtige Eigenschaften des Verfahrens:
- Je größer der Stützbereich, über den der Trend geschätzt wurde (also je größer ), umso mehr Trendwerte konnten nicht geschätzt werden.
- Der geschätzte Trend wird bei vergrößertem Stützbereich glatter.