Friday 13 October 2017

Seasonality Centered Moving Average


Bei der Berechnung eines laufenden gleitenden Durchschnittes ist es sinnvoll, den Durchschnitt in der mittleren Zeitperiode zu setzen. Im vorigen Beispiel haben wir den Durchschnitt der ersten 3 Zeiträume berechnet und an die Periode 3 gelegt. Wir hätten den Mittelwert in der Mitte des Zeitintervall von drei Perioden, das heißt, neben Periode 2. Dies funktioniert gut mit ungeraden Zeitperioden, aber nicht so gut für sogar Zeitperioden. Also wo würden wir den ersten gleitenden Durchschnitt platzieren, wenn M 4 Technisch, würde der Moving Average bei t 2,5, 3,5 fallen. Um dieses Problem zu vermeiden, glätten wir die MAs unter Verwendung von M 2. So glätten wir die geglätteten Werte Wenn wir eine gerade Anzahl von Ausdrücken mitteln, müssen wir die geglätteten Werte glätten Die folgende Tabelle zeigt die Ergebnisse unter Verwendung von M 4.Spreadsheet-Implementierung der saisonalen Anpassung und Exponentielle Glättung Es ist einfach, saisonale Anpassung durchzuführen und exponentielle Glättungsmodelle mit Excel anzupassen. Die unten aufgeführten Bildschirmbilder und Diagramme werden einer Tabellenkalkulation entnommen, die eine multiplikative saisonale Anpassung und eine lineare Exponentialglättung für die folgenden vierteljährlichen Verkaufsdaten von Outboard Marine darstellt: Um eine Kopie der Tabellenkalkulation selbst zu erhalten, klicken Sie hier. Die Version der linearen exponentiellen Glättung, die hier für Demonstrationszwecke verwendet wird, ist die Brown8217s-Version, nur weil sie mit einer einzigen Spalte von Formeln implementiert werden kann und es nur eine Glättungskonstante gibt, die optimiert werden soll. In der Regel ist es besser, Holt8217s Version, die separate Glättungskonstanten für Ebene und Trend hat. Der Prognoseprozess verläuft wie folgt: (i) Die Daten werden saisonbereinigt (ii) sodann für die saisonbereinigten Daten über lineare exponentielle Glättung Prognosen erstellt und (iii) schließlich werden die saisonbereinigten Prognosen zur Erzielung von Prognosen für die ursprüngliche Serie herangezogen . Der saisonale Anpassungsprozess wird in den Spalten D bis G durchgeführt. Der erste Schritt in der Saisonbereinigung besteht darin, einen zentrierten gleitenden Durchschnitt (hier in Spalte D) zu berechnen. Dies kann erreicht werden, indem der Durchschnitt von zwei einjährigen Durchschnittswerten, die um eine Periode relativ zueinander versetzt sind, genommen wird. (Eine Kombination von zwei Offset-Durchschnittswerten anstatt eines einzigen Mittels wird für die Zentrierung benötigt, wenn die Anzahl der Jahreszeiten gleich ist.) Der nächste Schritt besteht darin, das Verhältnis zum gleitenden Durchschnitt zu berechnen. die Vorlage durch den gleitenden Durchschnitt geteilten Daten in jeder Periode - die hier in Spalte E durchgeführt wird (dies ist auch die quottrend-cyclequot Komponente des Musters, sofern Trend und Konjunktureffekte nennen könnte als alle sein, dass zu einem großen Teil bleibt nach wert von Daten über ein ganzes Jahr im Durchschnitt. natürlich Monat zu Monat Veränderungen, die nicht auf Grund saisonaler sind, könnten durch viele andere Faktoren, aber der 12-Monats-Durchschnitt über sie bestimmt werden geglättet.) die Wird der geschätzte saisonale Index für jede Jahreszeit berechnet, indem zuerst alle Verhältnisse für die jeweilige Jahreszeit gemittelt werden, was in den Zellen G3-G6 unter Verwendung einer AVERAGEIF-Formel erfolgt. Die Durchschnittsverhältnisse werden dann neu skaliert, so daß sie auf das genau 100-fache der Anzahl der Perioden in einer Jahreszeit, oder 400 in diesem Fall, das in den Zellen H3-H6 erfolgt, summieren. Unten in der Spalte F werden VLOOKUP-Formeln verwendet, um den entsprechenden saisonalen Indexwert in jede Zeile der Datentabelle einzufügen, entsprechend dem Viertel des Jahres, das es repräsentiert. Der zentrierte gleitende Durchschnitt und die saisonbereinigten Daten enden wie folgt: Beachten Sie, dass der gleitende Durchschnitt typischerweise wie eine glattere Version der saisonbereinigten Serie aussieht und an beiden Enden kürzer ist. Ein weiteres Arbeitsblatt in derselben Excel-Datei zeigt die Anwendung des linearen exponentiellen Glättungsmodells auf die saisonbereinigten Daten beginnend in Spalte G. Über der Prognosespalte (hier in Zelle H9) wird ein Wert für die Glättungskonstante (alpha) eingetragen Zur Vereinfachung wird ihm der Bereichsname quotAlpha. quot zugewiesen (Der Name wird mit dem Befehl quotInsert / Name / Createquot zugewiesen.) Das LES-Modell wird initialisiert, indem die ersten beiden Prognosen gleich dem ersten Istwert der saisonbereinigten Serie gesetzt werden. Die hier verwendete Formel für die LES-Prognose ist die rekursive Einzelformel des Brown8217s-Modells: Diese Formel wird in der Zelle entsprechend der dritten Periode (hier Zelle H15) eingegeben und von dort nach unten kopiert. Beachten Sie, dass sich die LES-Prognose für die aktuelle Periode auf die beiden vorherigen Beobachtungen und die beiden vorhergehenden Prognosefehler sowie auf den Wert von alpha bezieht. Somit bezieht sich die Prognoseformel in Zeile 15 nur auf Daten, die in Zeile 14 und früher verfügbar waren. (Natürlich könnten wir statt der linearen exponentiellen Glättung einfach statt der linearen exponentiellen Glättung verwenden, könnten wir stattdessen die SES-Formel ersetzen. Wir könnten auch Holt8217s anstelle von Brown8217s LES-Modell verwenden, was zwei weitere Spalten von Formeln erfordern würde, um das Niveau und den Trend zu berechnen Die in der Prognose verwendet werden.) Die Fehler werden in der nächsten Spalte (hier Spalte J) durch Subtrahieren der Prognosen von den Istwerten berechnet. Der Quadratwurzel-Quadratfehler wird als Quadratwurzel der Varianz der Fehler plus dem Quadrat des Mittelwerts berechnet. (Dies ergibt sich aus der mathematischen Identität: MSE VARIANCE (Fehler) (AVERAGE (Fehler)). 2) Bei der Berechnung des Mittelwertes und der Varianz der Fehler in dieser Formel sind die ersten beiden Perioden ausgeschlossen, weil das Modell nicht tatsächlich mit der Prognose beginnt Die dritte Periode (Zeile 15 auf der Kalkulationstabelle). Der optimale Wert von alpha kann entweder durch manuelles Ändern von alpha gefunden werden, bis das minimale RMSE gefunden wird, oder Sie können das quotSolverquot verwenden, um eine genaue Minimierung durchzuführen. Der Wert von alpha, den der Solver gefunden hat, wird hier angezeigt (alpha0.471). Es ist in der Regel eine gute Idee, die Fehler des Modells (in transformierten Einheiten) zu zeichnen und ihre Autokorrelationen zu berechnen und zu zeichnen, bis zu einer Saison. Hier ist eine Zeitreihenfolge der (saisonbereinigten) Fehler: Die Fehlerautokorrelationen werden mit Hilfe der CORREL () - Funktion berechnet, um die Korrelationen der Fehler selbst mit einer oder mehreren Perioden zu berechnen - Einzelheiten sind im Kalkulationsblatt dargestellt . Hier ist ein Diagramm der Autokorrelationen der Fehler bei den ersten fünf Verzögerungen: Die Autokorrelationen bei den Verzögerungen 1 bis 3 sind sehr nahe bei Null, aber die Spitze bei Verzögerung 4 (deren Wert 0,35 ist) ist etwas mühsam Saisonale Anpassungsprozess nicht vollständig erfolgreich war. Allerdings ist es eigentlich nur marginal signifikant. 95 Signifikanzbanden zum Testen, ob Autokorrelationen signifikant von Null verschieden sind, sind etwa plus-oder-minus 2 / SQRT (n-k), wobei n die Stichprobengröße und k die Verzögerung ist. Hier ist n gleich 38 und k variiert von 1 bis 5, so daß die Quadratwurzel von - n-minus-k für alle von etwa 6 ist, und daher sind die Grenzen für das Testen der statistischen Signifikanz von Abweichungen von Null grob plus - Oder-minus 2/6 oder 0,33. Wenn Sie den Wert von alpha von Hand in diesem Excel-Modell variieren, können Sie den Effekt auf die Zeitreihen und Autokorrelationsdiagramme der Fehler sowie auf den Root-mean-squared-Fehler beobachten, der nachfolgend erläutert wird. Am Ende der Kalkulationstabelle wird die Prognoseformel quasi in die Zukunft gestartet, indem lediglich Prognosen für tatsächliche Werte an dem Punkt ausgetauscht werden, an dem die tatsächlichen Daten ablaufen - d. h. Wo die Zukunft beginnt. (Mit anderen Worten, in jeder Zelle, in der ein zukünftiger Datenwert auftreten würde, wird eine Zellreferenz eingefügt, die auf die Prognose für diese Periode hinweist.) Alle anderen Formeln werden einfach von oben nach unten kopiert: Beachten Sie, dass die Fehler für Prognosen von Die Zukunft werden alle berechnet, um Null zu sein. Dies bedeutet nicht, dass die tatsächlichen Fehler null sein werden, sondern lediglich die Tatsache, dass wir für die Vorhersage davon ausgehen, dass die zukünftigen Daten den Prognosen im Durchschnitt entsprechen werden. Die daraus resultierenden LES-Prognosen für die saisonbereinigten Daten sehen wie folgt aus: Mit diesem für α-Periodenprognosen optimalen Wert von alpha ist der prognostizierte Trend leicht nach oben, was auf den lokalen Trend in den letzten 2 Jahren zurückzuführen ist oder so. Für andere Werte von alpha könnte eine sehr unterschiedliche Trendprojektion erhalten werden. Es ist normalerweise eine gute Idee, zu sehen, was mit der langfristigen Trendprojektion geschieht, wenn Alpha variiert wird, weil der Wert, der für kurzfristige Prognosen am besten ist, nicht notwendigerweise der beste Wert für die Vorhersage der weiter entfernten Zukunft sein wird. Dies ist beispielsweise das Ergebnis, das erhalten wird, wenn der Wert von alpha manuell auf 0,25 gesetzt wird: Der projizierte Langzeittrend ist jetzt eher negativ als positiv Mit einem kleineren Wert von alpha setzt das Modell mehr Gewicht auf ältere Daten Seine Einschätzung des aktuellen Niveaus und Tendenz und seine langfristigen Prognosen spiegeln den in den letzten 5 Jahren beobachteten Abwärtstrend anstatt den jüngsten Aufwärtstrend wider. Dieses Diagramm zeigt auch deutlich, wie das Modell mit einem kleineren Wert von alpha langsamer ist, um auf quotturning pointsquot in den Daten zu antworten und daher tendiert, einen Fehler des gleichen Vorzeichens für viele Perioden in einer Reihe zu machen. Die Prognosefehler von 1-Schritt-Vorhersage sind im Mittel größer als die, die zuvor erhalten wurden (RMSE von 34,4 statt 27,4) und stark positiv autokorreliert. Die Lag-1-Autokorrelation von 0,56 übersteigt den oben berechneten Wert von 0,33 für eine statistisch signifikante Abweichung von Null deutlich. Als Alternative zum Abkürzen des Wertes von Alpha, um mehr Konservatismus in Langzeitprognosen einzuführen, wird manchmal ein Quottrend-Dämpfungsquotfaktor dem Modell hinzugefügt, um die projizierte Tendenz nach einigen Perioden abflachen zu lassen. Der letzte Schritt beim Erstellen des Prognosemodells besteht darin, die LES-Prognosen durch Multiplikation mit den entsprechenden saisonalen Indizes zu veranschaulichen. Somit sind die reseasonalisierten Prognosen in Spalte I einfach das Produkt der saisonalen Indizes in Spalte F und der saisonbereinigten LES-Prognosen in Spalte H. Es ist relativ einfach, Konfidenzintervalle für einstufige Prognosen dieses Modells zu berechnen: Erstens Berechnen Sie den RMSE (root-mean-squared Fehler, der nur die Quadratwurzel der MSE ist) und berechnen Sie dann ein Konfidenzintervall für die saisonbereinigte Prognose durch Addition und Subtraktion zweimal des RMSE. (Im Allgemeinen ist ein 95-Konfidenzintervall für eine Ein-Perioden-Vorausprognose ungefähr gleich der Punktvorhersage plus-oder-minus-zweimal der geschätzten Standardabweichung der Prognosefehler, vorausgesetzt, die Fehlerverteilung ist annähernd normal und die Stichprobengröße Ist groß genug, sagen wir, 20 oder mehr Hier ist die RMSE anstelle der Standardabweichung der Fehler die beste Schätzung der Standardabweichung der zukünftigen Prognosefehler, weil sie auch die Zufallsvariationen berücksichtigt.) Die Vertrauensgrenzen Für die saisonbereinigte Prognose werden dann reseasonalisiert. Zusammen mit der Prognose, durch Multiplikation mit den entsprechenden saisonalen Indizes. In diesem Fall ist die RMSE gleich 27,4 und die saisonbereinigte Prognose für die erste künftige Periode (Dez-93) beträgt 273,2. So dass das saisonbereinigte 95-Konfidenzintervall von 273,2-227,4 218,4 auf 273,2227,4 328,0 liegt. Das Multiplizieren dieser Limits durch Decembers saisonalen Index von 68,61. Erhalten wir niedrigere und obere Konfidenzgrenzen von 149,8 und 225,0 um die Dez-93-Punktprognose von 187,4. Die Vertrauensgrenzen für Prognosen, die länger als eine Periode vorangehen, werden sich in der Regel aufgrund der Unsicherheit über das Niveau und den Trend sowie die saisonalen Faktoren erweitern, da der Prognosehorizont zunimmt, aber es ist schwierig, diese im allgemeinen durch analytische Methoden zu berechnen. (Die geeignete Methode zur Berechnung der Vertrauensgrenzen für die LES-Prognose ist die Verwendung der ARIMA-Theorie, aber auch die Unsicherheit in den saisonalen Indizes ist eine andere.) Wenn Sie ein realistisches Konfidenzintervall für eine Prognose über mehrere Perioden bevorzugen, Fehler zu berücksichtigen, ist Ihre beste Wette, empirische Methoden zu verwenden: Zum Beispiel, um ein Vertrauensintervall für eine 2-Schritt-Vorausprognose zu erhalten, könnten Sie eine weitere Spalte auf der Kalkulationstabelle erstellen, um eine 2-Schritt-Voraus-Prognose für jeden Zeitraum zu berechnen Durch Booten der Ein-Schritt-Voraus-Prognose). Berechnen Sie dann die RMSE der 2-Schritt-Voraus-Prognosefehler und verwenden Sie diese als Basis für ein 2-stufiges Konfidenzintervall.6.2 Gleitende Durchschnittswerte ma 40 elecales, order 5 41 In der zweiten Spalte dieser Tabelle ein gleitender Durchschnitt Der Ordnung 5 dargestellt, was eine Abschätzung des Trendzyklus ergibt. Der erste Wert in dieser Spalte ist der Durchschnitt der ersten fünf Beobachtungen (1989-1993) der zweite Wert in der 5-MA-Spalte ist der Durchschnitt der Werte 1990-1994 und so weiter. Jeder Wert in der Spalte 5-MA ist der Mittelwert der Beobachtungen in den fünf Jahren, die auf das entsprechende Jahr zentriert sind. Es gibt keine Werte für die ersten zwei Jahre oder die letzten zwei Jahre, weil wir nicht zwei Beobachtungen auf beiden Seiten haben. In der obigen Formel enthält Spalte 5-MA die Werte von Hut mit k2. Um zu sehen, wie die Trend-Schätzung aussieht, stellen wir sie zusammen mit den Originaldaten in Abbildung 6.7 dar. Grundstück 40 elecsales, HauptsacheResidential Elektrizität salesquot, ylab quotGWhquot. Xlab quotYearquot 41 Zeilen 40 ma 40 elecales, 5 41. col quotredquot 41 Beachten Sie, wie der Trend (in rot) glatter als die ursprünglichen Daten ist und erfasst die Hauptbewegung der Zeitreihe ohne alle geringfügigen Schwankungen. Die gleitende Mittelmethode erlaubt keine Abschätzungen von T, wobei t nahe den Enden der Reihe ist, so daß sich die rote Linie nicht zu den Kanten des Graphen beiderseits erstreckt. Später werden wir anspruchsvollere Methoden der Trend-Zyklus-Schätzung verwenden, die Schätzungen nahe den Endpunkten erlauben. Die Reihenfolge des gleitenden Mittelwerts bestimmt die Glätte der Tendenzschätzung. Im Allgemeinen bedeutet eine größere Ordnung eine glattere Kurve. Die folgende Grafik zeigt die Auswirkung der Veränderung der Reihenfolge des gleitenden Durchschnitts für die privaten Stromverkaufsdaten. Einfache gleitende Mittelwerte wie diese sind meist ungerade (z. B. 3, 5, 7 usw.). Das ist also symmetrisch: In einem gleitenden Durchschnitt der Ordnung m2k1 gibt es k frühere Beobachtungen, k spätere Beobachtungen und die mittlere Beobachtung Die gemittelt werden. Aber wenn m gerade war, wäre es nicht mehr symmetrisch. Gleitende Mittelwerte der gleitenden Mittelwerte Es ist möglich, einen gleitenden Durchschnitt auf einen gleitenden Durchschnitt anzuwenden. Ein Grund hierfür besteht darin, einen gleitenden Durchschnitt gleichmäßig symmetrisch zu machen. Zum Beispiel könnten wir einen gleitenden Durchschnitt der Ordnung 4 nehmen und dann einen anderen gleitenden Durchschnitt der Ordnung 2 auf die Ergebnisse anwenden. In Tabelle 6.2 wurde dies für die ersten Jahre der australischen vierteljährlichen Bierproduktionsdaten durchgeführt. Beer2 lt - fenster 40 ausbeer, start 1992 41 ma4 lt - ma 40 beer2, bestellen 4. center FALSE 41 ma2x4 lt - ma 40 beer2, bestellen 4. center TRUE 41 Die Notation 2times4-MA in der letzten Spalte bedeutet ein 4-MA Gefolgt von einem 2-MA. Die Werte in der letzten Spalte werden durch einen gleitenden Durchschnitt der Ordnung 2 der Werte in der vorhergehenden Spalte erhalten. Beispielsweise sind die ersten beiden Werte in der 4-MA-Säule 451,2 (443410420532) / 4 und 448,8 (410420532433) / 4. Der erste Wert in der 2 × 4-MA-Säule ist der Durchschnitt dieser beiden: 450,0 (451,2448,8) / 2. Wenn ein 2-MA einem gleitenden Durchschnitt gleicher Ordnung folgt (wie z. B. 4), wird er als zentrierter gleitender Durchschnitt der Ordnung 4 bezeichnet. Dies liegt daran, daß die Ergebnisse nun symmetrisch sind. Um zu sehen, dass dies der Fall ist, können wir die 2times4-MA wie folgt schreiben: begin hat amp frac Bigfrac (y y y y) frac (y y y y) Big amp frac y frac14y frac14y frac14y frac18y. Ende Es ist jetzt ein gewichteter Durchschnitt der Beobachtungen, aber er ist symmetrisch. Andere Kombinationen von gleitenden Durchschnitten sind ebenfalls möglich. Beispielsweise wird häufig ein 3times3-MA verwendet und besteht aus einem gleitenden Durchschnitt der Ordnung 3, gefolgt von einem anderen gleitenden Durchschnitt der Ordnung 3. Im allgemeinen sollte bei einer geraden Ordnung MA eine gerade Ordnung MA folgen, um sie symmetrisch zu machen. Ähnlich sollte eine ungerade Ordnung MA eine ungerade Ordnung MA folgen. Schätzung des Trendzyklus mit saisonalen Daten Die häufigste Verwendung von zentrierten Bewegungsdurchschnitten ist die Schätzung des Trendzyklus aus saisonalen Daten. Betrachten Sie die 2times4-MA: hat frac y frac14y frac14y frac14y frac18y. Bei der Anwendung auf vierteljährliche Daten wird jedes Quartal des Jahres gleiches Gewicht gegeben, wie die ersten und letzten Bedingungen gelten für das gleiche Quartal in aufeinander folgenden Jahren. Infolgedessen wird die saisonale Veränderung ausgemittelt und die resultierenden Werte von Hut t haben wenig oder keine saisonale Veränderung übrig. Ein ähnlicher Effekt würde mit einem 2 × 8-MA oder einem 2 × 12-MA erhalten werden. Im Allgemeinen ist ein 2-mal m-MA äquivalent zu einem gewichteten gleitenden Durchschnitt der Ordnung m1, wobei alle Beobachtungen das Gewicht 1 / m mit Ausnahme des ersten und des letzten Terms, die die Gewichte 1 / (2m) nehmen, nehmen. Also, wenn die saisonale Zeit ist gleichmäßig und der Ordnung m, verwenden Sie eine 2times m-MA, um den Trend-Zyklus zu schätzen. Wenn die saisonale Periode ungerade und der Ordnung m ist, verwenden Sie eine m-MA, um den Trendzyklus abzuschätzen. Insbesondere kann ein 2 × 12-MA verwendet werden, um den Trendzyklus der monatlichen Daten abzuschätzen, und ein 7-MA kann verwendet werden, um den Trendzyklus der Tagesdaten abzuschätzen. Andere Optionen für die Reihenfolge der MA wird in der Regel in Trend-Zyklus Schätzungen durch die Saisonalität in den Daten kontaminiert werden. Beispiel 6.2 Herstellung elektrischer Geräte Abbildung 6.9 zeigt ein 2times12-MA, das auf den Index der elektrischen Ausrüstung angewendet wird. Beachten Sie, dass die glatte Linie keine Saisonalität zeigt, ist sie nahezu identisch mit dem in Abbildung 6.2 gezeigten Trendzyklus, der mit einer viel anspruchsvolleren Methode geschätzt wurde als die gleitenden Durchschnittswerte. Jede andere Wahl für die Reihenfolge des gleitenden Durchschnitts (mit Ausnahme von 24, 36 usw.) hätte zu einer glatten Linie geführt, die einige saisonale Schwankungen zeigt. Plot 40 elecequip, ylab quotNew Aufträge indexquot. (Euroregion) 41 Zeilen 40 ma 40 elecequip, bestellen 12 41. col quotredquot 41 Gewichtete gleitende Mittelwerte Kombinationen gleitender Mittelwerte ergeben gewichtete gleitende Mittelwerte. Zum Beispiel ist das oben diskutierte 2x4-MA äquivalent zu einem gewichteten 5-MA mit Gewichten, die durch frac, frac, frac, frac, frac gegeben werden. Im allgemeinen kann ein gewichtetes m-MA als Hut t sum k aj y geschrieben werden, wobei k (m-1) / 2 und die Gewichte durch a, dots, ak gegeben sind. Es ist wichtig, dass die Gewichte alle auf eins addieren und dass sie symmetrisch sind, so dass aj a. Der einfache m-MA ist ein Spezialfall, bei dem alle Gewichte gleich 1 / m sind. Ein großer Vorteil von gewichteten gleitenden Durchschnitten ist, dass sie eine glattere Schätzung des Trendzyklus ergeben. Anstelle von Beobachtungen, die die Berechnung bei Vollgewicht verlassen und verlassen, werden ihre Gewichte langsam erhöht und dann langsam verringert, was zu einer glatteren Kurve führt. Einige spezifische Sätze von Gewichten sind weit verbreitet. Einige davon sind in Tabelle 6.3 aufgeführt.

No comments:

Post a Comment