Sunday 19 February 2017

Moving Average Modell Zeitreihen

Es gibt eine Reihe von Ansätzen zur Modellierung von Zeitreihen. Wir skizzieren einige der häufigsten Ansätze unten. Trend, saisonal, Restzersetzungen Ein Ansatz ist es, die Zeitreihen in einen Trend-, Saison - und Restbestandteil zu zerlegen. Eine dreifache Exponentialglättung ist ein Beispiel für diesen Ansatz. Ein anderes Beispiel, das saisonale Löß genannt wird, basiert auf lokal gewichteten kleinsten Quadraten und wird von Cleveland (1993) diskutiert. Wir behandeln nicht saisonale Löss in diesem Handbuch. Frequenzbasierte Methoden Ein weiterer Ansatz, der in der wissenschaftlichen und technischen Anwendung häufig verwendet wird, besteht darin, die Serie im Frequenzbereich zu analysieren. Ein Beispiel für diesen Ansatz bei der Modellierung eines sinusförmigen Datensatzes wird in der Strahlablenkungsfallstudie gezeigt. Das Spektraldiagramm ist das Hauptinstrument für die Frequenzanalyse von Zeitreihen. Autoregressive (AR) Modelle Ein allgemeiner Ansatz für die Modellierung univariater Zeitreihen ist das autoregressive (AR) Modell: Xt delta phi1 X phi2 X cdots phip X At, wobei (Xt) die Zeitreihe, (At) weißes Rauschen und delta ist Links (1 - sum p phii rechts) mu. Mit (mu) das Prozeßmittel. Ein autoregressives Modell ist einfach eine lineare Regression des aktuellen Wertes der Serie gegen einen oder mehrere vorherige Werte der Serie. Der Wert von (p) wird als Ordnung des AR-Modells bezeichnet. AR-Modelle können mit einer von verschiedenen Methoden analysiert werden, einschließlich Standard-linearen Methoden der kleinsten Quadrate. Sie haben auch eine einfache Interpretation. Moving Average (MA) Modelle Ein weiteres gemeinsames Konzept für die Modellierung von univariaten Zeitreihenmodellen ist das gleitende Durchschnittsmodell (MA): Xt mu At - theta1 A - theta2 A - cdots - thetaq A, wobei (Xt) die Zeitreihe (mu ) Ist der Mittelwert der Reihe, (A) sind weiße Rauschterme, und (theta1,, ldots,, thetaq) sind die Parameter des Modells. Der Wert von (q) wird als Ordnung des MA-Modells bezeichnet. Das heißt, ein gleitendes Durchschnittsmodell ist konzeptionell eine lineare Regression des aktuellen Wertes der Reihe gegen das weiße Rauschen oder zufällige Schocks eines oder mehrerer früherer Werte der Reihe. Es wird angenommen, daß die zufälligen Schocks an jedem Punkt von der gleichen Verteilung, typischerweise einer Normalverteilung, mit einer Stelle bei Null und einer konstanten Skala kommen. Die Unterscheidung in diesem Modell ist, dass diese zufälligen Schocks propagiert werden, um zukünftige Werte der Zeitreihe. Das Anpassen der MA-Schätzungen ist komplizierter als bei AR-Modellen, da die Fehlerterme nicht beobachtbar sind. Dies bedeutet, dass iterative nicht-lineare Anpassungsverfahren anstelle von linearen kleinsten Quadraten verwendet werden müssen. MA-Modelle haben auch eine weniger offensichtliche Interpretation als AR-Modelle. Manchmal schlagen die ACF und PACF vor, dass ein MA-Modell eine bessere Modellwahl wäre und manchmal beide AR - und MA-Begriffe in demselben Modell verwendet werden sollten (siehe Abschnitt 6.4.4.5). Beachten Sie jedoch, dass die Fehlerterme nach dem Modell unabhängig sein sollten und den Standardannahmen für einen univariaten Prozess folgen. Box und Jenkins einen Ansatz, der den gleitenden Durchschnitt und die autoregressiven Ansätze in dem Buch Time Series Analysis: Forecasting and Control (Box, Jenkins und Reinsel, 1994) kombiniert. Obwohl sowohl autoregressive als auch gleitende Durchschnittsansätze bereits bekannt waren (und ursprünglich von Yule untersucht wurden) bestand der Beitrag von Box und Jenkins darin, eine systematische Methodik zur Identifizierung und Schätzung von Modellen zu entwickeln, die beide Ansätze berücksichtigen könnten. Dies macht Box-Jenkins Modelle eine leistungsfähige Klasse von Modellen. Die nächsten Abschnitte werden diese Modelle im Detail diskutieren. Ein vollständiges Tutorial zur Zeitreihenmodellierung in R Einleitung 8216Time8217 ist der wichtigste Faktor, der den Erfolg in einem Unternehmen sicherstellt. Es ist schwierig, mit dem Tempo der Zeit Schritt zu halten. Aber, Technologie hat einige leistungsfähige Methoden entwickelt, mit denen wir Dinge vor Augen haben können. Ich mache mir keine Sorgen, ich spreche nicht von Time Machine. Let8217s realistisch hier I8217m sprechen über die Methoden der Vorhersage Amp-Vorhersage. Eine solche Methode, die sich mit zeitbasierten Daten beschäftigt, ist Time Series Modeling. Wie der Name schon sagt, geht es darum, auf Zeit (Jahre, Tage, Stunden, Minuten) basierende Daten zu arbeiten, um versteckte Einsichten zu gewinnen, um fundierte Entscheidungen zu treffen. Zeitreihenmodelle sind sehr nützliche Modelle, wenn Sie seriell korrelierte Daten haben. Die meisten Geschäftshäuser arbeiten auf Zeitreihendaten, um Verkaufszahl für das folgende Jahr zu analysieren, Web site Verkehr, Wettbewerb Position und viel mehr. Allerdings ist es auch einer der Bereiche, die viele Analysten nicht verstehen. Also, wenn Sie aren8217t sicher über den kompletten Prozess der Zeitreihen-Modellierung, würde dieser Leitfaden Sie auf verschiedene Ebenen der Zeitreihen-Modellierung und die damit verbundenen Techniken einzuführen. Die folgenden Themen werden in diesem Tutorial behandelt: Grundlagen 8211 Zeitreihenmodellierung Erforschung von Zeitreihen-Daten in R Einführung in die ARMA-Zeitreihe Modellierung Framework und Anwendung von ARIMA Zeitreihen Modellierung Zeit für den Einstieg 1. Grundlagen 8211 Zeit Serie Modellierung Let8217s beginnen mit den Grundlagen. Dazu gehören stationäre Serien, zufällige Wanderungen. Rho Koeffizient, Dickey Fuller Test der Stationarität. Wenn diese Begriffe sind bereits Angst Sie, don8217t Sorge 8211 werden sie klar werden, in ein bisschen und ich wette, Sie beginnen das Thema genießen, wie ich es erklären. Stationäre Serie Es gibt drei grundlegende Kriterien für eine Serie als stationäre Serie klassifiziert werden: 1. Der Mittelwert der Serie sollte nicht eine Funktion der Zeit sein, sondern sollte eine Konstante sein. Das Bild unten hat das linke Diagramm, das die Bedingung erfüllt, während das Diagramm in Rot ein zeitabhängiges Mittel hat. 2. Die Varianz der Reihe sollte nicht eine Funktion der Zeit sein. Diese Eigenschaft ist bekannt als Homosedastizität. Die folgende Grafik zeigt, was ist und was nicht eine stationäre Serie. (Beachten Sie die unterschiedliche Verbreitung der Verteilung im rechten Diagramm) 3. Die Kovarianz des i-ten Termes und des (i m) - ten Termes sollte nicht eine Funktion der Zeit sein. In der folgenden Grafik werden Sie feststellen, dass die Spreizung mit zunehmender Zeit näher rückt. Daher ist die Kovarianz nicht konstant mit der Zeit für die 8216red Serie8217. Warum kümmere ich mich um 8216stationarity8217 einer Zeitreihe Der Grund nahm ich diesen Abschnitt zuerst war, dass, bis Ihre Zeitreihe stationär ist, können Sie nicht bauen eine Zeitreihe-Modell. In Fällen, in denen das stationäre Kriterium verletzt wird, wird die erste Voraussetzung, die Zeitreihe zu stationarisieren und dann stochastische Modelle zu versuchen, diese Zeitreihen vorherzusagen. Es gibt mehrere Möglichkeiten, diese Stationarität zu bringen. Einige von ihnen sind Detrending, Differencing etc. Random Walk Dies ist das grundlegendste Konzept der Zeitreihe. Sie können das Konzept gut kennen. Aber ich fand viele Leute in der Branche, die zufällige Wanderung als stationären Prozess interpretiert. In diesem Abschnitt mit Hilfe einiger Mathematik werde ich dieses Konzept für immer kristallklar machen. Let8217s nehmen ein Beispiel. Beispiel: Stellen Sie sich ein Mädchen vor, das sich auf einem riesigen Schachbrett zufällig bewegt. In diesem Fall ist die nächste Position des Mädchens nur von der letzten Position abhängig. Nun stell dir vor, du sitzt in einem anderen Raum und kannst das Mädchen nicht sehen. Sie wollen die Position des Mädchens mit der Zeit vorherzusagen. Wie genau wirst du sein Natürlich wirst du mehr und mehr ungenau werden, wenn sich die Position des Mädchens ändert. Bei t0 genau wissen, wo das Mädchen ist. Das nächste Mal kann sie nur auf 8 Plätze zu bewegen und damit Ihre Wahrscheinlichkeit Dips auf 18 statt 1 und es geht weiter nach unten. Jetzt wollen wir diese Reihe formulieren: wobei Er (t) der Fehler zum Zeitpunkt t ist. Dies ist die Zufälligkeit, die das Mädchen zu jedem Zeitpunkt bringt. Nun, wenn wir rekursiv in alle Xs passen, werden wir schließlich bis zu der folgenden Gleichung: Jetzt können wir versuchen, Validierung unserer Annahmen von stationären Serien auf dieser zufälligen Wanderung Formulierung: 1. Ist die mittlere Konstante Wir wissen, dass die Erwartung eines Irrtums Wird Null sein, da es zufällig ist. Daher erhält man EX (t) EX (0) Konstante. 2. Ist die Variance konstant, so folgt daraus, daß die zufällige Wanderung kein stationärer Vorgang ist, da sie eine zeitvariante Varianz aufweist. Auch, wenn wir die Kovarianz zu überprüfen, sehen wir, dass auch von der Zeit abhängig ist. Let8217s würzen Dinge ein bisschen, Wir wissen bereits, dass ein zufälliger Weg ist ein nicht-stationärer Prozess. Lassen Sie uns einen neuen Koeffizienten in der Gleichung einführen, um zu sehen, ob wir die Formulierung stationär machen können. Eingeführter Koeffizient. Rho Nun werden wir den Wert von Rho variieren, um festzustellen, ob wir die Serie stationär machen können. Hier werden wir die Streuung visuell interpretieren und keinen Test machen, um die Stationarität zu überprüfen. Let8217s beginnen mit einer perfekt stationären Serie mit Rho 0. Hier ist die Handlung für die Zeitreihe: Erhöhen Sie den Wert von Rho auf 0,5 gibt uns folgende Grafik: Sie könnten feststellen, dass unsere Zyklen breiter geworden sind, aber im Grunde scheint es nicht zu sein Schwere Verletzung von stationären Annahmen. Let8217s nehmen jetzt einen extremeren Fall von Rho 0.9 Wir sehen noch, dass das X von extremen Werten nach einigen Intervallen wieder auf Null zurückkehrt. Auch diese Serie verletzt nicht die Nicht-Stationarität signifikant. Nun, let8217s nehmen einen Blick auf die zufällige Wanderung mit Rho 1. Dies ist offensichtlich eine Verletzung zu stationären Bedingungen. Was rho 1 zu einem Sonderfall macht, der bei stationärem Test schlecht auftritt, wird die mathematische Vernunft dazu finden. Wir nehmen auf jeder Seite der Gleichung die Erwartung an. 8220X (t) Rho X (t-1) Er (t) 8221 Diese Gleichung ist sehr aufschlußreich. Das nächste X (oder zum Zeitpunkt t) wird auf Rho Letzter Wert von X gezogen. Zum Beispiel, wenn X (t 8211 1) 1, EX (t) 0,5 (für Rho 0,5). Wenn nun X von Null auf eine beliebige Richtung geht, wird es im nächsten Schritt auf Null zurückgezogen. Die einzige Komponente, die es noch weiter treiben kann, ist der Fehlerterm. Ein Fehlerterm ist gleichermaßen wahrscheinlich, in beide Richtungen zu gehen. Was passiert, wenn die Rho 1 wird Keine Kraft kann ziehen Sie die X in den nächsten Schritt. Dickey Fuller Test der Stationarität Was Sie gerade im letzten Abschnitt gelernt hat, ist formal als Dickey Fuller-Test bekannt. Hier ist ein kleines Tweak, das für unsere Gleichung gemacht wird, um es in einen Dickey-Fuller-Test umzuwandeln: Wir müssen testen, ob Rho 8211 1 signifikant unterschiedlich von Null ist oder nicht. Wenn die Nullhypothese verworfen wird, erhalten wir eine stationäre Zeitreihe. Stationäres Testen und Umwandeln einer Serie in eine stationäre Serie sind die kritischsten Prozesse in einer Zeitreihenmodellierung. Sie müssen jedes Detail dieses Konzepts auswendig lernen, um zum nächsten Schritt der Zeitreihenmodellierung zu gelangen. Let8217s nun ein Beispiel, um Ihnen zu zeigen, was eine Zeitreihe aussieht. 2. Erforschung der Zeitreihendaten in R Hier lernen wir, Zeitreihendaten auf R zu behandeln. Unser Umfang beschränkt sich auf Datenerfassung in einem Zeitreihentyp des Datensatzes und nicht auf Bauzeitreihenmodelle. Ich habe einen eingebauten Datensatz von R benannt AirPassengers verwendet. Der Datensatz besteht aus monatlichen Summen der internationalen Fluggesellschaft Passagiere, 1949 bis 1960. Laden des Datensatzes Nachfolgend ist der Code, der Ihnen beim Laden des Datensatzes und spill out ein paar Top-Level-Metriken. Wichtige Schlussfolgerungen Der Jahresumsatz zeigt deutlich an, dass die Passagiere ohne weiteres steigen. Die Varianz und der Mittelwert im Juli und August ist viel höher als der Rest der Monate. Obwohl der Mittelwert jedes Monats ganz anders ist, ist ihre Varianz gering. Daher haben wir starke saisonale Wirkung mit einem Zyklus von 12 Monaten oder weniger. Das Erforschen der Daten wird am wichtigsten in einem Zeitreihenmodell 8211 ohne diese Erforschung, Sie wissen nicht, ob eine Reihe stationär ist oder nicht. Wie in diesem Fall wissen wir bereits viele Details über die Art von Modell, das wir suchen. Let8217s nehmen nun einige Zeitreihenmodelle und deren Eigenschaften auf. Wir werden auch dieses Problem vorwärts nehmen und ein paar Vorhersagen machen. 3. Einführung in die Modellierung von ARMA-Zeitreihen ARMA-Modelle werden häufig in der Zeitreihenmodellierung eingesetzt. Im ARMA-Modell steht AR für Auto-Regression und MA steht für gleitenden Durchschnitt. Wenn diese Worte klingen, einschüchternd für Sie, Sorge nicht 8211 I8217ll vereinfachen diese Konzepte in den nächsten paar Minuten für Sie Wir werden nun einen Kniff für diese Begriffe entwickeln und verstehen die Merkmale, die mit diesen Modellen verbunden sind. Aber bevor wir anfangen, sollten Sie sich erinnern, AR oder MA sind nicht anwendbar auf nicht-stationäre Serie. Wenn Sie eine nicht stationäre Serie erhalten, müssen Sie zuerst die Serie stationarisieren (indem Sie Differenztransformationen nehmen) und dann aus den verfügbaren Zeitreihenmodellen auswählen. Zuerst, I8217ll erklären jedes dieser beiden Modelle (AR amp MA) einzeln. Als nächstes werden wir die Merkmale dieser Modelle betrachten. Auto-Regressive Zeitreihen Modell Let8217s verstehen AR-Modelle unter Verwendung des folgenden Falles: Das aktuelle BIP eines Landes sage x (t) ist abhängig vom letzten Jahr8217s BIP, d. H. X (t 8211 1). Die Hypothese, dass die Gesamtkosten der Produktion von Produkten amp Dienstleistungen in einem Land in einem Geschäftsjahr (bekannt als BIP) ist abhängig von der Errichtung von Produktionsstätten Dienstleistungen im Vorjahr und die neu eingerichteten Industrien Anlagen Dienstleistungen in der aktuellen Jahr. Aber die primäre Komponente des BIP ist die ehemalige. Daher können wir formell schreiben die Gleichung des BIP als: Diese Gleichung ist bekannt als AR (1) Formulierung. Die Ziffer 1 (1) bedeutet, dass die nächste Instanz ausschließlich von der vorherigen Instanz abhängig ist. Das Alpha ist ein Koeffizient, den wir suchen, um die Fehlerfunktion zu minimieren. Man beachte, daß x (t 1) tatsächlich mit x (t-2) in derselben Weise verbunden ist. Daher wird ein Schock für x (t) in Zukunft allmählich abgeblendet. Zum Beispiel, let8217s sagen, x (t) ist die Anzahl der Saft-Flaschen in einer Stadt an einem bestimmten Tag verkauft. Während der Winter kauften sehr wenige Verkäufer Saftflaschen. Plötzlich stieg die Temperatur an einem bestimmten Tag auf und der Bedarf an Saftflaschen stieg auf 1000. Doch nach ein paar Tagen wurde das Klima wieder kalt. Aber, zu wissen, dass die Menschen gewohnt, Saft trinken während der heißen Tage, gab es 50 der Menschen noch Saft trinken in den kalten Tagen. In den folgenden Tagen ging der Anteil auf 25 (50 von 50) und dann allmählich auf eine kleine Zahl nach einer beträchtlichen Anzahl von Tagen. Die folgende Grafik erläutert die Trägheitseigenschaft der AR-Serie: Moving Average Time Series Modell Let8217s nehmen einen anderen Fall zu verstehen Moving durchschnittlichen Zeitreihen-Modell. Ein Hersteller produziert eine bestimmte Art von Tasche, die leicht auf dem Markt verfügbar war. Als ein konkurrenzfähiger Markt, stand der Verkauf der Tasche bei null für viele Tage. So, eines Tages er einige Experiment mit dem Design und produziert eine andere Art von Tasche. Diese Art von Tasche war nicht überall verfügbar auf dem Markt. So konnte er den gesamten Bestand von 1000 Säcken verkaufen (nennen wir dies als x (t)). Die Nachfrage wurde so hoch, dass die Tasche nicht mehr lag. Infolgedessen kauften einige 100 ungerade Kunden diese Tasche. Lassen Sie uns diese Lücke als den Fehler zu diesem Zeitpunkt nennen. Mit der Zeit hatte die Tasche ihren Wollfaktor verloren. Aber es waren noch wenige Kunden übrig, die am Vortag leer ausgehändigt wurden. Im Folgenden finden Sie eine einfache Formulierung, um das Szenario darzustellen: Wenn wir versuchen, dieses Diagramm zu zeichnen, sieht es so aus: Haben Sie den Unterschied zwischen MA und AR-Modell gesehen Im MA-Modell verschwindet Rauschen schnell mit der Zeit. Das AR-Modell hat eine viel nachhaltige Wirkung des Schocks. Unterschied zwischen AR - und MA-Modellen Der primäre Unterschied zwischen einem AR - und MA-Modell basiert auf der Korrelation zwischen Zeitreihenobjekten zu unterschiedlichen Zeitpunkten. Die Korrelation zwischen x (t) und x (t-n) für n gt Ordnung von MA ist immer Null. Dies fließt direkt aus der Tatsache, daß die Kovarianz zwischen x (t) und x (t-n) für MA-Modelle Null ist (was wir aus dem Beispiel des vorigen Abschnitts hervorgehen). Jedoch nimmt die Korrelation von x (t) und x (t-n) allmählich ab, wobei n in dem AR-Modell größer wird. Dieser Unterschied wird ausgenutzt, unabhängig davon, ob die AR-Modell oder MA-Modell. Das Korrelationsdiagramm kann uns den Auftrag des MA-Modells geben. Ausnutzen von ACF - und PACF-Kurven Nachdem wir die stationäre Zeitreihe erhalten haben, müssen wir zwei Hauptfragen beantworten: Q1. Ist es ein AR-oder MA-Prozess Q2. Welche Reihenfolge der AR-oder MA-Prozess müssen wir verwenden Der Trick, um diese Fragen zu lösen ist im vorherigen Abschnitt. Didn8217t Sie bemerken Die erste Frage kann mit Total Korrelation Chart (auch bekannt als Auto 8211 Korrelation Funktion ACF) beantwortet werden. ACF ist eine Auftragung der Gesamtkorrelation zwischen verschiedenen Verzögerungsfunktionen. Zum Beispiel ist beim BIP-Problem das BIP zum Zeitpunkt t x (t). Wir interessieren uns für die Korrelation von x (t) mit x (t-1). X (t-2) und so weiter. Nun wollen wir über das, was wir oben gelernt haben, nachdenken. In einer gleitenden mittleren Folge von Lag n erhalten wir keine Korrelation zwischen x (t) und x (t 8211 n -1). Daher schneidet das Gesamtkorrelationsdiagramm bei n-ter Verzögerung ab. So wird es einfach, die Verzögerung für eine MA-Serie zu finden. Für eine AR-Serie wird diese Korrelation allmählich ohne Unterbrechungswert abfallen. Also, was machen wir, wenn es eine AR-Serie ist Hier ist der zweite Trick. Wenn wir herausfinden, die partielle Korrelation der einzelnen Lag, wird es abgeschnitten nach dem Grad der AR-Serie. Wenn wir z. B. eine AR (1) - Serie haben, ist die 2. Verzögerung (x (t-2)) unabhängig von x (t), wenn wir den Effekt der 1. Verzögerung (x (t-1)) ausschließen. Daher wird die partielle Korrelationsfunktion (PACF) scharf nach der ersten Verzögerung fallen. Nachfolgend die Beispiele, die alle Zweifel an diesem Konzept klären werden: Die blaue Linie oben zeigt deutlich unterschiedliche Werte als Null. Offensichtlich hat das Diagramm oben eine Unterbrechung auf PACF-Kurve nach 2. Verzögerung, was bedeutet, dies ist meist ein AR (2) - Prozess. Offensichtlich hat das Diagramm oben einen Cut-off auf ACF-Kurve nach 2. Verzögerung, was bedeutet, dies ist meist ein MA (2) - Prozess. Bis jetzt haben wir behandelt, wie die Art der stationären Serie mit ACF-Amp-PACF-Plots zu identifizieren. Nun, I8217ll führen Sie zu einem umfassenden Rahmen, um ein Zeitreihen-Modell zu bauen. Darüber hinaus diskutieren wir auch über die praktischen Anwendungen der Zeitreihenmodellierung. 4. Rahmen und Anwendung der ARIMA Zeitreihenmodellierung Eine schnelle Revision, Bis hierher gelernte Grundlagen der Zeitreihenmodellierung, Zeitreihen in R - und ARMA-Modellierung. Jetzt ist die Zeit, diese Stücke zu verbinden und eine interessante Geschichte zu machen. Überblick über das Framework Dieses Framework (siehe unten) gibt die Schritt-für-Schritt-Vorgehensweise auf 8216 an. Wie Sie eine Zeitreihenanalyse durchführen können 8216: Wie Sie wissen, wurden die ersten drei Schritte bereits oben diskutiert. Trotzdem wurde dies kurz beschrieben: Schritt 1: Visualisierung der Zeitreihe Es ist wichtig, die Trends vor dem Bau jeder Art von Zeitreihen-Modell zu analysieren. Die Details, die wir interessieren, bezieht sich auf jede Art von Trend, Saisonalität oder zufälliges Verhalten in der Serie. Wir haben diesen Teil im zweiten Teil dieser Serie behandelt. Schritt 2: Stationarisieren der Serie Sobald wir die Muster, Trends, Zyklen und Saisonalität kennen. Ob die Serie stationär ist oder nicht. Dickey 8211 Fuller ist einer der beliebtesten Test um das gleiche zu überprüfen. Wir haben diesen Test im ersten Teil dieser Artikel-Reihe abgedeckt. Diese doesn8217t endet hier Was ist, wenn die Serie nicht stationär gefunden wird Es gibt drei häufig verwendete Technik, um eine Zeitreihe stationär zu machen: 1. Detrending. Hier entfernen wir einfach die Trendkomponente aus der Zeitreihe. Zum Beispiel ist die Gleichung meiner Zeitreihe: We8217ll einfach entfernen Sie das Teil in den Klammern und bauen Modell für den Rest. 2. Differenzierung. Dies ist die häufig verwendete Technik, um Nicht-Stationarität zu entfernen. Hier versuchen wir, die Unterschiede der Begriffe und nicht den tatsächlichen Begriff zu modellieren. Dieses Differencing wird z. B. als Integrationsteil in AR (I) MA bezeichnet. Nun haben wir drei Parameter 3. Saisonalität. Saisonalität kann direkt in das ARIMA-Modell integriert werden. Mehr dazu in den nachfolgenden Anwendungen. Schritt 3: Optimale Parameter suchen Die Parameter p, d, q finden Sie mit Hilfe von ACF - und PACF-Diagrammen. Ein Zusatz zu diesem Ansatz kann sein, wenn sowohl ACF als auch PACF allmählich abnimmt, zeigt dies an, dass wir die Zeitreihe stationär machen und einen Wert zu 8220d8221 einführen müssen. Schritt 4: Build ARIMA Model Mit den Parametern in der Hand, können wir nun versuchen, ARIMA-Modell zu bauen. Der im vorigen Abschnitt gefundene Wert kann eine ungefähre Schätzung sein und wir müssen mehr (p, d, q) Kombinationen erforschen. Die mit dem niedrigsten BIC und AIC sollte unsere Wahl sein. Wir können auch einige Modelle mit einer saisonalen Komponente versuchen. Nur für den Fall, beachten wir jede Saisonalität in ACFPACF-Plots. Schritt 5: Vorhersagen Nachdem wir das endgültige ARIMA-Modell haben, sind wir nun bereit, Vorhersagen über die zukünftigen Zeitpunkte zu machen. Wir können auch visualisieren, die Trends zu überqueren validieren, wenn das Modell funktioniert gut. Anwendungen der Zeitreihe Modell Nun verwenden wir das gleiche Beispiel, das wir oben verwendet haben. Dann, mit Zeitreihen, machen wir Zukunft Vorhersagen. Wir empfehlen Ihnen, das Beispiel zu überprüfen, bevor Sie fortfahren. Wo haben wir angefangen Im Folgenden ist die Handlung der Anzahl der Passagiere mit Jahren. Versuchen Sie und machen Sie Beobachtungen auf dieser Handlung, bevor Sie weiter in den Artikel. Hier sind meine Beobachtungen: 1. Es gibt eine Trendkomponente, die den Fahrgast von Jahr zu Jahr wächst. 2. Es scheint, eine saisonale Komponente, die einen Zyklus weniger als 12 Monate hat. 3. Die Varianz der Daten nimmt mit der Zeit weiter zu. Wir wissen, dass wir zwei Probleme lösen müssen, bevor wir stationäre Serien testen. Eins, müssen wir ungleiche Abweichungen zu entfernen. Wir machen das mit dem Log der Serie. Zwei, wir müssen die Trendkomponente adressieren. Wir tun dies, indem wir den Unterschied der Serie. Nun, let8217s testen die resultierende Serie. Augmented Dickey-Fuller Test Wir sehen, dass die Serie stationär genug ist, um jede Art von Zeitreihenmodellierung zu machen. Im nächsten Schritt finden Sie die richtigen Parameter für das ARIMA-Modell. Wir wissen bereits, dass die Komponente 8216d8217 1 ist, da wir 1 Differenz benötigen, um die Serie stationär zu machen. Wir machen dies anhand der Korrelationsdiagramme. Im Folgenden sind die ACF-Plots für die Serie: Was sehen Sie in der oben gezeigten Tabelle klar, ist der Verfall der ACF-Diagramm sehr langsam, was bedeutet, dass die Bevölkerung nicht stationär ist. Wir haben bereits oben diskutiert, dass wir nun beabsichtigen, auf den Unterschied der Logs anstatt log direkt zurückzukommen. Let8217s sehen, wie ACF und PACF-Kurve kommen nach Rückgang auf die Differenz. Offensichtlich schneidet die ACF-Kurve nach der ersten Verzögerung ab. Daher verstanden wir, dass der Wert von p 0 sein sollte, da der ACF die Kurve ist, die eine Unterbrechung erhält. Der Wert von q sollte 1 oder 2 betragen. Nach einigen Iterationen fanden wir, dass (0,1,1) als (p, d, q) die Kombination mit mindestens AIC und BIC ist. Let8217s passen ein ARIMA Modell und prognostizieren die Zukunft 10 Jahre. Auch werden wir versuchen, Montage in einer saisonalen Komponente in der ARIMA Formulierung. Dann werden wir die Vorhersage zusammen mit den Trainingsdaten visualisieren. Sie können den folgenden Code verwenden, um das gleiche zu tun: Damit kommen wir zu diesem Zweck des Tutorials auf Time Series Modeling. Ich hoffe, dies wird Ihnen helfen, Ihr Wissen zu verbessern, um auf Zeit basierende Daten zu arbeiten. Um maximalen Nutzen aus diesem Tutorial herauszuholen, schlage I8217d vor, dass Sie diese R-Codes nebeneinander üben und Ihren Fortschritt überprüfen. Haben Sie den Artikel nützlich finden Sie mit uns, wenn Sie ähnliche Art von Analyse vor getan haben. Teilen Sie uns Ihre Meinung zu diesem Artikel in dem unten stehenden Kästchen mit. Wenn Sie mögen, was Sie gerade lesen, amp möchten Ihre analytics Lernen fortzusetzen, abonnieren Sie unsere E-Mails. Folgen Sie uns auf Twitter oder wie unsere Facebook-Seite. Teilen Sie diese: Hi Tavish. Zuerst von allen, herzlichen Glückwunsch zu Ihrer Arbeit hier. Es war sehr nützlich. Danke ich ein Zweifel, und ich hoffe, dass Sie mir helfen können, dass ich einen Dickey-Fuller Test auf beiden Serien AirPassengers und diff (log (AirPassengers)) durchgeführt habe Hier die Ergebnisse: Augmented Dickey-Fuller Testdaten: diff (log (AirPassengers)) Dickey-Fuller -9.6003, Lag-Order 0, p-Wert 0.01 alternative Hypothese: stationär Augmented Dickey-Fuller Dickey-Fuller -9.6003, Lag Order 0, p-Wert 0,01 alternative Hypothese: stationär In beiden Tests erhielt ich einen kleinen p-Wert, der mir erlaubt, die nicht stationäre Hypothese zurückzuweisen. Bin ich richtig, wenn ja, ist die erste Serie bereits stationär Dies bedeutet, dass wenn ich einen stationären Test auf der ursprünglichen Serie durchgeführt hatte auf den nächsten Schritt verschoben hatte. Vielen Dank im Voraus. Jetzt mit den richtigen Ergebnissen. Dickey-Fuller Dickey-Fuller Dickey-Fuller Dickey-Fuller Dickey-Fuller Dickey-Fuller Dickey-Fuller Dickey-Fuller Dickey-Fuller 4,6392, P-Wert 0,01 alternative Hypothese: stationär Ja, der adf. test (AirPassengers) gibt an, dass die Serie stationär ist. Dies ist ein wenig irreführend. Grund: Dieser Test testet zuerst einen De-Trend auf die Serie (dh entfernt die Trendkomponente) und prüft dann auf Stationarität. Daher markiert es die Serie als stationär. Es gibt einen weiteren Test im Paket fUnitRoots. Bitte versuchen Sie es mit dem folgenden Code: Start install. packages (8220fUnitRoots8221) Wenn Sie dieses Paket bereits installiert haben, können Sie diese Zeilenbibliothek (fUnitRoots) auslassen. AdfTest (AirPassengers) adfTest (diff (AirPassengers)) End Hope this Hilft .. Danke Ram, hatte ich die gleiche Frage wie Hugo und Ihre Erklärung geholfen Ich wollte nur darauf hinweisen, für den Nutzen von jemand anderen Blick auf diese, dass R Cap empfindlich ist, vergessen Sie nicht, die T in adfTest sonst Ihre Funktion zu groß wird nicht funktionieren. Glücklicherweise die Auto. arima-Funktion ermöglicht es uns, Zeitreihen ziemlich nett zu modellieren, obwohl es ziemlich nützlich ist, die Grundlagen zu kennen. Dies ist eine Liste von 2 (pred und se 8211 Ich nehme an, dies sind Vorhersagen und Fehler.) Es ist eine Liste von 2 (pred und se 8211 Ich nehme an, dies sind Vorhersagen und Fehler .) Ich würde vorschlagen, mit einem anderen Namen als pred in der Vorhersage-Funktion, um Verwirrung zu vermeiden. Ich habe die folgende APforecast-lt-Vorhersage (APmodel, n. ahead1012) Also APforecast ist eine Liste von pred und se und wir müssen die Vorhersage-Werte. Dh APforecastpred Auch haben wir die Arima auf Protokoll von AirPassengers, so dass die Prognose haben wir tatsächlich Protokoll der wahren Prognose. Daher müssen wir das Protokoll umkehren, was wir haben. D. h. Protokoll (Prognose) APforecastpred so prognostieren e APforecastpred e 2.718 Wenn Sie das verwirrend finden, würde ich vorschlagen, lesen Sie auf natürliche Logarithmen und ihre Inverse der log quoty039 ist auf einer logarithmischen Skala 8211 dies nicht erforderlich ist, versuchen Sie die Funktion ohne sie und Mit und beobachten Sie die Ergebnisse. Das lty-Bit habe ich noch nicht herausgefunden. Drop it und versuchen Sie die ts. plot, es funktioniert gut. Hey Amy, ts. plot () wird mehrere Zeitreihen auf der gleichen Handlung. Die ersten beiden Einträge sind die beiden Zeitreihen he8217s Plotten. Die letzten beiden Einträge sind schöne visuelle Parameter (wir kommen darauf zurück). Offensichtlich stellt diese die AirPassengers Zeitreihe in einer dunklen, durchgehenden Linie dar. Der zweite Eintrag ist auch eine Zeitreihe, aber es ist ein wenig verwirrend: 8221 2.718predpred8221. Zuerst müssen Sie wissen, was prepred ist. Die Funktion predict () ist eine generische Funktion, die für verschiedene Klassen unterschiedlich funktioniert (es sagt, wenn Sie Vorhersage eingeben). Die Klasse, mit der wir arbeiten, ist eine Arima-Klasse. Wenn Sie predict. Arima eingeben, finden Sie eine gute Beschreibung dessen, worum es bei der Funktion geht. Predict. Arima () spuckt etwas mit einem 8220pred8221-Teil (für Vorhersage) und einem 8220se8221-Teil (für Standardfehler) aus. Wir wollen den 8220pred8221 Teil, also vorverdrosselt. Also, predpred ist eine Zeitreihe. Nun, 2,718predpred ist auch. Sie müssen bedenken, dass 2.718 ungefähr die Konstante e ist, und dann macht das Sinn. He8217s gerade rückgängig machen das Protokoll, dass er auf die Daten platziert, wenn er 8220fit8221 erstellt. Wie bei den beiden letzten Parametern setzt log 8220y8221 die y-Achse auf eine logarithmische Skala. Und schließlich lty c (1,3) setzt die LineTYpe auf 1 (für Solid) für die ursprüngliche Zeitreihe und 3 (für punktiert) für die vorhergesagten Zeitreihen. Hey Tavish, wirklich genossen den Inhalt, Nur ein kleiner Zweifel: Können Sie bitte ebaorate die Kovarianz in stationären Begriffen. Ich verstehe den Kovarianzbegriff, aber hier in Zeitreihen kommt es mir nicht in den Sinn. Können Sie mir bitte helfen, verstehen die dritte Bedingung der stationären Serie dh 8220Die Kovarianz des i-ten Begriffs und der (im) th Begriff sollte nicht eine Funktion der time.8221 Bitte helfen Sie mir zu verstehen, aus der Datenperspektive z. B. wenn ich Verkaufsdaten für Jedes Datum. Wie können Sie erklären, Convariance im wirklichen Leben Beispiel mit täglichen Umsatzdaten. Parth Gera sagt: Hi Tavish, vielen Dank. Dieser Artikel war immens hilfreich. Ich hatte nur ein kleines Problem. Nach dem letzten Schritt, wenn ich die vorhergesagten Werte aus der Kurve zu extrahieren. Wie tun wir, dass Sie die vorhergesagten Werte aus der Variable pred erhalten. Pred ist eine Liste mit zwei Items: pred und se. (Vorhersage und Standardfehler). Um die Vorhersagen zu sehen, verwenden Sie diesen Befehl: print (predpred) Parth Gera sagt: Hallo Ram, Vielen Dank für Ihre Hilfe. Ja, drucken (predpred) würde uns das Protokoll der vorhergesagten Werte geben. Print (2.718predpred) würde uns die tatsächlichen vorhergesagten Werte geben. Danke Ja, wenn Sie 8216log8217 beim Erstellen des Modells verwenden, verwenden Sie Antilog oder Exponent, um die vorhergesagten Werte zu erhalten. Wenn Sie ein Modell ohne die Protokollfunktion erstellen, verwenden Sie den Exponent nicht, um die vorhergesagten Werte zu erhalten, wie Sie die Daten für die vorhergesagten und tatsächlichen Werte aus R hello extrahieren können. Die Daten, die Sie in Ihrem Tutorial, AirPassengers verwendet haben, sind bereits eine Zeitreihe Objekt. Meine Frage ist, wie kann ich makeup meiner eigenen Zeitreihe Objekt habe ich derzeit eine historische Währung Austausch Datensatz, mit ersten Spalte Datum, und der Rest 20 Spalten sind nach Ländern, und ihre Werte sind der Wechselkurs. Nachdem ich meine Datumspalte in Datumsobjekt umwandeln, wenn ich die gleichen Befehle verwende, die in deinem Tutorium verwendet werden, sind die Resultate lustig. Zum Beispiel, start (dataDate) gibt mir ein Ergebnis von: 1 1 1 und Frequenz (dataDate) wird zurückgeben: 1 1 können Sie bitte erklären, wie wir unsere Daten entsprechend vorbereiten, damit wir die Funktionen verwenden können danke Wenn Sie ts eingeben Dann sollten Sie auf Ihrem Weg sein. Sie benötigen nur eine (einzelne) Zeitreihe, eine Frequenz und ein Startdatum. Die Beispiele am Ende der Dokumentation sollten sehr hilfreich sein. I8217m schätzen so etwas wie ts (yourtimeseriesdata, Häufigkeit 365, start c (1980, 153)) zum Beispiel, wenn Ihre Daten am 153. Tag von 1980 begonnen haben.8.4 Durchschnittliche Modelle verschieben Anstatt Vergangenheitswerte der Prognosedatei in einer Regression zu verwenden , Verwendet ein gleitendes Durchschnittsmodell vergangene Prognosefehler in einem regressionsähnlichen Modell. Y c et the theta e dots theta e, wobei et weißes Rauschen ist. Wir bezeichnen dies als MA (q) - Modell. Natürlich beobachten wir nicht die Werte von et, also ist es nicht wirklich Regression im üblichen Sinne. Man beachte, daß jeder Wert von yt als gewichteter gleitender Durchschnitt der letzten Prognosefehler betrachtet werden kann. Allerdings sollten gleitende Durchschnittsmodelle nicht mit der gleitenden glatten Glättung verwechselt werden, die wir in Kapitel 6 besprochen haben. Ein gleitendes Durchschnittsmodell wird für die Prognose zukünftiger Werte verwendet, während die gleitende gleitende Durchschnittskurve für die Schätzung des Trendzyklus der vergangenen Werte verwendet wird. Abbildung 8.6: Zwei Beispiele für Daten aus gleitenden Durchschnittsmodellen mit unterschiedlichen Parametern. Links: MA (1) mit yt 20e t 0,8e t-1. Rechts: MA (2) mit y t e t - e t-1 0,8e t-2. In beiden Fällen ist e t normal verteiltes Weißrauschen mit Mittelwert Null und Varianz Eins. Abbildung 8.6 zeigt einige Daten aus einem MA (1) - Modell und einem MA (2) - Modell. Das Ändern der Parameter theta1, dots, thetaq führt zu unterschiedlichen Zeitreihenmustern. Wie bei autoregressiven Modellen wird die Varianz des Fehlerterms et nur den Maßstab der Reihe ändern, nicht die Muster. Es ist möglich, jedes stationäre AR (p) - Modell als MA (infty) - Modell zu schreiben. Beispielsweise können wir dies bei einem AR (1) - Modell demonstrieren: begin yt amp phi1y et amp phi1 (phi1y e) et amp phi12y phi1 e et amp phi13y phi12e phi1 e et amptext end Vorausgesetzt -1 lt phi1 lt 1 wird der Wert von phi1k kleiner, wenn k größer wird. So erhalten wir schließlich yt und phi1 e phi12 e phi13 e cdots, ein MA (infty) Prozess. Das umgekehrte Ergebnis gilt, wenn wir den MA-Parametern einige Einschränkungen auferlegen. Dann wird das MA-Modell invertierbar. Das heißt, dass wir alle invertierbaren MA (q) Prozess als AR (infty) Prozess schreiben können. Invertible Modelle sind nicht einfach, damit wir von MA-Modellen auf AR-Modelle umwandeln können. Sie haben auch einige mathematische Eigenschaften, die sie in der Praxis einfacher zu verwenden. Die Invertibilitätsbedingungen sind den stationären Einschränkungen ähnlich. Für ein MA (1) Modell: -1lttheta1lt1. Für ein MA (2) - Modell: -1lttheta2lt1, theta2theta1 gt-1, theta1 - theta2 lt 1. Kompliziertere Bedingungen gelten für qge3. Wiederum wird R diese Einschränkungen bei der Schätzung der Modelle berücksichtigen.


No comments:

Post a Comment