Thursday, 19 October 2017

Differanse Mellom Moving Average Og Autoregressiv Modell


Introduksjon til ARIMA nonseasonal modeller. ARIMA p, d, q prognose ligning ARIMA modeller er i teorien den mest generelle klassen av modeller for å prognose en tidsserie som kan gjøres for å være stasjonær ved differensiering om nødvendig, kanskje sammen med ikke-lineære transformasjoner for eksempel logging eller deflating hvis nødvendig En tilfeldig variabel som er en tidsserie er stasjonær hvis dens statistiske egenskaper er konstant over tid En stasjonær serie har ingen trend, dens variasjoner rundt sin gjennomsnitt har en konstant amplitude og den vri på en konsistent måte dvs. at kortsiktige tilfeldige tidsmønstre alltid ser like ut i statistisk forstand. Den sistnevnte tilstanden betyr at dets autokorrelasjonskorrelasjoner med sine egne tidligere avvik fra middelværdien forblir konstant over tid, eller tilsvarende, at dets effektspektrum forblir konstant over tid En tilfeldig variabel i dette skjemaet kan sees som vanlig som en kombinasjon av signal og støy, og signalet hvis det er tydelig kan være en patt ern med rask eller langsom gjennomsnittlig reversering eller sinusformet svingning eller rask veksling i tegn, og det kan også ha en sesongkomponent. En ARIMA-modell kan sees som et filter som forsøker å skille signalet fra støyen, og signalet er da ekstrapolert inn i fremtiden for å oppnå prognoser. ARIMA-prognose-ligningen for en stasjonær tidsserie er en lineær ie-regresjonstypekvasjon der prediktorene består av lag av den avhengige variabelen og eller lagrer prognosefeilene som er. Forutsatt verdi av Y en konstant og eller vektet sum av en eller flere nylige verdier av Y og eller en vektet sum av en eller flere nylige verdier av feilene. Hvis prediktorene bare består av forsinkede verdier av Y, er det en ren autoregressiv selvregressert modell, som bare er et spesielt tilfelle av en regresjonsmodell, og som kan forsynes med standard regresjonsprogramvare. For eksempel er en første-ordens autoregressiv AR 1-modell for Y en enkel regresjonsmodell der den uavhengige variabelen i s bare Y forsinket med en periode LAG Y, 1 i Statgraphics eller YLAG1 i RegressIt Hvis noen av prediktorene lags av feilene, er en ARIMA-modell det IKKE en lineær regresjonsmodell, fordi det ikke er mulig å spesifisere siste periode s feil Som en uavhengig variabel må feilene beregnes fra tid til annen når modellen er montert på dataene. Fra et teknisk synspunkt er problemet med å bruke forsinkede feil som prediktorer at modellens spådommer ikke er lineære funksjoner av koeffisienter, selv om de er lineære funksjoner i fortidens data. Således skal koeffisienter i ARIMA-modeller som inneholder forsinkede feil estimeres ved ikke-lineære optimaliseringsmetoder bakkeklatring i stedet for bare å løse et system av ligninger. Akronym ARIMA står for automatisk regressiv integrert Flytte gjennomsnittlig Lags av den stationære serien i prognosen ligningen kalles autoregressive vilkår, lags av prognosen feilene kalles glidende gjennomsnittlige vilkår og en tidsserie som trenger å bli differensiert for å bli gjort stasjonære, sies å være en integrert versjon av en stasjonær serie Tilfeldige gange og tilfeldige trendmodeller, autoregressive modeller og eksponentielle utjevningsmodeller er alle spesielle tilfeller av ARIMA-modeller. En ikke-sasonlig ARIMA-modell er klassifisert som en ARIMA p, d, q modell, hvor. p er antall autoregressive termer. d er antall ikke-soneforskjeller som trengs for stasjonar, og. q er antall forsinkede prognosefeil i prediksjonsligningen. Forutsigelsesligningen er konstruert som følger Først, la y betegne den forskjellen på Y som betyr. Merk at den andre forskjellen på Y d2-tilfellet ikke er forskjellen fra 2 perioder siden. Det er først den forskjellen som er den første forskjellen som er den diskrete analogen til et andre derivat, det vil si den lokale akselerasjonen av serien i stedet for den lokale trenden. Med hensyn til y er den generelle prognosekvasjonen her. De bevegelige gjennomsnittsparametrene s er definert slik at deres tegn er negative i ekv. Uasjon, etter konvensjonen som ble innført av Box og Jenkins. Noen forfattere og programvare, inkludert R-programmeringsspråket, definerer dem slik at de har pluss tegn i stedet. Når faktiske tall er plugget i ligningen, er det ingen tvetydighet, men det er viktig å vite hvilken konvensjon programvaren din bruker når du leser utdata Ofte er parameterne angitt der med AR 1, AR 2, og MA 1, MA 2 osv. For å identifisere riktig ARIMA-modell for Y begynner du ved å bestemme rekkefølgen av differensiering d som trenger å stasjonærisere serien og fjerne bruttoegenskapene til sesongmessigheten, kanskje i forbindelse med en variansstabiliserende transformasjon som logging eller deflating Hvis du stopper på dette punktet og forutser at differensierte serier er konstante, har du bare montert en tilfeldig tur eller tilfeldig Trendsmodell Den stasjonære serien kan imidlertid fortsatt ha autokorrelerte feil, noe som tyder på at noen AR-vilkår p 1 og eller noen nummer MA-termer q 1 også trengs i prognosekvasjonen. Prosessen med å bestemme verdiene p, d og q som er best for en gitt tidsserie, vil bli diskutert i senere avsnitt i notatene hvis koblinger er øverst på denne siden, men en forhåndsvisning av noen av de typer ikke-sasonlige ARIMA-modellene som ofte oppstår, er gitt nedenfor. ARIMA 1,0,0 førsteordens autoregressive modell hvis serien er stasjonær og autokorrelert, kanskje den kan forutsies som et flertall av sin egen tidligere verdi, pluss en konstant Forutsigelsesligningen i dette tilfellet er. som er Y regressert i seg selv forsinket av en periode Dette er en ARIMA 1,0,0 konstant modell Hvis gjennomsnittet av Y er null, vil ikke det konstante begrepet bli inkludert. Hvis skråningen er koeffisient 1 er positiv og mindre enn 1 i størrelsesorden skal den være mindre enn 1 i størrelsesorden hvis Y er stasjonær, beskriver modellen gjennomsnittsreferanseadferd, der neste periode s-verdi skal anslås å være 1 ganger så langt unna gjennomsnittlig som denne perioden s verdi Hvis 1 er negativ, det forutser gjennombruddsadferd med skifting av tegn, dvs. det forutsier også at Y vil være under gjennomsnittlig neste periode hvis den er over gjennomsnittet i denne perioden. I en andreordens autoregressiv modell ARIMA 2,0,0 ville det være en Y t-2 termen til høyre også, og så videre. Avhengig av tegn og størrelser av koeffisientene, kunne en ARIMA 2,0,0 modell beskrive et system hvis gjennomsnitts reversering foregår i sinusformet oscillerende mote, som bevegelsen av en masse på en fjær som er utsatt for tilfeldige støt. ARIMA 0,1,0 tilfeldig tur Hvis serien Y ikke er stasjonær, er den enkleste mulige modellen for en tilfeldig turmodell, som kan betraktes som et begrensende tilfelle av en AR 1-modell hvor den autoregressive koeffisienten er lik 1, dvs. en serie med uendelig sakte, gjennomsnittlig reversering. Forutsigelsesligningen for denne modellen kan skrives som. hvor konstant sikt er den gjennomsnittlige perioden til periode-endringen, dvs. langsiktig Drift i Y Denne modellen kan monteres som en ikke-avskjæringsrekkefølge gryningsmodell hvor den første forskjellen i Y er den avhengige variabelen Siden den bare inneholder en ikke-soneforskjell og en konstant periode, er den klassifisert som en ARIMA 0,1,0-modell med konstant. Den tilfeldige-walk-uten-drift-modellen ville være en ARIMA 0,1,0-modell uten konstant. ARIMA 1,1,0 differensiert førsteordens autoregressiv modell Hvis feilene i en tilfeldig turmodell er autokorrelert, kan problemet løses ved å legge til et lag av den avhengige variabelen til prediksjonsligning - dvs. ved å regresse den første forskjellen på Y i seg selv forsinket av en periode. Dette ville gi følgende prediksjonsligning. Det kan omarrangeres til. Dette er en førsteordens autoregressiv modell med en rekkefølge av ikke-soneforskjeller og en konstant term - en ARIMA 1,1,0 modell. ARIMA 0,1,1 uten konstant enkel eksponensiell utjevning En annen strategi for å korrigere autokorrelerte feil i en tilfeldig gangmodell er foreslått av den enkle eksponensielle utjevningsmodellen. Husk at for noen ikke-stationære tidsserier, for eksempel de som har støyende fluktuasjoner rundt et sakte varierende middel, utfører ikke den tilfeldige turmodellen så vel som et glidende gjennomsnitt av tidligere verdier. Med andre ord, i stedet for å ta den nyeste observasjonen som prognosen for neste observasjon , er det bedre å bruke et gjennomsnitt av de siste observasjonene for å filtrere ut støy og mer nøyaktig estimere det lokale gjennomsnittet. Den enkle eksponensielle utjevningsmodellen bruker et eksponentielt vektet glidende gjennomsnitt av tidligere verdier for å oppnå denne effekten. Forutsigelsesligningen for Enkel eksponensiell utjevningsmodell kan skrives i en rekke matematisk ekvivalente former, hvorav en er den såkalte feilkorreksjonsformen, der den forrige prognosen er justert i retning av feilen som den gjorde. Fordi e t-1 Y t - 1 - t-1 per definisjon, dette kan omskrives som. som er en ARIMA 0,1,1-uten konstant prognosekvasjon med 1 1 - Dette betyr at du kan passe en enkel eksponentiell smoo ting ved å spesifisere det som en ARIMA 0,1,1 modell uten konstant, og den estimerte MA 1-koeffisienten tilsvarer 1-minus-alfa i SES-formelen. Husk at i SES-modellen er gjennomsnittsalderen for dataene i 1- Forutgående prognoser er 1, noe som betyr at de vil ha en tendens til å ligge bak trender eller vendepunkter med ca. 1 perioder. Det følger at gjennomsnittsalderen for dataene i de 1-årige prognosene for en ARIMA 0,1,1-uten - konstant modell er 1 1 - 1 For eksempel hvis 1 0 8 er gjennomsnittsalderen 5 Når 1 nærmer seg 1, blir ARIMA 0,1,1-uten-konstant modell et veldig langsiktig glidende gjennomsnitt, og som 1 nærmer seg 0 blir det en tilfeldig walk-without-drift-modell. Hva er den beste måten å korrigere for autokorrelasjon, legge til AR-vilkår eller legge til MA-termer I de to foregående modeller diskutert problemet med autokorrelerte feil i en tilfeldig walk-modell ble løst på to forskjellige måter ved å legge til en forsinket verdi av differensierte serier til ligningen eller legge til en forsinket verdi av forecaen st feil Hvilken tilnærming er best En tommelfingerregel for denne situasjonen, som vil bli nærmere omtalt senere, er at positiv autokorrelasjon vanligvis behandles best ved å legge til et AR-uttrykk for modellen og negativ autokorrelasjon vanligvis behandles best av legge til en MA-term I forretnings - og økonomiske tidsserier oppstår negativ autokorrelasjon ofte som en artefakt av differensiering. Generelt reduserer differensiering positiv autokorrelasjon og kan til og med forårsake en bytte fra positiv til negativ autokorrelasjon. Så, ARIMA 0,1,1-modellen, i hvilke differensier er ledsaget av en MA-term, brukes hyppigere enn en ARIMA 1,1,0-modell. ARIMA 0,1,1 med konstant enkel eksponensiell utjevning med vekst Ved å implementere SES-modellen som en ARIMA-modell, får du faktisk noen fleksibilitet Først og fremst kan den estimerte MA 1-koeffisienten være negativ, dette tilsvarer en utjevningsfaktor som er større enn 1 i en SES-modell, som vanligvis ikke er tillatt i SES-modellprosedyren Sec ond, du har muligheten til å inkludere en konstant periode i ARIMA-modellen hvis du ønsker det, for å estimere en gjennomsnittlig ikke-null trend. ARIMA 0,1,1-modellen med konstant har prediksjonsligningen. En-tiden fremover prognosene fra denne modellen er kvalitativt lik SES-modellen, bortsett fra at bane av de langsiktige prognosene typisk er en skrånende linje hvis skråning er lik mu i stedet for en horisontal linje. ARIMA 0,2,1 eller 0, 2,2 uten konstant lineær eksponensiell utjevning Linjære eksponentielle utjevningsmodeller er ARIMA-modeller som bruker to ikke-sekundære forskjeller i sammenheng med MA-termer. Den andre forskjellen i en serie Y er ikke bare forskjellen mellom Y og seg selv forsinket med to perioder, men heller er det den første forskjellen i den første forskjellen - Y-endringen av Y ved periode t Således er den andre forskjellen på Y ved periode t lik Y t-Y t-1 - Y t-1 - Y T-2 Y t - 2Y t-1 Y t-2 En annen forskjell på en diskret funksjon er analog s til et andre derivat av en kontinuerlig funksjon, måles akselerasjonen eller krumningen i funksjonen på et gitt tidspunkt. ARIMA 0,2,2-modellen uten konstant forutser at den andre forskjellen i serien er lik en lineær funksjon av den siste to prognosefeil. som kan omarrangeres som. hvor 1 og 2 er MA 1 og MA 2-koeffisientene Dette er en generell lineær eksponensiell utjevningsmodell som i det vesentlige er den samme som Holt s-modellen, og Brown s-modellen er et spesielt tilfelle. Det bruker eksponentielt vektet Flytte gjennomsnitt for å anslå både et lokalt nivå og en lokal trend i serien. De langsiktige prognosene fra denne modellen konvergerer til en rett linje hvis skråning avhenger av den gjennomsnittlige trenden observert mot slutten av serien. ARIMA 1,1,2 uten konstant fuktet trend lineær eksponensiell utjevning. Denne modellen er illustrert i de tilhørende lysbildene på ARIMA-modeller. Det ekstrapolerer den lokale trenden i slutten av serien, men flater ut på lengre prognoshorisont for å introdusere en Conservatism, en praksis som har empirisk støtte. Se artikkelen om Hvorfor Damped Trend fungerer av Gardner og McKenzie og Golden Rule-artikkelen av Armstrong et al for detaljer. Det er generelt tilrådelig å holde fast i modeller der minst en av p og q er ikke større enn 1, det vil si ikke å passe på en modell som ARIMA 2,1,2, da dette sannsynligvis vil føre til overfitting og fellesfaktorproblemer som blir nærmere omtalt i notatene om matematisk struktur av ARIMA modeller. Spreadsheet implementering ARIMA modeller som de som er beskrevet ovenfor er enkle å implementere på et regneark. Prediksjonsligningen er bare en lineær ligning som refererer til tidligere verdier av originale tidsserier og tidligere verdier av feilene. Dermed kan du sette opp et ARIMA prognose regneark ved å lagre dataene i kolonne A, prognoseformelen i kolonne B og feildataene minus prognosene i kolonne C Forutsigelsesformelen i en typisk celle i kolonne B ville rett og slett være en lineær ekspresjon n refererer til verdier i forrige rader med kolonner A og C, multiplisert med de relevante AR - eller MA-koeffisientene lagret i celler andre steder på regnearket. Identifiserer antall AR - eller MA-termer i en ARIMA-modell. ACF og PACF-plott Etter en tidsserie har blitt stasjonærisert ved differensiering, er det neste trinnet i å tilpasse en ARIMA-modell å avgjøre om AR eller MA-termer er nødvendig for å korrigere autokorrelasjon som forblir i differensierte serien. Selvfølgelig, med programvare som Statgraphics, kan du bare prøve noen forskjellige kombinasjoner av vilkår og se hva som fungerer best Men det er en mer systematisk måte å gjøre dette ved å se på autokorrelasjonsfunksjonen ACF og delvise autokorrelasjons PACF-plottene i differensierte serier, kan du forsøke identifisere antall AR - og MA-termer som er nødvendige Du er allerede kjent med ACF-plottet, er det bare et stregdiagram over koeffisientene for korrelasjon mellom en tidsserie og lags av seg selv. PACF-plottet er et plott av den delvise korrelasjonskoeffisientene mellom serien og lagene av seg selv. Generelt er den partielle korrelasjonen mellom to variabler mengden korrelasjon mellom dem som ikke forklares av deres gjensidige korrelasjoner med et spesifisert sett med andre variabler. For eksempel, hvis vi regresserer en variabel Y på andre variabler X1, X2 og X3 er den partielle korrelasjonen mellom Y og X3 mengden korrelasjon mellom Y og X3 som ikke forklares av deres felles korrelasjoner med X1 og X2. Denne partielle korrelasjonen kan beregnes som kvadratroten av reduksjonen i variansen som oppnås ved å legge X3 til regresjonen av Y på X1 og X2. En delvis automatisk korrelasjon er mengden korrelasjon mellom en variabel og et lag i seg selv som ikke forklares av korrelasjoner i alle lavere rekkefølge-lag Autokorrelasjonen av en tidsserie Y ved lag 1 er koeffisienten for korrelasjonen mellom Y t og Y t - 1 som antagelig også er sammenhengen mellom Y t -1 og Y t -2 Men hvis Y t er korrelert d med Y t -1 og Y t -1 er like korrelert med Y t -2 da vi også bør forvente å finne korrelasjon mellom Y t og Y t-2 Faktisk bør mengden korrelasjon vi forventer ved lag 2 nettopp er kvadratet av lag-1 korrelasjonen Altså korrelasjonen ved lag 1 forplanter seg til lag 2 og antagelig til høyere rekkefølge lags. Den delvise autokorrelasjonen ved lag 2 er derfor differansen mellom den faktiske korrelasjonen ved lag 2 og den forventede korrelasjonen på grunn av utbredelse av korrelasjon ved lag 1. Her er autokorrelasjonsfunksjonen ACF i UNITS-serien, før noen differensiering utføres. Autokorrelasjonene er signifikante for et stort antall lags - men kanskje er autokorrelasjonene ved lags 2 og over bare på grunn av forplantning av autokorrelasjonen ved lag 1 Dette bekreftes av PACF-plottet. Merk at PACF-plottet kun har en signifikant spike ved lag 1, noe som betyr at alle høyereordens autokorrelasjoner effektivt forklares av lag-1 autokorrelasjonen. Paret Tielautokorrelasjoner i alle lags kan beregnes ved å montere en rekke autoregressive modeller med økende antall lags. Spesielt er den delvise autokorrelasjonen ved lag k lik den estimerte AR k koeffisienten i en autoregressiv modell med k-termer - dvs. en multiple regresjonsmodell hvor Y regresteres på LAG Y, 1, LAG Y, 2, osv. opp til LAG Y, k. Således ved bare inspeksjon av PACF kan du bestemme hvor mange AR-termer du må bruke for å forklare autokorrelasjonsmønsteret om gangen serier hvis den delvise autokorrelasjonen er signifikant ved lag k og ikke signifikant ved høyere rangordninger - dvs. hvis PACF slår av ved lag k - dette antyder at du bør prøve å tilpasse en autoregressiv bestillingsmodell k. PACF av UNITS-serien gir et ekstremt eksempel på cut-off-fenomenet, det har en meget stor spike ved lag 1 og ingen andre signifikante toppene, noe som indikerer at i mangel av differensiering bør en AR 1-modell brukes. AR 1-begrepet i denne modellen vil tu ut til å være ekvivalent med en første forskjell, fordi den estimerte AR 1 koeffisienten som er høyden av PACF-spissen ved lag 1, vil være nesten nøyaktig lik 1 Nå er prognosekvasjonen for en AR 1-modell for en serie Y uten Ordrer med differensiering er. Hvis AR 1 koeffisient 1 i denne ligningen er lik 1, svarer det til å forutse at den første forskjellen i Y er konstant - dvs. den tilsvarer likningen av den tilfeldige turmodellen med vekst. PACF i UNITS-serien forteller oss at hvis vi ikke skiller det, så skal vi passe på en AR 1-modell som vil vise seg å være ekvivalent med å ta en første forskjell. Med andre ord forteller det oss at UNITS virkelig trenger en rekkefølgen av differensiering som skal stasjonæriseres. AR og MA signaturer Hvis PACF viser en skarpt cutoff mens ACF faller sakte, dvs. har betydelige pigger på høyere lags, sier vi at den stationære serien viser en AR signatur, noe som betyr at autokorrelasjonsmønsteret kan være forklare redigeres lettere ved å legge til AR-vilkår enn ved å legge til MA-termer. Du vil sannsynligvis finne at en AR-signatur vanligvis er assosiert med positiv autokorrelasjon ved lag 1 - det vil si at det kommer opp i serier som er litt under forskjellige. Årsaken til dette er at en AR-begrepet kan virke som en delvis forskjell i prognosekvasjonen For eksempel, i en AR 1-modell virker AR-termen som en første forskjell hvis den autoregressive koeffisienten er lik 1, det gjør ingenting hvis den autoregressive koeffisienten er null, og den virker som en delvis forskjell hvis koeffisienten er mellom 0 og 1 Så hvis serien er litt underdifferensiert - dvs. hvis det ikke-stationære mønsteret av positiv autokorrelasjon ikke er helt eliminert, vil den be om en delvis forskjell ved å vise en AR-signatur Derav , har vi følgende tommelfingerregel for å bestemme når du skal legge til AR-vilkår. Rul 6 Hvis PACF av differensierte serier viser en skarpt cutoff og eller lag-1 autokorrelasjonen er positiv --i e hvis serien virker litt underdifferensiert - da vurder å legge til et AR-uttrykk til modellen Laget hvor PACF-kuttet av er det angitte antallet AR-vilkår. I prinsippet kan et autokorrelasjonsmønster fjernes fra en stasjonær serie ved å legge til nok autoregressive vilkår lags av den stationære serien til prognosekvasjonen, og PACF forteller deg hvor mange slike termer er sannsynlig nødvendig. Dette er imidlertid ikke alltid den enkleste måten å forklare et gitt autokorrelasjonsmønster, noen ganger er det mer effektivt å legge til MA-termer lagrer prognosefeilene i stedet Autokorrelasjonsfunksjonen ACF spiller samme rolle for MA-termer som PACF spiller for AR-termer - det vil si, ACF forteller deg hvor mange MA-termer som sannsynligvis vil være nødvendig for å fjerne gjenværende autokorrelasjon fra differenced serier Hvis autokorrelasjonen er signifikant ved lag k, men ikke på noen høyere nivåer - det vil si hvis ACF slår av ved lag k - dette indikerer at nøyaktig k MA termer skal brukes i prognose likning I sistnevnte tilfelle sier vi at den stationære serien viser en MA signatur, noe som betyr at autokorrelasjonsmønsteret kan forklares lettere ved å legge til MA-betingelser enn ved å legge til AR-betingelser. En MA-signatur er vanligvis forbundet med negativ autokorrelasjon ved lag 1 - det har en tendens til å oppstå i serie som er litt over differensiert. Årsaken til dette er at en MA-term kan delvis avbryte en differensasjonsordre i prognosekvasjonen. For å se dette, husk at en ARIMA 0,1,1 modell uten konstant tilsvarer en enkel eksponentiell utjevningsmodell. Forventningsligningen for denne modellen er. Hvor MA 1 koeffisient 1 tilsvarer mengden 1 - i SES-modellen. Hvis 1 er lik 1, tilsvarer dette en SES-modell med 0, som er bare en CONSTANT modell fordi prognosen er aldri oppdatert. Dette betyr at når 1 er lik 1, avbryter den faktisk differensoperasjonen som vanligvis gjør det mulig for SES-prognosen å forankre seg selv på den siste observasjonen På den annen side, hvis den bevegelige gjennomsnittskoeffisienten er lik 0, reduseres denne modellen til en tilfeldig gangmodell - det vil si at differensoperasjonen alene er så. Hvis 1 er noe større enn 0, er det som hvis vi delvis annullerer en differensordre Hvis serien allerede er litt over differensiert - dvs. hvis negativ autokorrelasjon er innført - vil den be om en forskjell å bli delvis avbrutt ved å vise en MA signatur. Mange armvinker skjer her En mer strenge forklaring på denne effekten finnes i den matematiske strukturen til ARIMA Models handout Derav følgende ekstra tommelfingerregel. Rulle 7 Hvis ACF i differenced serien viser en skarpt cutoff og eller lag-1 autocorrelation er negativ - hvis serien virker litt overdifferensiert - da vurder å legge til et MA-uttrykk for modellen Laget som ACF kuttet av er det angitte antallet MA-termer. En modell for UNITS-serien - ARIMA 2,1, 0 Tidligere y vi fastslått at UNITS-serien trengte minst én rekkefølge av nonseasonal differensiering til å bli stationarisert. Etter å ha tatt en ikke-soneforskjell - det vil si å montere en ARIMA 0,1,0-modell med konstant - ser ACF - og PACF-plottene ut. a korrelasjonen ved lag 1 er signifikant og positiv, og b viser PACF en skarpere cutoff enn ACF. Spesielt har PACF bare to signifikante toppene, mens ACF har fire. I henhold til regel 7 ovenfor viser den forskjellige serien en AR 2-signatur Hvis vi derfor stiller AR-ordens rekkefølge til 2 - dvs. passer til en ARIMA 2,1,0-modell - får vi følgende ACF - og PACF-tomter for residualene. Autokorrelasjonen ved de avgjørende lagene - nemlig lags 1 og 2 - er eliminert, og det er ikke noe merkbart mønster i høyere rekkefølge. Tidsseriens plott av residualene viser en litt bekymringsmessig tendens til å vandre vekk fra gjennomsnittet. Imidlertid viser analysesammendragsrapporten at modellen fungerer likevel ganske bra i t Valideringsperioden for begge AR-koeffisientene er signifikant forskjellig fra null, og standardavviket for residualene er redusert fra 1 54371 til 1 4215 nesten 10 ved tillegg av AR-vilkårene. Videre er det ingen tegn på enhetsrot fordi summen av AR-koeffisientene 0 252254 0 195572 er ikke nær 1 Enhetens røtter diskuteres mer detaljert nedenfor. I det hele tatt ser dette ut til å være en god modell. Utransformerte prognoser for modellen viser en lineær oppadgående trend projisert inn i fremtiden. Utviklingen i de langsiktige prognosene skyldes at modellen inkluderer en ikke-sesongforskjell og en konstant term, denne modellen er i utgangspunktet en tilfeldig tur med vekst finjustert ved tillegg av to autoregressive termer - det vil si to lag av differenced serier Helling av de langsiktige prognosene, dvs. gjennomsnittlig økning fra en periode til en annen, er lik gjennomsnittet i modelloppsummeringen 0 467566 Forutsigelsesligningen er. Hvor er den konstante sikt i modellens summer ary 0 258178, 1 er AR 1 koeffisienten 0 25224 og 2 er AR 2 koeffisienten 0 195572.Manan versus konstant Generelt refererer den gjennomsnittlige termen i utgangen av en ARIMA-modell til middelverdien av differensierte serier, dvs. den gjennomsnittlige trenden hvis rekkefølgen av differensiering er lik 1, mens konstanten er den konstante termen som vises på høyre side av prognosekvasjonen. De gjennomsnittlige og konstante termer er relatert til ligningen. KONSTANT MEAN 1 minus summen av AR koeffisienter. I dette tilfellet har vi 0 258178 0 467566 1 - 0 25224 - 0 195572.Alternativ modell for UNITS-serien - ARIMA 0,2,1 Husk at da vi begynte å analysere UNITS-serien, var vi ikke helt sikre på av den riktige rekkefølgen av differensiering å bruke En rekkefølge av ikke-soneforskjeller ga den laveste standardavviket og et mønster av mild positiv autokorrelasjon, mens to ordrer av ikke-soneforskjeller ga en mer stasjonær tidsserier, men med ganske sterk negativ autokorrelasjon på Her er både ACF og PACF av serien med to nonseasonal forskjeller. Enkelt negativt spike ved lag 1 i ACF er en MA 1 signatur, i henhold til regel 8 ovenfor. Hvis vi skulle bruke 2 ikke-soneforskjeller, ville vi vil også inkludere en MA 1-term, som gir en ARIMA 0,2,1-modell. I henhold til regel 5 vil vi også undertrykke konstant begrepet. Her er resultatet av å montere en ARIMA 0,2,1 modell uten konstant. Merk at estimert hvit støy standardavvik RMSE er bare svært litt høyere for denne modellen enn den forrige 1 46301 her versus 1 45215 tidligere. Forutsigelsesligningen for denne modellen er. hvor theta-1 er MA 1-koeffisienten. Husk at dette ligner en lineær eksponentiell utjevningsmodell med MA 1 koeffisienten som svarer til mengden 2 1-alfa i LES-modellen. MA 1-koeffisienten på 0 76 i denne modellen antyder at en LES-modell med alfa i nærheten av 0 72 ville Passe på omtrent like bra Faktisk, når en L ES-modellen er utstyrt med samme data, den optimale verdien av alpha viser seg å være rundt 0 61, som ikke er for langt unna. Her er en modell sammenligningsrapport som viser resultatene av montering av ARIMA 2,1,0-modellen med konstant , ARIMA 0,2,1-modellen uten konstant, og LES-modellen. De tre modellene utfører nesten identisk i estimeringsperioden, og ARIMA 2,1,0-modellen med konstant fremstår litt bedre enn de to andre i valideringsperioden På grunnlag av disse statistiske resultatene alene, ville det være vanskelig å velge blant de tre modellene. Men hvis vi plotter de langsiktige prognosene som ARIMA 0,2,1-modellen har gjort uten konstant som i det vesentlige er den samme som for de LES-modellen, ser vi en betydelig forskjell fra de tidligere modellene. Prognosene har noe mindre oppadgående trend enn de tidligere modellene, fordi den lokale trenden nær slutten av serien er litt mindre enn den gjennomsnittlige trenden over hele serien - men konfidensintervallene vokse mye raskere Modellen med to ordninger av differensiering antar at trenden i serien er tidsvarierende, og derfor vurderer den fjerne fremtid å være mye mer usikker enn modellen med bare én rekkefølge av differensiering. Hvilken modell skal vi velge Det avhenger av forutsetningene vi er komfortable å gjøre med hensyn til konstant trenden i data. Modellen med bare én rekkefølge av differensiering antar en konstant gjennomsnittlig trend - det er i hovedsak en finjustert tilfeldig turmodell med vekst - og Det gjør derfor relativt konservative trendprognoser. Det er også ganske optimistisk om nøyaktigheten som den kan prognose mer enn en periode framover. Modellen med to differensordrer antar en tidsvarig lokal trend - det er i hovedsak en lineær eksponensiell utjevningsmodell - - og dens trendprognoser er noe mer svake. Som en generell regel i en slik situasjon, vil jeg anbefale å velge modellen med den lavere rekkefølgen av differensiering, andre ting er omtrent like i praksis. I praksis virker random-walk eller simple eksponensielle utjevningsmodeller ofte bedre enn lineære eksponensielle utjevningsmodeller. Blandede modeller I de fleste tilfeller viser den beste modellen en modell som enten bruker bare AR-vilkår eller bare MA-termer, men i enkelte tilfeller kan en blandet modell med både AR - og MA-termer gi best egnethet til dataene. Det må imidlertid utvises forsiktighet ved montering av blandede modeller. Det er mulig for en AR-term og en MA-term for å avbryte hverandre s effekter, selv om begge kan virke signifikante i modellen, dømt av t-statistikken for koeffisientene. For eksempel, anta at den riktige modellen for en tidsrekke er en ARIMA 0,1,1-modell, men i stedet passer du til en ARIMA 1,1,2 modell - det vil si at du inkluderer en ekstra AR-term og en ekstra MA-term. Da kan de ytterligere vilkårene vise seg å være signifikante i modellen, men internt kan de bare fungere mot hverandre. De resulterende parameterestimatene kan være tvetydige , og parameterestimeringsprosessen kan ta svært mange f. eks. mer enn 10 iterasjoner for å konvergere. Derfor er det mulig for en AR-term og en MA-term å avbryte hverandres effekter, så hvis en blandet AR-MA-modell synes å passe til data, prøv også en modell med en færre AR-term og en færre MA-periode - spesielt hvis parameterestimatene i den opprinnelige modellen krever mer enn 10 iterasjoner for å konverge. Av denne grunn kan ARIMA-modeller ikke identifiseres ved tilbaketrukket trinnvis tilnærming som inkluderer både AR og MA-termer Med andre ord kan du ikke begynne å inkludere flere vilkår for hver type og deretter kaste ut de som ikke har betydelige koeffisienter. I stedet følger du vanligvis en fremad trinnvis tilnærming, legge til vilkår av en eller annen type som indikeres ved utseendet på ACF - og PACF-plottene. Utfør røtter Hvis en serie er grovt under - eller overdifferensiert - dvs. hvis en helt rekke av differensier må legges til eller avbrytes, signaliseres dette ofte av en rotasjonsenhet i t han anslår AR - eller MA-koeffisienter for modellen. En AR 1-modell sies å ha en rotasjon hvis den estimerte AR 1-koeffisienten er nesten nøyaktig lik 1 Ved nøyaktig lik, mener jeg egentlig ikke vesentlig forskjellig fra når det gjelder koeffisientens egen standard Feil Når dette skjer, betyr det at AR 1-termen nøyaktig etterligner en første forskjell, i så fall bør du fjerne AR 1-siktet og legge til en differensasjonsordre i stedet. Dette er akkurat hva som ville skje hvis du monterte en AR 1-modell til Den utifferensierte UNITS-serien, som nevnt tidligere. I en AR-modell med høyere rekkefølge finnes en enhetrot i AR-delen av modellen hvis summen av AR-koeffisientene er nøyaktig lik 1 I dette tilfellet bør du redusere AR-rekkefølgen periode med 1 og legge til en differensasjonsordre En tidsserie med en rotasjonsenhet i AR-koeffisientene er ikke-stationær - det krever en høyere rekkefølge av differencing. Rule 9 Hvis det er en enhetrot i AR-delen av modellen - dvs. hvis summen av AR-koeffisientene er nesten nøyaktig 1 - du bør redusere antall AR-termer med en og øke rekkefølgen for differensiering av en. På samme måte er en MA 1-modell sies å ha en rotasjon hvis den estimerte MA 1-koeffisienten er nøyaktig lik 1 Når dette skjer, betyr det at MA 1-termen nøyaktig kansellerer en første forskjell, i så fall bør du fjerne MA 1-termen og også redusere rekkefølgen av differensiering med en I en MA-modell med høyere rekkefølge eksisterer en enhetrot hvis summen av MA koeffisientene er nøyaktig lik 1.Rule 10 Hvis det er en rotor i MA-delen av modellen - dvs. hvis summen av MA koeffisientene er nesten nøyaktig 1 - bør du redusere antall MA-termer for en og redusere rekkefølgen av differensiering av en. For eksempel, hvis du passer til en lineær eksponensiell utjevningsmodell, ville en ARIMA 0,2,2-modell når en enkel eksponensiell utjevningsmodell vært en ARIMA 0,1,1-modell, ha vært tilstrekkelig, du kan finne at summen av de to MA koeffisientene er omtrent like lik 1 Ved å redusere MA-ordren an d rekkefølgen av differensiering av en hver, får du den mer hensiktsmessige SES-modellen En prognosemodell med en rotasjonsenhet i de estimerte MA-koeffisientene sies å være noninvertible, noe som betyr at resterne av modellen ikke kan betraktes som estimater av den sanne tilfeldige støyen som genererte tidsseriene. Et annet symptom på en rotasjonsenhet er at prognosene for modellen kan sprenge opp eller på annen måte oppføre seg bizarre. Hvis tidsserien av de langsiktige prognosene for modellen ser merkelig ut, bør du sjekke estimerte koeffisienter for Modellen din for tilstedeværelse av enhetsrot. Rule 11 Hvis de langsiktige prognosene virker uregelmessige eller ustabile, kan det være en enhetrot i AR - eller MA-koeffisientene. Ingen av disse problemene oppstod med de to modellene som er montert her, fordi vi var forsiktig med å begynne med troverdige ordninger for differensiering og passende antall AR - og MA-koeffisienter ved å studere ACF - og PACF-modellene. Nærmere detaljerte diskusjoner av enhetens røtter og kanselleringseffekter mellom A R og MA termer finnes i den matematiske strukturen i ARIMA Models handout. A RIMA står for Autoregressive Integrated Moving Gjennomsnittlige modeller Univariate single vector ARIMA er en prognose teknikk som projiserer fremtidens verdier av en serie basert helt på egen treghet. Hovedapplikasjonen er innenfor området kortsiktige prognoser som krever minst 40 historiske datapunkter. Det fungerer best når dataene dine viser et stabilt eller konsistent mønster over tid med et minimum av utelukker. Noen ganger kalt Box-Jenkins etter de opprinnelige forfattere, er ARIMA vanligvis overlegen til eksponensielle utjevningsteknikker når dataene er rimelig lange og korrelasjonen mellom tidligere observasjoner er stabil Hvis dataene er korte eller svært volatile, kan en viss utjevningsmetode utføre bedre Hvis du ikke har minst 38 datapunkter, bør du vurdere en annen metode enn ARIMA. Det første trinnet i å anvende ARIMA-metodikken er å sjekke for stasjonar. Stasjonar innebærer at seren Ies forblir på et ganske konstant nivå over tid Hvis en trend eksisterer, som i de fleste økonomiske eller forretningsapplikasjoner, er dataene dine ikke stasjonære. Dataene skal også vise en konstant variasjon i svingningene over tid. Dette er lett å se med en serie som er tungt sesongbasert og vokser i raskere grad I så fall vil oppturer og nedturer i sesongmessigheten bli mer dramatisk over tid Uten disse stasjonære forholdene blir oppfylt, kan mange av beregningene som er knyttet til prosessen ikke beregnes. Hvis en grafisk oversikt over dataene indikerer ikke-stationaritet, da skal du differensiere serien. Differensiering er en utmerket måte å transformere en ikke-stationær serie til en stasjonær en. Dette gjøres ved å subtrahere observasjonen i den nåværende perioden fra den forrige Hvis denne transformasjonen bare er gjort en gang til en serie , sier du at dataene først er differenced. Denne prosessen eliminerer i hovedsak trenden hvis serien din vokser til en relativt konstant hastighet f det vokser i økende grad, kan du bruke samme prosedyre og forskjell dataene dine igjen Dine data vil da bli annerledes forskjellig. Autokorrelasjoner er numeriske verdier som angir hvordan en dataserie er relatert til seg selv over tid Nærmere bestemt måler det hvor sterkt dataværdier ved et spesifisert antall perioder fra hverandre er korrelert til hverandre over tid Antallet perioder fra hverandre kalles vanligvis lag For For eksempel måler en autokorrelasjon ved lag 1 hvordan verdier 1 periode fra hverandre er korrelert til hverandre gjennom serien. En autokorrelasjon ved lag 2 måler hvordan dataene to perioder fra hverandre er korrelert gjennom serien. Autokorrelasjoner kan variere fra 1 til -1 En verdi nær 1 indikerer en høy positiv korrelasjon, mens en verdi nær -1 innebærer en høy negativ korrelasjon. Disse tiltakene blir oftest evaluert gjennom grafiske tomter kalt korrelagrammer. Et korrelagram plotter autokorrelasjonsverdiene for en gitt serie på forskjellige lag. Dette kalles for autokorrelasjonsfunksjon og er svært viktig i ARIMA-metoden. ARIMA-metodikken forsøker å beskrive bevegelsene i en stasjonære tidsserier som en funksjon av det som kalles autoregressive og bevegelige gjennomsnittsparametre. Disse kalles AR-parametere autoregessive og MA-parametere som beveger gjennomsnitt. En AR-modell med bare 1 parameter kan skrives som. som X t tidsserier under undersøkelse. A 1 den autoregressive parameteren for rekkefølge 1.X t-1 tidsserien forsinket 1 periode. E t feilperioden for modellen. Dette betyr bare at en gitt verdi X t kan forklares med en funksjon av sin tidligere verdi, X t - 1, pluss noe uforklarlig tilfeldig feil, E t Hvis den estimerte verdien av A 1 var 30, ville dagens verdi av serien være relatert til 30 av verdien 1 periode siden Selvfølgelig kunne serien være relatert til mer enn bare en siste verdi For eksempel. X t A 1 X t-1 A 2 X t-2 E t. Dette indikerer at dagens verdi av serien er en kombinasjon av de to umiddelbart foregående verdiene, X t-1 og X t - 2, pluss noen tilfeldig feil E t Vår modell er nå en autoregressiv modell av ordre 2.Moving Aver aldersmodeller. En annen type Box-Jenkins-modell kalles en bevegelig gjennomsnittsmodell. Selv om disse modellene ser veldig ut som AR-modellen, er konseptet bak dem ganske forskjellige. Flytte gjennomsnittlige parametere relaterer seg til hva som skjer i periode t bare til tilfeldige feilene som forekom i tidligere tidsperioder, dvs. E t-1, E t-2, osv. i stedet for til X t-1, X t-2, Xt-3 som i de autoregressive tilnærmingene. En flytende gjennomsnittsmodell med en MA-term kan skrives som følger. Betegnelsen B 1 kalles en MA i rekkefølge 1 Det negative tegnet foran parameteren brukes kun for konvensjon og skrives vanligvis ut automatisk ved de fleste dataprogrammer. Ovennevnte modell sier bare at en gitt verdi av X t er direkte relatert til den tilfeldige feilen i den foregående perioden, E t-1, og til dagens feilperiode, E t Som i tilfelle av autoregressive modeller kan de bevegelige gjennomsnittlige modellene utvides til høyere ordningsstrukturer som dekker forskjellige kombinasjoner og beveger gjennomsnittlig lengde. ARIMA metodikk als o lar modeller bygges som inneholder både autoregressive og bevegelige gjennomsnittsparametre sammen Disse modellene blir ofte referert til som blandede modeller Selv om dette gir et mer komplisert prognoseverktøy, kan strukturen faktisk simulere serien bedre og produsere en mer nøyaktig prognose. Rene modeller innebærer at strukturen kun består av AR - eller MA-parametere - ikke begge. Modeller utviklet av denne tilnærmingen kalles vanligvis ARIMA-modeller fordi de bruker en kombinasjon av autoregressiv AR, integrasjon I - refererer til omvendt prosess av differensiering for å produsere prognosen, og beveger gjennomsnittlig MA-operasjoner En ARIMA-modell er vanligvis angitt som ARIMA p, d, q Dette representerer rekkefølgen på de autoregressive komponentene p, antall differensoperatører d og den høyeste rekkefølgen av den bevegelige gjennomsnittlige termen For eksempel ARIMA 2, 1,1 betyr at du har en andre ordre autoregressiv modell med en første ordre som beveger gjennomsnittlig komponent hvis serie er forskjellig påc e for å indusere stasjonar. Picking the Right Specification. Hovedproblemet i klassiske Box-Jenkins prøver å bestemme hvilken ARIMA-spesifikasjon som skal brukes - hvor mange AR - og MA-parametere som skal inkluderes. Dette er hvor mye Box-Jenkings 1976 var viet til Identifikasjonsprosessen Det avhenger av grafisk og numerisk vurdering av prøveautokorrelasjonen og delvise autokorrelasjonsfunksjoner Vel for de grunnleggende modellene er oppgaven ikke for vanskelig Hver har autokorrelasjonsfunksjoner som ser på en bestemt måte Men når du går opp i kompleksitet , mønstrene er ikke så lett oppdaget For å gjøre det vanskeligere, representerer dataene bare en prøve av den underliggende prosessen. Dette betyr at prøvefeilutjevningsmidler, målefeil mm kan forvride den teoretiske identifikasjonsprosessen. Derfor er tradisjonell ARIMA-modellering en kunst heller enn en vitenskap.

No comments:

Post a Comment