Sunday 19 November 2017

Sentrert Bevegelse Gjennomsnittet Sesong


Når du beregner et løpende bevegelig gjennomsnitt, er gjennomsnittet i midtperioden fornuftig. I forrige eksempel beregner vi gjennomsnittet av de første 3 tidsperiodene og plasserte det ved siden av periode 3. Vi kunne ha plassert gjennomsnittet midt i tidsintervall på tre perioder, det vil si ved siden av periode 2. Dette fungerer bra med ulike tidsperioder, men ikke så bra for jevne tidsperioder. Så hvor skulle vi plassere det første glidende gjennomsnittet når M 4 Teknisk sett ville det bevegelige gjennomsnittet falle på t 2,5, 3,5. For å unngå dette problemet glatter vi MAs ved hjelp av M 2. Dermed glatter vi de jevne verdiene. Hvis vi gjennomsnittlig et jevnt antall vilkår, må vi glatte de jevne verdiene. Følgende tabell viser resultatene ved å bruke M 4.Spreadsheet implementering av sesongjustering og eksponensiell utjevning Det er greit å utføre sesongjustering og passe eksponentielle utjevningsmodeller ved hjelp av Excel. Skjermbildene og diagrammene nedenfor er hentet fra et regneark som er satt opp for å illustrere multiplikativ sesongjustering og lineær eksponensiell utjevning på følgende kvartalsvise salgsdata fra Outboard Marine: Klikk her for å få en kopi av regnearkfilen selv. Utgaven av lineær eksponensiell utjevning som skal brukes her for demonstrasjonsformål er Brown8217s versjon, bare fordi den kan implementeres med en enkelt kolonne med formler, og det er bare én utjevningskonstant for å optimalisere. Vanligvis er det bedre å bruke Holt8217s versjon som har separate utjevningskonstanter for nivå og trend. Fremskrivningsprosessen fortløper som følger: (i) først er dataene sesongjustert (ii) så blir prognoser generert for sesongjusterte data via lineær eksponensiell utjevning og (iii) til slutt er de sesongjusterte prognosene kvoteres for å få prognoser for den opprinnelige serien . Sesongjusteringsprosessen utføres i kolonne D til G. Det første trinnet i sesongjustering er å beregne et sentrert glidende gjennomsnitt (utført her i kolonne D). Dette kan gjøres ved å ta gjennomsnittet av to ettårige gjennomsnitt som kompenseres av en periode i forhold til hverandre. (En kombinasjon av to offset-gjennomsnitt i stedet for et enkelt gjennomsnitt er nødvendig for sentrering når antall årstider er like.) Det neste trinnet er å beregne forholdet til glidende gjennomsnitt, dvs. De opprinnelige dataene divideres med det bevegelige gjennomsnittet i hver periode - som utføres her i kolonne E. (Dette kalles også quottrend-cyclequot-komponenten i mønsteret, forutsatt at trend og konjunktursykluser kan anses å være alt som forblir etter gjennomsnitt over en helårs verd av data. Selvfølgelig kan endringer i måned til måned som ikke skyldes sesongbestemte, bestemmes av mange andre faktorer, men gjennomsnittet på 12 måneder glatter seg over dem i stor grad.) Beregnet sesongindeks for hver sesong beregnes ved først å beregne alle forholdene for den aktuelle sesongen, som er gjort i celler G3-G6 ved hjelp av en AVERAGEIF formel. Gjennomsnittstallene blir deretter rescaled slik at de summerer til nøyaktig 100 ganger antall perioder i en sesong, eller 400 i dette tilfellet, som er gjort i celler H3-H6. Nedenfor i kolonne F brukes VLOOKUP-formler til å sette inn riktig sesongindeksverdi i hver rad i datatabellen, i henhold til kvartalet av året representerer den. Det sentrert glidende gjennomsnittet og de sesongjusterte dataene ser ut som dette: Merk at det bevegelige gjennomsnittet vanligvis ser ut som en jevnere versjon av den sesongjusterte serien, og den er kortere i begge ender. Et annet regneark i samme Excel-fil viser anvendelsen av den lineære eksponensielle utjevningsmodellen til sesongjusterte data, som begynner i kolonne G. En verdi for utjevningskonstanten (alfa) er angitt over prognosen-kolonnen (her i celle H9) og For enkelhets skyld er det tildelt rekkeviddenavnet quotAlpha. quot (Navnet er tilordnet med kommandoen quotInsertNameCreatequot.) LES-modellen initialiseres ved å sette de to første prognosene tilsvarer den første virkelige verdien av sesongjusterte serien. Formelen som brukes her for LES-prognosen, er den recirkulære resirkulære formen av Brown8217s-modellen: Denne formelen er oppgitt i cellen som svarer til den tredje perioden (her, celle H15) og kopieres derfra. Legg merke til at LES-prognosen for den nåværende perioden refererer til de to foregående observasjonene og de to foregående feilene, samt til verdien av alfa. Således refererer prognoseformelen i rad 15 kun til data som var tilgjengelige i rad 14 og tidligere. (Selvfølgelig, hvis vi ønsket å bruke enkle i stedet for lineær eksponensiell utjevning, kunne vi erstatte SES-formelen her i stedet. Vi kunne også bruke Holt8217s snarere enn Brown8217s LES-modellen, som ville kreve to flere kolonner med formler for å beregne nivå og trend som brukes i prognosen.) Feilene beregnes i neste kolonne (her, kolonne J) ved å trekke prognosene fra de faktiske verdiene. Rotenes middelkvadratfeil beregnes som kvadratroten av variansen av feilene pluss kvadratet av gjennomsnittet. (Dette følger av den matematiske identiteten: MSE VARIANCE (feil) (AVERAGE (feil)). 2.) Ved beregning av gjennomsnitt og varians av feilene i denne formelen, er de to første periodene utelukket fordi modellen ikke faktisk begynner å prognose til den tredje perioden (rad 15 på regnearket). Den optimale verdien av alfa kan bli funnet enten ved å endre alfa manuelt til minimum RMSE er funnet, ellers kan du bruke quotSolverquot til å utføre en nøyaktig minimering. Verdien av alfa som Solver funnet er vist her (alfa0.471). Det er vanligvis en god ide å plotte feilene i modellen (i transformerte enheter) og også å beregne og plotte sine autokorrelasjoner ved lags på opptil en sesong. Her er en tidsserier av de (sesongjusterte) feilene: Feilautokorrelasjonene beregnes ved hjelp av CORREL () - funksjonen for å beregne korrelasjonene av feilene med seg selv forsinket av en eller flere perioder - detaljer vises i regnearkmodellen . Her er et plot av autokorrelasjonene til feilene ved de fem første lagene: Autokorrelasjonene på lags 1 til 3 er svært nær null, men spissen ved lag 4 (hvis verdien er 0,35) er litt plagsom - det antyder at Sesongjusteringsprosessen har ikke vært helt vellykket. Men det er faktisk bare marginalt signifikant. 95 signifikansbånd for å teste om autokorrelasjoner er signifikant forskjellig fra null er omtrent pluss-eller-minus 2SQRT (n-k), hvor n er prøvestørrelsen og k er lagret. Her er n 38 og k varierer fra 1 til 5, slik at square-root-of-n-minus-k er rundt 6 for dem alle, og derfor er grensene for å teste den statistiske signifikansen av avvik fra null tilnærmet pluss - eller-minus 26 eller 0,33. Hvis du varierer verdien av alpha for hånd i denne Excel-modellen, kan du observere effekten på tidsseriene og autokorrelasjonsplottene av feilene, så vel som på den rotte-kvadratiske feilen, som vil bli illustrert nedenfor. På bunnen av regnearket er prognoseformelen kvotetatt i fremtiden ved bare å erstatte prognoser for faktiske verdier ved det punktet der de faktiske dataene går tom - det vil si. hvor quotthe futurequot begynner. (Med andre ord, i hver celle der en fremtidig dataværdi vil oppstå, settes en cellereferanse som peker på prognosen som er laget for den perioden.) Alle de andre formlene kopieres ganske enkelt ned fra oven: Legg merke til at feilene for prognoser for fremtiden er alle beregnet til å være null. Dette betyr ikke at de faktiske feilene vil være null, men det reflekterer bare det faktum at vi forutsetter at fremtidige data vil svare til prognosene i gjennomsnitt. De resulterende LES-prognosene for de sesongjusterte dataene ser slik ut: Med denne spesielle verdien av alfa, som er optimal for prognoser med en periode fremover, er den forventede trenden litt oppadgående, noe som gjenspeiler den lokale trenden som ble observert de siste 2 årene eller noe. For andre verdier av alfa, kan det oppnås en helt annen trendprojeksjon. Det er vanligvis en god ide å se hva som skjer med den langsiktige trendprojeksjonen når alfa er variert, fordi verdien som er best for kortsiktig prognose, ikke nødvendigvis vil være den beste verdien for å forutse den lengre fremtid. For eksempel er her resultatet som oppnås hvis verdien av alfa er manuelt satt til 0,25: Den projiserte langsiktige trenden er nå negativ, heller enn positiv. Med en mindre verdi av alfa, legger modellen vekt på eldre data i sin estimering av dagens nivå og trend, og langsiktige prognoser reflekterer den nedadgående trenden observert de siste 5 årene i stedet for den nyere oppadgående trenden. Dette diagrammet illustrerer også tydelig hvordan modellen med en mindre verdi av alfa er langsommere for å svare på quotturning pointsquot i dataene og derfor har en tendens til å gjøre en feil på det samme tegnet i mange perioder på rad. Dens 1-trinns prognosefeil er større i gjennomsnitt enn de som er oppnådd før (RMSE på 34,4 i stedet for 27,4) og sterkt positivt autokorrelert. Lag-1 autokorrelasjonen på 0,56 overstiger sterkt verdien av 0,33 beregnet ovenfor for en statistisk signifikant avvik fra null. Som et alternativ til å svekke verdien av alfa for å introdusere mer konservatisme i langsiktige prognoser, blir det noen ganger lagt til en quotrend dampeningquot-faktor i modellen for å gjøre den projiserte trenden flatt ut etter noen perioder. Det siste trinnet i å bygge prognosemodellen er å quotereasonizequot LES prognosene ved å multiplisere dem med de riktige sesongindeksene. De resesaliserte prognosene i kolonne I er således bare produktene av sesongindeksene i kolonne F og de sesongjusterte LES-prognosene i kolonne H. Det er relativt enkelt å beregne konfidensintervaller for en-trinns prognoser fra denne modellen: først beregne RMSE (root-mean-squared-feilen, som bare er kvadratroten til MSE), og beregne deretter et konfidensintervall for sesongjustert prognose ved å legge til og trekke to ganger RMSE. (Generelt er et 95 konfidensintervall for en prognose for en periode fremdeles omtrent lik punktsprognosen pluss-eller-minus-to ganger estimert standardavvik for prognosefeilene, forutsatt at feilfordelingen er omtrent normal og prøvenes størrelse er stor nok, si 20 eller mer. Her er RMSE i stedet for standardfeilavviket for feilene det beste estimatet av standardavviket for fremtidige prognosefeil fordi det tar forvirring, samt tilfeldige variasjoner i betraktning.) Tillitgrensene for sesongjustert prognose blir deretter resesasonalized. sammen med prognosen, ved å multiplisere dem med de riktige sesongindeksene. I dette tilfellet er RMSE lik 27,4 og sesongjustert prognose for den første fremtidige perioden (desember 93) er 273,2. så sesongjustert 95 konfidensintervall er fra 273,2-227,4 218,4 til 273,2227,4 328,0. Multiplicere disse grensene med Decembers sesongindeks på 68,61. Vi oppnår lavere og øvre konfidensgrenser på 149,8 og 225,0 rundt prognosen på 93,9 prosent på 187,4. Forventningsgrenser for prognoser mer enn en periode framover vil generelt øke etter hvert som prognosehorisonten øker på grunn av usikkerhet om nivå og trend, samt sesongfaktorer, men det er vanskelig å beregne dem generelt ved hjelp av analytiske metoder. (Den riktige måten å beregne konfidensgrenser for LES-prognosen er ved å bruke ARIMA-teorien, men usikkerheten i sesongindeksene er en annen sak.) Hvis du vil ha et realistisk konfidensintervall for en prognose mer enn en periode framover, tar du alle kilder til Feil i betraktning, din beste innsats er å bruke empiriske metoder: for eksempel for å oppnå et konfidensintervall for en 2-trinns prognose, kan du opprette en annen kolonne på regnearket for å beregne en 2-trinns prognose for hver periode ( ved å starte opp en-trinns prognose). Beregn deretter RMSE for de to-trinns prognosefeilene og bruk dette som grunnlag for et 2-trinns konfidensintervall. Gjennomsnittlig gjennomsnitt og sentrert flytende gjennomsnitt Et par poeng om sesongmessighet i en tidsserie, gjentas, selv om de virker åpenbare. Den ene er at begrepet 8220season8221 ikke nødvendigvis refererer til årets fire årstider som skyldes at A8282-aksen er vippet. I predictive analytics betyr 8220season8221 ofte akkurat det, fordi mange av fenomenene vi studerer, varierer sammen med utviklingen av våren til vinteren: salg av vinter - eller sommerutstyr, forekomst av visse utbredte sykdommer, værhendelser forårsaket av plasseringen av jet stream og endringer i temperaturen på vannet i østlige Stillehavet, og så videre. Tilsvarende kan hendelser som skjer regelmessig virke som meteorologiske sesonger, selv om de bare har en tøff forbindelse til solstikkene og equinoxene. Åtte timers skift på sykehus og fabrikker blir ofte uttrykt i forekomsten av inntak og utgifter av energi der, en sesong er åtte timer lang og årstidene sykler hver dag, ikke hvert år. Forfallsdatoer for skatt signaler begynnelsen av en flom av dollar til kommunale, statlige og føderale skattemyndigheter der, kan sesongen være ett år lang (personlig inntektsskatt), seks måneder (eiendomsskatt i mange stater), kvartalsvis (mange bedriftsskatter ), og så videre. It8217 er litt rart at vi har ordet 8220season8221 å referere generelt til den jevnlig gjenværende tidsperioden, men ingen generell betegnelse for tidsperioden i hvilken en full snu sesongene oppstår. 8220Cycle8221 er mulig, men i analyser og prognoser er begrepet vanligvis sett til å bety en periode med ubestemt lengde, for eksempel en konjunktursyklus. I fravær av et bedre uttrykk, brukte I8217ve 8220enomfattende periode8221 i dette og de etterfølgende kapitlene. Dette er ikke bare terminologisk musing. Måtene vi identifiserer sesonger og tidsperioden der årstidene blir svarte, har virkelige, om ofte små, implikasjoner for hvordan vi måler deres effekter. I de følgende avsnittene diskuteres hvordan enkelte analytikere varierer slik de beregner glidende gjennomsnitt, avhengig av om antall sesonger er merkelige eller like. Bruke Flytte Gjennomsnitt I stedet for Enkle Gjennomsnitt Anta at en stor by vurderer omfordeling av trafikkpolitiet for å bedre takle forekomsten av kjøring mens svekket, som byen mener har økt. For fire uker siden trådte ny lovgivning i kraft, legalisering av besittelse og rekreasjonsbruk av marihuana. Siden da ser det ut til at det daglige antallet trafikkarrestasjoner for DWI er trending opp. Kompliserende saker er det faktum at antall anholdelser ser ut til å pigg på fredager og lørdager. For å bidra til å planlegge arbeidskraftkrav inn i fremtiden, vil du forutse hvilken underliggende trend som er etablert. You8217d liker også å distribuere ressursene dine for å ta hensyn til hvilken som helst helgrelatert sesongmessighet som8217s finner sted. Figur 5.9 har de relevante dataene du må jobbe med. Figur 5.9 Med dette datasettet utgjør hver ukedag en sesong. Selv ved å bare øye på diagrammet i figur 5.9. du kan fortelle at trenden med antall daglige anholdelser er oppe. You8217ll må planlegge å utvide antall trafikkoffiserer, og håper at trenden går ut snart. Videre utgjør dataene tanken om at flere arrestasjoner forekommer rutinemessig på fredager og lørdager, så ressursallokeringen må adressere disse pigger. Men du må kvantifisere den underliggende trenden, for å avgjøre hvor mange flere politi du skal ha med deg. Du må også kvantifisere den forventede størrelsen på weekendspydene, for å finne ut hvor mange flere politi du trenger å se på uberegnelige drivere på de dagene. Problemet er at fra og med vet du ikke hvor mye av den daglige økningen skyldes trenden, og hvor mye skyldes den helgenseffekten. Du kan starte med å ødelegge tidsserien. Tidligere i dette kapittelet, i 8220Simple Seasonal Averages, 8221 så du et eksempel på hvordan du kan forstyrre en tidsserie for å isolere sesongmessige effekter ved hjelp av metoden for enkle gjennomsnitt. I denne delen you8217ll se hvordan du gjør det ved å bruke bevegelige gjennomsnitt8212sannsynlig, er gjennomsnittlig tilnærming benyttet oftere i prediktiv analyse enn det enkle gjennomsnittet tilnærming. Det er ulike grunner til at den økende populariteten til bevegelige gjennomsnitt, blant dem, at den gjennomsnittlige tilnærmingen ikke ber deg om å kollapse dataene dine i prosessen med å kvantifisere en trend. Husk at det tidligere eksemplet gjorde det nødvendig å kollapse kvartals gjennomsnitt til årlige gjennomsnitt, beregne en årlig trend, og deretter distribuere en fjerdedel av den årlige trenden over hvert kvartal i året. Dette trinnet var nødvendig for å fjerne trenden fra sesongvirkningen. I motsetning til den gjennomsnittlige tilnærmingen tilnærming gjør det mulig å forstyrre tidsserien uten å ty til den slags maskinering. Figur 5.10 viser hvordan gjennomsnittlig tilnærming fungerer i dette eksemplet. Figur 5.10 Det glidende gjennomsnittet i det andre diagrammet klargjør den underliggende trenden. Figur 5.10 legger til en glidende gjennomsnittskolonne, og en kolonne for bestemte sesonger. til datasettet i figur 5.9. Begge tilleggene krever litt diskusjon. Piggene i arrester som foregår i helgene gir deg grunn til å tro at du arbeider med sesonger som gjentar en gang hver uke. Begynn derfor med å få gjennomsnittet for den perioden som omfattes av perioden8212, det er de første syv sesongene, mandag til søndag. Formelen for gjennomsnittet i celle D5, det første tilgjengelige glidende gjennomsnittet, er som følger: Den formelen kopieres og limes ned gjennom celle D29, slik at du har 25 bevegelige gjennomsnitt basert på 25 runder på syv sammenhengende dager. Legg merke til at for å vise både de første og de siste observasjonene i tidsseriene, har jeg skjulte rader 10 til 17. Du kan forklare dem, om du vil, i dette kapittel8217s arbeidsbok, tilgjengelig fra publisher8217s nettsted. Gjør et flertall utvalg av synlige rader 9 og 18, høyreklikk en av radhodene, og velg Unhide fra hurtigmenyen. Når du skjuler et regneark8217s rader, som jeg har gjort i Figur 5.10. alle kartlagte data i de skjulte rader er også skjult på diagrammet. X-akse-etikettene identifiserer bare datapunkter som vises på diagrammet. Fordi hvert glidende gjennomsnitt i figur 5.10 omfatter syv dager, er ingen glidende gjennomsnitt parret med de tre første eller siste tre faktiske observasjonene. Kopier og lim inn formelen i celle D5 opp en dag til celle D4 kjører deg ut av observasjoner8212.Det er ingen observasjon registrert i celle C1. På samme måte er det ikke noe bevegelige gjennomsnitt registrert under celle D29. Kopier og lim inn formelen i D29 til D30 vil kreve en observasjon i celle C33, og ingen observasjon er tilgjengelig for den dagen cellen ville representere. Det ville selvfølgelig være mulig å forkorte lengden på det bevegelige gjennomsnittet for å si fem i stedet for syv. Det vil si at de bevegelige gjennomsnittsformlene i Figur 5.10 kan starte i celle D4 i stedet for D5. Men i denne typen analyse vil du ha lengden på det bevegelige gjennomsnittet til antall årstider: syv dager i uken for hendelser som gjentas ukentlig innebærer et glidende gjennomsnitt på lengde sju og fire kvartaler om året for hendelser som gjenta årlig innebærer et glidende gjennomsnitt på lengde fire. Langs like linjer, kvantifiserer vi vanligvis sesongmessige effekter på en slik måte at de blir null i løpet av perioden. Som du så i dette kapitlet8217s første avsnitt, på enkle gjennomsnitt, gjøres dette ved å beregne gjennomsnittet av (si) de fire kvartaler om et år, og deretter trekke gjennomsnittet for året fra hver kvartals tall. På den måten sikrer du at summen av sesongvirkningen er null. I sin tur er that8217s nyttige fordi det setter sesongmessige effekter på en vanlig footing8212a sommer effekt av 11, er så langt fra gjennomsnittet som en vinter effekt av 821111. Hvis du vil gjennomsnittlig fem sesonger i stedet for syv for å få det bevegelige gjennomsnittet, er du bedre av å finne et fenomen som gjentar hver fem sesong i stedet for hver syv. Men når du tar gjennomsnittet av sesongmessige effekter senere i prosessen, er det ikke sannsynlig at disse gjennomsnittene vil oppnå null. Det er nødvendig på det tidspunkt å kalibrere eller normalisere. gjennomsnittene slik at summen deres er null. Når dette er gjort, uttrykker gjennomsnittet sesong gjennomsnittet effekten på en tidsperiode som tilhører en bestemt sesong. Når det er normalisert, kalles sesongmessige gjennomsnitt de sesongbestemte indeksene som dette kapittelet allerede har nevnt flere ganger. You8217ll se hvordan det virker senere i dette kapittelet, i 8220Setting av serien med bevegelige gjennomsnitt.8221 Forståelse av spesifikke sesongmål Figur 5.10 viser også hva som kalles bestemte årstider i kolonne E. De er what8217s igjen etter å ha trukket det bevegelige gjennomsnittet fra den faktiske observasjonen. For å få en følelse av hva de spesifikke seasonals representerer, vurder det bevegelige gjennomsnittet i celle D5. Det er gjennomsnittet av observasjonene i C2: C8. Avvikene fra hver observasjon fra det bevegelige gjennomsnittet (for eksempel C2 8211 D5) garanteres å summe til null8212that8217s som er karakteristisk for et gjennomsnitt. Derfor uttrykker hver avvikelse effekten av å være assosiert med den aktuelle dagen i den aktuelle uken. It8217 er en spesifikk sesongbestemte, da8212spesifikke fordi avviket gjelder for den aktuelle mandag eller tirsdag og så videre og sesongmessig fordi i dette eksempelet behandler vi hver dag som om det var en sesong i løpet av en uke. Fordi hver spesifikke sesongmessige tiltak effekten av å være i den sesongen vis-224-vis det bevegelige gjennomsnittet for denne gruppen av (her) syv årstider, kan du senere gjennomsnitts de spesifikke sesongene for en bestemt sesong (for eksempel alle fredager i din tidsserier) for å anslå at season8217s generelt, i stedet for spesifikk, effekt. Det gjennomsnittet er ikke forvirret av en underliggende trend i tidsseriene, fordi hver spesifikk sesong uttrykker en avvik fra sitt eget bevegelige gjennomsnitt. Justere de bevegelige gjennomsnittene There8217s er også spørsmålet om å tilpasse de bevegelige gjennomsnittene med det opprinnelige datasettet. I figur 5.10. Jeg har justert hvert glidende gjennomsnitt med midtpunktet av observasjonsintervallet som den inneholder. Så for eksempel, formelen i celle D5, er gjennomsnittet observasjonene i C2: C8, og jeg har justert den med den fjerde observasjonen, midtpunktet av gjennomsnittlig rekkevidde, ved å plassere den i rad 5. Dette arrangementet kalles et sentrert glidende gjennomsnitt . og mange analytikere foretrekker å justere hvert glidende gjennomsnitt med midtpunktet av observasjonene som det er gjennomsnittlig. Husk at i denne sammenheng refererer 8220midpoint8221 til midten av et tidsrom: Torsdag er midtpunktet mandag til søndag. Det refererer ikke til medianen av de observerte verdiene, selv om det selvsagt kan fungere på den måten i praksis. En annen tilnærming er det etterfølgende bevegelige gjennomsnittet. I så fall er hvert glidende gjennomsnitt justert med den endelige observasjonen at den er gjennomsnittlig8212 og derfor går den bak sine argumenter. Dette er ofte det foretrukne arrangementet hvis du vil bruke et glidende gjennomsnitt som en prognose, som gjøres med eksponensiell utjevning, fordi ditt endelige glidende gjennomsnitt forekommer sammenfallende med den endelige tilgjengelige observasjonen. Sentrert Flytende gjennomsnitt med like mange årstider Vi bruker vanligvis en spesiell prosedyre når antall sesonger er jevnlige enn merkelige. At8217 er den typiske tilstanden: Det er en tendens til å være like mange årstider i den omfattende perioden for typiske sesonger som måneder, kvartaler og fjerdedelige perioder (for valg). Sværheten med et jevnt antall sesonger er at det ikke er noe midtpunkt. To er ikke midtpunktet til et område som begynner på 1 og slutter på 4, og det er heller ikke 3 hvis det kan sies å ha en, dens midtpunkt er 2,5. Seks er ikke midtpunktet 1 til 12, og ingen er 7 Det rent teoretiske midtpunktet er 6,5. For å fungere som om et midtpunkt eksisterer, må du legge til et lag av gjennomsnitt på toppen av glidende gjennomsnitt. Se figur 5.11. Figur 5.11 Excel har flere måter å beregne et sentrert glidende gjennomsnitt på. Ideen bak denne tilnærmingen til å få et bevegelige gjennomsnitt som er sentrert på et eksisterende midtpunkt, når det er et jevnt antall sesonger, er å trekke midtpunktet fremover med en halv sesong. Du beregner et glidende gjennomsnitt som ville være sentrert til, for eksempel, det tredje punktet i tid hvis fem sesonger i stedet for fire utgjør en fullstendig tur i kalenderen. At8217 er gjort ved å ta to påfølgende glidende gjennomsnitt og gjennomsnittlig dem. Så i figur 5.11. there8217s er et bevegelige gjennomsnitt i celle E6 som gjennomsnittsverdiene i D3: D9. Fordi det er fire sesongverdier i D3: D9, regnes det bevegelige gjennomsnittet i E6 som sentrert i den imaginære sesongen 2,5, et halvt punkt kort fra den første tilgjengelige kandidat sesongen 3. (Årstider 1 og 2 er utilgjengelige som midtpunkter for mangel på data i gjennomsnitt før sesong 1.) Vær oppmerksom på at det bevegelige gjennomsnittet i celle E8 er gjennomsnittet av verdiene i D5: D11, den andre gjennom den femte i tidsseriene. Det gjennomsnittet er sentrert på (imaginært) punkt 3.5, en full periode foran gjennomsnittet sentrert på 2,5. Ved å beregne de to glidende gjennomsnittene, så tenkningen går, kan du trekke midtpunktet for det første glidende gjennomsnittet fremover med et halvt punkt, fra 2,5 til 3. Det er gjennomsnittet i kolonne F i figur 5.11. Cell F7 gir gjennomsnittet av de bevegelige gjennomsnittene i E6 og E8. Og gjennomsnittet i F7 er justert med det tredje datapunktet i den originale tidsserien, i celle D7, for å understreke at gjennomsnittet er sentrert på den sesongen. Hvis du utvider formelen i celle F7, så vel som de bevegelige gjennomsnittene i cellene E6 og E8, ser du8217ll at det viser seg å være et veid gjennomsnitt av de fem første verdiene i tidsseriene, med den første og femte verdien gitt vekt av 1 og den andre gjennom fjerde verdier gitt en vekt på 2. Det fører oss til en raskere og enklere måte å beregne et sentrert glidende gjennomsnitt med et jevnt antall sesonger. Fortsatt i figur 5.11. Vektene lagres i området H3: H11. Denne formelen returnerer det første sentrert glidende gjennomsnittet, i celle I7: Den formelen returnerer 13.75. som er identisk med verdien beregnet av den dobbelte gjennomsnittlige formel i celle F7. Henvisning til vekter absolutt, ved hjelp av dollartegnene i H3: H11. Du kan kopiere formelen og lime den ned så langt som nødvendig for å få resten av de sentriske glidende gjennomsnittene. Avvikling av serien med bevegelige gjennomsnittsverdier Når du har trukket de bevegelige gjennomsnittene fra de opprinnelige observasjonene for å få de spesifikke årstidene, har du fjernet den underliggende trenden fra serien. What8217s igjen i de spesifikke seasonals er normalt en stasjonær, horisontal serie med to effekter som forårsaker at bestemte seasonals å avvike fra en helt rett linje: de sesongmessige effekter og tilfeldig feil i de opprinnelige observasjonene. Figur 5.12 viser resultatene for dette eksemplet. Figur 5.12 De spesifikke sesongmessige effektene for fredag ​​og lørdag forblir klare i den avgrensede serien. Det øvre diagrammet i figur 5.12 viser de opprinnelige daglige observasjonene. Både den generelle oppadgående trenden og helgen sesongens toppene er klare. Det nedre diagrammet viser de spesifikke sesongene: Resultatet av å avverge den opprinnelige serien med et gjennomsiktig filter som beskrevet tidligere i 8220Utståelse av bestemte sesongbestemte årstider.8221 Du kan se at den avgrensede serien nå er nesten horisontal (en lineær trendlinje for de spesifikke sesongene har en liten nedadgående drift), men sesongens fredag ​​og lørdagspikes er fortsatt på plass. Det neste trinnet er å bevege seg utover de spesifikke sesongene til sesongindeksene. Se figur 5.13. Figur 5.13 De spesifikke seasonals-effektene blir først i gjennomsnitt og deretter normalisert for å nå sesongindeksene. I figur 5.13. De spesifikke sesongene i kolonne E er omarrangert i tabellformen vist i området H4: N7. Hensikten er bare å gjøre det enklere å beregne sesongens gjennomsnitt. Disse gjennomsnittene er vist i H11: N11. Tallene i H11: N11 er imidlertid gjennomsnitt, ikke avvik fra et gjennomsnitt, og derfor kan vi ikke forvente at de skal summeres til null. Vi må fortsatt justere dem slik at de uttrykker avvik fra et stort middel. Det store gjennomsnittet vises i celle N13, og er gjennomsnittet av sesongens gjennomsnitt. Vi kan komme til sesongbestemte indekser ved å trekke det store gjennomsnittet i N13 fra hvert sesongmidlertid. Resultatet ligger i området H17: N17. Disse sesongindeksene er ikke lenger spesifikke for et bestemt bevegelige gjennomsnitt, som det er tilfelle med de spesifikke årstidene i kolonne E. Fordi de8217er er basert på et gjennomsnitt av hver forekomst av en gitt sesong, uttrykker de den gjennomsnittlige effekten av en gitt sesong over hele fire uker i tidsseriene. Videre er de tiltak av en sesong8217s8212here, en dag8217s8212effekt på trafikkarrestasjoner vis-224-vis gjennomsnittet for en syv-dagers periode. Vi kan nå bruke de årstidlige indeksene til å desaasonalisere serien. We8217ll bruker deseasonalized serien for å få prognoser ved hjelp av lineær regresjon eller Holt8217s metode for utjevning av trendserier (diskutert i kapittel 4). Da legger vi ganske enkelt til sesongindeksene tilbake i prognosene for å reseasonalize dem. Alt dette vises i figur 5.14. Figur 5.14 Etter at du har sesongindeksene, er de ferdige detaljene som er brukt her, de samme som i metoden for enkle gjennomsnitt. Trinnene som er illustrert i figur 5.14 er stort sett de samme som de i figurene 5.6 og 5.7. diskutert i de følgende avsnittene. Deseasonalizing observasjonene Trekk de sesongbestemte indeksene fra de opprinnelige observasjonene for å deseasonalisere dataene. Du kan gjøre dette som vist i Figur 5.14. der de opprinnelige observasjonene og sesongindeksene er arrangert som to lister som begynner i samme rad, kolonner C og F. Dette arrangementet gjør det litt enklere å strukturere beregningene. Du kan også gjøre subtraksjonen som vist i Figur 5.6. der de kvartalsvise indeksene (C8: F8) og de desasonale resultatene (C20: F24) er oppført i tabellformat. Det arrangementet gjør det litt lettere å fokusere på sesongindeksene og deseasoned kvartalsvis. Prognose fra Deseasonalized Observations I Figur 5.14. deseasonalized observasjoner er i kolonne H, og i Figur 5.7 de8217er i kolonne C. Uansett om du vil bruke en regresjonsmetode eller en utjevningsmessig tilnærming til prognosen, er it8217s best å arrangere deseasonaliserte observasjoner i en enkelkolonniste. På figur 5.14. prognosene er i kolonne J. Følgende matriseformel er angitt i området J2: J32. Tidligere i dette kapittelet påpekte jeg at hvis du utelater argumentet x-verdier fra TREND () - funksjon8217-argumentene, leverer Excel standardverdiene 1. 2. n. hvor n er antall y-verdier. I formelen nettopp gitt, inneholder H2: H32 31 y-verdier. Fordi argumentet som normalt inneholder x-verdiene, mangler, leverer Excel standardverdiene 1. 2. 31. Det er de verdiene vi vil bruke uansett, i kolonne B, så formelen som gitt er ekvivalent med TREND (H2: H32, B2: B32). Og that8217s strukturen som ble brukt i D5: D24 i figur 5.7: Gjør ett-trinns prognosen Hittil har du arrangert for prognoser for deseasonaliserte tidsserier fra t 1 til t 31 i figur 5.14. og fra t 1 til t 20 i figur 5.7. Disse prognosene utgjør nyttig informasjon for ulike formål, herunder vurdering av prognosens nøyaktighet ved hjelp av en RMSE-analyse. Men hovedformålet er å prognose minst den neste, ennå uoppdagede tidsperioden. For å få det, kan du først prognose fra funksjonen TREND () eller LINEST () hvis you8217re bruker regresjon, eller fra eksponensiell utjevning formel hvis du8217 bruker Holt8217s metode. Deretter kan du legge til tilhørende sesongindeks til regresjons - eller utjevningsprognosen, for å få en prognose som inkluderer både trenden og sesongens effekt. På figur 5.14. du får regresjonsprognosen i celle J33 med denne formelen: I denne formelen er y-verdiene i H2: H32 de samme som i de andre TREND () - formlene i kolonne J. Så er (standard) x-verdiene på 1 gjennom 32. Nå leverer du imidlertid en ny x-verdi som funksjon8217s tredje argument, som du forteller TREND () for å se etter i celle B33. It8217s 32. den neste verdien av t. Og Excel returnerer verdien 156.3 i celle J33. Funksjonen TREND () i celle J33 forteller Excel, i virkeligheten, 8220 Beregn regresjonsligningen for verdiene i H2: H32 regresert på t-verdiene 1 til 31. Bruk den regresjonsligningen til den nye x-verdien på 32 og returner resultatet.8221 You8217ll finner den samme tilnærmingen som er tatt i celle D25 i figur 5.7. hvor formelen for å få en-trinns prognosen er dette: Legge til de årlige indeksene Tilbake I det siste trinnet er å omarbeide prognosene ved å legge til sesongindeksene i trendprognosene, reversere det du gjorde fire trinn tilbake da du trukket fra indekser fra de opprinnelige observasjonene. Dette gjøres i kolonne F i figur 5.7 og kolonne K i figur 5.14. Don8217t glemmer å legge til riktig sesongindeks for den en-trinns prognosen, med resultatene vist i celle F25 i figur 5.7 og i celle K33 på figur 5.14. (I8217ve skygget fram de første trinnene i begge figurene 5.7 og Figur 5.14 for å markere prognosene.) Du kan finne diagrammer av tre representasjoner av trafikkarrestdataene på Figur 5.15. den desesasonalized serien, den lineære prognosen fra deseasonalized data, og de resesasonalized prognosene. Vær oppmerksom på at prognosene innbefatter både den generelle trenden for de opprinnelige dataene og dens FridaySaturday spikes. Figur 5.15 Oversikt over prognosene.5.2 Utjevning av tidsserie Utjevning gjøres vanligvis for å hjelpe oss med å se mønstre, trender for eksempel i tidsserier. Vanligvis jevne ut uregelmessig grovhet for å se et klarere signal. For sesongdata kan vi jevne ut sesongmessigheten slik at vi kan identifisere trenden. Utjevning gir oss ikke en modell, men det kan være et godt første skritt i å beskrive ulike komponenter i serien. Termen filter er noen ganger brukt til å beskrive en utjevning prosedyre. For eksempel, hvis den glatte verdien for en bestemt tid beregnes som en lineær kombinasjon av observasjoner for omgivende tider, kan det sies at vi har anvendt et lineært filter på dataene (ikke det samme som å si at resultatet er en rett linje, ved veien). Den tradisjonelle bruken av begrepet glidende gjennomsnitt er at vi ved hvert tidspunkt bestemmer (muligens vektet) gjennomsnitt av observerte verdier som omgir en bestemt tid. For eksempel, på tidspunktet t. et sentrert glidende gjennomsnitt av lengde 3 med likevekter ville være gjennomsnittet av verdier til tider t -1. t. og t1. For å ta bort sesongbestemte fra en serie, så vi bedre kan se trenden, ville vi bruke et glidende gjennomsnitt med en lengde sesongkurs. Således i den glatte serien har hver glatt verdi vært gjennomsnittsvis over alle årstider. Dette kan gjøres ved å se på et ensidig glidende gjennomsnitt der du gjennomsnittlig alle verdier for de foregående årene er verdt data eller et sentrert glidende gjennomsnitt der du bruker verdier både før og etter gjeldende tid. For kvartalsdata kan vi for eksempel definere en glatt verdi for tiden t som (x t x t-1 x t-2 x t-3) 4, gjennomsnittet av denne tiden og de foregående 3 kvartaler. I R-kode vil dette være et ensidig filter. Et sentrert glidende gjennomsnitt skaper litt vanskelig når vi har et jevnt antall tidsperioder i sesongperioden (som vi vanligvis gjør). Å glatte bort sesongmessige forhold i kvartalsdata. For å identifisere trenden, er den vanlige konvensjonen å bruke det glidende gjennomsnittet jevnt på tiden. For å glatte bort sesongmessigheten i månedlige data. For å identifisere trenden er den vanlige konvensjonen å bruke det glidende gjennomsnittet jevnt på tidspunktet t er Det er at vi bruker vekt 124 til verdier til tider t6 og t6 og vekt 112 til alle verdier til enhver tid mellom t5 og t5. I R-filter-kommandoen, velg et tosidig filter når vi vil bruke verdier som kommer både før og etter tiden som ble utjevning. Merk at på side 71 i vår bok gjelder forfatterne likevekt over et sentrert sesongmessig glidende gjennomsnitt. Det er ok også. For eksempel kan en kvartalsvisere glattes på tid t er frac x frac x frac xt frac x frac x En månedlig glattere kan legge vekt på 113 til alle verdier fra tidene t-6 til t6. Koden forfatterne bruker på side 72 utnytter en rep-kommando som gjentar en verdi et visst antall ganger. De bruker ikke filterparameteren i filterkommandoen. Eksempel 1 Kvartalsbierproduksjon i Australia I både Leksjon 1 og Leksjon 4 så vi på en serie kvartalsvis ølproduksjon i Australia. Følgende R-kode skaper en glatt serie som lar oss se trendmønsteret, og plotter dette trendmønsteret på samme graf som tidsserien. Den andre kommandoen lager og lagrer den glatte serien i objektet som kalles trendpattern. Vær oppmerksom på at i filterkommandoen gir parameteren som heter filteret koeffisientene for utjevning og side 2 forårsaker en sentrert glatt å beregnes. ølprodskanning (beerprod. dat) trendpatternfilter (ølprod, filter c (18, 14, 14, 14, 18), sider2) plot (ølprod, type b, hovedgjenværende gjennomsnittlig årlig trend) linjer (trendpattern) Heres resultatet: Vi kan trekke trendmønsteret fra dataverdiene for å få bedre koll på seasonality. Heres hvordan det skulle gjøres: årstidens ølprod - trendpattern plot (årstid, type b, viktigste sesongmønster for ølproduksjon) Resultatet følger: En annen mulighet for utjevning av serier for å se trenden er filteret Trendpattern2 filter (ølprod, filter c (14, 14, 14, 14), sider1) Med denne er den glatte verdien gjennomsnittet for det siste året. Eksempel 2. US Månedlig Arbeidsledighet I leksene for uke 4 så du på en månedlig serie av arbeidsledighet i USA for 1948-1978. Heres en utjevning gjort for å se på trenden. trendunemployfilter (unemployed, filterc (124,112,112,112,112,112,112,112,112,112,112,112,124), sider2) trendunemploy ts (trendunemploy, start c (1948,1), freq 12) plot (trendunemploy, mainTrend i USAs arbeidsledighet, 1948-1978, xlab Year) Bare den glatte trenden er plottet. Den andre kommandoen identifiserer kalendertidskarakteristikkene til serien. Det gjør at plottet har en mer meningsfull akse. Plottet følger. For ikke-sesongbaserte serier, er du bundet til å glatte over et bestemt spekter. For utjevning bør du eksperimentere med bevegelige gjennomsnitt av forskjellige spenner. Disse tidsforløpene kan være relativt korte. Målet er å slå av grove kanter for å se hvilken trend eller mønster som kan være der. Andre utjevningsmetoder (Avsnitt 2.4) Avsnitt 2.4 beskriver flere sofistikerte og nyttige alternativer for å flytte gjennomsnittlig utjevning. Detaljer kan virke sketchy, men det er greit fordi vi ikke ønsker å bli skrudd ned i mange detaljer for disse metodene. Av de alternative metodene som er beskrevet i avsnitt 2.4, kan lowess (lokalt vektet regresjon) være den mest brukte. Eksempel 2 Fortsatt Følgende tomt er en jevn trendlinje for den amerikanske arbeidsledighetsserien, funnet ved hjelp av en lavest jevnere hvor en betydelig mengde (23) bidro til hvert glatt estimat. Legg merke til at dette jevnet serien mer aggressivt enn det bevegelige gjennomsnittet. Kommandoene som ble brukt var arbeidsledige (arbeidsløs, start c (1948,1), freq12) plot (lowess (unemployed, f 23), den viktigste Lowess utjevning av USAs arbeidsledighetstrend) Enkelt eksponensiell utjevning Den grunnleggende prognose-ligningen for enkelt eksponensiell utjevning er ofte gitt som hat alfa xt (1-alfa) hat t-tekst Vi forutsier verdien av x på tidspunktet t1 som en vektet kombinasjon av den observerte verdien ved tid t og den prognostiserte verdien ved tid t. Selv om metoden kalles en utjevningsmetode, brukes den hovedsakelig til prognose for korttid. Verdien av kalles utjevningskonstanten. Uansett grunn er 0,2 et populært standardvalg av programmer. Dette legger en vekt på .2 på den siste observasjonen og en vekt på 1, 2, 8 på den siste prognosen. Med en relativt liten verdi vil utjevningen bli relativt mer omfattende. Med en relativt stor verdi er utjevningen relativt mindre omfattende, da mer vekt vil bli lagt på den observerte verdien. Dette er en enkel fremgangsmetode for fremgangsmåtene som ved første øyekast ikke ser ut til å kreve en modell for dataene. Faktisk svarer denne metoden til bruk av en ARIMA (0,1,1) modell uten konstant. Den optimale prosedyren er å passe en ARIMA (0,1,1) modell til det observerte datasettet og bruke resultatene til å bestemme verdien av. Dette er optimalt i den hensikt å skape det beste for dataene som allerede er observert. Selv om målet er utjevning og ett steg fremover prognoser, gir ekvivalensen til ARIMA (0,1,1) - modellen et godt poeng. Vi bør ikke blindt bruke eksponensiell utjevning fordi den underliggende prosessen kanskje ikke er godt modellert av en ARIMA (0,1,1). ARIMA (0,1,1) og eksponensiell utjevningseffektivitet Vurder en ARIMA (0,1,1) med gjennomsnittlig 0 for de første forskjellene, xt - x t-1: start hatten amp amp xt theta1 wt amp amp xt theta1 (xt - som t) amp amp (1 theta1) xt-theta1hat tendens. Hvis vi lar (1 1) og dermed - (1) 1, ser vi ekvivalensen til ligning (1) ovenfor. Hvorfor metoden kalles eksponensiell utjevning Dette gir følgende: start hodes amp amp alpha xt (1-alfa) alpha x (1-alfa) hue forsterker forsterker alfa xt alfa (1-alfa) x (1-alfa) på denne måten ved suksessivt å erstatte den prognostiserte verdien på høyre side av ligningen. Dette fører til: hat alfa xt alfa (1-alfa) x alfa (1-alfa) 2 x prikker alfa (1-alfa) jx prikker alfa (1-alfa) x1-tekst Ekvation 2 viser at prognosen er et veid gjennomsnitt av alle tidligere verdier av serien, med eksponentielt endrede vekter når vi beveger oss tilbake i serien. Optimal eksponensiell utjevning i R I utgangspunktet passer vi bare en ARIMA (0,1,1) til dataene og bestemmer koeffisienten. Vi kan undersøke passformen til glatt ved å sammenligne de anslåtte verdiene til den faktiske serien. Eksponensiell utjevning har en tendens til å bli brukt mer som et prognoseverktøy enn en ekte glattere, så var ser for å se om vi har en god passform. Eksempel 3. n 100 månedlige observasjoner av logaritmen til en oljeprisindeks i USA. Datarien er: En ARIMA (0,1,1) passform i R ga en MA (1) koeffisient 0,3877. Dermed (11) 1.3877 og 1-0.3877. Den eksponensielle utjevningsprognosekvasjonen er hue 1.3877xt - 0.3877hat t Ved tid 100 er den observerte verdien av serien x 100,86601. Forventet verdi for serien på den tiden er dermed prognosen for tid 101 er lue 1.3877x - 0.3877hat 1.3877 (0.86601) -0.3877 (0.856789) 0.8696 Følgende er hvor bra den jevnere passer til serien. Det er en god passform. Det er et godt tegn på prognoser, hovedformålet med dette jevnere. Her er kommandoene som brukes til å generere produksjonen for dette eksempelet: oilindex scan (oildata. dat) plot (oilindex, type b, hovedlogg for oljeindeksserie) expsmoothfit arima (oilindex, rekkefølge c (0,1,1)) expsmoothfit for å se arima-resultatene forutsetter oljeprisen - expsmoothfitresiduals predicted values ​​plot (oilindex, typeb, hoved eksponensiell utjevning av logg av oljeindeks) linjer (forutsigbar) 1.3877oilindex100-0.3877predicteds100 prognose for tid 101 Dobbelt eksponensiell utjevning Dobbelt eksponensiell utjevning kan brukes når det er trend (enten langsiktig eller kort sikt), men ingen sesongmessighet. I hovedsak oppretter metoden en prognose ved å kombinere eksponentielt glattestimater av trenden (helling av en rett linje) og nivået (i utgangspunktet avskjæringen av en rett linje). To forskjellige vekter eller utjevningsparametere brukes til å oppdatere disse to komponentene hver gang. Det glatte nivået er mer eller mindre ekvivalent med en enkel eksponensiell utjevning av dataverdiene, og den glatte trenden er mer eller mindre ekvivalent med en enkel eksponensiell utjevning av de første forskjellene. Prosedyren svarer til å montere en ARIMA (0,2,2) modell, uten konstant det kan utføres med en ARIMA (0,2,2) passform. (1-B) 2 xt (1 teta1B theta2B2) vekt. Navigasjon

No comments:

Post a Comment