Thursday, 26 September 2019

Média arima vs moving


Modelos ARMA e ARIMA (Box-Jenkins) modelos ARMA e ARIMA (Box-Jenkins) Nas seções anteriores, vimos como o valor de uma série temporal univariada no tempo t. X t. Pode ser modelado usando uma variedade de expressões médias móveis. Nós também mostramos que componentes como tendências e periodicidade na série temporal podem ser modelados explicitamente e / ou separados, com os dados sendo decompostos em componentes de tendência, sazonal e residual. Também mostramos, nas discussões anteriores sobre autocorrelação. Que os coeficientes de autocorrelação total e parcial são extremamente úteis na identificação e modelagem de padrões em séries temporais. Esses dois aspectos da análise e modelagem de séries temporais podem ser combinados em uma estrutura de modelagem geral mais geral e, muitas vezes, muito efetiva. Na sua forma básica, esta abordagem é conhecida como modelagem ARMA (média móvel autorregressiva), ou quando a diferenciação está incluída no procedimento, modelagem ARIMA ou Box-Jenkins, após os dois autores que foram fundamentais para o seu desenvolvimento (ver Caixa amp Jenkins, 1968 BOX1 e Caixa, Jenkins ampère Reinsel, 1994 BOX2). Não há uma regra fixa quanto ao número de períodos de tempo necessários para um exercício de modelagem bem sucedido, mas para modelos mais complexos e para uma maior confiança nos procedimentos de ajuste e validação, muitas vezes são recomendadas séries com 50 etapas de tempo. Os modelos ARMA combinam métodos de autocorrelação (AR) e médias móveis (MA) em um modelo composto das séries temporais. Antes de considerar como esses modelos podem ser combinados, examinamos cada um separadamente. Já vimos que os modelos de média móvel (MA) podem ser usados ​​para proporcionar um ajuste adequado a alguns conjuntos de dados e as variações nesses modelos que envolvem o suavização exponencial dupla ou tripla podem lidar com componentes de tendência e periódicos nos dados. Além disso, esses modelos podem ser usados ​​para criar previsões que imitam o comportamento de períodos anteriores. Uma forma simples de tais modelos, com base em dados anteriores, pode ser escrita como: Onde os termos beta i são os pesos aplicados aos valores anteriores na série temporal, e é usual definir beta i 1, sem perda de generalidade. Então, para um processo de primeira ordem, q 1 e temos o modelo: ou seja, o valor médio móvel é estimado como uma média ponderada dos valores passados ​​atual e imediato. Esse processo de média é, em certo sentido, um mecanismo pragmático de suavização sem um link direto para um modelo estatístico. No entanto, podemos especificar um modelo estatístico (ou estocástico) que abraça os procedimentos de médias móveis em conjunto com processos aleatórios. Se deixarmos um conjunto de variáveis ​​aleatórias independentes e distribuídas de forma idêntica (um processo aleatório) com variável zero e média conhecida, podemos escrever o processo como uma média móvel da ordem q em termos de: Claramente, o valor esperado de xt em Este modelo é 0, então o modelo só é válido se o xt já tiver sido ajustado para ter uma média zero ou se uma constante fixa (a média do xt) for adicionada à soma. Também é evidente que a variância de xt é simplesmente: a análise acima pode ser estendida para avaliar a covariância, cov (x t. Xtk), que encontramos rendimentos: Note que nem o valor médio, nem a covariância (ou autocovariância) No intervalo k é uma função do tempo, t. Então o processo é estacionário de segunda ordem. A expressão acima nos permite obter uma expressão para a função de autocorrelação (acf): se k 0 rho k 1 e para k gt q rho k 0. Além disso, o acf é simétrico e rho k rho - k. O acf pode ser calculado para um processo de MA de primeira ordem: O componente autorregressivo ou AR de um modelo ARMA pode ser escrito na forma: onde os termos em são coeficientes de autocorrelação em atrasos 1,2. P e z t é um termo de erro residual. Observe que este termo de erro se refere especificamente ao período de tempo atual, t. Assim, para um processo de primeira ordem, p 1 e temos o modelo: Essas expressões indicam que o valor estimado de x no tempo t é determinado pelo valor imediatamente anterior de x (ou seja, no tempo t -1) multiplicado por uma medida, alfa . Da medida em que os valores para todos os pares de valores em períodos de tempo paralelamente 1 separados estão correlacionados (isto é, sua autocorrelação), além de um termo de erro residual, z. No tempo t. Mas esta é precisamente a definição de um processo de Markov. Então um processo Markov é um processo autoregressivo de primeira ordem. Se alfa 1, o modelo afirma que o próximo valor de x é simplesmente o valor anterior mais um termo de erro aleatório e, portanto, é uma caminhada aleatória simples de 1D. Se houver mais termos, o modelo estima o valor de x no tempo t por uma soma ponderada desses termos mais um componente de erro aleatório. Se substituímos a segunda expressão acima no primeiro, temos: e a aplicação repetida desses rendimentos de substituição: agora, se alfa lt1 e k é grande, essa expressão pode ser escrita na ordem inversa, com termos decrescentes e com contribuição do termo Em x no lado direito da expressão tornando-se cada vez mais pequeno, então temos: Como o lado direito desta expressão é o modelo xt como a soma de um conjunto ponderado de valores anteriores, neste caso termos de erro aleatório, é claro que Este modelo de AR é, de fato, uma forma de modelo de MA. E se assumirmos que os termos de erro têm variância média e variável constante, então, como no modelo MA, temos o valor esperado do modelo como também 0, assumindo que o xt foi ajustado para fornecer uma média zero, com variância: Agora como Enquanto Alpha lt1 este somatório é finito e é simplesmente 1 (1-alfa), então temos: Tal como acontece com o modelo MA acima, esta análise pode ser estendida para avaliar a covariância, cov (x t. X tk) de um primeiro Ordem de processo AR, que encontramos rendimentos: Para alfa lt1, este somatório é finito e é simplesmente alfa k (1- alfa 2), então temos: Isso demonstra que, para um modelo autoregressivo de primeira ordem, a função de autocorrelação (acf) é simplesmente definida Por potências sucessivas da autocorrelação de primeira ordem, com a condição alpha lt1. Para alfa gt0, isso é simplesmente uma potência que diminui rapidamente ou uma curva exponencial, tendendo para zero, ou para lt0 é uma curva oscilante de amortecimento, novamente tendendo para zero. Se for feita uma suposição de que as séries temporais estão estacionárias, a análise acima pode ser estendida para autocorrelações de segunda e alta ordem. Para ajustar um modelo de AR a um conjunto de dados observado, procuramos minimizar a soma de erros quadrados (um ajuste de mínimos quadrados) usando o menor número de termos que proporcionam um ajuste satisfatório aos dados. Modelos deste tipo são descritos como auto - gressivos. E pode ser aplicado tanto a séries temporais quanto a conjuntos de dados espaciais (veja modelos de autoregressão espacial). Embora, em teoria, um modelo autorregressivo possa fornecer um ajuste adequado a um conjunto de dados observado, geralmente exigiria remoção prévia e tendência e componentes periódicos, e mesmo assim, talvez precisasse de uma grande quantidade de termos, a fim de proporcionar um bom ajuste aos dados. No entanto, ao combinar os modelos AR com modelos MA, podemos produzir uma família de modelos mistos que podem ser aplicados em uma ampla gama de situações. Esses modelos são conhecidos como modelos ARMA e ARIMA e são descritos nas seguintes subseções. Nas duas subseções anteriores, introduzimos o modo de ordem MA q: e o modelo AR da ordem p: Podemos combinar esses dois modelos simplesmente adicionando-os como um modelo de ordem (p. Q), onde temos termos p AR E q termos MA: Em geral, essa forma de modelo ARMA combinado pode ser usada para modelar uma série de tempo com menos termos em geral do que um MA ou um modelo AR por eles mesmos. Ele expressa o valor estimado no tempo t como a soma de q termos que representam a variação média de variação aleatória em q períodos anteriores (o componente MA), mais a soma dos termos p AR que calculam o valor atual de x como a soma ponderada Dos mais recentes valores. No entanto, esta forma de modelo pressupõe que a série temporal é estacionária, o que raramente é o caso. Na prática, tendências e periodicidade existem em muitos conjuntos de dados, então é necessário remover esses efeitos antes de aplicar esses modelos. A remoção é geralmente realizada ao incluir no modelo um estágio de diferenciação inicial, tipicamente uma vez, duas ou três vezes, até que a série seja pelo menos aproximadamente estacionária - não exibindo tendências ou periodicidades óbvias. Tal como acontece com os processos MA e AR, o processo de diferenciação é descrito pela ordem de diferenciação, por exemplo, 1, 2, 3. Coletivamente, esses três elementos compõem um triplo: (p. D. Q) que define o tipo de modelo aplicado. Nesta forma, o modelo é descrito como um modelo ARIMA. A letra I em ARIMA refere-se ao fato de que o conjunto de dados foi inicialmente diferenciado (ver diferenciação) e quando a modelagem é completa, os resultados devem ser somados ou integrados para produzir as estimativas e previsões finais. A modelagem ARIMA é discutida abaixo. Conforme observado na subseção anterior, combinar a diferenciação de uma série temporal não estacionária com o modelo ARMA fornece uma poderosa família de modelos que podem ser aplicados em uma ampla gama de situações. O desenvolvimento desta forma estendida de modelo é em grande parte devido a G E P Box e G M Jenkins e, como resultado, os modelos ARIMA também são conhecidos como modelos Box-Jenkins. O primeiro passo no procedimento Box-Jenkins é diferenciar as séries temporais até ficar estacionário, garantindo assim que a tendência e os componentes sazonais sejam removidos. Em muitos casos, uma ou duas fases de diferenciação é suficiente. A série diferenciada será mais curta do que a série fonte por etapas de tempo c, onde c é o intervalo da diferenciação. Um modelo ARMA é ajustado às séries temporais resultantes. Como os modelos ARIMA possuem três parâmetros, existem muitas variações para os possíveis modelos que podem ser instalados. No entanto, a decisão sobre o que esses parâmetros devem ser pode ser guiada por uma série de princípios básicos: (i) o modelo deve ser o mais simples possível, ou seja, conter o menor número possível de termos, o que, por sua vez, significa os valores de p e q Deve ser pequeno (ii) o ajuste aos dados históricos deve ser tão bom quanto possível, ou seja, o tamanho das diferenças quadradas entre o valor estimado em qualquer período passado e o valor real, deve ser minimizado (princípio dos mínimos quadrados) - os resíduos Do modelo selecionado pode então ser examinado para ver se os resíduos restantes são significativamente diferentes de 0 (veja mais adiante, abaixo) (iii) a autocorrelação parcial medida em atrasos 1,2,3. Deve fornecer uma indicação da ordem do componente AR, ou seja, o valor escolhido para q (iv) o formato da função de autocorrelação (acf) pode sugerir o tipo de modelo ARIMA necessário - a tabela abaixo (do NIST) fornece orientação sobre Interpretando a forma do acf em termos de seleção do modelo. ARIMA Seleção do tipo de modelo usando forma acf A série não é estacionária. Os modelos ARIMA padrão são freqüentemente descritos pelo triplo: (p. D. Q) como observado acima. Estes definem a estrutura do modelo em termos da ordem de AR, diferenciação e modelos MA para serem usados. Também é possível incluir parâmetros semelhantes para a sazonalidade nos dados, embora esses modelos sejam mais complexos para se adequarem e interpretarem - as tripas (P. D. Q) geralmente são usadas para identificar esses componentes do modelo. Na captura de tela do SPSS mostrado abaixo, o diálogo para seleção manual de elementos estruturais não sazonais e sazonais é exibido (instalações similares estão disponíveis em outros pacotes integrados, como SASETS). Como pode ser visto, o diálogo também permite que os dados sejam transformados (geralmente para auxiliar na estabilização de variância) e para permitir que os usuários incluam uma constante no modelo (o padrão). Esta ferramenta de software particular permite detectar atípicos, se necessário, de acordo com uma série de procedimentos de detecção, mas em muitos casos outliers serão investigados e ajustados ou removidos e valores de substituição estimados antes de qualquer análise. SPSS Time Series Modeler: modelo ARIMA, modo especialista. Uma série de modelos ARIMA podem ser instalados nos dados, manualmente ou através de um processo automatizado (por exemplo, um processo gradual) e uma ou mais medidas usadas para avaliar qual é o melhor em termos de Ajuste e parcimônia. A comparação do modelo geralmente faz uso de uma ou mais das medidas teóricas da informação descritas anteriormente neste manual - AIC, BIC e ou MDL (a função R, arima (), fornece a medida AIC, enquanto a SPSS fornece uma gama de medidas de ajuste, incluídas uma A versão da estatística BIC outras ferramentas variam nas medidas fornecidas - Minitab. Que fornece uma variedade de métodos TSA, não inclui estatísticas de tipo AICBIC). Na prática, uma ampla gama de medidas (ou seja, além de além das medidas baseadas em mínimos quadrados) podem ser usadas para avaliar a qualidade do modelo. Por exemplo, o erro absoluto médio e o erro absoluto absoluto podem ser medidas úteis, pois mesmo um mínimo O ajuste de quadrados pode ainda ser fraco em alguns lugares. Uma série de pacotes de software também pode fornecer uma medida geral da autocorrelação que pode permanecer nos resíduos após o ajuste do modelo. Uma estatística freqüentemente aplicada é devido a Ljung e Box (1978 LJU1) e É da forma: onde n é o número de amostras (valores de dados), ri é a autocorrelação de amostra no intervalo i. E k é o número total de atrasos sobre os quais a computação é realizada. Q k é aproximadamente distribuído como um chi - distribuição quadrada com graus de liberdade k - m, onde m é o número de parâmetros utilizados na montagem do modelo, excluindo qualquer termo constante ou variáveis ​​preditoras (isto é, apenas incluindo os triplos de pd q). Se a medida é estatisticamente significativa Indica que os resíduos ainda contêm autocorrelação significativa após o modelo ter sido montado, sugerindo que um modelo melhorado deveria ser procurado. Exemplo: Modelando o crescimento do número de passageiros de companhias aéreas O seguinte é um exemplo de montagem automatizada, usando o SPSS para os dados do teste Box-Jenkins-Reinsel dos números de passageiros da companhia aérea REI1 fornecidos anteriormente neste Manual. Inicialmente, nenhuma especificação das datas foram meses dentro de anos foi especificada. O modelo selecionado pelo processo automatizado foi um modelo ARIMA (0,1,12), ou seja, o processo identificou corretamente que a série exigia um nível de diferenciação e aplicava um modelo médio móvel com uma periodicidade de 12 e nenhum componente de autocorrelação para caber dados. O modelo de ajuste produziu um valor R 2 de 0.966, que é muito alto e um erro absoluto absoluto (MAE) de 75. O ajuste visual do modelo aos dados parece excelente, mas o enredo da autocorrelação residual após o encaixe e Ljung O teste de caixa mostra que a autocorrelação significativa permanece, indicando que um modelo melhorado é possível. ARIMA automatizado para passageiros da linha aérea internacional: totais mensais, 1949-1960 Para investigar isso, um modelo revisado foi ajustado, com base na discussão desse conjunto de dados por Box e Jenkins (1968) e a edição atualizada do livro Chatfields (1975 CHA1) em Que ele usou o Minitab para ilustrar sua análise (6a edição, 2003). A série temporal foi definida como tendo uma periodicidade de 12 meses e um modelo ARIMA com componentes (0,1,1), (0,1,1). Gráficamente, os resultados parecem muito semelhantes ao gráfico acima, mas com este modelo o R-squared é 0.991, o MAE41 e a estatística de Ljung-Box não são mais significantes (12.6, com 16 graus de liberdade). O modelo é, portanto, uma melhoria na versão original (gerada automaticamente), sendo composta por um MA não-sazonal e um componente de MA sazonal, nenhum componente autorregressivo e um nível de diferenciação para as estruturas sazonais e não sazonais. Se o encaixe é manual ou automatizado, um modelo ARIMA pode fornecer uma boa estrutura para modelar uma série temporal, ou pode ser que os modelos ou abordagens alternativas ofereçam um resultado mais satisfatório. Muitas vezes, é difícil saber com antecedência quanto é bom o modelo de previsão dado, uma vez que é somente à luz de sua capacidade de prever valores futuros da série de dados que pode ser verdadeiramente julgado. Muitas vezes, este processo é aproximado, ajustando o modelo aos dados passados, excluindo os períodos de tempo recentes (também conhecidos como amostras de retenção) e, em seguida, usando o modelo para prever esses eventos futuros conhecidos, mas mesmo isso oferece apenas uma confiança limitada em sua validade futura. A previsão de longo prazo pode ser extremamente pouco confiável usando esses métodos. Claramente, o modelo de estatísticas de tráfego aéreo internacional descrito acima não é capaz de prever corretamente os números dos passageiros até a década de 1990 e além, nem a queda de 5 anos nos números de passageiros das companhias aéreas internacionais dos EUA, antes do 9112001. Da mesma forma, um modelo ARIMA pode ser ajustado a valores históricos Dos preços da bolsa de valores ou dos valores do índice (por exemplo, os índices NYSE ou FTSE) e normalmente proporcionará um ajuste excelente aos dados (obtendo um valor R-quadrado superior a 0,99), mas são freqüentemente pouco úteis para prever os valores futuros desses preços Ou índices. Normalmente, os modelos ARIMA são usados ​​para previsão, particularmente no campo da modelagem macro e microeconômica. No entanto, eles podem ser aplicados em uma ampla gama de disciplinas, seja na forma descrita aqui, ou aumentadas com variáveis ​​de preditores adicionais que acreditam melhorar a confiabilidade das previsões feitas. Estes últimos são importantes porque toda a estrutura dos modelos ARMA discutidos acima depende de valores prévios e eventos aleatórios independentes ao longo do tempo, e não em fatores explicativos ou causais. Daí, os modelos ARIMA apenas refletirão e estenderão os padrões passados, o que talvez precise ser modificado nas previsões por fatores como o ambiente macroeconômico, as mudanças de tecnologia ou o recurso a longo prazo e as mudanças ambientais. BOX1 Box G E P, Jenkins G M (1968). Alguns avanços recentes em previsão e controle. Estatística Aplicada, 17 (2), 91-109 BOX2 Box, G E P, Jenkins, G M, Reinsel G C (1994) Time Series Analysis, Forecasting and Control. 3ª ed. Prentice Hall, Englewood Cliffs, NJ CHA1 Chatfield C (1975) The Analysis of Times Series: Theory and Practice. Chapman and Hall, Londres (ver também, 6º ed., 2003) LJU1 Ljung G M, Box G E P (1978) Em uma medida de falta de modelos em série Time Series. Biometrika, 65, 297303 NISTSEMATECH e-Handbook of Statistical Methods, itl. nist. govdiv898handbook Seção 6.4: Introdução às séries temporais. 2018 SPSSPASW 17 (2008) AnalyzeForecasting (Modelos de séries temporais) REI1 Reinsel Conjuntos de dados GC para modelos Box-Jenkins: stat. wisc. edu Modelos sazonais de ARIMA sazonal: (0,1,1) x (0,1,1) etc. Esboço de Modelagem ARIMA sazonal: a parte sazonal de um modelo ARIMA tem a mesma estrutura que a parte não sazonal: pode ter um fator AR, um fator MA, ou uma ordem de diferenciação. Na parte sazonal do modelo, todos esses fatores operam em múltiplos de lag s (o número de períodos em uma estação). Um modelo ARIMA sazonal é classificado como um modelo ARIMA (p, d, q) x (P, D, Q), onde Pnumber de termos autorregressivos sazonais (SAR), Dnúmero de diferenças sazonais, termos Qnumber de média móvel sazonal (SMA) Ao identificar um modelo sazonal, o primeiro passo é determinar se é necessária ou não uma diferença sazonal, além de ou talvez em vez de uma diferença não sazonal. Você deve olhar para séries de séries temporais e parcelas ACF e PACF para todas as combinações possíveis de 0 ou 1 diferença não sazonal e 0 ou 1 diferença sazonal. Cuidado: nunca utilize mais de uma diferença sazonal, nem mais de DUAS diferenças totais (sazonal e não sazonal). Se o padrão sazonal é forte e estável ao longo do tempo (por exemplo, alto no verão e baixo no inverno, ou vice-versa), então você provavelmente deve usar uma diferença sazonal, independentemente de usar uma diferença não sazonal, já que isso Evite que o padrão sazonal seja superado nas previsões de longo prazo. Vamos adicionar isso à nossa lista de regras para identificar modelos. Regra 12: Se a série tiver um padrão sazonal forte e consistente, você deve usar uma ordem de diferenciação sazonal - mas nunca use mais do que uma ordem de diferenciação sazonal ou mais de 2 Ordens de diferenciação total (seasonalnonseasonal). A assinatura do SAR puro ou comportamento SMA puro é semelhante à assinatura de AR puro ou comportamento de MA puro, exceto que o padrão aparece em múltiplos de atraso na ACF e PACF. Por exemplo, um processo puro de SAR (1) tem picos no ACF em atrasos s, 2s, 3s, etc., enquanto o PACF corta após o atraso s. Por outro lado, um processo puro de SMA (1) tem picos no PACF em atrasos s, 2s, 3s, etc., enquanto o ACF corta após o atraso. Normalmente, uma assinatura de SAR ocorre quando a autocorrelação no período sazonal é positiva, enquanto que uma assinatura de SMA geralmente ocorre quando a autocorrelação sazonal é negativa. Daí: Regra 13: Se a autocorrelação no período sazonal é positiva. Considere adicionar um termo SAR ao modelo. Se a autocorrelação no período sazonal é negativa. Considere adicionar um termo SMA ao modelo. Tente evitar misturar os termos SAR e SMA no mesmo modelo, e evite usar mais do que um de qualquer tipo. Geralmente, um termo SAR (1) ou SMA (1) é suficiente. Você raramente encontrará um processo genuíno SAR (2) ou SMA (2), e ainda mais raramente tem dados suficientes para estimar 2 ou mais coeficientes sazonais sem o algoritmo de estimação entrar em um loop quotfeedback. Embora um modelo ARIMA sazonal pareça ter Apenas alguns parâmetros, lembre-se de que o backforecast exige a estimativa de uma ou duas estações de parâmetros implícitos para inicializá-lo. Portanto, você deve ter pelo menos 4 ou 5 temporadas de dados para se adequar a um modelo ARIMA sazonal. Provavelmente, o modelo ARIMA sazonal mais usado é o modelo (0,1,1) x (0,1,1) - isto é. Um modelo MA (1) xSMA (1) com uma diferença sazonal e não sazonal. Este é essencialmente um modelo de alocamento exponencial quotseasonal. Quando os modelos ARIMA sazonais são instalados em dados registrados, eles são capazes de rastrear um padrão sazonal multiplicativo. Exemplo: série AUTOSALE revisitada Lembre-se de que prevemos a série de vendas automáticas de varejo usando uma combinação de deflação, ajuste sazonal e suavização exponencial. Vamos agora tentar montar a mesma série com os modelos ARIMA sazonais, usando a mesma amostra de dados de janeiro de 1970 a maio de 1993 (281 observações). Como antes, trabalharemos com vendas automáticas deflacionadas - ou seja. Usaremos a série AUTOSALECPI como variável de entrada. Aqui estão as séries da série temporal e os gráficos ACF e PACF da série original, que são obtidos no procedimento de Previsão, traçando o quotresidual de um modelo ARIMA (0,0,0) x (0,0,0) com constante: O Quotsuspension bridgequot padrão na ACF é típico de uma série que é não estacionária e fortemente sazonal. Claramente precisamos de pelo menos uma ordem de diferenciação. Se tomarmos uma diferença não sazonal, as parcelas correspondentes são as seguintes: a série diferenciada (os resíduos de um modelo de caminhada com crescimento aleatório) parece mais ou menos estacionária, mas ainda há autocorrelação muito forte no período sazonal (Lag 12). Como o padrão sazonal é forte e estável, sabemos (da Regra 12) que queremos usar uma ordem de diferenciação sazonal no modelo. Aqui está o aspecto da imagem após uma diferença sazonal (apenas): a série estacionalmente diferenciada mostra um padrão muito forte de autocorrelação positiva, como lembramos da nossa tentativa anterior de se ajustar a um modelo de caminhada aleatória sazonal. Esta poderia ser uma assinatura de quotAR - ou poderia sinalizar a necessidade de outra diferença. Se tomarmos uma diferença sazonal e não sazonal, obtêm-se os seguintes resultados: estes são, obviamente, os resíduos do modelo de tendência aleatória sazonal que ajustamos nos dados de vendas de automóveis anteriormente. Agora vemos os sinais reveladores de overdifferencing suave. Os pontos positivos na ACF e no PACF tornaram-se negativos. Qual é a ordem correta de diferenciação Mais uma informação que pode ser útil é um cálculo das estatísticas de erro da série em cada nível de diferenciação. Podemos calculá-los ajustando os modelos ARIMA correspondentes, nos quais apenas as diferenças são usadas: os erros menores, tanto no período de estimação como no período de validação, são obtidos pelo modelo A, que usa uma diferença de cada tipo. Isto, juntamente com a aparência das parcelas acima, sugere fortemente que devemos usar uma diferença sazonal e não-sazonal. Note-se que, exceto o termo constante gratuitivel, o modelo A é o modelo de tendência aleatória sazonal (SRT), enquanto o modelo B é apenas o modelo de caminhada aleatória sazonal (SRW). Como observamos anteriormente, quando comparamos esses modelos, o modelo SRT parece se encaixar melhor do que o modelo SRW. Na análise a seguir, tentaremos melhorar esses modelos através da adição de termos ARIMA sazonais. Voltar ao topo da página. O modelo ARIMA (0,1,1) x (0,1,1) usado com freqüência: modelo SRT mais MA (1) e SMA (1) termos Retornando ao último conjunto de gráficos acima, observe que com uma diferença de Cada tipo existe um pico negativo no ACF no intervalo 1 e também um pico negativo no ACF no intervalo 12. Enquanto o PACF mostra um padrão de quotdecayquot mais gradual na vizinhança de ambos os atrasos. Ao aplicar nossas regras para identificar modelos ARIMA (especificamente, Regra 7 e Regra 13), podemos agora concluir que o modelo SRT seria melhorado pela adição de um termo MA (1) e também um termo SMA (1). Além disso, pela Regra 5, excluímos a constante, uma vez que duas ordens de diferenciação estão envolvidas. Se fizermos tudo isso, obtemos o modelo ARIMA (0,1,1) x (0,1,1). Qual é o modelo ARIMA sazonal mais utilizado. Sua equação de previsão é: onde 952 1 é o coeficiente MA (1) e 920 1 (capital theta-1) é o coeficiente SMA (1). Observe que este é apenas o modelo de tendência aleatória sazonal imaginado adicionando múltiplos dos erros nos laços 1, 12 e 13. Além disso, observe que o coeficiente do erro de lag-13 é o produto do MA (1) e SMA (1) coeficientes. Este modelo é conceitualmente semelhante ao modelo Winters na medida em que efetivamente aplica alisamento exponencial ao nível, tendência e sazonalidade ao mesmo tempo, embora funda em bases teóricas mais sólidas, particularmente no que diz respeito ao cálculo de intervalos de confiança para previsões de longo prazo. Suas parcelas residuais neste caso são as seguintes: Embora uma pequena quantidade de autocorrelação permaneça no intervalo 12, a aparência geral das parcelas é boa. Os resultados de montagem do modelo mostram que os coeficientes estimados de MA (1) e SMA (1) (obtidos após 7 iterações) são realmente significativos: as previsões do modelo se assemelham ao modelo de tendência aleatória sazonal, ou seja, Eles retomam o padrão sazonal e a tendência local no final da série - mas eles são um pouco mais suaves na aparência, já que tanto o padrão sazonal como a tendência estão efetivamente sendo promediados (de um jeito de alívio exponencial) ao longo da última Poucas estações: o que esse modelo realmente está fazendo. Você pode pensar nisso da seguinte maneira. Em primeiro lugar, calcula a diferença entre o valor de cada mês8217 e uma média histórica 8220 ponderada exponencialmente 8221 para esse mês que é calculada aplicando alisamento exponencial aos valores que foram observados no mesmo mês em anos anteriores, onde a quantidade de alisamento é determinada pelo SMA (1 ) Coeficiente. Em seguida, aplica um alisamento exponencial simples a essas diferenças para prever o desvio da média histórica que será observada no próximo mês. O valor do coeficiente SMA (1) perto de 1.0 sugere que muitas estações de dados estão sendo usadas para calcular a média histórica de um determinado mês do ano. Lembre-se de que um coeficiente de MA (1) em um modelo ARIMA (0,1,1) corresponde a 1-menos-alfa no modelo de suavização exponencial correspondente e que a idade média dos dados em uma previsão de modelo de suavização exponencial é 1alfa. O coeficiente SMA (1) tem uma interpretação semelhante em relação às médias entre as estações. Aqui seu valor de 0,91 sugere que a idade média dos dados utilizados para estimar o padrão sazonal histórico é um pouco mais de 10 anos (quase metade do comprimento do conjunto de dados), o que significa que um padrão sazonal quase constante está sendo assumido. O valor muito menor de 0,5 para o coeficiente MA (1) sugere que relativamente pouco alisamento está sendo feito para estimar o desvio atual da média histórica para o mesmo mês, então o próximo mês8217s predito desvio de sua média histórica será próximo aos desvios Da média histórica observada nos últimos meses. O modelo ARIMA (1,0,0) x (0,1,0) com constante: modelo SRW mais AR (1) termo O modelo anterior foi um modelo Seasonal Random Trend (SRT) afinado pela adição de MA ( 1) e SMA (1) coeficientes. Um modelo ARIMA alternativo para esta série pode ser obtido substituindo um termo AR (1) pela diferença não-sazonal, isto é, Adicionando um termo AR (1) ao modelo Seasonally Random Walk (SRW). Isso nos permitirá preservar o padrão sazonal no modelo enquanto reduz a quantidade total de diferenciação, aumentando assim a estabilidade das projeções de tendência se desejado. (Lembre-se de que, com apenas uma diferença sazonal, a série mostrou uma forte assinatura AR (1). Se fizermos isso, obtemos um modelo ARIMA (1,0,0) x (0,1,0) com constante, Que produz os seguintes resultados: O coeficiente AR (1) é realmente altamente significativo, e o RMSE é apenas 2,06, em comparação com 3,00 para o modelo SRW (Modelo B no relatório de comparação acima). A equação de previsão para este modelo é: O termo adicional no lado direito é um múltiplo da diferença sazonal observada no último mês, que tem o efeito de corrigir a previsão do efeito de um ano excepcionalmente ruim ou ruim. Aqui 981 1 denota o coeficiente AR (1), cujo valor estimado é 0,73. Assim, por exemplo, se as vendas no mês passado fossem X dólares antes das vendas um ano antes, então a quantidade 0.73X seria adicionada à previsão para este mês. 956 denota o CONSTANT na equação de previsão, cujo valor estimado é 0,20. O MEAN estimado, cujo valor é 0,75, é o valor médio da série estacionalmente diferenciada, que é a tendência anual nas previsões de longo prazo deste modelo. A constante é (por definição) igual aos tempos médios 1 menos o coeficiente AR (1): 0,2 0,75 (1 8211 0,73). O gráfico de previsão mostra que o modelo realmente faz um trabalho melhor do que o modelo SRW de rastreamento de alterações cíclicas (ou seja, anos invulgarmente bons ou maus): No entanto, o MSE para este modelo ainda é significativamente maior que o que obtivemos para o ARIMA (0, 1,1) x (0,1,1) modelo. Se olharmos para os lotes de resíduos, vemos margem para melhorias. Os resíduos ainda mostram algum sinal de variação cíclica: o ACF eo PACF sugerem a necessidade de coeficientes MA (1) e SMA (1): uma versão melhorada: ARIMA (1,0,1) x (0,1,1) Com constante Se adicionarmos os termos indicados MA (1) e SMA (1) ao modelo anterior, obtemos um modelo ARIMA (1,0,1) x (0,1,1) com constante, cuja equação de previsão é This is nearly the same as the ARIMA(0,1,1)x(0,1,1) model except that it replaces the nonseasonal difference with an AR(1) term (a quotpartial differencequot) and it incorporates a constant term representing the long-term trend. Hence, this model assumes a more stable trend than the ARIMA(0,1,1)x(0,1,1) model, and that is the principal difference between them. The model-fitting results are as follows: Notice that the estimated AR(1) coefficient ( 981 1 in the model equation) is 0.96, which is very close to 1.0 but not so close as to suggest that it absolutely ought to be replaced with a first difference: its standard error is 0.02, so it is about 2 standard errors from 1.0. The other statistics of the model (the estimated MA(1) and SMA(1) coefficients and error statistics in the estimation and validation periods) are otherwise nearly identical to those of the ARIMA(0,1,1)x(0,1,1) model. (The estimated MA(1) and SMA(1) coefficients are 0.45 and 0.91 in this model vs. 0.48 and 0.91 in the other.) The estimated MEAN of 0.68 is the predicted long-term trend (average annual increase). This is essentially the same value that was obtained in the (1,0,0)x(0,1,0)-with-constant model. The standard error of the estimated mean is 0.26, so the difference between 0.75 and 0.68 is not significant. If the constant was not included in this model, it would be a damped-trend model: the trend in its very-long-term forecasts would gradually flatten out. The point forecasts from this model look quite similar to those of the (0,1,1)x(0,1,1) model, because the average trend is similar to the local trend at the end of the series. However, the confidence intervals for this model widen somewhat less rapidly because of its assumption that the trend is stable. Notice that the confidence limits for the two-year-ahead forecasts now stay within the horizontal grid lines at 24 and 44, whereas those of the (0,1,1)x(0,1,1) model did not: Seasonal ARIMA versus exponential smoothing and seasonal adjustment: Now lets compare the performance the two best ARIMA models against simple and linear exponential smoothing models accompanied by multiplicative seasonal adjustment, and the Winters model, as shown in the slides on forecasting with seasonal adjustment: The error statistics for the one-period-ahead forecasts for all the models are extremely close in this case. It is hard to pick a 8220winner8221 based on these numbers alone. Return to top of page. What are the tradeoffs among the various seasonal models The three models that use multiplicative seasonal adjustment deal with seasonality in an explicit fashion--i. e. seasonal indices are broken out as an explicit part of the model. The ARIMA models deal with seasonality in a more implicit manner--we cant easily see in the ARIMA output how the average December, say, differs from the average July. Depending on whether it is deemed important to isolate the seasonal pattern, this might be a factor in choosing among models. The ARIMA models have the advantage that, once they have been initialized, they have fewer quotmoving partsquot than the exponential smoothing and adjustment models and as such they may be less likely to overfit the data. ARIMA models also have a more solid underlying theory with respect to the calculation of confidence intervals for longer-horizon forecasts than do the other models. There are more dramatic differences among the models with respect to the behavior of their forecasts and confidence intervals for forecasts more than 1 period into the future. This is where the assumptions that are made with respect to changes in the trend and seasonal pattern are very important. Between the two ARIMA models, one (model A) estimates a time-varying trend, while the other (model B) incorporates a long-term average trend. (We could, if we desired, flatten out the long-term trend in model B by suppressing the constant term.) Among the exponential-smoothing-plus-adjustment models, one (model C) assumes a flat trend, while the other (model D) assumes a time-varying trend. The Winters model (E) also assumes a time-varying trend. Models that assume a constant trend are relatively more confident in their long-term forecasts than models that do not, and this will usually be reflected in the extent to which confidence intervals for forecasts get wider at longer forecast horizons. Models that do not assume time-varying trends generally have narrower confidence intervals for longer-horizon forecasts, but narrower is not better unless this assumption is correct. The two exponential smoothing models combined with seasonal adjustment assume that the seasonal pattern has remained constant over the 23 years in the data sample, while the other three models do not. Insofar as the seasonal pattern accounts for most of the month-to-month variation in the data, getting it right is important for forecasting what will happen several months into the future. If the seasonal pattern is believed to have changed slowly over time, another approach would be to just use a shorter data history for fitting the models that estimate fixed seasonal indices. For the record, here are the forecasts and 95 confidence limits for May 1995 (24 months ahead) that are produced by the five models: The point forecasts are actually surprisingly close to each other, relative to the widths of all the confidence intervals. The SES point forecast is the lowest, because it is the only model that does not assume an upward trend at the end of the series. The ARIMA (1,0,1)x(0,1,1)c model has the narrowest confidence limits, because it assumes less time-variation in the parameters than the other models. Also, its point forecast is slightly larger than those of the other models, because it is extrapolating a long-term trend rather than a short-term trend (or zero trend). The Winters model is the least stable of the models and its forecast therefore has the widest confidence limits, as was apparent in the detailed forecast plots for the models. And the forecasts and confidence limits of the ARIMA(0,1,1)x(0,1,1) model and those of the LESseasonal adjustment model are virtually identical To log or not to log Something that we have not yet done, but might have, is include a log transformation as part of the model. Seasonal ARIMA models are inherently additive models, so if we want to capture a multiplicative seasonal pattern . we must do so by logging the data prior to fitting the ARIMA model. (In Statgraphics, we would just have to specify quotNatural Logquot as a modeling option--no big deal.) In this case, the deflation transformation seems to have done a satisfactory job of stabilizing the amplitudes of the seasonal cycles, so there does not appear to be a compelling reason to add a log transformation as far as long term trends are concerned. If the residuals showed a marked increase in variance over time, we might decide otherwise. There is still a question of whether the errors of these models have a consistent variance across months of the year . If they don8217t, then confidence intervals for forecasts might tend to be too wide or too narrow according to the season. The residual-vs-time plots do not show an obvious problem in this regard, but to be thorough, it would be good to look at the error variance by month. If there is indeed a problem, a log transformation might fix it. Return to top of page.

No comments:

Post a Comment