Friday 21 July 2017

Moving Average Econometrics


ARIMA O comando ARIMA fornece recursos para a abordagem Box-Jenkins (ver Box e Jenkins, 1976) à análise dos modelos de média móvel integrada AutoRegressive de séries temporais univariadas. SHAZAM usa uma versão modificada de programas escrita por Charles Nelson e descrita em Nelson 1973. Existem 3 formas do comando: IDENTIFICAÇÃO. ESTIMAÇÃO. E PREVISÃO. As opções especificadas determinam qual forma do comando ARIMA está em vigor. A fase de identificação relata a função de autocorrelação da amostra e a função de autocorrelação parcial da amostra que pode ser inspecionada para determinar uma especificação para um modelo ARIMA. A fase de estimativa estima os parâmetros de um modelo ARIMA e fornece testes de diagnóstico para verificar a adequação do modelo. O método de Box-Jenkins é repetir a fase de identificação e estimativa até encontrar um modelo adequado. A fase de previsão fornece previsões pontuais e intervalos de confiança. FASE DE IDENTIFICAÇÃO Em geral, o formato é: ARIMA vars / opções onde vars é uma lista de variáveis. As opções disponíveis são: Salva a Função de AutoCorrelação de amostra na variável especificada. Calcula as propriedades da série de tempo para TODAS as ordens de diferenciação até os valores especificados com NDIFF e NSDIFF. Especifica a observação BEGinning a ser usada na estimativa. Esta opção substitui o comando SAMPLE eo padrão é o intervalo de amostra em vigor. Especifica a observação ENDing a ser usada na estimativa. Esta opção substitui o comando SAMPLE eo padrão é o intervalo de amostra em vigor. Calcula autocorrelações inversas. O número de defasagens é conforme especificado com a opção NLAG (o máximo é 20). Traça a função de autocorrelação da amostra usando o programa gnuplot. O número de defasagens é especificado com a opção NLAG. Um intervalo de confiança aproximado de 95 para as autocorrelações é calculado com base em / -2 erros padrão. Traça os dados usando o programa gnuplot. Se as opções LOG, NDIFF ou NSDIFF forem usadas, então o gráfico é dos dados transformados. Traça a função de autocorrelação parcial da amostra usando o programa gnuplot. O número de defasagens é especificado com a opção NLAGP. Um intervalo de confiança aproximado de 95 para as autocorrelações parciais é calculado com base em / - 2 erros-padrão. Toma toras do data. Documentation é a média incondicional do processo, e x03C8 (L) é um,-infinito grau polinomial operador de desfasamento racional, (1 x03C8 1 G G 2 2 x03C8 x2026). Nota: A propriedade Constant de um objeto modelo arima corresponde a c. E não a média incondicional 956. Por decomposição de Wolds 1. A equação 5-12 corresponde a um processo estocástico estacionário desde que os coeficientes x03C8 i sejam absolutamente somaveis. Este é o caso quando o polinômio AR, x03D5 (L). É estável. O que significa que todas as suas raízes estão fora do círculo unitário. Além disso, o processo é causal desde que o polinômio MA é invertido. O que significa que todas as suas raízes estão fora do círculo unitário. Econometrics Toolbox reforça a estabilidade e a invertibilidade dos processos ARMA. Quando você especifica um modelo ARMA usando arima. Você obtém um erro se você inserir coeficientes que não correspondem a um polinômio AR estável ou polinômio MA reversível. Similarmente, a estimativa impõe restrições de estacionaridade e de invertibilidade durante a estimativa. Referências 1 Wold, H. Um estudo na análise de séries estacionárias do tempo. Uppsala, Suécia: Almqvist amp Wiksell, 1938. Selecione seu país Como parte da minha previsão, estou usando uma média móvel com base em três observações. Calculando isso em SAS eu consegui fazê-lo apenas para os dados de resultado e não conseguiu fazê-lo para os dados de previsão. A média móvel para um mês específico deve ser a média dos mesmos meses três anos atrás. Eu tentei diferentes tipos de sintaxe, mas eu não encontrei nada que faz um cálculo correto para valores após maio de 2014 (meu último resultado). Esta sintaxe cria valores corretos até maio de 2014. Depois que tudo está em branco (eu criei o MA depois disso de várias maneiras, mas nunca correto). Proc expandir dataQQQ outQQQQ transformout (reverse movave 3 reverse) Quaisquer idéias / funções que eu acho que deve funcionar a partir desta configuração. Proc expand é usado para transformar dados do que para usá-lo para previsão. Se você está realmente procurando médias móveis simples (não ponderadas exponencialmente) você poderia usar uma etapa de dados. Talvez algo como isto: Dados AForecast (Dropdummy) Reter manequim Conjunto A dummySum (dummy, ACTUAL, - Lag3 (real)) MovAve3GDdummy / 3 Run P. S. Crédito vai para SAS :-) Eu vi esse tipo de solução. O problema no entanto é que o meu MA não é tão simples como aquele (eles ainda são simples, mas não o suficiente ..). Para junho de 2014 eu quero a média de junho de 2011-2013. E assim por diante, assim eu não quero apenas a média dos três últimos meses. Como posso adicionar uma declaração por e uma variável de ID à sua solução Dê-nos um exemplo para ilustrar o seu problema. Eu poderia estar inteiramente errado, mas eu penso: Let Periods3 Let Lead5 Let Multiplier12 / 12 meses / Data A (Dropi j k) Formato Data Data9. Faça k1 a 3 Do j1 a 5 Do i1 a 12 DateMDY (i, 1, J2000) ACTUALRound (Normal (1) k20) / k como Desvio Padrão / Output IDK End End End Run / simples sazonal () média móvel / Dados AForecast (KeepID Data MovAve ACTUAL) Set Um por ID matriz fictício matriz dummysum matriz dummysum1-dummysum12 dummy1-dummy12 dummydrop dummydrop1-dummydrop12 Reter dummysum1-dummysum12 Não i1 a 12 Se Month (Date) eq i Então faz o manequim dummydrop ACTUAL LagampCombLag. (ACTUAL) End End If First. ID Então Do count0 Do i1 To 12 dummysum 0 End Contagem final1 Se contagem gt ampCombLag. Então faço I1 a 12 Sum dummysum (dummysum, manequim, - dummydrop) End End Else faço I1 a 12 Sum dummysum (dummysum, simulado) End End If contar ge ampCombLag. Então Do Do i1 To 12 Se não faltar (dummy) Then dummysumactdummysum End MovAvedummysumact / ampPeriods. End Run / fill in lead / Dados AForecastLead (Dropi) Retenção Data ID MveAve Definir AForecast Por ID Se Last. ID Então Fazer Saída Do i1 para ampLead. DateIntNX (mês, Data, 1, mesmo) REAL. Output End End Output Run Obrigado udosas. Eu realmente não poderia começar com isso depois de voltar de minhas férias, mas agora eu posso encontrar algum tempo e eu já encontrei algum uso de sua resposta. No entanto, não estou lá ainda. Eu acho que eu não preciso de seu tipo de etapa de dados, porque eu já tenho um MANAD variável de data (YYMMN6. 200.801-201.812) e, claro, o meu variável de interesse SGIRODFPANDEL (com valores de 200.801 até 201.405). Ao escrever o meu passo proc TimeData Im fazendo assim: proc TimeData datahave outnull outarraywant id MANAD intervalMONTH fazer 1 a movavg COMPRIMENTO (SGIRODFPANDELt-12SGIRODFPANDELt-24SG IRODFPANDELt-36) / 3 Então eu recebi valores movavg de 201101 até 201505. O meu objectivo é no entanto Para obter valores de 201406 até 201812. Daí eu quero valores de média móvel que dependem de uma mistura de valores SGIRODFPANDEL e valores movavg e alguns que só depende de valores movavg. Isso é possível Quando substituo LENGTH por outra coisa, simplesmente não funciona. O que estou fazendo erradoMovendo médias Médias móveis Com datasets convencionais o valor médio é muitas vezes o primeiro, e um dos mais úteis, sumário estatísticas para calcular. Quando os dados estão na forma de uma série temporal, a média da série é uma medida útil, mas não reflete a natureza dinâmica dos dados. Os valores médios calculados em períodos em curto, anteriores ao período atual ou centrados no período atual, são freqüentemente mais úteis. Como esses valores médios variam, ou se movem, à medida que o período atual se move a partir do tempo t 2, t 3, etc., eles são conhecidos como médias móveis (Mas). Uma média móvel simples é (tipicamente) a média não ponderada de k valores anteriores. Uma média móvel exponencialmente ponderada é essencialmente a mesma que uma média móvel simples, mas com contribuições para a média ponderada pela sua proximidade ao tempo actual. Como não existe uma, mas toda uma série de médias móveis para uma dada série, o conjunto de Mas pode ser plotado em gráficos, analisado como uma série e usado na modelagem e previsão. Uma série de modelos pode ser construída usando médias móveis, e estes são conhecidos como modelos MA. Se tais modelos forem combinados com modelos autorregressivos (AR), os modelos compostos resultantes são conhecidos como modelos ARMA ou ARIMA (o I é para integrado). Médias móveis simples Uma vez que uma série temporal pode ser considerada como um conjunto de valores, t 1,2,3,4, n a média destes valores pode ser calculada. Se assumimos que n é bastante grande, e selecionamos um inteiro k que é muito menor que n. Podemos calcular um conjunto de médias de blocos, ou médias móveis simples (de ordem k): Cada medida representa a média dos valores de dados ao longo de um intervalo de k observações. Observe que o primeiro MA possível de ordem k gt0 é aquele para t k. De modo mais geral, podemos descartar o subíndice extra nas expressões acima e escrever: Isto indica que a média estimada no tempo t é a média simples do valor observado no instante t e os intervalos de tempo anteriores k-1. Se forem aplicados pesos que diminuam a contribuição das observações que estão mais distantes no tempo, a média móvel é dita ser suavizada exponencialmente. As médias móveis são frequentemente utilizadas como uma forma de previsão, pelo que o valor estimado para uma série no tempo t 1, S t 1. É tomado como MA para o período até e incluindo o tempo t. por exemplo. A estimativa de hoje é baseada em uma média de valores anteriores registrados até e inclusive ontem (para dados diários). As médias móveis simples podem ser vistas como uma forma de suavização. No exemplo ilustrado abaixo, o conjunto de dados de poluição atmosférica mostrado na introdução deste tópico foi aumentado por uma linha de 7 dias de média móvel (MA), mostrada aqui em vermelho. Como pode ser visto, a linha de MA suaviza os picos e depressões nos dados e pode ser muito útil na identificação de tendências. A fórmula padrão de cálculo de forward significa que os primeiros k -1 pontos de dados não têm nenhum valor de MA, mas a partir daí os cálculos se estendem até o ponto de dados final da série. Uma razão para computar médias móveis simples na maneira descrita é que permite que os valores sejam computados para todos os entalhes do tempo do tempo tk até o presente , E como uma nova medição é obtida para o tempo t 1, o MA para o tempo t 1 pode ser adicionado ao conjunto já calculado. Isso fornece um procedimento simples para conjuntos de dados dinâmicos. No entanto, existem alguns problemas com esta abordagem. É razoável argumentar que o valor médio nos últimos 3 períodos, digamos, deve ser localizado no tempo t -1, não no tempo t. E para um MA sobre um número par de períodos, talvez ele deve ser localizado no ponto médio entre dois intervalos de tempo. Uma solução para este problema é usar cálculos centralizados MA, em que o MA no tempo t é a média de um conjunto simétrico de valores em torno de t. Apesar de seus méritos óbvios, esta abordagem não é geralmente utilizada porque exige que os dados estão disponíveis para eventos futuros, o que pode não ser o caso. Nos casos em que a análise é inteiramente de uma série existente, o uso de Mas centralizado pode ser preferível. As médias móveis simples podem ser consideradas como uma forma de suavização, removendo alguns componentes de alta freqüência de uma série de tempo e destacando (mas não removendo) as tendências de forma semelhante à noção geral de filtragem digital. De fato, as médias móveis são uma forma de filtro linear. É possível aplicar um cálculo da média móvel a uma série que já tenha sido suavizada, isto é, suavizar ou filtrar uma série já suavizada. Por exemplo, com uma média móvel de ordem 2, podemos considerá-la como sendo calculada usando pesos, então a MA em x 2 0,5 x 1 0,5 x 2. Da mesma forma, a MA em x 3 0,5 x 2 0,5 x 3. Se nós Aplicar um segundo nível de suavização ou filtragem, temos 0,5 x 2 0,5 x 3 0,5 (0,5 x 1 0,5 x 2) 0,5 (0,5 x 2 0,5 x 3) 0,25 x 1 0,5 x 2 0,25 x 3 ou seja, a filtragem de 2 estádios Processo (ou convolução) produziu uma média móvel simétrica ponderada variável, com pesos. Várias circunvoluções podem produzir médias móveis ponderadas bastante complexas, algumas das quais foram encontradas de uso particular em campos especializados, como nos cálculos do seguro de vida. As médias móveis podem ser usadas para remover efeitos periódicos se computado com o comprimento da periodicidade como um conhecido. Por exemplo, com os dados mensais as variações sazonais podem frequentemente ser removidas (se este for o objetivo) aplicando uma média móvel simétrica de 12 meses com todos os meses ponderados igualmente, exceto o primeiro eo último que são ponderados por 1/2. Isto é porque haverá 13 meses no modelo simétrico (tempo atual, t. / - 6 meses). O total é dividido por 12. Procedimentos semelhantes podem ser adotados para qualquer periodicidade bem definida. Médias móveis exponencialmente ponderadas (EWMA) Com a fórmula da média móvel simples: todas as observações são igualmente ponderadas. Se chamássemos esses pesos iguais, alfa t. Cada um dos k pesos seria igual a 1 / k. Então a soma dos pesos seria 1, ea fórmula seria: Já vimos que múltiplas aplicações deste processo resultam em pesos variando. Com médias móveis exponencialmente ponderadas, a contribuição para o valor médio das observações que são mais removidas no tempo é deliberada reduzida, enfatizando os eventos mais recentes (locais). Essencialmente um parâmetro de suavização, 0lt alfa lt1, é introduzido, ea fórmula revisada para: Uma versão simétrica desta fórmula seria da forma: Se os pesos no modelo simétrico são selecionados como os termos dos termos da expansão binomial, (1/21/2) 2q. Eles somarão a 1, e quando q se tornar grande, aproximar-se-á da distribuição Normal. Esta é uma forma de ponderação do kernel, com o binômio agindo como a função do kernel. A convolução de dois estágios descrita na subseção anterior é precisamente esta disposição, com q 1, produzindo os pesos. Em suavização exponencial é necessário usar um conjunto de pesos que somam a 1 e que reduzem em tamanho geometricamente. Os pesos usados ​​são tipicamente da forma: Para mostrar que esses pesos somam 1, considere a expansão de 1 / como uma série. Podemos escrever e expandir a expressão entre parênteses utilizando a fórmula binomial (1-x) p. Onde x (1-) e p -1, o que dá: Isso então fornece uma forma de média móvel ponderada da forma: Esta soma pode ser escrita como uma relação de recorrência: o que simplifica muito a computação e evita o problema de que o regime de ponderação Deve ser rigorosamente infinito para os pesos a somar a 1 (para pequenos valores de alfa, isso normalmente não é o caso). A notação utilizada pelos diferentes autores varia. Alguns usam a letra S para indicar que a fórmula é essencialmente uma variável suavizada e escrevem: enquanto a literatura da teoria de controle usa freqüentemente Z em vez de S para os valores exponencialmente ponderados ou suavizados (ver, por exemplo, Lucas e Saccucci, 1990, LUC1 , Eo site do NIST para mais detalhes e exemplos trabalhados). As fórmulas citadas acima derivam do trabalho de Roberts (1959, ROB1), mas Hunter (1986, HUN1) usa uma expressão da forma: que pode ser mais apropriada para uso em alguns procedimentos de controle. Com alfa 1, a estimativa média é simplesmente o seu valor medido (ou o valor do item de dados anterior). Com 0,5 a estimativa é a média móvel simples das medições atuais e anteriores. Nos modelos de previsão, o valor, S t. É freqüentemente usado como estimativa ou valor de previsão para o próximo período de tempo, ou seja, como a estimativa para x no tempo t 1. Assim, temos: Isto mostra que o valor da previsão no tempo t 1 é uma combinação da média móvel exponencialmente ponderada anterior Mais um componente que representa o erro de previsão ponderado, epsilon. No tempo t. Supondo que uma série de tempo é dada e uma previsão é necessária, um valor para alfa é necessário. Isto pode ser estimado a partir dos dados existentes, avaliando a soma dos erros de predição quadrados obtidos com valores variáveis ​​de alfa para cada t 2,3. Definindo a primeira estimativa como sendo o primeiro valor de dados observado, x 1. Em aplicações de controle o valor de alfa é importante na medida em que é usado na determinação dos limites de controle superior e inferior, e afeta o comprimento de execução médio (ARL) esperado Antes que esses limites de controle sejam quebrados (sob o pressuposto de que as séries temporais representam um conjunto de variáveis ​​independentes aleatoriamente distribuídas, com variância comum). Nestas circunstâncias, a variância da estatística de controlo é (Lucas e Saccucci, 1990): Os limites de controlo são normalmente definidos como múltiplos fixos desta variância assintótica, p. / - 3 vezes o desvio padrão. Se alfa 0,25, por exemplo, e os dados monitorados forem assumidos como tendo uma distribuição Normal, N (0,1), quando em controle, os limites de controle serão de - 1,134 eo processo atingirá um ou outro limite em 500 Passos em média. Lucas e Saccucci (1990 LUC1) derivam as ARLs para uma ampla gama de valores alfa e sob várias suposições usando procedimentos de Cadeia de Markov. Eles tabulam os resultados, incluindo o fornecimento de ARLs quando a média do processo de controle foi alterada por algum múltiplo do desvio padrão. Por exemplo, com um deslocamento 0,5 com alfa 0,25 o ARL é menos de 50 etapas de tempo. As abordagens descritas acima são conhecidas como suavização exponencial única. Como os procedimentos são aplicados uma vez para a série de tempo e, em seguida, análises ou processos de controle são realizadas no conjunto de dados suavizado resultante. Se o conjunto de dados incluir uma tendência e / ou componentes sazonais, a suavização exponencial de dois ou três estágios pode ser aplicada como um meio de remover (explicitamente modelar) esses efeitos (consulte a seção sobre Previsão abaixo e o exemplo trabalhado do NIST ). CHA1 Chatfield C (1975) A análise de séries de tempos: teoria e prática. Chapman e Hall, Londres HUN1 Hunter J S (1986) A média móvel exponencialmente ponderada. J of Quality Technology, 18, 203-210 LUC1 Lucas J M, Saccucci M S (1990) Esquemas de Controlo de Média Móvel Ponderados Exponencialmente: Propriedades e Melhoramentos. Technometrics, 32 (1), 1-12 ROB1 Roberts S W (1959) Testes de gráficos de controle baseados em médias móveis geométricas. Technometrics, 1, 239-250Often vezes podemos estar interessados ​​em gerar uma média móvel espacial de um X. característica Podemos usar essa média móvel para ajudar a controlar a heterogeneidade da população que pode estar relacionado com a distribuição espacial das observações. Para fazer isso precisamos ter um método de gerar uma média espacial. Eu código isso manualmente porque eu não tenho experiência com dados espaciais no Stata e não sei o que o comando embutido é (supondo que haja um). Se você está apenas procurando o meio espacial, então você pode favorecer o comando embutido. No entanto, este método é flexível e facilmente modificável se, por exemplo, você gostaria de usar medidas além da fórmula distância Euclides 2D e prefiro preferir a fórmula 3D ou fórmula nD realmente. Da mesma forma, a estatística média móvel pode ser facilmente substituída por variância móvel ou qualquer outra estatística que possa ser gerada através do comando egen. Assim, este exercício pode ser útil para examinar, mesmo se redundante. Global Nobs 1000 clear set Obs Nobs Gerar coordenadas 2D gen latt runiform () 100 gen longg runiform () 100 Gerar a variável de interesse. A variável terá um componente aleatório e um componente espacialmente dependente. Podemos ver que, embora haja uma tendência geral para valores maiores como longitude ou aumento de latitude, é difícil identificar qualquer padrão forte. Agora vamos calcular a média móvel de X para cada observação. (Provavelmente há um comando para isso que eu não sei). Gen Xave. Gen dist. Calcula a média de X se a distância estiver dentro do intervalo de interesse egen tempx mean (X) Se distltmeanrange substituir Xave tempx se ni gota tempx dois (scatter latt Xave) (scatter longg Xave) Agora, olhando para a média móvel podemos facilmente identificar visualmente o efeito de localização sobre o valor esperado de X.

No comments:

Post a Comment