Sunday 27 August 2017

Mudança média para remover sazonalidade


Implementação da planilha de ajuste sazonal e suavização exponencial É direto realizar ajustes sazonais e ajustar modelos de suavização exponencial usando o Excel. As imagens de tela e os gráficos abaixo são tirados de uma planilha que foi configurada para ilustrar o ajuste sazonal multiplicativo e o alisamento exponencial linear nos seguintes dados de vendas trimestrais da Outboard Marine: Para obter uma cópia do próprio arquivo de planilha, clique aqui. A versão do alisamento exponencial linear que será usada aqui para fins de demonstração é a versão Brown8217s, apenas porque pode ser implementada com uma única coluna de fórmulas e há apenas uma constante de suavização para otimizar. Normalmente, é melhor usar a versão Holt8217s que possui constantes de suavização separadas para nível e tendência. O processo de previsão prossegue da seguinte forma: (i) primeiro os dados são ajustados sazonalmente (ii), então, as previsões são geradas para os dados dessazonalizados por meio de alisamento exponencial linear e (iii) finalmente, as previsões sazonalmente ajustadas são quantitativas para obter previsões para a série original . O processo de ajuste sazonal é realizado nas colunas D a G. O primeiro passo no ajuste sazonal é calcular uma média móvel centrada (realizada aqui na coluna D). Isso pode ser feito tomando a média de duas médias de um ano que são compensadas por um período relativo um ao outro. (Uma combinação de duas médias de compensação em vez de uma única média é necessária para fins de centralização quando o número de estações é igual.) O próximo passo é calcular a proporção para a média móvel - i. e. Os dados originais divididos pela média móvel em cada período - o que é realizado aqui na coluna E. (Isso também é chamado de quottrend-cyclequot componente do padrão, na medida em que os efeitos da tendência e do ciclo comercial podem ser considerados como sendo tudo isso Permanece após uma média de um ano inteiro de dados. Claro, mudanças mensais que não são devidas à sazonalidade podem ser determinadas por muitos outros fatores, mas a média de 12 meses suaviza sobre eles em grande medida.) O índice sazonal estimado para cada estação é calculado primeiro calculando a média de todas as proporções para essa estação particular, o que é feito nas células G3-G6 usando uma fórmula AVERAGEIF. Os índices médios são então redimensionados de modo que somam exatamente 100 vezes o número de períodos em uma estação, ou 400 neste caso, o que é feito nas células H3-H6. Abaixo na coluna F, as fórmulas VLOOKUP são usadas para inserir o valor do índice sazonal apropriado em cada linha da tabela de dados, de acordo com o trimestre do ano que representa. A média móvel centrada e os dados ajustados sazonalmente acabam parecendo assim: Note que a média móvel normalmente se parece com uma versão mais suave da série sazonalmente ajustada, e é mais curta em ambas as extremidades. Outra planilha no mesmo arquivo do Excel mostra a aplicação do modelo de alisamento exponencial linear aos dados dessazonalizados, começando na coluna G. Um valor para a constante de alisamento (alfa) é inserido acima da coluna de previsão (aqui, na célula H9) e Por conveniência, é atribuído o nome do intervalo quotAlpha. quot (O nome é atribuído usando o comando quotInsertNameCreatequot.) O modelo LES é inicializado definindo as duas primeiras previsões iguais ao primeiro valor real da série dessazonalizada. A fórmula usada aqui para a previsão LES é a forma recursiva de equação única do modelo Brown8217s: Esta fórmula é inserida na célula correspondente ao terceiro período (aqui, célula H15) e copiada para baixo a partir daí. Observe que a previsão LES para o período atual refere-se às duas observações anteriores e aos dois erros de previsão precedentes, bem como ao valor de alpha. Assim, a fórmula de previsão na linha 15 refere-se apenas a dados que estavam disponíveis na linha 14 e anteriores. (Claro que, se desejássemos usar um alisamento exponencial simples em vez de linear, podemos substituir a fórmula SES aqui. Poderíamos também usar Holt8217s em vez do modelo LES Brown8217s, o que exigiria mais duas colunas de fórmulas para calcular o nível e a tendência Que são usados ​​na previsão.) Os erros são computados na próxima coluna (aqui, coluna J) subtraindo as previsões dos valores reais. O erro quadrático médio equivocado é calculado como a raiz quadrada da variância dos erros mais o quadrado da média. (Isto segue a identidade matemática: VARIÂNCIA MSE (erros) (MÉDIA (erros)) 2. No cálculo da média e variância dos erros nesta fórmula, os dois primeiros períodos são excluídos porque o modelo na verdade não inicia a previsão até O terceiro período (linha 15 na planilha). O valor ideal de alfa pode ser encontrado alterando o alfa manualmente até encontrar o RMSE mínimo, ou então você pode usar o quotSolverquot para executar uma minimização exata. O valor de alfa que o Solver encontrou é mostrado aqui (alfa0.471). Geralmente é uma boa idéia traçar os erros do modelo (em unidades transformadas) e também calcular e traçar suas autocorrelações em atrasos de até uma estação. Aqui está uma série de séries temporais dos erros (ajustados sazonalmente): as autocorrelações de erro são calculadas usando a função CORREL () para calcular as correlações dos erros com elas mesmas atrasadas por um ou mais períodos - os detalhes são mostrados no modelo de planilha . Aqui está um enredo das autocorrelações dos erros nos primeiros cinco atrasos: as autocorrelações nos intervalos 1 a 3 são muito próximas de zero, mas o pico no intervalo 4 (cujo valor é 0,35) é um pouco incômodo - sugere que a O processo de ajuste sazonal não foi completamente bem sucedido. No entanto, na verdade, é apenas marginalmente significativo. 95 bandas de significância para testar se as autocorrelações são significativamente diferentes de zero são mais ou menos 2SQRT (n-k), onde n é o tamanho da amostra e k é o atraso. Aqui n é 38 e k varia de 1 a 5, então a raiz quadrada de n-menos-k é em torno de 6 para todos eles e, portanto, os limites para testar a significância estatística de desvios de zero são aproximadamente mais - Ou-menos 26, ou 0,33. Se você variar o valor de alfa à mão neste modelo do Excel, você pode observar o efeito sobre os gráficos de séries temporais e autocorrelação dos erros, bem como sobre o erro da raiz-médio-quadrado, que será ilustrado abaixo. Na parte inferior da planilha, a fórmula de previsão é citada no futuro, simplesmente substituindo as previsões por valores reais no ponto em que os dados reais se esgotaram - ou seja. Onde quotthe futurequot começa. (Em outras palavras, em cada célula onde um futuro valor de dados ocorreria, uma referência de célula é inserida, que aponta para a previsão feita para esse período.) Todas as outras fórmulas são simplesmente copiadas de cima: Observe que os erros para as previsões de O futuro é calculado para ser zero. Isso não significa que os erros reais serão zero, mas sim reflete apenas o fato de que, para fins de predição, estamos assumindo que os dados futuros serão iguais às previsões em média. As previsões resultantes para os dados dessazonalizados são assim: com este valor particular de alfa, otimizado para previsões de um período de antecedência, a tendência projetada é ligeiramente ascendente, refletindo a tendência local observada nos últimos 2 anos ou então. Para outros valores de alfa, uma projeção de tendência muito diferente pode ser obtida. Geralmente é uma boa idéia ver o que acontece com a projeção de tendência de longo prazo quando o alfa é variado, porque o valor que é melhor para a previsão de curto prazo não será necessariamente o melhor valor para prever o futuro mais distante. Por exemplo, aqui está o resultado que é obtido se o valor de alfa for ajustado manualmente para 0.25: A tendência de longo prazo projetada é agora negativa e não positiva. Com um menor valor de alfa, o modelo está colocando mais peso em dados mais antigos em A estimativa do nível e da tendência atuais e suas previsões de longo prazo refletem a tendência de queda observada nos últimos 5 anos em vez da tendência ascendente mais recente. Este gráfico também ilustra claramente como o modelo com um menor valor de alfa é mais lento para responder a pontos de referência nos dados e, portanto, tende a fazer um erro do mesmo sinal por vários períodos seguidos. Seus erros de previsão de 1 passo à frente são maiores em média do que os obtidos anteriormente (RMSE de 34,4 em vez de 27,4) e fortemente auto-correlacionados positivamente. A autocorrelação de lag-1 de 0,56 excede muito o valor de 0,33 calculado acima para um desvio estatisticamente significativo de zero. Como uma alternativa para diminuir o valor do alfa, a fim de introduzir mais conservadorismo em previsões de longo prazo, um fator de amortecimento de quotstend às vezes é adicionado ao modelo para que a tendência projetada se aplique depois de alguns períodos. O passo final na construção do modelo de previsão é quantificar as expectativas do LES, multiplicando-os pelos índices sazonais apropriados. Assim, as previsões não submetidas à coluna I são simplesmente o produto dos índices sazonais na coluna F e as previsões LES corrigidas sazonalmente na coluna H. É relativamente fácil calcular intervalos de confiança para as previsões de um passo antes feitas por este modelo: primeiro Computa o RMSE (erro da raiz-médio-quadrado, que é apenas a raiz quadrada do MSE) e depois calcula um intervalo de confiança para a previsão ajustada sazonalmente, adicionando e subtraindo duas vezes o RMSE. (Em geral, um intervalo de confiança 95 para uma previsão de um período anterior é aproximadamente igual ao ponto de previsão mais-ou-menos-duas vezes o desvio padrão estimado dos erros de previsão, assumindo que a distribuição do erro é aproximadamente normal e o tamanho da amostra É grande o suficiente, digamos, 20 ou mais. Aqui, o RMSE em vez do desvio padrão da amostra dos erros é a melhor estimativa do desvio padrão dos futuros erros de previsão porque leva também o viés, bem como as variações aleatórias em conta.) Os limites de confiança Para a previsão ajustada sazonalmente são então resgatados. Juntamente com a previsão, multiplicando-os pelos índices sazonais apropriados. Nesse caso, o RMSE é igual a 27,4 e a previsão ajustada sazonalmente para o primeiro período futuro (dezembro-93) é 273,2. Então o intervalo de confiança 95 ajustado sazonalmente é de 273,2-227,4 218,4 a 273,2227,4 328,0. Multiplicando esses limites pelo índice sazonal Decembers de 68,61. Obtemos limites de confiança inferiores e superiores de 149,8 e 225,0 em torno da previsão do ponto 93 de 187,4. Os limites de confiança para as previsões mais de um período adiante geralmente se ampliarão conforme o horizonte de previsão aumenta, devido à incerteza sobre o nível e a tendência, bem como os fatores sazonais, mas é difícil computá-los em geral por métodos analíticos. (A maneira apropriada de calcular os limites de confiança para a previsão LES é usando a teoria ARIMA, mas a incerteza nos índices sazonais é outra questão.) Se você quer um intervalo de confiança realista para uma previsão de mais de um período adiante, tomando todas as fontes de Erro em sua conta, sua melhor aposta é usar métodos empíricos: por exemplo, para obter um intervalo de confiança para uma previsão anterior de 2 passos, você poderia criar outra coluna na planilha para calcular uma previsão de duas etapas para cada período ( Ao inicializar a previsão de um passo a frente). Em seguida, computa o RMSE dos erros de previsão de 2 passos antes e usa isso como base para um intervalo de confiança de 2 passos à frente.8216Tais a sazonalidade de suas métricas Algumas postagens de volta, examinei uma técnica simples para usar uma movimentação exponencial Média (EMA) em suas métricas de séries temporais. Isso tem a vantagem de suavizar as métricas e, ao mesmo tempo, manter um 8220memory8221 de todos os valores anteriores da métrica anterior. Ele também tem o benefício lateral de ser mais fácil de atualizar à medida que novos valores para suas métricas se tornam disponíveis. Desta vez, quero mostrar-lhe uma técnica para corrigir outro problema comum da série temporal: sazonalidade. Sim, suas métricas estão em queda em janeiro, mas é a queda normal das vendas após o feriado. Ou é o início de uma verdadeira tendência de baixa que você precisa manter um olho. O artigo ilustrará uma maneira rápida e simples de desestacionalizar seu dados. Let8217s trabalham através de um exemplo passo a passo: Imagine que estamos trabalhando em uma empresa de software onde o produto de nível empresarial possui um ciclo de vendas razoavelmente longo e nossa métrica é conversão real crua durante um quarto. Se você estivesse olhando suas métricas de vendas de conversão no gráfico acima, como você está ultimamente Melhor do que 2010, bem como 2011 Here8217s os dados brutos: Etapa 1: Recolher dados de métricas que retornam pelo menos 3 períodos de ciclo completo Para a maioria das pessoas, Isso significa dados trimestrais ou mensais que retornam três anos. Sim, você pode usar dados semanais ou diários, embora you8217ll geralmente queira suavizar esses dados (cha-ching. Outro ótimo uso para a média móvel exponencial). E, não deve ser durante todo um ano se o 8220seasons8221 os seus dados passarem não é medido pelos meses do calendário 8212, então, se você estiver olhando os dados do dia da semana, digamos, para comparar a forma como seus clientes atuam na segunda-feira Em relação a quinta-feira, então um bom 8-12 semanas de dados seria um mínimo inteligente. Passo 2: Compare como períodos de tempo para curtir períodos de tempo Por exemplo, veja todos os meses de janeiro ou todas as terças e calcule uma média. Aqui, uso uma média simples em vez da EMA. Como o EMA foi projetado para ser útil para o período de séries temporais, comparou seqüencialmente 8212 comparando fevereiro a janeiro que veio antes dele 8212 e não estamos fazendo isso aqui, mas estamos tratando os dados como dados puros e nosso objetivo final é Extraia as séries temporais sazonais. Etapa 3: Normalização Compare todas essas médias entre si e divida cada uma das médias com a média das médias, produzindo um fator estacional ajustado para esse período, em média, em comparação com o valor normal, referido como 8220normalização.8221 Isso É como comparamos 8220apples com as maçãs8221 em vários anos e no contexto de todo o efeito sazonal. Etapa 4: Divida cada ponto de dados original por seu fator estacionalmente ajustado Isso lhe dá um valor efetivo para essa métrica com o componente sazonal removido. Etapa 5: Conclusões do sorteio Veja esses novos dados desestacionalizados e extraie conclusões, se houver, dele. Agora que restauramos a sazonalidade das vendas, suas conclusões são diferentes. Olhando para os dados vermelhos, desesperados, com certeza, parece que o baixo de 2012 é ainda menor do que o final de 2010, e o 2012 isn8217t quase tão alto como Em 2011. Isso deve causar alguma consternação na próxima reunião de vendas. Claro, há um zilhão de ressalvas aqui. Seus dados são mesmo sazonais, em primeiro lugar. Olhando para a linha azul, o melhor que podemos dizer é 8220maybe8221 8212 it8217d seja ótimo ter mais dados. Talvez uma quebra mensal de dados em vez de trimestralmente. Outra advertência pode ser cíclica 8212 se o ciclo econômico dominar seu ciclo de vendas, então ele pode facilmente pular o componente sazonal 8212, mas se isso acontecer, por que o menor baixo em vendas de 2012 Então, minha pergunta este mês: quando você olha suas métricas , Você é responsável pela sazonalidade Ou você apenas olha para ver se os números são 8220up8221 no relatório mais recente. Você pode estar faltando uma visão chave. Algumas opiniões expressas neste artigo podem ser as de um autor convidado e não necessariamente da Marketing Land. Os autores da equipe estão listados aqui. Sobre o autor John Quarto-vonTivadar é um dos inventores da Persuasion Architecture e regularmente combate a inumerabilidade entre os comerciantes em sua série popular de Matemática para comerciantes. O best-seller de Johns 2008, Always Be Testing, escrito com o parceiro comercial Bryan Eisenberg, tem sido a referência padrão para otimização de conversão através do teste desde a sua versão e tem sido utilizado tanto para cursos acadêmicos quanto para treinamento corporativo. Tópicos relacionadosRemovação da sazonalidade diária Embora eu geralmente comece a olhar para dados de análise da web em um nível semanal ou mensal, há momentos em que é útil detalhar os números diários. Isso pode ser ao examinar o motivo de uma alteração nos dados ou simplesmente rever o desempenho do dia anterior8217s. Mas surge um problema que pode dificultar a interpretação e extrair informações úteis desses dados diários. A maioria das métricas, quando vistas ao nível diário, contêm uma forma de sazonalidade diária. Isso é mais claro em métricas, como visitas, visualizações de página ou vendas que são números absolutos. Há um padrão de re-ocorrência ao longo da semana com picos e calhas nos mesmos dias a cada semana. Um exemplo desse padrão pode ser visto na Figura 1 abaixo. Embora isso faça com que qualquer gráfico seja muito interessante, dificulta identificar realmente as tendências ou os pontos nos dados. É um ponto de dados alto porque houve um aumento ou porque era uma segunda. É feriado escolar, mas o número de visitas nesse Sat realmente é tão baixo. E, claro, de que dia começamos a ver o declínio do tráfego e quanto? De uma mudança é realmente Um método comum usado para remover a sazonalidade diária é suavizar a linha usando uma média móvel. Como é um padrão semanal, uma média móvel de sete pontos deve levar a uma boa linha suave. Infelizmente, como pode ser visto na Figura 2, isso significa que você obtém uma boa linha suave, escondendo a maioria desses picos interessantes e mudanças nas etapas e tendências gerais de dados. Você pode ver as tendências gerais, mas você não pode identificar determinados dias em que ocorreu uma alteração. Também é difícil identificar claramente uma mudança imediatamente, pois cada dia apenas contribui um sétimo para cada ponto de dados. O que eu recomendo fazer é remover a sazonalidade diária de cada ponto de dados, resultando em uma linha que não é afetada por qual dia da semana é. Usar este método significa que é claro para ver se o desempenho a cada dia foi bom ou ruim. Por exemplo, na Figura 3, pode-se ver que o dia relativamente pior para as visitas foi na verdade o 25 de agosto, embora as visitas desse dia tenham sido superiores às demais dias durante o período relatado. A técnica para remover a sazonalidade diária pode ser aplicada a cada dia, o que significa que você pode identificar e reagir a uma mudança no desempenho imediatamente. A dificuldade então é calcular a sazonalidade diária durante uma semana. Isso pode ser feito corretamente usando o SPSS ou uma ferramenta semelhante, mas uso uma solução rápida de hack no Excel que, embora não seja 100 precisa, faz o trabalho. As etapas para calcular a sazonalidade diária para uma métrica (usando os exemplos de visitas) são as seguintes, com o exemplo exibido na Figura 4: Extraia dados históricos de visitas diárias. Você precisará de pelo menos 6 semanas, mais se o período incluir um número conhecido de fatores que podem afetar o tráfego, e. Férias escolares, feriados, lançamentos de produtos, campanhas de marketing, etc. Reordene os dados para que cada coluna contenha uma única semana e cada linha contém apenas dados para um determinado dia da semana. Recrie esta tabela, mas substitua as visitas por cada dia com as visitas que contribuíram para o total de visitas naquela semana. Adicione mais duas colunas para calcular a média e a mediana para cada linha de dados. Exclua todas as semanas que contêm dias que não refletem o padrão geral. Neste exemplo, as semanas 5 e 6 foram excluídas. Neste ponto, a média e a mediana devem ser relativamente similares para cada dia da semana. O padrão de sazonalidade diária é conseguido multiplicando a média diária por 7. Este padrão de sazonalidade diária pode então ser usado para remover a sazonalidade diária dessa métrica para qualquer dia. Basta dividir o valor de cada dia pela sazonalidade diária relevante para removê-lo. Eu geralmente faço isso usando um vlookup contra o dia da semana para cada data. Voltando ao motivo da análise da web, você pode usar esta técnica para limpar os dados para que você possa identificar instantaneamente os dias bons e ruins, seja ele dados históricos ou apenas para o dia anterior. Se você estiver usando isso para dados históricos, você pode identificar os dias interessantes para investigar mais (jogar com segmentação). Se você estiver usando em uma base contínua, você pode ver instantaneamente como foi o desempenho no dia anterior e, se necessário, investigar e reagir de acordo com uma mudança. Atualmente, para poder fazer esse tipo de análise, você precisa extrair os dados para o Excel. Esperemos que um dia, as ferramentas de análise da web permitirão carregar um padrão de sazonalidade diário para uma métrica para que você possa exibir os dados diários com esta sazonalidade removida. E o meu sonho é uma ferramenta que incorporaria a capacidade de criar automaticamente o padrão para qualquer métrica selecionada (com manual sobre os passeios para ajustar, é claro). O outro uso de chave que eu encontrei para um padrão de sazonalidade diária é que ele pode ser usado na previsão dos níveis diários de tráfego. Se você é capaz de prever o que o tráfego da semana8217 deve ser, isso pode ser facilmente multiplicado usando o padrão de sazonalidade diária para prever o tráfego em um nível diário. Uma cópia do arquivo do Excel contendo todos os dados, gráficos e fórmulas usados ​​nos exemplos acima pode ser baixada aqui 8211 Daily Seasonality File. Esta publicação foi originalmente publicada em AussieWebAnalys t em 26 de novembro de 827070

No comments:

Post a Comment