Monday 28 October 2019

Loess vs moving average


LOESS é um dos muitos métodos de modelagem modernos que se baseiam em métodos clássicos, como a regressão dos mínimos quadrados linear e não linear. Métodos de regressão modernos são projetados para abordar situações em que os procedimentos clássicos não funcionam bem ou não podem ser efetivamente aplicados sem mão-de-obra indevida. LOESS combina grande parte da simplicidade da regressão dos mínimos quadrados lineares com a flexibilidade da regressão não linear. Ele faz isso ajustando modelos simples para subconjuntos localizados dos dados para criar uma função que descreve a parte determinística da variação nos dados. ponto por ponto. Na verdade, uma das atrações principais deste método é que o analista de dados não é necessário para especificar uma função global de qualquer forma para caber um modelo aos dados, apenas para caber segmentos dos dados. O trade-off para esses recursos é o aumento da computação. Por ser tão computacionalmente intensivo, LOESS teria sido praticamente impossível de usar na era quando a regressão dos mínimos quadrados estava sendo desenvolvida. A maioria dos outros métodos modernos para modelagem de processos são semelhantes a LOESS a este respeito. Esses métodos foram conscientemente projetados para usar nossa capacidade computacional atual com a maior vantagem possível para alcançar objetivos que não são facilmente alcançados por abordagens tradicionais. Definição de um LOESS Modelo LOESS, originalmente proposto por Cleveland (1979) e desenvolvido por Cleveland e Devlin (1988). Indica especificamente um método que é (um tanto) mais descritivamente conhecido como regressão polinomial ponderada localmente. Em cada ponto do conjunto de dados, um polinômio de baixo grau é adequado a um subconjunto dos dados, com valores variáveis ​​explicativos próximos do ponto cuja resposta está sendo estimada. O polinômio é adequado, utilizando os mínimos quadrados ponderados, dando mais peso aos pontos próximos do ponto cuja resposta está sendo estimada e menos peso em pontos mais distantes. O valor da função de regressão para o ponto é então obtido através da avaliação do polinômio local usando os valores da variável explicativa para esse ponto de dados. O ajuste LOESS está completo depois que os valores da função de regressão foram computados para cada um dos (n) pontos de dados. Muitos dos detalhes desse método, como o grau do modelo polinomial e os pesos, são flexíveis. O intervalo de opções para cada parte do método e padrões típicos são brevemente discutidos a seguir. Subconjuntos Localizados de Dados Os subconjuntos de dados usados ​​para cada quadrado mínimo ponderado ajustados em LOESS são determinados pelo algoritmo vizinho mais próximo. Uma entrada especificada pelo usuário para o procedimento chamado de largura de banda ou parâmetro de suavização determina a quantidade de dados utilizada para caber em cada polinômio local. O parâmetro de suavização, (q) é um número entre ((d1) n) e (1), com (d) denotando o grau do polinômio local. O valor de (q) é a proporção de dados utilizados em cada ajuste. O subconjunto de dados utilizados em cada ajuste de mínimos quadrados ponderados é composto pelos pontos (nq) (arredondados para o inteiro maior seguinte) cujos valores de variáveis ​​explicativas estão mais próximos do ponto em que a resposta está sendo estimada. (Q) é chamado de parâmetro de suavização porque controla a flexibilidade da função de regressão LOESS. Valores grandes de (q) produzem as funções mais suaves que mais minguam em resposta a flutuações nos dados. Quanto menor (q) é, mais próxima a função de regressão será conforme aos dados. Usar um valor muito pequeno do parâmetro de suavização não é desejável, no entanto, uma vez que a função de regressão eventualmente começará a capturar o erro aleatório nos dados. Os valores úteis do parâmetro de suavização geralmente estão no intervalo de 0,25 a 0,5 para a maioria das aplicações LOESS. Grau de polinômios locais Os polinômios locais adequados a cada subconjunto dos dados são quase sempre de primeiro ou segundo grau, ou seja, localmente linear (no sentido da linha reta) ou localmente quadrático. Usar um polinômio de zero grau transforma LOESS em uma média móvel ponderada. Um modelo local tão simples pode funcionar bem para algumas situações, mas nem sempre pode aproximar a função subjacente o suficiente. Os polinômios de maior grau funcionariam em teoria, mas produzem modelos que não estão realmente no espírito de LOESS. LOESS baseia-se nas ideias de que qualquer função pode ser bem aproximada em um pequeno bairro por um polinômio de baixa ordem e que modelos simples podem ser adequados aos dados com facilidade. Os polinômios de alto grau tendem a superar os dados em cada subconjunto e são numericamente instáveis, dificultando os cálculos precisos. Conforme mencionado acima, a função de peso dá o maior peso aos pontos de dados mais próximos do ponto de estimativa e o menor peso para os pontos de dados que estão mais longe. O uso dos pesos baseia-se na idéia de que os pontos próximos uns dos outros no espaço variável explicativo são mais prováveis ​​de estar relacionados um ao outro de maneira simples do que pontos que estão mais distantes. Seguindo essa lógica, os pontos que provavelmente seguirão o modelo local, melhor influência, o parâmetro do modelo local estima mais. Os pontos que são menos propensos a se conformarem com o modelo local têm menos influência nas estimativas dos parâmetros do modelo local. A função de peso tradicional usada para LOESS é a função de peso tri-cubo, w (x) esquerda (1 - x3) 3 mboxHá uma série de abordagens para modelar séries temporais. Descrevemos algumas das abordagens mais comuns abaixo. Trend, Seasonal, Decomposições Residuais Uma abordagem é decompor as séries temporais em uma componente de tendência, sazonal e residual. O abrandamento exponencial triplo é um exemplo desta abordagem. Outro exemplo, chamado loess sazonal, é baseado em mínimos quadrados localmente ponderados e é discutido por Cleveland (1993). Não discutimos o loess sazonal neste manual. Métodos baseados em frequência Outra abordagem, comumente usada em aplicações científicas e de engenharia, é analisar a série no domínio da freqüência. Um exemplo dessa abordagem na modelagem de um conjunto de dados de tipo sinusoidal é mostrado no estudo de caso de deflexão do feixe. O gráfico espectral é a ferramenta principal para a análise de freqüência de séries temporais. Modelos Autoregressivos (AR) Uma abordagem comum para modelar séries temporais univariadas é o modelo autorregressivo (AR): Xt delta phi1 X phi2 X cdots phip X At, onde (Xt) é a série temporal, (At) é ruído branco e delta Esquerda (1 - sum p phii right) mu. Com (mu) denotando o processo significa. Um modelo autoregressivo é simplesmente uma regressão linear do valor atual da série contra um ou mais valores anteriores da série. O valor de (p) é chamado de ordem do modelo AR. Os modelos AR podem ser analisados ​​com um dos vários métodos, incluindo técnicas de mínimos quadrados padrão padrão. Eles também têm uma interpretação direta. Modelos de média móvel (MA) Outra abordagem comum para modelar modelos de séries temporais univariáveis ​​é o modelo de média móvel (MA): Xt mu At - theta1 A - theta2 A - cdots - thetaq A, onde (Xt) é a série temporal, (mu ) É a média da série, (A) são termos de ruído branco e (theta1, ldots,, thetaq) são os parâmetros do modelo. O valor de (q) é chamado de ordem do modelo MA. Ou seja, um modelo de média móvel é conceitualmente uma regressão linear do valor atual da série contra o ruído branco ou choques aleatórios de um ou mais valores prévios da série. Os choques aleatórios em cada ponto são assumidos como provenientes da mesma distribuição, geralmente uma distribuição normal, com localização em zero e escala constante. A distinção neste modelo é que esses choques aleatórios são propagados a valores futuros das séries temporais. Ajustar as estimativas MA é mais complicado do que com os modelos AR porque os termos de erro não são observáveis. Isso significa que os procedimentos iterativos de encadernação não linear precisam ser usados ​​em lugar de mínimos quadrados lineares. Os modelos MA também têm uma interpretação menos óbvia do que os modelos AR. Às vezes, o ACF e o PACF sugerem que um modelo de MA seria uma escolha de modelo melhor e, por vezes, ambos os termos de AR e MA devem ser usados ​​no mesmo modelo (ver Seção 6.4.4.5). Note, no entanto, que os termos de erro após o ajuste do modelo devem ser independentes e seguir os pressupostos padrão para um processo univariado. Box e Jenkins popularizaram uma abordagem que combina a média móvel e as abordagens autorregressivas no livro Time Series Analysis: Forecasting and Control (Box, Jenkins e Reinsel, 1994). Embora as abordagens médias autorregressivas e móveis já tenham sido conhecidas (e foram originalmente investigadas por Yule), a contribuição de Box e Jenkins foi no desenvolvimento de uma metodologia sistemática para identificar e estimar modelos que poderiam incorporar ambas as abordagens. Isso faz com que os modelos Box-Jenkins sejam uma classe de modelos poderosa. As próximas secções discutirão esses modelos em detalhes.

No comments:

Post a Comment