Monday, 2 January 2017

Tendance Moyenne Tendance Estimation

Les modèles ARIMA sont, en théorie, la classe la plus générale de modèles pour la prévision d'une série temporelle qui peut être rendue 8220stationnaire8221 par la différenciation (si nécessaire), peut-être que les modèles ARIMA (p, d, q) En conjonction avec des transformations non linéaires telles que l'abattage ou le dégonflage (si nécessaire). Une variable aléatoire qui est une série temporelle est stationnaire si ses propriétés statistiques sont toutes constantes dans le temps. Une série stationnaire n'a pas de tendance, ses variations autour de sa moyenne ont une amplitude constante, et elle se balance d'une manière cohérente. C'est-à-dire que ses schémas de temps aléatoires à court terme ont toujours la même signification statistique. Cette dernière condition signifie que ses autocorrélations (corrélations avec ses propres écarts précédents par rapport à la moyenne) restent constantes dans le temps, ou de manière équivalente, que son spectre de puissance reste constant dans le temps. Une variable aléatoire de cette forme peut être considérée (comme d'habitude) comme une combinaison de signal et de bruit, et le signal (si l'on est apparent) pourrait être un modèle de réversion moyenne rapide ou lente, ou oscillation sinusoïdale, ou alternance rapide de signe , Et il pourrait également avoir une composante saisonnière. Un modèle ARIMA peut être considéré comme un 8220filter8221 qui essaie de séparer le signal du bruit, et le signal est ensuite extrapolé dans l'avenir pour obtenir des prévisions. L'équation de prévision d'ARIMA pour une série temporelle stationnaire est une équation linéaire (c'est-à-dire de type régression) dans laquelle les prédicteurs sont constitués par des décalages de la variable dépendante et / ou des décalages des erreurs de prévision. Valeur prédite de Y une constante et / ou une somme pondérée d'une ou plusieurs valeurs récentes de Y et / ou d'une somme pondérée d'une ou plusieurs valeurs récentes des erreurs. Si les prédicteurs ne se composent que de valeurs décalées de Y., il s'agit d'un modèle autoregressif pur (8220 auto-régressé8221), qui n'est qu'un cas particulier d'un modèle de régression et qui pourrait être équipé d'un logiciel de régression standard. Par exemple, un modèle autorégressif de premier ordre (8220AR (1) 8221) pour Y est un modèle de régression simple dans lequel la variable indépendante est juste Y retardée d'une période (LAG (Y, 1) dans Statgraphics ou YLAG1 dans RegressIt). Si certains des prédicteurs sont des retards des erreurs, un modèle ARIMA, il n'est pas un modèle de régression linéaire, parce qu'il n'y a aucun moyen de spécifier 8220last période8217s error8221 comme une variable indépendante: les erreurs doivent être calculées sur une période à la période de base Lorsque le modèle est adapté aux données. Du point de vue technique, le problème de l'utilisation d'erreurs retardées comme prédicteurs est que les prédictions du modèle 8217 ne sont pas des fonctions linéaires des coefficients. Même s'ils sont des fonctions linéaires des données passées. Ainsi, les coefficients dans les modèles ARIMA qui incluent des erreurs retardées doivent être estimés par des méthodes d'optimisation non linéaires (8220hill-climbing8221) plutôt que par la simple résolution d'un système d'équations. L'acronyme ARIMA signifie Auto-Regressive Integrated Moving Average. Les Lags des séries stationnaires dans l'équation de prévision sont appelés termes contingentoréducteurs, les retards des erreurs de prévision sont appelés quotmoving termes moyens et une série temporelle qui doit être différenciée pour être stationnaire est dit être une version quotintegratedquot d'une série stationnaire. Les modèles de Random-Walk et de tendance aléatoire, les modèles autorégressifs et les modèles exponentiels de lissage sont tous des cas particuliers de modèles ARIMA. Un modèle ARIMA non saisonnier est classé comme un modèle quotARIMA (p, d, q), où: p est le nombre de termes autorégressifs, d est le nombre de différences non saisonnières nécessaires pour la stationnarité, et q est le nombre d'erreurs de prévision retardées dans L'équation de prédiction. L'équation de prévision est construite comme suit. En premier lieu, y désigne la différence d ème de Y. ce qui signifie: Notez que la deuxième différence de Y (le cas d2) n'est pas la différence de 2 périodes. Au contraire, c'est la première différence de la première différence. Qui est l'analogue discret d'une seconde dérivée, c'est-à-dire l'accélération locale de la série plutôt que sa tendance locale. En termes de y. L'équation de prévision générale est: Ici, les paramètres de la moyenne mobile (9528217s) sont définis de sorte que leurs signes soient négatifs dans l'équation, suivant la convention introduite par Box et Jenkins. Certains auteurs et logiciels (y compris le langage de programmation R) les définissent de sorte qu'ils ont des signes plus à la place. Lorsque les nombres réels sont branchés dans l'équation, il n'y a pas d'ambiguïté, mais il est important de savoir quelle convention votre logiciel utilise lorsque vous lisez la sortie. Souvent, les paramètres y sont indiqués par AR (1), AR (2), 8230 et MA (1), MA (2), 8230, etc. Pour identifier le modèle ARIMA approprié pour Y. vous commencez par déterminer l'ordre de différenciation D) le besoin de stationner la série et de supprimer les caractéristiques brutes de la saisonnalité, peut-être en conjonction avec une transformation de stabilisation de la variance telle que l'abattage ou le dégonflage. Si vous vous arrêtez à ce point et que vous prédisez que la série différenciée est constante, vous avez simplement mis en place une marche aléatoire ou un modèle de tendance aléatoire. Cependant, la série stationnaire peut toujours avoir des erreurs autocorrélées, ce qui suggère qu'un certain nombre de termes AR (p 8805 1) et / ou certains termes MA (q 8805 1) sont également nécessaires dans l'équation de prévision. Le processus de détermination des valeurs de p, d et q qui sont les meilleurs pour une série temporelle donnée sera discuté dans des sections ultérieures des notes (dont les liens sont en haut de cette page), mais un aperçu de certains des types Des modèles non saisonniers ARIMA qui sont couramment rencontrés est donné ci-dessous. ARIMA (1,0,0) modèle autorégressif de premier ordre: si la série est stationnaire et autocorrélée, peut-être peut-elle être prédite comme un multiple de sa propre valeur précédente, plus une constante. L'équation de prévision dans ce cas est 8230 qui est Y régressée sur elle-même décalée d'une période. Il s'agit d'un 8220ARIMA (1,0,0) constant8221 modèle. Si la moyenne de Y est nulle, alors le terme constant ne serait pas inclus. Si le coefficient de pente 981 1 est positif et inférieur à 1 dans l'amplitude (il doit être inférieur à 1 dans l'amplitude si Y est stationnaire), le modèle décrit le comportement de réverbération moyen dans lequel la valeur de la prochaine période doit être prédite 981 fois Loin de la valeur moyenne de cette période. Si 981 1 est négatif, il prédit un comportement de réversion moyenne avec alternance de signes, c'est-à-dire qu'il prédit également que Y sera inférieur à la moyenne de la période suivante si elle est supérieure à la moyenne de cette période. Dans un modèle autorégressif du second ordre (ARIMA (2,0,0)), il y aurait un terme Y t-2 sur la droite aussi, et ainsi de suite. Selon les signes et les grandeurs des coefficients, un modèle ARIMA (2,0,0) pourrait décrire un système dont la réversion moyenne se fait d'une manière oscillatoire sinusoïdale, comme le mouvement d'une masse sur un ressort soumis à des chocs aléatoires . Randonnée aléatoire ARIMA (0,1,0): Si la série Y n'est pas stationnaire, le modèle le plus simple possible est un modèle de marche aléatoire, qui peut être considéré comme un cas limite d'un modèle AR (1) dans lequel le modèle autorégressif Coefficient est égal à 1, c'est-à-dire une série à réversion moyenne infiniment lente. L'équation de prédiction pour ce modèle peut s'écrire: où le terme constant est le changement moyen de période à période (c'est-à-dire la dérive à long terme) dans Y. Ce modèle pourrait être adapté comme un modèle de régression sans interception dans lequel La première différence de Y est la variable dépendante. Comme il comprend une différence non saisonnière et un terme constant, il est classé en tant que modèle de type ARIMA (0,1,0) avec constant. quot Le modèle aléatoire-sans-dérive serait un ARIMA (0,1, 0) modèle sans modèle constant autorimétrique ARIMA (1,1,0) différencié: Si les erreurs d'un modèle de marche aléatoire sont autocorrélées, peut-être le problème peut-il être fixé en ajoutant un décalage de la variable dépendante à l'équation de prédiction - - c'est à dire En faisant régresser la première différence de Y sur elle-même décalée d'une période. Cela donnerait l'équation de prédiction suivante: qui peut être réarrangée à. Ceci est un modèle autorégressif de premier ordre avec un ordre de différenciation non saisonnière et un terme constant - c'est-à-dire. Un modèle ARIMA (1,1,0). ARIMA (0,1,1) sans lissage exponentiel simple constant: Une autre stratégie pour corriger les erreurs autocorrélées dans un modèle de marche aléatoire est suggérée par le modèle de lissage exponentiel simple. Rappelons que pour certaines séries temporelles non stationnaires (par exemple celles qui présentent des fluctuations bruyantes autour d'une moyenne variable lentement), le modèle de marche aléatoire n'obtient pas une moyenne mobile des valeurs passées. En d'autres termes, plutôt que de prendre l'observation la plus récente comme la prévision de la prochaine observation, il est préférable d'utiliser une moyenne des dernières observations afin de filtrer le bruit et de mieux estimer la moyenne locale. Le modèle de lissage exponentiel simple utilise une moyenne mobile exponentiellement pondérée des valeurs passées pour obtenir cet effet. L'équation de prédiction pour le modèle de lissage exponentiel simple peut être écrite en un certain nombre de formes mathématiquement équivalentes. Dont l'une est la forme dite de correction d'erreur 8221, dans laquelle la prévision précédente est ajustée dans la direction de l'erreur qu'elle a faite: Comme e t-1 Y t-1 - 374 t-1 par définition, ceci peut être réécrit comme : Qui est une équation de prévision ARIMA (0,1,1) sans constante avec 952 1 1 - 945. Cela signifie que vous pouvez ajuster un lissage exponentiel simple en le spécifiant comme un modèle ARIMA (0,1,1) sans Constante, et le coefficient MA (1) estimé correspond à 1-moins-alpha dans la formule SES. Rappelons que dans le modèle SES, l'âge moyen des données dans les prévisions de 1 période à venir est de 1 945. ce qui signifie qu'ils auront tendance à être en retard par rapport aux tendances ou aux points de retournement d'environ 1 945 périodes. Il s'ensuit que l'âge moyen des données dans les prévisions à 1 période d'un modèle ARIMA (0,1,1) sans modèle constant est de 1 (1 - 952 1). Ainsi, par exemple, si 952 1 0.8, l'âge moyen est 5. Alors que 952 1 approche de 1, le modèle ARIMA (0,1,1) sans constante devient une moyenne mobile à très long terme et 952 1 Approche 0, il devient un modèle aléatoire-marche-sans-dérive. Dans les deux modèles précédents décrits ci-dessus, le problème des erreurs autocorrélées dans un modèle de marche aléatoire a été fixé de deux manières différentes: en ajoutant une valeur décalée de la série différenciée À l'équation ou en ajoutant une valeur décalée de l'erreur de prévision. Quelle approche est la meilleure Une règle de base pour cette situation, qui sera discutée plus en détail plus tard, est que l'autocorrélation positive est le mieux traitée en ajoutant un terme AR au modèle et l'autocorrélation négative est généralement mieux traitée en ajoutant un Terme MA. Dans les séries économiques et économiques, l'autocorrélation négative apparaît souvent comme un artefact de différenciation. (En général, la différenciation réduit l'autocorrélation positive et peut même provoquer un basculement de l'autocorrélation positive à négative.) Ainsi, le modèle ARIMA (0,1,1), dans lequel la différenciation est accompagnée d'un terme MA, est plus souvent utilisé qu'un Modèle ARIMA (1,1,0). ARIMA (0,1,1) avec lissage exponentiel simple et constant avec croissance: En implémentant le modèle SES en tant que modèle ARIMA, vous gagnez en fait une certaine souplesse. Tout d'abord, le coefficient de MA (1) estimé peut être négatif. Cela correspond à un facteur de lissage supérieur à 1 dans un modèle SES, ce qui n'est généralement pas autorisé par la procédure de montage du modèle SES. Deuxièmement, vous avez la possibilité d'inclure un terme constant dans le modèle ARIMA si vous le souhaitez, afin d'estimer une tendance moyenne non nulle. Le modèle ARIMA (0,1,1) avec constante a l'équation de prédiction: Les prévisions à une période de ce modèle sont qualitativement similaires à celles du modèle SES, sauf que la trajectoire des prévisions à long terme est typiquement un (Dont la pente est égale à mu) plutôt qu'une ligne horizontale. ARIMA (0,2,1) ou (0,2,2) sans lissage exponentiel linéaire constant: Les modèles de lissage exponentiel linéaire sont des modèles ARIMA qui utilisent deux différences non saisonnières en conjonction avec des termes MA. La seconde différence d'une série Y n'est pas simplement la différence entre Y et elle-même retardée par deux périodes, mais plutôt c'est la première différence de la première différence - i. e. Le changement de la variation de Y à la période t. Ainsi, la deuxième différence de Y à la période t est égale à (Y t - Y t-1) - (Y t-1 - Y t-2) Y t - 2Y t-1 Y t-2. Une seconde différence d'une fonction discrète est analogue à une dérivée seconde d'une fonction continue: elle mesure la quotation ou la quotcurvature dans la fonction à un moment donné. Le modèle ARIMA (0,2,2) sans constante prédit que la seconde différence de la série est égale à une fonction linéaire des deux dernières erreurs de prévision: qui peuvent être réarrangées comme: où 952 1 et 952 2 sont les MA (1) et MA (2) coefficients. Il s'agit d'un modèle de lissage exponentiel linéaire général. Essentiellement le même que le modèle Holt8217s, et le modèle Brown8217s est un cas spécial. Il utilise des moyennes mobiles exponentiellement pondérées pour estimer à la fois un niveau local et une tendance locale dans la série. Les prévisions à long terme de ce modèle convergent vers une droite dont la pente dépend de la tendance moyenne observée vers la fin de la série. ARIMA (1,1,2) sans lissage exponentiel linéaire à tendance amortie constante. Ce modèle est illustré dans les diapositives accompagnant les modèles ARIMA. Il extrapole la tendance locale à la fin de la série, mais l'aplatit à des horizons de prévision plus longs pour introduire une note de conservatisme, une pratique qui a un soutien empirique. Voir l'article sur Quest pourquoi la Tendance amortie travaille par Gardner et McKenzie et l'article de Golden Rulequot par Armstrong et al. Pour plus de détails. Il est généralement conseillé de s'en tenir à des modèles dans lesquels au moins l'un de p et q n'est pas supérieur à 1, c'est-à-dire ne pas essayer d'adapter un modèle tel que ARIMA (2,1,2), car cela entraînera vraisemblablement un overfitting Et quotcommon-factorquot qui sont discutés plus en détail dans les notes sur la structure mathématique des modèles ARIMA. Implémentation de la feuille de calcul: Les modèles ARIMA tels que ceux décrits ci-dessus sont faciles à mettre en œuvre sur une feuille de calcul. L'équation de prédiction est simplement une équation linéaire qui fait référence aux valeurs passées des séries temporelles originales et des valeurs passées des erreurs. Ainsi, vous pouvez configurer une table de prévision ARIMA en stockant les données dans la colonne A, la formule de prévision dans la colonne B et les erreurs (données moins les prévisions) dans la colonne C. La formule de prévision dans une cellule typique de la colonne B serait tout simplement Une expression linéaire se référant à des valeurs dans les lignes précédentes des colonnes A et C multipliées par les coefficients AR ou MA appropriés stockés dans des cellules ailleurs sur la feuille de calcul. Modèles de lissage et de lissage exponentiel Comme première étape pour aller au-delà des modèles moyens, , Et les modèles de tendances linéaires, les tendances non saisonnières et les tendances peuvent être extrapolés à l'aide d'un modèle de moyenne mobile ou de lissage. L'hypothèse de base derrière les modèles de moyenne et de lissage est que la série temporelle est localement stationnaire avec une moyenne lentement variable. Par conséquent, nous prenons une moyenne mobile (locale) pour estimer la valeur actuelle de la moyenne, puis nous l'utilisons comme prévision pour le proche avenir. Cela peut être considéré comme un compromis entre le modèle moyen et le modèle randonnée aléatoire sans dérive. La même stratégie peut être utilisée pour estimer et extrapoler une tendance locale. Une moyenne mobile est souvent appelée une version quotsmoothedquot de la série originale parce que la moyenne à court terme a pour effet de lisser les bosses dans la série d'origine. En ajustant le degré de lissage (la largeur de la moyenne mobile), on peut espérer trouver un équilibre optimal entre la performance des modèles de marche moyenne et aléatoire. Le modèle le plus simple de la moyenne est le. Moyenne mobile simple (également pondérée): La prévision de la valeur de Y à l'instant t1 qui est faite à l'instant t est égale à la moyenne simple des observations m les plus récentes: (Ici et ailleurs, je vais utiliser le symbole 8220Y-hat8221 pour me tenir Pour une prévision de la série temporelle Y faite le plus tôt possible par un modèle donné). Cette moyenne est centrée à la période t (m1) 2, ce qui implique que l'estimation de la moyenne locale aura tendance à se situer en deçà du vrai Valeur de la moyenne locale d'environ (m1) 2 périodes. Ainsi, nous disons que l'âge moyen des données dans la moyenne mobile simple est (m1) 2 par rapport à la période pour laquelle la prévision est calculée: c'est le temps pendant lequel les prévisions auront tendance à être en retard par rapport aux points de retournement dans les données . Par exemple, si vous faites la moyenne des 5 dernières valeurs, les prévisions seront environ 3 périodes en retard pour répondre aux points de retournement. Notez que si m1, le modèle de moyenne mobile simple (SMA) est équivalent au modèle de marche aléatoire (sans croissance). Si m est très grand (comparable à la longueur de la période d'estimation), le modèle SMA est équivalent au modèle moyen. Comme pour tout paramètre d'un modèle de prévision, il est courant d'ajuster la valeur de k afin d'obtenir le meilleur rapport entre les données, c'est-à-dire les erreurs de prévision les plus faibles en moyenne. Voici un exemple d'une série qui semble présenter des fluctuations aléatoires autour d'une moyenne lentement variable. Tout d'abord, essayons de l'adapter à un modèle de marche aléatoire, ce qui équivaut à une moyenne mobile simple de 1 terme: Le modèle de marche aléatoire répond très rapidement aux changements dans la série, mais en le faisant, il choisit une grande partie du quotnoise dans le Données (les fluctuations aléatoires) ainsi que le quotsignalquot (la moyenne locale). Si nous essayons plutôt une moyenne mobile simple de 5 termes, nous obtenons un ensemble plus lisse de prévisions: La moyenne mobile simple à 5 termes génère des erreurs beaucoup plus faibles que le modèle de marche aléatoire dans ce cas. L'âge moyen des données de cette prévision est de 3 ((51) 2), de sorte qu'il tend à être en retard par rapport aux points de retournement d'environ trois périodes. (Par exemple, un ralentissement semble avoir eu lieu à la période 21, mais les prévisions ne tournent pas jusqu'à plusieurs périodes plus tard.) Notez que les prévisions à long terme du modèle SMA sont une ligne droite horizontale, tout comme dans la marche aléatoire modèle. Ainsi, le modèle SMA suppose qu'il n'y a pas de tendance dans les données. Cependant, alors que les prévisions du modèle randonnée aléatoire sont tout simplement égales à la dernière valeur observée, les prévisions du modèle SMA sont égales à une moyenne pondérée des valeurs récentes. Les limites de confiance calculées par Statgraphics pour les prévisions à long terme de la moyenne mobile simple ne s'élargissent pas à mesure que l'horizon de prévision augmente. Ce n'est évidemment pas correct Malheureusement, il n'existe pas de théorie statistique sous-jacente qui nous indique comment les intervalles de confiance devraient élargir pour ce modèle. Cependant, il n'est pas trop difficile de calculer des estimations empiriques des limites de confiance pour les prévisions à plus long terme. Par exemple, vous pouvez créer une feuille de calcul dans laquelle le modèle SMA sera utilisé pour prévoir 2 étapes à venir, 3 étapes à venir, etc. dans l'exemple de données historiques. Vous pouvez ensuite calculer les écarts types des erreurs à chaque horizon de prévision, puis construire des intervalles de confiance pour les prévisions à long terme en ajoutant et en soustrayant des multiples de l'écart-type approprié. Si nous essayons une moyenne mobile simple de 9 termes, nous obtenons des prévisions encore plus lisses et plus d'un effet de retard: L'âge moyen est maintenant 5 périodes ((91) 2). Si l'on prend une moyenne mobile à 19 mois, l'âge moyen passe à 10: On remarque que les prévisions sont maintenant en retard par rapport aux points de retournement d'environ 10 périodes. Quelle quantité de lissage est la meilleure pour cette série Voici un tableau qui compare leurs statistiques d'erreur, incluant également une moyenne à 3 termes: Le modèle C, la moyenne mobile à 5 termes, donne la plus faible valeur de RMSE d'une petite marge sur les 3 À moyen terme et à moyen terme, et leurs autres statistiques sont presque identiques. Ainsi, parmi les modèles avec des statistiques d'erreur très similaires, nous pouvons choisir si nous préférerions un peu plus de réactivité ou un peu plus de souplesse dans les prévisions. Le modèle de la moyenne mobile simple décrit ci-dessus a la propriété indésirable de traiter les dernières k observations de manière égale et d'ignorer complètement toutes les observations précédentes. (Retourner au haut de la page.) Intuitivement, les données passées devraient être actualisées de façon plus graduelle - par exemple, l'observation la plus récente devrait prendre un peu plus de poids que la deuxième plus récente, et la deuxième plus récente devrait avoir un peu plus de poids que la 3ème plus récente, et bientôt. Le simple lissage exponentiel (SES) modèle accomplit cela. Soit 945 une constante de quotslacement constante (un nombre entre 0 et 1). Une façon d'écrire le modèle consiste à définir une série L qui représente le niveau actuel (c'est-à-dire la valeur moyenne locale) de la série estimée à partir des données jusqu'à présent. La valeur de L à l'instant t est calculée récursivement à partir de sa propre valeur précédente comme ceci: La valeur lissée actuelle est donc une interpolation entre la valeur lissée précédente et l'observation courante, où 945 contrôle la proximité de la valeur interpolée à la valeur la plus récente observation. La prévision pour la période suivante est simplement la valeur lissée actuelle: De manière équivalente, nous pouvons exprimer directement la prochaine prévision en fonction des prévisions précédentes et des observations précédentes, dans l'une des versions équivalentes suivantes. Dans la première version, la prévision est une interpolation entre la prévision précédente et l'observation précédente: Dans la deuxième version, la prévision suivante est obtenue en ajustant la prévision précédente dans la direction de l'erreur précédente par une fraction 945. est l'erreur faite à Temps t. Dans la troisième version, la prévision est une moyenne mobile exponentiellement pondérée (c'est-à-dire actualisée) avec le facteur d'actualisation 1-945: La version d'interpolation de la formule de prévision est la plus simple à utiliser si vous mettez en œuvre le modèle sur une feuille de calcul: Cellule unique et contient des références de cellule pointant vers la prévision précédente, l'observation précédente et la cellule où la valeur de 945 est stockée. Notez que si 945 1, le modèle SES est équivalent à un modèle de marche aléatoire (sans croissance). Si 945 0, le modèle SES est équivalent au modèle moyen, en supposant que la première valeur lissée est égale à la moyenne. (Retourner au haut de la page.) L'âge moyen des données dans la prévision de lissage exponentielle simple est de 1 945 par rapport à la période pour laquelle la prévision est calculée. (Ce n'est pas censé être évident, mais on peut facilement le montrer en évaluant une série infinie.) Par conséquent, la prévision moyenne mobile simple tend à être en retard par rapport aux points de retournement d'environ 1 945 périodes. Par exemple, lorsque 945 0,5 le lag est 2 périodes lorsque 945 0,2 le retard est de 5 périodes lorsque 945 0,1 le lag est de 10 périodes, et ainsi de suite. Pour un âge moyen donné (c'est-à-dire le décalage), le lissage exponentiel simple (SES) est un peu supérieur à la moyenne mobile simple (SMA), car il place relativement plus de poids sur l'observation la plus récente. Il est un peu plus sensible aux changements survenus dans le passé récent. Par exemple, un modèle SMA avec 9 termes et un modèle SES avec 945 0,2 ont tous deux une moyenne d'âge de 5 pour les données dans leurs prévisions, mais le modèle SES met plus de poids sur les 3 dernières valeurs que le modèle SMA et à la Un autre avantage important du modèle SES par rapport au modèle SMA est que le modèle SES utilise un paramètre de lissage qui est variable en continu, de sorte qu'il peut facilement être optimisé En utilisant un algorithme quotsolverquot pour minimiser l'erreur quadratique moyenne. La valeur optimale de 945 dans le modèle SES de cette série s'élève à 0,2961, comme indiqué ici: L'âge moyen des données de cette prévision est de 10,2961 3,4 périodes, ce qui est similaire à celle d'une moyenne mobile simple à 6 termes. Les prévisions à long terme du modèle SES sont une droite horizontale. Comme dans le modèle SMA et le modèle randonnée aléatoire sans croissance. Cependant, notez que les intervalles de confiance calculés par Statgraphics divergent maintenant d'une manière raisonnable et qu'ils sont sensiblement plus étroits que les intervalles de confiance pour le modèle de marche aléatoire. Le modèle SES suppose que la série est quelque peu plus prévisible que le modèle de marche aléatoire. Un modèle SES est en fait un cas particulier d'un modèle ARIMA. La théorie statistique des modèles ARIMA fournit une base solide pour le calcul des intervalles de confiance pour le modèle SES. En particulier, un modèle SES est un modèle ARIMA avec une différence non saisonnière, un terme MA (1) et aucun terme constant. Autrement connu sous le nom de modèle de MARIMA (0,1,1) sans constantquot. Le coefficient MA (1) du modèle ARIMA correspond à la quantité 1 945 dans le modèle SES. Par exemple, si vous ajustez un modèle ARIMA (0,1,1) sans constante à la série analysée ici, le coefficient MA (1) estimé s'avère être 0.7029, ce qui est presque exactement un moins 0.2961. Il est possible d'ajouter l'hypothèse d'une tendance linéaire constante non nulle à un modèle SES. Pour cela, il suffit de spécifier un modèle ARIMA avec une différence non saisonnière et un terme MA (1) avec une constante, c'est-à-dire un modèle ARIMA (0,1,1) avec constante. Les prévisions à long terme auront alors une tendance égale à la tendance moyenne observée sur l'ensemble de la période d'estimation. Vous ne pouvez pas le faire en conjonction avec l'ajustement saisonnier, car les options de réglage saisonnier sont désactivées lorsque le type de modèle est réglé sur ARIMA. Cependant, vous pouvez ajouter une tendance exponentielle à long terme constante à un modèle de lissage exponentiel simple (avec ou sans ajustement saisonnier) en utilisant l'option d'ajustement de l'inflation dans la procédure de prévision. Le taux d'inflation appropriée (taux de croissance en pourcentage) par période peut être estimé comme le coefficient de pente dans un modèle de tendance linéaire adapté aux données en conjonction avec une transformation logarithmique naturelle, ou il peut être basé sur d'autres informations indépendantes concernant les perspectives de croissance à long terme . (Retour au haut de la page) Browns Linear (c'est-à-dire double) Lissage exponentiel Les modèles SMA et SES supposent qu'il n'y a aucune tendance des données (ce qui est normalement correct ou au moins pas trop mauvais pour 1- Des prévisions d'avance lorsque les données sont relativement bruyantes), et elles peuvent être modifiées pour incorporer une tendance linéaire constante comme indiqué ci-dessus. Qu'en est-il des tendances à court terme Si une série affiche un taux de croissance variable ou un schéma cyclique qui se distingue clairement du bruit, et s'il est nécessaire de prévoir plus d'une période à venir, l'estimation d'une tendance locale pourrait également être un problème. Le modèle de lissage exponentiel simple peut être généralisé pour obtenir un modèle linéaire de lissage exponentiel (LES) qui calcule des estimations locales de niveau et de tendance. Le modèle de tendance le plus simple variant dans le temps est le modèle de lissage exponentiel linéaire de Browns, qui utilise deux séries lissées différentes qui sont centrées à différents moments. La formule de prévision est basée sur une extrapolation d'une droite passant par les deux centres. (Une version plus sophistiquée de ce modèle, Holt8217s, est discutée ci-dessous.) La forme algébrique du modèle de lissage exponentiel linéaire de Brown8217s, comme celle du modèle de lissage exponentiel simple, peut être exprimée sous différentes formes différentes mais équivalentes. La forme quotométrique de ce modèle est habituellement exprimée comme suit: Soit S la série lissée par singulier obtenue en appliquant un lissage exponentiel simple à la série Y. C'est-à-dire que la valeur de S à la période t est donnée par: (Rappelons que, sous simple Le lissage exponentiel, ce serait la prévision de Y à la période t1.) Puis, désignons par Squot la série doublement lissée obtenue en appliquant le lissage exponentiel simple (en utilisant le même 945) à la série S: Enfin, la prévision pour Y tk. Pour tout kgt1, est donnée par: Ceci donne e 1 0 (c'est-à-dire tricher un peu, et laisser la première prévision égaler la première observation réelle), et e 2 Y 2 8211 Y 1. Après quoi les prévisions sont générées en utilisant l'équation ci-dessus. Cela donne les mêmes valeurs ajustées que la formule basée sur S et S si ces derniers ont été démarrés en utilisant S 1 S 1 Y 1. Cette version du modèle est utilisée sur la page suivante qui illustre une combinaison de lissage exponentiel avec ajustement saisonnier. Holt8217s Linear Exponential Smoothing Brown8217s Le modèle LES calcule les estimations locales de niveau et de tendance en lissant les données récentes, mais le fait qu'il le fait avec un seul paramètre de lissage impose une contrainte sur les modèles de données qu'il peut adapter: le niveau et la tendance Ne sont pas autorisés à varier à des taux indépendants. Le modèle LES de Holt8217s aborde cette question en incluant deux constantes de lissage, une pour le niveau et une pour la tendance. A tout moment t, comme dans le modèle Brown8217s, il existe une estimation L t du niveau local et une estimation T t de la tendance locale. Ici, elles sont calculées récursivement à partir de la valeur de Y observée au temps t et des estimations précédentes du niveau et de la tendance par deux équations qui leur appliquent un lissage exponentiel séparément. Si le niveau et la tendance estimés au temps t-1 sont L t82091 et T t-1. Respectivement, alors la prévision pour Y tshy qui aurait été faite au temps t-1 est égale à L t-1 T t-1. Lorsque la valeur réelle est observée, l'estimation actualisée du niveau est calculée récursivement en interpolant entre Y tshy et sa prévision, L t-1 T t-1, en utilisant des poids de 945 et 1 945. La variation du niveau estimé, À savoir L t 8209 L t82091. Peut être interprété comme une mesure bruyante de la tendance à l'instant t. L'estimation actualisée de la tendance est ensuite calculée récursivement en interpolant entre L t 8209 L t82091 et l'estimation précédente de la tendance, T t-1. Utilisant des poids de 946 et 1-946: L'interprétation de la constante de lissage de tendance 946 est analogue à celle de la constante de lissage de niveau 945. Les modèles avec de petites valeurs de 946 supposent que la tendance ne change que très lentement avec le temps tandis que les modèles avec 946 supposent qu'il change plus rapidement. Un modèle avec un grand 946 croit que l'avenir lointain est très incertain, parce que les erreurs dans l'estimation de la tendance deviennent très importantes lors de la prévision de plus d'une période à venir. Les constantes de lissage 945 et 946 peuvent être estimées de la manière habituelle en minimisant l'erreur quadratique moyenne des prévisions à 1 pas. Lorsque cela est fait dans Statgraphics, les estimations s'avèrent être 945 0,3048 et 946 0,008. La très petite valeur de 946 signifie que le modèle suppose très peu de changement dans la tendance d'une période à l'autre, donc, fondamentalement, ce modèle essaie d'estimer une tendance à long terme. Par analogie avec la notion d'âge moyen des données utilisées pour estimer le niveau local de la série, l'âge moyen des données utilisées pour estimer la tendance locale est proportionnel à 1 946, mais pas exactement égal à celui-ci . Dans ce cas, cela s'avère être 10.006 125. Ceci n'est pas un nombre très précis dans la mesure où la précision de l'estimation de 946 est vraiment de 3 décimales, mais elle est du même ordre de grandeur que la taille de l'échantillon de 100, donc Ce modèle est la moyenne sur beaucoup d'histoire dans l'estimation de la tendance. Le graphique ci-dessous montre que le modèle ERP estime une tendance locale légèrement plus grande à la fin de la série que la tendance constante estimée dans le modèle SEStrend. En outre, la valeur estimée de 945 est presque identique à celle obtenue en ajustant le modèle SES avec ou sans tendance, donc c'est presque le même modèle. Maintenant, est-ce que ces ressembler à des prévisions raisonnables pour un modèle qui est censé être l'estimation d'une tendance locale Si vous 8220eyeball8221 cette intrigue, il semble que la tendance locale a tourné vers le bas à la fin de la série Qu'est-ce qui s'est passé Les paramètres de ce modèle Ont été estimées en minimisant l'erreur au carré des prévisions à un pas, et non des prévisions à plus long terme, auquel cas la tendance ne fait pas beaucoup de différence. Si tout ce que vous regardez sont des erreurs en une étape, vous ne voyez pas l'image plus grande des tendances sur (disons) 10 ou 20 périodes. Afin d'obtenir ce modèle plus en phase avec notre extrapolation ophtalmique des données, nous pouvons ajuster manuellement la constante de lissage de tendance afin qu'il utilise une ligne de base plus courte pour l'estimation de tendance. Par exemple, si nous choisissons de fixer 946 0,1, alors l'âge moyen des données utilisées pour estimer la tendance locale est de 10 périodes, ce qui signifie que nous faisons la moyenne de la tendance au cours des 20 dernières périodes. Here8217s ce que l'intrigue de prévision ressemble si nous fixons 946 0.1 tout en gardant 945 0.3. Cela semble intuitivement raisonnable pour cette série, bien qu'il soit probablement dangereux d'extrapoler cette tendance plus de 10 périodes dans l'avenir. Qu'en est-il des statistiques d'erreur Voici une comparaison de modèles pour les deux modèles présentés ci-dessus ainsi que trois modèles SES. La valeur optimale de 945 pour le modèle SES est d'environ 0,3, mais des résultats similaires (avec une légère ou une plus faible réactivité, respectivement) sont obtenus avec 0,5 et 0,2. (A) Holts linéaire exp. Lissage avec alpha 0,3048 et bêta 0,008 (B) Holts linéaire exp. Lissage avec alpha 0.3 et bêta 0.1 (C) Lissage exponentiel simple avec alpha 0.5 (D) Lissage exponentiel simple avec alpha 0.3 (E) Lissage exponentiel simple avec alpha 0.2 Leurs stats sont quasiment identiques, donc nous ne pouvons pas vraiment faire le choix sur la base Des erreurs de prévision à 1 pas dans l'échantillon de données. Nous devons nous rabattre sur d'autres considérations. Si nous croyons fermement qu'il est logique de baser l'estimation de la tendance actuelle sur ce qui s'est produit au cours des 20 dernières périodes, nous pouvons faire valoir le modèle ERP avec 945 0,3 et 946 0,1. Si nous voulons être agnostiques quant à savoir s'il existe une tendance locale, alors l'un des modèles SSE pourrait être plus facile à expliquer et donnerait également plus de prévisions moyennes de route pour les 5 ou 10 prochaines périodes. (Retourner au haut de la page.) Quel type d'extrapolation de tendance est le mieux: horizontal ou linéaire Les données empiriques suggèrent que, si les données ont déjà été ajustées (si nécessaire) pour l'inflation, il peut être imprudent d'extrapoler les courbes linéaires à court terme Tendances très loin dans l'avenir. Les tendances évidentes aujourd'hui peuvent ralentir à l'avenir en raison de causes variées telles que l'obsolescence des produits, la concurrence accrue, les ralentissements cycliques ou les retournements dans une industrie. Pour cette raison, le lissage exponentiel simple obtient souvent une meilleure sortie de l'échantillon que ce qui pourrait être attendu autrement, malgré son extrapolation de tendance horizontale quotnaivequot. Les modifications de tendance amorties du modèle de lissage exponentiel linéaire sont aussi souvent utilisées dans la pratique pour introduire une note de conservatisme dans ses projections de tendance. Le modèle ERP à tendance amortie peut être mis en œuvre comme un cas particulier d'un modèle ARIMA, en particulier un modèle ARIMA (1,1,2). Il est possible de calculer des intervalles de confiance autour des prévisions à long terme produites par les modèles de lissage exponentiel, en les considérant comme des cas spéciaux de modèles ARIMA. La largeur des intervalles de confiance dépend de (i) l'erreur RMS du modèle, (ii) le type de lissage (simple ou linéaire) (iii) la valeur (S) de la constante de lissage et (iv) le nombre de périodes à venir que vous prévoyez. En général, les intervalles s'étalent plus rapidement lorsque 945 devient plus grand dans le modèle SES et ils s'étalent beaucoup plus rapidement lorsque linéaire plutôt que le lissage simple est utilisé. Ce sujet est abordé plus en détail dans la section des modèles ARIMA des notes. (Retournez en haut de la page.)


No comments:

Post a Comment