hypothèses clés de OLS: revue économétrique

février 19, 2021

Attention: Cet article a été écrit il y a quelques années et peut ne pas refléter les derniers changements dans le programme AP®. Nous mettons progressivement à jour ces messages et supprimerons cette clause de non-responsabilité lorsque ce message sera mis à jour. Je vous remercie pour votre patience!

Introduction

Les modèles de régression linéaire trouvent plusieurs utilisations dans les problèmes de la vie réelle., Par exemple, une multinationale qui veut identifier les facteurs qui peuvent influer sur les ventes de son produit peut effectuer une régression linéaire pour déterminer quels facteurs sont importants. En économétrie, la méthode des moindres carrés ordinaires (OLS) est largement utilisée pour estimer le paramètre d’un modèle de régression linéaire. Les estimateurs OLS minimisent la somme des erreurs au carré (différence entre les valeurs observées et les valeurs prédites). Bien QU’OLS soit réalisable sur le plan informatique et puisse être facilement utilisé lors de tout test économétrique, il est important de connaître les hypothèses sous-jacentes de la régression OLS., En effet, un manque de connaissance des hypothèses OLS entraînerait son utilisation abusive et donnerait des résultats incorrects pour le test économétrique effectué. On ne saurait trop insister sur l’importance des hypothèses relatives aux SDO. La section suivante décrit les hypothèses de régression OLS.

hypothèses de régression OLS

Les hypothèses OLS nécessaires, qui sont utilisées pour dériver les estimateurs OLS dans les modèles de régression linéaire, sont discutées ci-dessous.

hypothèse OLS 1: le modèle de régression linéaire est « linéaire en paramètres., »

lorsque la variable dépendante (Y) est une fonction linéaire de variables indépendantes (X) et du terme d’erreur, la régression est linéaire en paramètres et pas nécessairement linéaire en X. Par exemple, considérons ce qui suit:

A1. Le modèle de régression linéaire est » linéaire en paramètres.”

A2. Il y a un échantillonnage aléatoire des observations.

A3. La moyenne conditionnelle devrait être nulle.

A4. Il n’y a pas de multi-colinéarité (ou colinéarité parfaite).

A5., Erreurs sphériques: il y a homoscédasticité et pas d’autocorrélation

A6: hypothèse facultative: les Termes D’erreur doivent être normalement distribués.,

a)quad Y={ beta }_{ 0 }+{ beta }_{ 1 }{ X }_{ 1 }+{ beta }_{ 2 }{ X }_{ 2 }+varepsilon

b)quad Y={ beta }_{ 0 }+{ beta }_{ 1 }{ X }_{ { 1 }^{ 2 } }+{ beta }_{ 2 }{ X }_{ 2 }+varepsilon

c)quad Y={ beta }_{ 0 }+{ beta }_{ { 1 }^{ 2 } }{ X }_{ 1 }+{ beta }_{ 2 }{ X }_{ 2 }+varepsilon

Dans les trois exemples ci-dessus, pour a) et b) LO hypothèse 1 est satisfaite. Pour c) l’hypothèse OLS 1 n’est pas satisfaite car elle n’est pas linéaire dans le paramètre { beta }_{ 1 }.,

hypothèse OLS 2: Il y a un échantillonnage aléatoire d’observations

Cette hypothèse de régression OLS indique que:

l’échantillon prélevé pour le modèle de régression linéaire doit être tiré au hasard de la population. Par exemple, si vous devez exécuter un modèle de régression pour étudier les facteurs qui ont une incidence sur les scores des étudiants à l’examen final, vous devez sélectionner des étudiants au hasard de l’université au cours de votre processus de collecte de données, plutôt que d’adopter une procédure d’échantillonnage pratique.,
Le nombre d’observations prises dans l’échantillon pour en faire le modèle de régression linéaire doit être supérieur au nombre de paramètres à estimer. Cela a aussi du sens mathématiquement. Si un certain nombre de paramètres à estimer (inconnues) est supérieur au nombre d’observations, l’estimation n’est pas possible. Si un certain nombre de paramètres à estimer (inconnues) est égal au nombre d’observations, alors OLS n’est pas requis. Vous pouvez simplement utiliser l’algèbre.
Les X doivent être fixes (par exemple, les variables indépendantes doivent avoir un impact sur les variables dépendantes)., Il ne devrait pas être le cas que les variables dépendantes ont un impact sur les variables indépendantes. En effet, dans les modèles de régression, la relation causale est étudiée et il n’y a pas de corrélation entre les deux variables. Par exemple, si vous exécutez la régression avec l’inflation comme variable dépendante et le chômage comme variable indépendante, les estimateurs OLS sont susceptibles d’être incorrects car avec l’inflation et le chômage, nous nous attendons à une corrélation plutôt qu’à une relation causale.
Les termes d’erreurs sont aléatoires. Cela rend la variable dépendante aléatoire.,

hypothèse OLS 3: la moyenne conditionnelle doit être nulle.

la valeur attendue de la moyenne des termes d’erreur de la régression OLS devrait être nulle compte tenu des valeurs des variables indépendantes.

Mathématiquement, Eleft( { varepsilon }|{ X } à droite) =0. Ceci est parfois simplement écrit comme Eleft ({varepsilon } right) = 0.

en d’autres termes, la distribution des termes d’erreur a une moyenne nulle et ne dépend pas des variables indépendantes X. Ainsi, il ne doit pas y avoir de relation entre les X et le terme d’erreur. ,

hypothèse OLS 4: il n’y a pas de multi-colinéarité (ou colinéarité parfaite).

dans un modèle de régression linéaire simple, il n’y a qu’une seule variable indépendante et donc, par défaut, cette hypothèse sera vraie. Cependant, dans le cas de plusieurs modèles de régression linéaire, il existe plus d’une variable indépendante. L’hypothèse OLS de l’absence de multi-colinéarité indique qu’il ne devrait pas y avoir de relation linéaire entre les variables indépendantes. Par exemple, supposons que vous passiez vos 24 heures par jour à trois choses: dormir, étudier ou jouer., Maintenant, si vous exécutez une régression avec une variable dépendante comme score/performance à l’examen et des variables indépendantes comme temps passé à dormir, temps passé à étudier et temps passé à jouer, cette hypothèse ne tiendra pas.

c’est parce qu’il y a une colinéarité parfaite entre les trois variables indépendantes.

temps passé à dormir = 24 – temps passé à étudier – temps passé à jouer.

Dans une telle situation, il est préférable de déposer l’un des trois variables indépendantes du modèle de régression linéaire., Si la relation (corrélation) entre les variables indépendantes est forte (mais pas exactement parfaite), cela pose toujours des problèmes dans les estimateurs OLS. Par conséquent, cette hypothèse OLS dit que vous devez sélectionner des variables indépendantes qui ne sont pas corrélées les unes avec les autres.

une implication importante de cette hypothèse de régression OLS est qu’il devrait y avoir une variation suffisante dans les X. Plus la variabilité dans les X, mieux sont les estimations OLS pour déterminer l’impact des X sur Y.

hypothèse OLS 5: erreurs sphériques: il y a homoscédasticité et pas d’autocorrélation. ,

selon cette hypothèse OLS, les Termes d’erreur dans la régression devraient tous avoir la même variance.

Mathématiquement, Varleft( { varepsilon }|{ X } à droite) ={ sigma }^{ 2 }.

Si cette variance n’est pas constante (c’est-à-dire dépendante de X), alors le modèle de régression linéaire comporte des erreurs hétéroscédastiques et est susceptible de donner des estimations incorrectes.

cette hypothèse OLS d’absence d’autocorrélation indique que les Termes d’erreur des différentes observations ne doivent pas être corrélés les uns avec les autres.,

mathématiquement, Covleft( { { varepsilon }_{ i }{ varepsilon }_{ j}}/{x } right) =0enspace forensicpace ineq j

par exemple, lorsque nous avons des données chronologiques (par exemple des données annuelles sur le chômage), la régression risque de souffrir d’autocorrélation car le chômage l’année prochaine dépendra certainement du chômage cette année. Par conséquent, les Termes d’erreur dans différentes observations seront sûrement corrélés les uns avec les autres.

en termes simples, cette hypothèse OLS signifie que les Termes d’erreur doivent être IID (indépendants et distribués de manière identique).,

le diagramme ci-dessus montre la différence entre Homoscédasticité et hétéroscédasticité. La variance des erreurs est constante en cas d’homoscédasticité alors que ce n’est pas le cas si les erreurs sont hétéroscédastiques.

hypothèse OLS 6: les Termes D’erreur devraient être normalement distribués.

cette hypothèse indique que les erreurs sont normalement distribuées, sous réserve des variables indépendantes., Cette hypothèse OLS n’est pas requise pour la validité de la méthode OLS; cependant, elle devient importante lorsque l’on a besoin de définir des propriétés supplémentaires d’échantillons finis. Notez que seuls les termes d’erreur doivent être distribués normalement. La variable dépendante Y n’a pas besoin d’être normalement distribuée.

L’utilisation des hypothèses OLS

Les hypothèses OLS sont extrêmement importantes. Si les hypothèses OLS 1 à 5 tiennent, alors selon le théorème de Gauss-Markov, l’estimateur OLS est le meilleur estimateur linéaire non biaisé (bleu). Ce sont des propriétés souhaitables des estimateurs OLS et nécessitent une discussion séparée en détail., Cependant, ci-dessous, l’accent est mis sur l’importance des hypothèses OLS en discutant de ce qui se passe lorsqu’elles échouent et comment pouvez-vous rechercher des erreurs potentielles lorsque les hypothèses ne sont pas décrites.

L’hypothèse de linéarité (hypothèse OLS 1) – Si vous ajustez un modèle linéaire à une donnée non linéairement liée, le modèle sera incorrect et donc peu fiable. Lorsque vous utilisez le modèle d’extrapolation, vous êtes susceptible d’obtenir des résultats erronés. Par conséquent, vous devez toujours tracer un graphique des valeurs prédites observées., Si ce graphique est distribué symétriquement le long de la ligne de 45 degrés, vous pouvez être sûr que l’hypothèse de linéarité est valable. Si les hypothèses de linéarité ne tiennent pas, vous devez changer la forme fonctionnelle de la régression, ce qui peut être fait en prenant des transformations non linéaires de variables indépendantes (c’est-à-dire que vous pouvez prendre log { X } au lieu de X comme variable indépendante), puis vérifier la linéarité.
L’hypothèse de L’Homoscédasticité (hypothèse OLS 5) – Si les erreurs sont hétéroscédastiques (c.-à-d., L’hypothèse OLS est violée), il sera alors difficile de faire confiance aux erreurs types des estimations OLS. Par conséquent, les intervalles de confiance seront soit trop étroits, soit trop larges. En outre, la violation de cette hypothèse a tendance à accorder trop de poids à une partie (sous-section) des données. Par conséquent, il est important de résoudre ce problème si les variances d’erreur ne sont pas constantes. Vous pouvez facilement vérifier si les écarts d’erreur sont constants ou non. Examinez le diagramme des valeurs prédites des résidus ou des résidus par rapport au temps (pour les modèles de séries chronologiques)., En règle générale, si l’ensemble de données est volumineux, les erreurs sont plus ou moins homoscédastiques. Si votre ensemble de données est petit, Vérifiez cette hypothèse.
L’hypothèse de L’indépendance / pas D’autocorrélation (hypothèse OLS 5) – comme discuté précédemment, cette hypothèse est plus susceptible d’être violée dans les modèles de régression de séries chronologiques et, par conséquent, l’intuition dit qu’il n’est pas nécessaire de l’étudier. Cependant, vous pouvez toujours vérifier l’autocorrélation en visualisant le tracé des séries chronologiques résiduelles., Si l’autocorrélation est présente dans le modèle, vous pouvez essayer de prendre des décalages de variables indépendantes pour corriger la composante tendance. Si vous ne corrigez pas l’autocorrélation, les estimations OLS ne seront pas bleues et ne seront pas assez fiables.
L’hypothèse de la normalité des erreurs (hypothèse OLS 6) – Si les Termes d’erreur ne sont pas normaux, alors les erreurs types des estimations OLS ne seront pas fiables, ce qui signifie que les intervalles de confiance seraient trop larges ou trop étroits. En outre, les estimateurs OLS n’auront pas la propriété bleue souhaitable., Un diagramme de probabilité normal ou un diagramme de quantile normal peut être utilisé pour vérifier si les Termes d’erreur sont normalement distribués ou non. Un motif dévié en forme d’arc dans ces graphiques révèle que les erreurs ne sont normalement pas distribuées. Parfois, les erreurs ne sont pas normales car l’hypothèse de linéarité ne tient pas. Donc, il vaut la peine de vérifier à nouveau l’hypothèse de linéarité si cette hypothèse échoue.,
hypothèse D’absence de Multicollinéarité (hypothèse OLS 4) – Vous pouvez vérifier la multicollinéarité en créant une matrice de corrélation (bien qu’il existe d’autres moyens complexes de les vérifier comme le facteur D’Inflation de Variance, etc.). Une indication presque sûre de la présence de multi-colinéarité est lorsque vous obtenez des signes opposés (inattendus) pour vos coefficients de régression (e. Si vous vous attendez à ce que la variable indépendante ait un impact positif sur votre variable dépendante mais que vous obtenez un signe négatif du coefficient du modèle de régression)., Il est fort probable que la régression souffre de multi-colinéarité. Si la variable n’est pas si importante intuitivement, la suppression de cette variable ou de l’une des variables corrélées peut résoudre le problème.
Les hypothèses OLS 1, 2 et 4 sont nécessaires pour la configuration du problème OLS et sa dérivation. L’échantillonnage aléatoire, les observations étant supérieures au nombre de paramètres et la régression étant linéaire en paramètres font tous partie de la configuration de la régression OLS. L’hypothèse de l’absence de colinéarité parfaite permet de résoudre pour les conditions du premier ordre dans la dérivation des estimations OLS.,

Conclusion

les modèles de régression Linéaire sont extrêmement utiles et ont un large éventail d’applications. Lorsque vous les utilisez, veillez à ce que toutes les hypothèses de régression OLS soient satisfaites lors d’un test économétrique afin que vos efforts ne soient pas gaspillés. Ces hypothèses sont extrêmement importantes et on ne peut pas simplement les négliger. Cela dit, plusieurs fois, ces hypothèses OLS seront violées. Cependant, cela ne devrait pas vous empêcher d’effectuer votre test économétrique., Au contraire, lorsque l’hypothèse est violée, appliquer les correctifs corrects, puis exécuter le modèle de régression linéaire devrait être la solution pour un test économétrique fiable.

pensez-vous pouvoir exécuter de manière fiable une régression OLS? Laissez-nous savoir dans la section commentaire ci-dessous!

vous cherchez une pratique en économétrie?

Vous pouvez trouver des milliers de questions pratiques sur Albert.io. Albert.io vous permet de personnaliser votre expérience d’apprentissage pour cibler la pratique où vous avez le plus besoin d’aide. Nous vous poserons des questions pratiques stimulantes pour vous aider à maîtriser L’économétrie.,

Commencer à pratiquer ici.

êtes-vous un enseignant ou un administrateur intéressé à améliorer les résultats des étudiants en biologie AP®?

En savoir plus sur nos licences scolaires ici.

Lima