aperçu

Le test D’hypothèse est un concept clé dans les statistiques, l’analyse et la science des données
découvrez comment fonctionne le test statisticien hors de nous tous., Nous vérifions constamment les chiffres, faisons nos propres hypothèses sur la façon dont la pandémie se déroulera et générons des hypothèses sur le moment où le « pic” se produira. Et ce n’est pas seulement nous qui construisons des hypothèses – les médias y prospèrent.
Il y a quelques jours, je lisais un article de presse qui mentionnait que cette épidémie « pourrait potentiellement être saisonnière » et céder dans des conditions plus chaudes:

alors j’ai commencé à me demander – Que pouvons-nous émettre d’autre hypothèse sur le coronavirus? Sont des adultes plus susceptibles d’être affectés par l’épidémie de coronavirus?, Comment l’Humidité Relative affecte-t-elle la propagation du virus? Quelles sont les preuves à l’appui de ces allégations? Comment peut-on tester ces hypothèses?

en tant que passionné de statistiques, toutes ces questions déterrent mes anciennes connaissances sur les fondements des tests D’hypothèses. Dans cet article, nous allons discuter du concept de test D’hypothèse et de la différence entre le Test Z et le Test T. Nous conclurons ensuite notre apprentissage de test D’hypothèse à l’aide d’une étude de cas COVID-19.

vous Êtes nouveau dans le monde de la statistique et de l’analyse?, Vous devriez également parcourir les ressources ci – dessous:
- Introduction à L’analyse D’entreprise
- Introduction à la science des données
table des matières
- principes fondamentaux des tests D’hypothèses
  - Concepts de base-hypothèse nulle, hypothèse Alternative, erreur de Type 1, Erreur de Type 2 et niveau de Signification
  - étapes>
- qu’est-ce que le test z?
  - Test Z à un échantillon
  - Test Z à deux échantillons
Troisième Cas: La personne est coupable et le juge identifie la personne innocente
Quatrième Cas: La personne est coupable et le juge identifie la personne comme coupable

Comme vous pouvez le voir clairement, il peut y avoir deux types d’erreur dans le jugement de l’erreur de Type 1, lorsque le verdict est contre la personne, alors qu’il était innocent et de l’erreur de Type 2, lorsque le jugement est en faveur de la Personne, alors qu’il était coupable

Selon la Présomption d’Innocence, la personne est considérée comme innocente jusqu’à preuve du contraire., Cela signifie que le juge doit trouver la preuve qui le convainc « hors de tout doute raisonnable”. Ce phénomène de” hors de tout doute raisonnable » peut être compris comme Probabilité (juge a décidé coupable | personne est Innocent) devrait être faible.

Les concepts de base des tests D’hypothèses sont en fait assez analogues à cette situation.

nous considérons que L’hypothèse nulle est vraie jusqu’à ce que nous trouvions des preuves solides contre elle. Puis. nous acceptons L’hypothèse alternative., Nous déterminons également le niveau de signification ( ⍺ ) qui peut être compris comme la probabilité de (le juge a décidé Coupable | La personne est innocente) dans l’exemple précédent. Ainsi, si ⍺ est plus petit, il faudra plus de preuves pour rejeter l’hypothèse nulle. Ne vous inquiétez pas, nous couvrirons tout cela en utilisant une étude de cas plus tard.,

les Étapes pour Effectuer des tests d’Hypothèse

Il y a quatre étapes à suivre pour effectuer des Tests d’Hypothèse:

Définir l’Hypothèse
Définir le Niveau de Signification, Critères de décision
Calculer la statistique de test
Prendre une décision

les Étapes 1 à 3 sont assez explicites, mais sur quelle base pouvons-nous prendre une décision à l’étape 4? Qu’est-ce p-valeur indiquer?

nous pouvons comprendre cette valeur p comme la mesure de l’argument de L’avocat de la Défense., Si la valeur p est inférieure à⍺, nous rejetons l’hypothèse nulle ou si la valeur p est supérieure à ⍺, nous ne rejetons pas l’hypothèse nulle.

valeur critique, valeur p

comprenons la logique des tests D’hypothèses avec la représentation graphique pour la Distribution normale.

Généralement, nous fixons le niveau de Signification à 10%, 5% ou 1%. Si notre score de test se situe dans la Zone D’acceptation, nous ne rejetons pas l’hypothèse nulle. Si notre score de test se situe dans la zone critique, nous rejetons l’hypothèse nulle et acceptons l’hypothèse alternative.,

La valeur critique est la valeur de coupure entre la zone D’acceptation et la Zone de rejet. Nous comparons notre score de test à la valeur critique et si le score de test est supérieur à la valeur critique, cela signifie que notre score de test se situe dans la Zone de rejet et que nous rejetons l’hypothèse nulle. De l’autre côté, si le score du test est inférieur à la valeur critique, cela signifie que le score du test se trouve dans la Zone d’acceptation et que nous ne rejetons pas l’hypothèse nulle.,

Mais pourquoi avons-nous besoin de la valeur p lorsque nous pouvons rejeter / accepter des hypothèses basées sur les scores aux tests et la valeur critique?

p-value a l’avantage que nous n’avons besoin que d’une seule valeur pour prendre une décision sur l’hypothèse. Nous n’avons pas besoin de calculer deux valeurs différentes comme la valeur critique et les scores de test. Un autre avantage de l’utilisation de la valeur p est que nous pouvons tester à n’importe quel niveau de signification souhaité en comparant directement avec le niveau de signification.

de cette façon, nous n’avons pas besoin de calculer les scores aux tests et la valeur critique pour chaque niveau de signification., Nous pouvons obtenir la valeur p et la comparer directement avec le niveau de signification.

hypothèse directionnelle

dans l’hypothèse directionnelle, l’hypothèse nulle est rejetée si le score du test est trop grand (pour la queue droite et trop petit pour la queue gauche). Ainsi, la région de rejet pour un tel test se compose d’une partie, qui est juste à partir du centre.

hypothèse Non directionnelle

dans un test D’hypothèse Non directionnelle, l’hypothèse nulle est rejetée si le score du test est trop petit ou trop grand., Ainsi, la région de rejet pour un tel test se compose de deux parties: une à gauche et une à droite.

Qu’est-ce que le Test Z?

Les tests z sont un moyen statistique de tester une hypothèse lorsque:

nous connaissons la variance de la population, ou
nous ne connaissons pas la variance de la population mais notre taille d’échantillon est grande N ≥ 30

Si nous avons une taille d’échantillon inférieure à 30 et ne connaissons pas la variance de la population, alors nous devons utiliser un test T.

test Z à un échantillon

Nous effectuons le test Z à un échantillon lorsque nous voulons comparer une moyenne d’échantillon avec la moyenne de la population.,

voici un exemple pour comprendre un test Z à un échantillon

disons que nous devons déterminer si les filles obtiennent en moyenne un score supérieur à 600 à l’examen. Nous avons l’information que l’écart type pour les scores des filles est de 100. Nous collectons donc les données de 20 filles en utilisant des échantillons aléatoires et enregistrons leurs notes. Enfin, nous définissons également notre valeur ⍺ (Niveau de signification) à 0,05.,

dans cet exemple:

Score moyen pour les filles est de 641
La Taille de l’échantillon est de 20
la moyenne de la population est de 600
L’écart type pour la Population est de 100

puisque la valeur de P est inférieure à 0,05, nous pouvons rejeter l’hypothèse nulle et conclure sur la base de notre résultat que les filles ont obtenu en moyenne un score supérieur à 600.

test de deux échantillons Z

Nous effectuons un test de deux échantillons z lorsque nous voulons comparer la moyenne de deux échantillons.,

voici un exemple pour comprendre un test Z à deux échantillons

ici, disons que nous voulons savoir si les filles obtiennent en moyenne 10 points de plus que les garçons. Nous avons l’information que l’écart type pour le Score des filles est de 100 et pour le score des garçons est de 90. Ensuite, nous collectons les données de 20 filles et 20 garçons en utilisant des échantillons aléatoires et enregistrons leurs notes. Enfin, nous définissons également notre valeur ⍺ (Niveau de signification) à 0,05.

Dans cet exemple:

note Moyenne pour les Filles (Moyenne d’Échantillon) est de 641
note Moyenne pour les Garçons (Moyenne d’Échantillon) est 613.,3
L’écart type pour la Population de filles est de 100
l’écart type pour la Population de garçons est de 90
La Taille de l’échantillon est de 20 pour les filles et les garçons
La différence entre la moyenne de la Population est de 10

ainsi, nous pouvons conclure sur la base de la valeur P que nous ne rejetons pas l’hypothèse nulle. Nous n’avons pas assez de preuves pour conclure que les filles obtiennent en moyenne 10 points de plus que les garçons. Assez simple, non?

qu’est-ce que le Test t?,

Les tests t sont un moyen statistique de tester une hypothèse lorsque:

nous ne connaissons pas la variance de la population
Notre taille d’échantillon est petite, n< 30

test T à un échantillon

Nous effectuons un test T à un échantillon lorsque nous voulons comparer une moyenne d’échantillon avec la moyenne de la population. La différence avec le Test Z est que nous n’avons pas les informations sur la Variance de la Population ici. Nous utilisons l’écart-type d’échantillon au lieu de l’écart type de population dans ce cas.,

voici un exemple pour comprendre un échantillon T-Test

disons que nous voulons déterminer si en moyenne les filles obtiennent plus de 600 à l’examen. Nous n’avons pas les informations relatives à la variance (ou à l’écart-type) pour les scores des filles. Pour effectuer un test T, nous collectons au hasard les données de 10 filles avec leurs notes et choisissons notre valeur ⍺ (Niveau de signification) à 0,05 pour les tests D’hypothèse.

Dans cet exemple:

Score Moyen des Filles est 606.8
La taille de l’échantillon est de 10
La moyenne de population est de 600
l’Écart type de l’échantillon est de 13.,14

notre valeur de P est supérieure à 0,05, nous ne rejetons donc pas l’hypothèse nulle et n’avons pas assez de preuves pour soutenir l’hypothèse qu’en moyenne, les filles obtiennent plus de 600 à l’examen.

test T à deux échantillons

Nous effectuons un test T à deux échantillons lorsque nous voulons comparer la moyenne de deux échantillons.

voici un exemple pour comprendre un test t à deux échantillons

ici, disons que nous voulons déterminer si en moyenne, les garçons obtiennent 15 points de plus que les filles à l’examen. Nous ne disposons pas des informations relatives à la variance (ou à l’écart-type) pour les scores des filles ou des garçons., Pour effectuer un t-test. nous collectons au hasard les données de 10 filles et garçons avec leurs marques. Nous choisissons notre valeur ⍺ (Niveau de signification) pour être 0.05 comme critère de test D’hypothèse.

dans cet exemple:

Score moyen pour les garçons est de 630,1
Score moyen pour les filles est de 606,8
différence entre la moyenne de la Population 15
écart type pour les garçons est de 13,42
écart type pour les filles est de 13,14

ainsi, la valeur P est inférieure à 0.,05 nous pouvons donc rejeter l’hypothèse nulle et conclure qu’en moyenne les garçons obtiennent 15 points de plus que les filles à l’examen.

décider entre le Test Z et le Test T

alors quand devrions-nous effectuer le test Z et quand devrions-nous effectuer le Test t? C’est une question clé à laquelle nous devons répondre si nous voulons maîtriser les statistiques.

Si la taille de l’échantillon est assez grande, alors le test Z et le Test t se concluront avec les mêmes résultats. Pour un échantillon de grande taille, la Variance de l’Échantillon sera une meilleure estimation de la variance de Population donc, même si la variance est inconnue, nous pouvons utiliser le test Z à l’aide de variance de l’échantillon.,

de Même, pour un Grand Échantillon, nous avons un haut degré de liberté. Et puisque la distribution t s’approche de la distribution normale, la différence entre le score z et le score t est négligeable.

étude de Cas: test D’hypothèse pour le Coronavirus à L’aide de Python

implémentons maintenant le test Z à deux échantillons pour un ensemble de données sur le coronavirus. Mettons nos connaissances théoriques en pratique et voyons à quel point nous pouvons le faire. Vous pouvez télécharger le jeu de données ici.

Cet ensemble de données a été extrait du référentiel de John Hopkin et vous pouvez trouver le lien ici pour cela.,

Cet ensemble de données présente les caractéristiques ci – dessous:

Province/État
pays/région
dernière mise à jour
confirmé
Décès
récupéré
Lattitude
Longitude

et nous avons ajouté la fonction de température et D’humidité pour la Latitude et la Longitude en utilisant L’API Météo de Python-Pyweatherbit. Une perception commune au sujet de COVID-19 est que le climat chaud est plus résistant à l’épidémie de corona et nous devons le vérifier en utilisant des tests D’hypothèse. Alors, quelle sera notre hypothèse nulle et alternative?,

hypothèse nulle: la température n’affecte pas L’épidémie de COV-19
hypothèse alternative: la température affecte L’épidémie de COV-19

Remarque: Nous considérons la température inférieure à 24 comme un climat froid et supérieure à 24 comme un climat chaud dans notre ensemble de données.

0.180286Do not reject Null Hypothesis : Not Significant

Donc. nous n’avons pas de preuves pour rejeter notre hypothèse nulle selon laquelle la température n’affecte pas L’épidémie de COV-19., Bien que nous ne puissions pas trouver l’impact de la température sur COV-19, ce problème vient d’être pris pour la compréhension conceptuelle de ce que nous avons appris dans cet article., Il existe certaines limites du test Z pour les ensembles de données COVID-19:

Les données de L’échantillon peuvent ne pas être bien représentatives des données de population
la variance de L’échantillon peut ne pas être un bon estimateur de la variance de la population
variabilité de la capacité d’un État à faire face à cette pandémie
raisons Socio-économiques
P> nous devons donc être plus prudents et faire davantage de recherches pour identifier le modèle de cette pandémie.,

notes de fin

dans cet article, nous avons suivi une procédure étape par étape pour comprendre les principes fondamentaux du test D’hypothèse, erreur de Type 1, Erreur de Type 2, Niveau de Signification, valeur critique, valeur p, hypothèse Non directionnelle, hypothèse directionnelle, Test Z et Test t et enfin mis en œuvre deux échantillons de Test,

pour plus de détails, vous pouvez également lire ces articles:
- votre Guide pour maîtriser les tests D’hypothèses en statistiques
- statistiques pour la science des données: Introduction au T-test et à ses différents Types (avec implémentation en R)

Lima

statistiques pour L’analyse et la science des données: test D’hypothèse et test Z vs test T