Articles

Statistiche per analisi di Dati e la Scienza: il Test di Ipotesi e Test Z vs T-Test

Posted by admin

Descrizione

  • test di Ipotesi è un concetto chiave statistiche, analisi di dati e la scienza
  • Imparare il test di ipotesi opere, la differenza tra Z-test e il test t, e altre statistiche concetti

Introduzione

Il coronavirus pandemia ha fatto statistico di tutti noi., Stiamo costantemente controllando i numeri, facendo le nostre ipotesi su come si svolgerà la pandemia e generando ipotesi su quando accadrà il “picco”. E non siamo solo noi a costruire ipotesi-i media stanno prosperando su di esso.

Qualche giorno fa stavo leggendo un articolo di notizie che menzionava questo focolaio “potrebbe potenzialmente essere stagionale” e cedere in condizioni più calde:

Così ho iniziato a chiedermi – cos’altro possiamo ipotizzare sul coronavirus? Gli adulti hanno maggiori probabilità di essere colpiti dallo scoppio del coronavirus?, In che modo l’umidità relativa influisce sulla diffusione del virus? Quali sono le prove a sostegno di queste affermazioni? Come possiamo testare queste ipotesi?

Come appassionato di statistiche, tutte queste domande scavano la mia vecchia conoscenza sui fondamenti del test di ipotesi. In questo articolo, discuteremo il concetto di test di ipotesi e la differenza tra il test Z e il test T. Concluderemo quindi il nostro apprendimento di test di ipotesi utilizzando un caso di studio COVID-19.

Sei nuovo nel mondo delle statistiche e dell’analisi?, Si dovrebbe passare attraverso il seguente risorse:

  • Introduzione alla Business Analytics
  • Introduzione alla Scienza di Dati

Sommario

  • Fondamenti di Test di Ipotesi
    • Concetti di Base – Ipotesi, Ipotesi Alternativa, Errore di Tipo 1, di Tipo 2 di Errore, e il Livello di Significatività
    • Procedura per Eseguire il Test di Ipotesi
    • Direzionale Ipotesi
    • Non Direzionale Test di Ipotesi
  • che Cosa è il Test Z?
    • Un campione Z Test
    • Due campione Z Test
  • Qual è il t-Test?,
    • One-Sample t-Test
    • Two-Sample t-Test
  • Decidere tra il Test Z e t-Test
  • Caso di Studio: Test di ipotesi per il Coronavirus in Python

Fondamenti di Ipotesi Test

facciamo un esempio per capire il concetto di Test di Ipotesi. Una persona è sotto processo per un reato penale e il giudice deve fornire un verdetto sul suo caso.,nd Caso: La persona è innocente e il giudice individua il soggetto colpevole

  • Terzo Caso: La persona è colpevole e il giudice individua il soggetto innocente
  • Quarto Caso: La persona è colpevole e il giudice individua il soggetto colpevole
  • Come si può vedere chiaramente, ci possono essere due tipi di errore nella sentenza – errore di Tipo 1, quando il verdetto è contro la persona, mentre lui era innocente e di errore di Tipo 2, quando il verdetto è a favore di Persona mentre lui era colpevole

    Secondo il principio della Presunzione di Innocenza, la persona è considerata innocente fino a prova contraria., Ciò significa che il giudice deve trovare le prove che lo convincono “oltre ogni ragionevole dubbio”. Questo fenomeno di “Oltre un ragionevole dubbio” può essere inteso come Probabilità (il giudice ha deciso colpevole | Persona è innocente) dovrebbe essere piccolo.

    I concetti di base del test di ipotesi sono in realtà abbastanza analoghi a questa situazione.

    Consideriamo l’ipotesi Nulla vera finché non troviamo prove forti contro di essa. Poi. accettiamo l’ipotesi alternativa., Determiniamo anche il Livello di Significatività ( ⍺ ) che può essere inteso come la Probabilità di (Il giudice ha deciso Colpevole | La persona è innocente) nell’esempio precedente. Quindi, se ⍺ è più piccolo, richiederà più prove per rifiutare l’ipotesi Nulla. Non preoccuparti, copriremo tutto questo usando un caso di studio più tardi.,

    Procedura per Eseguire il test di Ipotesi

    Ci sono quattro passaggi per eseguire il Test di Ipotesi:

    • Impostare l’Ipotesi
    • consente di Impostare il Livello di Significatività, Criteri di decisione
    • Calcola la statistica test
    • prendere una decisione

    i Passaggi da 1 a 3 sono abbastanza auto-esplicativo, ma sulla base di cosa possiamo prendere una decisione nel passaggio 4? Cosa indica questo valore p?

    Possiamo capire questo valore p come la misura dell’argomento dell’avvocato difensore., Se il valore p è inferiore a ⍺ , rifiutiamo l’ipotesi Nulla o se il valore p è maggiore di ⍺, non riusciamo a rifiutare l’ipotesi Nulla.

    Valore Critico, p-value

    Comprendiamo la logica del Test di ipotesi con la rappresentazione grafica per la Distribuzione Normale.

    In genere, impostiamo il livello di Significatività al 10%, 5% o 1%. Se il nostro punteggio di prova si trova nella Zona di accettazione non riusciamo a rifiutare l’ipotesi Nulla. Se il nostro punteggio del test si trova nella zona critica, rifiutiamo l’ipotesi Nulla e accettiamo l’ipotesi alternativa.,

    Il valore critico è il valore di cut off tra la Zona di accettazione e la Zona di rifiuto. Confrontiamo il nostro punteggio del test con il valore critico e se il punteggio del test è maggiore del valore critico, significa che il nostro punteggio del test si trova nella zona di rifiuto e rifiutiamo l’ipotesi Nulla. Sul lato opposto, se il punteggio del test è inferiore al Valore Critico, significa che il punteggio del test si trova nella Zona di accettazione e non riusciamo a rifiutare l’ipotesi nulla.,

    Ma perché abbiamo bisogno di p-value quando possiamo rifiutare / accettare ipotesi basate sui punteggi dei test e sul valore critico?

    p-value ha il vantaggio che abbiamo solo bisogno di un valore per prendere una decisione sull’ipotesi. Non abbiamo bisogno di calcolare due valori diversi come il valore critico e i punteggi dei test. Un altro vantaggio dell’uso del valore p è che possiamo testare a qualsiasi livello di significatività desiderato confrontandolo direttamente con il livello di significatività.

    In questo modo non abbiamo bisogno di calcolare i punteggi dei test e il valore critico per ogni livello di significatività., Possiamo ottenere il valore p e confrontarlo direttamente con il livello di significatività.

    Ipotesi direzionale

    Nell’ipotesi direzionale, l’ipotesi nulla viene respinta se il punteggio del test è troppo grande (per la coda destra e troppo piccolo per la coda sinistra). Pertanto, la regione di rifiuto per tale test consiste in una parte, che si trova direttamente dal centro.

    Ipotesi non direzionale

    In un test di ipotesi non direzionale, l’ipotesi Nulla viene respinta se il punteggio del test è troppo piccolo o troppo grande., Pertanto, la regione di rifiuto per tale test consiste di due parti: una a sinistra e una a destra.

    Qual è il test Z?

    z i test statistici modo di testare un’ipotesi quando:

    • sappiamo che la varianza della popolazione, o
    • non sappiamo la varianza della popolazione, ma la nostra dimensione del campione è di grandi dimensioni n ≥ 30

    Se si dispone di un campione di dimensione inferiore a 30 e non si conosce la varianza della popolazione, allora dobbiamo utilizzare un t-test.

    One-Sample Z test

    Eseguiamo il One-Sample Z test quando vogliamo confrontare una media campione con la media della popolazione.,

    Ecco un esempio per capire un campione Z Test

    Diciamo che abbiamo bisogno di determinare se le ragazze in media punteggio superiore a 600 in esame. Abbiamo le informazioni che la deviazione standard per i punteggi delle ragazze è 100. Quindi, raccogliamo i dati di 20 ragazze usando campioni casuali e registriamo i loro segni. Infine, abbiamo anche impostato il nostro valore ⍺ (livello di significatività) su 0.05.,

    In questo esempio:

    • Punteggio Medio per le Ragazze è 641
    • La dimensione del campione è di 20
    • La media della popolazione è di 600
    • la Deviazione Standard della Popolazione è di 100

    Poiché il P-value è inferiore a 0.05, possiamo rifiutare l’ipotesi nulla e concludere basata sul nostro risultato che le Ragazze in media segnati superiore a 600.

    Test a due campioni Z

    Eseguiamo un test a due campioni Z quando vogliamo confrontare la media di due campioni.,

    Ecco un esempio per capire un test Z di due campioni

    Qui, diciamo che vogliamo sapere se le ragazze in media segnano 10 punti in più rispetto ai ragazzi. Abbiamo le informazioni che la deviazione standard per il punteggio delle ragazze è 100 e per il punteggio dei ragazzi è 90. Quindi raccogliamo i dati di 20 ragazze e 20 ragazzi usando campioni casuali e registriamo i loro segni. Infine, abbiamo anche impostato il nostro valore ⍺ (livello di significatività) su 0.05.

    In questo esempio:

    • Il punteggio medio per le ragazze (media del campione) è 641
    • Il punteggio medio per i ragazzi (media del campione) è 613.,3
    • La deviazione standard per la popolazione di ragazze è 100
    • La deviazione standard per la popolazione di ragazzi è 90
    • La dimensione del campione è 20 per Ragazze e ragazzi
    • La differenza tra media della popolazione è 10

    Quindi, possiamo concludere in base al valore P che non riusciamo a rifiutare l’ipotesi Nulla. Non abbiamo prove sufficienti per concludere che le ragazze hanno un punteggio medio di 10 punti in più rispetto ai ragazzi. Piuttosto semplice, giusto?

    Qual è il t-Test?,

    t-test statistico modo di testare un’ipotesi quando:

    • non sappiamo la varianza della popolazione
    • la Nostra dimensione del campione è piccola, n < 30

    One-Sample t-Test

    eseguire un One-Sample t-test, se vogliamo confrontare una media del campione con la media della popolazione. La differenza dal test Z è che non abbiamo le informazioni sulla varianza della popolazione qui. Usiamo la deviazione standard del campione invece della deviazione standard della popolazione in questo caso.,

    Ecco un esempio per capire un campione t-Test

    Diciamo che vogliamo determinare se in media le ragazze segnano più di 600 nell’esame. Non abbiamo le informazioni relative alla varianza (o deviazione standard) per i punteggi delle ragazze. Per un eseguire t-test, raccogliamo casualmente i dati di 10 ragazze con i loro marchi e scegliere il nostro valore ⍺ (livello di significatività) per essere 0.05 per il test di ipotesi.

    In questo esempio:

    • Il punteggio medio per le ragazze è 606,8
    • La dimensione del campione è 10
    • La media della popolazione è 600
    • La deviazione standard per il campione è 13.,14

    Il nostro P-value è maggiore di 0.05 quindi non riusciamo a rifiutare l’ipotesi nulla e non abbiamo prove sufficienti per sostenere l’ipotesi che in media le ragazze segnino più di 600 nell’esame.

    Test t a due campioni

    Eseguiamo un test t a due campioni quando vogliamo confrontare la media di due campioni.

    Ecco un esempio per capire un t-Test a due campioni

    Qui, diciamo che vogliamo determinare se in media i ragazzi ottengono 15 voti in più rispetto alle ragazze nell’esame. Non abbiamo le informazioni relative alla varianza (o deviazione standard)per i punteggi delle ragazze o dei ragazzi., Per eseguire un t-test. raccogliamo casualmente i dati di 10 ragazze e ragazzi con i loro marchi. Scegliamo il nostro valore ⍺ (livello di significatività) per essere 0.05 come criterio per il test di ipotesi.

    In questo esempio:

    • Il punteggio medio per i ragazzi è 630.1
    • Il punteggio medio per le ragazze è 606.8
    • Differenza tra popolazione Media 15
    • La deviazione standard per il punteggio dei ragazzi è 13.42
    • La deviazione standard per il punteggio delle ragazze è 13.14

    ,05 quindi possiamo respingere l’ipotesi nulla e concludere che in media i ragazzi segnano 15 voti in più rispetto alle ragazze nell’esame.

    Decidere tra Z Test e T-Test

    Quindi quando dovremmo eseguire il test Z e quando dovremmo eseguire il t-Test? È una domanda chiave a cui dobbiamo rispondere se vogliamo padroneggiare le statistiche.

    Se la dimensione del campione è abbastanza grande, il test Z e il test t si concluderanno con gli stessi risultati. Per una grande dimensione del campione, la varianza del campione sarà una stima migliore della varianza della popolazione, quindi anche se la varianza della popolazione è sconosciuta, possiamo usare il test Z usando la varianza del campione.,

    Allo stesso modo, per un campione ampio, abbiamo un alto grado di libertà. E poiché la distribuzione t si avvicina alla distribuzione normale, la differenza tra il punteggio z e il punteggio t è trascurabile.

    Case Study: Test di ipotesi per il coronavirus utilizzando Python

    Ora implementiamo il test Z a due campioni per un set di dati coronavirus. Mettiamo in pratica le nostre conoscenze teoriche e vediamo quanto bene possiamo fare. È possibile scaricare il set di dati qui.

    Questo set di dati è stato preso dal repository di John Hopkin e puoi trovare il link qui per questo.,

    Questo set di dati qui di seguito le caratteristiche:

    • Provincia/Stato
    • Paese/Regione
    • Ultimo Aggiornamento
    • Confermato
    • Morti
    • Recuperato
    • Lattitude
    • Longitudine

    E abbiamo aggiunto la funzione di Temperatura e Umidità per le coordinate di Latitudine e Longitudine utilizzando Python Meteo API – Pyweatherbit. Una percezione comune su COVID-19 è che il clima caldo è più resistente all’epidemia di corona e dobbiamo verificarlo usando il test di ipotesi. Quindi quale sarà la nostra ipotesi nulla e alternativa?,

    • Ipotesi nulla: la temperatura non influisce sull’epidemia di COV-19
    • Ipotesi alternativa: la temperatura influisce sull’epidemia di COV-19

    Nota: Stiamo considerando la temperatura inferiore a 24 come Clima freddo e superiore a 24 come clima caldo nel nostro set di dati.

    0.180286Do not reject Null Hypothesis : Not Significant

    Così. non abbiamo prove per respingere la nostra ipotesi Nulla che la temperatura non influenzi l’epidemia di COV-19., Anche se non riusciamo a trovare l’impatto della temperatura su COV-19, questo problema è stato appena preso per la comprensione concettuale di ciò che abbiamo imparato in questo articolo., Ci sono alcune limitazioni del test Z per COVID-19 set di dati:

    • dati di Esempio potrebbe non essere rappresentativo della popolazione di dati
    • la varianza del Campione non può essere un buon stimatore per la varianza della popolazione
    • Variabilità nella capacità di uno stato di affrontare questa pandemia
    • Ragioni socioeconomiche
    • Primi breakout in alcuni luoghi
    • Alcuni stati potrebbero essere nascosto i dati per ragioni geopolitiche

    Così, abbiamo bisogno di essere più cauti e di ricerca di più per identificare il modello di questa pandemia.,

    Note finali

    In questo articolo, abbiamo seguito una procedura passo passo per comprendere i fondamenti del test di ipotesi, Errore di tipo 1, Errore di tipo 2, Livello di significatività, Valore critico, Valore p, Ipotesi non direzionale, Ipotesi direzionale, Test Z e t-Test e infine implementato due test Z campione per un caso di studio del coronavirus.,

    Per maggiori dettagli puoi anche leggere questi articoli:

    • La tua guida al Master Hypothesis Testing in Statistics
    • Statistics for Data Science: Introduzione al t-test e alle sue diverse tipologie (con implementazione in R)

    Leave A Comment