Articles

Statistici pentru Analiză de Date și Știință: Testarea Ipotezelor și Z-Test vs T-Test

Posted by admin

Prezentare

  • testarea Ipotezelor este un concept-cheie în statistici, analize, si stiinta de date
  • Afla cum de testare a ipotezei de lucrări, diferența între Z-test și testul t, și alte statistici concepte

Introducere

coronavirus pandemică a făcut un statistician de la noi toți., Verificăm constant numerele, facem propriile noastre ipoteze despre modul în care se va desfășura pandemia și generăm ipoteze despre momentul în care se va întâmpla „vârful”. Și nu doar noi facem construirea de ipoteze – mass-media este înfloritoare pe ea.

cu câteva zile în urmă am citit un articol de știri menționat că acest focar „ar putea fi de sezon” și înmuia în condiții calde:

Așa că am început să mă întreb – ce altceva putem specula despre coronavirusul? Adulții sunt mai susceptibili să fie afectați de focarul de coronavirus?, Cum influențează umiditatea relativă răspândirea virusului? Care sunt dovezile care susțin aceste afirmații? Cum putem testa aceste ipoteze?ca un pasionat de statistici ,toate aceste întrebări dezgropa cunoștințele mele vechi despre fundamentele de testare ipoteze. În acest articol, vom discuta conceptul de testare a ipotezelor și diferența dintre testul Z și testul T. Vom încheia apoi învățarea testării ipotezelor folosind un studiu de caz COVID-19.sunteți nou în lumea statisticilor și a analizelor?, Ar trebui să mergi prin partea de jos a resurselor precum:

  • Introducere în Business Analytics
  • Introducere în Știința Datelor

Cuprins

  • Bazele de Testarea Ipotezelor
    • Concepte de Bază – Ipoteza Nulă Ipoteza Alternativă, Eroare de Tip 1, Tip 2 Eroare, și Nivelul de Semnificație
    • Pași pentru a Efectua Testarea Ipotezelor
    • Direcționale Ipoteza
    • Non Directional Ipoteza de Testare
  • Ce este Testul Z?
    • un singur test Z
    • două test z
  • care este testul t?,
    • One-Sample t-Test
    • Două-Sample t-Test
  • de a Decide între Testul Z și Testul t
  • Studiu de Caz: Testarea ipotezelor pentru Coronavirus în Python

Bazele de Testarea Ipotezelor

Să luăm un exemplu pentru a înțelege conceptul de Testare a Ipotezei. O persoană este judecată pentru o infracțiune, iar judecătorul trebuie să dea un verdict în cazul său.,nd de Caz: persoana este nevinovată și judecătorul identifică persoana la fel de vinovat

  • al Treilea Caz: persoana este vinovată și judecătorul identifică persoana la fel de nevinovat
  • al Patrulea Caz: persoana este vinovată și judecătorul identifică persoana la fel de vinovat
  • după Cum puteți vedea în mod clar, nu pot fi două tipuri de eroare în hotărârea de Tip 1 eroare, când verdictul este împotriva persoanei în timp ce el a fost nevinovat și Tipul 2 de eroare, atunci când este verdictul în favoarea Persoană în timp ce el a fost vinovat

    în Conformitate cu Prezumția de Nevinovăție, persoana este considerată nevinovată până la proba contrarie., Asta înseamnă că judecătorul trebuie să găsească dovezile care îl conving „dincolo de orice îndoială rezonabilă”. Acest fenomen de „dincolo de o îndoială rezonabilă” poate fi înțeles ca probabilitate (judecătorul a decis vinovat | persoana este nevinovată) ar trebui să fie mic.conceptele de bază ale testării ipotezelor sunt de fapt destul de analoge cu această situație.considerăm că ipoteza nulă este adevărată până când găsim dovezi puternice împotriva acesteia. Atunci. Acceptăm ipoteza alternativă., De asemenea, determinăm nivelul de semnificație (⍺) care poate fi înțeles ca probabilitatea (judecătorul a decis vinovat | persoana este nevinovată) în exemplul anterior. Astfel, dacă ⍺ este mai mic, va fi nevoie de mai multe dovezi pentru a respinge ipoteza nulă. Nu vă faceți griji, vom acoperi toate acestea folosind un studiu de caz mai târziu.,

    Pași pentru a Efectua testarea Ipotezelor

    Există patru pași pentru a efectua Testarea Ipotezelor:

    • Set de Ipoteze
    • Set de Nivelul de Semnificație, Criteriile de decizie
    • Calcula statistici de test
    • Asigurați-o decizie

    Pașii de la 1 la 3 sunt destul de auto-explicative, dar pe ce bază putem lua o decizie în pasul 4? Ce indică această valoare p?

    putem înțelege această valoare p ca măsură a argumentului avocatului apărării., Dacă valoarea p este mai mică decât ⍺ , se respinge Ipoteza Nulă sau dacă valoarea p este mai mare decât ⍺, nu vom respinge Ipoteza Nulă.

    valoare critică, valoare p

    să înțelegem logica testării ipotezelor cu reprezentarea grafică pentru distribuția normală.

    De obicei, setăm nivelul de semnificație la 10%, 5% sau 1%. Dacă scorul testului nostru se află în zona de acceptare, nu reușim să respingem ipoteza nulă. Dacă scorul testului nostru se află în zona critică, respingem ipoteza nulă și acceptăm ipoteza alternativă.,

    valoarea critică este valoarea limită între zona de acceptare și zona de respingere. Comparăm scorul testului nostru cu valoarea critică și dacă scorul testului este mai mare decât valoarea critică, înseamnă că scorul testului nostru se află în zona de respingere și respingem ipoteza nulă. În partea opusă, dacă scorul testului este mai mic decât valoarea critică, înseamnă că scorul testului se află în zona de acceptare și nu reușim să respingem ipoteza nulă.,

    dar de ce avem nevoie de valoarea p când putem respinge/accepta ipoteze bazate pe scorurile testelor și valoarea critică?valoarea p are avantajul că avem nevoie de o singură valoare pentru a lua o decizie cu privire la ipoteză. Nu trebuie să calculăm două valori diferite, cum ar fi valoarea critică și scorurile testelor. Un alt beneficiu al utilizării valorii p este că putem testa la orice nivel dorit de semnificație comparând acest lucru direct cu nivelul de semnificație.

    în acest fel nu trebuie să calculăm scorurile testelor și valoarea critică pentru fiecare nivel de semnificație., Putem obține valoarea p și o comparăm direct cu nivelul de semnificație.

    ipoteza direcțională

    În ipoteza direcțională, ipoteza nulă este respinsă dacă scorul testului este prea mare (pentru coada dreaptă și prea mic pentru coada stângă). Astfel, regiunea de respingere pentru un astfel de test constă dintr-o parte, care este chiar din centru.

    ipoteza non-direcțională

    într-un test de ipoteză non-direcțională, ipoteza nulă este respinsă dacă scorul testului este fie prea mic, fie prea mare., Astfel, regiunea de respingere pentru un astfel de test constă din două părți: una în stânga și una în dreapta.

    ce este testul Z?

    z teste statistice de testare a unei ipoteze atunci când fie:

    • știm că varianța populației, sau
    • nu știm populației varianța dar dimensiunea eșantionului este mare, n ≥ 30

    Dacă avem un eșantion de mai puțin de 30 si nu stiu populației variație, atunci trebuie să utilizați un t-test.

    testul Z dintr-un eșantion

    efectuăm testul Z dintr-un eșantion atunci când dorim să comparăm media unui eșantion cu media populației.,

    Iată un exemplu pentru a înțelege un test de un eșantion z

    Să presupunem că avem nevoie pentru a determina dacă fetele, în medie, scor mai mare de 600 în examen. Avem informația că abaterea standard pentru scorurile fetelor este de 100. Deci, colectăm datele a 20 de fete folosind probe aleatorii și înregistrăm mărcile lor. În cele din urmă, am stabilit, de asemenea, valoarea noastră ⍺ (nivelul de semnificație) să fie 0.05.,

    În acest exemplu:

    • media pentru Fete este de 641
    • mărimea eșantionului este de 20 de
    • populația medie este de 600
    • Abaterea Standard a Populației este de 100

    Deoarece valoarea P este mai mică decât 0,05, putem respinge ipoteza nulă și concluzionăm bazat pe rezultat că Fetele, în medie, a marcat mai mult de 600.

    două probe de testare Z

    efectuăm un test de două probe Z atunci când dorim să comparăm media a două probe.,

    Iată un exemplu pentru a înțelege un test de două probe Z

    aici, să presupunem că vrem să știm dacă fetele, în medie, scor 10 mărci mai mult decât băieții. Avem informația că abaterea standard pentru scorul fetelor este de 100, iar pentru băieți este de 90. Apoi colectăm datele a 20 de fete și 20 de băieți folosind probe aleatorii și înregistrăm notele lor. În cele din urmă, am stabilit, de asemenea, valoarea noastră ⍺ (nivelul de semnificație) să fie 0.05.

    În acest exemplu:

    • Scorul mediu pentru fete (media eșantionului) este 641
    • Scorul mediu pentru Băieți (media eșantionului) este 613.,3
    • Abaterea Standard pentru Populația din Fete este 100
    • abaterea Standard pentru Populația din Băieți este de 90
    • Mărimea Eșantionului este de 20 pentru ambele Fete și Băieți
    • Diferența dintre Medie a Populației este de 10

    Astfel, putem concluziona pe baza P-valoare care nu vom respinge Ipoteza Nulă. Nu avem suficiente dovezi pentru a concluziona că fetele, în medie, scor de 10 mărci mai mult decât băieții. Destul de simplu, nu?

    ce este testul t?,

    t-teste statistice de testare a unei ipoteze atunci când:

    • nu știm varianța populației
    • Nostru mărimea eșantionului este mic, n < 30

    One-Sample t-Test

    Vom efectua un One-Sample t-test, atunci când vrem pentru a compara un eșantion cu populația medie. Diferența față de testul Z este că nu avem informații despre variația populației aici. Folosim deviația standard a eșantionului în locul deviației standard a populației în acest caz.,

    Iată un exemplu pentru a înțelege o probă t-Test

    Să presupunem că vrem să determinăm dacă în medie fetele scor mai mult de 600 în examen. Nu avem informațiile referitoare la varianța (sau abaterea standard) pentru scorurile fetelor. Pentru a efectua un T-test, vom colecta aleatoriu datele de 10 fete cu mărcile lor și alegeți valoarea noastră ⍺ (nivel de semnificație) să fie 0,05 pentru testarea ipotezelor.

    În acest exemplu:

    • media pentru Fete este 606.8
    • mărimea eșantionului este de 10
    • populația medie este de 600
    • Abaterea Standard pentru eșantion este de 13.,14

    valoarea noastră P este mai mare de 0,05, astfel nu reușim să respingem ipoteza nulă și nu avem suficiente dovezi care să susțină ipoteza că, în medie, fetele obțin mai mult de 600 la examen.

    testul T cu două eșantioane

    efectuăm un test T cu două eșantioane atunci când dorim să comparăm media a două eșantioane.

    Iată un exemplu pentru a înțelege un test T cu două probe

    aici, să presupunem că vrem să determinăm dacă, în medie, băieții marchează cu 15 note mai mult decât fetele la examen. Nu avem informațiile referitoare la varianța (sau abaterea standard) pentru scorurile fetelor sau ale băieților., Pentru a efectua un test T. colectăm aleatoriu datele a 10 fete și băieți cu mărcile lor. Noi alegem valoarea noastră ⍺ (nivelul de semnificație) să fie 0.05 ca criterii pentru testarea ipotezelor.

    În acest exemplu:

    • media pentru Băieți este 630.1
    • media pentru Fete este 606.8
    • Diferența între Populația Medie 15
    • Abaterea Standard pentru Băieți scorul este 13.42
    • Abaterea Standard pentru Fete scorul este 13.14

    Astfel, Valoarea P este mai mică decât 0.,05 astfel încât să putem respinge ipoteza nulă și să concluzionăm că, în medie, băieții marchează cu 15 note mai mult decât fetele la examen.

    A decide între testul Z și testul t

    deci când ar trebui să efectuăm testul Z și când ar trebui să efectuăm testul t? Este o întrebare cheie la care trebuie să răspundem dacă vrem să stăpânim Statisticile.dacă dimensiunea eșantionului este suficient de mare, atunci testul Z și testul t se vor încheia cu aceleași rezultate. Pentru o dimensiune mare a eșantionului, varianța eșantionului va fi o estimare mai bună a varianței populației, astfel încât, chiar dacă varianța populației este necunoscută, putem folosi testul Z folosind varianța eșantionului.,în mod similar ,pentru un eșantion mare, avem un grad ridicat de libertate. Și din moment ce distribuția t se apropie de distribuția normală, diferența dintre scorul z și Scorul t este neglijabilă.

    studiu de caz: testarea ipotezelor pentru Coronavirus folosind Python

    acum, să implementăm testul Z cu două eșantioane pentru un set de date coronavirus. Să ne punem cunoștințele teoretice în practică și să vedem cât de bine putem face. Puteți descărca setul de date aici.

    Acest set de date a fost preluat din depozitul lui John Hopkin și puteți găsi linkul aici pentru acesta.,

    Acest set de date aici caracteristicile de mai jos:

    • Provincie/Stat
    • Țară/Regiune
    • Ultima Actualizare
    • a Confirmat
    • Decese
    • de Recuperat
    • Libertatea
    • Longitudine

    Și am adăugat o caracteristică de Temperatură și Umiditate pentru Latitudine și Longitudine folosind Python API Vreme – Pyweatherbit. O percepție comună despre COVID-19 este că climatul cald este mai rezistent la focarul corona și trebuie să verificăm acest lucru folosind testarea ipotezelor. Deci, care va fi ipoteza noastră nulă și alternativă?,

    • ipoteza nulă: temperatura nu afectează focarul COV-19
    • ipoteza alternativă: temperatura afectează focarul COV-19

    Notă: avem în vedere temperatura sub 24 ca climă rece și peste 24 ca climă caldă în setul nostru de date.

    0.180286Do not reject Null Hypothesis : Not Significant

    astfel. nu avem dovezi care să respingă ipoteza noastră nulă că temperatura nu afectează focarul COV-19., Deși nu putem găsi impactul temperaturii asupra COV-19, această problemă tocmai a fost luată pentru înțelegerea conceptuală a ceea ce am învățat în acest articol., Există anumite limitări ale testului Z pentru COVID-19 seturi de date:

    • date Eșantion nu poate fi reprezentant al populației date
    • varianța nu poate fi un bun estimator al populației variație
    • Variabilitatea în capacitatea statului de a face cu această pandemie
    • Motive Socio-Economice
    • mai Devreme breakout în anumite locuri
    • Unele state s-ar putea ascunde datele motive geopolitice

    Deci, trebuie să fim mai precauți și de cercetare mai mult pentru a identifica modelul de această pandemie.,

    note finale

    În acest articol, am urmat o procedură pas cu pas pentru a înțelege fundamentele testării ipotezelor, eroare de tip 1, Eroare de tip 2, Nivel de semnificație, valoare critică, valoare p, ipoteză nedirecțională, ipoteză direcțională, test Z și test t și în final am implementat două probe Z Test pentru un studiu de caz coronavirus.,pentru mai multe detalii puteți citi și aceste articole:

    • ghidul dvs. pentru a stăpâni Testarea ipotezelor în Statistică
    • statistici pentru știința datelor: Introducere în t-test și diferitele sale tipuri (cu implementare în R)

    Leave A Comment