Articles

Estatísticas para análise de Dados e a Ciência: o Teste de Hipóteses e Teste-Z vs. T-Teste

Posted by admin

Descrição

  • o teste de Hipóteses é um conceito-chave em estatística, análise de dados e de ciência de dados
  • Saiba como o teste de hipóteses de obras, a diferença entre o Z-teste e o teste-t, e outras estatísticas conceitos

Introdução

O coronavírus pandemia fez um estatístico de todos nós., Estamos constantemente verificando os números, fazendo nossas próprias suposições sobre como a pandemia vai se desenrolar, e gerando hipóteses sobre quando o “pico” vai acontecer. E não somos só nós a construir hipóteses – a mídia está prosperando nisso.alguns dias atrás eu estava lendo um artigo de notícias que mencionava este surto “poderia ser sazonal” e ceder em condições mais quentes: então eu comecei a me perguntar – o que mais podemos hipotetizar sobre o coronavírus? Os adultos são mais propensos a serem afetados pelo surto de coronavírus?, Como a umidade relativa afeta a propagação do vírus? Quais são as provas que sustentam estas alegações? Como podemos testar estas hipóteses?

Como um entusiasta de Estatísticas, todas estas questões desenterram o meu antigo conhecimento sobre os fundamentos do teste de hipóteses. Neste artigo, discutiremos o conceito de teste de Hipótese e a diferença entre o teste Z e o teste-T. Concluiremos então o nosso teste de hipótese de aprendizagem usando um estudo de caso COVID-19.

Você é novo no mundo das estatísticas e analíticas?, Você deve atravessar os recursos abaixo também:

  • Introdução à análise de dados de Negócios
  • Introdução à Ciência de Dados

Índice

  • Fundamentos de Testes de Hipóteses
    • Conceitos Básicos – Hipótese Nula, Hipótese Alternativa, Erro de Tipo 1, Erro de Tipo 2, e o Nível de Significância
    • os Passos para Executar Testes de Hipóteses
    • Direcional Hipótese
    • Não Direcional Teste de Hipótese
  • o Que é o Teste Z?
    • Z de Uma Amostragem de Teste
    • Duas amostras Teste Z
  • o Que é o Teste-t?,
    • One-Sample t-Test
    • Two-Sample t-Test
  • Decidir entre o Teste Z e t-Test
  • Estudo de Caso: Testes de hipóteses para Coronavírus em Python

Fundamentos de Testes de Hipóteses

Vamos tomar um exemplo para entender o conceito de Teste de Hipóteses. Uma pessoa está a ser julgada por um crime e o juiz precisa de dar um veredicto sobre o seu caso.,nd Caso: A pessoa é inocente e o juiz identifica a pessoa como culpada

  • Terceiro Caso: O indivíduo é culpado e o juiz identifica a pessoa como um ser inocente
  • Quarto Caso: O indivíduo é culpado e o juiz identifica a pessoa como culpada
  • Como você pode ver claramente, pode haver dois tipos de erro na sentença – erro de Tipo 1, quando o veredicto é contra a pessoa, enquanto ele era inocente e erro de Tipo 2, quando o veredicto em favor da Pessoa, enquanto ele era culpado

    de Acordo com o princípio da Presunção de Inocência, a pessoa é considerada inocente até que se prove culpado., Isso significa que o juiz deve encontrar a prova que o convence “além de uma dúvida razoável”. Este fenômeno de “Além de uma dúvida razoável” pode ser entendido como probabilidade (juiz decidiu culpado | pessoa é inocente) deve ser pequeno.

    os conceitos básicos do teste de hipóteses são na verdade bastante análogos a esta situação.

    consideramos a hipótese nula verdadeira até encontrarmos fortes evidências contra ela. Entao. aceitamos a hipótese alternativa., Nós também determinamos o nível de significância ( ⍺ ) que pode ser entendido como a probabilidade de (Juiz decidido culpado | pessoa é inocente) no exemplo anterior. Assim, se ⍺ é menor, será necessário mais evidência para rejeitar a hipótese nula. Não te preocupes, cobrimos tudo isto usando um estudo de caso mais tarde.,

    os Passos para Executar testes de Hipóteses

    Existem quatro etapas para executar Testes de Hipóteses:

    • Defina Hipótese
    • Defina o Nível de Significância, Critérios de decisão
    • Calcular as estatísticas de teste
    • a tomar uma decisão

    Etapas 1 a 3 são bastante auto-explicativo, mas em que base podemos tomar uma decisão na etapa 4? O que é que este valor p indica?podemos entender este valor-p como a medida do argumento do advogado de Defesa., Se o valor-p for inferior a⍺, rejeitamos a hipótese nula ou se o valor-p for superior a ⍺, não rejeitamos a hipótese nula.

    valor crítico, valor p

    vamos entender a lógica do teste de hipóteses com a representação gráfica para a distribuição Normal.normalmente, definimos o nível de significância em 10%, 5% ou 1%. Se a nossa pontuação de teste estiver na zona de aceitação, não rejeitamos a hipótese nula. Se a nossa pontuação de teste estiver na zona crítica, rejeitamos a hipótese nula e aceitamos a hipótese alternativa.,

    valor crítico é o valor-limite entre a zona de aceitação e a zona de rejeição. Comparamos nossa pontuação de teste com o valor crítico e se a pontuação de teste for maior que o valor crítico, isso significa que nossa pontuação de teste está na zona de rejeição e rejeitamos a hipótese nula. No lado oposto, se a pontuação do teste for menor que o valor crítico, isso significa que a pontuação do teste está na zona de aceitação e não rejeitamos a hipótese nula.,

    mas por que precisamos de valor p Quando podemos rejeitar/aceitar hipóteses com base nos resultados dos testes e no valor crítico?

    p-valor tem o benefício de que só precisamos de um valor para tomar uma decisão sobre a hipótese. Não precisamos calcular dois valores diferentes, como valores críticos e resultados de testes. Outro benefício do uso do valor p é que podemos testar a qualquer nível desejado de significância, comparando-o diretamente com o nível de significância.

    desta forma, não precisamos calcular as pontuações dos testes e o valor crítico para cada nível de significância., Podemos obter o valor p e compará-lo diretamente com o nível de significância.

    hipótese direccional

    na hipótese direccional, a hipótese nula é rejeitada se a pontuação de teste for demasiado grande (para a cauda direita e demasiado pequena para a cauda esquerda). Assim, a região de rejeição para tal teste consiste de uma parte, que é direita do centro.

    hipótese não direcional

    em um teste de hipótese não direcional, a hipótese nula é rejeitada se a pontuação do teste for muito pequena ou muito grande., Assim, a região de rejeição para tal teste consiste em duas partes: uma à esquerda e outra à direita.

    Qual é o teste Z?

    z testes são uma estatística maneira de testar uma hipótese quando:

    • sabemos que a variância da população, ou
    • não sabemos a variância da população, mas o tamanho de nossa amostra é grande n ≥ 30

    Se a gente tem um tamanho de amostra de menos de 30 e não sei a variância da população e, em seguida, deve-se utilizar um teste-t.

    teste Z de uma amostra

    realizamos o teste Z de uma amostra quando queremos comparar uma média da amostra com a média da população.,

    aqui está um exemplo para entender uma amostra de teste Z

    digamos que precisamos determinar se as meninas em média pontuação superior a 600 no exame. Temos a informação de que o desvio padrão para a pontuação das raparigas é de 100. Recolhemos os dados de 20 raparigas usando amostras aleatórias e registamos as suas marcas. Finalmente, também estabelecemos o nosso valor ⍺ (nível de significância) para 0,05.,

    neste exemplo:

    • Média de Pontuação para as Meninas é 641
    • O tamanho da amostra é de 20
    • A média da população é de 600
    • Desvio Padrão para a População é 100

    Desde que o valor-P é menor que 0,05, podemos rejeitar a hipótese nula e concluir com base no nosso resultado que as Meninas, em média, marcou superior a 600.

    duas amostras Z teste

    realizamos duas amostras Z teste quando queremos comparar a média de duas amostras.,

    aqui está um exemplo para entender um teste de duas amostras Z

    Aqui, digamos que queremos saber se as meninas em média pontuação 10 marcas mais do que os meninos. Temos a informação de que o desvio padrão para a pontuação das raparigas é de 100 e para a dos rapazes é de 90. Depois recolhemos os dados de 20 raparigas e 20 rapazes usando amostras aleatórias e registamos as suas marcas. Finalmente, também estabelecemos o nosso valor ⍺ (nível de significância) para 0,05.

    neste exemplo:

    • A pontuação média para raparigas (média da amostra) é de 641
    • A pontuação média para rapazes (média da amostra) é de 613.,3
    • Desvio Padrão para a População de Meninas’ é 100
    • desvio Padrão para a População de Meninos é de 90
    • Tamanho da Amostra é de 20 para Meninas e Meninos
    • Diferença entre a Média da População é de 10

    Assim, podemos concluir com base no valor de P que não conseguimos rejeitar a Hipótese Nula. Não temos provas suficientes para concluir que as raparigas ganham em média 10 Marcos a mais do que os rapazes. Muito simples, não é?

    Qual é o teste t?,

    t-testes estatísticos forma de testar uma hipótese quando:

    • não sabemos a variância da população
    • o tamanho de Nossa amostra é pequena, n < 30

    One-Sample t-Test

    fazemos um One-Sample t-test quando queremos comparar a média da amostra com a média da população. A diferença em relação ao teste Z é que não temos a informação sobre a variação da população aqui. Nós usamos o desvio padrão da amostra em vez do desvio padrão da população neste caso.,

    aqui está um exemplo para entender uma amostra de teste t

    digamos que queremos determinar se em média as meninas pontuam mais de 600 no exame. Nós não temos a informação relacionada à variância (ou desvio padrão) para as pontuações das meninas. Para realizar um teste-t, coletamos aleatoriamente os dados de 10 meninas com suas marcas e escolhemos o nosso valor ⍺ (nível de significância) para ser 0,05 para o teste de hipóteses.

    neste exemplo:

    • Média de Pontuação para as Meninas é 606.8
    • O tamanho da amostra é de 10
    • A média da população é de 600
    • Desvio Padrão para a amostra é de 13.,14

    o nosso valor de P é superior a 0,05, pelo que não rejeitamos a hipótese nula e não temos provas suficientes para sustentar a hipótese de que, em média, as raparigas pontuam mais de 600 no exame.

    teste T de duas amostras

    realizamos um teste t de duas amostras quando queremos comparar a média de duas amostras.

    aqui está um exemplo para entender um teste T de duas amostras

    Aqui, digamos que queremos determinar se, em média, os meninos pontuam 15 marcas a mais do que as meninas no exame. Nós não temos a informação relacionada à variância (ou desvio padrão) para as pontuações das meninas ou dos meninos., Para realizar um teste-T. recolhemos aleatoriamente os dados de 10 raparigas e rapazes com as suas marcas. Nós escolhemos o nosso valor ⍺ (nível de significância) para ser 0,05 como os critérios para o teste de hipóteses.

    neste exemplo:

    • Média de Pontuação para os Meninos é 630.1
    • Média de Pontuação para as Meninas é 606.8
    • Diferença entre a Média da População de 15
    • Desvio-Padrão para os Meninos a pontuação é 13.42
    • Desvio-Padrão para as Meninas a pontuação é 13.14

    Assim, P-valor for menor que 0.,05 assim, podemos rejeitar a hipótese nula e concluir que, em média, os meninos marcam 15 pontos a mais do que as meninas no exame.

    decidir entre o teste Z e o teste T

    então quando devemos realizar o teste Z e quando devemos realizar o teste t? É uma pergunta chave que temos de responder se queremos dominar as estatísticas.

    Se o tamanho da amostra for grande o suficiente, então o teste Z e o teste t concluirão com os mesmos resultados. Para um grande tamanho da amostra, variância da amostra será uma melhor estimativa da variância da população assim mesmo se a variância da população é desconhecida, podemos usar o teste Z usando variância da amostra.,

    similarmente, para uma grande amostra, temos um alto grau de liberdade. E como a distribuição t se aproxima da distribuição normal, a diferença entre a pontuação z e a pontuação t é insignificante.

    Case Study: Hypothesis Testing for Coronavirus using Python

    Now let’s implement the Two-Sample Z test for a coronavirus dataset. Vamos pôr nossos conhecimentos teóricos em prática e ver o quão bem podemos fazer. Você pode baixar o conjunto de dados aqui.

    Este conjunto de dados foi retirado do repositório de John Hopkin e você pode encontrar o link aqui para ele.,

    Este conjunto de dados aqui as características abaixo:

    • Estado
    • País/Região
    • Última Atualização
    • Confirmada
    • Mortes
    • Recuperada
    • Lattitude
    • Longitude

    E nós temos adicionado o recurso de Temperatura e Umidade para a Latitude e Longitude usando Python Tempo API – Pyweatherbit. Uma percepção comum sobre COVID-19 é que o clima quente é mais resistente ao surto de corona e precisamos verificar isso usando testes de hipótese. Então, qual será a nossa hipótese nula e alternativa?,hipótese nula: a temperatura não afecta o surto de COV-19 hipótese alternativa: a temperatura afecta o surto de COV-19 Nota: estamos a considerar a temperatura abaixo dos 24 como clima frio e acima dos 24 Como clima quente no nosso conjunto de dados.

    0.180286Do not reject Null Hypothesis : Not Significant

    Assim. não temos provas para rejeitar a hipótese nula de que a temperatura não afecta o surto de COV-19., Embora não consigamos encontrar o impacto da temperatura no COV-19, este problema acabou de ser tomado para a compreensão conceptual do que aprendemos neste artigo., Há certas limitações do teste Z para COVID-19 conjuntos de dados:

    • dados de Amostra pode não ser representativa da população de dados
    • variância da Amostra pode não ser um bom estimador da variância da população
    • a Variabilidade na capacidade do estado para lidar com esta pandemia
    • Razões Sócio-Econômicas
    • Início da fuga, em determinados lugares,
    • Alguns estados poderiam estar escondendo os dados por razões geopolíticas

    por Isso, precisamos ser mais cautelosos e faça uma pesquisa para identificar o padrão desta pandemia.,

    Notas Finais

    neste artigo, seguimos um procedimento passo a passo para entender os fundamentos de Testes de Hipóteses, Erro de Tipo 1, Erro de Tipo 2, Nível de Significância Valor Crítico, p-Valor, Não-Direcional Hipótese, Direcional Hipótese, Teste Z e t-Teste e, finalmente, implementado de Duas amostras Teste Z para um coronavírus estudo de caso.,

    para mais detalhes, também pode ler estes artigos:

    • O Seu Guia para o Master Hypothesis Testing in Statistics
    • Statistics for Data Science: Introduction to t-test and its Different Types (with Implementation in R)

    Leave A Comment