Articles

estadísticas para análisis y Ciencia de Datos: prueba de hipótesis y Z-Test vs.T-Test

Posted by admin

Descripción general

  • La prueba de hipótesis es un concepto clave en estadística, análisis y ciencia de datos
  • Aprenda cómo funcionan las pruebas de hipótesis, la diferencia entre Z-test y t-test, y otros conceptos estadísticos

Introducción

la pandemia de coronavirus ha estadístico de todos nosotros., Estamos constantemente comprobando los números, haciendo nuestras propias suposiciones sobre cómo se desarrollará la pandemia, y generando hipótesis sobre cuándo ocurrirá el «pico». Y no solo estamos construyendo hipótesis – los medios están prosperando en ello.

hace unos días estaba leyendo un artículo de noticias que mencionaba que este brote «podría ser potencialmente estacional» y ceder en condiciones más cálidas:

así que empecé a preguntarme: ¿qué más podemos hipotetizar sobre el coronavirus? ¿Es más probable que los adultos se vean afectados por el brote de coronavirus?, ¿Cómo afecta la humedad relativa a la propagación del virus? ¿Cuál es la evidencia para apoyar estas afirmaciones? ¿Cómo podemos probar estas hipótesis?

como entusiasta de las estadísticas, todas estas preguntas desentierran mi viejo conocimiento sobre los fundamentos de las pruebas de hipótesis. En este artículo, discutiremos el concepto de prueba de hipótesis y la diferencia entre la prueba Z y la prueba T. Luego concluiremos nuestro aprendizaje de prueba de hipótesis utilizando un estudio de caso de COVID-19.

¿Eres nuevo en el mundo de la estadística y la analítica?, También debe revisar los siguientes recursos:

  • Introducción al análisis de negocios
  • Introducción a la ciencia de datos

tabla de contenidos

  • Fundamentos de la prueba de hipótesis
    • Conceptos Básicos: hipótesis nula, hipótesis alternativa, Error de tipo 1, Error de tipo 2 y nivel de significación
    • pasos para realizar la prueba de hipótesis
    • hipótesis direccional
    • prueba de hipótesis no direccional
  • ¿Qué es la prueba z?
    • Una Muestra de la Prueba Z
    • Dos Muestras Prueba Z
  • ¿Qué es la Prueba de t?,
    • One-Sample t-Test
    • two-Sample t-Test
  • Decidir entre la Prueba Z y t-Test
  • Estudio de Caso: Pruebas de hipótesis para Coronavirus en Python

Fundamentos de la Prueba de Hipótesis

veamos un ejemplo para entender el concepto de Prueba de Hipótesis. Una persona está en juicio por un delito penal y el juez debe dar un veredicto sobre su caso.,nd caso: la persona es inocente y el juez identifica a la persona como culpable

  • tercer caso: la persona es culpable y el juez identifica a la persona como inocente
  • cuarto caso: la persona es culpable y el juez identifica a la persona como culpable
  • como se puede ver claramente, puede haber dos tipos de error en la sentencia – error tipo 1, cuando el veredicto es contra la persona mientras era inocente y error tipo 2, cuando el veredicto es a favor de la persona mientras era culpable

    según la presunción de inocencia, la persona es considerada inocente hasta que se demuestre su culpabilidad., Eso significa que el juez debe encontrar la evidencia que lo convenza «más allá de una duda razonable». Este fenómeno de «más allá de una duda razonable» se puede entender como Probabilidad (el juez decidió culpable | persona es inocente) debe ser pequeño.

    los conceptos básicos de la prueba de hipótesis son en realidad bastante análogos a esta situación.

    consideramos que la hipótesis nula es verdadera hasta que encontremos evidencia fuerte en su contra. Entonces. aceptamos la Hipótesis Alternativa., También determinamos el nivel de significancia ( ⍺ ) que se puede entender como la probabilidad de (juez decidió culpable | persona es inocente) en el ejemplo anterior. Por lo tanto, si ⍺ es más pequeño, requerirá más evidencia para rechazar la hipótesis nula. No te preocupes, cubriremos todo esto usando un estudio de caso más adelante.,

    pasos para realizar la prueba de hipótesis

    hay cuatro pasos para realizar la prueba de hipótesis:

    • Establecer la hipótesis
    • Establecer el nivel de significación, criterios para una decisión
    • calcular las estadísticas de la prueba
    • Tomar una decisión

    Los pasos 1 a 3 son bastante autoexplicativos, pero sobre qué base podemos tomar una decisión en el paso 4? ¿Qué indica este valor p?

    podemos entender este valor p como la medida del argumento del abogado defensor., Si el valor p es menor que ⍺ , rechazamos la hipótesis nula o si el valor p es mayor que ⍺, fallamos en Rechazar la hipótesis nula.

    valor crítico, valor p

    vamos a entender la lógica de la prueba de hipótesis con la representación gráfica para la distribución Normal.

    normalmente, establecemos el nivel de significancia en 10%, 5% o 1%. Si nuestro puntaje de prueba se encuentra en la zona de aceptación, no rechazamos la hipótesis nula. Si nuestro puntaje de prueba se encuentra en la zona crítica, rechazamos la hipótesis nula y aceptamos la hipótesis alternativa.,

    El valor crítico es el valor de corte entre la zona de aceptación y la zona de rechazo. Comparamos nuestra puntuación de la prueba con el valor crítico y si la puntuación de la prueba es mayor que el valor crítico, eso significa que nuestra puntuación de la prueba se encuentra en la zona de rechazo y rechazamos la hipótesis nula. En el lado opuesto, si el puntaje de la prueba es menor que el valor crítico, eso significa que el puntaje de la prueba se encuentra en la zona de aceptación y no rechazamos la hipótesis nula.,

    pero, ¿por qué necesitamos el valor p cuando podemos rechazar / aceptar hipótesis basadas en los resultados de las pruebas y el valor crítico?

    el valor p Tiene el beneficio de que solo necesitamos un valor para tomar una decisión sobre la hipótesis. No necesitamos calcular dos valores diferentes como el valor crítico y las puntuaciones de las pruebas. Otro beneficio de usar el valor p es que podemos probar en cualquier nivel de significación deseado comparándolo directamente con el nivel de significación.

    de esta manera no necesitamos calcular los puntajes de las pruebas y el valor crítico para cada nivel de significación., Podemos obtener el valor p y compararlo directamente con el nivel de significación.

    hipótesis direccional

    en la hipótesis direccional, la hipótesis nula se rechaza si la puntuación de la prueba es demasiado grande (para cola derecha y demasiado pequeña para cola izquierda). Por lo tanto, la región de rechazo para tal prueba consiste en una parte, que está justo desde el centro.

    hipótesis no direccional

    en una prueba de hipótesis no direccional, la hipótesis nula se rechaza si la puntuación de la prueba es demasiado pequeña o demasiado grande., Por lo tanto, la región de rechazo para tal prueba consta de dos partes: una a la izquierda y otra a la derecha.

    ¿qué es la prueba Z?

    las pruebas z son una forma estadística de probar una hipótesis cuando:

    • conocemos la varianza poblacional, o
    • no conocemos la varianza poblacional pero nuestro tamaño muestral es grande n ≥ 30

    Si tenemos un tamaño muestral inferior a 30 y no conocemos la varianza poblacional, entonces debemos usar una prueba t.

    prueba Z de una muestra

    realizamos la prueba Z de una muestra cuando queremos comparar una media muestral con la media poblacional.,

    aquí hay un ejemplo para entender una prueba Z de una muestra

    digamos que necesitamos determinar si las niñas en promedio obtienen una puntuación superior a 600 en el examen. Tenemos la información de que la desviación estándar para las puntuaciones de las niñas es de 100. Por lo tanto, recopilamos los datos de 20 Chicas utilizando muestras aleatorias y registramos sus marcas. Finalmente, también establecemos nuestro valor ⍺ (nivel de significancia) para ser 0.05.,

    en este ejemplo:

    • La puntuación media para las niñas es 641
    • El tamaño de la muestra es 20
    • La media de la población es 600
    • La desviación estándar para la población es 100

    dado que el valor de P es menor que 0.05, podemos rechazar la hipótesis nula y concluir con base en nuestro resultado que las niñas en promedio obtuvieron una puntuación superior a 600.

    prueba de dos muestras z

    realizamos una prueba de dos muestras Z cuando queremos comparar la media de dos muestras.,

    aquí hay un ejemplo para entender una prueba Z de dos muestras

    aquí, digamos que queremos saber si las niñas en promedio puntúan 10 puntos más que los niños. Tenemos la información de que la desviación estándar para el puntaje de las niñas es de 100 y para el de los niños es de 90. Luego recopilamos los datos de 20 niñas y 20 niños mediante el uso de muestras aleatorias y registramos sus marcas. Finalmente, también establecemos nuestro valor ⍺ (nivel de significancia) para ser 0.05.

    en este ejemplo:

    • La puntuación media para las niñas (media de la muestra) es 641
    • La puntuación media para los niños (media de la muestra) es 613.,3
    • La desviación estándar para la población de niñas es 100
    • La desviación estándar para la población de niños es 90
    • El Tamaño de la muestra es 20 tanto para niñas como para niños
    • La diferencia entre la media de la población es 10

    por lo tanto, podemos concluir con base en el valor de P que no rechazamos la hipótesis nula. No tenemos pruebas suficientes para concluir que las niñas tengan una puntuación media de 10 puntos más que los niños. Bastante simple, ¿verdad?

    ¿qué es la prueba t?,

    las pruebas t son una forma estadística de probar una hipótesis cuando:

    • no conocemos la varianza poblacional
    • Nuestro tamaño muestral es pequeño, n < 30

    prueba T de una muestra

    realizamos una prueba t de una muestra cuando queremos comparar una media muestral con la media poblacional. La diferencia con la prueba Z es que no tenemos la información sobre la varianza poblacional aquí. Utilizamos la desviación estándar de la muestra en lugar de la desviación estándar de la población en este caso.,

    aquí hay un ejemplo para entender una prueba T de una muestra

    digamos que queremos determinar si en promedio las niñas obtienen más de 600 en el examen. No tenemos la información relacionada con la varianza (o desviación estándar) para las puntuaciones de las niñas. Para realizar la prueba t, recolectamos aleatoriamente los datos de 10 niñas con sus calificaciones y elegimos nuestro valor ⍺ (nivel de significación) para ser 0.05 para la prueba de hipótesis.

    en este ejemplo:

    • La puntuación media para las niñas es 606,8
    • El tamaño de la muestra es 10
    • La media de la población es 600
    • La desviación estándar para la muestra es 13.,14

    nuestro valor de P es mayor que 0.05, por lo que no rechazamos la hipótesis nula y no tenemos suficiente evidencia para apoyar la hipótesis de que, en promedio, las niñas obtienen más de 600 en el examen.

    two-Sample t-Test

    realizamos un two-Sample t-test cuando queremos comparar la media de dos muestras.

    aquí hay un ejemplo para entender una prueba t de dos muestras

    aquí, digamos que queremos determinar si, en promedio, los niños obtienen 15 puntos más que las niñas en el examen. No tenemos la información relacionada con la varianza (o desviación estándar) para las puntuaciones de las niñas o de los niños., Para realizar una prueba T. recopilamos aleatoriamente los datos de 10 niñas y niños con sus marcas. Elegimos nuestro valor ⍺ (nivel de significancia) para ser 0.05 como el criterio para la prueba de hipótesis.

    en este ejemplo:

    • La puntuación media para los niños es 630,1
    • La puntuación media para las niñas es 606,8
    • diferencia entre la media de la población 15
    • La desviación estándar para los niños es 13,42
    • La desviación estándar para las niñas es 13,14

    por lo tanto, el valor de P es menor que 0.,05 Así que podemos rechazar la hipótesis nula y concluir que en promedio los niños obtienen 15 puntos más que las niñas en el examen.

    Decidir entre la Prueba Z y T-Test

    Entonces, cuando debemos realizar la prueba Z, y cuando debemos realizar la Prueba de t? Es una pregunta clave que necesitamos responder si queremos dominar las estadísticas.

    si el tamaño de la muestra es lo suficientemente grande, entonces la prueba Z y la prueba t concluirán con los mismos resultados. Para un tamaño de muestra grande, la varianza de la muestra será una mejor estimación de la varianza de la población, por lo que incluso si la varianza de la población es desconocida, podemos usar la prueba Z usando la varianza de la muestra.,

    del mismo modo, para una Muestra Grande, tenemos un alto grado de libertad. Y dado que la distribución t se acerca a la distribución normal, la diferencia entre el puntaje z y el puntaje t es insignificante.

    Estudio de caso: prueba de hipótesis para Coronavirus usando Python

    ahora vamos a implementar la prueba Z de dos muestras para un conjunto de datos de coronavirus. Pongamos en práctica nuestros conocimientos teóricos y veamos qué tan bien podemos hacerlo. Puede descargar el conjunto de datos aquí.

    Este conjunto de datos ha sido tomado del repositorio de John Hopkin y puede encontrar el enlace aquí para ello.,

    Este conjunto de datos aquí las siguientes características:

    • Province/State
    • Country/Region
    • Last Update
    • Confirmed
    • Deaths
    • Recovered
    • Lattitude
    • Longitude

    y hemos agregado la característica de temperatura y humedad para latitud y longitud usando la API de tiempo de Python – Pyweatherbit. Una percepción común sobre la COVID-19 es que el clima cálido es más resistente al brote de corona y necesitamos verificar esto mediante pruebas de hipótesis. Entonces, ¿cuál será nuestra hipótesis nula y alternativa?,

    • hipótesis nula: la temperatura no afecta al brote del COV-19
    • hipótesis alternativa: la temperatura afecta al brote del COV-19

    Nota: estamos considerando la temperatura por debajo de 24 Como clima frío y por encima de 24 Como clima caliente en nuestro conjunto de datos.

    0.180286Do not reject Null Hypothesis : Not Significant

    por Lo tanto. no tenemos evidencia para rechazar nuestra hipótesis nula de que la temperatura no afecta el brote de COV-19., Aunque no podemos encontrar el impacto de la temperatura en el COV-19, Este problema solo se ha tomado para la comprensión conceptual de lo que hemos aprendido en este artículo., Hay ciertas limitaciones de la prueba Z para los conjuntos de datos de COVID-19:

    • Los datos de la muestra pueden no ser bien representativos de los datos de la población
    • la varianza de la muestra puede no ser un buen estimador de la varianza de la población
    • variabilidad en la capacidad de un estado para hacer frente a esta pandemia
    • razones socioeconómicas
    • ruptura temprana en ciertos lugares
    • Algunos estados podrían ocultar los datos por razones geopolíticas

    por lo tanto, necesitamos ser más cautelosos e investigar más para identificar el patrón de esta pandemia.,

    notas finales

    en este artículo, seguimos un procedimiento paso a paso para comprender los fundamentos de la prueba de hipótesis, Error Tipo 1, Error tipo 2, Nivel de significación, valor crítico, valor p, hipótesis no direccional, hipótesis direccional, prueba Z y prueba t y finalmente implementamos dos pruebas Z de muestra para un estudio de caso de coronavirus.,

    para más detalles también puede leer estos artículos:

    • Su guía para dominar las pruebas de hipótesis en Estadísticas
    • estadísticas para la ciencia de datos: Introducción a la prueba t y sus diferentes tipos (con implementación en R)

    Leave A Comment