Articles

Clasificador Bayes ingenuo

Posted by admin

clasificación de Personaseditar

problema: clasifique si una persona dada es un hombre o una mujer en función de las características medidas.Las características incluyen altura, peso y tamaño del pie.

TrainingEdit

Ejemplo de entrenamiento establecido a continuación.

El clasificador creado a partir del conjunto de entrenamiento utilizando una suposición de distribución gaussiana sería (las varianzas dadas son varianzas de muestra imparciales):

digamos que tenemos clases equiprobables, por lo que P(masculino)= p(Femenino) = 0.5., Esta distribución de probabilidad previa podría basarse en nuestro conocimiento de las frecuencias en la población más grande, o en la frecuencia en el conjunto de entrenamiento.

TestingEdit

a continuación se muestra una muestra para ser clasificada como hombre o mujer.

Persona altura (pies) peso (kg) tamaño del pie(pulgadas)
ejemplo 6 130 8

queremos determinar que posterior es mayor, hombre o mujer.,e = P ( macho ) p ( altura ∣ masculino ) p ( peso ∣ masculino ) p ( tamaño del pie ∣ macho ) + P ( hembra ) p ( altura ∣ femenino ) p ( peso ∣ femenino ) p ( tamaño del pie ∣ femenino ) {\displaystyle {\begin{aligned}{\text{evidencia}}=P({\text{macho}})\,p({\text{altura}}\mid {\text{macho}})\,p({\text{peso}}\mid {\text{macho}})\,p({\text{tamaño del pie}}\mid {\text{macho}})\\+P({\text{mujeres}})\,p({\text{altura}}\mid {\text{mujeres}})\,p({\text{peso}}\mid {\text{mujeres}})\,p({\text{tamaño del pie}}\mid {\text{mujeres}})\end{aligned}}}

sin Embargo, dada la muestra, la evidencia es una constante y por lo tanto las escalas de ambos posteriores igualmente., Por lo tanto, no afecta a la clasificación y puede ignorarse. Ahora determinamos la distribución de probabilidad para el sexo de la muestra.

P ( male ) = 0.5 {\displaystyle P({\text{male}})=0.5} p ( height male male ) = 1 2 π σ 2 exp ⁡ ( − ( 6 − μ ) 2 2 σ 2 ) ≈ 1.5789 {\displaystyle p({\text{height}}\mid {\text{male}})={\frac {1}{\sqrt {2\pi \sigma ^{2}}}}\exp \left({\frac {-(6-\mu )^{2}}{2\Sigma ^{2}}}\right)\approx 1.5789} ,

donde μ = 5.855 {\displaystyle \mu =5.855} y σ 2 = 3.5033 ⋅ 10 − 2 {\displaystyle \Sigma ^{2}=3.,5033 \ cdot 10^{-2}} son los parámetros de distribución normal que se han determinado previamente a partir del conjunto de entrenamiento. Tenga en cuenta que un valor mayor que 1 está bien aquí – es una densidad de probabilidad en lugar de una probabilidad, porque la altura es una variable continua.

p (Peso male macho) = 1 2 π σ 2 exp ⁡ (−(130-μ) 2 2 σ 2 ) = 5.9881 ⋅ 10 − 6 {\displaystyle p({\text{weight}}\mid {\text{male}})={\frac {1}{\sqrt {2\pi \sigma ^{2}}}}\exp \left({\frac {-(130-\mu )^{2}}{2\sigma ^{2}}}\right)=5.9881\cdot 10^{-6}} p ( tamaño del pie male male ) = 1 2 π σ 2 exp ⁡ ( − ( 8 − μ ) 2 2 σ 2 ) = 1.,3112 ⋅ 10 − 3 {\displaystyle p({\text{tamaño del pie}}\mid {\text{macho}})={\frac {1}{\sqrt {2\pi \sigma ^{2}}}}\exp \left({\frac {-(8-\mu )^{2}}{2\sigma ^{2}}}\right)=1.3112\cdot 10^{-3}} posterior numerador (macho) = su producto = 6.1984 ⋅ 10 − 9 {\displaystyle {\text{posterior numerador (macho)}}={\text{su producto}}=6.1984\cdot 10^{-9}} P ( mujer ) = 0.5 {\displaystyle P({\text{mujeres}})=0.5} p ( altura ∣ hembra ) = 2.2346 ⋅ 10 − 1 {\displaystyle p({\text{altura}}\mid {\text{mujeres}})=2.2346\cdot 10^{-1}} p ( peso ∣ hembra ) = 1.,6789 ⋅ 10 − 2 {\displaystyle p({\text{weight}}\mid {\text{female}})=1.6789\cdot 10^{-2}} p ( foot size female female ) = 2.8669 ⋅ 10 − 1 {\displaystyle p({\text{foot size}}\mid {\text{female}})=2.8669\cdot 10^{-1}} numerador posterior (female) = su producto = 5.3778 ⋅ 10 − 4 {\displaystyle {\text{numerador posterior (femenino)}}={\text{su producto}}=5.3778\cdot 10^{-4}}

dado que el numerador posterior es mayor en el caso femenino, predicemos que la muestra es femenina.,

clasificación de Documentoeditar

Aquí hay un ejemplo de clasificación Bayesiana ingenua para el problema de clasificación de documentos.Considere el problema de clasificar los documentos por su contenido, por ejemplo, en correos electrónicos spam y no spam., Imagine que los documentos se extraen de un número de clases de documentos que se pueden modelar como conjuntos de palabras donde la probabilidad (independiente) de que la i-ésima palabra de un documento dado ocurra en un documento de Clase C se puede escribir como

p ( w i C C ) {\displaystyle p(w_{i}\mid C)\,}

(para este tratamiento, simplificamos las cosas aún más asumiendo que las palabras se distribuyen aleatoriamente en el documento, es decir, las palabras no dependen de la longitud del documento, la posición dentro del documento con relación a otras palabras u otro documento – contexto.,)

Entonces la probabilidad de que un determinado documento D contiene todas las palabras w i {\displaystyle w_{i}} , dada una clase C, es

p ( D ∣ C ) = ∏ i p ( w i ∣ C ) {\displaystyle p(D\mid C)=\prod _{i}p(w_{i}\mid C)\,}

Ahora, por definición,

p ( D ∣ C ) = p ( D ∩ C ) p ( C ) {\displaystyle p(D\mid C)={p(D\cap C) \sobre p(C)}}

y

p ( C ∣ D ) = p ( D ∩ C ) p ( D ) {\displaystyle p(C\a mediados D)={p(D\cap C) \sobre p(D)}}

teorema de Bayes manipula estos en una declaración de la probabilidad en términos de probabilidad.,

p ( C ∣ D ) = p ( C ) p ( D ∣ C ) p ( D ) {\displaystyle p(C\a mediados D)={\frac {p(C)\,p(D\mid C)}{p(D)}}}

de momento, Supongamos que sólo hay dos clases mutuamente excluyentes, S y S (por ejemplo,,factores como:

p ( S ∣ D ) p ( S ∣ D ) = p ( S ) p ( S ) ∏ i p ( w i ∣ S ) p ( w i ∣ S ) {\displaystyle {p(S\mediados de la D) \sobre p(\neg S\mediados de la D)}={p(S) \sobre p(\neg S)}\,\prod _{i}{p(w_{i}\mid S) \sobre p(w_{i}\mid \neg S)}}

se Toma el logaritmo de todos estos coeficientes, tenemos:

ln ⁡ p ( S ∣ D ) p ( S ∣ D ) = ln ⁡ p ( S ) p ( S ) + ∑ i ln ⁡ p ( w i ∣ S ) p ( w i ∣ S ) {\displaystyle \ln {p(S\mediados de la D) \sobre p(\neg S\mediados de la D)}=\ln {p(S) \sobre p(\neg S)}+\sum _{i}\ln {p(w_{i}\mid S) \sobre p(w_{i}\mid \neg S)}}

(con Esta técnica de «log-likelihood ratios» es una técnica común en las estadísticas.,En el caso de dos alternativas mutuamente excluyentes (como este ejemplo), la conversión de una relación log-verosimilitud a una probabilidad toma la forma de una curva sigmoide: vea logit para más detalles.)

Leave A Comment