Articles

Ingênuo classificador de Bayes

Posted by admin

pessoa classificationEdit

problema: classificar se uma dada pessoa é um homem ou uma mulher com base nas características medidas.As características incluem altura, peso e tamanho do pé.

TrainingEdit

exemplo de formação definido abaixo.

O classificador criado a partir do conjunto de treinamento usando uma suposição de distribuição gaussiana seria(dado variâncias são variâncias de amostra não tendenciosas):

digamos que temos classes equiprobáveis assim P(masculino)= P (Feminino) = 0,5., Esta distribuição de probabilidade prévia pode ser baseada no nosso conhecimento de frequências na população maior, ou na frequência no conjunto de treinamento.

TestingEdit

abaixo está uma amostra a ser classificada como masculina ou feminina.

Pessoa > altura (pés) > peso (kg) tamanho do pé(polegadas)
exemplo 6 130 8

queremos determinar qual posterior é maior, do sexo masculino ou feminino.,e = P ( macho ) p ( altura ∣ macho ) p ( peso ∣ macho ) p ( o tamanho do pé ∣ do sexo masculino ) + P ( feminino ) p ( altura ∣ feminino ) p ( peso ∣ feminino ) p ( o tamanho do pé ∣ feminino ) {\displaystyle {\begin{alinhado}{\text{evidência}}=P({\text{masculino}})\,p({\text{altura}}\mid {\text{masculino}})\,p({\text{peso}}\mid {\text{masculino}})\,p({\text{tamanho do pé}}\mid {\text{masculino}})\\+P({\text{feminino}})\,p({\text{altura}}\mid {\text{feminino}})\,p({\text{peso}}\mid {\text{feminino}})\,p({\text{tamanho do pé}}\mid {\text{feminino}})\end{alinhado}}}

no Entanto, dado o exemplo, a evidência é uma constante e, portanto, escalas de ambos traseiros igualmente., Por conseguinte, não afecta a classificação e pode ser ignorada. Agora determinamos a distribuição de probabilidade do sexo da amostra.

P ( masculino ) = 0.5 {\displaystyle P({\text{masculino}})=0.5} p ( altura ∣ masculino ) = 1 2 π σ 2 exp ⁡ ( − ( 6 − m ) 2 2 σ 2 ) ≈ 1.5789 {\displaystyle p({\text{altura}}\mid {\text{masculino}})={\frac {1}{\sqrt {2\pi \sigma ^{2}}}}\exp \left({\frac {-(6-\mu )^{2}}{2\sigma ^{2}}}\right)\approx 1.5789} ,

, onde μ = 5.855 {\displaystyle \mu =5.855} e σ 2 = 3.5033 ⋅ 10 − 2 {\displaystyle \sigma ^{2}=3.,5033\cdot 10^{-2} são os parâmetros da distribuição normal que foram previamente determinados a partir do conjunto de formação. Note que um valor maior que 1 está OK aqui – é uma densidade de probabilidade ao invés de uma probabilidade, porque a altura é uma variável contínua.

p ( peso ∣ masculino ) = 1 2 π σ 2 exp ⁡ ( − ( 130 − μ ) 2 2 σ 2 ) = 5.9881 ⋅ 10 − 6 {\displaystyle p({\text{peso}}\mid {\text{masculino}})={\frac {1}{\sqrt {2\pi \sigma ^{2}}}}\exp \left({\frac {-(130-\mu )^{2}}{2\sigma ^{2}}}\right)=5.9881\cdot 10^{-6}} p ( o tamanho do pé ∣ masculino ) = 1 2 π σ 2 exp ⁡ ( − ( 8 − m ) 2 2 σ 2 ) = 1.,3112 ⋅ 10 − 3 {\displaystyle p({\text{tamanho do pé}}\mid {\text{masculino}})={\frac {1}{\sqrt {2\pi \sigma ^{2}}}}\exp \left({\frac {-(8-\mu )^{2}}{2\sigma ^{2}}}\right)=1.3112\cdot 10^{-3}} posterior numerador (masculino) = o seu produto = 6.1984 ⋅ 10 − 9 {\displaystyle {\text{posterior numerador (masculino)}}={\text{seu produto}}=6.1984\cdot 10^{-9}} P ( feminino ) = 0.5 {\displaystyle P({\text{feminino}})=0.5} p ( altura ∣ feminino ) = 2.2346 ⋅ 10 − 1 {\displaystyle p({\text{altura}}\mid {\text{feminino}})=2.2346\cdot 10^{-1}} p ( peso ∣ feminino ) = 1.,6789 ⋅ 10 − 2 {\displaystyle p({\text{peso}}\mid {\text{feminino}})=1.6789\cdot 10^{-2}} p ( o tamanho do pé ∣ feminino ) = 2.8669 ⋅ 10 − 1 {\displaystyle p({\text{tamanho do pé}}\mid {\text{feminino}})=2.8669\cdot 10^{-1}} posterior numerador (feminino) = o seu produto = 5.3778 ⋅ 10 − 4 {\displaystyle {\text{posterior numerador (feminino)}}={\text{seu produto}}=5.3778\cdot 10^{-4}}

Desde que posterior numerador é maior no sexo feminino caso, podemos prever a amostra é do sexo feminino.,

Document classificationEdit

Aqui está um exemplo de classificação Bayesiana ingênua para o problema de classificação de documentos.Considere o problema de classificar documentos pelo seu conteúdo, por exemplo em spam e E-mails não-spam., Imagine que os documentos são sorteados a partir de um número de classes de documentos que pode ser modelado como conjuntos de palavras onde o (independente) probabilidade de que o i-ésimo palavra de um determinado documento ocorre em um documento de classe C pode ser escrito como

p ( w i ∣ C ) {\displaystyle p(w_{i}\mid C)\,}

(Para este tratamento, devemos simplificar as coisas ainda mais, partindo do princípio de que as palavras são distribuídas aleatoriamente no documento – que é, palavras não são dependentes do comprimento do documento, posição dentro do documento com relação a outras palavras, ou outro documento de contexto.,)

em Seguida, a probabilidade de que um determinado documento D contém todas as palavras w i {\displaystyle w_{i}} , dada uma classe C, é

p ( D ∣ C ) = ∏ i p ( w i ∣ C ) {\displaystyle p(D\mid C)=\prod _{i}p(w_{i}\mid C)\,}

Agora, por definição

p ( D ∣ C ) = p ( D ∩ C ) p ( C ) {\displaystyle p(D\mid C)={p(D\cap C) \p(C)}}

e

p ( C ∣ D ) = p ( D ∩ C ) p ( D ) {\displaystyle p(C\meados D)={p(D\cap C) \p(D)}}

Bayes teorema de manipula-las em uma declaração de probabilidade em termos de probabilidade.,

p ( C ∣ D ) = p ( C ) p ( D ∣ C ) p ( D ) {\displaystyle p(C\meados D)={\frac {p(C)\p(D\mid C)}{p(D)}}}

Suponha por um momento, que há apenas duas classes mutuamente exclusivas, S e S (e.g.,-fatorada como:

p ( S ∣ D ) p ( S ∣ D ) = p ( S ) p ( S ) ∏ i p ( w i ∣ S ) p ( w i ∣ S ) {\displaystyle {p(S\meados D) \p(\neg S\meados D)}={p(S) \p(\neg S)}\,\prod _{i}{p(w_{eu}\mid S) \p(w_{i}\mid \neg S)}}

Tomando o logaritmo de todas estas relações, tem-se:

ln ⁡ p ( S ∣ D ) p ( S ∣ D ) = ln ⁡ p ( S ) p ( S ) + ∑ i ln ⁡ p ( w i ∣ S ) p ( w i ∣ S ) {\displaystyle \ln {p(S\meados D) \p(\neg S\meados D)}=\ln {p(S) \p(\neg S)}+\sum _{i}\ln {p(w_{i}\mid S) \p(w_{i}\mid \neg S)}}

(Esta técnica de “log-likelihood” é uma técnica comum em estatística.,No caso de duas alternativas mutuamente exclusivas (como este exemplo), a conversão de uma razão log-probabilidade para uma probabilidade toma a forma de uma curva sigmoid: veja logit para detalhes.)

Leave A Comment