pessoa classificationEdit
problema: classificar se uma dada pessoa é um homem ou uma mulher com base nas características medidas.As características incluem altura, peso e tamanho do pé.
TrainingEdit
exemplo de formação definido abaixo.
O classificador criado a partir do conjunto de treinamento usando uma suposição de distribuição gaussiana seria(dado variâncias são variâncias de amostra não tendenciosas):
digamos que temos classes equiprobáveis assim P(masculino)= P (Feminino) = 0,5., Esta distribuição de probabilidade prévia pode ser baseada no nosso conhecimento de frequências na população maior, ou na frequência no conjunto de treinamento.
TestingEdit
abaixo está uma amostra a ser classificada como masculina ou feminina.
Pessoa | > altura (pés) | > peso (kg) | tamanho do pé(polegadas) |
---|---|---|---|
exemplo | 6 | 130 | 8 |
queremos determinar qual posterior é maior, do sexo masculino ou feminino.,e = P ( macho ) p ( altura ∣ macho ) p ( peso ∣ macho ) p ( o tamanho do pé ∣ do sexo masculino ) + P ( feminino ) p ( altura ∣ feminino ) p ( peso ∣ feminino ) p ( o tamanho do pé ∣ feminino ) {\displaystyle {\begin{alinhado}{\text{evidência}}=P({\text{masculino}})\,p({\text{altura}}\mid {\text{masculino}})\,p({\text{peso}}\mid {\text{masculino}})\,p({\text{tamanho do pé}}\mid {\text{masculino}})\\+P({\text{feminino}})\,p({\text{altura}}\mid {\text{feminino}})\,p({\text{peso}}\mid {\text{feminino}})\,p({\text{tamanho do pé}}\mid {\text{feminino}})\end{alinhado}}}
no Entanto, dado o exemplo, a evidência é uma constante e, portanto, escalas de ambos traseiros igualmente., Por conseguinte, não afecta a classificação e pode ser ignorada. Agora determinamos a distribuição de probabilidade do sexo da amostra.
P ( masculino ) = 0.5 {\displaystyle P({\text{masculino}})=0.5} p ( altura ∣ masculino ) = 1 2 π σ 2 exp ( − ( 6 − m ) 2 2 σ 2 ) ≈ 1.5789 {\displaystyle p({\text{altura}}\mid {\text{masculino}})={\frac {1}{\sqrt {2\pi \sigma ^{2}}}}\exp \left({\frac {-(6-\mu )^{2}}{2\sigma ^{2}}}\right)\approx 1.5789} ,
, onde μ = 5.855 {\displaystyle \mu =5.855} e σ 2 = 3.5033 ⋅ 10 − 2 {\displaystyle \sigma ^{2}=3.,5033\cdot 10^{-2} são os parâmetros da distribuição normal que foram previamente determinados a partir do conjunto de formação. Note que um valor maior que 1 está OK aqui – é uma densidade de probabilidade ao invés de uma probabilidade, porque a altura é uma variável contínua.
p ( peso ∣ masculino ) = 1 2 π σ 2 exp ( − ( 130 − μ ) 2 2 σ 2 ) = 5.9881 ⋅ 10 − 6 {\displaystyle p({\text{peso}}\mid {\text{masculino}})={\frac {1}{\sqrt {2\pi \sigma ^{2}}}}\exp \left({\frac {-(130-\mu )^{2}}{2\sigma ^{2}}}\right)=5.9881\cdot 10^{-6}} p ( o tamanho do pé ∣ masculino ) = 1 2 π σ 2 exp ( − ( 8 − m ) 2 2 σ 2 ) = 1.,3112 ⋅ 10 − 3 {\displaystyle p({\text{tamanho do pé}}\mid {\text{masculino}})={\frac {1}{\sqrt {2\pi \sigma ^{2}}}}\exp \left({\frac {-(8-\mu )^{2}}{2\sigma ^{2}}}\right)=1.3112\cdot 10^{-3}} posterior numerador (masculino) = o seu produto = 6.1984 ⋅ 10 − 9 {\displaystyle {\text{posterior numerador (masculino)}}={\text{seu produto}}=6.1984\cdot 10^{-9}} P ( feminino ) = 0.5 {\displaystyle P({\text{feminino}})=0.5} p ( altura ∣ feminino ) = 2.2346 ⋅ 10 − 1 {\displaystyle p({\text{altura}}\mid {\text{feminino}})=2.2346\cdot 10^{-1}} p ( peso ∣ feminino ) = 1.,6789 ⋅ 10 − 2 {\displaystyle p({\text{peso}}\mid {\text{feminino}})=1.6789\cdot 10^{-2}} p ( o tamanho do pé ∣ feminino ) = 2.8669 ⋅ 10 − 1 {\displaystyle p({\text{tamanho do pé}}\mid {\text{feminino}})=2.8669\cdot 10^{-1}} posterior numerador (feminino) = o seu produto = 5.3778 ⋅ 10 − 4 {\displaystyle {\text{posterior numerador (feminino)}}={\text{seu produto}}=5.3778\cdot 10^{-4}}
Desde que posterior numerador é maior no sexo feminino caso, podemos prever a amostra é do sexo feminino.,
Document classificationEdit
Aqui está um exemplo de classificação Bayesiana ingênua para o problema de classificação de documentos.Considere o problema de classificar documentos pelo seu conteúdo, por exemplo em spam e E-mails não-spam., Imagine que os documentos são sorteados a partir de um número de classes de documentos que pode ser modelado como conjuntos de palavras onde o (independente) probabilidade de que o i-ésimo palavra de um determinado documento ocorre em um documento de classe C pode ser escrito como
p ( w i ∣ C ) {\displaystyle p(w_{i}\mid C)\,}
(Para este tratamento, devemos simplificar as coisas ainda mais, partindo do princípio de que as palavras são distribuídas aleatoriamente no documento – que é, palavras não são dependentes do comprimento do documento, posição dentro do documento com relação a outras palavras, ou outro documento de contexto.,)
em Seguida, a probabilidade de que um determinado documento D contém todas as palavras w i {\displaystyle w_{i}} , dada uma classe C, é
p ( D ∣ C ) = ∏ i p ( w i ∣ C ) {\displaystyle p(D\mid C)=\prod _{i}p(w_{i}\mid C)\,}
Agora, por definição
p ( D ∣ C ) = p ( D ∩ C ) p ( C ) {\displaystyle p(D\mid C)={p(D\cap C) \p(C)}}
e
p ( C ∣ D ) = p ( D ∩ C ) p ( D ) {\displaystyle p(C\meados D)={p(D\cap C) \p(D)}}
Bayes teorema de manipula-las em uma declaração de probabilidade em termos de probabilidade.,
p ( C ∣ D ) = p ( C ) p ( D ∣ C ) p ( D ) {\displaystyle p(C\meados D)={\frac {p(C)\p(D\mid C)}{p(D)}}}
Suponha por um momento, que há apenas duas classes mutuamente exclusivas, S e S (e.g.,-fatorada como:
p ( S ∣ D ) p ( S ∣ D ) = p ( S ) p ( S ) ∏ i p ( w i ∣ S ) p ( w i ∣ S ) {\displaystyle {p(S\meados D) \p(\neg S\meados D)}={p(S) \p(\neg S)}\,\prod _{i}{p(w_{eu}\mid S) \p(w_{i}\mid \neg S)}}
Tomando o logaritmo de todas estas relações, tem-se:
ln p ( S ∣ D ) p ( S ∣ D ) = ln p ( S ) p ( S ) + ∑ i ln p ( w i ∣ S ) p ( w i ∣ S ) {\displaystyle \ln {p(S\meados D) \p(\neg S\meados D)}=\ln {p(S) \p(\neg S)}+\sum _{i}\ln {p(w_{i}\mid S) \p(w_{i}\mid \neg S)}}
(Esta técnica de “log-likelihood” é uma técnica comum em estatística.,No caso de duas alternativas mutuamente exclusivas (como este exemplo), a conversão de uma razão log-probabilidade para uma probabilidade toma a forma de uma curva sigmoid: veja logit para detalhes.)