Articles

Naive Bayes Classificateur

Posted by admin

Person classificationEdit

problème: classifier si une personne donnée est un homme ou une femme en fonction des caractéristiques mesurées.Les caractéristiques comprennent la taille, le poids et la taille du pied.

Formingedit

exemple de formation ci-dessous.

Le classificateur créé à partir de l’ensemble d’apprentissage en utilisant une hypothèse de distribution gaussienne serait (les variances étant des variances d’échantillon impartiales):

disons que nous avons des classes équiprobables donc P(Mâle)= P(femelle) = 0.5., Cette distribution de probabilité antérieure pourrait être basée sur notre connaissance des fréquences dans la plus grande population, ou sur la fréquence dans l’ensemble d’entraînement.

TestingEdit

Voici un échantillon à classer en tant qu’homme ou femme.

Personne hauteur (pieds) poids (lbs) pied taille(pouces)
exemple 6 130 8

Nous souhaitons déterminer la partie postérieure est plus grand, mâle ou femelle.,e = P ( mâle ) p ( hauteur ∣ mâle ) p ( poids ∣ mâle ) p ( pied taille ∣ mâle ) + P ( femelle ) p ( hauteur ∣ femelle ) p ( poids ∣ femelle ) p ( pied taille ∣ femelle ) {\displaystyle {\begin{aligné}{\text{preuve}}=P({\text{masculin}})\,p({\text{hauteur}}\mid {\text{masculin}})\,p({\text{poids}}\mid {\text{masculin}})\,p({\text{pied taille}}\mid {\text{masculin}})\\+P({\text{femme}})\,p({\text{hauteur}}\mid {\text{femme}})\,p({\text{poids}}\mid {\text{femme}})\,p({\text{pied taille}}\mid {\text{femme}})\end{aligné}}}

Cependant, compte tenu de l’échantillon, la preuve est une constante, et donc des échelles à la fois les postérieures également., Elle n’affecte donc pas la classification et peut être ignorée. Nous déterminons maintenant la distribution de probabilité pour le sexe de l’échantillon.

P ( mâle ) = 0.5 {\displaystyle P({\text{masculin}})=0.5} p ( hauteur ∣ mâle ) = 1 2 π σ 2 exp ⁡ ( − ( 6 − μ ) 2 2 σ 2 ) ≈ 1.5789 {\displaystyle p({\text{hauteur}}\mid {\text{masculin}})={\frac {1}{\sqrt {2\pi \sigma ^{2}}}}\exp \left({\frac {-(6-\mu )^{2}}{2\sigma ^{2}}}\right)\approx 1.5789} ,

où μ = 5.855 {\displaystyle \mu =5.855} et σ 2 = 3.5033 ⋅ 10 − 2 {\displaystyle \sigma ^{2}=3.,5033 \ cdot 10^{-2}} sont les paramètres de distribution normale qui ont été préalablement déterminés à partir de l’ensemble d’entraînement. Notez qu’une valeur supérieure à 1 est correcte ici – c’est une densité de probabilité plutôt qu’une probabilité, car la hauteur est une variable continue.

p ( poids ∣ mâle ) = 1 2 π σ 2 exp ⁡ ( − ( 130 − μ ) 2 2 σ 2 ) = 5.9881 ⋅ 10 − 6 {\displaystyle p({\text{poids}}\mid {\text{masculin}})={\frac {1}{\sqrt {2\pi \sigma ^{2}}}}\exp \left({\frac {-(130-\mu )^{2}}{2\sigma ^{2}}}\right)=5.9881\cdot 10^{-6}} p ( pied taille ∣ mâle ) = 1 2 π σ 2 exp ⁡ ( − ( 8 − m ) 2 2 σ 2 ) = 1.,3112 ⋅ 10 − 3 {\displaystyle p({\text{pied taille}}\mid {\text{masculin}})={\frac {1}{\sqrt {2\pi \sigma ^{2}}}}\exp \left({\frac {-(8-\mu )^{2}}{2\sigma ^{2}}}\right)=1.3112\cdot 10^{-3}} postérieure numérateur (mâle) = leur produit = 6.1984 ⋅ 10 − 9 {\displaystyle {\text{postérieure numérateur (mâle)}}={\text{leur produit}}=6.1984\cdot 10^{-9}} P ( femelle ) = 0.5 {\displaystyle P({\text{femme}})=0.5} p ( hauteur ∣ femelle ) = 2.2346 ⋅ 10 − 1 {\displaystyle p({\text{hauteur}}\mid {\text{femme}})=2.2346\cdot 10^{-1}} p ( poids ∣ femelle ) = 1.,6789 ⋅ 10 − 2 {\displaystyle p({\text{poids}}\mid {\text{femme}})=1.6789\cdot 10^{-2}} p ( pied taille ∣ femelle ) = 2.8669 ⋅ 10 − 1 {\displaystyle p({\text{pied taille}}\mid {\text{femme}})=2.8669\cdot 10^{-1}} postérieure numérateur (femelle) = leur produit = 5.3778 ⋅ 10 − 4 {\displaystyle {\text{postérieure numérateur (femelle)}}={\text{leur produit}}=5.3778\cdot 10^{-4}}

Depuis postérieure numérateur est plus grand que les femelles cas, nous pouvons prédire l’échantillon est de sexe féminin.,

Classificationedit de Document

Voici un exemple travaillé de classification Bayésienne naïve au problème de classification de document.Considérez le problème de la classification des documents par leur contenu, par exemple en spam et en e-mails non-spam., Imaginez que les documents sont tirés d’un certain nombre de classes de documents qui peuvent être modélisés comme des ensembles de mots où la probabilité (indépendante) que le i-th mot d’un document donné se trouve dans un document de la Classe C peut être écrite comme

p ( w i ∣ C ) {\displaystyle p(w_{i}\mid C)\,}

(pour ce traitement, nous simplifions les choses en supposant que les mots sont répartis de manière aléatoire dans le document – c’est-à-dire que les mots ne dépendent pas de la longueur du document, de la position dans le document par rapport aux autres mots, ou autre document-contexte.,)

Alors la probabilité qu’un document D contient tous les mots w i {\displaystyle w_{i}} , donné une classe C, est

p ( D ∣ C ) = ∏ i p ( w i ∣ C ) {\displaystyle p(D\mi C)=\prod _{i}p(w_{i}\mid C)\,}

Maintenant, par définition,

p ( D ∣ C ) = p ( D ∩ C ) p ( C ) {\displaystyle p(D\mi C)={p(D\cap C) \au-dessus de p(C)}}

et

p ( C ∣ D ) = p ( D ∩ C ) p ( D ) {\displaystyle p(C\mi D)={p(D\cap C) \au-dessus de p(D)}}

le théorème de Bayes manipule dans un énoncé de probabilité en termes de probabilité.,

p ( C ∣ D ) = p ( C ) p ( D ∣ C ) p ( D ) {\displaystyle p(C\mi D)={\frac {p(C)\,p(D\mi C)}{p(D)}}}

Supposons pour le moment que il y a seulement deux catégories mutuellement exclusives, S et S (par ex.,-compte:

p ( S ∣ D ) p ( S ∣ D ) = p ( S ) p ( S ) ∏ i p ( w i ∣ S ) p ( w i ∣ S ) {\displaystyle {p(S\mi D) \au-dessus de p(\neg S\mi D)}={p(S) \au-dessus de p(\neg S)}\,\prod _{i}{p(w_{i}\mi S) \au-dessus de p(w_{i}\mid \neg S)}}

en Prenant le logarithme de l’ensemble de ces ratios, nous avons:

ln ⁡ p ( S ∣ D ) p ( S ∣ D ) = ln ⁡ p ( S ) p ( S ) + ∑ i ln ⁡ p ( w i ∣ S ) p ( w i ∣ S ) {\displaystyle \ln {p(S\mi D) \au-dessus de p(\neg S\mi D)}=\ln {p(S) \au-dessus de p(\neg S)}+\sum _{i}\ln {p(w_{i}\mid S) \au-dessus de p(w_{i}\mid \neg S)}}

(Cette technique de « log-rapport de vraisemblance » est une technique courante dans les statistiques.,Dans le cas de deux alternatives mutuellement exclusives (comme cet exemple), la conversion d’un rapport log-vraisemblance en Probabilité prend la forme d’une courbe sigmoïde: voir logit pour plus de détails.)

Leave A Comment