Articles

Naive Bayes clasificator

Posted by admin

persoană clasificaredit

problemă: clasificați dacă o anumită persoană este un bărbat sau o femeie pe baza caracteristicilor măsurate.Caracteristicile includ înălțimea, greutatea și dimensiunea piciorului.

TrainingEdit

exemplu de formare stabilit mai jos.clasificatorul creat din setul de antrenament folosind o presupunere de distribuție Gaussiană ar fi (varianțele date sunt diferențe de probă imparțiale):

să spunem că avem clase echiprobabile deci P(masculin)= P(feminin) = 0.5., Această distribuție de probabilitate anterioară s-ar putea baza pe cunoștințele noastre despre frecvențele din populația mai mare sau pe frecvența din setul de instruire.

TestingEdit

mai jos este un eșantion care trebuie clasificat ca bărbat sau femeie.

Persoană înălțime (m) greutate (kg) picior dimensiune(inch)
proba 6 130 8

Ne-am dori pentru a determina care posterioară este mai mare, de sex masculin sau feminin.,e = P ( masculin ) p ( înălțime ∣ de sex masculin ) p ( greutate ∣ de sex masculin ) p ( dimensiune picior ∣ de sex masculin ) + P ( feminin ) p ( înălțime ∣ feminin ) p ( greutate ∣ feminin ) p ( dimensiune picior ∣ feminin ) {\displaystyle {\begin{aliniat}{\text{dovezi}}=P({\text{masculin}})\,p({\text{înălțimea}}\mid {\text{masculin}})\,p({\text{greutate}}\mid {\text{masculin}})\,p({\text{mărimea piciorului}}\mid {\text{masculin}})\\+P({\text{feminin}})\,p({\text{înălțimea}}\mid {\text{feminin}})\,p({\text{greutate}}\mid {\text{feminin}})\,p({\text{mărimea piciorului}}\mid {\text{feminin}})\end{aliniat}}}

cu toate Acestea, având în vedere proba, dovada este o constantă și, astfel, cântare atât fundul la fel., Prin urmare, nu afectează clasificarea și poate fi ignorată. Acum determinăm distribuția probabilității pentru sexul eșantionului.

P ( masculin ) = 0.5 {\displaystyle P({\text{masculin}})=0.5} p ( înălțime ∣ de sex masculin ) = 1 2 π σ 2 exp ⁡ ( − ( 6 − μ ) 2 2 σ 2 ) ≈ 1.5789 {\displaystyle p({\text{înălțimea}}\mid {\text{masculin}})={\frac {1}{\sqrt {2\pi \sigma ^{2}}}}\exp \left({\frac {-(6-\mu )^{2}}{2\sigma ^{2}}}\right)\cca 1.5789} ,

în cazul în care μ = 5.855 {\displaystyle \mu =5.855} și σ 2 = 3.5033 ⋅ 10 − 2 {\displaystyle \sigma ^{2}=3.,5033 \ cdot 10^{-2}} sunt parametrii distribuției normale care au fost determinați anterior din setul de antrenament. Rețineți că o valoare mai mare decât 1 este OK aici – este o densitate de probabilitate, mai degrabă decât o probabilitate, deoarece înălțimea este o variabilă continuă.

p ( greutate ∣ de sex masculin ) = 1 2 π σ 2 exp ⁡ ( − ( 130 − μ ) 2 2 σ 2 ) = 5.9881 ⋅ 10 − 6 {\displaystyle p({\text{greutate}}\mid {\text{masculin}})={\frac {1}{\sqrt {2\pi \sigma ^{2}}}}\exp \left({\frac {-(130-\mu )^{2}}{2\sigma ^{2}}}\right)=5.9881\cdot 10^{-6}} p ( dimensiune picior ∣ de sex masculin ) = 1 2 π σ 2 exp ⁡ ( − ( 8 − μ ) 2 2 σ 2 ) = 1.,3112 ⋅ 10 − 3 {\displaystyle p({\text{mărimea piciorului}}\mid {\text{masculin}})={\frac {1}{\sqrt {2\pi \sigma ^{2}}}}\exp \left({\frac {-(8-\mu )^{2}}{2\sigma ^{2}}}\right)=1.3112\cdot 10^{-3}} posterior numărător (male) = produsul lor = 6.1984 ⋅ 10 − 9 {\displaystyle {\text{posterior numărător (de sex masculin)}}={\text{produsul lor}}=6.1984\cdot 10^{-9}} P ( feminin ) = 0.5 {\displaystyle P({\text{feminin}})=0.5} p ( înălțime ∣ feminin ) = 2.2346 ⋅ 10 − 1 {\displaystyle p({\text{înălțimea}}\mid {\text{feminin}})=2.2346\cdot 10^{-1}} p ( greutate ∣ feminin ) = 1.,6789 ⋅ 10 − 2 {\displaystyle p({\text{greutate}}\mid {\text{feminin}})=1.6789\cdot 10^{-2}} p ( dimensiune picior ∣ feminin ) = 2.8669 ⋅ 10 − 1 {\displaystyle p({\text{mărimea piciorului}}\mid {\text{feminin}})=2.8669\cdot 10^{-1}} posterior numărător (feminin) = produsul lor = 5.3778 ⋅ 10 − 4 {\displaystyle {\text{posterior numărător (de sex feminin)}}={\text{produsul lor}}=5.3778\cdot 10^{-4}}

Din posterior numărătorul este mai mare în caz de sex feminin, putem prezice proba este de sex feminin.,

Document classificationEdit

aici este un exemplu lucrat de clasificare Bayesian naiv la problema de clasificare a documentelor.Luați în considerare problema clasificării documentelor după conținutul lor, de exemplu în e-mailuri spam și non-spam., Imaginați-vă că documentele sunt întocmite de un număr de clase de documente care pot fi modelate ca seturi de cuvinte unde (independent) probabilitatea ca i-lea cuvânt dintr-un document apare într-un document din clasa C poate fi scris ca

p ( w am ∣ C ) {\displaystyle p(w_{i}\mid C)\,}

(Pentru acest tratament, am simplifica și mai mult lucrurile, presupunând că cuvintele sunt distribuite aleator în document – care este, cuvintele nu sunt dependente de lungimea de document, poziția în cadrul documentului în raport cu alte cuvinte sau alte documente-context.,)

Atunci probabilitatea ca un anumit document D conține toate cuvintele w i {\displaystyle w_{i}} , având un clasa C, este

p ( D ∣ C ) = ∏ i p ( w am ∣ C ) {\displaystyle p(D\mid C)=\prod _{i}p(w_{i}\mid C)\,}

Acum, prin definiție,

p ( D ∣ C ) = p ( D ∩ C ) p ( C ) {\displaystyle p(D\mid C)={p(D\pac C) \peste p(C)}}

și

p ( C ∣ D ) = p ( D ∩ C ) p ( D ) {\displaystyle p(C\mid D)={p(D\pac C) \peste p(D)}}

teorema lui Bayes manipulează aceste într-o declarație de probabilitate în termeni de probabilitate.,

p ( C ∣ D ) = p ( C ) p ( D ∣ C ) p ( D ) {\displaystyle p(C\mid D)={\frac {p(C)\,p(D\mid C)}{p(D)}}}

Presupunem pentru moment că există doar două se exclud reciproc clase, S și S (de exemplu,,-luat ca:

p ( S ∣ D ) p ( S ∣ D ) = p ( S ) p ( S ) ∏ i p ( w am ∣ S ) p ( w am ∣ S ) {\displaystyle {p(S\mid D) \peste p(\nge S\mid D)}={p(S) \peste p(\nge S)}\,\prod _{i}{p(w_{i}\mid S) \peste p(w_{i}\mid \nge S)}}

în logaritm de toate aceste raporturi, avem:

ln ⁡ p ( S ∣ D ) p ( S ∣ D ) = ln ⁡ p ( S ) p ( S ) + ∑ i în ⁡ p ( w am ∣ S ) p ( w am ∣ S ) {\displaystyle \ln {p(S\mid D) \peste p(\nge S\mid D)}=\ln {p(S) \peste p(\nge S)}+\sum _{i}\ln {p(w_{i}\mid S) \peste p(w_{i}\mid \nge S)}}

(Această tehnică de „log-likelihood ratios” este o tehnică uzuală în statistică.,În cazul a două alternative care se exclud reciproc (cum ar fi acest exemplu), conversia unui raport log-probabilitate la o probabilitate ia forma unei curbe sigmoide: a se vedea logit pentru detalii.)

Leave A Comment