Articles

Naive Bayes classifier

Posted by admin

Person classificationEdit

Problema: classificare se una determinata persona è un maschio o una femmina in base alle caratteristiche misurate.Le caratteristiche includono altezza, peso e dimensioni del piede.

TrainingEdit

Esempio di formazione impostato di seguito.

Il classificatore creato dal set di allenamento usando un’ipotesi di distribuzione gaussiana sarebbe (date le varianze sono varianze di campione imparziali):

Diciamo che abbiamo classi equiprobabili quindi P(maschio)= P(femmina) = 0.5., Questa distribuzione di probabilità precedente potrebbe essere basata sulla nostra conoscenza delle frequenze nella popolazione più ampia o sulla frequenza nel set di allenamento.

TestingEdit

Di seguito è riportato un campione da classificare come maschio o femmina.

Persona altezza (in piedi) peso (kg) piede dimensioni(pollici)
esempio 6 130 8

determinare quali posteriore è maggiore, maschio o femmina.,e = P ( maschio ) p ( altezza ∣ maschio ) p ( peso ∣ maschio ) p ( dimensioni del piede ∣ maschio ) + P ( femmina ) p ( altezza ∣ femmina ) p ( peso ∣ femmina ) p ( dimensioni del piede ∣ femmina ) {\displaystyle {\begin{aligned}{\text{prova}}=P({\text{maschile}})\,p({\text{altezza}}\mid {\text{maschile}})\,p({\text{peso}}\mid {\text{maschile}})\,p({\text{le dimensioni del piede}}\mid {\text{maschile}})\\+P({\text{femminile}})\,p({\text{altezza}}\mid {\text{femminile}})\,p({\text{peso}}\mid {\text{femminile}})\,p({\text{le dimensioni del piede}}\mid {\text{femminile}})\end{aligned}}}

Tuttavia, dato il campione, la prova è una costante e, quindi, scale, sia posteriori ugualmente., Pertanto non influisce sulla classificazione e può essere ignorato. Ora determiniamo la distribuzione di probabilità per il sesso del campione.

P ( maschio ) = 0.5 {\displaystyle P({\text{maschile}})=0.5} p ( altezza ∣ maschio ) = 1 2 π σ 2 exp ⁡ ( − ( 6 − µ ) 2 2 σ 2 ) ≈ 1.5789 {\displaystyle p({\text{altezza}}\mid {\text{maschile}})={\frac {1}{\sqrt {2\pi \sigma ^{2}}}}\exp \left({\frac {-(6-\mu )^{2}}{2\sigma ^{2}}}\right)\approx 1.5789} ,

dove µ = 5.855 {\displaystyle \mu =5.855} e σ 2 = 3.5033 ⋅ 10 − 2 {\displaystyle \sigma ^{2}=3.,5033 \ cdot 10^{-2}} sono i parametri di distribuzione normale che sono stati precedentemente determinati dal set di allenamento. Si noti che un valore maggiore di 1 è OK qui-è una densità di probabilità piuttosto che una probabilità, perché l’altezza è una variabile continua.

p ( peso ∣ maschio ) = 1 2 π σ 2 exp ⁡ ( − ( 130 − µ ) 2 2 σ 2 ) = 5.9881 ⋅ 10 − 6 {\displaystyle p({\text{peso}}\mid {\text{maschile}})={\frac {1}{\sqrt {2\pi \sigma ^{2}}}}\exp \left({\frac {-(130-\mu )^{2}}{2\sigma ^{2}}}\right)=5.9881\cdot 10^{-6}} p ( dimensioni del piede ∣ maschio ) = 1 2 π σ 2 exp ⁡ ( − ( 8 − µ ) 2 2 σ 2 ) = 1.,3112 ⋅ 10 − 3 {\displaystyle p({\text{le dimensioni del piede}}\mid {\text{maschile}})={\frac {1}{\sqrt {2\pi \sigma ^{2}}}}\exp \left({\frac {-(8-\mu )^{2}}{2\sigma ^{2}}}\right)=1.3112\cdot 10^{-3}} posteriore numeratore (maschio) = il loro prodotto = 6.1984 ⋅ 10 − 9 {\displaystyle {\text{posteriore numeratore (maschio)}}={\text{il loro prodotto}}=6.1984\cdot 10^{-9}} P ( femmina ) = 0.5 {\displaystyle P({\text{femminile}})=0.5} p ( altezza ∣ femmina ) = 2.2346 ⋅ 10 − 1 {\displaystyle p({\text{altezza}}\mid {\text{femminile}})=2.2346\cdot 10^{-1}} p ( peso ∣ femmina ) = 1.,6789 ⋅ 10 − 2 {\displaystyle p({\text{peso}}\mid {\text{femminile}})=1.6789\cdot 10^{-2}} p ( dimensioni del piede ∣ femmina ) = 2.8669 ⋅ 10 − 1 {\displaystyle p({\text{le dimensioni del piede}}\mid {\text{femminile}})=2.8669\cdot 10^{-1}} posteriore numeratore (femmina) = il loro prodotto = 5.3778 ⋅ 10 − 4 {\displaystyle {\text{posteriore numeratore (femmina)}}={\text{il loro prodotto}}=5.3778\cdot 10^{-4}}

Dato che il posteriore numeratore è maggiore nella femmina caso, si può prevedere il campione è di sesso femminile.,

Document classificationEdit

Ecco un esempio di classificazione bayesiana ingenua per il problema di classificazione dei documenti.Considera il problema di classificare i documenti in base al loro contenuto, ad esempio in e-mail spam e non spam., Immaginare che i documenti sono tratti da una serie di classi di documenti che possono essere modellati come insiemi di parole, dove la (indipendente) probabilità che la i-esima parola di un dato documento si verifica in un documento della classe C può essere scritto come:

p ( w i ∣ C ) {\displaystyle p(w_{i}\mid C)\,}

(Per questo trattamento, possiamo semplificare ulteriormente le cose, assumendo che le parole sono distribuiti in modo casuale nel documento – che è, le parole non dipende dalla lunghezza del documento, la posizione all’interno del documento in relazione con altre parole, o di altro documento di contesto.,)

Allora la probabilità che un determinato documento D’contiene tutte le parole w i {\displaystyle w_{i}} , data una classe C, è

p ( D ∣ C ) = ∏ p ( w i ∣ C ) {\displaystyle p(D\mid C)=\prod _{i}p(w_{i}\mid C)\,}

Ora, per definizione,

p ( D ∣ C ) = p ( D ∩ C ) p ( C ) {\displaystyle p(D\mid C)={p(D\cap C) \over p(C)}}

e

p ( C ∣ D ) = p ( D ∩ C ) p ( D ) {\displaystyle p(C\mid D)={p(D\cap C) \over p(D)}}

il teorema di Bayes manipola questi in una dichiarazione di probabilità in termini di probabilità.,

p ( C D D ) = p ( C ) p ( D C C ) p(D ) {\displaystyle p(C\mid D)={\frac {p(C)\,p(D\mid C)}{p (D)}}}

Supponiamo per il momento che ci siano solo due classi che si escludono a vicenda, S e S (ad esempio,-presi come:

p ( S ∣ D ) p ( S ∣ D ) = p ( S ) p ( S ) ∏ p ( w i ∣ S ) p ( w i ∣ S ) {\displaystyle {p(S\mid D) \over p(\neg S\mid D)}={p(S) \over p(\neg S)}\,\prod _{i}{p(w_{i}\mid S) \over p(w_{i}\mid \neg S)}}

Prendendo il logaritmo di tutti questi rapporti, abbiamo:

ln ⁡ p ( S ∣ D ) p ( S ∣ D ) = ln ⁡ p ( S ) p ( S ) + ∑ ln ⁡ p ( w i ∣ S ) p ( w i ∣ S ) {\displaystyle \ln {p(S\mid D) \over p(\neg S\mid D)}=\ln {p(S) \over p(\neg S)}+\sum _{i}\ln {p(w_{i}\mid S) \over p(w_{i}\mid \neg S)}}

(Questa tecnica di “log-likelihood ratio” è una tecnica comune in statistica.,Nel caso di due alternative che si escludono a vicenda (come questo esempio), la conversione di un rapporto log-verosimiglianza in una probabilità assume la forma di una curva sigmoidea: vedi logit per i dettagli.)

Leave A Comment