Estimateur de Kaplan-Meier

janvier 26, 2021

ici, nous montrons deux dérivations de L’estimateur de Kaplan–Meier. Les deux sont basés sur la réécriture de la fonction de survie en termes de ce qu’on appelle parfois le risque, ou les taux de mortalité. Cependant, avant de le faire, il vaut la peine de considérer un estimateur naïf.

un estimateur naïfmodifier

pour comprendre la puissance de L’estimateur de Kaplan–Meier, il vaut la peine de décrire d’abord un estimateur naïf de la fonction de survie.,

Proposition 1: Si la censure de l’époque c k {\displaystyle c_{k}} de l’événement k {\displaystyle k} dépasse t {\displaystyle t} ( c k ≥ t {\displaystyle c_{k}\geq t} ), alors τ ~ k = t {\displaystyle {\tilde {\tau }}_{k}=t} si et seulement si τ k = t {\displaystyle \tau _{k}=t} .

Laissez-k {\displaystyle k} être que c k ≥ t {\displaystyle c_{k}\geq t} . Il résulte de la proposition ci-dessus que

Prob ⁡ ( τ k ≥ t ) = Prob Pro ( τ ~ k ≥ t ) . {\displaystyle \operatorname {Prob} (\tau _{k}\geq t)=\operatorname {Prob} ({\tilde {\tau }}_{k}\geq t).,} S ^ naive ( t − 1 ) = 1 m ( t ) ∑ k : c k ≥ t X k = | { 1 ≤ k ≤ n : τ ~ k ≥ t } | m ( t ) , {\displaystyle {\hat {S}}_{\text{naive}}(t-1)={\frac {1}{m(t)}}\sum _{k:c_{k}\geq t}X_{k}={\frac {|\{1\leq k\leq n\,:\,{\tilde {\tau }}_{k}\geq t\}|}{m(t)}},}

where the last equality follows because τ ~ k ≥ t {\displaystyle {\tilde {\tau }}_{k}\geq t} implies c k ≥ t {\displaystyle c_{k}\geq t} .,5″>

t-1)\operatorname {Prob} (\tau >t-1)\\&=(1-\operatorname {Prob} (\tau \leq t\mi \tau >t-1))\operatorname {Prob} (\tau >t-1)\\&=(1-\operatorname {Prob} (\tau =t\mi \tau \geq t))\operatorname {Prob} (\tau >t-1)\\&=q(t)S(t-1)\,,\end{aligné}}}

où l’on mais la dernière égalité utilisé que τ {\displaystyle \tau } est à valeurs entières et pour la dernière ligne, nous avons introduit

q ( t ) = 1 − Prob ⁡ ( τ = t ∣ τ ≥ t ) ., {\displaystyle q(t)=1-\operatorname {Prob} (\tau =t\mi \tau \geq t).}

Par un appel récursif à l’expansion de l’égalité S ( t ) = q ( t ) S ( t − 1 ) {\displaystyle S(t)=q(t)S(t-1)} , on obtient

S ( t ) = q ( t ) q ( t − 1 ) ⋯ q ( 0 ) . {\displaystyle S(t)=q(t)q(t-1)\cdots q(0).}

Notez qu’ici, q ( 0 ) = 1 − Prob ⁡ ( τ = 0 ∣ τ > − 1 ) = 1 − Prob ⁡ ( τ = 0 ) {\displaystyle q(0)=1-\operatorname {Prob} (\tau =0\mi \tau >-1)=1-\operatorname {Prob} (\tau =0)} .

Prob ⁡ ( τ = s | τ ≥ s ) = Prob Pro ( τ ~ k = s ) / Prob ((τ ~ k ≥ s ) ., {\displaystyle \operatorname {Prob} (\tau =s|\tau \geq s)=\operatorname {Prob} ({\tilde {\tau }}_{k}=s)/\operatorname {Prob} ({\tilde {\tau }}_{k}\geq s).,}

By a similar reasoning that lead to the construction of the naive estimator above, we arrive at the estimator

q ^ ( s ) = 1 − | { 1 ≤ k ≤ n : c k ≥ s , τ ~ k = s } | | { 1 ≤ k ≤ n : c k ≥ s , τ ~ k ≥ s } | = 1 − | { 1 ≤ k ≤ n : τ ~ k = s } | | { 1 ≤ k ≤ n : τ ~ k ≥ s } | {\displaystyle {\hat {q}}(s)=1-{\frac {|\{1\leq k\leq n\,:\,c_{k}\geq s,{\tilde {\tau }}_{k}=s\}|}{|\{1\leq k\leq n\,:\,c_{k}\geq s,{\tilde {\tau }}_{k}\geq s\}|}}=1-{\frac {|\{1\leq k\leq n\,:\,{\tilde {\tau }}_{k}=s\}|}{|\{1\leq k\leq n\,:\,{\tilde {\tau }}_{k}\geq s\}|}}} S ^ ( t ) = ∏ s = 0 t q ^ ( s ) ., {\displaystyle {\hat {S}}(t)=\prod _{s=0}^{t}{\hat {q}}(s).} S ^ (t) = i i : t i ≤ t (1 − d I n i). {\displaystyle {\hat {S}}(t)=\prod _{i:t_{i}\leq t}\left(1-{\frac {d_{i}}{n_{i}}}\right).}

contrairement à l’estimateur naïf, on peut voir que cet estimateur utilise plus efficacement les informations disponibles: dans le cas particulier mentionné précédemment, lorsqu’il y a beaucoup d’événements précoces enregistrés, l’estimateur multipliera de nombreux termes avec une valeur inférieure à un et tiendra donc compte du fait que la probabilité de survie ne peut pas être grande., j journal ⁡ ( h j ) + ( n j − d j ) log ⁡ ( 1 − h j ) ) {\displaystyle \log({\mathcal {L}})=\sum _{j=1}^{i}\left(d_{j}\log(h_{j})+(n_{j}-d_{j})\log(1-h_{j})\right)}

trouver le maximum de vraisemblance à l’égard de h i {\displaystyle h_{i}} donne:

∂ log ⁡ ( L ) ∂ h i = d i h ^ i − n i − d i 1 − h ^ i = 0 ⇒ h ^ i = d i n i {\displaystyle {\frac {\partial \log({\mathcal {L}})}{\partial h_{i}}}={\frac {d_{i}}{{\widehat {h}}_{i}}}-{\frac {n_{i}-d_{i}}{1-{\widehat {h}}_{i}}}=0\Rightarrow {\widehat {h}}_{i}={\frac {d_{i}}{n_{i}}}}

où hat est utilisé pour désigner estimation du maximum de vraisemblance., Compte tenu de ce résultat, nous pouvons écrire:

S ^ ( t ) = ∏ i : t i ≤ t ( 1 − h ^ i ) = ∏ i : t i ≤ t ( 1 − d i n i ) {\displaystyle {\widehat {S}}(t)=\prod \limites _{i:\ t_{i}\leq t}\left(1-{\widehat {h}}_{i}\right)=\prod \limites _{i:\ t_{i}\leq t}\left(1-{\frac {d_{i}}{n_{i}}}\right)}

Lima

Estimateur de Kaplan-Meier

un estimateur naïfmodifier

Leave A Comment Annuler la réponse