Articles

Kaplan-Meier estimator

Posted by admin

Aqui, mostramos duas derivações do estimador Kaplan–Meier. Ambos são baseados em reescrever a função de sobrevivência em termos do que às vezes é chamado de risco, ou taxas de mortalidade. No entanto, antes de fazer isso, vale a pena considerar um estimador ingênuo.

Um estimatorEdit ingênuo

para entender o poder do estimador Kaplan–Meier, vale a pena primeiro descrever um estimador ingênuo da função de sobrevivência.,

Proposição 1: Se a censura de tempo c k {\displaystyle c_{k}} do evento k {\displaystyle k} excede t {\displaystyle t} ( c k ≥ t {\displaystyle c_{k}\geq t} ), então τ ~ k = t {\displaystyle {\til {\tau }}_{k}=t} se e somente se τ k = t {\displaystyle \tau _{k}=t} .

deixe k {\displaystyle k} ser tal que c k ≥ t {\displaystyle c_{k}\geq t} . It follows from the above proposition that

Proc ⁡ (τ k ≥ t ) = Proc ⁡ (τ ~ k ≥ t ) . {\displaystyle \operatorname {Prob} (\tau _{k}\geq t)=\operatorname {Prob} ({\til {\tau }}_{k}\geq t).,} S ^ ingênuo ( t − 1 ) = 1 m ( T ) ∑ k : C K ≥ T X K = | { 1 ≤ k ≤ n : τ ~ K ≥ T } | m ( T ) , {\displaystyle {\hat {s}}_{\text{ingênuo}}(T-1)={\frac {1}{M(T)}}\sum _{k:c_{K}\geq t}X_{K}={\frac {|\{1\leq k\leq n\,:\,{\til {\tau }}_{k}\geq T\}|}{M(T)}},}

, onde a última igualdade segue porque τ ~ k ≥ t {\displaystyle {\til {\tau }}_{K}\geq t} implica c k ≥ t {\displaystyle c_{K}\geq t} .,5″>

t-1)\operatorname {Prob} (\tau >t-1)\\&=(1-\operatorname {Prob} (\tau \leq t\mid \tau >t-1))\operatorname {Prob} (\tau >t-1)\\&=(1-\operatorname {Prob} (\tau =t\mid \tau \geq t))\operatorname {Prob} (\tau >t-1)\\&=q(t)S(t-1)\,,\end{alinhado}}}

, onde a última igualdade usado que τ {\displaystyle \tau } é o número inteiro valorizados e para a última linha introduzimos

q ( t ) = 1 − Prob ⁡ ( τ = t ∣ τ ≥ t ) ., {\displaystyle q(t)=1-\operatorname {Prob} (\tau =T\mid \tau \geq t).}

Por uma expansão recursiva da igualdade S ( t ) = q ( t ) S ( t − 1 ) {\displaystyle S(t)=q(t)S(t-1)} , obtemos

S ( t ) = q ( t ) q ( t − 1 ) ⋯ q ( 0 ) . {\displaystyle S(t) = q(t) q(t-1)\cdots q(0).}

Note-se que q ( 0 ) = 1 − Prob ⁡ ( τ = 0 ∣ τ > − 1 ) = 1 − Prob ⁡ ( τ = 0 ) {\displaystyle q(0)=1-\operatorname {Prob} (\tau =0\mid \tau >-1)=1-\operatorname {Prob} (\tau =0)} .

Proc ⁡ (τ = s | τ ≥ s ) = Proc ⁡ (τ ~ k = s ) / Proc ⁡ (τ ~ k ≥ s ) ., {\displaystyle \ operatorname {Prob} (\Tau =s|\Tau \geq s)=\operatorname {Prob} ({\tilde {\tau}} _{k}=s)/\operatorname {Prob} ({\tilde {\tau}} _{K}\geq s).,}

por um raciocínio semelhante que levam à construção do estimador naive acima, chegamos ao estimador

q ^ ( s ) = 1 − | { 1 ≤ k ≤ n : c k ≥ s , τ ~ k = s } | | { 1 ≤ k ≤ n : c k ≥ s , τ ~ k ≥ s } | = 1 − | { 1 ≤ k ≤ N : τ ~ k = s } | | { 1 ≤ k ≤ n : τ ~ k ≥ s } | {\displaystyle {\hat {Q}}(s)=1-{\frac {|\{1\leq K\leq n\,:\,c_{K}\geq s,{\til {\Tau }}_{K}=S\}|}{|\{1\leq k \ leq n\,:\, c_{K} \ geq s, {\til {\tau }}_{K} \ geq s\}|}}=1-{\frac {/\{1 \ leq k \ leq n\,:\, {\til {\tau }}_{k} = s\}|}{|\{1\leq k \ leq n\,:\, {\til {\tau }}_{K} \ geq s\}/}}} S ^ (t ) = ∏ s = 0 t q ^ (s ) ., {\displaystyle {\hat {s}}} (t)=\prod _{s=0}^{t}{\hat {q}} (s).} S ^ (t) = ∏ i : t i ≤ t ( 1 − d i n i). {\displaystyle {\hat {S}}(t)=\prod _{i:t_{i}\leq t}\left(1-{\frac {d_{i}}{n_{i}}}\right).}

Como oposição ao estimador naive, este estimador pode ser visto utilizar as informações disponíveis de forma mais eficiente: No caso especial mencionado antes, quando existem, muitos dos primeiros eventos registrados, o estimador vão multiplicar-se muitos termos com um valor abaixo de um e, assim, ter em conta que a probabilidade de sobrevivência não pode ser grande., j log ⁡ ( h j ) + ( n j − d j ) registo de ⁡ ( 1 − h j ) ) {\displaystyle \log({\mathcal {L}})=\sum _{j=1}^{i}\left(d_{j}\log(h_{j})+(n_{j}-d_{j})\log(1-h_{j})\right)}

encontrar o máximo do log de verossimilhança com relação a h i {\displaystyle h_{i}} produz:

∂ log ⁡ ( L ) ∂ h i = d i h ^ i − n i − i d a d 1 − h ^ i = 0 ⇒ h ^ i = d i n i {\displaystyle {\frac {\partial \log({\mathcal {L}})}{\partial h_{i}}}={\frac {d_{i}}{{\widehat {h}}_{i}}}-{\frac {n_{i}-d_{i}}{1-{\widehat {h}}_{i}}}=0\Rightarrow {\widehat {h}}_{i}={\frac {d_{i}}{n_{i}}}}

onde chapéu é utilizado para denotar a estimativa de máxima verossimilhança., Dado este resultado, podemos escrever:

S ^ ( t ) = ∏ i : t i ≤ t ( 1 − h ^ i ) = ∏ i : t i ≤ t ( 1 − d i n i ) {\displaystyle {\widehat {S}}(t)=\prod \limites _{i:\ t_{i}\leq t}\left(1-{\widehat {h}}_{i}\right)=\prod \limites _{i:\ t_{i}\leq t}\left(1-{\frac {d_{i}}{n_{i}}}\right)}

Leave A Comment