testes em modelos weibull na forma estendida de marshall-olkin · universidade federal do rio...
TRANSCRIPT
UNIVERSIDADE FEDERAL DO RIO GRANDE DO NORTE
CENTRO DE CIENCIAS EXATAS E DA TERRA
PROGRAMA DE POS-GRADUACAO EM MATEMATICA APLICADA E ESTATISTICA
Testes em Modelos Weibull na Forma Estendida de Marshall-Olkin
FELIPE HENRIQUE ALVES MAGALHAES
Orientador: Profa. Dra. Dione Maria Valenca
NATAL, FEVEREIRO DE 2012
UNIVERSIDADE FEDERAL DO RIO GRANDE DO NORTE
CENTRO DE CIENCIAS EXATAS E DA TERRA
PROGRAMA DE POS-GRADUACAO EM MATEMATICA APLICADA E ESTATISTICA
Testes em Modelos Weibull na Forma Estendida de Marshall-Olkin
FELIPE HENRIQUE ALVES MAGALHAES
Dissertacao de Mestrado apresentada ao Programa de Pos-
Graduacao em Matematica Aplicada e Estatıstica da Uni-
versidade Federal do Rio Grande do Norte (PPGMAE-
UFRN) como parte dos requisitos necessarios para obtencao
do tıtulo de Mestre em Matematica Aplicada e Estatıstica.
Natal, Fevereiro de 2012
“Para Aurino Alves (In Memorian),
Paulo Vitor (In Memorian)
e Rodrigo Sena(In Memorian).”
Agradecimentos
A Deus, acima de tudo.
A minha famılia que me apoiou em toda a minha trajetoria. Em especial ao meu pai Le-
andro, minha mae Fatima, minha irma Aline, por serem exemplos de vida e determinacao,
e a Nega Peta. As minhas avos: De Assis, Lourdes. Aos meus tios e tias: Bel, Cristina,
Francisco, Graca, Jair, Joao, Netinha, Rosario, Socorro, Veronica. A Ada, Ceica,
Junior, Marcia, Marcos, Meire, Normandia. Aos meus primos e primas: Adolfo, Alioxa,
Anaxagoras, Daniel, Daniel (miseravel), Daniele, Decio, Diego, Diego (telebahia), Jen-
derson, Kionara, Lucas, Luiz, Micaela, Moises, Parizot, Pedro, Pepeu, Pitagoras,
Romulo, Sandra, Sinara, Uliana, Wendell e Weskley.
Ao programa de pos graduacao PPGMAE. Em especial a professora e orientadora Dione
que me acolheu como uma mae e que me inspira por ser tao dedicada. Aos professores Andre,
Antonio Roberto, Claudemir, Gurgel, Julia, Marcelo Gomes, Nir, Ronaldo, Rubens
do departamento de matematica. Aos professores Andre Pinho, Bernardo, Carla, Damiao,
Formiga, Jeanete do departamento de estatıstica. Ao Fredy (UFMG) e Juvencio (UFC).
Aos colegas de curso. Em especial a Alysson, Francinario (Nerim), Kaline, Julianne e
os demais nao mencionados. Aos colegas e ex-colegas de trabalho que me apoiaram: Aldeci,
Alcineia, Berginaldo, Celismar, Conceicao, Elias, Freud, Francesco, George, Jose
Roberto, Liziane, Lucia, Marcio, Marlene, Miriam, Pedro, Renereide, Simone, Solange,
Vaneıse, Walker e aos demais nao mencionados.
Aos amigos: Anderson, Andre (Dezito), Anızio, Arthur, Carol, Carol Loureiro,
Carol Barreto, Cesar, Clara, Cacau, Daniel, Danilo, Dona Net, Elvis, Evanimek,
Fabiano, Filipe, Flavio, George, Giovani, Helio, Herica, Jessica, Joao Paulo, Junior
Xavier, Ju Jales, Julio, Karol, Kruell, Leila, Leo, Leo, Levi, Lucas, Manel, Marcosa,
Marquinhos, Myrna, Moises, Natalia, Parcelli, Rafa e Pablo, Raphael Teta, Renato
Portnoy, Ricardo, Rosaly, Tiago Viana, Ulisses, Winston, a galera das peladas do satelite
e da UFRN.
Peco perdao aos que nao foram mencionados!
Amadurecer nada mais e do que
perceber que o mundo nao e cor de rosa.
Resumo
Em analise de sobrevivencia, a variavel resposta e, geralmente, o tempo ate a ocorrencia de um
evento de interesse, denominado tempo de falha, e a principal caracterıstica de dados de sobre-
vivencia e a presenca de censura, que e a observacao parcial da resposta. Associados a essas
informacoes, alguns modelos ocupam uma posicao de destaque por sua comprovada adequacao a
varias situacoes praticas, entre os quais e possıvel citar o modelo Weibull. Distribuicoes na forma
estendida de Marshall-Olkin oferecem uma generalizacao de distribuicoes basicas que permitem
uma flexibilidade maior no ajuste de dados de tempo de vida. Este trabalho apresenta um
estudo de simulacao que compara duas estatısticas de teste, a da Razao de Verossimilhancas e a
Gradiente, utilizando a distribuicao Weibull em sua forma estendida de Marshall-Olkin. Como
resultado, verifica-se apenas uma pequena vantagem para estatıstica da Razao de Verossimil-
hancas.
PALAVRAS-CHAVE: Analise de sobrevivencia. Distribuicao Weibull. Distribuicao de Marshall-
Olkin. Teste da Razao de Verossimilhanca. Teste Gradiente.
Abstract
In survival analysis, the response is usually the time until the occurrence of an event of interest,
called failure time. The main characteristic of survival data is the presence of censoring which
is a partial observation of response. Associated with this information, some models occupy an
important position by properly fit several practical situations, among which we can mention
the Weibull model. Marshall-Olkin extended form distributions offer a basic generalization that
enables greater flexibility in adjusting lifetime data. This paper presents a simulation study that
compares the gradient test and the likelihood ratio test using the Marshall-Olkin extended form
Weibull distribution. As a result, there is only a small advantage for the likelihood ratio test.
KEYWORDS: Suvirval Analisys. Weibull distribution. Marshall-Olkin distribution. Likeli-
hood ratio test. Gradient test.
Sumario
1 Introducao 1
1.1 Objetivos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
2 Conceitos Basicos de Analise de Sobrevivencia 4
2.1 Introducao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
2.2 Distribuicao do tempo de vida . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.2.1 Funcao densidade de probabilidade . . . . . . . . . . . . . . . . . . . . . . 5
2.2.2 Funcao de sobrevivencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.2.3 Funcao de risco . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.2.4 Funcao de risco cumulativo . . . . . . . . . . . . . . . . . . . . . . . . . . 6
2.3 Relacoes entre as funcoes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
2.4 Censura . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
2.4.1 Censura tipo I . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.4.2 Censura tipo II . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.4.3 Censura tipo aleatorio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
3 Distribuicao de Marshall-Olkin 8
3.1 Introducao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
3.2 Definicao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
3.3 Principais funcoes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
3.3.1 Propriedades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
3.4 Funcao de Verossimilhanca . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
3.5 Distribuicao Weibull na Forma Estendida . . . . . . . . . . . . . . . . . . . . . . 13
3.6 Graficos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
4 Testes de Hipoteses 19
4.1 Introducao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
4.2 Hipoteses simples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
4.2.1 Teste da Razao de Verossimilhancas . . . . . . . . . . . . . . . . . . . . . 19
4.2.2 Teste Gradiente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
4.3 Hipoteses compostas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
4.3.1 Estatısticas para o modelo Marshall-Olkin . . . . . . . . . . . . . . . . . . 23
5 Simulacao 25
5.1 Introducao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
5.2 A Simulacao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
5.3 Resultados da Simulacao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
5.3.1 Distribuicao Exponencial . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
5.3.2 Distribuicao Weibull . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
6 Consideracoes Finais e Recomendacoes 37
Referencias bibliograficas 39
A 42
Capıtulo 1
Introducao
A analise de sobrevivencia, de acordo com varios autores (Colosimo e Giolo, 2006; dentre
outros), e uma das areas da Estatıstica que mais cresceu nas ultimas duas decadas do seculo
passado. Os dados coletados ao se aplicar esse tipo de estudo, contem, no mınimo, o tempo
ate a ocorrencia de um evento e a observacao se, de fato, o evento de interesse ocorreu. Assim,
algumas distribuicoes sao classicas na analise de dados de sobrevivencia. Dentre elas podemos
destacar a exponencial, Gamma, log-normal e a Weibull.
Os objetivos de uma analise estatıstica envolvendo dados de sobrevivencia estao geralmente
relacionados, em medicina, a identificacao de fatores de prognostico para uma certa doenca ou
a comparacao de tratamentos em um estudo clınico, enquanto controlado por muitos fatores.
Varios exemplos podem ser encontrados na literatura medica (Botelho, Silva, Cruz, 2009).
De maneira geral e utilizando-se de metodos parametricos, nem sempre e possıvel ajustar
os dados de maneira precisa. Dessa forma, inserir parametros proporciona um ajuste mais
adequado aos dados.
Marshall e Olkin (1997) propoem uma nova forma de introduzir um parametro para expandir
e ampliar uma famılia de distribuicoes, fornecendo novas extensoes das distribuicoes exponencial
e Weibull fazendo com que, por exemplo, a distribuicao exponencial torne-se concorrente das
famılias comumente usadas de dois parametros, famılias como a Weibull, Gamma e log-normal.
O metodo e aplicado para criar uma nova distribuicao Weibull com tres parametros, com mais
flexibilidade nas funcoes de densidade, sobrevivencia e risco. O modelo de Marshall-Olkin es-
tendido consiste em uma nova funcao de sobrevivencia, que denotamos aqui por SMO, baseada
1.1 Objetivos 2
numa funcao de sobrevivencia determinada, S, que sera apresentada a seguir:
H(S(x), α) = SMO(x;α)
sendo α > 0, x > 0 e H e uma transformacao que associa cada funcao de sobrevivencia de uma
distribuicao conhecida a uma nova funcao de sobrevivencia com um parametro adicional α.
Considerando o fato de que o novo parametro foi inserido, e natural que se queira testar se
os dados se ajustam bem numa distribuicao conhecida ou numa forma estendida da mesma.
No seculo passado, tres estatısticas classicas surgiram e possuem destaque: a estatıstica de
teste da razao de verossimilhancas (Neyman e Pearson, 1928), a de Wald (Wald, 1943) e a Score
de Rao (Rao, 1947). O teste da razao de verossimilhanca e, geralmente, o mais usado para se
testar hipoteses relativas a um unico parametro, considerando-se a hipotese nula simples. O
teste Score foi construıdo utilizando a funcao escore que corresponde ao logaritmo da funcao
de verossimilhanca referida na literatura como log-verossimilhanca e avaliada sob a restricao da
hipotese nula, (Rao, 1947). Estas tres estatısticas, sob a hipotese nula e condicoes de regularidade
tem aproximadamente uma distribuicao de qui-quadrado.
Terrell (2002) trouxe uma proposta de uma nova estatıstica, derivada das estatısticas Score
de Rao e Wald modificada (Hayakawa e Puri, 1985). Essa estatıstica, chamada de estatıstica
gradiente, apresenta a vantagem de nao envolver calculo matricial com produto de inversa de
matrizes. Esta estatıstica tambem tem, aproximadamente, uma distribuicao qui-quadrado sob
a hipotese nula.
Em um trabalho recente, Caroni (2010) apresenta uma comparacao por meio de um estudo
de simulacao entre as estatısticas da Razao de Verossimilhanca, Wald e Score de Rao para o
parametro que distingue a distribuicao estendida de uma basica. Como resultado verificou-se
que o teste da razao de verossimilhanca mostrou-se superior aos outros.
1.1 Objetivos
O principal objetivo deste trabalho e comparar por meio de simulacao as estatısticas de teste
da razao de verossimilhanca e gradiente para testar o parametro que distingue a distribuicao
estendida da basica. Alem disso descrevem-se caracterısticas e propriedades do modelo Weibull
na forma estendida de Marshall-Olkin.
1.1 Objetivos 3
O trabalho contempla seis capıtulos, incluindo este. Sao apresentados no Capıtulo 2 alguns
conceitos basicos de analise de sobrevivencia, no Capıtulo 3 a distribuicao de Marshall-Olkin
e as expressoes da distribuicao Weibull na forma estendida de Marshall-Olkin, no Capıtulo
4 as estatısticas do teste da razao de verossimilhancas e gradiente e no Capıtulo 5 algumas
simulacoes. Por fim, no Capıtulo 6 encontram-se as conclusoes e algumas sugestoes para
trabalhos futuros.
Capıtulo 2
Conceitos Basicos de Analise de
Sobrevivencia
2.1 Introducao
Analise de Sobrevivencia e a expressao utilizada para designar a analise estatıstica de dados
quando a variavel em estudo representa o tempo desde um instante inicial bem definido ate a
ocorrencia de determinado acontecimento de interesse (Lawless, 2003). Assim sendo, a variavel
em estudo e nao negativa.
O evento de interesse normalmente e chamado de falha. Dessa forma, uma variavel aleatoria
representa tempo ate a falha, que pode ser por exemplo: duracao de uma greve, de uma fiacao
de uma rede eletrica, da vida de um indivıduo, da vida util de equipamento ou ate do tempo de
estudo ate a aprovacao em concurso publico. As observacoes resultantes sao chamadas tempos
de vida.
Uma caracterıstica fundamental em Analise de Sobrevivencia e a existencia de censura, ou
seja, e quando nao e possıvel observar o evento de interesse para determinados indivıduos no
perıodo em que estao em observacao. Outro aspecto importante e que nao podemos assumir nor-
malidade pelo fato de geralmente os dados apresentarem uma distribuicao assimetrica positiva.
Dessa forma nao usamos metodos estatısticos usuais.
2.2 Distribuicao do tempo de vida 5
Neste capıtulo especifica-se alguns aspectos de Analise de Sobrevivencia como: a distribuicao
do tempo de vida, a funcao densidade de probabilidade, a funcao de distribuicao, a funcao de
sobrevivencia, a funcao risco, a funcao risco cumulativo, as relacoes entre suas funcoes e a
censura.
2.2 Distribuicao do tempo de vida
Seja T uma variavel aleatoria (v.a.) nao negativa, absolutamente contınua, com funcao de
distribuicao F , que representa o tempo de vida de um indivıduo e que possui as seguintes funcoes
associadas:
2.2.1 Funcao densidade de probabilidade
Chama-se a funcao densidade de probabilidade, f , a funcao definida por:
f(t) = lim∆t→0
P (t ≤ T < t+ ∆t)∆t
, 0 ≤ t <∞.
Esta pode ser interpretada como a probabilidade da falha ocorrer em um indivıduo no intervalo
(t, t+ ∆t), em que ∆t→ 0.
2.2.2 Funcao de sobrevivencia
A funcao sobrevivencia e definida da seguinte forma:
S(t) = P (T > t), 0 ≤ t <∞.
Essa funcao representa a probabilidade da ocorrencia da falha apos o instante t. Na pratica e a
probabilidade de um indivıduo sobreviver alem do instante t. Note que S(t) = 1− F (t).
2.2.3 Funcao de risco
A funcao de risco e tambem chamada de funcao de taxa de falha e e definida da seguinte
forma:
r(t) = lim∆t→0
P (t ≤ T < t+ ∆t|T ≥ t)∆t
, 0 ≤ t <∞,
2.3 Relacoes entre as funcoes 6
e representa a taxa instantanea de morte de um indivıduo no instante t, sabendo que sobreviveu
ate esse instante.
2.2.4 Funcao de risco cumulativo
Essa funcao tambem e chamada de funcao de taxa de falha acumulada e e definida da seguinte
forma:
R(t) =∫ t
0r(u)du
R mede o risco de ocorrencia do acontecimento de interesse ate o instante t.
2.3 Relacoes entre as funcoes
Seja T uma (v.a.), contınua e nao-negativa, tem-se:
r(t) =f(t)S(t)
= −d(lnS(t))dt
(2.1)
R(t) =∫ t
0r(u)du = − lnS(t) (2.2)
S(t) = exp {−R(t)} = exp{−∫ t
0r(u)du
}(2.3)
2.4 Censura
A censura, ja mencionada acima, e justamente quando nao se sabe se ocorre o evento de
interesse em algum elemento em observacao. Isso se deve a alguns fatores como, por exemplo: se
a morte do indivıduo ocorrer fora do perıodo de estudo, ou ainda ocorrendo dentro do perıodo,
mas por outra causa diferente do que e definido como falha. Dependendo de como esta e definida,
podemos ter censura a direita, a esquerda ou intervalar. A censura a direita ocorre quando o
tempo de vida e maior que o tempo observado.
Existem diversos mecanismos de censura que correspondem a situacoes de censura a direita.
2.4 Censura 7
2.4.1 Censura tipo I
A censura tipo I se caracteriza pelo fato da data do fim do estudo ser pre-determinada. Neste
caso, so podemos saber o tempo de vida de um indivıduo se a morte ocorrer antes do instante
pre-definido. Sendo assim, o numero de falhas observadas e aleatorio.
2.4.2 Censura tipo II
Sao colocados em estudo n indivıduos, mas o estudo termina quando se der a r-esima
ocorrencia do evento de interesse, sendo r um numero pre-definido (1 ≤ r ≤ n) . A amostra
obtida consiste nas r primeiras falhas, isto e, t1 ≤, ...,≤ tr, e os restantes n - r indivıduos sao
censurados no instante tr . Neste caso, o tempo de duracao do estudo e uma variavel aleatoria.
2.4.3 Censura tipo aleatorio
O mecanismo de censura aleatoria e aquele em que os tempos de censura sao variaveis
aleatorias mutuamente independentes e ainda independentes dos tempos de vida. Observa-se
este tipo de censura quando um indivıduo e retirado do estudo por uma causa alheia ao proprio
estudo.
Capıtulo 3
Distribuicao de Marshall-Olkin
3.1 Introducao
A distribuicao exponencial tem um papel central em analise de tempo de vida ou em dados de
sobrevivencia, pela coveniente teoria estatıstica, sua importante propriedade “falta de memoria”
e sua taxa de risco constante. Em certas circunstancias onde a famılia de distribuicao exponencial
uniparametrica nao e suficientemente ampla, um numero maior de famılias de distribuicao como
Gamma, Weibull e Gompertz sao usadas. Essas famılias e sua utilidade sao descritas em Cox
e Oakes (1984), Kalbfleisch e Prentice (2002), Lawless (2003) dentre outros. Um tratamento
completo de cada distribuicao e dado em Johnson, Kotz e Balakrishnan (1994).
Por varios metodos, novos parametros podem ser introduzidos para expandir as famılias de
distribuicoes pela flexibilidade adicionada sendo o metodo de Marshall-Olkin um destes. Varias
famılias sao classicas na area de analise de sobrevivencia, dentre elas a familia Weibull (Weibull,
1951). A distribuicao exponencial e um caso particular da Weibull dependendo dos valores dos
parametros.
Sao exibidos neste capıtulo alem da definicao proposta por Marshall-Olkin (1997), as ex-
pressoes das suas principais funcoes na forma estendida, as principais propriedades das funcoes
de distribuicao e sobrevivencia no novo modelo, assim como a funcao de verossimilhanca e alguns
graficos.
3.2 Definicao 9
3.2 Definicao
Seja T uma variavel aleatoria (v.a.) contınua, f sua funcao densidade, F sua funcao de
distribuicao, r sua funcao risco e S sua funcao de sobrevivencia. A forma estendida de Marshall-
Olkin correspondente tem funcao de sobrevivencia, SMO = H(S(t), α), dada por:
SMO(t;α) =αS(t)
1− αS(t)=
αS(t)F (t) + αS(t)
, (3.1)
em que t > 0, α > 0, α = 1 − α. Marshall e Olkin (1997) apresentam toda a construcao da
forma estendida para t ∈ <. Este trabalho se restringe ao caso em que t positivo.
Nao ha dificudades em obter a igualdade (3.1), de fato:
SMO(t;α) =αS(t)
1− αS(t)=
αS(t)1− (1− α)S(t)
=αS(t)
1− S(t) + αS(t).
Como F (t) = 1− S(t), segue que
SMO(t;α) =αS(t)
F (t) + αS(t).
3.3 Principais funcoes
Define-se as funcoes de densidade e de risco, respectivamente, como:
g(t;α) =αf(t)
(1− αS(t))2, (3.2)
e
h(t;α) =r(t)
(1− αS(t)), (3.3)
com t > 0, α > 0, α = 1− α.
A fim de demonstrar a expressao (3.2), temos
G(t;α) = 1− SMO(t;α),
3.3 Principais funcoes 10
sendo G a funcao de probabilidade na forma estendida de Marshall-Olkin. Derivando ambas as
parcelas em relacao a t, segue
∂G(t;α)∂t
= −∂SMO(t;α)∂t
=αf(t)
(1− αS(t))2,
Portanto,
g(t;α) =αf(t)
(1− αS(t))2.
Ja para a demostracao da expressao (3.3), partimos da relacao dada em (2.1)
h(t;α) =g(t;α)
SMO(t;α)=αf(t)/(1− αS(t))2
αS(t)/(1− αS(t))=
f(t)S(t)(1− αS(t))
,
portanto,
h(t;α) =r(t)
(1− αS(t)).
Se α = 1 a forma estendida de uma distribuicao conhecida e a propria distribuicao conhecida,
ou seja, g(t; 1) = f(t), SMO(t; 1) = S(t) e h(t; 1) = r(t).
3.3.1 Propriedades
Serao mencionadas quatro propriedades. As tres primeiras sao comuns a qualquer funcao
de distribuicao para uma v.a. e e encontrada em livros de probabilidade, por exemplo, James
(2010). O intuito deste topico e mostrar que uma funcao de distribuicao na forma estendida de
Marshall-Olkin tambem possui as respectivas propriedades. Alem dessas, a outra em sequencia
(G4) e uma propriedade exclusiva da forma estendida, Marshall e Olkin (1997).
Seja T uma v.a. contınua na forma estendida de Marshall-Olkin de acordo com (3.1). Suas
funcoes de distribuicao G e de sobrevivencia SMO gozam das seguintes propriedades:
G1. Se x ≤ y, entao G(x;α) ≤ G(y;α)
G2. Se xn ↓ x, entao G(xn;α) ↓ G(x;α)
G3. Se xn ↓ −∞, entao G(xn;α) ↓ 0. Se xn ↑ +∞, entao G(xn;α) ↑ 1
3.4 Funcao de Verossimilhanca 11
G4.(Propriedade da Estabilidade): Seja H a transformacao de Marshall-Olkin de uma funcao
de sobrevivencia S, ou seja
H(SMO(t;αk−1);α) = SMO(t;αk) =αkS(t)
1− αkS(t), (3.4)
em que SMO(t;α) = H(S(t);α), αk = 1− αk, α > 0, t > 0.
Pode-se entao mostrar que:
H(H(S(t);αk);α) = H(S(t);αk+1)
Demonstracao:
As demonstracoes das propriedades G1, G2 e G3 encontra-se no apendice A.
A demonstracao da propreidade G4 e a seguinte:
Aplicando (3.4) em (3.1) tem-se
H(H(S(t);αk);α) =αH(S(t);αk)
1− αH(S(t);αk)=
=α(
αkS(t)
1−αkS(t)
)1− α
(αkS(t)
1−αkS(t)
) =
(αk+1S(t)
1− αkS(t)
)(1− αkS(t)
1− (αk)S(t)− (ααk)S(t)
)=
=αk+1S(t)
1−[(αk) + (α)αk
]S(t)
=αk+1S(t)
1− αk+1S(t)= H(S(t);αk+1).
c.q.d.
Note que a expressao (3.4) e uma generalizacao da (3.1). Quando k = 1, em (3.4), tem-se
a expressao (3.1) e alem disso, para uma sobrevivencia S dada, se for aplicada a transformacao
(3.1) k vezes obtemos como resultado uma expressao semelhante a aplicacao da transformacao
uma unica vez, no caso, a expressao (3.4), mas com um valor diferente para α. O valor de k
informa quantas vezes a transformacao foi aplicada.
3.4 Funcao de Verossimilhanca
Sabe-se que existem alguns mecanismos de censura ja mencionados no capıtulo anterior.
Considera-se o mecanismo de censura a direita do tipo aleatoria. Assume-se para cada indivıduo
3.4 Funcao de Verossimilhanca 12
i um tempo de vida Ti e um tempo de censura Ci, em que Ti e Ci sao v.a.’s contınuas e
independentes e suas respectivas funcoes de sobrevivencia sao ST (t, θ) e SC(t). Neste caso, todos
os tempos de vida e de censura sao mutualmente independentes. Alem disso, considera-se que
a distribuicao da censura nao depende de parametros desconhecidos (censura nao informativa).
Para i = 1, ..., n, os tempos observaveis sao dados por:
ti = min(Ti, Ci).
Definimos tambem as indicadoras
δi = I{Ti≤Ci}, para i = 1, ..., n.
Os dados referentes a n indivıduos consistem em pares (ti, δi), i = 1, ..., n. Assim, a funcao
de verossimilhanca e dada por:
L(θ;D) =n∏i=1
[fT (ti; θ)]δi [ST (ti; θ)]
1−δi ,
em que D = (n, t, δ), sendo t = (t1, ..., tn)T e δ = (δ1, ..., δn)T.
Seja SMO a funcao de sobrevivencia e g a densidade resultantes da transformacao (3.1).
Assim a funcao de verossimilhanca associada ao novo modelo e dada por:
L(α, θ;D) =n∏i=1
(g(ti;α, θ))δi(SMO(ti;α, θ))1−δi (3.5)
ou ainda
L(α, θ;D) =n∏i=1
(h(ti;α, θ))δi(SMO(ti;α, θ)). (3.6)
Relacionando (3.6) com as funcoes de densidade f e sobrevivencia S que originaram a extensao
de Marshall-Olkin temos:
L(α, θ;D) =n∏i=1
α(r(ti; θ))δiS(ti; θ)(1− αS(ti; θ))δi+1
. (3.7)
Assim, o logarıtmo da funcao de verossimilhanca e dada por:
l(α, θ;D) = n lnα+n∑i=1
δi ln r(ti; θ) +n∑i=1
lnS(ti; θ)−n∑i=1
(δi + 1) ln(1− αS(ti; θ)). (3.8)
3.5 Distribuicao Weibull na Forma Estendida 13
3.5 Distribuicao Weibull na Forma Estendida
Sejam T1, ..., Tn uma amostra aleatoria de tamanho n da variavel aleatoria T com distribuicao
Weibull(γ, λ). Segue que a funcao densidade de probabilidade e dada por:
fT (t; γ, λ) =γ
λγtγ−1 exp
{−(t
λ
)γ}, t > 0, (3.9)
sendo γ > 0 e λ > 0 .
Para essa distribuicao, as funcoes de sobrevivencia e de risco sao, respectivamente,
ST (t; γ, λ) = exp{−(t
λ
)γ}(3.10)
e
rT (t; γ, λ) =γ
λγtγ−1. (3.11)
Dessa forma, aplicando (3.10) em (3.1), tem-se
SMO(t;α, γ, λ) =α exp {− (t/λ)γ}
1− α exp {− (t/λ)γ}, (3.12)
que e a funcao de sobrevivencia da Weibull na forma estendida de Marshall-Olkin. Assim, as
funcoes de densidade e risco da Weibull na forma estendida sao dadas, respectivamente, por:
g(t;α, γ, λ) =αγtγ−1 exp [− (t/λ)γ ]
λγ {1− α exp [− (t/λ)γ ]}2(3.13)
e
h(t;α, γ, λ) =γtγ−1
λγ {1− α exp [− (t/λ)γ ]}. (3.14)
As funcoes de verossimilhanca e a de log-verossimilhanca sao dadas, pois, pelas seguintes
expressoes, respectivamente
L(α, γ, λ;D) =n∏i=1
α(γtγ−1i
)δiexp [− (ti/λ)γ ]
λγδi (1− α exp [− (ti/λ)γ ])δi+1(3.15)
e
3.6 Graficos 14
l(α, γ, λ;D) = nlnα+n∑i=1
δi ln γ −n∑i=1
δiγ lnλ+n∑i=1
δi(γ − 1) ln ti −n∑i=1
(ti/λ)γ +
−n∑i=1
(δi + 1) ln {1− α exp [− (ti/λ)γ ]} (3.16)
3.6 Graficos
Nesta secao alguns graficos sao apresentados para que fique claro o comportamento de acordo
com seus respectivos parametros. Os graficos das funcoes de densidade, de sobrevivencia, e risco
da distribuicao Weibull na forma mais simples (λ = 1) sao apresentados respectivamente nas
figuras 3.1, 3.2(a) e 3.2(b).
Figura 3.1: Graficos da funcao de densidade da Weibull(γ,1) com os valores {0, 5; 1; 5} atribuıdos a γ
.
As Figuras 3.1 e 3.2 (a) e (b) mostram os graficos da funcao de densidade Weibull(γ,1), da
funcao de sobrevivencia com γ = {0, 5; 1; 5}, λ = 1. Podemos notar que quando γ = 1 temos
a curva da densidade da exponencial(1), o caso mais simples. Quando γ > 1 temos curvas
simetricas centrada em t = 1, semelhante a curva caracteristica da distribuicao normal, isso se
deve ao fato de λ = 1. Quanto maior for o valor γ neste caso, maior sera o valor da densidade
no ponto de maximo e mais estreita a figura se torna, reforcando o porque de os parametros λ
3.6 Graficos 15
Figura 3.2: (a) Graficos da funcao de sobrevivencia da Weibull(γ,1); (b) Graficos da funcao de risco da
Weibull(γ,1)
.
e γ serem conhecidos como de escala e forma, respectivamente. Ja no caso em que 0 < γ < 1 as
curvas tem caracteristicas da exponencial. A variacao dos valores de γ neste ultimo caso implica
na variacao de inclinacoes, quanto mais proximo de 1 mais suave a curva se apresenta.
As Figuras 3.3 e 3.4 mostram graficos das funcoes de densidade e de sobrevivencia da Weibull
na forma estendida de Marshall-Olkin com os parametros mais simples. Observa-se as leves al-
teracoes em seus graficos de acordo com os parametros definidos, curvas semelhantes, monotonas,
mais suaves para valores de α > 1.
Sao exibidas abaixo os graficos das funcoes de densidade, sobrevivencia e risco da distribuicao
Weibull na forma estendida com enfase aos graficos da funcao risco, utilizando para isso os
parametros λ = 1 e γ = {0, 5; 1; 2}. As Figuras 3.5, 3.6 e 3.7 mostram as funcoes risco da
distribuicao Weibull na forma estendida de Marshall-Olkin. A Figura 3.7 mostra casos em
que podemos ter funcoes crescentes convexas, crescentes concavas e um caso enfatizado por
Marshall e Olkin (1997) que e uma curva que possui intervalos crescentes e intervalos decrescentes
tornando-a nao monotona(efeito proporcionado pelo novo parametro α).
A Figura 3.7 mostra o maior interesse de inserir o novo parametro. Quando α e pequeno a
funcao risco possui uma curva interessante pelo fato de possuir intervalos crescentes e decres-
centes na mesma curva, ou seja, tendo sua monoticidade inexistente.
3.6 Graficos 16
Figura 3.3: Graficos da funcao Densidade da Weibull(1,1) na forma estendida de Marhall-Olkin com
α = {0, 5; 0, 2; 1; 5; 10}
Figura 3.4: Graficos da funcao Sobrevivencia da Weibull(1,1) na forma estendida de Marhall-Olkin
com α = {0, 5; 0, 2; 1; 2; 5}
3.6 Graficos 17
Figura 3.5: Graficos da funcao Risco da Weibull(1,1) na forma estendida de Marhall-Olkin com α =
{0, 5; 0, 2; 1; 2; 5}
Figura 3.6: Graficos da funcao Risco da Weibull(0,5;1) na forma estendida de Marhall-Olkin com
α = {0, 5; 0, 2; 1; 2; 5}
3.6 Graficos 18
Figura 3.7: Graficos da funcao Risco da Weibull(2,1) na forma estendida de Marhall-Olkin com α =
{0, 5; 0, 2; 1; 2; 5}
Capıtulo 4
Testes de Hipoteses
4.1 Introducao
Neste capıtulo sao apresentadas as definicoes das estatısticas de teste da razao de verossim-
ilhancas (Neyman e Pearson, 1928) e do teste gradiente (Terrel, 2002) para testar hipoteses
simples e hipoteses compostas. Alem disso, exibe-se a construcao da estatıstica gradiente no
caso mais simples. Construcoes e consideracoes mais gerais e completas sao dados, por exemplo,
em Lemonte e Ferrari (2010). Mostra-se tambem as expressoes das estatısticas supondo que os
dados tenham distribuicao Weibull na forma estendida de Marshall-Olkin.
4.2 Hipoteses simples
4.2.1 Teste da Razao de Verossimilhancas
Considere θ um vetor parametrico de dimensao p em que θ = (θ1, ..., θp)T. Suponha que se
quer testar as seguintes hipoteses:
H0 : θ = θ0 versus H1 : θ 6= θ0.
Suponha T1, ..., Tn uma amostra aleatoria, de tamanho n, da variavel aleatoria T com funcao
densidade de probabilidade g(t; θ), funcao de sobrevivencia SMO(t; θ) e funcao risco h(t; θ) as-
sociadas. Considere tambem θ como sendo o estimador de maxima verossimilhanca de θ.
4.2 Hipoteses simples 20
O teste da razao de verossimilhacas e baseado na funcao de verossimilhanca e envolve a
comparacao entre os valores do logaritmo da funcao de verossimilhanca maximizada e sob H0,
ou seja, a comparacao de logL(θ) e logL(θ0). A estatıstica de teste e dada por:
ξRV = −2 log
[L(θ0)
L(θ)
]= 2[logL(θ)− logL(θ0)]. (4.1)
Sob H0, esta estatıstica segue aproximadamente uma distribuicao qui-quadrado com p graus de
liberdade. Para amostras grandes, H0 e rejeitada, a um nıvel de significancia υ, se ξRV > χ2p,1−υ.
O valor χ2p,1−υ denota o quantil 1 − υ de uma variavel aleatoria qui-quadrado com p graus de
liberdade, isto e P (W > χ2p,1−υ) = υ, sendo W D→χ2
p.
4.2.2 Teste Gradiente
Este teste e obtido com base na estatıstica proposta por Terrell (2002) e denominada es-
tatıtica gradiente. Ela foi derivada a partir das estatısticas escore de Rao e Wald modificada
(Hayakawa e Puri, 1985). A combinacao destas duas estatısticas resulta em uma estatıstica
muito simples, nao envolvendo, por exemplo, nenhum calculo matricial como produto e inversa
de matrizes.
Consideremos as mesmas suposicoes feitas para o teste da razao de verossimilhanca que no
caso sao: T1, ..., Tn uma amostra aleatoria, de tamanho n, da variavel aleatoria T com as funcoes
g(t; θ), SMO(t; θ) e h(t; θ) associadas, θ como sendo o estimador de maxima verossimilhanca em
Θ.
Considere l(θ) a funcao de log-verossimilhanca e θ = (θ1, ..., θp)T. A funcao escore e definida
como U(θ) = ∂l(θ)∂θ .
A matriz informacao de Fisher e definida da seguinte forma:
IF (θ) = E[U(θ)U(θ)T].
Queremos testar
H0 : θ = θ0 versus H1 : θ 6= θ0.
As estatısticas de Wald (ξW ), Score de Rao (ξS) podem ser escritas da seguinte forma:
ξW = (θ − θ0)TIF−1(θ)(θ − θ0),
4.2 Hipoteses simples 21
ξS = U(θ0)TIF (θ0)U(θ0).
Uma proposta foi dada por Hayakawa e Puri (1985), denominada estatıstica de Wald modi-
ficada (ξW ). Ela e definida da seguinte forma:
ξW = (θ − θ0)TIF−1(θ0)(θ − θ0).
Estatıstica Gradiente
Definicao (Terrell, 2002): A estatıstica gradiente, ξG, para testar H0 : θ = θ0 versus H1 : θ 6= θ0
e da forma
ξG = U(θ0)T(θ − θ0). (4.2)
A fim de exibir a construcao da estatıstica gradiente proposta por Terrell (2002), considere que
sob H0 as estatısticas ξS e ξW podem ser escritas como
ξS = U(θ0)TIF (θ0)−1U(θ0) e ξW = (θ − θ0)TIF (θ0)(θ − θ0).
A proposta de Terrel e como segue: Considere B, uma matriz quadrada p× p invertıvel, de
tal maneira que BTB = IF (θ), onde IF (θ) e a informacao de Fisher. Dessa forma as estatısticas
ξS e ξW podem ser reescritas como segue
ξS =[(B−1)TU(θ0)
]T (B−1)TU(θ0) e ξW =[B(θ − θ0)
]TB(θ − θ0).
Pelo fato de ξS e ξW convergirem em distribuicao para uma qui-quadrado com p graus de
liberdade, entao e de se notar que
(B−1)TU(θ0) e B(θ − θ0)
possuem aproximadamente uma distribuicao Np(0, Ip), onde Ip denota uma matriz identidade
de ordem p.
Logo
ξG =[(B−1)TU(θ0)
]TB(θ − θ0) = U(θ0)TB−1B(θ − θ0),
tambem possui aproximadamente distribuicao qui-quadrado com p graus de liberdade. Portanto
ξG = U(θ0)T(θ − θ0).
4.3 Hipoteses compostas 22
4.3 Hipoteses compostas
Considere θ um vetor parametrico pertencente a Θ ⊂ <p particionado da seguinte forma
θ = (α, φ)T de tal maneira que a dim(α) = 1 e dim(φ) = p − 1. Suponha que se quer testar as
seguintes hipoteses:
H0 : α = α0 versus H1 : α 6= α0.
Considere tambem θ e θ0, respectivamente, os estimadores de maxima verossimilhanca de θ
e sob H0, onde θ = (α, φ), θ0 = (α0, φ0).
Note que se α = 1 em (3.1) nao ha forma extendida da distribuicao basica, pois H(S(t), 1) =
S(t). Cosiderando que neste caso α > 0, significa que α = 1 e um ponto interior do espaco
parametrico. Assim, o teste baseado na verossimilhanca para (3.1) deve ter comportamento
regular.
Pode-se testar H0 contra H1 usando o teste da razao de verossimilhancas que e dada por:
ξRV = 2{l(α, φ)− l(α0, φ0)
}(4.3)
em que φ0 e o estimador de maxima verossimilhanca de φ sobre a hipotese nula e α, φ sao
estimadores de maxima verossimilhanca em relacao a todo o espaco parametrico Θ.
A funcao escore neste caso e da forma
U(α, φ)T = [Uα(α, φ), Uφ(α, φ)] ,
sendo Uα(α, φ) = ∂l(α,φ)∂α e Uφ = ∂l(α,φ)
∂φ .
A estatıstica gradiente sob as mesmas condicoes definidas acima e dado por
ξG = U(α0, φ0)T[(α, φ)− (α0, φ0)
].
Assim como a estatıstica da razao de verossimilhancas, a estatıstica gradiente possui uma dis-
tribuicao aproximadamente qui-quadrado com 1 grau de liberdade.
4.3 Hipoteses compostas 23
4.3.1 Estatısticas para o modelo Marshall-Olkin
As expressoes das estatısticas de teste da razao de verossimilhancas e da gradeinte utilizadas
sao dadas, respectivamente, pela expressao (4.3) e por:
ξG = Uα(α0, φ0) [α− α0] + Uφ(α0, φ0)[φ− φ0
]=
1α0
n∑i=1
{1− SMO(α0, φ0) [1 + δi]
}[α− α0] , (4.4)
em que Uφ(α0, φ0) = 0.
A construcao da expressao (4.4) e como segue:
Inicialmente faz-se uma simplificacao de notacao, para diminuir a densidade de variaveis, da
seguinte maneira: h = h(D;α, φ) e SMO = SMO(D;α, φ), em que h e SMO sao as funcoes risco
e de sobrevivencia na forma estendida de Marshall-Olkin e D = {n, t, δ}. Alem disso a derivada
dessas funcoes e difıcil de ser obtida. No caso, ∂h∂α = −hSMO
α e ∂SMO∂α = SMO
α (1− SMO). Assim a
expressao
ξG = Uα(α0, φ0) [α− α0] + Uφ(α0, φ0)[φ− φ0
]nada mais e do que
ξG = Uα(α, φ) [α− α]
com (α, φ) = (α0, φ0). Dessa forma
ξG = Uα(α, φ) [α− α] =∂l(α, φ)∂α
[α− α]
=
∂
{n∑i=1
(δilnh+ lnSMO)
}∂α
[α− α]
=n∑i=1
{δi
1h
∂h
∂α+
1SMO
∂SMO
∂α
}[α− α]
=n∑i=1
{δi
1h
(−hSMO)α
+1
SMO
SMO
α(1− SMO)
}[α− α]
=1α
n∑i=1
{1− SMO [1 + δi]} [α− α] .
4.3 Hipoteses compostas 24
Para (α, φ) = (α0, φ0) chega-se na expressao (4.4).
Capıtulo 5
Simulacao
5.1 Introducao
Neste capıtulo sao exibidos resultados de simulacoes feitas em amostras de dados simulados
de sobrevivencia geradas pelo software R, versao 2.12.2, e impondo uma porcentagem de cen-
sura para cada nıvel de significancia. Utiliza-se tambem as distribuicoes exponencial e Weibull
na forma estendida de Marshall-Olkin, respectivamente, e as estatısticas de teste da razao de
verossimilhanca e gradiente.
5.2 A Simulacao
As simulacoes foram realizadas no software livre R 2.12.2 e o pacote reliaR foi utilizado
para obtencao das expressoes das funcoes de densidade, sobrevivencia e risco das distribuicoes
exponencial e Weibull na forma estendida de Marshall-Olkin (ver apendice A). Varios tamanhos
de amostra sao considerados. Assim, para cada, considerando alguns parametros pre-definidos
e esquema de censura de 10% ou 15%, 10.000 simulacoes de amostras sao geradas. O esquema
de censura atribuıdo foi o de censura a direita do tipo aleatorio. Como existe a presenca de
censura, tres variaveis aleatorias sao consideradas, T que representa tempo de falha, C que
representa a censura com distribuicao exponencial com parametro 1/ζ e t que toma o mınimo
entre T e C. Em todos os casos o parametro de escala da distribuicao foi escolhido como λ = 1.
O metodo quase-Newton (Broyden, Fletcher, Goldfarb, Shanno, 1970), tambem chamado de
5.3 Resultados da Simulacao 26
BFGS, e utilizado por meio do comando optim, do pacote basico, do software R para encontrar
por um processo numerico o valor de maxima verossimilhanca. Testa-se a seguinte hipotese
H0 : α = 1, dessa forma os parametros da distribuicao conhecida foram fixados ou um deles
foi atribuıdo como de pertubacao na sua estimacao. Tendo as 10.000 estimativas, calcula-se os
10.000 valores de cada estatıstica e defini-se uma funcao indicadora que associa 1 a rejeicao de
H0 e 0 no caso contrario. Calculando a proporcao de vezes em que H0 e rejeitada, a melhor
estatıstica e aquela que mais se aproximar ao nıvel nominal.
5.3 Resultados da Simulacao
5.3.1 Distribuicao Exponencial
As Figuras 5.1, 5.2, 5.3 e 5.4 mostram simulacoes feitas com dois testes considerando a
hipotese nula α = 1 utilizando a distribuicao exponencial na forma estendida, aos nıveis de
significancia de 5 e 1 % da χ21 de amostras com presenca de censura e variando de 5 ate 150
observacoes de 5 em 5. Ao nıvel de 5 % os testes ξRV e ξG tem bastante precisao para n ≥ 20
a 10% de censura, mas o teste ξG apresenta uma precisao menor ate n = 35 quando consider-
amos 15% de censura. Entao, ambos parecem satisfatorios mas o teste ξRV apresenta uma leve
vantagem.
A Figura 5.5 mostra o caso em que se testa a hipotese α = 1 e o parametro λ e tido como um
parametro de pertubacao na estimacao. As amostras simuladas foram geradas com distribuicao
exponencial com parametro de escala λ = 1. Nos outros casos, utilizando o modelo exponencial
mostram a tendencia deste. Neste usa-se 15% de censura a um nıvel de significancia de 5%.
Tem-se que para todo n a estatıstica gradiente se mostra liberal e a estatıstica da razao de
verossimilhancas se mostra mais conservadora. Para n < 60 a estatıstica gradiente se mostra
bem liberal, rejeitando em ate 17% onde espera-se valores proximos de 5%. A partir de n = 60
a estatıstica gradiente estabiliza-se mas continua levemente liberal. A maior porcentagem de
rejeicao da estatıstica da razao de verossimilhancas e proxima da menor porcentagem de rejeicao
da gradiente. Dessa forma, observa-se que a estatıstica gradiente utilizando a distribuicao ex-
ponencial na forma estendida de Marshall-Olkin se mostra inferior necessitando um pouco de
cautela em relacao as conclusoes que pode-se gerar ao usa-la em algum conjunto de dados nas
mesmas condicoes que foi imposta nesta simulacao.
5.3 Resultados da Simulacao 27
Figura 5.1: Tamanhos de amostra n simulados ao nıvel de 5% para ξRV , ξG e a hipotese nula α = 1
considerada, utilizando a distribuicao exponencial na forma estendida de Marshall-Olkin com 10% de
censura. O valor do parametro da exponencial e λ = 1.
5.3.2 Distribuicao Weibull
O estudo de simulacao da distribuicao Weibull na forma estendida de Marshall-Olkin foi
realizado de maneira analoga como para a distribuicao exponencial tambem na forma estendida.
Os parametros de escala e forma foram escolhidos como sendo 1 e {0, 5; 1; 2} respectivamente.
Da mesma forma na estimacao existe um caso em que o parametro de forma da distribuicao
conhecida e considerado como de pertubacao.
As Figuras 5.6 e 5.7 mostram amostras de tamanhos 5 ate 150 de 5 em 5 simulados, com
parametro de forma γ = 1, de dois testes baseado na verossimilhanca da distribuicao Weibull
na forma estendida, utilizando 10% de censura. Os parametros foram fixados, sendo estimado
somente o novo parametro da forma estendida. Os nıveis nominais utilizados sao de 5% e 1%,
respectivamente. O teste gradiente e bem conservativo ate o tamanho n = 50 e n > 100. O teste
da razao de verossimilhanca oscila de maneira satisfatoria para todos os tamanhos de amostra
n, ja na Figura 5.7 o teste gradiente se mostra praticamente conservativo para quase todos os
tamanhos de amostra. O teste da razao de verossimilhanca praticamente nao sofre oscilacao
5.3 Resultados da Simulacao 28
Figura 5.2: Tamanhos de amostra n simulados ao nıvel de 5% para ξRV , ξG e a hipotese nula α = 1
considerada, utilizando a distribuicao exponencial na forma estendida de Marshall-Olkin com 15% de
censura. O valor do parametro da exponencial e λ = 1.
para os tamanhos de amostra n. A performace do teste gradiente e inferior nestes dois casos.
As Figuras 5.8 e 5.9 sao simulacoes, de tamanhos de 10 ate 150 de 10 em 10, feitas a um
nıvel de 5% com 15% de censura e possui variacoes em relacao ao parametro de forma, no caso
0, 5 e 2 respectivamente. A Figura 5.8 mostra que o teste gradiente compete melhor que no caso
do modelo exponencial. As diferencas entre as porcentagens de rejeicao nao sao muito grandes
ate n = 60 e quando n > 60 as diferencas sao mınimas de forma que um teste ajustado com o
modelo desta simulacao pode fornecer resultados confiaveis para qualquer uma das estatısticas.
E de se notar que a medida que o modelo se torna menos simples, pela escolha dos parametros,
o teste gradiente se comporta de maneira evolutiva em seus resultados no sentido de ser concor-
rente da estatıstica da razao de verossimilhanca. E notavel tambem que o teste gradiente teve
o pior comportamento quando o parametro de escala foi tido como de perturbacao no modelo
exponencial apresentado pela Figura 5.5. Agora, a Figura 5.10 e a de maior interesse nesse
trabalho pelo fato de estar considerando as mesmas condicoes apresentadas pela simulacao da
Figura 5.5, porem, utilizando o modelo Weibull com o parametro de forma tido como de per-
5.3 Resultados da Simulacao 29
Figura 5.3: Tamanhos de amostra n simulados ao nıvel de 1% para ξRV , ξG e a hipotese nula α = 1
considerada, utilizando a distribuicao exponencial na forma estendida de Marshall-Olkin com 10% de
censura. O valor do parametro da exponencial e λ = 1.
tubacao na estimacao e o parametro de escala esta sendo fixado como λ = 1. Nota-se que para
n < 40 existem pequenas diferencas entre as duas estatısticas, por volta de 0, 0053. Os valores
mınimos entre as duas estatısticas, assim como os valores maximos possuem diferenca inferior
a 0, 0016. O teste da razao de verossimilhancas ainda possui uma leve vantagem, mas o teste
gradiente parecer ser satisfatorio para este ultimo caso.
5.3 Resultados da Simulacao 30
Figura 5.4: Tamanhos de amostra n simulados ao nıvel de 1% para ξRV , ξG e a hipotese nula α = 1
considerada, utilizando a distribuicao exponencial na forma estendida de Marshall-Olkin com 15% de
censura. O valor do parametro da exponencial e λ = 1.
5.3 Resultados da Simulacao 31
Figura 5.5: Tamanhos de amostra n simulados ao nıvel de 5% para ξRV , ξG e a hipotese nula α = 1
considerada, utilizando a distribuicao exponencial na forma estendida de Marshall-Olkin com 15% de
censura. O parametro da exponencial e de perturbacao.
5.3 Resultados da Simulacao 32
Figura 5.6: Tamanhos de amostra n simulados ao nıvel de 5% para ξRV , ξG e a hipotese nula α = 1
considerada, utilizando a distribuicao Weibull na forma estendida de Marshall-Olkin com 10% de censura.
O parametro de forma da Weibull γ = 1.
5.3 Resultados da Simulacao 33
Figura 5.7: Tamanhos de amostra n simulados ao nıvel de 1% para ξRV , ξG e a hipotese nula α = 1
considerada, utilizando a distribuicao Weibull na forma estendida de Marshall-Olkin com 10% de censura.
O parametro de forma da Weibull γ = 1.
5.3 Resultados da Simulacao 34
Figura 5.8: Tamanhos de amostra n simulados ao nıvel de 5% para ξRV , ξG e a hipotese nula α = 1
considerada, utilizando a distribuicao Weibull na forma estendida de Marshall-Olkin com 15% de censura.
O parametro de forma da Weibull γ = 0, 5.
5.3 Resultados da Simulacao 35
Figura 5.9: Tamanhos de amostra n simulados ao nıvel de 5% para ξRV , ξG e a hipotese nula α = 1
considerada, utilizando a distribuicao Weibull na forma estendida de Marshall-Olkin com 15% de censura.
O parametro de forma da Weibull γ = 2.
5.3 Resultados da Simulacao 36
Figura 5.10: Tamanhos de amostra n simulados ao nıvel de 5% para ξRV , ξG e a hipotese nula α = 1
considerada, utilizando a distribuicao Weibull na forma estendida de Marshall-Olkin com 15% de censura.
O parametro de forma da Weibull e de perturbacao.
Capıtulo 6
Consideracoes Finais e
Recomendacoes
Este trabalho teve como objetivo, alem de explorar e descrever caracterıstaras e propriedades
do modelo Weibull na forma estendida de Marshall-Olkin, comparar por meio de um estudo de
simulacao o desempenho das estatısticas de teste da razao de verossimilhanca e gradiente para
testar o parametro α, que distingue a distribuicao estendida da basica.
Com base no estudo apresentado no Capıtulo 3, verificou-se que, alem da flexibilidade, a
forma estendida de Marshall-Olkin tambem possui a importante propriedade da estabilidade,
ou seja, se a transformacao for aplicada varias vezes obtemos como resultado uma expressao
semelhante a aplicacao da transformacao uma unica vez, mas com um valor diferente para
o parametro extra. Alem disso, dependendo do valor do parametro, a distribuicao estendida
pode ter uma funcao risco nao monotona, que representa uma caracterıstica que a distribuicao
Weibull, por exemplo, nao possui.
Formas estendidas podem representar opcoes adequadas em situacoes reais de analise de
dados de sobrevivencia nas quais modelos usuais nao se ajustam muito bem. Assim, tomando
como ponto de partida o ajuste de um modelo na forma estendida de Marshall-Olkin, um
interesse natural que surge e testar a necessidade da extensao. Uma motivacao para estudar a
estatıstica gradiente ao inves das estatısticas classicas de Wald e Score se referem ao fato de que a
este, que possui tambem uma distribuicao assintotica qui-quadrado, nao apresentava matrizes em
sua expressao. Este aspecto e particularmente vantajoso em Analise de Sobrevivencia, na qual
38
a ocorrencia de censura impossibilita em muitas situacoes a obtencao da matriz de informacao
esperada.
Os resultados das simulacoes apresentados no capıtulo 5, que representam a contribuicao
original deste trabalho, mostram claramente que os testes da razao da verossimilhanca e gradi-
ente sao suficientemente precisos para testar o parametro extra α nas distribuicoes exponencial
e Weibull na forma estendida de Marshall-Olkin em amostras finitas. A estatısitica gradiente
apresentou em geral, uma leve desvantagem, principalmente em amostras muito pequenas e cen-
suradas. Esta desvantagem ocorre pelo fato deste teste apresentar o tamanho empirico do teste
maior que o nıvel nominal considerado (1% ou 5%). O pior resultado para a estatıstica gradiente
ocorreu no caso apresentado na Figura 5.5, em que o parametro da distribuicao exponencial foi
considerado como de perturbacao. Por outro lado quando o parametro de forma da Weibull foi
considerado de perturbacao (Figura 5.10) observou-se o melhor resultado para esta estatıstica,
que mostrou resultados equivalentes aos obtidos pela estatıstica da razao de verossimilhanca.
Nao foram verificadas diferencas nos resultados das simulacoes para diferentes percentuais de
censura, provavelmente pelo fato da simulacao considerar apenas pequenos percentuais de cen-
sura (10% e 15%). Notou-se que o comando optim interrompeu diversas vezes o processo de
simulacao ao se encontrar alguma irregularidade (falta de convergencia para alguma amostra).
Para trabalhos futuros deseja-se inicialmente aperfeicoar e ampliar o estudo de simulacao.
Este estudo apresentou limitacoes pelo fato de usar o pacote ReliaR (Apendice A), que permite
apenas o uso da distribuicao Weibull com o parametro de escala fixado como sendo λ = 1.
Implementar a equacao (3.16) tornaria a simulacao mais abrangente pois teria parametros pre-
fixados. Dessa forma a simulacao poderia ser ampliada para avaliar o desempenho do teste
gradiente na presenca de parametros de perturbacao, assim como em amostras com maiores
percentuais de censura. Alem disso, poderia ser realizado um estudo comparativo do poder dos
testes para este modelo e pelo menos uma aplicacao a dados reais de sobrevivencia.
Referencias Bibliograficas
[1] BASTOS, J; ROCHA, C. Analise de sobrevivencia : Conceitos Basicos. Arquivos
de Medicina, vol.20, no.5-6, p.185-187, set. 2006.
[2] BOLFARINE, H; SANDOVAL, MC. Introducao a inferencia estatıstica. Colecao
Matematica Aplicada. Sociedade Brasileira de Matematica (SMB), 2001.
[3] BOTELHO, F; SILVA, C; CRUZ, F. Epidemiologia Explicada - Analise de Sobre-
vivencia. Acta Urologica, 26; 4:33-38, 2009.
[4] CARONI, C. Testing for the Marshall-Olkin extended form of the Weibull dis-
tribution. Statistical Papers 51:325-336. 2010.
[5] COLOSIMO, EA; GIOLO, SR. Analise de Sobrevivencia Aplicada. Sao Paulo: Edi-
tora Blucher (Projeto Fisher, ABE), 2006.
[6] COX, DR; OAKES, D. Analysis of Survival Data. London: Chapman and Hall. 1984.
[7] GHITANY, M.E; AL-HUSSAINI, E.K; AL-JARALLAH, R.A. Marshall-Olkin Ex-
tended Weibull Distribution and its Aplication to Censored Data. Journal of
Applied Statistics. vol.32, no.10, p.1025-1034, 2005.
[8] HAYAKAWA, T; PURI, ML. Asymptotic expansions of the distributions of some
test statistics. Annals of the Institute of Statisticals Mathematics. A 37, 95-108. 1985.
[9] JAMES, BR. Probabilidade: Um curso de Nıvel Intermediario. 3.ed. Rio de
Janeiro:IMPA, 2010.
[10] JOHNSON, NL.; KOTZ, S; BALAKRISHNAN, N. Continuous Univariate
Distributions-1. 2nd edition. John Wiley and Sons, NewYork. 1994.
Referencias Bibliograficas 40
[11] LAWLESS, JF. Statistical Models and Methods for Lifetime Data. John Wiley,
New York. 2003.
[12] LEE, E.T; WANG, J.W. Statistical methods for survival data analisys. Wiley, Hobo-
ken, NJ, 3rd edn, 2003.
[13] LEMONTE, AJ; FERRARI, SLP. The local power of the gradient test. Annals of
the Institute of Statisticals Mathematics, 2010.
[14] MARSHALL AW; OLKIN, I. A new method of adding a parameter to a fam-
ily of distributions with application to the exponential and Weibull families.
Biometrika 84:641-652. 1997.
[15] NEYMAN, J.; PEARSON, ES. On the use and interpretation of certain test cri-
teria for purposes of statistical inference. Biometrika 20A(1/2), 175-240. 1928.
[16] PHAM, H; LAI, C.D. On recent generalizations of the Weibull distribution. IEEE
Transactions on Reliability 56:454-458. 2007.
[17] RAO, CR. Large sample tests of statistical hypotheses concerning several pa-
rameters with applications to problems of estimation. Mathematical Proceedings
of the Cambridge Philosophical Society. 44(01), 50-57. 1948.
[18] SEVERINI, TA. Likelihood Methods in Statistics. Oxford University Press. 2000.
[19] TERRELL, GR. The Gradient Statistic. Computing Science and Statistics 34, 206-215.
2002.
[20] WALD, A. Tests of statistical hypotheses concerning several parameters when
the number of observations is large. Transactions of the American Mathematical
Society 54(3), 426-482. 1943.
[21] WEIBULL, W. A Statistical distribution function of wide applicability. Journal
of Applied Mechanics, 292-297. 1951.
[22] WILKS, SS. The large-sample distribution of the likelihood ratio for testing
composite hypotheses. The Annals of Mathematical Statistics 9(1), 60-62. 1938.
Referencias Bibliograficas 41
[23] ZHANG, T; XIE, M. Failure data analysis with extended Weibull distribution.
Communications in Statistics Simulation and Computation 36, 579-592. 2007.
Apendice A
Neste apendice sao colocadas algumas demonstracoes para diminuir a densidade teorica do
texto e tornar a leitura mais agradavel. De fato, as demonstracoes das tres propriedades G1,
G2, G3 a seguir exigem alguns passos de tal maneira que a sua omissao pode tornar algumas
implicacoes invalidas, mas vamos usar de um certo abuso de notacao que e o uso dos simbolos
(⇒,⇔) para que as mesmas nao fiquem muito extensas.
Considera-se inicialmente alguns lemas que sao suporte para algumas demonstracoes a saguir:
L1. F (xn) ↓ F (x) para xn ↓ x e ∀xi1 , xi2 , tal que xi1 ≥ xi2 ; ∀i1, i2; i1 ≤ i2 tem-se F (xi1) ≥
F (xi2) e limn→∞F (xn) = F (x).
De fato essas sao as condicoes para que uma sequencia monotona decrescente seja conver-
gente, isso torna o lema L1 com carater axiomatico.
L2. Por L1, F (xi1) ≥ F (xi2) para ∀i1, i2 em que i1 ≤ i2 e a ∈ <, entao a+F (xi1) ≥ a+F (xi2)
Pela seguinte propriedade: Dados a, b ∈ < de forma que a ≤ b, assim c+ a ≤ c+ b, ∀c ∈ <.
L3. Por L1 mais uma vez F (xi1) ≥ F (xi2) para ∀i1, i2 em que i1 ≤ i2, logo bF (xi1) ≥ bF (xi2),
se b > 0 e bF (xi1) ≤ bF (xi2), se b < 0.
A propriedade que justifica esse item e a seguinte: suponha a, b, c ∈ <, em que a ≤ b, dessa
forma ac ≤ bc, se c > 0 e ac ≥ bc, se c < 0.
L4. F (xn) ↓ F (x) quando xn ↓ x, dessa forma 1F (xn) ↑
1F (x) .
Pela propriedade seguinte justifica-se L4: seja a, b ∈ <, a < b, entao 1a >
1b
Demonstracao: G1.
Suponha que x, y ∈ T e x ≤ y. Entao
43
F (x) ≤ F (y) L3⇐⇒ −F (y) ≤ −F (x) L2⇔ 1− F (y) ≤ 1− F (x)⇔ S(y) ≤ S(x)
Considerando α > 0 e αS(y)αS(x) = αS(x)αS(y) e facil ver que
αS(y) ≤ αS(x)
e alem disso
αS(y)− αS(y)αS(x) ≤ αS(x)− αS(x)αS(y).
Logo
αS(y)(1− αS(x)) = αS(x)(1− αS(y)).
Dividindo ambas as parcelas por (1− αS(x))(1− αS(y)) > 0 chega-se que
αS(y)1− αS(y)
≤ αS(x)1− αS(x)
⇔ SMO(y;α) ≤ SMO(x;α).
Portanto
G(x;α) ≤ G(y;α).
c.q.d.
Demonstracao: G2.
Suponha que xn ↓ x, segue que
F (xn) ↓ F (x) L3⇐⇒ −F (xn) ↑ −F (x) L2⇐⇒ 1− F (xn) ↓ 1− F (x)⇔ S(xn) ↑ S(x) L4⇐⇒L4⇐⇒ 1
S(xn)↓ 1S(x)
L2⇐⇒ 1S(xn)
− α ↓ 1S(x)
− α⇔ 1S(xn)
− αS(xn)S(xn)
↓ 1S(x)
− αS(x)S(x)
.
Logo
1− αS(xn)S(xn)
↓ 1− αS(x)S(x)
L4⇐⇒ S(xn)1− αS(xn)
↑ S(x)1− αS(x)
L3⇐⇒ αS(xn)1− αS(xn)
↑ αS(x)1− αS(x)
que equivale a
SMO(xn;α) ↑ SMO(x;α).
Portanto
44
G(xn;α) ↓ G(x;α)
aplicando L2 e L3 com a = 1 e b = −1.
c.q.d.
Demonstracao: G3
Prova-se inicialmente que se xn ↓ −∞ entao G(xn, α) ↓ 0. Se xn ↓ −∞ e garantido que
F (xn) ↓ 0 ⇔ 1− S(xn) ↓ 0⇔ 1− S(xn) ↓ 1− 1 L2⇐⇒ −S(xn) ↓ −1 L3⇐⇒ S(xn) ↑ 1 L3⇐⇒L3⇐⇒ αS(xn) ↑ α L4⇐⇒ 1
αS(xn)↓ 1α⇔ 1
αS(xn)↓ α+ α
α⇔ 1
αS(xn)− α
α↓ 1
e ainda pode-se escrever
1αS(xn)
− αS(xn)αS(xn)
↓ 1⇔ 1− αS(xn)αS(xn)
↓ 1 L4⇐⇒ αS(xn)1− αS(xn)
↑ 1⇔ SMO(xn;α) ↑ 1
Portanto
G(xn;α) ↓ 0.
c.q.d.
Para fazer as simulacoes foram utilizadas expressoes do pacote reliaR do software livre R,
as expressoes sao da distribuicao de Marshall-Olkin na forma estendida. Respectivamente as
funcoes de densidade das distribuicoes exponencial e Weibull na forma extendida de Marshall-
Olkin do pacote reliaR sao exibidas a seguir
f(x;α, λ) = αλexp(−λx)/{
(1− (1− α)exp {−λx})2}
;x > 0, λ > 0, α > 0
e
f(x) = λαxα−1exp(−xα)/{{1− (1− λ)exp(−xα)}2
};x > 0, λ > 0, α > 0.
Note que o parametro inserido na forma estendida nao e o mesmo nas duas expressoes. Para
a densidade da exponecial na forma estendida e o α tradicional, mas na densidade da Weibull na
forma estendida e o λ e λ, α sao os parametros de forma respectivamente. Ambas as expressoes
podem ser encontradas nos seguintes enderecos eletronicos respectivamente:
45
127.0.0.1:18158/library/reliaR/html/MOEE.html
e
127.0.0.1:18158/library/reliaR/html/MOEW.html.
A programacao utilizada na simulacao e a seguinte:
1) Para a distribuicao exponencial na forma estendida de Marshall-Olkin
################################################################################
#Pacote das func~oes do MarshallOlkin
library(reliaR)
#Func~ao de Verossimilhanca para alpha_hat e lambda_hat
lmoee=function(par,t,c){
alpha=par[1]
lambda=par[2]
if (alpha>0 & lambda>0) sum(c*log(hmoee(t,alpha,lambda))+
log(smoee(t, alpha, lambda))) else NA
}
#Func~ao de Verossimilhanca para lambda0_hat
lmoee2=function(lambda,t,c,alpha){
if (alpha>0 & lambda>0) sum(c*log(hmoee(t,alpha,lambda))+
log(smoee(t, alpha, lambda))) else NA
}
#Valores iniciais
alpha0=lambda0=1
names(alpha0)=’alpha0_hat’
names(lambda0)=’lambda0_hat’
inicial=c(1,1)
names(inicial)=c(’alpha_hat’,’lambda_hat’)
46
#Simulac~ao
#Permutac~oes
N=Y=y=Z=z=NULL
for (n in seq(5,150,5)){
for (i in 1:10000) {
#Gerando valores
T=rmoee(n, 1, 1) #MarshallOlkin
C=rexp(n,1/5.5) #Censura
t=pmin(T,C) #Tempo observado
c=rep(0,n);for (k in 1:n){if (T[k]<C[k]) c[k]=1} #vetor de censura
#Estimando numericamente lambda0_hat
resposta_l=optim(lambda0,fn=lmoee2,t=t,c=c,alpha=1,method="BFGS",
control=list(fnscale=-1))
#Estimando numericamente alpha_hat e lambda_hat
resposta=optim(inicial,fn=lmoee,t=t,c=c,method="BFGS",
control=list(fnscale=-1))
#TRV
TRV=2*(lmoee(resposta$par,t,c)-lmoee2(alpha0,t,c,resposta_l$par))
#TG
TG=(1/alpha0)*sum(1-smoee(t, alpha0,resposta_l$par)*(1+c))*
(resposta$par[1]-alpha0)
#Proporc~ao
if (1-pchisq(TRV,1)<0.05) y=c(y,1)
if (1-pchisq(TG,1)<0.05) z=c(z,1)
47
}
Y=c(Y,(sum(y)/10000))
Z=c(Z,(sum(z)/10000))
N=c(N,n)
z=y=NULL
#Gerando os graficos
plot(N,Y,type=’l’,ylim=c(0,.6),col=’blue’,lty=1,xlab=’Tamanho de amostra n’,
ylab=’%’)
lines(N,Z,type=’l’,col=’red’,lty=5)
abline(h=.05,lty=3)
legend(’topright’, c(’TRV’,’TG’), col=c(’blue’,’red’),
text.col = c(’blue’,’red’),lty = c(1,5), merge = F, bg = ’gray90’)
}
2) Para distribuicao Weibull na forma estendida de Marshall-Olkin
################################################################################
#Pacote das func~oes do MarshallOlkin
library(reliaR)
require(survival)
#Func~ao de Verossimilhanca para alpha_hat e lambda_hat
lmoew=function(par,t,c){
alpha=par[1]
lambda=par[2]
if (alpha>0 & lambda>0) sum(c*log(hmoew(t,alpha,lambda))+
log(smoew(t, alpha, lambda))) else NA
}
#Func~ao de Verossimilhanca para lambda0_hat
lmoew2=function(lambda,t,c,alpha){
if (alpha>0 & lambda>0) sum(c*log(hmoew(t,alpha,lambda))+
48
log(smoew(t, alpha, lambda))) else NA
}
#Valores iniciais
alpha0=lambda0=1
names(alpha0)=’alpha0_hat’
names(lambda0)=’lambda0_hat’
inicial=c(1,1)
names(inicial)=c(’alpha_hat’,’lambda_hat’)
#Simulac~ao
#Permutac~oes
N=Y=y=Z=z=NULL
for (n in seq(5,150,5)){
for (i in 1:10000) {
#Gerando valores
T=rmoew(n, 1, 1) #MarshallOlkin
C=rexp(n,1/5.5) #Censura
t=pmin(T,C) #Tempo observado
c=rep(0,n);for (k in 1:n){if (T[k]<C[k]) c[k]=1} #vetor de censura
#Estimando numericamente alpha0_hat
resposta_a=optim(alpha0,fn=lmoew2,t=t,c=c,lambda=1,method="BFGS",
control=list(fnscale=-1))
ajuste=survreg(Surv(t,c)~1,dist="weibull")
l.restrito=ajuste$log[2]
#Estimando numericamente alpha_hat e lambda_hat
resposta=optim(inicial,fn=lmoew,t=t,c=c,method="BFGS",
49
control=list(fnscale=-1))
#TRV
#TRV=2*(lmoew(resposta$par,t,c)-lmoew2(lambda0,t,c,resposta_a$par))
TRV=2*(lmoee(resposta$par,t,c)-l.restrito)
#TG
TG=(1/lambda0)*sum(1-smoew(t, resposta_a$par,lambda0)*(1+c))*
(resposta$par[2]-lambda0)
#Proporc~ao
if (1-pchisq(TRV,1)<0.05) y=c(y,1)
if (1-pchisq(TG,1)<0.05) z=c(z,1)
}
Y=c(Y,(sum(y)/10000))
Z=c(Z,(sum(z)/10000))
N=c(N,n)
z=y=NULL
#Gerando os graficos
plot(N,Y,type=’l’,ylim=c(0,.3),col=’blue’,lty=1,xlab=’Tamanho de amostra n’,
ylab=’%’)
lines(N,Z,type=’l’,col=’red’,lty=5)
abline(h=.05,lty=3)
legend(’topright’, c(’TRV’,’TG’), col=c(’blue’,’red’),
text.col = c(’blue’,’red’),lty = c(1,5), merge = F, bg = ’gray90’)
}