sebenta de bioestatística

Upload: andrecruzzz

Post on 12-Jul-2015

195 views

Category:

Documents


5 download

TRANSCRIPT

APONTAMENTOS DE B I O E S T A T S T I C A Brbara Oliveiros, 2008 BioEstatstica 3 1. INTRODUO BIOESTATSTICA Aestatsticaumareadoconhecimentoqueutilizateoriasprobabilsticaspara explicao deeventos,estudoseexperimentos.Temporobjectivoobter,organizareanalisardados, determinarasrelaesqueestesapresentam,eavaliarasconsequnciasparadescrioe explicao do que passou, e/ou para a previso e organizao do futuro. Aestatsticatambmumacinciaeprticadedesenvolvimentodeconhecimentohumano atravsdousodedadosempricos.Baseia-senateoriaestatstica,umramodamatemtica aplicada.Nateoriaestatstica,aaleatoriedadeeincertezasomodeladaspelateoriada probabilidade.Algumasprticasestatsticasincluem,porexemplo,oplaneamento,a descrio e a interpretao de observaes. Porque o objectivo da estatstica a produo da "melhor"informaopossvelapartirdosdadosdisponveis,algunsautoressugeremquea estatstica um ramo da teoria da deciso. Origem OtermoestatsticasurgedaexpressoemLatimstatisticumcollegium,palestrasobreos assuntos do Estado, de onde surgiu a palavra em lngua italiana statista, que significa "homem deestado",oupoltico,eapalavraalemStatistik,designandoaanlisededadossobreo Estado. A palavra foi proposta pela primeira vez no sculo XVII, em latim, por Schmeitzel na UniversidadedeLenaeadoptadapeloacadmicoalemoGodofredoAchenwall.Aparece como vocabulrio na Enciclopdia Britnica em 1797, e adquiriu um significado de colecta e classificao de dados, no incio do sculo XIX. Actualmente,umramodoconhecimentocientficoquetemporobjectivonosa observao,classificaoeanlisedosfenmenoscolectivos,mastambmoestudode possibilidade de inferncia indutiva a partir de dados observados. A base da estatstica e sua definio AEstatsticaumaferramentamatemticaquenosinformasobreoerroqueasnossas observaesapresentamsobrearealidadepesquisada.Aestatsticabaseia-senamediodo erroqueexisteentreaestimativadequantoumaamostrarepresentaadequadamentea populaodaqualfoiextrada.Assimoconhecimentodeteoriadeconjuntos,teoriade probabilidades,anlisecombinatriaeclculosoindispensveisparacompreendercomoo Engenharia Biomdica 4 erro se comporta e a magnitude do mesmo. o erro (erro amostral) que define a qualidade da observao e do delineamento experimental. A probabilidade de um evento frequentemente definida como um nmero entre zero e um. Na realidade, porm, nunca h situaes que tenham probabilidades 0 ou 1. Pode dizer-se que o sol ir certamente nascer na manh seguinte, mas e se acontecer um evento extremamente difcildeocorrerqueodestrua?Eseocorrerumaguerranucleareocuficarcobertode cinzas e fumo? Normalmente aproximamos a probabilidade de alguma coisa para cima ou para baixo porque elassotoprovveisouimprovveisdeocorrer,quefcildereconhec-lascomo probabilidade de um ou zero. Entretanto, isto normalmente leva a desentendimentos e comportamentos perigosos, porque as pessoasnoconseguemdistinguirentre,umaprobabilidadede10-4eumaprobabilidadede 10-9.Naprtica,humagrandediferena:imaginequevaiatravessaraestradanuma passadeira cerca de 105 ou 106 vezes na sua vida. Considerando que o risco de atropelamento 10-9, pode ficar seguro para o resto da sua vida; considerando que o risco de atropelamento de10-4,bastanteprovvelquevenhaaseratropelado,mesmocomosentimentointuitivo que 0,01% um risco muito baixo. Bioestatsticaaestatsticaaplicadaaoestudodascaractersticasbiolgicasdas populaes (humanas) ou, de forma genrica, s cincias da vida. A Bioestatstica cada vez mais uma rea independente da estatstica, ainda que as suas bases assentem na teoria de probabilidades, tal como a prpria Estatstica. Inicialmente, considerou-se a Bioestatstica como a Estatstica aplicada Biologia Humana e Medicina. Uma definio mais actual, e mais abrangente, passou a ser a cincia que foca o desenvolvimento e utilizao de mtodos estatsticos para resolverproblemas e questes que surgem nas reas da Biologia Humana e Medicina. Contudo,comeaaconsiderar-seque,naBioestatstica,poderocabertemastodiversos comoaavaliaoderecursosfaunsticoseflorais,estudosdateoriadeaprendizageme comportamento animal, questes de ecologia e, sobretudo, Planeamento de Experincias. BioEstatstica 5 Assim,aBioestatsticatemdeserumareainterdisciplinar,ondeoraciocniodedutivoe indutivo devem estar integrados de forma a considerar que: aincertezafontedeconhecimento,quandoaProbabilidadenospermitedelimit-la caracterizando os seus padres; a informao obtida por acaso pode ser enganadora, enquanto que a informao obtida ao acaso tem uma variabilidade til; mais importante do que a informao, a transformao desta em conhecimento; aamostragemboamasoPlaneamentoExperimentalaindamelhor,porserum investimento na obteno de dados de qualidade, que importam analisar; os problemas ticos no podem ser escamoteados na investigao experimental; oproblemadopassado(eactual,nocasodasdoenasraras)eraaescassezdedadose, actualmente,oproblema, frequentemente,aproliferaodedados, muitasvezesde m qualidade. Estatstica DescritivaInferencial Descrever dados atravs de Tomada de deciso baseada indicadores (estatsticas) nos elementos observadosNo conhecimento que o Estimadores dos reaisou experimentados (intervalos de investigador tem sobre Indicadores da populaoconfiana e/ou testes estatsticos)o problema em causa Engenharia Biomdica 6 Sumariar dadosEstatstica descritiva Conhecimento da populao Extrapolar para a populao as concluses obtidas na amostra Estimao de parmetros Inferncia estatsticaClculo de Probabilidades (estatstica assenta naTestes de Hipteses teoria de probabilidades)Origem nos jogos de azar Fenmeno aleatrio influenciado pelo acaso Experincia aleatria h possibilidade de ser repetida em condies idnticas - conhecido o conjunto de todos os resultados possveis, emborano se saiba, priori, qual ser o resultado - existe regularidade estatstica na repetio da experincia Experincia determinstica o resultado conhecido antes da sua realizao (ex: temperatura de congelao ou ebulio da gua) BioEstatstica 7 2. RECOLHA DE DADOS E AMOSTRAGEM Primrios levantados especialmente para determinada investigao Dados Secundrios- se se utilizam dados j existentes Censo informao relativa a todos os elementos da populao Recolha de dados Amostragem analisa-se um subconjunto da populao Impossvel a recolha de todos os elementos da populao emPopulaes infinitas Com elevado n de elementos Quando o estudo das caractersticas de cada elemento conduz sua destruio O estudo cuidadoso de uma amostra conduz a resultados mais fidedignos do que o estudo sumrio de toda a populao Menor custo e obteno de resultados em tempo oportuno Problemas de ordem tica devem ser tidos em consideraoEstudo de novos medicamentos Novas tcnicas cirrgicas Tcnicas invasivas Amostra representativa da populao Nopodeserenviezadadefiniocorrectadapopulaoainquiriredatcnicade amostragem Deveexistirumcontrolonaobtenodenorespostasoucasosperdidos,oquepode diminuir drasticamente a dimenso da amostra Deve ter dimenso suficiente para que as concluses a obter tenham um determinado grau de confiana e nvel de preciso Amostrasdeconveninciaso,muitasvezes,asnicaspossveisdeobter,principalmente quando se trata de populaes raras, mal conhecidas, geograficamente mal determinadas Perigo de tendenciosidade, logo inadequadas para produzir inferncia Dimenso mnima da amostra? vantagens Engenharia Biomdica 8 Amostragem aleatria, casual ou probabilstica a que garante melhor representatividade necessriopossuirumalistagemdetodososelementosdapopulaodemodoaquea probabilidadedequalquerelementodapopulaoserseleccionadosejaconhecidapriori (0.) Extremamente difcil obter-se tal amostragem possvel obter uma aproximao Amostragem aleatria Simplestodososelementostmigualprobabilidadedeseremseleccionados(1/N)por sorteio(bolasnumeradasnumsaco,tabeladenosaleatrios1).Estemtodonomuito usado dado que difcil obter populaes rplica Estratificadaquandoseconheceaestruturadapopulao.Conduzaamostras representativasdemenordimenso.Apopulaodivididaemestratos,grupos homogneosrelativamenteaumacaracterstica(ex:sexo),edentrodecadaestrato seleccionam-se os elementos duma forma aleatria simples, de acordo com a proporo de cada grupo na populao. SistemticaouquasealeatriaApenaso1elementodaamostraescolhido aleatoriamente, e os restantes so determinados de modo sistemtico pela razo N/n (N dimensodapopulao;ndimensodaamostra).O1elementopodeserobtidopor uma tabela de nos aleatrios no intervalo [1, N/n], e os restantes por adio de N/n (valores arredondados ao menor inteiro). 1 Geradas por processos matemticos que constituem um conjunto de nmeros que no obedecem a nenhum plano prvio (amostras sem reposio) BioEstatstica 9 3. VARIVEIS, PROBLEMAS DE INVESTIGAO E QUESTES 3.1 Variveis Oselementos chavede umainvestigaosoas variveiscaractersticasdosparticipantes oudasituaodeumdeterminadoestudo,quepodetomardiferentesvalores.Umavarivel temdeteracapacidadedevariar,outomardiferentesvalores.Seumconceitoapenastoma um valor num estudo, ento no uma varivel (por exemplo, o gnero no uma varivel se todos os indivduos do estudo forem mulheres). Na investigao quantitativa, as variveis podem ser definidas como: 3.1.1 Varivel Independente Activa a varivel ou a situao em que esta avaliada pode ser manipulada. Avarivel de interessedadaaoparticipante(ex:terapianova/terapiatradicional,substncia activa/placebo).Aexistnciadestetipodevariveisindependentesnecessriamasno suficienteparatirarconclusesdecausa-efeito,ouseja,fazerinferncia.OsEstudos Experimentais (randomizados ou no) exigem a existncia deste tipo de variveis. Atributo a varivel independente medida, no pode ser manipulada, embora seja um foco importante do estudo (os valores da varivel independente so atributos pr-existentes, que no se alteram sistematicamente com o desenrolar do estudo. Ex: gnero feminino/masculino, escaloetrio).Estudosqueapenastmvariveisindependentesdotipoatributosono experimentais. 3.1.2VarivelDependentemedeouavaliaoefeitodavarivelindependente;assumida como o resultado. Varivel IndependenteDependente Estranha Activa*Atributo** Engenharia Biomdica 10 3.1.3VarivelEstranhanosodeinteresseemdeterminadoestudo,maspodem influenciar a varivel dependente. Factores ambientais e caractersticas do experimentador so variveis estranhas que devem ser controladas . 3.2 Amostras independentes versus amostras emparelhadas Independentessenoexistenenhumtipoderelaooufactorunificadorentreos elementos das amostras: a probabilidade de um sujeito pertencer a ambas nula (ex: uma varivel avaliada para cada um dos gneros sexuais) Emparelhadasasamostrassoconstitudasusandoosmesmossujeitosexperimentais, ouhomlogos(ex:amesmavarivelmedidaantesedepoisdeumdeterminado tratamento). A excepo quando se utilizam Gmeos ou animais da mesma ninhada A distino entre amostras independentes e emparelhadas particularmente importante para a inferncia estatstica:arelao,ouausnciaderelao,existenteentreoselementosdeuma ou mais amostras. BioEstatstica 11 3.3 Questes, Hipteses e Objectivos de Investigao Anicadiferenaentreasquesteseashiptesesdeinvestigaoestnoformatode apresentaodasideiasainvestigar(pergunta/frase).Apartirdomomentoemqueesto definidasasquestesouashiptesesdeinvestigao,estaspodemserobjectivadasnum captulo: objectivos de investigao ou do estudo. Exemplos: QuestesHiptesesObjectivos Serqueestenovotratamento eficazemcomparaocomo placebo? Pretende-se investigar a hiptese do novotratamentosermaiseficaz que o placebo. Compararaeficciadonovo tratamentoversusaeficciado placebo. Ser que este novo tratamento to segurocomootratamento standard? Pretende-seinvestigarahiptese que o novo tratamento to seguro como o tratamento standard. Compararaseguranadonovo tratamentoversusaseguranado tratamento standard. Serqueosexpostosa determinadosfactoresderiscotm efectivamente mais risco de doena que os no expostos? Pretende-seinvestigarahiptese queosexpostosadeterminados factores de risco tm efectivamente maisriscodedoenaqueosno expostos. Comparar as incidnciasdadoena entre os expostos a factores de risco e os no expostos.SerquequemfezaterapiaAtem 10vezesmenosriscoderecidiva que quem no fez? Pretende-seinvestigarahiptese quequemfezaterapiaAtem10 vezesmenosriscoderecidivaque quem no fez. Comparar as taxas de recidiva entre umgrupoque faz a terapia A e um grupoquenofazqualquer tratamento. Serqueoscasosdedoena estiverammaisexpostosadeter-minadosfactoresderiscoqueos controlos? Pretende-seinvestigarahiptese queoscasosdedoenaestiveram maisexpostosadeterminados factores de risco que os controlos. Compararcasoscomcontrolos relativamenteexposioprviaa factores de risco. Serqueestadoenaapresentaum prevalnciaaonvelnacionalque justifiquequeamesmaseja consideradaumproblemadesade pblica? Pretende-seinvestigarahiptese destadoenaapresentaruma prevalnciaaonvelnacionalque nojustificaqueamesmaseja consideradaumproblemadesade pblica. Determinarataxadeprevalncia da doena a nvel nacional.Serqueosacidentesdeviao apresentamumincidnciaanual quejustifiqueserconsideradoum problema de sade pblica?Pretende-seinvestigarahiptese dosacidentesdeviao apresentaremumaincidnciaanual querealmentejustificaser considerado umproblemadesade pblica. Determinarataxadeincidncia anualmdiadosacidentesde viao nos prximos 5 anos. Engenharia Biomdica 12 3.3.1 Relao entre variveis e Questes/hipteses e objectivos da Investigao As variveis tm de ser observadas para se poderem analisar os objectivos da investigao. De acordo com os exemplos anteriores, poder-se-ia ter: 3.4 Nveis de mensurao das variveis Existem variveis Qualitativas e Quantitativas. Asprimeiras,emboracategorias,podemserordenveisouno,aindaque,porvezes,se considerequeasvariveisdicotmicassosempreordenveis.Asvariveisquantitativas podemserdiscretas(setomamvaloresnumconjuntofinitoouinfinitonumervel)ou contnuas (se tomam valores no conjunto nos reais). Dado que as variveis medem qualidades ou quantidades, podem ser classificadas quantoao seunveldemensurao,sendoqueaescolhadotratamentoestatsticoadequadoexigea identificao da escala e nveis de medida das variveis. Nveis de Mensurao Nominal =, Ex: sexo, raa, religio, estado civil, n na camisola do jogador de futebol Osvaloressoatributosoucategorias;osmerosapenasservemparaidentificar categorias Variveis qualitativas classificao dos indivduos de acordo com as suas categorias Nominal Dicotmica tem alguns privilgios BioEstatstica 13 Ordinal=, , Ex: nvel scio-econmico, ordem de preferncias, faixas etrias, grau de escolaridade Podem ser distinguidosdiferentes graus de um atributo ou categoria, existindo entre eles umarelaodeordem;categoriasquepodemserordenadasdeforma ascendente/descendente;oscdigosnumricosatribudosaestascategoriasdevem obedecer a essa ordem Intervalar=, , , valor das diferenas Ex: temperatura, escala QI, medidas de atitudes e personalidade Variveis quantitativas quanto valem as diferenas entre os valores: Entre 10C e 30C existe uma diferena idntica encontrada ente 70C e 90C. mas 90C no 3 vezes mais quente do que 30C! O zero arbitrrio e no ausncia da caracterstica! RacionalTodas as operaes aritmticas Ex: peso, altura, idade, velocidade, nveis de glicmia O valor mnimo o zero absoluto, que representa ausncia da caracterstica medida. possvel passar de um nvel de mensurao para outro inferior Perda de informao 3.5. Plano de Operacionalizao das variveis Desdeomomentoqueestodefinidasdiferentesvariveisparaumestudo,detodoo interessedefinirumplanodeoperacionalizao(ouinformatizao)devariveis.Neste planodeveconstarqualanotaocomputacionaldavarivel,assimcomoosseuspossveis valores ou cdigos, o tipo de varivel e a sua importncia na investigao. Por exemplo: Engenharia Biomdica 14 3.6 Codificao das variveis 3.6.1 Regras -Todos os dados devem ser numricos; -Cada indivduo ou participante corresponde a uma linha da base de dados; -Cada varivel de cada caso corresponde a uma coluna, na mesma linha, da base de dados; -Os cdigos de uma varivel devem ser mutuamente exclusivos; -Cada varivel deve ser codificada de forma a que se obtenha o mximo de informao; -Cada indivduo deve estar codificado com um identificador nico -Os cdigos devem ser consistentemente aplicados a todos os casos da base de dados 3.6.2 Controlo da Base de dados conveniente que se criem regras (escritas) para lidar com alguns problemas como: respostas duplas, incompletas, em branco, no muito claras, etc. NorespostasDEVEMserclulasembranco,enoZERO!Eventualmente,atribui-seum valor superior ao mximo possvel para aquela varivel como, por exemplo, 99, 999, ... BioEstatstica 15 As no respostas podem Resultar de erros de introduo ou de recolha de dados devem ser eliminadas Fazer parte da natureza intrnseca do fenmeno devem ser retidas Caso estas atinjam ou ultrapassem 20% dos dados, devem ser analisadas com ateno pois, se notiveremumcomportamentoaleatrio,iroenviezarosresultadosdoestudo,podendo caracterizar o segmento da populao que se negou a responder. Engenharia Biomdica 16 4. REPRESENTAO DAS VARIVEIS 4.1 Indicadores numricos As estatsticas apropriadas dependem do nvel de mensurao da varivel. Nvel de mensurao Medidas deNominalOrdinalIntervalar/Ratio Tendncia centralModa Moda Mediana Mdia aritmtica Moda Mediana Localizao- Quantis: Quartis/decis/percentis... Quantis: Quartis/decis/percentis... Disperso-Amplitude inter-quartisErro/Desvio-padro Indicadores da distribuio -- Coeficiente de Assimetria/Achatamento Distribuio Simtrica - coef. assimetria = 0 - mdia=mediana=moda Assimetria no confirmada -96 . 1. padro erroassimetria coef - moda mediana mdia assimtrica -96 . 1.> padro erroassimetria coef - assimtrica positiva ou direita:x Md Mo < = < X P X P As curvas em forma de sino diferem apenas pelos valores de , centro da distribuio, e de , variabilidade dos valores de X relativamente mdia. Geometricamente, a probabilidade da varivel aleatria X, de mdia 0 e varincia 1, assumir valores no intervalo ]-1,96; 1,96[ dada pela regio a sombreado na figura: Para esta varivel, existe uma tabela que fornece os valores deprobabilidadeemintervalossucessivosedeamplitude suficientementepequenademodoaqueaaproximaoa efectuar no encontro da rea apropriada bastante boa. MASh uma infinidade de curvas, consoantee . Nos restantes casos utiliza-se exb X a Pba||

\| = < < 22121) (Engenharia Biomdica 24 Necessidade de padronizar: =XZ : Z N(0,1) A mdia amostral uma das estatsticas mais importantes quer para a teoria da estimao quer da deciso. Outra caracterstica importante da distribuio de probabilidades que, medida queadimensodasamostrasutilizadasparacalcularadistribuioamostraldamdia aumenta,adistribuiodamdiaamostraltendeparaadistribuionormal, independentemente do tipo de distribuio da varivel em estudo teorema do limite central. Ex.:Distribuiodamdiadasclassificaesaumacadeiradeestatsticaem100amostras aleatrias de dimenso n Inicialmente, a distribuio era claramente assimtrica direita, mas medida que a dimenso dasamostrasaumenta,ohistogramadasfrequnciasdeX vaiassumindoaformadesino tpica da distribuio normal. BioEstatstica 25 Distribuio do Chi-quadrado2(n) UmavarivelaleatriaX(==nii ZX12)obtidapelasomadosquadradosdenvariveis aleatrias) 1 , 0 ( ~ N Zidiz-seterumadistribuiodotipo 2 com n graus de liberdadeArepresentaogrficadafunodensidadede probabilidadeaseguinte,para2,4,8e22grausde liberdade.Note-seque,medidaqueonmerodegraus deliberdadeaumenta,acurvavai-setornandomais parecida com a curva normal. Distribuio t-Sudentt(n) Dadas) 1 , 0 ( ~ N Z eY~2(n)taisqueZeYso independentes,avarivel nYZX= diz-seteruma distribuio t-Student com n graus de liberdade. Arepresentaogrficadafunodensidadede probabilidadedadadeseguida,para3e6grausde liberdade. Distribuio F-SnedecorF(n1,n2) SejamY1,2(n1)eY2,2(n2)duasvariveisaleatriase 2211nYnYX= . X diz-se ter uma distribuio F-Snedecor com n1en2grausdeliberdade.Naimagemseguinte encontram-serepresentadasduasvariveiscom(5,5) graus de liberdade e (15,15) graus de liberdade. Engenharia Biomdica 26 Distribuio Exponencial)1(EEstadistribuioestassociada aumprocessodePoisson3,ouseja,aocorrnciade eventos independentesaumataxaconstante,numintervalodetempoounumaregiodosespao,e tem uma larga aplicao no estudo das filas de espera e da fiabilidade de sistemas complexos, usando-se para representar o intervalo de tempo entre dois eventos. Tem-se: 5.2 Algumas distribuies de variveis aleatrias discretas Distribuio Discreta Uniforme) , ( j i DU a mais simples de todas as distribuies discretas. Caracteriza-se por:todos os valores possveis so equiprovveis: Aplicam-se,assim,ocorrnciadefenmenosaleatriosigualmenteprovveis,oucomo primeiro modelo para quantidades que variam entre i e j, mas acerca da qual pouco sabido. Distribuio Binomial) , ( p n Sequncia de experincias com as seguintes caractersticas: cadaprovatemcomoresultadoumdedoisacontecimentosmutuamenteexclusivos (sucesso/insucesso) a probabilidade de sucesso p permanece constante nas vrias provas e a probabilidade de insucesso q = 1-p as provas so independentes, ou seja, o resultado de cada uma no afecta o resultado das restantes 3 Ver distribuio de Poisson (discreta) BioEstatstica 27 semelhanadadistribuio2(n)edat-Student,oteoremadolimitecentralassegura tambm que a distribuio binomial se aproxima da distribuio normal para valores elevados de n e valores de p que produzam uma distribuio simtrica. Na prtica, consideramos uma aproximao correcta para >>< 2)2= tcom *sdado computacionalmente por uma qualquer aplicao estatstica (SPSS). BioEstatstica 39 20-22 17-19Escalo etrio30,0025,0020,0015,0095% CI IMC Exemplo1:Foiefectuadoumestudosobreondicedemassacorporalconsoanteoescalo etrio, em 16 estudantes do ensino superior, tendo-se obtido os seguintes dados: IdadeIMC xs 17-1920,819,63930,329,115,430,72726.497.55 20-2221,115,18,717,713,318,220,615,716.304.06 Observe agora os resultados obtidos no SPSS. O que conclui? Levene's Testt-test for Equality of Means 95% Confidence Interval of the Difference FSig.Tdf Sig. (2-tailed) Mean Difference Std. Error Difference LowerUpper IMC Equal variances assumed 2,82,1153,3614,00510,187503,030533,6876716,68733 Equal variances not assumed 3,3610,7,00710,187503,030533,4981116,87689 PelotestedeLevenepode-seassumira igualdade de varincias. AleituradotestetdeStudentparaamostras independentesedoIntervalodeconfiana para a diferena de mdias feita, assim, na 1 linhadatabeladeresultados,oupelogrfico seguinte: Exemplo2:Verificou-seterhavidoumerronaintroduodosdados(IMC=8,7),peloque esse indivduo ser eliminado da amostra. Suponhaaindaqueoscritriosdeincluso/exclusodoestudoexigiamqueossujeitos tivessem IMC entre 15 e 30, pelo que se excluam 3 sujeitos no escalo dos 17-19 anos, e 2 do outro grupo. Os resultados seriam os seguintes: Levene's Testt-test for Equality of Means 95% Confidence Interval of the Difference FSig.Tdf Sig. (2-tailed) Mean Difference Std. Error Difference LowerUpper IMC Equal variances assumed 5,49,0441,719,1214,313332,51796-1,3826910,00936 Equal variances not assumed 1,595,28,1684,313332,69781-2,5135011,14016 Engenharia Biomdica 40 Neste caso,nohhomogeneidadedevarincia peloqueosresultadosdotestetdeStudent para amostras independentes tm de ser lidos na segunda linha, ou visualizados no grfico que se segue:20-22 17-19Escalo etrio30,0028,0026,0024,0022,0020,0018,0016,0095% CI IMC 15-30 7.2 K Populaes Normais e Independentes (k>2): ANOVA UmadasaplicaesdaAnlisedeVarincia(ANOVA)acomparaoentremdiasdem populaes normais, ou seja, testar a hiptese { } = = =j imj i m j i HH : , ,..., 2 , 1 , :... :12 1 0 Aprimeirahiptesequeprovavelmentecolocariaseriacompararasmdiasduasaduas atravs de um teste t-Student Este procedimento, ainda que possvel, no vlido, dado que a estatstica e o valor crtico deste teste s so vlidos para comparar mdias de 2, e apenas 2 populaes, a partir das quais se extraram duas amostras aleatrias. De facto, enquanto que no teste a duas populaes o erro tipo I no ser superior a% 100 , utilizando esse mesmo teste para comparar mais m populaes, duas a duas, ter-se-ia um erro tipoIaproximadamentede% 100 ) 1 ( 1 m .Porexemplo,em3populaes,para 05 . 0 = ,aprobabilidadedeumerrotipoI,ouseja,deconcluirerradamentequeexiste diferena entre as 3 populaes de 14.3%. Assim, necessrio avaliara formacomoasmpopulaessodefinidas,combasenumou maiscritrios(oufactores)eavariabilidadepatenteadapelasamostrasdecadaumadas populaes. BioEstatstica 41 Por exemplo, suponha que queria testar a igualdade da mdia em 3 populaes (A, B e C), e considerem-se as duas situaes apresentadas na imagem seguinte, onde se podem observar 5 observaes amostrais de cada uma das 3 populaes: Note-se que as mdias amostrais relativas s vrias populaes so iguais nas duas situaes. Contudo, intuitivamente os grficos sugerem concluses diferentes; enquanto que no primeiro caso se tende a rejeitar quase de imediato a hiptese de igualdade de mdias, no segundo caso a tendncia para aceitar, com alguma facilidade, a hiptese de igualdade de mdias. Assim,avariabilidadedosdadosrelativosacadapopulaoum aspectofundamental ater em conta no teste de hipteses de igualdade de mdias. Seavariabilidadeemtornodecadaumadasmdiasamostraisgrande, comparativamentecomavariabilidadeentreasmdiasamostrais(2caso),tende-sea no rejeitar a hiptese nula; Assim,pareceaceitvelfundamentarotestedehiptesesnacomparaoentreestas variabilidades Anlise de Varincia (ANalysis Of VAriance). Engenharia Biomdica 42 AANOVArelativamenterobustaadesviosnormalidadedesdequeonmerode elementosemcadagruposejarelativamentegrande,sendoqueanonormalidadetem consequnciamnimasnainterpretaodosresultadosquandoadistribuionomuito enviezada. AdistribuioF,naqualsebaseiaaANOVA,tambmrobustaaviolaesda homocedasticidade(homogeneidadedevarinciasentreosgrupos)desdequeonmerode observaes emcadagruposejaaproximadamenteigual, considerando-sequeosgruposso de dimenso semelhante quando o quociente entre a dimenso do maior grupo e do menor for inferior a 1,5. 7.2.1 ANOVA a 1 factor A definio das m populaes feita com base num critrio ou factor (por exemplo, definem-se 3 populaes segundo os escales etrios [20, 30[, [30, 40[, [40, 50[). Caso se rejeite a hipteseH0 de igualdadede mdias, conclui-se,para um determinado nvel designificncia,queasmpopulaesnoapresentamcomportamentoidnticoperanteo critriooufactorqueserviuparaefectuaraclassificao.Contudo,slegtimoconsiderar estefactoracausadasdiferenasentreasmdiasdaspopulaessesepudergarantira homogeneidadedaspopulaesrelativamenteatodososoutrosfactoresquepodiamser relevantes para a explicao do fenmeno. Sejamm i X X Xiin i i,..., 2 , 1 , ,..., ,2 1= mamostrascausaisindependentescomdistribuio normal de mdia desconhecida e varincia comum desconhecida, isto ,m i n j N Xi i ij,..., 2 , 1 , ,..., 2 , 1 ), , ( ~2= = Assim,) , 0 ( ~ ,2 N Xij ij i ij+ + = , o que implica que i i + =Valor Observado = Mdia Geral + Efeito do nvel i do factor + Varivel Residual BaseadonomodelotericodaANOVAparaapopulao,possvelescreveromodeloa partir das observaes amostrais: ( ) ) ( iijiijx x x x x x + + = Observao ij Mdia amostral (estimativa de ) Efeito do nvel i do factor Resduos BioEstatstica 43 OclculodaestatsticatesteparaaANOVArequeroconhecimentodasestimativasda variabilidade dentro dos grupos (isto , a variao residual ou dos erros de medida), estimada a partir de) ( iijx x e da variabilidade entre as amostras (variao factorial, devida ao factor) que pode ser estimada a partir de( ) x xi . Emambos os casos, determinam-se as somas dos quadrados: ( ) ( ) = = = = =miiiminjiijs n X X SQDi12^1 121( )= =miiiX X n SQE12 Sendo assim, possvel obter uma estimativa da variabilidade total, dada por Soma Quadrados Total = Soma Quadrados Dentro Amostras + Soma Quadrados Entre Amostras AestatsticatestedaANOVAdadapelarazoentreavarinciadofactor(ouentreas amostras,estimadaapartirde 1 mSQE),eavarinciadoserros(oudentrodasamostras, estimada a partir de m nSQD), ou seja, a partir da varivel ) , 1 ( ~) () 1 (m n m Fm nSQDmSQEF =. Fonte de Variao Soma dos Quadrados Graus de Liberdade Mdias QuadrticasF Entre AmostrasSQEm-1) 1 ( = m SQE MQEDentro das amostras SQDn-m) ( m n SQD MQD =MQD MQE F =TotalSQTn-1 Esteprocedimentopermitetestaraexistnciadediferenasestatisticamentesignificativas entre as mdias das m populaes. Quando se conclui que tais diferenas existem interessante qualific-las, atravs: Engenharia Biomdica 44 Doclculodointervalodeconfianaparaamdiadecadapopulao,usandoa distribuio t-Student com n-m graus de liberdade: |||

\|+ iiiinMQDt xnMQDt x2 /02 /0 , No SPSS, efectuam-se comparaes mltiplas das mdias usando as comparaes Post-Hoc atravs dos testes de Tuckey, Fisher-LSD, Scheff ou Bonferroni, entre outros. O teste de Tuckey um dos mais robustos a desvios normalidade e homogeneidadede varinciasparaamostrasgrandes,enquantoqueemamostraspequenas,otestede Bonferroni um dos mais potentes. Quando se compara um nmero reduzido de grupos, muitas vezes opta-se por testes mais simples, como os de Fisher-LSD ou de Scheff. possvel,aindaquepoucoprovvel,queaANOVAeostestesdecomparaes mltiplascheguemaconclusesdiferentes,isto,poderejeitar-seH0naANOVA,sem que um teste para comparaes mltiplas detecte a diferena entre pares de mdias Tal deve-se ao facto de a ANOVA ser um teste mais potente (ou seja, onde a probabilidade de rejeitarH0correctamentemaiselevada),enquantoqueostestesparacomparaes mltiplastmassociadomaioresprobabilidadesdeerrotipoII)repetiodoestudo com amostras de maior dimenso de modo a reduzir a probabilidade de erro tipo II. Outrahipteserealizarcomparaespriori,ouseja,comparaesplaneadas, usando contrastes. Estas comparaes so mais potentes do que testes post-hoc, uma vez que,defacto,serotestestdeStudentqueseroefectuados,masexigemqueadeciso acercadascondiesdeinteresseatestarsejamtomadapriori,daseremmenos utilizados. Oscoeficientesdocontrastesonmerospositivosounegativos(eventualmentenulos) quedefinemashiptesesaseremtestadas,testandorelaesespecficasentregrupos atravs de uma combinao linear das mdias cuja soma dos coeficientes se anula. Porexemplo,sehouver5gruposepretendercompararosgrupos1e3comogrupo4, bastadefiniroscoeficientesdocontrastecomo,porexemplo,1,0,1,-2,0;sequiser comparar os grupos 1, 2 e 3 com o grupo 4 e 5 utiliza-se, por exemplo, 1, 1, 1, -1.5, -1.5. BioEstatstica 45 Exemplo 1: ANOVA a 1 factor ordinal.Nestecaso(factorordinal),possvelfazerumaanlisede tendncia.SuponhaqueasnotasdeBioestatsticada LicenciaturadeMedininaDentriadaUC,noanolectivode 2006/2007,foramasapresentadasnoquadroseguinte, consoante as condies motivacionais dos alunos. Seramotivaoumfactordediferenciaodasnotasnesta disciplina? Emcasoafirmativo,quaisosgruposcomdiferena significativa? Apresenteumgrficoquelhepermitaavaliaralguma tendncia. Exemplo 2: ANOVA a 1 factor nominal No quadro seguinte apresentam-se o nmero de acidentes segundo o tipo de bebida alcolica consumido pelo condutor, nas duas horas anteriores ao acidente. BebidaAcidentesBebidaAcidentesBebidaAcidentesBebidaAcidentes 15263242 14253241 14233342 15253341 15243142 16243242 16243243 14243442 14243343 15223244 Bebidas: 1 = Aguardente; 2 = Vinho; 3 = Cerveja; 4 = No bebe Verifique se existe diferena estatisticamente significativa no nmero de acidentes, consoante otipodebebidaingerida.Emcasoafirmativo,identifiqueasdiferenasatravsdotestede Tuckey. Indique ainda o que significam os contrastes seguintes, efectue-os e conclua: a) 1/3 aguardente + 1/3 vinho + 1/3 cerveja 1 No bebem b) 0,5 aguardente+ 0,5 vinho 0,5 cerveja 0,5 no bebem BaixaMdiaAlta 141217 151116 91416 151318 151616 101517 111314 111415 101316 141212 161318 111413 151318 121514 121616 141417 131315 101317 Engenharia Biomdica 46 7.2.2 Exemplos de outras Anlises de Varincia ANOVA a mais do que 1 factor - 2 factores fixos Amostraaleatriade30 mes,tendo-seseleccionadoaleatoriamente5porcadacategoriade parto e por continente de origem. Avaliar o efeito da origem (asitica, europeia, africana) e do tipo de parto (eutcico, distcico) no peso dos recm-nascidos. AsiticaEuropeiaAfricana 2.93.52.1 3.33.42.2 2.73.32.3 2.83.42.4 Eutcico 3.23.32.3 2.93.92 3.34.12.3 3.142.2 342.1 Distcico 3.23.92 ANOVA a mais do que 1 factor - modelo aleatrio: factores aleatrios no tinha escolhido o continenteondeseriamseleccionadasasmes,nemtipodeparto,mastinhaseleccionado aleatoriamente ANOVA amais do que 1 factor - efeitos mistos: inclui factores fixos, aleatrios, evariveis concomitantes ANCOVA ANalysis OF COVAriance Avaliar a relao entre o tipo de acompanhamento que as crianas tiveram at aos 5 anos de idade (infncia) e as notas de matemtica. lgico que crianas com maior QI tendam a originar melhores notas a matemtica - factor infncia tem 3 nveis: 1 = jardim-infncia; 2 = casa; 3 = ama QI varivel concomitante InfnciaQINotasInfnciaQINotasInfnciaQINotas 1105.715.5262100.314.783949 1100.314.826286.59.18311214 194.313.44296.112.966311214 1108.715.6452101.212.8231009 193.111.586297.68.734310314 196.711.53296.410.08311214 1106.916.662109.616.868311214 BioEstatstica 47 MANOVA (Multiple ANalysis OF Variance) e MANCOVA (Multiple ANalysis OF COVariance) A anlise de varincia multivariada (MANOVA) um teste mais potente do que a realizao devriasanlisesdevarincia,quandosetmvriasvariveisdependentesrelacionadas.A realizaodevriasANOVSsassentanopressupostoqueasvriasvariveisdependentes eramortogonais,ouseja,independentes.Defacto,emmuitoscasos,aMANOVAdetecta diferenasquenoseriamdetectadaspormltiplasANOVAs,assimcomoaANOVApode detectar diferenas no detectveis pelos testes post-hoc. Para ilustrar este facto, pode observar-se a figura seguinte, onde visvel a diferena existente entreosdoisgruposdepontos(escuroseclaros),masquandoasfunesdensidadeso projectadasem cadaum doseixos,ouseja, em cadaumadasvariveis,asdiferenas jno so aparentes: NaMANOVA,asvariveisdependentessoconsideradasemsimultneo,organizadasde formacompostaecomosefeitosassociadosacadavarivelponderadospelacorrelao existente entre ambas, de forma a que o erro tipo I permanea igual a , uma vez que o erro tipo I atravs de ANOVAs sucessivas em k amostras igual a k. Engenharia Biomdica 48 7.3 Correlao linear Quando se pretende estudar a relao ou associao entre 2 variveis quantitativas aleatrias XeY,esendoambasprovenientesdepopulaesnormais,determina-seocoeficientede correlao r de Pearson, coeficiente este que varia entre -1...0...1 e dado por ( ) ( ) [ ]( ) ( )2 2cov ==y y x xy y x xs sri ii iy xxy O coeficiente de correlao r mede a fora da associao entre as variveis e o teste que lhe est associado ( ) 2 ( ~ 212 = n t nrrto) tem como hipteses: =) 0 ( :) 0 ( :10r as relacionad e linearment esto Y e X Hr Y e X entre linear relao existe No H Sempre que existe uma correlao estatisticamente significativa, interessante avaliar o sinal de r, dado que este indica o sentido da relao (Note-se que a significncia estatstica de r=0.7 our=-0.7amesma,oquemudaosentidodarelao).Graficamente,atravsdeum diagrama de disperso, pode observar-se uma tendncia crescente ou decrescente consoante o valor do coeficiente de correlao positivo ou negativo. 400.00 200.00 0.00Dose1.000.800.600.400.200.00Fraco de Sobrevivncia r > 0r < 0 Normalmentehvantagememserefectuadaumaanlisederegressoemvezdacorrelao simples,sendonecessrioterumavariveldependenteeoutraindependente.Emtermos laboratoriaispodemosdizerqueumadasvariveismanipuladapeloinvestigadorenquanto na outra so medidos os valores obtidos. BioEstatstica 49 7.4 Anlise de Regresso Linear Simples A regresso linear simples um mtodo para estudar a relao entre 2 variveis quantitativas, normalmente distribudas, com o objectivo de estimar uma varivel Y em funo da outra X, ouseja,deestudarcomomodificaesnumavarivelindependenteproduzemmodificaes noutra varivel dependente. equaoque traduz a funo y de x d-se o nome de curva de regressode y sobre x. Se for uma regresso linear, tem-se uma recta: y* = a + bx Ocoeficienteadesignadoporintersecoouordenadanaorigem,eocoeficientebpor inclinao ou declive da recta de regresso de y sobre x. Contudo,nem todosos pontosdodiagramadedisperso4ficamsobrearecta5,ouseja,nem sempre y coincide com y*. Isto significa que nem toda a variabilidade de y explicada pela regresso;partedavariabilidadedeynoexplicadapelaregresso-avariabilidade residual devida a outros factores ou ao erro ou resduo: =y*-y. Se esta variabilidade residual for devida a erros casuais no tem uma magnitude significativa relativamente variabilidade devida regresso (tem-se, normalmente,0 = ). O objectivo encontrar os valores de a e b que melhor traduzem a recta de regresso, ou seja, queminimizamoserroscometidosentreovalory*previstopelarectaeoseuvalor observado y, e de tal forma que( ) y x,seja um ponto dessa recta. 7.4.1 Determinao dos coeficientes da recta de regresso Baseando-nos nos valores amostrais, determina-se o declive da recta (b), atravs de ( ) ( )( )2 2cov cov ==x xy y x xs s sbii ixxyx xxyou dexyssr b =Conhecido o valor de b, o coeficiente a fica determinado se conhecermos um ponto da recta. Ora, suposto que( ) y x,pertena recta de regresso, dondex b y a = 7.4.2 Hipteses estatsticas para o declive da recta de regresso =) 0 ( :) 0 ( :10b as relacionad e linearment esto Y e X Hb Y e X entre linear relao existe No H , para um nvel de significncia 4 Pontos do diagrama de disperso: (x,y); y o valor observado na amostra 5 Pontos da recta de regresso: (x,y*); y* a estimativa de y, determinada pela recta de regresso Engenharia Biomdica 50 400.00 200.00 0.00Dose1.000.800.600.400.200.00Fraco de SobrevivnciaSempre que a recta de regresso est bem ajustada, necessrio calcular a fora ou magnitude da associao para determinar se esta relevante, atravs do coeficiente de determinao r2: [ ] 1 , 0exp 2 =totallicadaSQSQrr2 = 0 recta de regresso coincidente com a rectay(ausncia de associao) r2 reduzido:grande disperso de valores em torno da recta de regresso (associao fraca) r2 elevado:pequena disperso de valores em torno da recta de regresso (associao forte) r2 = 1 disperso nula em torno da rectay(associao mxima) 7.4.3 Estimativa de valores de y pela recta de regresso: A predio de valores da varivel dependente pela equao de regresso s legtima dentro dos limites de variao dos valores observados na varivel independente. Trata-sedeumaestimativapontual...haverianecessidadededeterminaroseuintervalode confiana a 1-% usando |||

\| + * *2 ,21*2 ,21*;ynynEP t y EP t y Exemplo1:NaseguintejaneladoSPSSpodevisualizar-sea fracodesobrevivnciafdeumvrussujeito a umadosede radiao d. Usando um diagrama de disperso, parece existir uma relao linear entre a dose de radiao e a fraco de sobrevivncia do vrus: Defacto,parecequeafracode sobrevinciadovrusdiminuicomo aumentodadosederadiao.Assim,a existircorrelaoestatisticamente significativa,estasernegativa.Supondo queadistribuiodosvaloresdadosede radiaoeraciodesobrevivnciaseguem BioEstatstica 51 distribuio normal, tem-se: Correlao de PearsonRacio de Sobrevivncia r-.980 p.000Dose n9 Assim,oquepareciabvionodiagramadedispersoconfirma-se:existeumacorrelao estatisticamente significativa entre a dose de radiao administrada e o racio de sobrevivncia dovrus(p