Download - Minicurso R SBPO 2010
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 161
O software R como instrumentode ensino em Estatiacutestica Baacutesica
Gastatildeo Coelho Gomes gastaoimufrjbr
Joatildeo Ismael Damasceno Pinheiro jismaelimufrjbr Sonia Baptista da Cunha soniaimufrjbr
Santiago Ramiacuterez Carvajal sramirezoicombr
httpwwwr-projectorg
ldquoEstatiacutestica Baacutesica A Arte de Trabalhar com DadosrdquoEd Campus-Elsevier Rio de Janeiro (2008)Pinheiro J I D Cunha S Ramirez S C e Gomes C G
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 261
Porque do minicurso
bull A Estatiacutestica eacute uma ferramenta importante para se obterinformaccedilatildeo de uma massa de dados
bull O R eacute um pacote que oferece vaacuterias funccedilotildees jaacuteimplementadas dos mais variados meacutetodos estatiacutesticos
Aleacutem disso eacute tambeacutem um ambiente de programaccedilatildeoonde se ode usar o ue de bom ele aacute contem ara sedesenvolver novas implementaccedilotildees
bull Ambos a Pesquisa Operacional e o processo dedesenvolvimento de novos aplicativos em Estatiacutesticapodem se beneficiar dessa interaccedilatildeo
bull O que propomos eacute discutir as aplicaccedilotildees no R dosmeacutetodos baacutesicos de anaacutelise estatiacutestica
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 361
1) Cap 1 Anaacutelise Exploratoacuteria de DadosNo que se refere a medidas univariadas examinaremos estatiacutesticas de tendecircncia central localidade edispersatildeo (no R mean median var fivenum summary e quantile) graacuteficos de distribuiccedilotildees (no R barplot
pie hist stem e boxplot) Quanto agraves medidas bivariadas examinaremos a interdependecircncia atraveacutes dacovariacircncia correlaccedilatildeo graacutefico de dispersatildeo e tabelas de contigecircncias ( no R var cor plot table) Seraacutetambeacutem feita uma introduccedilatildeo agrave regressatildeo linear e ao meacutetodo de miacutenimos quadrados (no R lsfit e lsprint)
2) Cap 2-a Simulaccedilatildeo do conceito frequumlentista de probabilidadeMeacutetodo de Monte Carlo Atraveacutes de exemplos de jogos ldquocalcularemosrdquo probabilidades via simulaccedilatildeoexaminando a estabilidade da aproximaccedilatildeo
3) Cap 2-b Variaacuteveis Aleatoacuterias
Examinaremos no R os modelos probabiliacutesticos mais comuns de variaacuteveis aleatoacuterias discretas BinomialHipergeomeacutetrica Poisson e variaacuteveis aleatoacuterias contiacutenuas exponencial uniforme Normal e suasderivadas t-Student Qui-quadrada e F No R veremos o efeito da primeira letra a ser usada nos comandos
Assuntos abordados no minicurso
relativos aos modelos probabiliacutesticos ( p-probability d-density q-quantile e r-random)
4) Cap 2-c Simulaccedilatildeo e o Teorema Central do LimiteAtraveacutes de simulaccedilatildeo seraacute estudado o Teorema Central do Limite O efeito do tamanho amostral e dapopulaccedilatildeo de onde a amostra eacute extraiacuteda na aproximaccedilatildeo da distribuiccedilatildeo da meacutedia amostral de x peladistribuiccedilatildeo Normal
5) Cap 3-a Intervalo de confianccedilaSeratildeo feitas simulaccedilotildees para o entendimento do conceito de intervalo de confianccedila atraveacutes da geraccedilatildeopor simulaccedilatildeo de vaacuterias amostras e o posterior exame dos intervalos de confianccedila construiacutedos a partir decada uma dessas amostras
6) Cap 3-b Testes de HipoacutetesesSeratildeo recordados os principais componentes dos testes de hipoacuteteses erros tipos I e II com ascorrespondentes probabilidades p-valor Estudaremos o teste t de Student tanto pareado com natildeopareado para comparaccedilatildeo de duas populaccedilotildees teste quiquadrado para independecircncia e anaacutelise de
variacircncia (no R ttest chisqtest aov)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 461
Trabalhando no RUsaremos aqui trecircs tipos de variaacuteveis
constantes ou vetoresSatildeo os tipos de armazenamento mais baacutesico de uma variaacutevel Se desejarmos que numavariaacutevel x esteja a altura (em cm) de 10 indiviacuteduos faremosgt x = c(172167189157163 156201186179152)Observe que o sinal ldquogtrdquo eacute um prompt do R o comando ldquoc()rdquo combina uma sequumlecircncia devalores numa variaacutevel que aqui foi chamada de ldquoxrdquo o comando ldquo=rdquo eacute de atribuiccedilatildeo
Experimente os comandos gt y= 110 gt x2 gt x+2 gtx+y gtxy gtz=x+y gt c
matr zesSatildeo geralmente bancos de dados com n linhas (as observaccedilotildees) e p colunas (as variaacuteveis)Todas devem ser da mesma caracteriacutestica geralmente numeacutericas Se desejarmos que numavariaacutevel ldquoaprdquo esteja na primeira coluna a altura (em cm) e na segunda o peso (em kg) de10 indiviacuteduos
gt ap = matrix(c(172167189157163 1562011861791526863899075 63951208060) 102) peso e alturaObserve que o comando ldquomatrixrdquo arruma os dados de um vetor numa matriz o default eacuteentrar com o vetor por colunas os paracircmetros ldquo10 2rdquo indicam respectivamente onuacutemero de linhas e colunas o comando indica que o que vem depois na mesma linhaeacute interpretado como uma observaccedilatildeo e natildeo eacute considerado
Experimente os comandos gtmatrix gt pa[12] gt pa[1] gt pa[1]
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 561
Trabalhando no Rdata frameSatildeo usados para armazenamento de bancos de dados com n linhas (as observaccedilotildees) e
p colunas (as variaacuteveis) Podem natildeo ser da mesma caracteriacutestica misturandoalfanumeacutericos com numeacutericos e fatores Este comando seria uacutetil por exemplo para lerum banco de dados gerado no ExcelNo R um data frame seria lido pelo comando readtable Vamos ler a tabela 12 pag 7 dolivro [1] para tanto foi gerado um arquivo no Excel de nome tab1_2tex
Apresentamos aqui a 3 linhas iniciais dos dados de um total de 45 a primeira
linha (apresentada aqui em duas) corresponde aos nomes das variaacuteveisID CATEG IDADE PESO ALTURA IMC Classe_IMC CINTURA ID1A615821540245normal87109080MRID2S696301520273sobrepeso89104086GRID3S617011580281sobrepeso106123086GR
Para armazenarmos os dados no objeto tab12 usaremos o comando
tab12=readtable(fSBPO2010Rtab1_2txt header = T sep = )Observe que header = T serve para indicar que existe uma linha com os nomes dasvariaacuteveis (T significa True) e sep indica o separador no caso viacutergula
Experimente os comandosgtreadtable tab12[2]gt attach(tab12) CATEGgt tab12[3] IDADE
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 661
Cap 1 Analise Exploratoacuteria de Dados (AED)Anaacutelise Exploratoacuteria eacute um conjunto de teacutecnicas de tratamento de dados que semimplicar em uma fundamentaccedilatildeo matemaacutetica mais rigorosa nos ajuda a tomar um
primeiro contato com a informaccedilatildeo disponiacutevel
Em um levantamento de dados a respeito de um determinado assunto eles costumamser representados em uma tabela de dados Em uma tabela de dados cada linhacorresponde a uma observaccedilatildeo e cada coluna corresponde a uma variaacutevel
As variaacuteveis podem ser
Qualitativa nominal ou categoacuterica - seus valores possiacuteveis satildeo diferentes categoriasnatildeo ordenadas
- Quantitativa discreta - seus valores possiacuteveis satildeo resultados de um processo de
contagemQuantitativa contiacutenua - seus valores possiacuteveis podem ser expressos atraveacutes de
nuacutemeros reaisPara descrever o comportamento de uma variaacutevel eacute comum apresentar os valores que
ela assume organizados sob a forma de tabelas de frequecircncia e graacuteficos Os graacuteficosmais comuns para representarem variaacuteveis qualitativas satildeo os graacuteficos de barras e osgraacuteficos de setores
Usar para uma variaacutevel x que deve ser agrupada os comandos barplot(table(x))
pie(table(x)) Os principais argumentos desses comandos satildeo
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 761
barplot(x beside=F horiz=F xlab= xlim= col= space= )Onde
x um vetor de quantidades positivas Os valores em x representam a proporccedilatildeoobrigatoacuterio
beside se as barras seratildeo de lado ou empilhadas essa eacute uma variaacutevel do tiposucesso(Ttrue) ou fracasso (F false) o default eacute F Como exemplo olhar oapecircndice Figura 22
xlab corresponde ao tiacutetulo da variaacutevel x (natildeo obrigatoacuterio) o mesmo para ylab
xlim dois valores que correspondem aos limites no graacutefico da variaacutevel x (ylim)
space - quantidade de espaccedilo agrave esquerda antes de cada barra Se matrix podem ser 2valores o rimeiro barras do mesmo ru o e o se undo entre ru os
Cap1ndashAED barplot pie
col vetor informando as cores das barras Ver apecircndice
pie(x labels = names(x) edges = 200 col=NULL)Onde
x um vetor de quantidades positivas Os valores em x representam as proporccedilotildeeslabels um vetor de caracteres fornecendo nomes para os setores (natildeo obrigatoacuterio)
edges um inteiro A linha do ciacuterculo eacute aproximada por um poliacutegono com este
nuacutemero delados
col vetor informando as cores das barras
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 861
Exemplo
RCQ=c(808686908295928383898184788189877480918685848574768380788587
688387878789878888897877788984) digitar RCQ
rcq=rep(245) rcq[RCQ lt 78]=1 rcq[RCQ gt 85]=3 codificar
rcqt= table(rcq) tabular
names(rcqt)=c(PRMRGR) nomear as categorias
par(mfrow=c(12)) matrix de graficos (1 linha e 2 colunas)
pie(rcqt radius=12 col=c(greenbluepink)) graf de setor
Cap1-AED ndash ex table names par pie barplot
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 961
Pag 48 ndash Figura 22
mat= matrix(c(68154510 66214215 66242519 39161711)44byrow=T)
rownames(mat)=c(18 a 21 anos 22 a 25 anos 26 a 30 anos 31 a 40 anos)colnames(mat)=c(CinTeatSMDEx)
mat1=proptable(mat 2)
par(mfrow=c(12) mai=c(1111) mar=c(5 4 2 2) )
barplot(matbeside=F ylim=c(0250) legend = c(18 a 21 anos 22 a 25 anos
26 a 30 anos 31 a 40 anos) xlab=Contagem)
barplot(mat1 beside=F xlab=Percentagem)
Cap1-AED ndash ex barplot (beside=F)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1061
Pag 44 ndash Figura 21
mat=matrix(c(81823913601818608740)32)
rownames(mat)=c(AtivaSedentaacuteriaTotal)
colnames(mat)=c(NormalSobrepeso)
barplot(t(mat) beside = TRUE space=c(315)
col=gray(c(79))
legend = c(NormalSobrepeso) ylim = c(0 95) ylab= - percentagem)
Cap1-AED ndash ex barplot (beside=T)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1161
Para as variaacuteveis quantitativas os mais usados satildeo os Histogramas e os Diagramas Ramo-folhascujos comandos satildeo gthist(x) gt stem(x) Existe tambeacutem um comando chamado gtcut
que classifica uma variaacutevel numeacuterica Os principais argumentos do comando hist satildeo
hist(x breaks= freq =NULL right=T col=NULL main=xlim=range(breaks) ylim=NULL xlab=xname ylab) Onde
x a variaacutevel numeacuterica a ser discretizada (argumento obrigatoacuterio)
breaks vetor com os limites das classes
freq variaacutevel loacutegica se T (True) corresponde agrave contagem de cada classe se F (False) equivale adensidade de probabilidade a aacuterea total sob a curva (retacircngulos) teria soma 1
right variaacutevel loacutegica se T as classes satildeo fechadas agrave direira se F satildeo fechadas agrave esquerda
Cap1ndashAED stem cut table
main tiacutetulo principal
xlab e ylab roacutetulos dos eixos x e y respectivamente
xlim e ylim Dois valores limites para o graacutefico de cada uma das variaacuteveis
cut(x breaks right = T ) Onde
x a variaacutevel numeacuterica a ser discretizada (argumento obrigatoacuterio)breaks vetor com os limites das classes
right variaacutevel loacutegica se T as classes satildeo fechadas agrave direira se F agrave esquerda
stem(x hellip)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1261
Exemploda pag 15 ndash Figura 18
gt nt=c(18381254193316214231406456822872314
8611996235321861281254244214781182
347515012369214621412573362814071138) digitaccedilatildeo de nt
gt hist(nt breaks=c(50100150200250300350400450500) right=T
main=Histograma Telefonia fixa per capita
xlab=N linhas1000hab ylab=N de obs xlim=c(0500) ylim=c(010) col=grey) histograma da variavel gt
Cap1-AED hist
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1361
Exemploda pag 15 ndash Figura 18
gt nt=c(18381254193316214231406456822872314
8611996235321861281254244214781182
347515012369214621412573362814071138) digitaccedilatildeo de nt
gt stem(trunc(nt10)) o ramo a centena e a folha as dezenas
0 | 8
1 | 1122244441 | 5689
Cap1 AED ndash ex stem table cut
2 | 011123334
2 | 5
3 | 4
3 | 6
4 |
4 | 5
gt table(cut(nt breaks=c(50100150200250300350400450500) right=F))
[50100) [100150) [150200) [200250) [250300) [300350) [350400) [400450) [450500)
1 9 5 8 1 1 1 0 1
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1461
Para uma dada variaacutevel quantitativa uma medida de centralidade eacute um ldquovalor tiacutepicordquo em torno doqual se situam os valores daquela variaacutevelAs medidas de centralidade mais conhecidas satildeoa meacutedia aritmeacutetica e a mediana Usar os comando mean(x) median(y) Por exemplo
gt mean(nt)[1] 2001852gt median(nt)[1] 193Uma medida de localizaccedilatildeo eacute o quantil A funccedilatildeo apropriada do R para obter os quantis de um
vetor numeacuterico x eacute a funccedilatildeo gt quantile(x)Se desejarmos determinar os trecircs quartis usariacuteamos
o comando quantile(xc(02505075))
Se desejarmos o quinto o deacutecimo e o nonageacutesimo percentis usariacuteamos o comandogt quantile(xc(05010090))
Cap1-AED Medidas (estatiacutesticas)
O comando quantile(xp) retorna o quantil de ordem p das observaccedilotildees de x podendo p ser
um vetor Por exemplo
gt quantile(nt c(20 50 95))
20 50 95
1306 1930 3582
Uma medida de dispersatildeo para uma variaacutevel quantitativa eacute um indicador do grau de espalhamento
dos valores da amostra em torno da medida de centralidade As medidas de dispersatildeo mais
conhecidas satildeo a variacircncia o desvio-padratildeo e a distacircncia interquartil=diferenccedila entre o terceiro
e o primeiro quartis
gt var(nt)
[1] 7131464
gt sd(nt)
[1] 84448
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1561
gt q=fivenum(nt) q[4]-q[2] em q estatildeo os 5 nuacutem Subtraiacutemos o Q3 do Q1[1] 92
Os cinco valores x(1) Q1 Q2 Q3 x(n) miacutenimo os trecircs quartis e o maacuteximo satildeoimportantes para se ter uma boa ideacuteia da assimetria dos dados Esse valores podem serobtidos pelo comando fivenum(x) O summary(x) acrescenta tambeacutem a meacutedia ao resultado
Por exemplogt fivenum(nt)[1] 86 141 193 233 457gt summary(nt)
Min 1st Qu Median Mean 3rd Qu Max
860 1410 1930 2002 2330 4570
Cap1-AED IEQ fivenum boxplot
O Box Plot ou Desenho Esquemaacutetico eacute um graacutefico que se costuma utilizar para sintetizarem uma mesma figura vaacuterias informaccedilotildees relativas agrave distribuiccedilatildeo de uma determinadavariaacutevel quantitativa Nele tambeacutem satildeo representadas as observaccedilotildees discrepantesObservaccedilotildees discrepantes ou outliers satildeo observaccedilotildees cujos valores estatildeo muito afastadosdos demais (para mais ou para menos) Essas observaccedilotildees podem afetar de formasubstancial o resultado das anaacutelises estatiacutesticas O comando para usar-lo eacute boxplot(x)
Por exemplo ver fig 125 pag 28gt nt=c(18381254193316214231406456822872314
8611996235321861281254244214781182347515012369214621412573362814071138) digitaccedilatildeo de nt
gt boxplot(nt ylim=c(50500)xlab=N linhas1000hab)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1661
Quando se deseja investigar a relaccedilatildeo entre duas variaacuteveis qualitativas o caminho natural eacutemontar uma tabela de contingecircncia Construir uma tabela de contingecircncia consiste emcolocar nas linhas os valores possiacuteveis de uma variaacutevel e nas colunas os valores possiacuteveis
cruzamentoO comando para fazer a tabela seria gttable(xy)Por exemplogt tab12=readtable(fSBPO2010Rtab1_2txt header = T sep = )gt attach(tab12)
gt table(CATEG Classe_IMC)Classe_IMC
CATEG normal sobrepesoA 18 4
Cap1-AED Relaccedilatildeo entre duas variaacuteveis Qualitativas
Para analisar a relaccedilatildeo entre 2 variaacuteveis atraveacutes de uma tabela de contingecircncia umprocedimento muito uacutetil eacute calcular os percentuais em relaccedilatildeo aos totais das linhas etambeacutem os percentuais em relaccedilatildeo aos totais das colunas Os comandos seriamproptab(x1) para linha e proptab(x2) para coluna Por exemplo usando a tabela 25paacutegina 46
gt mat= matrix(c(68154510 66214215 66242519 39161711)44byrow=T)gt rownames(mat)=c(18 a 21 anos22 a 25 anos26 a 30 anos31 a 40 anos)gt colnames(mat)=c(CinTeatSMDEx)gt mat1=proptable(mat 1) por linha tab 27gt mat2=proptable(mat 2) por coluna tab 28
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1761
Cap1-AED Relaccedilatildeo entre duas variaacuteveis QuantitativaQuando se deseja investigar a relaccedilatildeo entre duas variaacuteveis quantitativas o mais adequado eacutecomeccedilar pela construccedilatildeo de um Diagrama de Dispersatildeo Construir um diagrama de
dispersatildeo para 2 variaacuteveis quantitativas X e Y consiste em localizar pares de valoresobservados (xi yi ) como pontos em um sistema de eixos coordenados O camando seriaplot(xy)Por exemplogtx=c(12345) y=c(11224) plot(xy)
Um indicador do grau de interdependecircncia linear para 2 variaacuteveis quantitativas X e Y eacute ocoeficiente de correlaccedilatildeo rxy que pode assumir qualquer valor real entre -1 e 1 Ocoeficiente de correlaccedilatildeo entre X e Y eacute calculado por uma das duas expressotildees
matemaacuteticas (equivalentes) a seguir
O comando seria cor(xy) Por exemplogtx=c(12345) y=c(11224) cor(xy)
[1] 09036961
sum sum
sum
sumsum
sum
= =
=
=
=
sdotminussdotminus
sdotsdotminus
=
minussdotminus
minusminus
=n
1i
n
1i
1222
i
22
i
n
1i
ii
122
i
2
i
n
1i
n
1i
ii
xy
)yny)(xnx(
yxnyx
)y(y)xx(
)y)(yx(x
r
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1861
Cap1-AED Relaccedilatildeo entre duas variaacuteveis Quantitativa
bull Quando se verifica atraveacutes do coeficiente de correlaccedilatildeo (ou pelo aspecto visual doDiagrama de Dispersatildeo) que existe uma forte relaccedilatildeo linear entre 2 variaacuteveis X e Y
pode ser de interesse calcular a equaccedilatildeo da reta que representa esta relaccedilatildeo entre as2 variaacuteveis y = a + bx A equaccedilatildeo y = a + bx considera que y eacute a variaacutevel dependente(ou variaacutevel resposta) e que x eacute a variaacutevel independente (ou variaacutevel preditora) a serusada para explicar o comportamento da variaacutevel y A equaccedilatildeo da reta pode ser usadapara se antever qual seria o valor y0 da variaacutevel resposta y correspondente a umdeterminado valor x0 da variaacutevel preditora x
bull As foacutermulas que nos permitem calcular os valores de a e b a partir dos dados satildeo
yxn
n
i
n
i sumsum
O coeficiente b mede a inclinaccedilatildeo da reta de Regressatildeo Entatildeo ao passarmos de um pontoa outro sobre a reta b mede a relaccedilatildeo entre as variaccedilotildees de y e de x O coeficiente a medeo valor de y quando x eacute igual a zero ou seja eacute o intercepto da reta de Regressatildeo
O comando para calcular os coeficientes a e b seria gt lsprint(lsfit(xy))gtx=c(12345) y=c(11224)gtreg=lsfit(xy)gtlsprint(reg)
n
x
x
nyx
b2
n
1i
in
1i
2
i
1i
ii
minus
minus
=
sumsum =
=
=
==
x bya sdotminus=e
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1961
Cap 2-a Simulaccedilatildeo do conceito frequumlentistaConceito Frequumlentista de Probabilidade Suponha que o experimentofoi repetido n vezes sempre sob as mesmas condiccedilotildees e que o evento Aocorreu m vezes entre essas n realizaccedilotildees do experimento Entatildeoa fraccedilatildeo mn eacute uma boa aproximaccedilatildeo para a probabilidade de Ase o nuacutemero n de repeticcedilotildees for bastante grande
Simbolicamente P (A) congcongcongcong mn
Exemplo Simulando 100 lanccedilamentos de uma moedaNo R foram simulados 100 lanccedilamentos de uma moeda equilibrada isto eacute
onde as chances de cara e de coroa satildeo iguais Depois de cadalanccedilamento foi observado o nuacutemero acumulado de caras obtidas ateacute essemomen o e o ca cu a a a proporccedil o e caras correspon en e a a e a aseguir estatildeo apresentados os valores correspondentes ao nuacutemeroacumulado de caras ao longo do processo Por exemplo para a jogada denuacutemero 29 o nuacutemero acumulado de caras eacute 13 e a fraccedilatildeo de caras eacute 1329O graacutefico abaixo mostra a evoluccedilatildeo dessa fraccedilatildeo agrave medida que foramfeitos os 100 lanccedilamentos da moeda
Os comandos no R para a elaboraccedilatildeo do graacutefico
gtx=1100 y=cumsum(sample(01100rep=T))gtplot(xy1100 ylim=c(01) xlim=c(0100) pch=16)gtsegments(10510005)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2061
Cap 2-b Variaacuteveis Aleatoacuterias (va)Uma variaacutevel aleatoacuteria (va) eacute uma funccedilatildeo que associa cada elemento de um
espaccedilo amostral a um nuacutemero real As variaacuteveis aleatoacuterias podem ser do
tipo
Discreto se os seus valores pertencem a um conjunto enumeraacutevel de nuacutemerosreais (usualmente valores inteiros)
Contiacutenuo se os seus valores pertencem a um intervalo de nuacutemeros reais
O modelo probabiliacutestico de uma variaacutevel aleatoacuteria X estabelece o padratildeo de
comportamento de sua distribuiccedilatildeo de probabilidadeA fun atildeo de robabilidade de uma v a discreta X eacute definida orp(x)=P[X=x]
A funccedilatildeo de distribuiccedilatildeo acumulada F de uma v a X eacute definida porF(x) = P[Xlelelelex]
Se X eacute uma va discreta que assume os valores x 1
x 2
x 3
x N
entatildeo
bull A meacutedia ou esperanccedila de X eacuteE(X) = x 1 P(X=x 1 ) + x 2 P(X=x 2 ) + x 3 P(X=x 3 ) + + x N P(X=x N )
bull A Variacircncia de X eacute calculada por |Var(X)=(x 1 ndashE(X))2 P(X=x 1 )+(x 2 ndashE(X))2 P(X=x 2 )++(x N ndashE(X))2 P(X=x N )
bull O desvio padratildeo de X eacute igual agrave raiz quadrada natildeo negativa da suavariacircncia DP(X)= Var(X)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2161
Cap 2-b - va e o RO trabalho no R com uma va X estaacute baseado em 4 procedimentos
p probability ndash Gera a probabilidade de um valor de xq quantile ndash Gera o valor x de uma dada probabilidade acumulada pd density ndash Gera o valor da funccedilatildeo densidade num valor x da variaacutevel
Observar que quando a variaacutevel eacute discreta este valor eacute aprobabilidade de x quando a variaacutevel eacute contiacutenua o resultadoeacute a altura da funccedilatildeo densidade de probabilidade
r random ndash Gera n valores do modelo probabiliacutestico em questatildeo
As distribuiccedilotildees que estudaremos estatildeo listadas a seguir depois de cada uma delasentre parecircnteses estaacute o nome no R
(geom) Binomial negativa- Pascal (nbinom)
Entre as contiacutenuas Uniforme (unif ) Exponencial (exp) Normal (norm) t-student (t)quiquadrado (chisq) F (f )
A interligaccedilatildeo dos trecircs primeiros procedimentos pq e d seraacute ilustrada pela distribuiccedilatildeoNormal atraveacutes do graacutefico abaixo
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2261
Cap 2-b - va pnorm e qnormSeja a relaccedilatildeo p = P(Xltx) que aparece na tabela da distribuiccedilatildeo Normal Quiquadrada
t-student e F Para um dado valor de p acha-se um valor de x a procura direta que para aNormal no R corresponderia a pnorm(x 983221 σ) Neste caso devo informar o x e os dois
paracircmetros da distribuiccedilatildeo Normal 983221 e σJaacute a procura inversa seria para um dado valor de x achar um valor de p que para a Normalno R corresponderia a qnorm(p983221σ) Neste outro caso devo informar o valor de p desejado etambeacutem os dois paracircmetros da distribuiccedilatildeo Normal 983221 e σ
Exemplo Seja X a va que corresponde ao peso (em kg) de pessoas de uma certapopulaccedilatildeo com meacutedia 983221=70 Kg e desvio padratildeo σ=8 Kg assim X~ N(983221=70 σ2=82)
Se desejarmosa) P(Xlt80) usaremos no R o comando pnorm(80 70 8) isto eacute x=80 eacute o primeiro paracircmetroenquanto 70 e 8 satildeo paracircmetro especiacuteficos da distribuiccedilatildeo Normal
b) Admita que o peso limite para ser classificado como obeso eacute o valor que corresponde a10 dos mais pesados do populaccedilatildeo Achar este peso limiteO que se pede eacute a funccedilatildeo inversa Dado um valor de p=090 achar um valor de x que deixa90 abaixo dele No R seria qnorm(09 70 8) isto eacute o valor da probabilidade p=09 eacute
o primeiro paracircmetro enquanto 70 e 8 satildeo paracircmetros especiacuteficos da distribuiccedilatildeo NormalSe usarmos a Normal padratildeo z=(x-983221)σ no caso do item a o comando seria pnorm((80-70)8)ou pnorm(125) Repare que neste caso natildeo foi necessaacuterio passar os paracircmetros especiacuteficos daNormal pois 983221=0 e σ =1 coresponde ao default Observaccedilatildeo Sempre que usarmos um p oprimeiro paracircmetro eacute um x e os outros satildeo especiacuteficos da distribuiccedilatildeo em questatildeosempre que usarmos um q o primeiro paracircmetro eacute um p e os outros satildeo especiacuteficosSempre que usarmos um d o primeiro paracircmetro eacute um x
Quando usarmos uma distribuiccedilatildeo discreta o d corresponde aacute probabilidade no ponto x
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2361
Pag 118 ndash Figura 412
x=seq(010001)
plot(xdexp(x 12) type=l xlim=c(012) ylim=c(01) bty=l ylab=f(x) e F(x))
for(i in seq(0 25 001)) segments(i 0 i dexp(i12) col=lightgrey)
abline(v=0 h=0)
points(xdexp(x 12) type=l lwd=2 bty=l)
points(x pexp(x 12) lwd=2 type=l)
segments(250 25pexp(2512))
Cap 2-b - va dexp pexp points segments
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2461
Cap 2-b - va disponiacuteveis no Rrbinom(n size prob) binomialrpois(n lambda) Poissonrgeom(n prob) geometricarhyper(nn m n k) hipergeometricarnbinom(n size prob) binomial negativarunif(n min=0 max=1) uniformerexp(n rate=1) exponentialrnorm(n mean=0 sd=1) Gaussiana (normal)rt(n df) lsquoStudentrsquo (t )rf(n df1 df2) FisherndashSnedecor (F )
rchisq(n df) Quiquadradar amma n sha e scale=1 amma rbeta(n shape1 shape2) betarlnorm(n meanlog=0 sdlog=1) lognormalrcauchy(n location=0 scale=1) Cauchyrweibull(n shape scale=1) Weibullrwilcox(nn m n) Wilcoxonrsquos rank sum statistics
rsignrank(nn n) Wilcoxonrsquos signed rank statisticsrlogis(n location=0 scale=1) logistic
Todas essas distribuiccedilotildees apresentadas por rnome (nome da variaacutevel aleatoacuteria) como vimostrocando a primeira letra e mantendo os paracircmetros especiacuteficos de cada distribuiccedilatildeo(denotados por ) podem ser usadas substituindo a letra ldquor rdquo por
d valor da densidade de probabilidade no ponto x dnome (x )p probabilidade acumulada no ponto x pnome (x )
q quantil correspondente a probabilidade acumulada p dnome (p)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2561
Cap 2-c O Teorema Central do Limite (TCL)O Teorema Central do Limite (abreviadamente TCL) diz respeito ao comportamento da
meacutedia amostral agrave medida que o tamanho n da amostra cresce indefinidamente
Exemplo 31 ndash A distribuiccedilatildeo de renda e o TCLEacute um fato conhecido que a distribuiccedilatildeo da rendapessoal dos habitantes de um paiacutes eacuteusualmente muito desigual ou seja muitosganham pouco e poucos ganham muito Seforem sorteados 200 habitantes desse paiacutes e
com base nas suas rendas mensais
Agora se forem sorteadas 200 amostrascada uma delas contendo 2 habitantesdesse paiacutes e se forem calculadas as 200respectivas meacutedias amostrais a partir delas obteremos o histograma a seguir
Agora cada uma das 200 amostrassorteadas contendo 30 habitantes dessepaiacutes e se forem calculadas as 200 meacutediasamostrais o histograma seria
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2661
Cap 2-c ndash TCL ExemploComo pode ser observado no caso de n = 2 o histograma se aproxima mais de uma curvaNormal do que no caso de n = 1 E no caso de n = 30 a semelhanccedila do histograma com umacurva Normal eacute ainda maior
O Teorema Central do Limite afirma que independentemente de qual seja a
distribuiccedilatildeo original dos Xirsquos a distribuiccedilatildeo de probabilidade de e a
distribuiccedilatildeo Normal com meacutedia micromicromicromicro e variacircncia σσσσ2 n se aproximam cada vez
mais uma da outra agrave medida que n cresce
Portanto mesmo que a distribuiccedilatildeo de probabilidade dos Xirsquos seja desconhecida o Teorema
X n
Central do Limite garante a possibilidade de usarmos o modelo Normal para calcular ainda quede forma aproximada probabilidades relativas agrave meacutedia amostral desde que n sejasuficientemente grande
Exemplo 62 Simulando o efeito do TCL
Para ilustrar o funcionamento do Teorema Central do Limite vamos exibir agora um exemploem que a distribuiccedilatildeo original a partir da qual os dados satildeo gerados eacute uma exponencial modelo
este que daacute origem a uma funccedilatildeo densidade bastante assimeacutetrica (ao contraacuterio do que ocorre
com a curva Normal) A densidade de uma exponencial com paracircmetro eacute dada pela
expressatildeo
No R rexp(n ) simula n valores
λ
0 xλef(x) λx ge= minusλ
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2761
Cap 2-c ndash TCL ExemploA densidade de uma exponencial com paracircmetro eacute dada pela expressatildeo
Gerando dados por simulaccedilatildeo a partir de uma exponencial com λ = 13 para cada um dos
seguintes tamanhos n de amostra 1 2 3 4 5 10 15 e 201 Obtivemos 200 valores da meacutedia amostral 2 Utilizamos esses 200 valores para construir um histograma3 Traccedilamos no mesmo graacutefico uma curva da densidade Normal com E( )=3 e DP( )=3Xn
λ 0 xλef(x) λx ge= minus
Xn n
Os 8 histogramas nos mostram que agrave medida que o tamanho n da amostra cresce
a forma do histograma se aproxima cada vez mais de uma curva Normal
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2861
Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com
simulaccedilotildees - Exponencial
tclexp=function(n N=200 titulo= yl=c(0 4)) iniacutecio da funccedilatildeo ndash tclexpmedias=numeric(N)
for (i in 1N) medias[i]= mean(rexp(n13))
hist(medias xlim=c(-110) ylim=yl freq=F main=titulo)
x=seq(-110 02)
points(x dnorm(x 3 3sqrt(1n) ) type=l lwd=3)
fim da funccedilatildeo
graphicsoff()
par(mfrow=c(33) mai=c(3411))
tclexp(1titulo=n=1)
tclexp(2titulo=n=2)
tclexp(3titulo=n=3)
tclexp(4titulo=n=4)
tclexp(5titulo=n=5)
tclexp(6titulo=n=6)
tclexp(10titulo=n=10yl=c(06))
tclexp(15titulo=n=15yl=c(06))
tclexp(20titulo=n=20yl=c(06))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2961
Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com
simulaccedilotildees - Exponencial
Uma pergunta natural neste ponto serialdquoQuatildeo grande deve ser n para que possamos usar a aproximaccedilatildeo fornecida pelo
TCL com um niacutevel de precisatildeo aceitaacutevelrdquo
A rapidez com que essa convergecircncia se daacute depende de quatildeo distante estaacute a forma
da distribuiccedilatildeo original das Xirsquos de uma curva Normal Em outras palavras se a
distribuiccedilatildeo das Xirsquos jaacute natildeo for muito diferente de uma Normal com um n natildeo muito-
grande (usualmente n ge 30) a aproximaccedilatildeo da distribuiccedilatildeo de por uma Normal
funcionaria adequadamente
No exemplo a seguir vamos apresentar esse fenocircmeno a saber a convergecircncia da
distribuiccedilatildeo de para uma Normal agrave medida que n cresce gerando por simulaccedilatildeo osdados originais a partir de diferentes modelos probabiliacutesticos Em todos os casos a
distribuiccedilatildeo original eacute bem diferente da Normal E(X)=3 e DP(X)=3 No que se refere agrave
Simulaccedilatildeo foi seguida a mesma sequumlecircncia de passos do exemplo anterior
Xn
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3061
Cap 2-c ndash TCL Exemplo
Exponencial
Uniforme
Mistura deNormais
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3161
Como se pode observar
1 No caso da distribuiccedilatildeo uniforme (A) o histograma de jaacute se aproximabastante de uma Normal quando n eacute da ordem de 4
2 Jaacute no caso da distribuiccedilatildeo Exponencial (B) e da mistura de normais
(C) modelos esses que se afastam muito mais de umldquo rdquo
Cap 2-c ndash TCL Exemplo
mostra mais adequada a partir de n em torno de 10
3 No caso do modelo em (C) agrave medida que n cresce tudo se passacomo se houvesse a ldquoerupccedilatildeo de um vulcatildeo dentro do valerdquo
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3261
tclunif=function(nN=100titulo= yl=c(0 4))
medias=numeric(N)for (i in 1N) medias[i]= mean(runif(n 3-3sqrt(3) 3+3sqrt(3)))
hist(medias xlim=c(-610) ylim=yl freq=F main=titulo)
x=seq(-610 02)
points(x dnorm(x 3 3sqrt(1n) ) type=l lwd=3)
medias
Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com
as simulaccedilotildees - Uniforme
grap cso
par(mfrow=c(33) mai=c(3411))
tclunif(1titulo=n=1yl=c(06))
tclunif(2titulo=n=2yl=c(06))
tclunif(3titulo=n=3yl=c(06))
tclunif(4titulo=n=4yl=c(06))tclunif(5titulo=n=5yl=c(06))
tclunif(6titulo=n=6yl=c(06))
tclunif(10titulo=n=10yl=c(06))
tclunif(15titulo=n=15yl=c(06))
tclunif(20titulo=n=20yl=c(06))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3361
X2=c(rnorm(35011) rnorm(15081)) X2 eacute a Populaccedilatildeo de onde retiramos as amostras
br=seq(-2 12 5)
tcl2modas=function(nN=200titulo= yl=c(0 6)) medias=numeric(N)for (i in 1N) medias[i]= mean(sample(X2nrep=T))hist(mediasbreaks=br xlim=c(-212) tcl=-01 ylim=yl xarp=c(-31216)
tck=005 lab=c(5515) freq=F main=titulo)x=seq(-312 02)
Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com
as simulaccedilotildees - Mistura de Normais
points(x dnorm(x med dpsqrt(n) ) type=l lwd=2)
par(mfrow=c(24) mai=c(3011) mar=c(2 2 2 1))
hist(X2 freq=F breaks=seq(-3125) bty=o xlim=c(-212)xarp=c(-31216)tck=005 lab=c(5515) ylim=c(06) main=POPULACcedilAtildeO lwd=2)
tcl2modas(2titulo=n=2)tcl2modas(3titulo=n=3)
tcl2modas(4titulo=n=4)
tcl2modas(5titulo=n=5)
tcl2modas(10titulo=n=10)
tcl2modas(15titulo=n=15)
tcl2modas(25titulo=n=25)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3461
CAP 3-a) Intervalo de ConfianccedilaSeja um estimador pontual do paracircmetro eacute uma variaacutevel aleatoacuteria que varia deamostra para amostra Por isso haacute uma certa dose de incerteza inerente a esse processode estimaccedilatildeo Nosso objetivo agora eacute obter com base nos dados amostrais (da uacutenicaamostra observada) um intervalo ao qual o valor correto do paracircmetro deve ter grandechance de pertencer
bull Detalhando um pouco mais No processo de estimaccedilatildeo por intervalo de um paracircmetro θdevemos determinar um intervalo que contenha o verdadeiro valor do paracircmetro comprobabilidade 1-α onde α eacute um pequeno valor preacute-fixado Este intervalo eacute construiacutedo emgeral em torno do estimador pontual considerando uma margem de erro d de forma aque uma vez fixada a probabilidade 1-α calculemos d tal que P( - d le θ le + d ) = 1 -αChama-se intervalo de confianccedila para θ ao niacutevel 1 - α ao intervalo [ - d + d]
θ $θ
$θ$θ
$θ $θ
$
θ
bull Ou seja o estimador pontual eacute o centro do Intervalo de Confianccedila e o erro absoluto dassociado a define a amplitude desse intervalo O que eacute de fato variaacutevel aleatoacuteria satildeoos extremos do intervalo O paracircmetro tem valor desconhecido natildeo aleatoacuterio (fixo a ser estimado)
Exemplo Intervalo de Confianccedila para a meacutedia populacional com o desvio padratildeo conhecidoO paracircmetro a estimar eacute a meacutedia populacional micro A estimaccedilatildeo seraacute baseada em X1 X2 Xn
uma amostra aleatoacuteria com E(Xi) = micro e var(Xi) = σ2 para todo i = 12 n Queremos que seja
vaacutelida a expressatildeo o que equivale a P [ -d le -micro le d] = 1-α
$θ
X[ ] α1dmicroXP minus=leminus
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3561
bull Lembrando que para n suficientemente grande pelo Teorema Central do Limite a meacutediaamostral segue uma distribuiccedilatildeo que se aproxima da Normal(micromicromicromicro σσσσ2 n) (ou eacute exatamente aNormal(micromicromicromicro σσσσ2 n) no caso em que a distribuiccedilatildeo comum das va Xirsquos jaacute eacute Normal) entatildeo
P [-d le -micromicromicromicro le d] = 1-α rArr 1-α = P [ |Z| le ] Logo d =
bull Faremos uma simulaccedilatildeo para a construccedilatildeo de Intervalos de Confianccedila com 100 amostras dedois tipos de populaccedilatildeo Normal e Exponencial A lista de comandos do R que usamos eacute
ICN = function (N n mu sigma = 3 conf)
plot(0 0 type=n xlim=c(010) ylim=c(0N) bty=l
xlab=Normal ylab=amostras)abline(v=mu)
CAP 3-a) Intervalo de Confianccedila
X
nσ
d
minus
z0 = qnorm(1-((1-conf)2))
sigmaxbarra = sigmasqrt(n)
for (i in 1N)
x = rnorm(n mu sigma)
media = mean(x)
li = media - z0 sigmaxbarrals = media + z0 sigmaxbarra
plotx = c(lils)
ploty = c(ii)
if (li gt mu | ls lt mu) lines(plotxploty col=red)
else lines(plotxploty)
gt ICN(100 25 3 3 95)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3661
CAP 3-a) Intervalo de Confianccedila
ICexp = function (N n lambda conf)
mu=1lambda sigma=1lambda
plot(0 0 type=n xlim=c(010) ylim=c(0N) bty=lxlab=Exponencial ylab=amostras)
abline(v= mu)
z0 = qnorm(1-((1-conf)2))
sigmaxbarra = sigmasqrt(n)
for (i in 1N)
x = rexp(nlambda) me a = mean x
li = media - z0 sigmaxbarra
ls = media + z0 sigmaxbarra
plotx = c(lils)
ploty = c(ii)
if (li gt mu | ls lt mu) lines(plotx ploty col=red)
else lines(plotx ploty)
gt ICexp(100 25 13 95)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3761
CAP 3-b Teste de Hipoacuteteses (TH)O objetivo de um teste de hipoacutetese eacute avaliar a validade de uma afirmaccedilatildeo sobre determinada
caracteriacutestica da populaccedilatildeo usando para isso os dados de uma amostra Essa caracteriacutestica eacute
representada pela va contiacutenua X cujo comportamento probabiliacutestico eacute expresso pela funccedilatildeo dedensidade f com paracircmetro Ө que tem valor desconhecido
Em um teste existem duas hipoacuteteses envolvidas H0 denominada hipoacutetese nula e H1
denominada hipoacutetese alternativa O procedimento de teste de hipoacutetese consiste em estabelecer
um criteacuterio de decisatildeo que leve a Aceitar ou Rejeitar H0 com base nos valores amostrais
A Estatiacutestica de teste eacute uma funccedilatildeo da amostra aleatoacuteria utilizada para definir o criteacuterio de
decisatildeo Estabelecer o criteacuterio de decisatildeo consiste em dividir o conjunto dos valores possiacuteveis
da estatiacutestica de teste em duas partes denominadas Regiatildeo de Aceitaccedilatildeo A e Regiatildeo de
Rejeiccedilatildeo R da hipoacutetese nula
Em um teste de hipoacutetese haacute dois tipos possiacuteveis de erro de decisatildeo
Erro I - Rejeitar H0 quando H0 eacute verdadeira
Erro II - Aceitar H0 quando H0 eacute falsaAs probabilidades de ocorrecircncia dos erros satildeo α = P [ Erro I ] e β = P [ Erro II]
A probabilidade de erro I α eacute o niacutevel de significacircncia do teste cujo valor eacute arbitrado pelo
pesquisador deve ser pequena pois corresponde a probabilidade de um erro (005 ou 001)
O niacutevel criacutetico ou p-valor do teste eacute o menor valor de α para o qual ainda rejeitariacuteamos H0 de
acordo com os dados observados
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3861
CAP 3-b) ndash TH teste tttest(x y = NULL alternative = c(twosided less greater) mu = 0
paired = FALSE varequal = FALSE conflevel = 095 )
Procedimentos de teste de hipoacuteteses com niacutevel de significacircncia α e amostras de tamanho n
UmaAmostra
DuasAmostras
Obs Os testes acima satildeo bilaterais
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3961
CAP 3ndashb) TH exemplo de teste t ndash amostras independentespag233- teste t amostras independente - comparaccedilatildeo log(salaacuterio)
entre os grupos de comeacutercio e de serviccedilo
LogSal=c(1289156912501344145616361573171309060903
0977122011031069128714101496131113371366
1227119114591280115217401649176524101701
1538192419251721154918911534163812071682
120614232010143112651570)
Sal=exp(LogSal)
setor= c(rep(C23) rep(S23))
ttest(Sal[setor==C] Sal[setor==S] varequal=T)
Two Sample t-test
data Sal[setor == C] and Sal[setor == S]
t = -36822 df = 44 p-value = 00006289
alternative hypothesis true difference in means is not equal to 095 percent confidence interval
-23079005 -06751838
sample estimates
mean of x mean of y3786010 5277552
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4061
CAP 3ndashb) TH exemplo de teste t ndash amostra pareadapag237- teste t pareado
P1=c(6315596455545480598065203660986853
8765647785536980827184605572645564)
P2=c(3638306043466455604343523428837155
8238556767443459605968506254473652)
ttest(P1 P2 alt=greater paired = T)
Paired t-test
data P1 and P2
t = 44176 df = 33 p-value = 5072e-05
alternative hypothesis true difference in means is greater than 0
95 percent confidence interval
0716695 Inf
sample estimates
mean of the differences
1161765
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4161
CAP 3ndashb) TH exemplo de teste Quiquadrado chisqtest
pag233- teste Quiquadrado -
tcont=matrix(c(683585251530258 7461761220225) 72)
chisqtest(tcont)
Pearsons Chi-squared test
data tcont- = = - lt -
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4261
CAP 3ndashb) TH exemplo de teste Quiquadrado chisqtestaov(formula data = NULL )
pag244- ANOVA - Comparaccedilatildeo de trecircs raccedilotildees para suinos
A=c(444943514475425134305342453630
322133421040395246294247453959)
B=c(343640545953445432686954414647
6566455739)
C=c(574040364566395025212927283942
21304143294244582849)
aumentoP=c(ABC)
racao=c(rep(A30)rep(B20) rep(C25))
summaryaov(aov(aumentoP ~ racao))
Df Sum Sq Mean Sq F value Pr(gtF)racao 2 15385 7693 56136 0005425
Residuals 72 98666 1370
---
Signif codes 0 lsquorsquo 0001 lsquorsquo 001 lsquorsquo 005 lsquorsquo 01 lsquo rsquo 1
Warning message
In modelmatrixdefault(mt mf contrasts)
variable racao converted to a factor
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4361
ApecircndicesA-1) Apresentaremos aqui algumas figuras
feitas no R na elaboraccedilatildeo do livro
Achamos que o exame desses coacutedigos acompanhado dos resultados podeser um bom aprendizado um exerciacutecio ou talvez uma recordaccedilatildeo do materialaqui exposto
A-2) Resumo de comandosa) Criaccedilatildeo de dados
b) Informaccedilatildeo de uma Variaacutevel
c) Seleccedilatildeo de dados e manipulaccedilatildeo
d) Estatiacutesticas e operaccedilotildees matemaacuteticas
e) Corte e extraccedilatildeo de dados
f) Operaccedilatildeo com Matrizes
g) Graacuteficos (Plotting)
h) Teste de hipoacuteteses
i) Programming
j) Commandos auxiliaries em Graacuteficos
k) Comando par (Graphical parameters)
l) Input and output
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4461
A1) ndash Pag 14 ndash Figura 15
IDADE=c(616961716371726866697267636663636067716360696463667164706366646969646372736871726968687379)
IMC= c(245273281301254301280234268228255228235232203226239243271227237258213243243248219234216214221227227211268278275267286253239258247284235)
par(mfrow=c(12))hist(IDADE breaks=c(6065707580) ylim=c(020) ylab=Nuacutemero de Observaccedilotildees
main= col=grey right = F)hist(IMC breaks=c(200225250275300325)
ylab=Nuacutemero de Observaccedilotildeesmain= col=grey right = F )
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4561
A1) ndash Pag 44 ndash Figura 21
mat=matrix(c(81823913601818608740)32)
rownames(mat)=c(AtivaSedentaacuteriaTotal)colnames(mat)=c(NormalSobrepeso)barplot(t(mat) beside = TRUE space=c(315)
col=gray(c(79))legend = c(NormalSobrepeso) ylim = c(0 95) ylab= - percentagem)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4661
A1) ndash Pag 48 ndash Figura 22
mat= matrix(c(68154510 66214215 66242519 39161711)44byrow=T)
rownames(mat)=c(18 a 21 anos 22 a 25 anos 26 a 30 anos 31 a 40 anos)colnames(mat)=c(CinTeatSMDEx)mat1=mat for (i in 14) mat1[i]lt-mat1[i]100sum(mat1[i]) par(mfrow=c(12) mai=c(1111) mar=c(5 4 2 2) )barplot(matbeside=F ylim=c(0250) legend = c(18 a 21 anos 22 a 25 anos
26 a 30 anos 31 a 40 anos) xlab=Contagem)
barplot(mat1 beside=F xlab=Percentagem)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4761
A1) ndash Pag 52 ndash Figura 25X= c(184114821789235159118762592403190408372147328526471687
09642871437079238215753399242122530314859149806)y =c(01837012540193301620014230140604568022870231400861019960235302186012798991801254018210244160823
0147764068011818941403474539680150133247023685518102146187520214097090257291227
036282905401406510810113849399)plot(x y xlim=c(07) ylim=c(05) pch=16 bty=l xlab=Renda per capita
ylab=Telefonia Fixa per capita)
abline(lsfit(xy))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4861
A1) ndash Pag 109 ndash Figura 45
x=020
y1=dpois(x1) y2=dpois(x3) y3=dpois(x10)names(y1)=x names(y2)=x names(y3)=xpar(mfrow=c(13))plot(y1ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=1)plot(y2ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=3)plot(y3ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=10)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4961
A1) ndash Pag 118 ndash Figura 412
x=seq(010001)
plot(xdexp(x 12) type=l xlim=c(012) ylim=c(01) bty=l ylab=f(x) eF(x))for(i in seq(0 25 001)) segments(i 0 i dexp(i12) col=lightgrey)abline(v=0 h=0)points(xdexp(x 12) type=l lwd=2 bty=l)points(xpexp(x 12) lwd=2 type=l)segments(250 25pexp(2512))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5061
A1) ndash Pag 163 ndash Figura 68
plot(p xlim=c(618) ylim=c(016) type=n bty=l xaxt=n xlab= ylab=
cexaxis=6)for (i in 1015) rect(i-50 i+5 dbinom(i304) col=lightgrey) lty=2)segments(i0idbinom(i304) lty=2)
x=seq(61801) lines(x dnorm(x12sqrt(72)) lwd=2)x=seq(61801) lines(x dnorm(x12sqrt(72)) lwd=2)
axis(1 916 cexaxis=9) ax s seq cexax s=
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5161
A1) ndash Pag 198 ndash Figura 78
x1=seq(-4402)plot(x1dnorm(x1) type=l lwd=3 xlab= ylab= )lines(x1 dt(x11)) lines(x1 dt(x12)) lines(x1 dt(x15))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5261
A2ndashResumo de comandos
a)Criaccedilatildeo de dados
c()funccedilatildeo geneacuterica para combinar argumentos com o formando de um vetor fromto gera uma sequecircnce ldquordquo tem prioridade de operator pe13 + 1 is ldquo234rdquo
seq(fromtoby) gera uma sequecircncia by= especifica incremento
length= especifica um comprimento desejado
rep(xtimes) replicate x onuacutemero times de vezes use each= para repetir cada
elemento de x rep(c(123)2) gera 1 2 3 1 2 3 rep(c(12)each=2) gera 1 1 2 2
matrix(xnrow=ncol=) matrix elementos de x se reciclam caso x
rbind()combina vetores em linhas num estrutura de matrizes de dados
cbind()combina vetores em colunas num estrutura de matrizes de dados
array(xdim=) matriz com dados x especificar dimensotildees como dim=c(342)
elementos de x se reciclam caso x natildeo seja suficientemente grande
factor(xlevels=) codifica um vetor x como um fator gl(nklength=nklabels=1n) gerar niacuteveis (fatores) especificando
o padratildeo de seus niacuteveis k eacute o nuacutemero de niacuteveis e n eacute o nuacutemero de repeticcedilotildees
dataframe() criar um banco de dados Por exemplo
dataframe(v=14ch=c(gBcasad)n=5)
list()criar uma lista de argumentos Por exemplo list(a=c(12)b=hic=3i)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5361
A2ndashResumo de comandos
b) Informaccedilatildeo de uma Variaacutevellength(x) nuacutemero de elementos em x
dim(x) Obter ou definir a dimensatildeo de um objeto dim (x) = c(32)dimnames(x) Obter ou definir os nomes das dimensotildees de um objeto
nrow(x) nuacutemero de linhas
ncol(x) nuacutemero de colunas
c) Seleccedilatildeo de dados e manipulaccedilatildeochoose(n k) calcula a combinaccedilatildeo de elementos escolhidos entre n
resultando n [(n-k) k]
cut(xbreaks) divide x em intervalos (fatores) breaks eacute o nuacutemero de intervalos de
corte ou um vetor com os valores especiacuteficos
table(x) retorna uma tabela com as quantidades dos diferentes valores de x
(tipicamente para variaacuteveis dos tipos inteiros ou fatores)
sample(x size) retira aleatoriamente com e sem reposiccedilatildeo elementos detamanho SIZE do vetor x a opccedilatildeo replace = TRUE permite a retirada com reposiccedilatildeo
proptable(xmargin=) transforma a tabela como tabela de propoccedilatildeo
marginal margin=1 (com relaccedilatildeo as linhas) margin=2 (com relaccedilatildeo as colunas)
sort(x) Classifica os elementos de x em ordem crescente para classificar em ordem
decrescente rev(sort(x))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5461
A2ndashResumo de comandosd) Estatiacutesticas e operaccedilotildees matemaacuteticasmean(x) media dos elementos de x
median(x) mediana dos elementos de x
quantile(xprobs=) quantis de x correspondendo a uma dada probabilidadevar(x) ou cov(x) variacircncia dos elementos de x (calculado com n-1)
se x eacute uma matriz a matriz de covariacircncia eacute calculada
sd(x) desvio padracirco de of x
cor(x) matriz de correlaccedilatildeo de x se x for uma matriz ou (1 se x eacute um vector)
cor(x y) correlaccedilatildeo linear entre X e Y ou matriz de correlaccedilatildeo se eles satildeo matrizes
round(x n) arredonda os elementos de x para n casas decimais sum x soma os e emen os e x
prod(x) multilica os elementos de x
max(x) acha o maacuteximo dos elementos de x
min(x) acha o miacutenimo dos elementos de x
range(x) equivalente a c(min(x)max(x)
cumsum(x) um vetor onde o eacutesimo elemento eacute a soma de x[1] ateacute x[i]cumprod(x) um vetor onde o eacutesimo elemento eacute o produto de x[1] ateacute x[i]
cummin(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
cummax(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
sincostanasinacosatanatan2loglog10exp)
log(x base) calcula o logaritmo de x na base=base
weightedmean(x w) media ponderada de x com peso= w
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5561
A2ndashResumo de comandos
e) Corte e extraccedilatildeo de dadosindexaccedilatildeo de Vetores
x[n] n-eacutesimo elemento do vetor
x[-n] todos menos o n-eacutesimo elemento
x[1n] os primeiros n elemento
x[-(1n)] elementos de n+1 ateacute o final
x[c(432)] elementos especificados
x[y gt 5] todo elementos de onde os valores de y satildeo maiores que 5
x x gt 3 amp x lt 5 todo elementos entre 3 e 5
x[nome] elemento denominado nome
indexaccedilatildeo de Matrizes
x[ij] elemento na linha i coluna j
x[i] linha i
x[j] coluna j
x[c(13)] colunas 1 and 3
x[nome] linha nomeada nome
indexaccedilatildeo de data frames
x[[nome]] coluna chamada nome
x$nome equivalente a coluna chamada nome
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5661
A2ndashResumo de comandos
f) Operaccedilatildeo com Matrizest(x) transposta da matrix x
diag(x) retira a diagonal da matrix x
multiplicaccedilatildeo matricial
solve(ab) resove a equaccedilatildeo a x = b em relaccedilatildeo a x
solve(a) matriz inversa de a
rowSum(x) soma das linhas da matrix x
colSum(x) soma das colunas da matrix x
rowMeans x meacutedia das linhas da matrix x
colMeans(x) id meacutedia das colunas da matrix x
g) Graacuteficos (Plotting)plot(x y) diagrama de disperccedilatildeo plot dos pares (xy) num sistema de eixos
coordenadoshist(x) histogram dasfrequecircncias of x
barplot(x) graacutefico de barras of x usar horiz=T ara barras horizontal
pie(x) graacutefico de setores (pie-chart)
boxplot(x)
qqnorm(x) quantis de x em relaccedilatildeo aos valores esperados de uma dist Normal
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5761
A2ndashResumo de comandosparametros dos commando de Graacutefico
type=p especifica o tipo de plot p pontos l linhas b pontos
ligados por linhas o idecircntico mas as linhas passam sobre os pontos h
linhas verticais s escada (steps) os dados satildeo representados pelas alturasverticais
xlim= ylim= especifica os limites inferiores e superiores dos eixos por exemplocom xlim=c(1 10) ou xlim=range(x)
xlab= ylab= nomeia os eixos o nome deve ser do tipo caracter
main= tiacutetulo principal deve ser do tipo caracter
sub= sub-tiacutetulo (escrito em fonte menor)
podem ser usados como bty(tipo de caixa) lwd (lagura da linha) lty (tipo delinha) pch(tipo de ponto) cex xaxs yaxs xaxtyaxt
h) Teste de hipoacuteteses
ttest()proptest()
chisqtest()
aov(formula) analysis of variance model
anova(fit) analysis of variance (or deviance) tables for one or more
fitted model objects
Use o commando gt test para procurar todos os testes disponiacuteveis
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5861
A2ndashResumo de comandos
i) Programmingfunction( arglist ) expr para definer uma funccedilatildeo
return(value)
if(cond) expr
if(cond) consexpr else altexpr
for(var in seq) expr
while(cond) expr
re eat ex r
break
Usar chaves entre commandos dlimitando o iniacutecio e o fim de um grupo decomandos
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5961
A2ndashResumo de comandos
j) Commandos auxiliaries em Graacuteficospoints(x y) adiciona pontos (a opccedilatildeo type= pode ser usada)
lines(x y) adiciona linhas (a opccedilatildeo type= pode ser usada)text(x y labels ) adiciona texto na coordenada (xy) um uso tiacutepico eacute
plot(x y type=n) text(x ynames)
segments(x0 y0 x1 y1) desenha linhas do ponto (x0 y0) ao (x1 y1)
arrows(x0 y0 x1 y1 angle= 30 code=2) desenha seta do ponto
(x0 y0) ao (x1 y1)
abline(ab) desenha uma reta de inclinaccedilatildeo b e intercepto a
abline(v=x) desenha uma reta vertical em x
abline(lsfit(xy)) desenha uma reta da regressatildeo feita em lsfit(xy)
rect(x1 y1 x2 y2) desenha um retacircngulo que a esquerda inferior tem coordenadas(x1 y1) e o limite da direita superiores (x2 y2)
polygon(x y) desenha um poliacutegono que une os pontos com coordenadas X e Y
legend(x y legend) Acrescenta a lenda no ponto (x y) com os siacutembolos
dada pela legend
title()adiciona um tiacutetulo e opcionalmente um sub-tiacutetulo
axis(side) acrescenta um eixo na parte inferior (side = 1) agrave esquerda (2) na partesuperior (3) ou agrave direita (4)
box()desenhar uma caixa em torno do plot
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6061
A2ndashResumo de comandos
k) Comando par (Graphical parameters)Todos estes comando podem ser definidos a niacutevel global com o par () que
especifica os paracircmetros mas tambeacutem muitos podem ser usados comoparametros dos commando de Graacutefico
mfcol vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em colunas
mfrow vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em linhas(matrix for row)
bty controla o tipo de caixa desenhada ao redor do enredo valores permitidos satildeo
o l 7 c u ou se bt =n a caixa natildeo eacute desenhada
lty controla o tipo de linhas pode ser um inteiro ou string (1 solid 2 dashed 3dotted 4 dotdash 5 longdash 6twodash) ou uma string de ateacuteoito caracteres (entre 0 e 9) que especifica o comprimento em pontos oupixels dos elementos desenhados e os espaccedilos em branco por exemplolty=rdquo44rdquo equivale a lty=2
lwd nuacutemero que controla a largura das linhas default 1pch controla o tipo de siacutembolo pode tambeacutem ser um nuacutemero inteiro entre 1 e 25
ps um inteiro que controla o tamanho em pontos de textos e siacutembolos
pty um caracter que especifica o tipo da regiatildeo s quadrado m maacuteximal
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6161
A2ndashResumo de comandos
l) Input and outputreadtable(file) lecirc um arquivo em formato de tabela e cria um quadro de dados a
partir dele o separador default = eacute espaccedilo em branco header = TRUE ler a
primeira linha como um cabeccedilalho de nomes de coluna asis = TRUE paraevitar aque um vetore de caracteres seja convertido em factores usocommentchar = para evitar seja interpretado como um comentaacuteriouso skip = n para pular n linhas antes da leitura de dados consulte a ajudapara as opccedilotildees de linha de nomeaccedilatildeo o tratamento NA e outros
readcsv(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por viacutergulas
readdelim(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por tabulaccedilotildees
readfwf(filewidthsheader=FALSEsep= asis=FALSE)
ler uma tabela de dados em formato fix de largura m para um dataframe widthseacute um vetor inteiro informando os tamanhos dos campos
sink(file) saiacuteda de todos os comandos para um arquivo ateacute aparecer um comando
sink () que desliga writetable(x file=rownames=Tcolnames=Tsep= ) imprime x apoacutes a
conversatildeo para banco de dados
save(file) guarda os objetos especificados () no formato XDR
load()carregar o conjunto de dados salvos com o comando save
data(x) carrega um conjunto de dados especificado
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 261
Porque do minicurso
bull A Estatiacutestica eacute uma ferramenta importante para se obterinformaccedilatildeo de uma massa de dados
bull O R eacute um pacote que oferece vaacuterias funccedilotildees jaacuteimplementadas dos mais variados meacutetodos estatiacutesticos
Aleacutem disso eacute tambeacutem um ambiente de programaccedilatildeoonde se ode usar o ue de bom ele aacute contem ara sedesenvolver novas implementaccedilotildees
bull Ambos a Pesquisa Operacional e o processo dedesenvolvimento de novos aplicativos em Estatiacutesticapodem se beneficiar dessa interaccedilatildeo
bull O que propomos eacute discutir as aplicaccedilotildees no R dosmeacutetodos baacutesicos de anaacutelise estatiacutestica
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 361
1) Cap 1 Anaacutelise Exploratoacuteria de DadosNo que se refere a medidas univariadas examinaremos estatiacutesticas de tendecircncia central localidade edispersatildeo (no R mean median var fivenum summary e quantile) graacuteficos de distribuiccedilotildees (no R barplot
pie hist stem e boxplot) Quanto agraves medidas bivariadas examinaremos a interdependecircncia atraveacutes dacovariacircncia correlaccedilatildeo graacutefico de dispersatildeo e tabelas de contigecircncias ( no R var cor plot table) Seraacutetambeacutem feita uma introduccedilatildeo agrave regressatildeo linear e ao meacutetodo de miacutenimos quadrados (no R lsfit e lsprint)
2) Cap 2-a Simulaccedilatildeo do conceito frequumlentista de probabilidadeMeacutetodo de Monte Carlo Atraveacutes de exemplos de jogos ldquocalcularemosrdquo probabilidades via simulaccedilatildeoexaminando a estabilidade da aproximaccedilatildeo
3) Cap 2-b Variaacuteveis Aleatoacuterias
Examinaremos no R os modelos probabiliacutesticos mais comuns de variaacuteveis aleatoacuterias discretas BinomialHipergeomeacutetrica Poisson e variaacuteveis aleatoacuterias contiacutenuas exponencial uniforme Normal e suasderivadas t-Student Qui-quadrada e F No R veremos o efeito da primeira letra a ser usada nos comandos
Assuntos abordados no minicurso
relativos aos modelos probabiliacutesticos ( p-probability d-density q-quantile e r-random)
4) Cap 2-c Simulaccedilatildeo e o Teorema Central do LimiteAtraveacutes de simulaccedilatildeo seraacute estudado o Teorema Central do Limite O efeito do tamanho amostral e dapopulaccedilatildeo de onde a amostra eacute extraiacuteda na aproximaccedilatildeo da distribuiccedilatildeo da meacutedia amostral de x peladistribuiccedilatildeo Normal
5) Cap 3-a Intervalo de confianccedilaSeratildeo feitas simulaccedilotildees para o entendimento do conceito de intervalo de confianccedila atraveacutes da geraccedilatildeopor simulaccedilatildeo de vaacuterias amostras e o posterior exame dos intervalos de confianccedila construiacutedos a partir decada uma dessas amostras
6) Cap 3-b Testes de HipoacutetesesSeratildeo recordados os principais componentes dos testes de hipoacuteteses erros tipos I e II com ascorrespondentes probabilidades p-valor Estudaremos o teste t de Student tanto pareado com natildeopareado para comparaccedilatildeo de duas populaccedilotildees teste quiquadrado para independecircncia e anaacutelise de
variacircncia (no R ttest chisqtest aov)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 461
Trabalhando no RUsaremos aqui trecircs tipos de variaacuteveis
constantes ou vetoresSatildeo os tipos de armazenamento mais baacutesico de uma variaacutevel Se desejarmos que numavariaacutevel x esteja a altura (em cm) de 10 indiviacuteduos faremosgt x = c(172167189157163 156201186179152)Observe que o sinal ldquogtrdquo eacute um prompt do R o comando ldquoc()rdquo combina uma sequumlecircncia devalores numa variaacutevel que aqui foi chamada de ldquoxrdquo o comando ldquo=rdquo eacute de atribuiccedilatildeo
Experimente os comandos gt y= 110 gt x2 gt x+2 gtx+y gtxy gtz=x+y gt c
matr zesSatildeo geralmente bancos de dados com n linhas (as observaccedilotildees) e p colunas (as variaacuteveis)Todas devem ser da mesma caracteriacutestica geralmente numeacutericas Se desejarmos que numavariaacutevel ldquoaprdquo esteja na primeira coluna a altura (em cm) e na segunda o peso (em kg) de10 indiviacuteduos
gt ap = matrix(c(172167189157163 1562011861791526863899075 63951208060) 102) peso e alturaObserve que o comando ldquomatrixrdquo arruma os dados de um vetor numa matriz o default eacuteentrar com o vetor por colunas os paracircmetros ldquo10 2rdquo indicam respectivamente onuacutemero de linhas e colunas o comando indica que o que vem depois na mesma linhaeacute interpretado como uma observaccedilatildeo e natildeo eacute considerado
Experimente os comandos gtmatrix gt pa[12] gt pa[1] gt pa[1]
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 561
Trabalhando no Rdata frameSatildeo usados para armazenamento de bancos de dados com n linhas (as observaccedilotildees) e
p colunas (as variaacuteveis) Podem natildeo ser da mesma caracteriacutestica misturandoalfanumeacutericos com numeacutericos e fatores Este comando seria uacutetil por exemplo para lerum banco de dados gerado no ExcelNo R um data frame seria lido pelo comando readtable Vamos ler a tabela 12 pag 7 dolivro [1] para tanto foi gerado um arquivo no Excel de nome tab1_2tex
Apresentamos aqui a 3 linhas iniciais dos dados de um total de 45 a primeira
linha (apresentada aqui em duas) corresponde aos nomes das variaacuteveisID CATEG IDADE PESO ALTURA IMC Classe_IMC CINTURA ID1A615821540245normal87109080MRID2S696301520273sobrepeso89104086GRID3S617011580281sobrepeso106123086GR
Para armazenarmos os dados no objeto tab12 usaremos o comando
tab12=readtable(fSBPO2010Rtab1_2txt header = T sep = )Observe que header = T serve para indicar que existe uma linha com os nomes dasvariaacuteveis (T significa True) e sep indica o separador no caso viacutergula
Experimente os comandosgtreadtable tab12[2]gt attach(tab12) CATEGgt tab12[3] IDADE
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 661
Cap 1 Analise Exploratoacuteria de Dados (AED)Anaacutelise Exploratoacuteria eacute um conjunto de teacutecnicas de tratamento de dados que semimplicar em uma fundamentaccedilatildeo matemaacutetica mais rigorosa nos ajuda a tomar um
primeiro contato com a informaccedilatildeo disponiacutevel
Em um levantamento de dados a respeito de um determinado assunto eles costumamser representados em uma tabela de dados Em uma tabela de dados cada linhacorresponde a uma observaccedilatildeo e cada coluna corresponde a uma variaacutevel
As variaacuteveis podem ser
Qualitativa nominal ou categoacuterica - seus valores possiacuteveis satildeo diferentes categoriasnatildeo ordenadas
- Quantitativa discreta - seus valores possiacuteveis satildeo resultados de um processo de
contagemQuantitativa contiacutenua - seus valores possiacuteveis podem ser expressos atraveacutes de
nuacutemeros reaisPara descrever o comportamento de uma variaacutevel eacute comum apresentar os valores que
ela assume organizados sob a forma de tabelas de frequecircncia e graacuteficos Os graacuteficosmais comuns para representarem variaacuteveis qualitativas satildeo os graacuteficos de barras e osgraacuteficos de setores
Usar para uma variaacutevel x que deve ser agrupada os comandos barplot(table(x))
pie(table(x)) Os principais argumentos desses comandos satildeo
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 761
barplot(x beside=F horiz=F xlab= xlim= col= space= )Onde
x um vetor de quantidades positivas Os valores em x representam a proporccedilatildeoobrigatoacuterio
beside se as barras seratildeo de lado ou empilhadas essa eacute uma variaacutevel do tiposucesso(Ttrue) ou fracasso (F false) o default eacute F Como exemplo olhar oapecircndice Figura 22
xlab corresponde ao tiacutetulo da variaacutevel x (natildeo obrigatoacuterio) o mesmo para ylab
xlim dois valores que correspondem aos limites no graacutefico da variaacutevel x (ylim)
space - quantidade de espaccedilo agrave esquerda antes de cada barra Se matrix podem ser 2valores o rimeiro barras do mesmo ru o e o se undo entre ru os
Cap1ndashAED barplot pie
col vetor informando as cores das barras Ver apecircndice
pie(x labels = names(x) edges = 200 col=NULL)Onde
x um vetor de quantidades positivas Os valores em x representam as proporccedilotildeeslabels um vetor de caracteres fornecendo nomes para os setores (natildeo obrigatoacuterio)
edges um inteiro A linha do ciacuterculo eacute aproximada por um poliacutegono com este
nuacutemero delados
col vetor informando as cores das barras
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 861
Exemplo
RCQ=c(808686908295928383898184788189877480918685848574768380788587
688387878789878888897877788984) digitar RCQ
rcq=rep(245) rcq[RCQ lt 78]=1 rcq[RCQ gt 85]=3 codificar
rcqt= table(rcq) tabular
names(rcqt)=c(PRMRGR) nomear as categorias
par(mfrow=c(12)) matrix de graficos (1 linha e 2 colunas)
pie(rcqt radius=12 col=c(greenbluepink)) graf de setor
Cap1-AED ndash ex table names par pie barplot
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 961
Pag 48 ndash Figura 22
mat= matrix(c(68154510 66214215 66242519 39161711)44byrow=T)
rownames(mat)=c(18 a 21 anos 22 a 25 anos 26 a 30 anos 31 a 40 anos)colnames(mat)=c(CinTeatSMDEx)
mat1=proptable(mat 2)
par(mfrow=c(12) mai=c(1111) mar=c(5 4 2 2) )
barplot(matbeside=F ylim=c(0250) legend = c(18 a 21 anos 22 a 25 anos
26 a 30 anos 31 a 40 anos) xlab=Contagem)
barplot(mat1 beside=F xlab=Percentagem)
Cap1-AED ndash ex barplot (beside=F)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1061
Pag 44 ndash Figura 21
mat=matrix(c(81823913601818608740)32)
rownames(mat)=c(AtivaSedentaacuteriaTotal)
colnames(mat)=c(NormalSobrepeso)
barplot(t(mat) beside = TRUE space=c(315)
col=gray(c(79))
legend = c(NormalSobrepeso) ylim = c(0 95) ylab= - percentagem)
Cap1-AED ndash ex barplot (beside=T)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1161
Para as variaacuteveis quantitativas os mais usados satildeo os Histogramas e os Diagramas Ramo-folhascujos comandos satildeo gthist(x) gt stem(x) Existe tambeacutem um comando chamado gtcut
que classifica uma variaacutevel numeacuterica Os principais argumentos do comando hist satildeo
hist(x breaks= freq =NULL right=T col=NULL main=xlim=range(breaks) ylim=NULL xlab=xname ylab) Onde
x a variaacutevel numeacuterica a ser discretizada (argumento obrigatoacuterio)
breaks vetor com os limites das classes
freq variaacutevel loacutegica se T (True) corresponde agrave contagem de cada classe se F (False) equivale adensidade de probabilidade a aacuterea total sob a curva (retacircngulos) teria soma 1
right variaacutevel loacutegica se T as classes satildeo fechadas agrave direira se F satildeo fechadas agrave esquerda
Cap1ndashAED stem cut table
main tiacutetulo principal
xlab e ylab roacutetulos dos eixos x e y respectivamente
xlim e ylim Dois valores limites para o graacutefico de cada uma das variaacuteveis
cut(x breaks right = T ) Onde
x a variaacutevel numeacuterica a ser discretizada (argumento obrigatoacuterio)breaks vetor com os limites das classes
right variaacutevel loacutegica se T as classes satildeo fechadas agrave direira se F agrave esquerda
stem(x hellip)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1261
Exemploda pag 15 ndash Figura 18
gt nt=c(18381254193316214231406456822872314
8611996235321861281254244214781182
347515012369214621412573362814071138) digitaccedilatildeo de nt
gt hist(nt breaks=c(50100150200250300350400450500) right=T
main=Histograma Telefonia fixa per capita
xlab=N linhas1000hab ylab=N de obs xlim=c(0500) ylim=c(010) col=grey) histograma da variavel gt
Cap1-AED hist
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1361
Exemploda pag 15 ndash Figura 18
gt nt=c(18381254193316214231406456822872314
8611996235321861281254244214781182
347515012369214621412573362814071138) digitaccedilatildeo de nt
gt stem(trunc(nt10)) o ramo a centena e a folha as dezenas
0 | 8
1 | 1122244441 | 5689
Cap1 AED ndash ex stem table cut
2 | 011123334
2 | 5
3 | 4
3 | 6
4 |
4 | 5
gt table(cut(nt breaks=c(50100150200250300350400450500) right=F))
[50100) [100150) [150200) [200250) [250300) [300350) [350400) [400450) [450500)
1 9 5 8 1 1 1 0 1
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1461
Para uma dada variaacutevel quantitativa uma medida de centralidade eacute um ldquovalor tiacutepicordquo em torno doqual se situam os valores daquela variaacutevelAs medidas de centralidade mais conhecidas satildeoa meacutedia aritmeacutetica e a mediana Usar os comando mean(x) median(y) Por exemplo
gt mean(nt)[1] 2001852gt median(nt)[1] 193Uma medida de localizaccedilatildeo eacute o quantil A funccedilatildeo apropriada do R para obter os quantis de um
vetor numeacuterico x eacute a funccedilatildeo gt quantile(x)Se desejarmos determinar os trecircs quartis usariacuteamos
o comando quantile(xc(02505075))
Se desejarmos o quinto o deacutecimo e o nonageacutesimo percentis usariacuteamos o comandogt quantile(xc(05010090))
Cap1-AED Medidas (estatiacutesticas)
O comando quantile(xp) retorna o quantil de ordem p das observaccedilotildees de x podendo p ser
um vetor Por exemplo
gt quantile(nt c(20 50 95))
20 50 95
1306 1930 3582
Uma medida de dispersatildeo para uma variaacutevel quantitativa eacute um indicador do grau de espalhamento
dos valores da amostra em torno da medida de centralidade As medidas de dispersatildeo mais
conhecidas satildeo a variacircncia o desvio-padratildeo e a distacircncia interquartil=diferenccedila entre o terceiro
e o primeiro quartis
gt var(nt)
[1] 7131464
gt sd(nt)
[1] 84448
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1561
gt q=fivenum(nt) q[4]-q[2] em q estatildeo os 5 nuacutem Subtraiacutemos o Q3 do Q1[1] 92
Os cinco valores x(1) Q1 Q2 Q3 x(n) miacutenimo os trecircs quartis e o maacuteximo satildeoimportantes para se ter uma boa ideacuteia da assimetria dos dados Esse valores podem serobtidos pelo comando fivenum(x) O summary(x) acrescenta tambeacutem a meacutedia ao resultado
Por exemplogt fivenum(nt)[1] 86 141 193 233 457gt summary(nt)
Min 1st Qu Median Mean 3rd Qu Max
860 1410 1930 2002 2330 4570
Cap1-AED IEQ fivenum boxplot
O Box Plot ou Desenho Esquemaacutetico eacute um graacutefico que se costuma utilizar para sintetizarem uma mesma figura vaacuterias informaccedilotildees relativas agrave distribuiccedilatildeo de uma determinadavariaacutevel quantitativa Nele tambeacutem satildeo representadas as observaccedilotildees discrepantesObservaccedilotildees discrepantes ou outliers satildeo observaccedilotildees cujos valores estatildeo muito afastadosdos demais (para mais ou para menos) Essas observaccedilotildees podem afetar de formasubstancial o resultado das anaacutelises estatiacutesticas O comando para usar-lo eacute boxplot(x)
Por exemplo ver fig 125 pag 28gt nt=c(18381254193316214231406456822872314
8611996235321861281254244214781182347515012369214621412573362814071138) digitaccedilatildeo de nt
gt boxplot(nt ylim=c(50500)xlab=N linhas1000hab)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1661
Quando se deseja investigar a relaccedilatildeo entre duas variaacuteveis qualitativas o caminho natural eacutemontar uma tabela de contingecircncia Construir uma tabela de contingecircncia consiste emcolocar nas linhas os valores possiacuteveis de uma variaacutevel e nas colunas os valores possiacuteveis
cruzamentoO comando para fazer a tabela seria gttable(xy)Por exemplogt tab12=readtable(fSBPO2010Rtab1_2txt header = T sep = )gt attach(tab12)
gt table(CATEG Classe_IMC)Classe_IMC
CATEG normal sobrepesoA 18 4
Cap1-AED Relaccedilatildeo entre duas variaacuteveis Qualitativas
Para analisar a relaccedilatildeo entre 2 variaacuteveis atraveacutes de uma tabela de contingecircncia umprocedimento muito uacutetil eacute calcular os percentuais em relaccedilatildeo aos totais das linhas etambeacutem os percentuais em relaccedilatildeo aos totais das colunas Os comandos seriamproptab(x1) para linha e proptab(x2) para coluna Por exemplo usando a tabela 25paacutegina 46
gt mat= matrix(c(68154510 66214215 66242519 39161711)44byrow=T)gt rownames(mat)=c(18 a 21 anos22 a 25 anos26 a 30 anos31 a 40 anos)gt colnames(mat)=c(CinTeatSMDEx)gt mat1=proptable(mat 1) por linha tab 27gt mat2=proptable(mat 2) por coluna tab 28
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1761
Cap1-AED Relaccedilatildeo entre duas variaacuteveis QuantitativaQuando se deseja investigar a relaccedilatildeo entre duas variaacuteveis quantitativas o mais adequado eacutecomeccedilar pela construccedilatildeo de um Diagrama de Dispersatildeo Construir um diagrama de
dispersatildeo para 2 variaacuteveis quantitativas X e Y consiste em localizar pares de valoresobservados (xi yi ) como pontos em um sistema de eixos coordenados O camando seriaplot(xy)Por exemplogtx=c(12345) y=c(11224) plot(xy)
Um indicador do grau de interdependecircncia linear para 2 variaacuteveis quantitativas X e Y eacute ocoeficiente de correlaccedilatildeo rxy que pode assumir qualquer valor real entre -1 e 1 Ocoeficiente de correlaccedilatildeo entre X e Y eacute calculado por uma das duas expressotildees
matemaacuteticas (equivalentes) a seguir
O comando seria cor(xy) Por exemplogtx=c(12345) y=c(11224) cor(xy)
[1] 09036961
sum sum
sum
sumsum
sum
= =
=
=
=
sdotminussdotminus
sdotsdotminus
=
minussdotminus
minusminus
=n
1i
n
1i
1222
i
22
i
n
1i
ii
122
i
2
i
n
1i
n
1i
ii
xy
)yny)(xnx(
yxnyx
)y(y)xx(
)y)(yx(x
r
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1861
Cap1-AED Relaccedilatildeo entre duas variaacuteveis Quantitativa
bull Quando se verifica atraveacutes do coeficiente de correlaccedilatildeo (ou pelo aspecto visual doDiagrama de Dispersatildeo) que existe uma forte relaccedilatildeo linear entre 2 variaacuteveis X e Y
pode ser de interesse calcular a equaccedilatildeo da reta que representa esta relaccedilatildeo entre as2 variaacuteveis y = a + bx A equaccedilatildeo y = a + bx considera que y eacute a variaacutevel dependente(ou variaacutevel resposta) e que x eacute a variaacutevel independente (ou variaacutevel preditora) a serusada para explicar o comportamento da variaacutevel y A equaccedilatildeo da reta pode ser usadapara se antever qual seria o valor y0 da variaacutevel resposta y correspondente a umdeterminado valor x0 da variaacutevel preditora x
bull As foacutermulas que nos permitem calcular os valores de a e b a partir dos dados satildeo
yxn
n
i
n
i sumsum
O coeficiente b mede a inclinaccedilatildeo da reta de Regressatildeo Entatildeo ao passarmos de um pontoa outro sobre a reta b mede a relaccedilatildeo entre as variaccedilotildees de y e de x O coeficiente a medeo valor de y quando x eacute igual a zero ou seja eacute o intercepto da reta de Regressatildeo
O comando para calcular os coeficientes a e b seria gt lsprint(lsfit(xy))gtx=c(12345) y=c(11224)gtreg=lsfit(xy)gtlsprint(reg)
n
x
x
nyx
b2
n
1i
in
1i
2
i
1i
ii
minus
minus
=
sumsum =
=
=
==
x bya sdotminus=e
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1961
Cap 2-a Simulaccedilatildeo do conceito frequumlentistaConceito Frequumlentista de Probabilidade Suponha que o experimentofoi repetido n vezes sempre sob as mesmas condiccedilotildees e que o evento Aocorreu m vezes entre essas n realizaccedilotildees do experimento Entatildeoa fraccedilatildeo mn eacute uma boa aproximaccedilatildeo para a probabilidade de Ase o nuacutemero n de repeticcedilotildees for bastante grande
Simbolicamente P (A) congcongcongcong mn
Exemplo Simulando 100 lanccedilamentos de uma moedaNo R foram simulados 100 lanccedilamentos de uma moeda equilibrada isto eacute
onde as chances de cara e de coroa satildeo iguais Depois de cadalanccedilamento foi observado o nuacutemero acumulado de caras obtidas ateacute essemomen o e o ca cu a a a proporccedil o e caras correspon en e a a e a aseguir estatildeo apresentados os valores correspondentes ao nuacutemeroacumulado de caras ao longo do processo Por exemplo para a jogada denuacutemero 29 o nuacutemero acumulado de caras eacute 13 e a fraccedilatildeo de caras eacute 1329O graacutefico abaixo mostra a evoluccedilatildeo dessa fraccedilatildeo agrave medida que foramfeitos os 100 lanccedilamentos da moeda
Os comandos no R para a elaboraccedilatildeo do graacutefico
gtx=1100 y=cumsum(sample(01100rep=T))gtplot(xy1100 ylim=c(01) xlim=c(0100) pch=16)gtsegments(10510005)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2061
Cap 2-b Variaacuteveis Aleatoacuterias (va)Uma variaacutevel aleatoacuteria (va) eacute uma funccedilatildeo que associa cada elemento de um
espaccedilo amostral a um nuacutemero real As variaacuteveis aleatoacuterias podem ser do
tipo
Discreto se os seus valores pertencem a um conjunto enumeraacutevel de nuacutemerosreais (usualmente valores inteiros)
Contiacutenuo se os seus valores pertencem a um intervalo de nuacutemeros reais
O modelo probabiliacutestico de uma variaacutevel aleatoacuteria X estabelece o padratildeo de
comportamento de sua distribuiccedilatildeo de probabilidadeA fun atildeo de robabilidade de uma v a discreta X eacute definida orp(x)=P[X=x]
A funccedilatildeo de distribuiccedilatildeo acumulada F de uma v a X eacute definida porF(x) = P[Xlelelelex]
Se X eacute uma va discreta que assume os valores x 1
x 2
x 3
x N
entatildeo
bull A meacutedia ou esperanccedila de X eacuteE(X) = x 1 P(X=x 1 ) + x 2 P(X=x 2 ) + x 3 P(X=x 3 ) + + x N P(X=x N )
bull A Variacircncia de X eacute calculada por |Var(X)=(x 1 ndashE(X))2 P(X=x 1 )+(x 2 ndashE(X))2 P(X=x 2 )++(x N ndashE(X))2 P(X=x N )
bull O desvio padratildeo de X eacute igual agrave raiz quadrada natildeo negativa da suavariacircncia DP(X)= Var(X)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2161
Cap 2-b - va e o RO trabalho no R com uma va X estaacute baseado em 4 procedimentos
p probability ndash Gera a probabilidade de um valor de xq quantile ndash Gera o valor x de uma dada probabilidade acumulada pd density ndash Gera o valor da funccedilatildeo densidade num valor x da variaacutevel
Observar que quando a variaacutevel eacute discreta este valor eacute aprobabilidade de x quando a variaacutevel eacute contiacutenua o resultadoeacute a altura da funccedilatildeo densidade de probabilidade
r random ndash Gera n valores do modelo probabiliacutestico em questatildeo
As distribuiccedilotildees que estudaremos estatildeo listadas a seguir depois de cada uma delasentre parecircnteses estaacute o nome no R
(geom) Binomial negativa- Pascal (nbinom)
Entre as contiacutenuas Uniforme (unif ) Exponencial (exp) Normal (norm) t-student (t)quiquadrado (chisq) F (f )
A interligaccedilatildeo dos trecircs primeiros procedimentos pq e d seraacute ilustrada pela distribuiccedilatildeoNormal atraveacutes do graacutefico abaixo
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2261
Cap 2-b - va pnorm e qnormSeja a relaccedilatildeo p = P(Xltx) que aparece na tabela da distribuiccedilatildeo Normal Quiquadrada
t-student e F Para um dado valor de p acha-se um valor de x a procura direta que para aNormal no R corresponderia a pnorm(x 983221 σ) Neste caso devo informar o x e os dois
paracircmetros da distribuiccedilatildeo Normal 983221 e σJaacute a procura inversa seria para um dado valor de x achar um valor de p que para a Normalno R corresponderia a qnorm(p983221σ) Neste outro caso devo informar o valor de p desejado etambeacutem os dois paracircmetros da distribuiccedilatildeo Normal 983221 e σ
Exemplo Seja X a va que corresponde ao peso (em kg) de pessoas de uma certapopulaccedilatildeo com meacutedia 983221=70 Kg e desvio padratildeo σ=8 Kg assim X~ N(983221=70 σ2=82)
Se desejarmosa) P(Xlt80) usaremos no R o comando pnorm(80 70 8) isto eacute x=80 eacute o primeiro paracircmetroenquanto 70 e 8 satildeo paracircmetro especiacuteficos da distribuiccedilatildeo Normal
b) Admita que o peso limite para ser classificado como obeso eacute o valor que corresponde a10 dos mais pesados do populaccedilatildeo Achar este peso limiteO que se pede eacute a funccedilatildeo inversa Dado um valor de p=090 achar um valor de x que deixa90 abaixo dele No R seria qnorm(09 70 8) isto eacute o valor da probabilidade p=09 eacute
o primeiro paracircmetro enquanto 70 e 8 satildeo paracircmetros especiacuteficos da distribuiccedilatildeo NormalSe usarmos a Normal padratildeo z=(x-983221)σ no caso do item a o comando seria pnorm((80-70)8)ou pnorm(125) Repare que neste caso natildeo foi necessaacuterio passar os paracircmetros especiacuteficos daNormal pois 983221=0 e σ =1 coresponde ao default Observaccedilatildeo Sempre que usarmos um p oprimeiro paracircmetro eacute um x e os outros satildeo especiacuteficos da distribuiccedilatildeo em questatildeosempre que usarmos um q o primeiro paracircmetro eacute um p e os outros satildeo especiacuteficosSempre que usarmos um d o primeiro paracircmetro eacute um x
Quando usarmos uma distribuiccedilatildeo discreta o d corresponde aacute probabilidade no ponto x
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2361
Pag 118 ndash Figura 412
x=seq(010001)
plot(xdexp(x 12) type=l xlim=c(012) ylim=c(01) bty=l ylab=f(x) e F(x))
for(i in seq(0 25 001)) segments(i 0 i dexp(i12) col=lightgrey)
abline(v=0 h=0)
points(xdexp(x 12) type=l lwd=2 bty=l)
points(x pexp(x 12) lwd=2 type=l)
segments(250 25pexp(2512))
Cap 2-b - va dexp pexp points segments
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2461
Cap 2-b - va disponiacuteveis no Rrbinom(n size prob) binomialrpois(n lambda) Poissonrgeom(n prob) geometricarhyper(nn m n k) hipergeometricarnbinom(n size prob) binomial negativarunif(n min=0 max=1) uniformerexp(n rate=1) exponentialrnorm(n mean=0 sd=1) Gaussiana (normal)rt(n df) lsquoStudentrsquo (t )rf(n df1 df2) FisherndashSnedecor (F )
rchisq(n df) Quiquadradar amma n sha e scale=1 amma rbeta(n shape1 shape2) betarlnorm(n meanlog=0 sdlog=1) lognormalrcauchy(n location=0 scale=1) Cauchyrweibull(n shape scale=1) Weibullrwilcox(nn m n) Wilcoxonrsquos rank sum statistics
rsignrank(nn n) Wilcoxonrsquos signed rank statisticsrlogis(n location=0 scale=1) logistic
Todas essas distribuiccedilotildees apresentadas por rnome (nome da variaacutevel aleatoacuteria) como vimostrocando a primeira letra e mantendo os paracircmetros especiacuteficos de cada distribuiccedilatildeo(denotados por ) podem ser usadas substituindo a letra ldquor rdquo por
d valor da densidade de probabilidade no ponto x dnome (x )p probabilidade acumulada no ponto x pnome (x )
q quantil correspondente a probabilidade acumulada p dnome (p)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2561
Cap 2-c O Teorema Central do Limite (TCL)O Teorema Central do Limite (abreviadamente TCL) diz respeito ao comportamento da
meacutedia amostral agrave medida que o tamanho n da amostra cresce indefinidamente
Exemplo 31 ndash A distribuiccedilatildeo de renda e o TCLEacute um fato conhecido que a distribuiccedilatildeo da rendapessoal dos habitantes de um paiacutes eacuteusualmente muito desigual ou seja muitosganham pouco e poucos ganham muito Seforem sorteados 200 habitantes desse paiacutes e
com base nas suas rendas mensais
Agora se forem sorteadas 200 amostrascada uma delas contendo 2 habitantesdesse paiacutes e se forem calculadas as 200respectivas meacutedias amostrais a partir delas obteremos o histograma a seguir
Agora cada uma das 200 amostrassorteadas contendo 30 habitantes dessepaiacutes e se forem calculadas as 200 meacutediasamostrais o histograma seria
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2661
Cap 2-c ndash TCL ExemploComo pode ser observado no caso de n = 2 o histograma se aproxima mais de uma curvaNormal do que no caso de n = 1 E no caso de n = 30 a semelhanccedila do histograma com umacurva Normal eacute ainda maior
O Teorema Central do Limite afirma que independentemente de qual seja a
distribuiccedilatildeo original dos Xirsquos a distribuiccedilatildeo de probabilidade de e a
distribuiccedilatildeo Normal com meacutedia micromicromicromicro e variacircncia σσσσ2 n se aproximam cada vez
mais uma da outra agrave medida que n cresce
Portanto mesmo que a distribuiccedilatildeo de probabilidade dos Xirsquos seja desconhecida o Teorema
X n
Central do Limite garante a possibilidade de usarmos o modelo Normal para calcular ainda quede forma aproximada probabilidades relativas agrave meacutedia amostral desde que n sejasuficientemente grande
Exemplo 62 Simulando o efeito do TCL
Para ilustrar o funcionamento do Teorema Central do Limite vamos exibir agora um exemploem que a distribuiccedilatildeo original a partir da qual os dados satildeo gerados eacute uma exponencial modelo
este que daacute origem a uma funccedilatildeo densidade bastante assimeacutetrica (ao contraacuterio do que ocorre
com a curva Normal) A densidade de uma exponencial com paracircmetro eacute dada pela
expressatildeo
No R rexp(n ) simula n valores
λ
0 xλef(x) λx ge= minusλ
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2761
Cap 2-c ndash TCL ExemploA densidade de uma exponencial com paracircmetro eacute dada pela expressatildeo
Gerando dados por simulaccedilatildeo a partir de uma exponencial com λ = 13 para cada um dos
seguintes tamanhos n de amostra 1 2 3 4 5 10 15 e 201 Obtivemos 200 valores da meacutedia amostral 2 Utilizamos esses 200 valores para construir um histograma3 Traccedilamos no mesmo graacutefico uma curva da densidade Normal com E( )=3 e DP( )=3Xn
λ 0 xλef(x) λx ge= minus
Xn n
Os 8 histogramas nos mostram que agrave medida que o tamanho n da amostra cresce
a forma do histograma se aproxima cada vez mais de uma curva Normal
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2861
Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com
simulaccedilotildees - Exponencial
tclexp=function(n N=200 titulo= yl=c(0 4)) iniacutecio da funccedilatildeo ndash tclexpmedias=numeric(N)
for (i in 1N) medias[i]= mean(rexp(n13))
hist(medias xlim=c(-110) ylim=yl freq=F main=titulo)
x=seq(-110 02)
points(x dnorm(x 3 3sqrt(1n) ) type=l lwd=3)
fim da funccedilatildeo
graphicsoff()
par(mfrow=c(33) mai=c(3411))
tclexp(1titulo=n=1)
tclexp(2titulo=n=2)
tclexp(3titulo=n=3)
tclexp(4titulo=n=4)
tclexp(5titulo=n=5)
tclexp(6titulo=n=6)
tclexp(10titulo=n=10yl=c(06))
tclexp(15titulo=n=15yl=c(06))
tclexp(20titulo=n=20yl=c(06))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2961
Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com
simulaccedilotildees - Exponencial
Uma pergunta natural neste ponto serialdquoQuatildeo grande deve ser n para que possamos usar a aproximaccedilatildeo fornecida pelo
TCL com um niacutevel de precisatildeo aceitaacutevelrdquo
A rapidez com que essa convergecircncia se daacute depende de quatildeo distante estaacute a forma
da distribuiccedilatildeo original das Xirsquos de uma curva Normal Em outras palavras se a
distribuiccedilatildeo das Xirsquos jaacute natildeo for muito diferente de uma Normal com um n natildeo muito-
grande (usualmente n ge 30) a aproximaccedilatildeo da distribuiccedilatildeo de por uma Normal
funcionaria adequadamente
No exemplo a seguir vamos apresentar esse fenocircmeno a saber a convergecircncia da
distribuiccedilatildeo de para uma Normal agrave medida que n cresce gerando por simulaccedilatildeo osdados originais a partir de diferentes modelos probabiliacutesticos Em todos os casos a
distribuiccedilatildeo original eacute bem diferente da Normal E(X)=3 e DP(X)=3 No que se refere agrave
Simulaccedilatildeo foi seguida a mesma sequumlecircncia de passos do exemplo anterior
Xn
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3061
Cap 2-c ndash TCL Exemplo
Exponencial
Uniforme
Mistura deNormais
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3161
Como se pode observar
1 No caso da distribuiccedilatildeo uniforme (A) o histograma de jaacute se aproximabastante de uma Normal quando n eacute da ordem de 4
2 Jaacute no caso da distribuiccedilatildeo Exponencial (B) e da mistura de normais
(C) modelos esses que se afastam muito mais de umldquo rdquo
Cap 2-c ndash TCL Exemplo
mostra mais adequada a partir de n em torno de 10
3 No caso do modelo em (C) agrave medida que n cresce tudo se passacomo se houvesse a ldquoerupccedilatildeo de um vulcatildeo dentro do valerdquo
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3261
tclunif=function(nN=100titulo= yl=c(0 4))
medias=numeric(N)for (i in 1N) medias[i]= mean(runif(n 3-3sqrt(3) 3+3sqrt(3)))
hist(medias xlim=c(-610) ylim=yl freq=F main=titulo)
x=seq(-610 02)
points(x dnorm(x 3 3sqrt(1n) ) type=l lwd=3)
medias
Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com
as simulaccedilotildees - Uniforme
grap cso
par(mfrow=c(33) mai=c(3411))
tclunif(1titulo=n=1yl=c(06))
tclunif(2titulo=n=2yl=c(06))
tclunif(3titulo=n=3yl=c(06))
tclunif(4titulo=n=4yl=c(06))tclunif(5titulo=n=5yl=c(06))
tclunif(6titulo=n=6yl=c(06))
tclunif(10titulo=n=10yl=c(06))
tclunif(15titulo=n=15yl=c(06))
tclunif(20titulo=n=20yl=c(06))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3361
X2=c(rnorm(35011) rnorm(15081)) X2 eacute a Populaccedilatildeo de onde retiramos as amostras
br=seq(-2 12 5)
tcl2modas=function(nN=200titulo= yl=c(0 6)) medias=numeric(N)for (i in 1N) medias[i]= mean(sample(X2nrep=T))hist(mediasbreaks=br xlim=c(-212) tcl=-01 ylim=yl xarp=c(-31216)
tck=005 lab=c(5515) freq=F main=titulo)x=seq(-312 02)
Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com
as simulaccedilotildees - Mistura de Normais
points(x dnorm(x med dpsqrt(n) ) type=l lwd=2)
par(mfrow=c(24) mai=c(3011) mar=c(2 2 2 1))
hist(X2 freq=F breaks=seq(-3125) bty=o xlim=c(-212)xarp=c(-31216)tck=005 lab=c(5515) ylim=c(06) main=POPULACcedilAtildeO lwd=2)
tcl2modas(2titulo=n=2)tcl2modas(3titulo=n=3)
tcl2modas(4titulo=n=4)
tcl2modas(5titulo=n=5)
tcl2modas(10titulo=n=10)
tcl2modas(15titulo=n=15)
tcl2modas(25titulo=n=25)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3461
CAP 3-a) Intervalo de ConfianccedilaSeja um estimador pontual do paracircmetro eacute uma variaacutevel aleatoacuteria que varia deamostra para amostra Por isso haacute uma certa dose de incerteza inerente a esse processode estimaccedilatildeo Nosso objetivo agora eacute obter com base nos dados amostrais (da uacutenicaamostra observada) um intervalo ao qual o valor correto do paracircmetro deve ter grandechance de pertencer
bull Detalhando um pouco mais No processo de estimaccedilatildeo por intervalo de um paracircmetro θdevemos determinar um intervalo que contenha o verdadeiro valor do paracircmetro comprobabilidade 1-α onde α eacute um pequeno valor preacute-fixado Este intervalo eacute construiacutedo emgeral em torno do estimador pontual considerando uma margem de erro d de forma aque uma vez fixada a probabilidade 1-α calculemos d tal que P( - d le θ le + d ) = 1 -αChama-se intervalo de confianccedila para θ ao niacutevel 1 - α ao intervalo [ - d + d]
θ $θ
$θ$θ
$θ $θ
$
θ
bull Ou seja o estimador pontual eacute o centro do Intervalo de Confianccedila e o erro absoluto dassociado a define a amplitude desse intervalo O que eacute de fato variaacutevel aleatoacuteria satildeoos extremos do intervalo O paracircmetro tem valor desconhecido natildeo aleatoacuterio (fixo a ser estimado)
Exemplo Intervalo de Confianccedila para a meacutedia populacional com o desvio padratildeo conhecidoO paracircmetro a estimar eacute a meacutedia populacional micro A estimaccedilatildeo seraacute baseada em X1 X2 Xn
uma amostra aleatoacuteria com E(Xi) = micro e var(Xi) = σ2 para todo i = 12 n Queremos que seja
vaacutelida a expressatildeo o que equivale a P [ -d le -micro le d] = 1-α
$θ
X[ ] α1dmicroXP minus=leminus
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3561
bull Lembrando que para n suficientemente grande pelo Teorema Central do Limite a meacutediaamostral segue uma distribuiccedilatildeo que se aproxima da Normal(micromicromicromicro σσσσ2 n) (ou eacute exatamente aNormal(micromicromicromicro σσσσ2 n) no caso em que a distribuiccedilatildeo comum das va Xirsquos jaacute eacute Normal) entatildeo
P [-d le -micromicromicromicro le d] = 1-α rArr 1-α = P [ |Z| le ] Logo d =
bull Faremos uma simulaccedilatildeo para a construccedilatildeo de Intervalos de Confianccedila com 100 amostras dedois tipos de populaccedilatildeo Normal e Exponencial A lista de comandos do R que usamos eacute
ICN = function (N n mu sigma = 3 conf)
plot(0 0 type=n xlim=c(010) ylim=c(0N) bty=l
xlab=Normal ylab=amostras)abline(v=mu)
CAP 3-a) Intervalo de Confianccedila
X
nσ
d
minus
z0 = qnorm(1-((1-conf)2))
sigmaxbarra = sigmasqrt(n)
for (i in 1N)
x = rnorm(n mu sigma)
media = mean(x)
li = media - z0 sigmaxbarrals = media + z0 sigmaxbarra
plotx = c(lils)
ploty = c(ii)
if (li gt mu | ls lt mu) lines(plotxploty col=red)
else lines(plotxploty)
gt ICN(100 25 3 3 95)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3661
CAP 3-a) Intervalo de Confianccedila
ICexp = function (N n lambda conf)
mu=1lambda sigma=1lambda
plot(0 0 type=n xlim=c(010) ylim=c(0N) bty=lxlab=Exponencial ylab=amostras)
abline(v= mu)
z0 = qnorm(1-((1-conf)2))
sigmaxbarra = sigmasqrt(n)
for (i in 1N)
x = rexp(nlambda) me a = mean x
li = media - z0 sigmaxbarra
ls = media + z0 sigmaxbarra
plotx = c(lils)
ploty = c(ii)
if (li gt mu | ls lt mu) lines(plotx ploty col=red)
else lines(plotx ploty)
gt ICexp(100 25 13 95)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3761
CAP 3-b Teste de Hipoacuteteses (TH)O objetivo de um teste de hipoacutetese eacute avaliar a validade de uma afirmaccedilatildeo sobre determinada
caracteriacutestica da populaccedilatildeo usando para isso os dados de uma amostra Essa caracteriacutestica eacute
representada pela va contiacutenua X cujo comportamento probabiliacutestico eacute expresso pela funccedilatildeo dedensidade f com paracircmetro Ө que tem valor desconhecido
Em um teste existem duas hipoacuteteses envolvidas H0 denominada hipoacutetese nula e H1
denominada hipoacutetese alternativa O procedimento de teste de hipoacutetese consiste em estabelecer
um criteacuterio de decisatildeo que leve a Aceitar ou Rejeitar H0 com base nos valores amostrais
A Estatiacutestica de teste eacute uma funccedilatildeo da amostra aleatoacuteria utilizada para definir o criteacuterio de
decisatildeo Estabelecer o criteacuterio de decisatildeo consiste em dividir o conjunto dos valores possiacuteveis
da estatiacutestica de teste em duas partes denominadas Regiatildeo de Aceitaccedilatildeo A e Regiatildeo de
Rejeiccedilatildeo R da hipoacutetese nula
Em um teste de hipoacutetese haacute dois tipos possiacuteveis de erro de decisatildeo
Erro I - Rejeitar H0 quando H0 eacute verdadeira
Erro II - Aceitar H0 quando H0 eacute falsaAs probabilidades de ocorrecircncia dos erros satildeo α = P [ Erro I ] e β = P [ Erro II]
A probabilidade de erro I α eacute o niacutevel de significacircncia do teste cujo valor eacute arbitrado pelo
pesquisador deve ser pequena pois corresponde a probabilidade de um erro (005 ou 001)
O niacutevel criacutetico ou p-valor do teste eacute o menor valor de α para o qual ainda rejeitariacuteamos H0 de
acordo com os dados observados
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3861
CAP 3-b) ndash TH teste tttest(x y = NULL alternative = c(twosided less greater) mu = 0
paired = FALSE varequal = FALSE conflevel = 095 )
Procedimentos de teste de hipoacuteteses com niacutevel de significacircncia α e amostras de tamanho n
UmaAmostra
DuasAmostras
Obs Os testes acima satildeo bilaterais
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3961
CAP 3ndashb) TH exemplo de teste t ndash amostras independentespag233- teste t amostras independente - comparaccedilatildeo log(salaacuterio)
entre os grupos de comeacutercio e de serviccedilo
LogSal=c(1289156912501344145616361573171309060903
0977122011031069128714101496131113371366
1227119114591280115217401649176524101701
1538192419251721154918911534163812071682
120614232010143112651570)
Sal=exp(LogSal)
setor= c(rep(C23) rep(S23))
ttest(Sal[setor==C] Sal[setor==S] varequal=T)
Two Sample t-test
data Sal[setor == C] and Sal[setor == S]
t = -36822 df = 44 p-value = 00006289
alternative hypothesis true difference in means is not equal to 095 percent confidence interval
-23079005 -06751838
sample estimates
mean of x mean of y3786010 5277552
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4061
CAP 3ndashb) TH exemplo de teste t ndash amostra pareadapag237- teste t pareado
P1=c(6315596455545480598065203660986853
8765647785536980827184605572645564)
P2=c(3638306043466455604343523428837155
8238556767443459605968506254473652)
ttest(P1 P2 alt=greater paired = T)
Paired t-test
data P1 and P2
t = 44176 df = 33 p-value = 5072e-05
alternative hypothesis true difference in means is greater than 0
95 percent confidence interval
0716695 Inf
sample estimates
mean of the differences
1161765
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4161
CAP 3ndashb) TH exemplo de teste Quiquadrado chisqtest
pag233- teste Quiquadrado -
tcont=matrix(c(683585251530258 7461761220225) 72)
chisqtest(tcont)
Pearsons Chi-squared test
data tcont- = = - lt -
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4261
CAP 3ndashb) TH exemplo de teste Quiquadrado chisqtestaov(formula data = NULL )
pag244- ANOVA - Comparaccedilatildeo de trecircs raccedilotildees para suinos
A=c(444943514475425134305342453630
322133421040395246294247453959)
B=c(343640545953445432686954414647
6566455739)
C=c(574040364566395025212927283942
21304143294244582849)
aumentoP=c(ABC)
racao=c(rep(A30)rep(B20) rep(C25))
summaryaov(aov(aumentoP ~ racao))
Df Sum Sq Mean Sq F value Pr(gtF)racao 2 15385 7693 56136 0005425
Residuals 72 98666 1370
---
Signif codes 0 lsquorsquo 0001 lsquorsquo 001 lsquorsquo 005 lsquorsquo 01 lsquo rsquo 1
Warning message
In modelmatrixdefault(mt mf contrasts)
variable racao converted to a factor
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4361
ApecircndicesA-1) Apresentaremos aqui algumas figuras
feitas no R na elaboraccedilatildeo do livro
Achamos que o exame desses coacutedigos acompanhado dos resultados podeser um bom aprendizado um exerciacutecio ou talvez uma recordaccedilatildeo do materialaqui exposto
A-2) Resumo de comandosa) Criaccedilatildeo de dados
b) Informaccedilatildeo de uma Variaacutevel
c) Seleccedilatildeo de dados e manipulaccedilatildeo
d) Estatiacutesticas e operaccedilotildees matemaacuteticas
e) Corte e extraccedilatildeo de dados
f) Operaccedilatildeo com Matrizes
g) Graacuteficos (Plotting)
h) Teste de hipoacuteteses
i) Programming
j) Commandos auxiliaries em Graacuteficos
k) Comando par (Graphical parameters)
l) Input and output
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4461
A1) ndash Pag 14 ndash Figura 15
IDADE=c(616961716371726866697267636663636067716360696463667164706366646969646372736871726968687379)
IMC= c(245273281301254301280234268228255228235232203226239243271227237258213243243248219234216214221227227211268278275267286253239258247284235)
par(mfrow=c(12))hist(IDADE breaks=c(6065707580) ylim=c(020) ylab=Nuacutemero de Observaccedilotildees
main= col=grey right = F)hist(IMC breaks=c(200225250275300325)
ylab=Nuacutemero de Observaccedilotildeesmain= col=grey right = F )
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4561
A1) ndash Pag 44 ndash Figura 21
mat=matrix(c(81823913601818608740)32)
rownames(mat)=c(AtivaSedentaacuteriaTotal)colnames(mat)=c(NormalSobrepeso)barplot(t(mat) beside = TRUE space=c(315)
col=gray(c(79))legend = c(NormalSobrepeso) ylim = c(0 95) ylab= - percentagem)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4661
A1) ndash Pag 48 ndash Figura 22
mat= matrix(c(68154510 66214215 66242519 39161711)44byrow=T)
rownames(mat)=c(18 a 21 anos 22 a 25 anos 26 a 30 anos 31 a 40 anos)colnames(mat)=c(CinTeatSMDEx)mat1=mat for (i in 14) mat1[i]lt-mat1[i]100sum(mat1[i]) par(mfrow=c(12) mai=c(1111) mar=c(5 4 2 2) )barplot(matbeside=F ylim=c(0250) legend = c(18 a 21 anos 22 a 25 anos
26 a 30 anos 31 a 40 anos) xlab=Contagem)
barplot(mat1 beside=F xlab=Percentagem)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4761
A1) ndash Pag 52 ndash Figura 25X= c(184114821789235159118762592403190408372147328526471687
09642871437079238215753399242122530314859149806)y =c(01837012540193301620014230140604568022870231400861019960235302186012798991801254018210244160823
0147764068011818941403474539680150133247023685518102146187520214097090257291227
036282905401406510810113849399)plot(x y xlim=c(07) ylim=c(05) pch=16 bty=l xlab=Renda per capita
ylab=Telefonia Fixa per capita)
abline(lsfit(xy))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4861
A1) ndash Pag 109 ndash Figura 45
x=020
y1=dpois(x1) y2=dpois(x3) y3=dpois(x10)names(y1)=x names(y2)=x names(y3)=xpar(mfrow=c(13))plot(y1ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=1)plot(y2ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=3)plot(y3ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=10)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4961
A1) ndash Pag 118 ndash Figura 412
x=seq(010001)
plot(xdexp(x 12) type=l xlim=c(012) ylim=c(01) bty=l ylab=f(x) eF(x))for(i in seq(0 25 001)) segments(i 0 i dexp(i12) col=lightgrey)abline(v=0 h=0)points(xdexp(x 12) type=l lwd=2 bty=l)points(xpexp(x 12) lwd=2 type=l)segments(250 25pexp(2512))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5061
A1) ndash Pag 163 ndash Figura 68
plot(p xlim=c(618) ylim=c(016) type=n bty=l xaxt=n xlab= ylab=
cexaxis=6)for (i in 1015) rect(i-50 i+5 dbinom(i304) col=lightgrey) lty=2)segments(i0idbinom(i304) lty=2)
x=seq(61801) lines(x dnorm(x12sqrt(72)) lwd=2)x=seq(61801) lines(x dnorm(x12sqrt(72)) lwd=2)
axis(1 916 cexaxis=9) ax s seq cexax s=
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5161
A1) ndash Pag 198 ndash Figura 78
x1=seq(-4402)plot(x1dnorm(x1) type=l lwd=3 xlab= ylab= )lines(x1 dt(x11)) lines(x1 dt(x12)) lines(x1 dt(x15))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5261
A2ndashResumo de comandos
a)Criaccedilatildeo de dados
c()funccedilatildeo geneacuterica para combinar argumentos com o formando de um vetor fromto gera uma sequecircnce ldquordquo tem prioridade de operator pe13 + 1 is ldquo234rdquo
seq(fromtoby) gera uma sequecircncia by= especifica incremento
length= especifica um comprimento desejado
rep(xtimes) replicate x onuacutemero times de vezes use each= para repetir cada
elemento de x rep(c(123)2) gera 1 2 3 1 2 3 rep(c(12)each=2) gera 1 1 2 2
matrix(xnrow=ncol=) matrix elementos de x se reciclam caso x
rbind()combina vetores em linhas num estrutura de matrizes de dados
cbind()combina vetores em colunas num estrutura de matrizes de dados
array(xdim=) matriz com dados x especificar dimensotildees como dim=c(342)
elementos de x se reciclam caso x natildeo seja suficientemente grande
factor(xlevels=) codifica um vetor x como um fator gl(nklength=nklabels=1n) gerar niacuteveis (fatores) especificando
o padratildeo de seus niacuteveis k eacute o nuacutemero de niacuteveis e n eacute o nuacutemero de repeticcedilotildees
dataframe() criar um banco de dados Por exemplo
dataframe(v=14ch=c(gBcasad)n=5)
list()criar uma lista de argumentos Por exemplo list(a=c(12)b=hic=3i)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5361
A2ndashResumo de comandos
b) Informaccedilatildeo de uma Variaacutevellength(x) nuacutemero de elementos em x
dim(x) Obter ou definir a dimensatildeo de um objeto dim (x) = c(32)dimnames(x) Obter ou definir os nomes das dimensotildees de um objeto
nrow(x) nuacutemero de linhas
ncol(x) nuacutemero de colunas
c) Seleccedilatildeo de dados e manipulaccedilatildeochoose(n k) calcula a combinaccedilatildeo de elementos escolhidos entre n
resultando n [(n-k) k]
cut(xbreaks) divide x em intervalos (fatores) breaks eacute o nuacutemero de intervalos de
corte ou um vetor com os valores especiacuteficos
table(x) retorna uma tabela com as quantidades dos diferentes valores de x
(tipicamente para variaacuteveis dos tipos inteiros ou fatores)
sample(x size) retira aleatoriamente com e sem reposiccedilatildeo elementos detamanho SIZE do vetor x a opccedilatildeo replace = TRUE permite a retirada com reposiccedilatildeo
proptable(xmargin=) transforma a tabela como tabela de propoccedilatildeo
marginal margin=1 (com relaccedilatildeo as linhas) margin=2 (com relaccedilatildeo as colunas)
sort(x) Classifica os elementos de x em ordem crescente para classificar em ordem
decrescente rev(sort(x))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5461
A2ndashResumo de comandosd) Estatiacutesticas e operaccedilotildees matemaacuteticasmean(x) media dos elementos de x
median(x) mediana dos elementos de x
quantile(xprobs=) quantis de x correspondendo a uma dada probabilidadevar(x) ou cov(x) variacircncia dos elementos de x (calculado com n-1)
se x eacute uma matriz a matriz de covariacircncia eacute calculada
sd(x) desvio padracirco de of x
cor(x) matriz de correlaccedilatildeo de x se x for uma matriz ou (1 se x eacute um vector)
cor(x y) correlaccedilatildeo linear entre X e Y ou matriz de correlaccedilatildeo se eles satildeo matrizes
round(x n) arredonda os elementos de x para n casas decimais sum x soma os e emen os e x
prod(x) multilica os elementos de x
max(x) acha o maacuteximo dos elementos de x
min(x) acha o miacutenimo dos elementos de x
range(x) equivalente a c(min(x)max(x)
cumsum(x) um vetor onde o eacutesimo elemento eacute a soma de x[1] ateacute x[i]cumprod(x) um vetor onde o eacutesimo elemento eacute o produto de x[1] ateacute x[i]
cummin(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
cummax(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
sincostanasinacosatanatan2loglog10exp)
log(x base) calcula o logaritmo de x na base=base
weightedmean(x w) media ponderada de x com peso= w
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5561
A2ndashResumo de comandos
e) Corte e extraccedilatildeo de dadosindexaccedilatildeo de Vetores
x[n] n-eacutesimo elemento do vetor
x[-n] todos menos o n-eacutesimo elemento
x[1n] os primeiros n elemento
x[-(1n)] elementos de n+1 ateacute o final
x[c(432)] elementos especificados
x[y gt 5] todo elementos de onde os valores de y satildeo maiores que 5
x x gt 3 amp x lt 5 todo elementos entre 3 e 5
x[nome] elemento denominado nome
indexaccedilatildeo de Matrizes
x[ij] elemento na linha i coluna j
x[i] linha i
x[j] coluna j
x[c(13)] colunas 1 and 3
x[nome] linha nomeada nome
indexaccedilatildeo de data frames
x[[nome]] coluna chamada nome
x$nome equivalente a coluna chamada nome
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5661
A2ndashResumo de comandos
f) Operaccedilatildeo com Matrizest(x) transposta da matrix x
diag(x) retira a diagonal da matrix x
multiplicaccedilatildeo matricial
solve(ab) resove a equaccedilatildeo a x = b em relaccedilatildeo a x
solve(a) matriz inversa de a
rowSum(x) soma das linhas da matrix x
colSum(x) soma das colunas da matrix x
rowMeans x meacutedia das linhas da matrix x
colMeans(x) id meacutedia das colunas da matrix x
g) Graacuteficos (Plotting)plot(x y) diagrama de disperccedilatildeo plot dos pares (xy) num sistema de eixos
coordenadoshist(x) histogram dasfrequecircncias of x
barplot(x) graacutefico de barras of x usar horiz=T ara barras horizontal
pie(x) graacutefico de setores (pie-chart)
boxplot(x)
qqnorm(x) quantis de x em relaccedilatildeo aos valores esperados de uma dist Normal
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5761
A2ndashResumo de comandosparametros dos commando de Graacutefico
type=p especifica o tipo de plot p pontos l linhas b pontos
ligados por linhas o idecircntico mas as linhas passam sobre os pontos h
linhas verticais s escada (steps) os dados satildeo representados pelas alturasverticais
xlim= ylim= especifica os limites inferiores e superiores dos eixos por exemplocom xlim=c(1 10) ou xlim=range(x)
xlab= ylab= nomeia os eixos o nome deve ser do tipo caracter
main= tiacutetulo principal deve ser do tipo caracter
sub= sub-tiacutetulo (escrito em fonte menor)
podem ser usados como bty(tipo de caixa) lwd (lagura da linha) lty (tipo delinha) pch(tipo de ponto) cex xaxs yaxs xaxtyaxt
h) Teste de hipoacuteteses
ttest()proptest()
chisqtest()
aov(formula) analysis of variance model
anova(fit) analysis of variance (or deviance) tables for one or more
fitted model objects
Use o commando gt test para procurar todos os testes disponiacuteveis
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5861
A2ndashResumo de comandos
i) Programmingfunction( arglist ) expr para definer uma funccedilatildeo
return(value)
if(cond) expr
if(cond) consexpr else altexpr
for(var in seq) expr
while(cond) expr
re eat ex r
break
Usar chaves entre commandos dlimitando o iniacutecio e o fim de um grupo decomandos
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5961
A2ndashResumo de comandos
j) Commandos auxiliaries em Graacuteficospoints(x y) adiciona pontos (a opccedilatildeo type= pode ser usada)
lines(x y) adiciona linhas (a opccedilatildeo type= pode ser usada)text(x y labels ) adiciona texto na coordenada (xy) um uso tiacutepico eacute
plot(x y type=n) text(x ynames)
segments(x0 y0 x1 y1) desenha linhas do ponto (x0 y0) ao (x1 y1)
arrows(x0 y0 x1 y1 angle= 30 code=2) desenha seta do ponto
(x0 y0) ao (x1 y1)
abline(ab) desenha uma reta de inclinaccedilatildeo b e intercepto a
abline(v=x) desenha uma reta vertical em x
abline(lsfit(xy)) desenha uma reta da regressatildeo feita em lsfit(xy)
rect(x1 y1 x2 y2) desenha um retacircngulo que a esquerda inferior tem coordenadas(x1 y1) e o limite da direita superiores (x2 y2)
polygon(x y) desenha um poliacutegono que une os pontos com coordenadas X e Y
legend(x y legend) Acrescenta a lenda no ponto (x y) com os siacutembolos
dada pela legend
title()adiciona um tiacutetulo e opcionalmente um sub-tiacutetulo
axis(side) acrescenta um eixo na parte inferior (side = 1) agrave esquerda (2) na partesuperior (3) ou agrave direita (4)
box()desenhar uma caixa em torno do plot
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6061
A2ndashResumo de comandos
k) Comando par (Graphical parameters)Todos estes comando podem ser definidos a niacutevel global com o par () que
especifica os paracircmetros mas tambeacutem muitos podem ser usados comoparametros dos commando de Graacutefico
mfcol vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em colunas
mfrow vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em linhas(matrix for row)
bty controla o tipo de caixa desenhada ao redor do enredo valores permitidos satildeo
o l 7 c u ou se bt =n a caixa natildeo eacute desenhada
lty controla o tipo de linhas pode ser um inteiro ou string (1 solid 2 dashed 3dotted 4 dotdash 5 longdash 6twodash) ou uma string de ateacuteoito caracteres (entre 0 e 9) que especifica o comprimento em pontos oupixels dos elementos desenhados e os espaccedilos em branco por exemplolty=rdquo44rdquo equivale a lty=2
lwd nuacutemero que controla a largura das linhas default 1pch controla o tipo de siacutembolo pode tambeacutem ser um nuacutemero inteiro entre 1 e 25
ps um inteiro que controla o tamanho em pontos de textos e siacutembolos
pty um caracter que especifica o tipo da regiatildeo s quadrado m maacuteximal
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6161
A2ndashResumo de comandos
l) Input and outputreadtable(file) lecirc um arquivo em formato de tabela e cria um quadro de dados a
partir dele o separador default = eacute espaccedilo em branco header = TRUE ler a
primeira linha como um cabeccedilalho de nomes de coluna asis = TRUE paraevitar aque um vetore de caracteres seja convertido em factores usocommentchar = para evitar seja interpretado como um comentaacuteriouso skip = n para pular n linhas antes da leitura de dados consulte a ajudapara as opccedilotildees de linha de nomeaccedilatildeo o tratamento NA e outros
readcsv(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por viacutergulas
readdelim(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por tabulaccedilotildees
readfwf(filewidthsheader=FALSEsep= asis=FALSE)
ler uma tabela de dados em formato fix de largura m para um dataframe widthseacute um vetor inteiro informando os tamanhos dos campos
sink(file) saiacuteda de todos os comandos para um arquivo ateacute aparecer um comando
sink () que desliga writetable(x file=rownames=Tcolnames=Tsep= ) imprime x apoacutes a
conversatildeo para banco de dados
save(file) guarda os objetos especificados () no formato XDR
load()carregar o conjunto de dados salvos com o comando save
data(x) carrega um conjunto de dados especificado
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 361
1) Cap 1 Anaacutelise Exploratoacuteria de DadosNo que se refere a medidas univariadas examinaremos estatiacutesticas de tendecircncia central localidade edispersatildeo (no R mean median var fivenum summary e quantile) graacuteficos de distribuiccedilotildees (no R barplot
pie hist stem e boxplot) Quanto agraves medidas bivariadas examinaremos a interdependecircncia atraveacutes dacovariacircncia correlaccedilatildeo graacutefico de dispersatildeo e tabelas de contigecircncias ( no R var cor plot table) Seraacutetambeacutem feita uma introduccedilatildeo agrave regressatildeo linear e ao meacutetodo de miacutenimos quadrados (no R lsfit e lsprint)
2) Cap 2-a Simulaccedilatildeo do conceito frequumlentista de probabilidadeMeacutetodo de Monte Carlo Atraveacutes de exemplos de jogos ldquocalcularemosrdquo probabilidades via simulaccedilatildeoexaminando a estabilidade da aproximaccedilatildeo
3) Cap 2-b Variaacuteveis Aleatoacuterias
Examinaremos no R os modelos probabiliacutesticos mais comuns de variaacuteveis aleatoacuterias discretas BinomialHipergeomeacutetrica Poisson e variaacuteveis aleatoacuterias contiacutenuas exponencial uniforme Normal e suasderivadas t-Student Qui-quadrada e F No R veremos o efeito da primeira letra a ser usada nos comandos
Assuntos abordados no minicurso
relativos aos modelos probabiliacutesticos ( p-probability d-density q-quantile e r-random)
4) Cap 2-c Simulaccedilatildeo e o Teorema Central do LimiteAtraveacutes de simulaccedilatildeo seraacute estudado o Teorema Central do Limite O efeito do tamanho amostral e dapopulaccedilatildeo de onde a amostra eacute extraiacuteda na aproximaccedilatildeo da distribuiccedilatildeo da meacutedia amostral de x peladistribuiccedilatildeo Normal
5) Cap 3-a Intervalo de confianccedilaSeratildeo feitas simulaccedilotildees para o entendimento do conceito de intervalo de confianccedila atraveacutes da geraccedilatildeopor simulaccedilatildeo de vaacuterias amostras e o posterior exame dos intervalos de confianccedila construiacutedos a partir decada uma dessas amostras
6) Cap 3-b Testes de HipoacutetesesSeratildeo recordados os principais componentes dos testes de hipoacuteteses erros tipos I e II com ascorrespondentes probabilidades p-valor Estudaremos o teste t de Student tanto pareado com natildeopareado para comparaccedilatildeo de duas populaccedilotildees teste quiquadrado para independecircncia e anaacutelise de
variacircncia (no R ttest chisqtest aov)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 461
Trabalhando no RUsaremos aqui trecircs tipos de variaacuteveis
constantes ou vetoresSatildeo os tipos de armazenamento mais baacutesico de uma variaacutevel Se desejarmos que numavariaacutevel x esteja a altura (em cm) de 10 indiviacuteduos faremosgt x = c(172167189157163 156201186179152)Observe que o sinal ldquogtrdquo eacute um prompt do R o comando ldquoc()rdquo combina uma sequumlecircncia devalores numa variaacutevel que aqui foi chamada de ldquoxrdquo o comando ldquo=rdquo eacute de atribuiccedilatildeo
Experimente os comandos gt y= 110 gt x2 gt x+2 gtx+y gtxy gtz=x+y gt c
matr zesSatildeo geralmente bancos de dados com n linhas (as observaccedilotildees) e p colunas (as variaacuteveis)Todas devem ser da mesma caracteriacutestica geralmente numeacutericas Se desejarmos que numavariaacutevel ldquoaprdquo esteja na primeira coluna a altura (em cm) e na segunda o peso (em kg) de10 indiviacuteduos
gt ap = matrix(c(172167189157163 1562011861791526863899075 63951208060) 102) peso e alturaObserve que o comando ldquomatrixrdquo arruma os dados de um vetor numa matriz o default eacuteentrar com o vetor por colunas os paracircmetros ldquo10 2rdquo indicam respectivamente onuacutemero de linhas e colunas o comando indica que o que vem depois na mesma linhaeacute interpretado como uma observaccedilatildeo e natildeo eacute considerado
Experimente os comandos gtmatrix gt pa[12] gt pa[1] gt pa[1]
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 561
Trabalhando no Rdata frameSatildeo usados para armazenamento de bancos de dados com n linhas (as observaccedilotildees) e
p colunas (as variaacuteveis) Podem natildeo ser da mesma caracteriacutestica misturandoalfanumeacutericos com numeacutericos e fatores Este comando seria uacutetil por exemplo para lerum banco de dados gerado no ExcelNo R um data frame seria lido pelo comando readtable Vamos ler a tabela 12 pag 7 dolivro [1] para tanto foi gerado um arquivo no Excel de nome tab1_2tex
Apresentamos aqui a 3 linhas iniciais dos dados de um total de 45 a primeira
linha (apresentada aqui em duas) corresponde aos nomes das variaacuteveisID CATEG IDADE PESO ALTURA IMC Classe_IMC CINTURA ID1A615821540245normal87109080MRID2S696301520273sobrepeso89104086GRID3S617011580281sobrepeso106123086GR
Para armazenarmos os dados no objeto tab12 usaremos o comando
tab12=readtable(fSBPO2010Rtab1_2txt header = T sep = )Observe que header = T serve para indicar que existe uma linha com os nomes dasvariaacuteveis (T significa True) e sep indica o separador no caso viacutergula
Experimente os comandosgtreadtable tab12[2]gt attach(tab12) CATEGgt tab12[3] IDADE
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 661
Cap 1 Analise Exploratoacuteria de Dados (AED)Anaacutelise Exploratoacuteria eacute um conjunto de teacutecnicas de tratamento de dados que semimplicar em uma fundamentaccedilatildeo matemaacutetica mais rigorosa nos ajuda a tomar um
primeiro contato com a informaccedilatildeo disponiacutevel
Em um levantamento de dados a respeito de um determinado assunto eles costumamser representados em uma tabela de dados Em uma tabela de dados cada linhacorresponde a uma observaccedilatildeo e cada coluna corresponde a uma variaacutevel
As variaacuteveis podem ser
Qualitativa nominal ou categoacuterica - seus valores possiacuteveis satildeo diferentes categoriasnatildeo ordenadas
- Quantitativa discreta - seus valores possiacuteveis satildeo resultados de um processo de
contagemQuantitativa contiacutenua - seus valores possiacuteveis podem ser expressos atraveacutes de
nuacutemeros reaisPara descrever o comportamento de uma variaacutevel eacute comum apresentar os valores que
ela assume organizados sob a forma de tabelas de frequecircncia e graacuteficos Os graacuteficosmais comuns para representarem variaacuteveis qualitativas satildeo os graacuteficos de barras e osgraacuteficos de setores
Usar para uma variaacutevel x que deve ser agrupada os comandos barplot(table(x))
pie(table(x)) Os principais argumentos desses comandos satildeo
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 761
barplot(x beside=F horiz=F xlab= xlim= col= space= )Onde
x um vetor de quantidades positivas Os valores em x representam a proporccedilatildeoobrigatoacuterio
beside se as barras seratildeo de lado ou empilhadas essa eacute uma variaacutevel do tiposucesso(Ttrue) ou fracasso (F false) o default eacute F Como exemplo olhar oapecircndice Figura 22
xlab corresponde ao tiacutetulo da variaacutevel x (natildeo obrigatoacuterio) o mesmo para ylab
xlim dois valores que correspondem aos limites no graacutefico da variaacutevel x (ylim)
space - quantidade de espaccedilo agrave esquerda antes de cada barra Se matrix podem ser 2valores o rimeiro barras do mesmo ru o e o se undo entre ru os
Cap1ndashAED barplot pie
col vetor informando as cores das barras Ver apecircndice
pie(x labels = names(x) edges = 200 col=NULL)Onde
x um vetor de quantidades positivas Os valores em x representam as proporccedilotildeeslabels um vetor de caracteres fornecendo nomes para os setores (natildeo obrigatoacuterio)
edges um inteiro A linha do ciacuterculo eacute aproximada por um poliacutegono com este
nuacutemero delados
col vetor informando as cores das barras
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 861
Exemplo
RCQ=c(808686908295928383898184788189877480918685848574768380788587
688387878789878888897877788984) digitar RCQ
rcq=rep(245) rcq[RCQ lt 78]=1 rcq[RCQ gt 85]=3 codificar
rcqt= table(rcq) tabular
names(rcqt)=c(PRMRGR) nomear as categorias
par(mfrow=c(12)) matrix de graficos (1 linha e 2 colunas)
pie(rcqt radius=12 col=c(greenbluepink)) graf de setor
Cap1-AED ndash ex table names par pie barplot
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 961
Pag 48 ndash Figura 22
mat= matrix(c(68154510 66214215 66242519 39161711)44byrow=T)
rownames(mat)=c(18 a 21 anos 22 a 25 anos 26 a 30 anos 31 a 40 anos)colnames(mat)=c(CinTeatSMDEx)
mat1=proptable(mat 2)
par(mfrow=c(12) mai=c(1111) mar=c(5 4 2 2) )
barplot(matbeside=F ylim=c(0250) legend = c(18 a 21 anos 22 a 25 anos
26 a 30 anos 31 a 40 anos) xlab=Contagem)
barplot(mat1 beside=F xlab=Percentagem)
Cap1-AED ndash ex barplot (beside=F)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1061
Pag 44 ndash Figura 21
mat=matrix(c(81823913601818608740)32)
rownames(mat)=c(AtivaSedentaacuteriaTotal)
colnames(mat)=c(NormalSobrepeso)
barplot(t(mat) beside = TRUE space=c(315)
col=gray(c(79))
legend = c(NormalSobrepeso) ylim = c(0 95) ylab= - percentagem)
Cap1-AED ndash ex barplot (beside=T)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1161
Para as variaacuteveis quantitativas os mais usados satildeo os Histogramas e os Diagramas Ramo-folhascujos comandos satildeo gthist(x) gt stem(x) Existe tambeacutem um comando chamado gtcut
que classifica uma variaacutevel numeacuterica Os principais argumentos do comando hist satildeo
hist(x breaks= freq =NULL right=T col=NULL main=xlim=range(breaks) ylim=NULL xlab=xname ylab) Onde
x a variaacutevel numeacuterica a ser discretizada (argumento obrigatoacuterio)
breaks vetor com os limites das classes
freq variaacutevel loacutegica se T (True) corresponde agrave contagem de cada classe se F (False) equivale adensidade de probabilidade a aacuterea total sob a curva (retacircngulos) teria soma 1
right variaacutevel loacutegica se T as classes satildeo fechadas agrave direira se F satildeo fechadas agrave esquerda
Cap1ndashAED stem cut table
main tiacutetulo principal
xlab e ylab roacutetulos dos eixos x e y respectivamente
xlim e ylim Dois valores limites para o graacutefico de cada uma das variaacuteveis
cut(x breaks right = T ) Onde
x a variaacutevel numeacuterica a ser discretizada (argumento obrigatoacuterio)breaks vetor com os limites das classes
right variaacutevel loacutegica se T as classes satildeo fechadas agrave direira se F agrave esquerda
stem(x hellip)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1261
Exemploda pag 15 ndash Figura 18
gt nt=c(18381254193316214231406456822872314
8611996235321861281254244214781182
347515012369214621412573362814071138) digitaccedilatildeo de nt
gt hist(nt breaks=c(50100150200250300350400450500) right=T
main=Histograma Telefonia fixa per capita
xlab=N linhas1000hab ylab=N de obs xlim=c(0500) ylim=c(010) col=grey) histograma da variavel gt
Cap1-AED hist
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1361
Exemploda pag 15 ndash Figura 18
gt nt=c(18381254193316214231406456822872314
8611996235321861281254244214781182
347515012369214621412573362814071138) digitaccedilatildeo de nt
gt stem(trunc(nt10)) o ramo a centena e a folha as dezenas
0 | 8
1 | 1122244441 | 5689
Cap1 AED ndash ex stem table cut
2 | 011123334
2 | 5
3 | 4
3 | 6
4 |
4 | 5
gt table(cut(nt breaks=c(50100150200250300350400450500) right=F))
[50100) [100150) [150200) [200250) [250300) [300350) [350400) [400450) [450500)
1 9 5 8 1 1 1 0 1
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1461
Para uma dada variaacutevel quantitativa uma medida de centralidade eacute um ldquovalor tiacutepicordquo em torno doqual se situam os valores daquela variaacutevelAs medidas de centralidade mais conhecidas satildeoa meacutedia aritmeacutetica e a mediana Usar os comando mean(x) median(y) Por exemplo
gt mean(nt)[1] 2001852gt median(nt)[1] 193Uma medida de localizaccedilatildeo eacute o quantil A funccedilatildeo apropriada do R para obter os quantis de um
vetor numeacuterico x eacute a funccedilatildeo gt quantile(x)Se desejarmos determinar os trecircs quartis usariacuteamos
o comando quantile(xc(02505075))
Se desejarmos o quinto o deacutecimo e o nonageacutesimo percentis usariacuteamos o comandogt quantile(xc(05010090))
Cap1-AED Medidas (estatiacutesticas)
O comando quantile(xp) retorna o quantil de ordem p das observaccedilotildees de x podendo p ser
um vetor Por exemplo
gt quantile(nt c(20 50 95))
20 50 95
1306 1930 3582
Uma medida de dispersatildeo para uma variaacutevel quantitativa eacute um indicador do grau de espalhamento
dos valores da amostra em torno da medida de centralidade As medidas de dispersatildeo mais
conhecidas satildeo a variacircncia o desvio-padratildeo e a distacircncia interquartil=diferenccedila entre o terceiro
e o primeiro quartis
gt var(nt)
[1] 7131464
gt sd(nt)
[1] 84448
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1561
gt q=fivenum(nt) q[4]-q[2] em q estatildeo os 5 nuacutem Subtraiacutemos o Q3 do Q1[1] 92
Os cinco valores x(1) Q1 Q2 Q3 x(n) miacutenimo os trecircs quartis e o maacuteximo satildeoimportantes para se ter uma boa ideacuteia da assimetria dos dados Esse valores podem serobtidos pelo comando fivenum(x) O summary(x) acrescenta tambeacutem a meacutedia ao resultado
Por exemplogt fivenum(nt)[1] 86 141 193 233 457gt summary(nt)
Min 1st Qu Median Mean 3rd Qu Max
860 1410 1930 2002 2330 4570
Cap1-AED IEQ fivenum boxplot
O Box Plot ou Desenho Esquemaacutetico eacute um graacutefico que se costuma utilizar para sintetizarem uma mesma figura vaacuterias informaccedilotildees relativas agrave distribuiccedilatildeo de uma determinadavariaacutevel quantitativa Nele tambeacutem satildeo representadas as observaccedilotildees discrepantesObservaccedilotildees discrepantes ou outliers satildeo observaccedilotildees cujos valores estatildeo muito afastadosdos demais (para mais ou para menos) Essas observaccedilotildees podem afetar de formasubstancial o resultado das anaacutelises estatiacutesticas O comando para usar-lo eacute boxplot(x)
Por exemplo ver fig 125 pag 28gt nt=c(18381254193316214231406456822872314
8611996235321861281254244214781182347515012369214621412573362814071138) digitaccedilatildeo de nt
gt boxplot(nt ylim=c(50500)xlab=N linhas1000hab)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1661
Quando se deseja investigar a relaccedilatildeo entre duas variaacuteveis qualitativas o caminho natural eacutemontar uma tabela de contingecircncia Construir uma tabela de contingecircncia consiste emcolocar nas linhas os valores possiacuteveis de uma variaacutevel e nas colunas os valores possiacuteveis
cruzamentoO comando para fazer a tabela seria gttable(xy)Por exemplogt tab12=readtable(fSBPO2010Rtab1_2txt header = T sep = )gt attach(tab12)
gt table(CATEG Classe_IMC)Classe_IMC
CATEG normal sobrepesoA 18 4
Cap1-AED Relaccedilatildeo entre duas variaacuteveis Qualitativas
Para analisar a relaccedilatildeo entre 2 variaacuteveis atraveacutes de uma tabela de contingecircncia umprocedimento muito uacutetil eacute calcular os percentuais em relaccedilatildeo aos totais das linhas etambeacutem os percentuais em relaccedilatildeo aos totais das colunas Os comandos seriamproptab(x1) para linha e proptab(x2) para coluna Por exemplo usando a tabela 25paacutegina 46
gt mat= matrix(c(68154510 66214215 66242519 39161711)44byrow=T)gt rownames(mat)=c(18 a 21 anos22 a 25 anos26 a 30 anos31 a 40 anos)gt colnames(mat)=c(CinTeatSMDEx)gt mat1=proptable(mat 1) por linha tab 27gt mat2=proptable(mat 2) por coluna tab 28
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1761
Cap1-AED Relaccedilatildeo entre duas variaacuteveis QuantitativaQuando se deseja investigar a relaccedilatildeo entre duas variaacuteveis quantitativas o mais adequado eacutecomeccedilar pela construccedilatildeo de um Diagrama de Dispersatildeo Construir um diagrama de
dispersatildeo para 2 variaacuteveis quantitativas X e Y consiste em localizar pares de valoresobservados (xi yi ) como pontos em um sistema de eixos coordenados O camando seriaplot(xy)Por exemplogtx=c(12345) y=c(11224) plot(xy)
Um indicador do grau de interdependecircncia linear para 2 variaacuteveis quantitativas X e Y eacute ocoeficiente de correlaccedilatildeo rxy que pode assumir qualquer valor real entre -1 e 1 Ocoeficiente de correlaccedilatildeo entre X e Y eacute calculado por uma das duas expressotildees
matemaacuteticas (equivalentes) a seguir
O comando seria cor(xy) Por exemplogtx=c(12345) y=c(11224) cor(xy)
[1] 09036961
sum sum
sum
sumsum
sum
= =
=
=
=
sdotminussdotminus
sdotsdotminus
=
minussdotminus
minusminus
=n
1i
n
1i
1222
i
22
i
n
1i
ii
122
i
2
i
n
1i
n
1i
ii
xy
)yny)(xnx(
yxnyx
)y(y)xx(
)y)(yx(x
r
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1861
Cap1-AED Relaccedilatildeo entre duas variaacuteveis Quantitativa
bull Quando se verifica atraveacutes do coeficiente de correlaccedilatildeo (ou pelo aspecto visual doDiagrama de Dispersatildeo) que existe uma forte relaccedilatildeo linear entre 2 variaacuteveis X e Y
pode ser de interesse calcular a equaccedilatildeo da reta que representa esta relaccedilatildeo entre as2 variaacuteveis y = a + bx A equaccedilatildeo y = a + bx considera que y eacute a variaacutevel dependente(ou variaacutevel resposta) e que x eacute a variaacutevel independente (ou variaacutevel preditora) a serusada para explicar o comportamento da variaacutevel y A equaccedilatildeo da reta pode ser usadapara se antever qual seria o valor y0 da variaacutevel resposta y correspondente a umdeterminado valor x0 da variaacutevel preditora x
bull As foacutermulas que nos permitem calcular os valores de a e b a partir dos dados satildeo
yxn
n
i
n
i sumsum
O coeficiente b mede a inclinaccedilatildeo da reta de Regressatildeo Entatildeo ao passarmos de um pontoa outro sobre a reta b mede a relaccedilatildeo entre as variaccedilotildees de y e de x O coeficiente a medeo valor de y quando x eacute igual a zero ou seja eacute o intercepto da reta de Regressatildeo
O comando para calcular os coeficientes a e b seria gt lsprint(lsfit(xy))gtx=c(12345) y=c(11224)gtreg=lsfit(xy)gtlsprint(reg)
n
x
x
nyx
b2
n
1i
in
1i
2
i
1i
ii
minus
minus
=
sumsum =
=
=
==
x bya sdotminus=e
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1961
Cap 2-a Simulaccedilatildeo do conceito frequumlentistaConceito Frequumlentista de Probabilidade Suponha que o experimentofoi repetido n vezes sempre sob as mesmas condiccedilotildees e que o evento Aocorreu m vezes entre essas n realizaccedilotildees do experimento Entatildeoa fraccedilatildeo mn eacute uma boa aproximaccedilatildeo para a probabilidade de Ase o nuacutemero n de repeticcedilotildees for bastante grande
Simbolicamente P (A) congcongcongcong mn
Exemplo Simulando 100 lanccedilamentos de uma moedaNo R foram simulados 100 lanccedilamentos de uma moeda equilibrada isto eacute
onde as chances de cara e de coroa satildeo iguais Depois de cadalanccedilamento foi observado o nuacutemero acumulado de caras obtidas ateacute essemomen o e o ca cu a a a proporccedil o e caras correspon en e a a e a aseguir estatildeo apresentados os valores correspondentes ao nuacutemeroacumulado de caras ao longo do processo Por exemplo para a jogada denuacutemero 29 o nuacutemero acumulado de caras eacute 13 e a fraccedilatildeo de caras eacute 1329O graacutefico abaixo mostra a evoluccedilatildeo dessa fraccedilatildeo agrave medida que foramfeitos os 100 lanccedilamentos da moeda
Os comandos no R para a elaboraccedilatildeo do graacutefico
gtx=1100 y=cumsum(sample(01100rep=T))gtplot(xy1100 ylim=c(01) xlim=c(0100) pch=16)gtsegments(10510005)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2061
Cap 2-b Variaacuteveis Aleatoacuterias (va)Uma variaacutevel aleatoacuteria (va) eacute uma funccedilatildeo que associa cada elemento de um
espaccedilo amostral a um nuacutemero real As variaacuteveis aleatoacuterias podem ser do
tipo
Discreto se os seus valores pertencem a um conjunto enumeraacutevel de nuacutemerosreais (usualmente valores inteiros)
Contiacutenuo se os seus valores pertencem a um intervalo de nuacutemeros reais
O modelo probabiliacutestico de uma variaacutevel aleatoacuteria X estabelece o padratildeo de
comportamento de sua distribuiccedilatildeo de probabilidadeA fun atildeo de robabilidade de uma v a discreta X eacute definida orp(x)=P[X=x]
A funccedilatildeo de distribuiccedilatildeo acumulada F de uma v a X eacute definida porF(x) = P[Xlelelelex]
Se X eacute uma va discreta que assume os valores x 1
x 2
x 3
x N
entatildeo
bull A meacutedia ou esperanccedila de X eacuteE(X) = x 1 P(X=x 1 ) + x 2 P(X=x 2 ) + x 3 P(X=x 3 ) + + x N P(X=x N )
bull A Variacircncia de X eacute calculada por |Var(X)=(x 1 ndashE(X))2 P(X=x 1 )+(x 2 ndashE(X))2 P(X=x 2 )++(x N ndashE(X))2 P(X=x N )
bull O desvio padratildeo de X eacute igual agrave raiz quadrada natildeo negativa da suavariacircncia DP(X)= Var(X)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2161
Cap 2-b - va e o RO trabalho no R com uma va X estaacute baseado em 4 procedimentos
p probability ndash Gera a probabilidade de um valor de xq quantile ndash Gera o valor x de uma dada probabilidade acumulada pd density ndash Gera o valor da funccedilatildeo densidade num valor x da variaacutevel
Observar que quando a variaacutevel eacute discreta este valor eacute aprobabilidade de x quando a variaacutevel eacute contiacutenua o resultadoeacute a altura da funccedilatildeo densidade de probabilidade
r random ndash Gera n valores do modelo probabiliacutestico em questatildeo
As distribuiccedilotildees que estudaremos estatildeo listadas a seguir depois de cada uma delasentre parecircnteses estaacute o nome no R
(geom) Binomial negativa- Pascal (nbinom)
Entre as contiacutenuas Uniforme (unif ) Exponencial (exp) Normal (norm) t-student (t)quiquadrado (chisq) F (f )
A interligaccedilatildeo dos trecircs primeiros procedimentos pq e d seraacute ilustrada pela distribuiccedilatildeoNormal atraveacutes do graacutefico abaixo
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2261
Cap 2-b - va pnorm e qnormSeja a relaccedilatildeo p = P(Xltx) que aparece na tabela da distribuiccedilatildeo Normal Quiquadrada
t-student e F Para um dado valor de p acha-se um valor de x a procura direta que para aNormal no R corresponderia a pnorm(x 983221 σ) Neste caso devo informar o x e os dois
paracircmetros da distribuiccedilatildeo Normal 983221 e σJaacute a procura inversa seria para um dado valor de x achar um valor de p que para a Normalno R corresponderia a qnorm(p983221σ) Neste outro caso devo informar o valor de p desejado etambeacutem os dois paracircmetros da distribuiccedilatildeo Normal 983221 e σ
Exemplo Seja X a va que corresponde ao peso (em kg) de pessoas de uma certapopulaccedilatildeo com meacutedia 983221=70 Kg e desvio padratildeo σ=8 Kg assim X~ N(983221=70 σ2=82)
Se desejarmosa) P(Xlt80) usaremos no R o comando pnorm(80 70 8) isto eacute x=80 eacute o primeiro paracircmetroenquanto 70 e 8 satildeo paracircmetro especiacuteficos da distribuiccedilatildeo Normal
b) Admita que o peso limite para ser classificado como obeso eacute o valor que corresponde a10 dos mais pesados do populaccedilatildeo Achar este peso limiteO que se pede eacute a funccedilatildeo inversa Dado um valor de p=090 achar um valor de x que deixa90 abaixo dele No R seria qnorm(09 70 8) isto eacute o valor da probabilidade p=09 eacute
o primeiro paracircmetro enquanto 70 e 8 satildeo paracircmetros especiacuteficos da distribuiccedilatildeo NormalSe usarmos a Normal padratildeo z=(x-983221)σ no caso do item a o comando seria pnorm((80-70)8)ou pnorm(125) Repare que neste caso natildeo foi necessaacuterio passar os paracircmetros especiacuteficos daNormal pois 983221=0 e σ =1 coresponde ao default Observaccedilatildeo Sempre que usarmos um p oprimeiro paracircmetro eacute um x e os outros satildeo especiacuteficos da distribuiccedilatildeo em questatildeosempre que usarmos um q o primeiro paracircmetro eacute um p e os outros satildeo especiacuteficosSempre que usarmos um d o primeiro paracircmetro eacute um x
Quando usarmos uma distribuiccedilatildeo discreta o d corresponde aacute probabilidade no ponto x
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2361
Pag 118 ndash Figura 412
x=seq(010001)
plot(xdexp(x 12) type=l xlim=c(012) ylim=c(01) bty=l ylab=f(x) e F(x))
for(i in seq(0 25 001)) segments(i 0 i dexp(i12) col=lightgrey)
abline(v=0 h=0)
points(xdexp(x 12) type=l lwd=2 bty=l)
points(x pexp(x 12) lwd=2 type=l)
segments(250 25pexp(2512))
Cap 2-b - va dexp pexp points segments
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2461
Cap 2-b - va disponiacuteveis no Rrbinom(n size prob) binomialrpois(n lambda) Poissonrgeom(n prob) geometricarhyper(nn m n k) hipergeometricarnbinom(n size prob) binomial negativarunif(n min=0 max=1) uniformerexp(n rate=1) exponentialrnorm(n mean=0 sd=1) Gaussiana (normal)rt(n df) lsquoStudentrsquo (t )rf(n df1 df2) FisherndashSnedecor (F )
rchisq(n df) Quiquadradar amma n sha e scale=1 amma rbeta(n shape1 shape2) betarlnorm(n meanlog=0 sdlog=1) lognormalrcauchy(n location=0 scale=1) Cauchyrweibull(n shape scale=1) Weibullrwilcox(nn m n) Wilcoxonrsquos rank sum statistics
rsignrank(nn n) Wilcoxonrsquos signed rank statisticsrlogis(n location=0 scale=1) logistic
Todas essas distribuiccedilotildees apresentadas por rnome (nome da variaacutevel aleatoacuteria) como vimostrocando a primeira letra e mantendo os paracircmetros especiacuteficos de cada distribuiccedilatildeo(denotados por ) podem ser usadas substituindo a letra ldquor rdquo por
d valor da densidade de probabilidade no ponto x dnome (x )p probabilidade acumulada no ponto x pnome (x )
q quantil correspondente a probabilidade acumulada p dnome (p)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2561
Cap 2-c O Teorema Central do Limite (TCL)O Teorema Central do Limite (abreviadamente TCL) diz respeito ao comportamento da
meacutedia amostral agrave medida que o tamanho n da amostra cresce indefinidamente
Exemplo 31 ndash A distribuiccedilatildeo de renda e o TCLEacute um fato conhecido que a distribuiccedilatildeo da rendapessoal dos habitantes de um paiacutes eacuteusualmente muito desigual ou seja muitosganham pouco e poucos ganham muito Seforem sorteados 200 habitantes desse paiacutes e
com base nas suas rendas mensais
Agora se forem sorteadas 200 amostrascada uma delas contendo 2 habitantesdesse paiacutes e se forem calculadas as 200respectivas meacutedias amostrais a partir delas obteremos o histograma a seguir
Agora cada uma das 200 amostrassorteadas contendo 30 habitantes dessepaiacutes e se forem calculadas as 200 meacutediasamostrais o histograma seria
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2661
Cap 2-c ndash TCL ExemploComo pode ser observado no caso de n = 2 o histograma se aproxima mais de uma curvaNormal do que no caso de n = 1 E no caso de n = 30 a semelhanccedila do histograma com umacurva Normal eacute ainda maior
O Teorema Central do Limite afirma que independentemente de qual seja a
distribuiccedilatildeo original dos Xirsquos a distribuiccedilatildeo de probabilidade de e a
distribuiccedilatildeo Normal com meacutedia micromicromicromicro e variacircncia σσσσ2 n se aproximam cada vez
mais uma da outra agrave medida que n cresce
Portanto mesmo que a distribuiccedilatildeo de probabilidade dos Xirsquos seja desconhecida o Teorema
X n
Central do Limite garante a possibilidade de usarmos o modelo Normal para calcular ainda quede forma aproximada probabilidades relativas agrave meacutedia amostral desde que n sejasuficientemente grande
Exemplo 62 Simulando o efeito do TCL
Para ilustrar o funcionamento do Teorema Central do Limite vamos exibir agora um exemploem que a distribuiccedilatildeo original a partir da qual os dados satildeo gerados eacute uma exponencial modelo
este que daacute origem a uma funccedilatildeo densidade bastante assimeacutetrica (ao contraacuterio do que ocorre
com a curva Normal) A densidade de uma exponencial com paracircmetro eacute dada pela
expressatildeo
No R rexp(n ) simula n valores
λ
0 xλef(x) λx ge= minusλ
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2761
Cap 2-c ndash TCL ExemploA densidade de uma exponencial com paracircmetro eacute dada pela expressatildeo
Gerando dados por simulaccedilatildeo a partir de uma exponencial com λ = 13 para cada um dos
seguintes tamanhos n de amostra 1 2 3 4 5 10 15 e 201 Obtivemos 200 valores da meacutedia amostral 2 Utilizamos esses 200 valores para construir um histograma3 Traccedilamos no mesmo graacutefico uma curva da densidade Normal com E( )=3 e DP( )=3Xn
λ 0 xλef(x) λx ge= minus
Xn n
Os 8 histogramas nos mostram que agrave medida que o tamanho n da amostra cresce
a forma do histograma se aproxima cada vez mais de uma curva Normal
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2861
Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com
simulaccedilotildees - Exponencial
tclexp=function(n N=200 titulo= yl=c(0 4)) iniacutecio da funccedilatildeo ndash tclexpmedias=numeric(N)
for (i in 1N) medias[i]= mean(rexp(n13))
hist(medias xlim=c(-110) ylim=yl freq=F main=titulo)
x=seq(-110 02)
points(x dnorm(x 3 3sqrt(1n) ) type=l lwd=3)
fim da funccedilatildeo
graphicsoff()
par(mfrow=c(33) mai=c(3411))
tclexp(1titulo=n=1)
tclexp(2titulo=n=2)
tclexp(3titulo=n=3)
tclexp(4titulo=n=4)
tclexp(5titulo=n=5)
tclexp(6titulo=n=6)
tclexp(10titulo=n=10yl=c(06))
tclexp(15titulo=n=15yl=c(06))
tclexp(20titulo=n=20yl=c(06))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2961
Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com
simulaccedilotildees - Exponencial
Uma pergunta natural neste ponto serialdquoQuatildeo grande deve ser n para que possamos usar a aproximaccedilatildeo fornecida pelo
TCL com um niacutevel de precisatildeo aceitaacutevelrdquo
A rapidez com que essa convergecircncia se daacute depende de quatildeo distante estaacute a forma
da distribuiccedilatildeo original das Xirsquos de uma curva Normal Em outras palavras se a
distribuiccedilatildeo das Xirsquos jaacute natildeo for muito diferente de uma Normal com um n natildeo muito-
grande (usualmente n ge 30) a aproximaccedilatildeo da distribuiccedilatildeo de por uma Normal
funcionaria adequadamente
No exemplo a seguir vamos apresentar esse fenocircmeno a saber a convergecircncia da
distribuiccedilatildeo de para uma Normal agrave medida que n cresce gerando por simulaccedilatildeo osdados originais a partir de diferentes modelos probabiliacutesticos Em todos os casos a
distribuiccedilatildeo original eacute bem diferente da Normal E(X)=3 e DP(X)=3 No que se refere agrave
Simulaccedilatildeo foi seguida a mesma sequumlecircncia de passos do exemplo anterior
Xn
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3061
Cap 2-c ndash TCL Exemplo
Exponencial
Uniforme
Mistura deNormais
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3161
Como se pode observar
1 No caso da distribuiccedilatildeo uniforme (A) o histograma de jaacute se aproximabastante de uma Normal quando n eacute da ordem de 4
2 Jaacute no caso da distribuiccedilatildeo Exponencial (B) e da mistura de normais
(C) modelos esses que se afastam muito mais de umldquo rdquo
Cap 2-c ndash TCL Exemplo
mostra mais adequada a partir de n em torno de 10
3 No caso do modelo em (C) agrave medida que n cresce tudo se passacomo se houvesse a ldquoerupccedilatildeo de um vulcatildeo dentro do valerdquo
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3261
tclunif=function(nN=100titulo= yl=c(0 4))
medias=numeric(N)for (i in 1N) medias[i]= mean(runif(n 3-3sqrt(3) 3+3sqrt(3)))
hist(medias xlim=c(-610) ylim=yl freq=F main=titulo)
x=seq(-610 02)
points(x dnorm(x 3 3sqrt(1n) ) type=l lwd=3)
medias
Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com
as simulaccedilotildees - Uniforme
grap cso
par(mfrow=c(33) mai=c(3411))
tclunif(1titulo=n=1yl=c(06))
tclunif(2titulo=n=2yl=c(06))
tclunif(3titulo=n=3yl=c(06))
tclunif(4titulo=n=4yl=c(06))tclunif(5titulo=n=5yl=c(06))
tclunif(6titulo=n=6yl=c(06))
tclunif(10titulo=n=10yl=c(06))
tclunif(15titulo=n=15yl=c(06))
tclunif(20titulo=n=20yl=c(06))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3361
X2=c(rnorm(35011) rnorm(15081)) X2 eacute a Populaccedilatildeo de onde retiramos as amostras
br=seq(-2 12 5)
tcl2modas=function(nN=200titulo= yl=c(0 6)) medias=numeric(N)for (i in 1N) medias[i]= mean(sample(X2nrep=T))hist(mediasbreaks=br xlim=c(-212) tcl=-01 ylim=yl xarp=c(-31216)
tck=005 lab=c(5515) freq=F main=titulo)x=seq(-312 02)
Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com
as simulaccedilotildees - Mistura de Normais
points(x dnorm(x med dpsqrt(n) ) type=l lwd=2)
par(mfrow=c(24) mai=c(3011) mar=c(2 2 2 1))
hist(X2 freq=F breaks=seq(-3125) bty=o xlim=c(-212)xarp=c(-31216)tck=005 lab=c(5515) ylim=c(06) main=POPULACcedilAtildeO lwd=2)
tcl2modas(2titulo=n=2)tcl2modas(3titulo=n=3)
tcl2modas(4titulo=n=4)
tcl2modas(5titulo=n=5)
tcl2modas(10titulo=n=10)
tcl2modas(15titulo=n=15)
tcl2modas(25titulo=n=25)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3461
CAP 3-a) Intervalo de ConfianccedilaSeja um estimador pontual do paracircmetro eacute uma variaacutevel aleatoacuteria que varia deamostra para amostra Por isso haacute uma certa dose de incerteza inerente a esse processode estimaccedilatildeo Nosso objetivo agora eacute obter com base nos dados amostrais (da uacutenicaamostra observada) um intervalo ao qual o valor correto do paracircmetro deve ter grandechance de pertencer
bull Detalhando um pouco mais No processo de estimaccedilatildeo por intervalo de um paracircmetro θdevemos determinar um intervalo que contenha o verdadeiro valor do paracircmetro comprobabilidade 1-α onde α eacute um pequeno valor preacute-fixado Este intervalo eacute construiacutedo emgeral em torno do estimador pontual considerando uma margem de erro d de forma aque uma vez fixada a probabilidade 1-α calculemos d tal que P( - d le θ le + d ) = 1 -αChama-se intervalo de confianccedila para θ ao niacutevel 1 - α ao intervalo [ - d + d]
θ $θ
$θ$θ
$θ $θ
$
θ
bull Ou seja o estimador pontual eacute o centro do Intervalo de Confianccedila e o erro absoluto dassociado a define a amplitude desse intervalo O que eacute de fato variaacutevel aleatoacuteria satildeoos extremos do intervalo O paracircmetro tem valor desconhecido natildeo aleatoacuterio (fixo a ser estimado)
Exemplo Intervalo de Confianccedila para a meacutedia populacional com o desvio padratildeo conhecidoO paracircmetro a estimar eacute a meacutedia populacional micro A estimaccedilatildeo seraacute baseada em X1 X2 Xn
uma amostra aleatoacuteria com E(Xi) = micro e var(Xi) = σ2 para todo i = 12 n Queremos que seja
vaacutelida a expressatildeo o que equivale a P [ -d le -micro le d] = 1-α
$θ
X[ ] α1dmicroXP minus=leminus
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3561
bull Lembrando que para n suficientemente grande pelo Teorema Central do Limite a meacutediaamostral segue uma distribuiccedilatildeo que se aproxima da Normal(micromicromicromicro σσσσ2 n) (ou eacute exatamente aNormal(micromicromicromicro σσσσ2 n) no caso em que a distribuiccedilatildeo comum das va Xirsquos jaacute eacute Normal) entatildeo
P [-d le -micromicromicromicro le d] = 1-α rArr 1-α = P [ |Z| le ] Logo d =
bull Faremos uma simulaccedilatildeo para a construccedilatildeo de Intervalos de Confianccedila com 100 amostras dedois tipos de populaccedilatildeo Normal e Exponencial A lista de comandos do R que usamos eacute
ICN = function (N n mu sigma = 3 conf)
plot(0 0 type=n xlim=c(010) ylim=c(0N) bty=l
xlab=Normal ylab=amostras)abline(v=mu)
CAP 3-a) Intervalo de Confianccedila
X
nσ
d
minus
z0 = qnorm(1-((1-conf)2))
sigmaxbarra = sigmasqrt(n)
for (i in 1N)
x = rnorm(n mu sigma)
media = mean(x)
li = media - z0 sigmaxbarrals = media + z0 sigmaxbarra
plotx = c(lils)
ploty = c(ii)
if (li gt mu | ls lt mu) lines(plotxploty col=red)
else lines(plotxploty)
gt ICN(100 25 3 3 95)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3661
CAP 3-a) Intervalo de Confianccedila
ICexp = function (N n lambda conf)
mu=1lambda sigma=1lambda
plot(0 0 type=n xlim=c(010) ylim=c(0N) bty=lxlab=Exponencial ylab=amostras)
abline(v= mu)
z0 = qnorm(1-((1-conf)2))
sigmaxbarra = sigmasqrt(n)
for (i in 1N)
x = rexp(nlambda) me a = mean x
li = media - z0 sigmaxbarra
ls = media + z0 sigmaxbarra
plotx = c(lils)
ploty = c(ii)
if (li gt mu | ls lt mu) lines(plotx ploty col=red)
else lines(plotx ploty)
gt ICexp(100 25 13 95)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3761
CAP 3-b Teste de Hipoacuteteses (TH)O objetivo de um teste de hipoacutetese eacute avaliar a validade de uma afirmaccedilatildeo sobre determinada
caracteriacutestica da populaccedilatildeo usando para isso os dados de uma amostra Essa caracteriacutestica eacute
representada pela va contiacutenua X cujo comportamento probabiliacutestico eacute expresso pela funccedilatildeo dedensidade f com paracircmetro Ө que tem valor desconhecido
Em um teste existem duas hipoacuteteses envolvidas H0 denominada hipoacutetese nula e H1
denominada hipoacutetese alternativa O procedimento de teste de hipoacutetese consiste em estabelecer
um criteacuterio de decisatildeo que leve a Aceitar ou Rejeitar H0 com base nos valores amostrais
A Estatiacutestica de teste eacute uma funccedilatildeo da amostra aleatoacuteria utilizada para definir o criteacuterio de
decisatildeo Estabelecer o criteacuterio de decisatildeo consiste em dividir o conjunto dos valores possiacuteveis
da estatiacutestica de teste em duas partes denominadas Regiatildeo de Aceitaccedilatildeo A e Regiatildeo de
Rejeiccedilatildeo R da hipoacutetese nula
Em um teste de hipoacutetese haacute dois tipos possiacuteveis de erro de decisatildeo
Erro I - Rejeitar H0 quando H0 eacute verdadeira
Erro II - Aceitar H0 quando H0 eacute falsaAs probabilidades de ocorrecircncia dos erros satildeo α = P [ Erro I ] e β = P [ Erro II]
A probabilidade de erro I α eacute o niacutevel de significacircncia do teste cujo valor eacute arbitrado pelo
pesquisador deve ser pequena pois corresponde a probabilidade de um erro (005 ou 001)
O niacutevel criacutetico ou p-valor do teste eacute o menor valor de α para o qual ainda rejeitariacuteamos H0 de
acordo com os dados observados
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3861
CAP 3-b) ndash TH teste tttest(x y = NULL alternative = c(twosided less greater) mu = 0
paired = FALSE varequal = FALSE conflevel = 095 )
Procedimentos de teste de hipoacuteteses com niacutevel de significacircncia α e amostras de tamanho n
UmaAmostra
DuasAmostras
Obs Os testes acima satildeo bilaterais
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3961
CAP 3ndashb) TH exemplo de teste t ndash amostras independentespag233- teste t amostras independente - comparaccedilatildeo log(salaacuterio)
entre os grupos de comeacutercio e de serviccedilo
LogSal=c(1289156912501344145616361573171309060903
0977122011031069128714101496131113371366
1227119114591280115217401649176524101701
1538192419251721154918911534163812071682
120614232010143112651570)
Sal=exp(LogSal)
setor= c(rep(C23) rep(S23))
ttest(Sal[setor==C] Sal[setor==S] varequal=T)
Two Sample t-test
data Sal[setor == C] and Sal[setor == S]
t = -36822 df = 44 p-value = 00006289
alternative hypothesis true difference in means is not equal to 095 percent confidence interval
-23079005 -06751838
sample estimates
mean of x mean of y3786010 5277552
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4061
CAP 3ndashb) TH exemplo de teste t ndash amostra pareadapag237- teste t pareado
P1=c(6315596455545480598065203660986853
8765647785536980827184605572645564)
P2=c(3638306043466455604343523428837155
8238556767443459605968506254473652)
ttest(P1 P2 alt=greater paired = T)
Paired t-test
data P1 and P2
t = 44176 df = 33 p-value = 5072e-05
alternative hypothesis true difference in means is greater than 0
95 percent confidence interval
0716695 Inf
sample estimates
mean of the differences
1161765
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4161
CAP 3ndashb) TH exemplo de teste Quiquadrado chisqtest
pag233- teste Quiquadrado -
tcont=matrix(c(683585251530258 7461761220225) 72)
chisqtest(tcont)
Pearsons Chi-squared test
data tcont- = = - lt -
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4261
CAP 3ndashb) TH exemplo de teste Quiquadrado chisqtestaov(formula data = NULL )
pag244- ANOVA - Comparaccedilatildeo de trecircs raccedilotildees para suinos
A=c(444943514475425134305342453630
322133421040395246294247453959)
B=c(343640545953445432686954414647
6566455739)
C=c(574040364566395025212927283942
21304143294244582849)
aumentoP=c(ABC)
racao=c(rep(A30)rep(B20) rep(C25))
summaryaov(aov(aumentoP ~ racao))
Df Sum Sq Mean Sq F value Pr(gtF)racao 2 15385 7693 56136 0005425
Residuals 72 98666 1370
---
Signif codes 0 lsquorsquo 0001 lsquorsquo 001 lsquorsquo 005 lsquorsquo 01 lsquo rsquo 1
Warning message
In modelmatrixdefault(mt mf contrasts)
variable racao converted to a factor
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4361
ApecircndicesA-1) Apresentaremos aqui algumas figuras
feitas no R na elaboraccedilatildeo do livro
Achamos que o exame desses coacutedigos acompanhado dos resultados podeser um bom aprendizado um exerciacutecio ou talvez uma recordaccedilatildeo do materialaqui exposto
A-2) Resumo de comandosa) Criaccedilatildeo de dados
b) Informaccedilatildeo de uma Variaacutevel
c) Seleccedilatildeo de dados e manipulaccedilatildeo
d) Estatiacutesticas e operaccedilotildees matemaacuteticas
e) Corte e extraccedilatildeo de dados
f) Operaccedilatildeo com Matrizes
g) Graacuteficos (Plotting)
h) Teste de hipoacuteteses
i) Programming
j) Commandos auxiliaries em Graacuteficos
k) Comando par (Graphical parameters)
l) Input and output
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4461
A1) ndash Pag 14 ndash Figura 15
IDADE=c(616961716371726866697267636663636067716360696463667164706366646969646372736871726968687379)
IMC= c(245273281301254301280234268228255228235232203226239243271227237258213243243248219234216214221227227211268278275267286253239258247284235)
par(mfrow=c(12))hist(IDADE breaks=c(6065707580) ylim=c(020) ylab=Nuacutemero de Observaccedilotildees
main= col=grey right = F)hist(IMC breaks=c(200225250275300325)
ylab=Nuacutemero de Observaccedilotildeesmain= col=grey right = F )
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4561
A1) ndash Pag 44 ndash Figura 21
mat=matrix(c(81823913601818608740)32)
rownames(mat)=c(AtivaSedentaacuteriaTotal)colnames(mat)=c(NormalSobrepeso)barplot(t(mat) beside = TRUE space=c(315)
col=gray(c(79))legend = c(NormalSobrepeso) ylim = c(0 95) ylab= - percentagem)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4661
A1) ndash Pag 48 ndash Figura 22
mat= matrix(c(68154510 66214215 66242519 39161711)44byrow=T)
rownames(mat)=c(18 a 21 anos 22 a 25 anos 26 a 30 anos 31 a 40 anos)colnames(mat)=c(CinTeatSMDEx)mat1=mat for (i in 14) mat1[i]lt-mat1[i]100sum(mat1[i]) par(mfrow=c(12) mai=c(1111) mar=c(5 4 2 2) )barplot(matbeside=F ylim=c(0250) legend = c(18 a 21 anos 22 a 25 anos
26 a 30 anos 31 a 40 anos) xlab=Contagem)
barplot(mat1 beside=F xlab=Percentagem)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4761
A1) ndash Pag 52 ndash Figura 25X= c(184114821789235159118762592403190408372147328526471687
09642871437079238215753399242122530314859149806)y =c(01837012540193301620014230140604568022870231400861019960235302186012798991801254018210244160823
0147764068011818941403474539680150133247023685518102146187520214097090257291227
036282905401406510810113849399)plot(x y xlim=c(07) ylim=c(05) pch=16 bty=l xlab=Renda per capita
ylab=Telefonia Fixa per capita)
abline(lsfit(xy))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4861
A1) ndash Pag 109 ndash Figura 45
x=020
y1=dpois(x1) y2=dpois(x3) y3=dpois(x10)names(y1)=x names(y2)=x names(y3)=xpar(mfrow=c(13))plot(y1ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=1)plot(y2ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=3)plot(y3ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=10)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4961
A1) ndash Pag 118 ndash Figura 412
x=seq(010001)
plot(xdexp(x 12) type=l xlim=c(012) ylim=c(01) bty=l ylab=f(x) eF(x))for(i in seq(0 25 001)) segments(i 0 i dexp(i12) col=lightgrey)abline(v=0 h=0)points(xdexp(x 12) type=l lwd=2 bty=l)points(xpexp(x 12) lwd=2 type=l)segments(250 25pexp(2512))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5061
A1) ndash Pag 163 ndash Figura 68
plot(p xlim=c(618) ylim=c(016) type=n bty=l xaxt=n xlab= ylab=
cexaxis=6)for (i in 1015) rect(i-50 i+5 dbinom(i304) col=lightgrey) lty=2)segments(i0idbinom(i304) lty=2)
x=seq(61801) lines(x dnorm(x12sqrt(72)) lwd=2)x=seq(61801) lines(x dnorm(x12sqrt(72)) lwd=2)
axis(1 916 cexaxis=9) ax s seq cexax s=
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5161
A1) ndash Pag 198 ndash Figura 78
x1=seq(-4402)plot(x1dnorm(x1) type=l lwd=3 xlab= ylab= )lines(x1 dt(x11)) lines(x1 dt(x12)) lines(x1 dt(x15))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5261
A2ndashResumo de comandos
a)Criaccedilatildeo de dados
c()funccedilatildeo geneacuterica para combinar argumentos com o formando de um vetor fromto gera uma sequecircnce ldquordquo tem prioridade de operator pe13 + 1 is ldquo234rdquo
seq(fromtoby) gera uma sequecircncia by= especifica incremento
length= especifica um comprimento desejado
rep(xtimes) replicate x onuacutemero times de vezes use each= para repetir cada
elemento de x rep(c(123)2) gera 1 2 3 1 2 3 rep(c(12)each=2) gera 1 1 2 2
matrix(xnrow=ncol=) matrix elementos de x se reciclam caso x
rbind()combina vetores em linhas num estrutura de matrizes de dados
cbind()combina vetores em colunas num estrutura de matrizes de dados
array(xdim=) matriz com dados x especificar dimensotildees como dim=c(342)
elementos de x se reciclam caso x natildeo seja suficientemente grande
factor(xlevels=) codifica um vetor x como um fator gl(nklength=nklabels=1n) gerar niacuteveis (fatores) especificando
o padratildeo de seus niacuteveis k eacute o nuacutemero de niacuteveis e n eacute o nuacutemero de repeticcedilotildees
dataframe() criar um banco de dados Por exemplo
dataframe(v=14ch=c(gBcasad)n=5)
list()criar uma lista de argumentos Por exemplo list(a=c(12)b=hic=3i)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5361
A2ndashResumo de comandos
b) Informaccedilatildeo de uma Variaacutevellength(x) nuacutemero de elementos em x
dim(x) Obter ou definir a dimensatildeo de um objeto dim (x) = c(32)dimnames(x) Obter ou definir os nomes das dimensotildees de um objeto
nrow(x) nuacutemero de linhas
ncol(x) nuacutemero de colunas
c) Seleccedilatildeo de dados e manipulaccedilatildeochoose(n k) calcula a combinaccedilatildeo de elementos escolhidos entre n
resultando n [(n-k) k]
cut(xbreaks) divide x em intervalos (fatores) breaks eacute o nuacutemero de intervalos de
corte ou um vetor com os valores especiacuteficos
table(x) retorna uma tabela com as quantidades dos diferentes valores de x
(tipicamente para variaacuteveis dos tipos inteiros ou fatores)
sample(x size) retira aleatoriamente com e sem reposiccedilatildeo elementos detamanho SIZE do vetor x a opccedilatildeo replace = TRUE permite a retirada com reposiccedilatildeo
proptable(xmargin=) transforma a tabela como tabela de propoccedilatildeo
marginal margin=1 (com relaccedilatildeo as linhas) margin=2 (com relaccedilatildeo as colunas)
sort(x) Classifica os elementos de x em ordem crescente para classificar em ordem
decrescente rev(sort(x))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5461
A2ndashResumo de comandosd) Estatiacutesticas e operaccedilotildees matemaacuteticasmean(x) media dos elementos de x
median(x) mediana dos elementos de x
quantile(xprobs=) quantis de x correspondendo a uma dada probabilidadevar(x) ou cov(x) variacircncia dos elementos de x (calculado com n-1)
se x eacute uma matriz a matriz de covariacircncia eacute calculada
sd(x) desvio padracirco de of x
cor(x) matriz de correlaccedilatildeo de x se x for uma matriz ou (1 se x eacute um vector)
cor(x y) correlaccedilatildeo linear entre X e Y ou matriz de correlaccedilatildeo se eles satildeo matrizes
round(x n) arredonda os elementos de x para n casas decimais sum x soma os e emen os e x
prod(x) multilica os elementos de x
max(x) acha o maacuteximo dos elementos de x
min(x) acha o miacutenimo dos elementos de x
range(x) equivalente a c(min(x)max(x)
cumsum(x) um vetor onde o eacutesimo elemento eacute a soma de x[1] ateacute x[i]cumprod(x) um vetor onde o eacutesimo elemento eacute o produto de x[1] ateacute x[i]
cummin(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
cummax(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
sincostanasinacosatanatan2loglog10exp)
log(x base) calcula o logaritmo de x na base=base
weightedmean(x w) media ponderada de x com peso= w
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5561
A2ndashResumo de comandos
e) Corte e extraccedilatildeo de dadosindexaccedilatildeo de Vetores
x[n] n-eacutesimo elemento do vetor
x[-n] todos menos o n-eacutesimo elemento
x[1n] os primeiros n elemento
x[-(1n)] elementos de n+1 ateacute o final
x[c(432)] elementos especificados
x[y gt 5] todo elementos de onde os valores de y satildeo maiores que 5
x x gt 3 amp x lt 5 todo elementos entre 3 e 5
x[nome] elemento denominado nome
indexaccedilatildeo de Matrizes
x[ij] elemento na linha i coluna j
x[i] linha i
x[j] coluna j
x[c(13)] colunas 1 and 3
x[nome] linha nomeada nome
indexaccedilatildeo de data frames
x[[nome]] coluna chamada nome
x$nome equivalente a coluna chamada nome
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5661
A2ndashResumo de comandos
f) Operaccedilatildeo com Matrizest(x) transposta da matrix x
diag(x) retira a diagonal da matrix x
multiplicaccedilatildeo matricial
solve(ab) resove a equaccedilatildeo a x = b em relaccedilatildeo a x
solve(a) matriz inversa de a
rowSum(x) soma das linhas da matrix x
colSum(x) soma das colunas da matrix x
rowMeans x meacutedia das linhas da matrix x
colMeans(x) id meacutedia das colunas da matrix x
g) Graacuteficos (Plotting)plot(x y) diagrama de disperccedilatildeo plot dos pares (xy) num sistema de eixos
coordenadoshist(x) histogram dasfrequecircncias of x
barplot(x) graacutefico de barras of x usar horiz=T ara barras horizontal
pie(x) graacutefico de setores (pie-chart)
boxplot(x)
qqnorm(x) quantis de x em relaccedilatildeo aos valores esperados de uma dist Normal
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5761
A2ndashResumo de comandosparametros dos commando de Graacutefico
type=p especifica o tipo de plot p pontos l linhas b pontos
ligados por linhas o idecircntico mas as linhas passam sobre os pontos h
linhas verticais s escada (steps) os dados satildeo representados pelas alturasverticais
xlim= ylim= especifica os limites inferiores e superiores dos eixos por exemplocom xlim=c(1 10) ou xlim=range(x)
xlab= ylab= nomeia os eixos o nome deve ser do tipo caracter
main= tiacutetulo principal deve ser do tipo caracter
sub= sub-tiacutetulo (escrito em fonte menor)
podem ser usados como bty(tipo de caixa) lwd (lagura da linha) lty (tipo delinha) pch(tipo de ponto) cex xaxs yaxs xaxtyaxt
h) Teste de hipoacuteteses
ttest()proptest()
chisqtest()
aov(formula) analysis of variance model
anova(fit) analysis of variance (or deviance) tables for one or more
fitted model objects
Use o commando gt test para procurar todos os testes disponiacuteveis
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5861
A2ndashResumo de comandos
i) Programmingfunction( arglist ) expr para definer uma funccedilatildeo
return(value)
if(cond) expr
if(cond) consexpr else altexpr
for(var in seq) expr
while(cond) expr
re eat ex r
break
Usar chaves entre commandos dlimitando o iniacutecio e o fim de um grupo decomandos
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5961
A2ndashResumo de comandos
j) Commandos auxiliaries em Graacuteficospoints(x y) adiciona pontos (a opccedilatildeo type= pode ser usada)
lines(x y) adiciona linhas (a opccedilatildeo type= pode ser usada)text(x y labels ) adiciona texto na coordenada (xy) um uso tiacutepico eacute
plot(x y type=n) text(x ynames)
segments(x0 y0 x1 y1) desenha linhas do ponto (x0 y0) ao (x1 y1)
arrows(x0 y0 x1 y1 angle= 30 code=2) desenha seta do ponto
(x0 y0) ao (x1 y1)
abline(ab) desenha uma reta de inclinaccedilatildeo b e intercepto a
abline(v=x) desenha uma reta vertical em x
abline(lsfit(xy)) desenha uma reta da regressatildeo feita em lsfit(xy)
rect(x1 y1 x2 y2) desenha um retacircngulo que a esquerda inferior tem coordenadas(x1 y1) e o limite da direita superiores (x2 y2)
polygon(x y) desenha um poliacutegono que une os pontos com coordenadas X e Y
legend(x y legend) Acrescenta a lenda no ponto (x y) com os siacutembolos
dada pela legend
title()adiciona um tiacutetulo e opcionalmente um sub-tiacutetulo
axis(side) acrescenta um eixo na parte inferior (side = 1) agrave esquerda (2) na partesuperior (3) ou agrave direita (4)
box()desenhar uma caixa em torno do plot
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6061
A2ndashResumo de comandos
k) Comando par (Graphical parameters)Todos estes comando podem ser definidos a niacutevel global com o par () que
especifica os paracircmetros mas tambeacutem muitos podem ser usados comoparametros dos commando de Graacutefico
mfcol vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em colunas
mfrow vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em linhas(matrix for row)
bty controla o tipo de caixa desenhada ao redor do enredo valores permitidos satildeo
o l 7 c u ou se bt =n a caixa natildeo eacute desenhada
lty controla o tipo de linhas pode ser um inteiro ou string (1 solid 2 dashed 3dotted 4 dotdash 5 longdash 6twodash) ou uma string de ateacuteoito caracteres (entre 0 e 9) que especifica o comprimento em pontos oupixels dos elementos desenhados e os espaccedilos em branco por exemplolty=rdquo44rdquo equivale a lty=2
lwd nuacutemero que controla a largura das linhas default 1pch controla o tipo de siacutembolo pode tambeacutem ser um nuacutemero inteiro entre 1 e 25
ps um inteiro que controla o tamanho em pontos de textos e siacutembolos
pty um caracter que especifica o tipo da regiatildeo s quadrado m maacuteximal
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6161
A2ndashResumo de comandos
l) Input and outputreadtable(file) lecirc um arquivo em formato de tabela e cria um quadro de dados a
partir dele o separador default = eacute espaccedilo em branco header = TRUE ler a
primeira linha como um cabeccedilalho de nomes de coluna asis = TRUE paraevitar aque um vetore de caracteres seja convertido em factores usocommentchar = para evitar seja interpretado como um comentaacuteriouso skip = n para pular n linhas antes da leitura de dados consulte a ajudapara as opccedilotildees de linha de nomeaccedilatildeo o tratamento NA e outros
readcsv(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por viacutergulas
readdelim(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por tabulaccedilotildees
readfwf(filewidthsheader=FALSEsep= asis=FALSE)
ler uma tabela de dados em formato fix de largura m para um dataframe widthseacute um vetor inteiro informando os tamanhos dos campos
sink(file) saiacuteda de todos os comandos para um arquivo ateacute aparecer um comando
sink () que desliga writetable(x file=rownames=Tcolnames=Tsep= ) imprime x apoacutes a
conversatildeo para banco de dados
save(file) guarda os objetos especificados () no formato XDR
load()carregar o conjunto de dados salvos com o comando save
data(x) carrega um conjunto de dados especificado
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 461
Trabalhando no RUsaremos aqui trecircs tipos de variaacuteveis
constantes ou vetoresSatildeo os tipos de armazenamento mais baacutesico de uma variaacutevel Se desejarmos que numavariaacutevel x esteja a altura (em cm) de 10 indiviacuteduos faremosgt x = c(172167189157163 156201186179152)Observe que o sinal ldquogtrdquo eacute um prompt do R o comando ldquoc()rdquo combina uma sequumlecircncia devalores numa variaacutevel que aqui foi chamada de ldquoxrdquo o comando ldquo=rdquo eacute de atribuiccedilatildeo
Experimente os comandos gt y= 110 gt x2 gt x+2 gtx+y gtxy gtz=x+y gt c
matr zesSatildeo geralmente bancos de dados com n linhas (as observaccedilotildees) e p colunas (as variaacuteveis)Todas devem ser da mesma caracteriacutestica geralmente numeacutericas Se desejarmos que numavariaacutevel ldquoaprdquo esteja na primeira coluna a altura (em cm) e na segunda o peso (em kg) de10 indiviacuteduos
gt ap = matrix(c(172167189157163 1562011861791526863899075 63951208060) 102) peso e alturaObserve que o comando ldquomatrixrdquo arruma os dados de um vetor numa matriz o default eacuteentrar com o vetor por colunas os paracircmetros ldquo10 2rdquo indicam respectivamente onuacutemero de linhas e colunas o comando indica que o que vem depois na mesma linhaeacute interpretado como uma observaccedilatildeo e natildeo eacute considerado
Experimente os comandos gtmatrix gt pa[12] gt pa[1] gt pa[1]
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 561
Trabalhando no Rdata frameSatildeo usados para armazenamento de bancos de dados com n linhas (as observaccedilotildees) e
p colunas (as variaacuteveis) Podem natildeo ser da mesma caracteriacutestica misturandoalfanumeacutericos com numeacutericos e fatores Este comando seria uacutetil por exemplo para lerum banco de dados gerado no ExcelNo R um data frame seria lido pelo comando readtable Vamos ler a tabela 12 pag 7 dolivro [1] para tanto foi gerado um arquivo no Excel de nome tab1_2tex
Apresentamos aqui a 3 linhas iniciais dos dados de um total de 45 a primeira
linha (apresentada aqui em duas) corresponde aos nomes das variaacuteveisID CATEG IDADE PESO ALTURA IMC Classe_IMC CINTURA ID1A615821540245normal87109080MRID2S696301520273sobrepeso89104086GRID3S617011580281sobrepeso106123086GR
Para armazenarmos os dados no objeto tab12 usaremos o comando
tab12=readtable(fSBPO2010Rtab1_2txt header = T sep = )Observe que header = T serve para indicar que existe uma linha com os nomes dasvariaacuteveis (T significa True) e sep indica o separador no caso viacutergula
Experimente os comandosgtreadtable tab12[2]gt attach(tab12) CATEGgt tab12[3] IDADE
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 661
Cap 1 Analise Exploratoacuteria de Dados (AED)Anaacutelise Exploratoacuteria eacute um conjunto de teacutecnicas de tratamento de dados que semimplicar em uma fundamentaccedilatildeo matemaacutetica mais rigorosa nos ajuda a tomar um
primeiro contato com a informaccedilatildeo disponiacutevel
Em um levantamento de dados a respeito de um determinado assunto eles costumamser representados em uma tabela de dados Em uma tabela de dados cada linhacorresponde a uma observaccedilatildeo e cada coluna corresponde a uma variaacutevel
As variaacuteveis podem ser
Qualitativa nominal ou categoacuterica - seus valores possiacuteveis satildeo diferentes categoriasnatildeo ordenadas
- Quantitativa discreta - seus valores possiacuteveis satildeo resultados de um processo de
contagemQuantitativa contiacutenua - seus valores possiacuteveis podem ser expressos atraveacutes de
nuacutemeros reaisPara descrever o comportamento de uma variaacutevel eacute comum apresentar os valores que
ela assume organizados sob a forma de tabelas de frequecircncia e graacuteficos Os graacuteficosmais comuns para representarem variaacuteveis qualitativas satildeo os graacuteficos de barras e osgraacuteficos de setores
Usar para uma variaacutevel x que deve ser agrupada os comandos barplot(table(x))
pie(table(x)) Os principais argumentos desses comandos satildeo
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 761
barplot(x beside=F horiz=F xlab= xlim= col= space= )Onde
x um vetor de quantidades positivas Os valores em x representam a proporccedilatildeoobrigatoacuterio
beside se as barras seratildeo de lado ou empilhadas essa eacute uma variaacutevel do tiposucesso(Ttrue) ou fracasso (F false) o default eacute F Como exemplo olhar oapecircndice Figura 22
xlab corresponde ao tiacutetulo da variaacutevel x (natildeo obrigatoacuterio) o mesmo para ylab
xlim dois valores que correspondem aos limites no graacutefico da variaacutevel x (ylim)
space - quantidade de espaccedilo agrave esquerda antes de cada barra Se matrix podem ser 2valores o rimeiro barras do mesmo ru o e o se undo entre ru os
Cap1ndashAED barplot pie
col vetor informando as cores das barras Ver apecircndice
pie(x labels = names(x) edges = 200 col=NULL)Onde
x um vetor de quantidades positivas Os valores em x representam as proporccedilotildeeslabels um vetor de caracteres fornecendo nomes para os setores (natildeo obrigatoacuterio)
edges um inteiro A linha do ciacuterculo eacute aproximada por um poliacutegono com este
nuacutemero delados
col vetor informando as cores das barras
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 861
Exemplo
RCQ=c(808686908295928383898184788189877480918685848574768380788587
688387878789878888897877788984) digitar RCQ
rcq=rep(245) rcq[RCQ lt 78]=1 rcq[RCQ gt 85]=3 codificar
rcqt= table(rcq) tabular
names(rcqt)=c(PRMRGR) nomear as categorias
par(mfrow=c(12)) matrix de graficos (1 linha e 2 colunas)
pie(rcqt radius=12 col=c(greenbluepink)) graf de setor
Cap1-AED ndash ex table names par pie barplot
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 961
Pag 48 ndash Figura 22
mat= matrix(c(68154510 66214215 66242519 39161711)44byrow=T)
rownames(mat)=c(18 a 21 anos 22 a 25 anos 26 a 30 anos 31 a 40 anos)colnames(mat)=c(CinTeatSMDEx)
mat1=proptable(mat 2)
par(mfrow=c(12) mai=c(1111) mar=c(5 4 2 2) )
barplot(matbeside=F ylim=c(0250) legend = c(18 a 21 anos 22 a 25 anos
26 a 30 anos 31 a 40 anos) xlab=Contagem)
barplot(mat1 beside=F xlab=Percentagem)
Cap1-AED ndash ex barplot (beside=F)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1061
Pag 44 ndash Figura 21
mat=matrix(c(81823913601818608740)32)
rownames(mat)=c(AtivaSedentaacuteriaTotal)
colnames(mat)=c(NormalSobrepeso)
barplot(t(mat) beside = TRUE space=c(315)
col=gray(c(79))
legend = c(NormalSobrepeso) ylim = c(0 95) ylab= - percentagem)
Cap1-AED ndash ex barplot (beside=T)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1161
Para as variaacuteveis quantitativas os mais usados satildeo os Histogramas e os Diagramas Ramo-folhascujos comandos satildeo gthist(x) gt stem(x) Existe tambeacutem um comando chamado gtcut
que classifica uma variaacutevel numeacuterica Os principais argumentos do comando hist satildeo
hist(x breaks= freq =NULL right=T col=NULL main=xlim=range(breaks) ylim=NULL xlab=xname ylab) Onde
x a variaacutevel numeacuterica a ser discretizada (argumento obrigatoacuterio)
breaks vetor com os limites das classes
freq variaacutevel loacutegica se T (True) corresponde agrave contagem de cada classe se F (False) equivale adensidade de probabilidade a aacuterea total sob a curva (retacircngulos) teria soma 1
right variaacutevel loacutegica se T as classes satildeo fechadas agrave direira se F satildeo fechadas agrave esquerda
Cap1ndashAED stem cut table
main tiacutetulo principal
xlab e ylab roacutetulos dos eixos x e y respectivamente
xlim e ylim Dois valores limites para o graacutefico de cada uma das variaacuteveis
cut(x breaks right = T ) Onde
x a variaacutevel numeacuterica a ser discretizada (argumento obrigatoacuterio)breaks vetor com os limites das classes
right variaacutevel loacutegica se T as classes satildeo fechadas agrave direira se F agrave esquerda
stem(x hellip)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1261
Exemploda pag 15 ndash Figura 18
gt nt=c(18381254193316214231406456822872314
8611996235321861281254244214781182
347515012369214621412573362814071138) digitaccedilatildeo de nt
gt hist(nt breaks=c(50100150200250300350400450500) right=T
main=Histograma Telefonia fixa per capita
xlab=N linhas1000hab ylab=N de obs xlim=c(0500) ylim=c(010) col=grey) histograma da variavel gt
Cap1-AED hist
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1361
Exemploda pag 15 ndash Figura 18
gt nt=c(18381254193316214231406456822872314
8611996235321861281254244214781182
347515012369214621412573362814071138) digitaccedilatildeo de nt
gt stem(trunc(nt10)) o ramo a centena e a folha as dezenas
0 | 8
1 | 1122244441 | 5689
Cap1 AED ndash ex stem table cut
2 | 011123334
2 | 5
3 | 4
3 | 6
4 |
4 | 5
gt table(cut(nt breaks=c(50100150200250300350400450500) right=F))
[50100) [100150) [150200) [200250) [250300) [300350) [350400) [400450) [450500)
1 9 5 8 1 1 1 0 1
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1461
Para uma dada variaacutevel quantitativa uma medida de centralidade eacute um ldquovalor tiacutepicordquo em torno doqual se situam os valores daquela variaacutevelAs medidas de centralidade mais conhecidas satildeoa meacutedia aritmeacutetica e a mediana Usar os comando mean(x) median(y) Por exemplo
gt mean(nt)[1] 2001852gt median(nt)[1] 193Uma medida de localizaccedilatildeo eacute o quantil A funccedilatildeo apropriada do R para obter os quantis de um
vetor numeacuterico x eacute a funccedilatildeo gt quantile(x)Se desejarmos determinar os trecircs quartis usariacuteamos
o comando quantile(xc(02505075))
Se desejarmos o quinto o deacutecimo e o nonageacutesimo percentis usariacuteamos o comandogt quantile(xc(05010090))
Cap1-AED Medidas (estatiacutesticas)
O comando quantile(xp) retorna o quantil de ordem p das observaccedilotildees de x podendo p ser
um vetor Por exemplo
gt quantile(nt c(20 50 95))
20 50 95
1306 1930 3582
Uma medida de dispersatildeo para uma variaacutevel quantitativa eacute um indicador do grau de espalhamento
dos valores da amostra em torno da medida de centralidade As medidas de dispersatildeo mais
conhecidas satildeo a variacircncia o desvio-padratildeo e a distacircncia interquartil=diferenccedila entre o terceiro
e o primeiro quartis
gt var(nt)
[1] 7131464
gt sd(nt)
[1] 84448
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1561
gt q=fivenum(nt) q[4]-q[2] em q estatildeo os 5 nuacutem Subtraiacutemos o Q3 do Q1[1] 92
Os cinco valores x(1) Q1 Q2 Q3 x(n) miacutenimo os trecircs quartis e o maacuteximo satildeoimportantes para se ter uma boa ideacuteia da assimetria dos dados Esse valores podem serobtidos pelo comando fivenum(x) O summary(x) acrescenta tambeacutem a meacutedia ao resultado
Por exemplogt fivenum(nt)[1] 86 141 193 233 457gt summary(nt)
Min 1st Qu Median Mean 3rd Qu Max
860 1410 1930 2002 2330 4570
Cap1-AED IEQ fivenum boxplot
O Box Plot ou Desenho Esquemaacutetico eacute um graacutefico que se costuma utilizar para sintetizarem uma mesma figura vaacuterias informaccedilotildees relativas agrave distribuiccedilatildeo de uma determinadavariaacutevel quantitativa Nele tambeacutem satildeo representadas as observaccedilotildees discrepantesObservaccedilotildees discrepantes ou outliers satildeo observaccedilotildees cujos valores estatildeo muito afastadosdos demais (para mais ou para menos) Essas observaccedilotildees podem afetar de formasubstancial o resultado das anaacutelises estatiacutesticas O comando para usar-lo eacute boxplot(x)
Por exemplo ver fig 125 pag 28gt nt=c(18381254193316214231406456822872314
8611996235321861281254244214781182347515012369214621412573362814071138) digitaccedilatildeo de nt
gt boxplot(nt ylim=c(50500)xlab=N linhas1000hab)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1661
Quando se deseja investigar a relaccedilatildeo entre duas variaacuteveis qualitativas o caminho natural eacutemontar uma tabela de contingecircncia Construir uma tabela de contingecircncia consiste emcolocar nas linhas os valores possiacuteveis de uma variaacutevel e nas colunas os valores possiacuteveis
cruzamentoO comando para fazer a tabela seria gttable(xy)Por exemplogt tab12=readtable(fSBPO2010Rtab1_2txt header = T sep = )gt attach(tab12)
gt table(CATEG Classe_IMC)Classe_IMC
CATEG normal sobrepesoA 18 4
Cap1-AED Relaccedilatildeo entre duas variaacuteveis Qualitativas
Para analisar a relaccedilatildeo entre 2 variaacuteveis atraveacutes de uma tabela de contingecircncia umprocedimento muito uacutetil eacute calcular os percentuais em relaccedilatildeo aos totais das linhas etambeacutem os percentuais em relaccedilatildeo aos totais das colunas Os comandos seriamproptab(x1) para linha e proptab(x2) para coluna Por exemplo usando a tabela 25paacutegina 46
gt mat= matrix(c(68154510 66214215 66242519 39161711)44byrow=T)gt rownames(mat)=c(18 a 21 anos22 a 25 anos26 a 30 anos31 a 40 anos)gt colnames(mat)=c(CinTeatSMDEx)gt mat1=proptable(mat 1) por linha tab 27gt mat2=proptable(mat 2) por coluna tab 28
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1761
Cap1-AED Relaccedilatildeo entre duas variaacuteveis QuantitativaQuando se deseja investigar a relaccedilatildeo entre duas variaacuteveis quantitativas o mais adequado eacutecomeccedilar pela construccedilatildeo de um Diagrama de Dispersatildeo Construir um diagrama de
dispersatildeo para 2 variaacuteveis quantitativas X e Y consiste em localizar pares de valoresobservados (xi yi ) como pontos em um sistema de eixos coordenados O camando seriaplot(xy)Por exemplogtx=c(12345) y=c(11224) plot(xy)
Um indicador do grau de interdependecircncia linear para 2 variaacuteveis quantitativas X e Y eacute ocoeficiente de correlaccedilatildeo rxy que pode assumir qualquer valor real entre -1 e 1 Ocoeficiente de correlaccedilatildeo entre X e Y eacute calculado por uma das duas expressotildees
matemaacuteticas (equivalentes) a seguir
O comando seria cor(xy) Por exemplogtx=c(12345) y=c(11224) cor(xy)
[1] 09036961
sum sum
sum
sumsum
sum
= =
=
=
=
sdotminussdotminus
sdotsdotminus
=
minussdotminus
minusminus
=n
1i
n
1i
1222
i
22
i
n
1i
ii
122
i
2
i
n
1i
n
1i
ii
xy
)yny)(xnx(
yxnyx
)y(y)xx(
)y)(yx(x
r
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1861
Cap1-AED Relaccedilatildeo entre duas variaacuteveis Quantitativa
bull Quando se verifica atraveacutes do coeficiente de correlaccedilatildeo (ou pelo aspecto visual doDiagrama de Dispersatildeo) que existe uma forte relaccedilatildeo linear entre 2 variaacuteveis X e Y
pode ser de interesse calcular a equaccedilatildeo da reta que representa esta relaccedilatildeo entre as2 variaacuteveis y = a + bx A equaccedilatildeo y = a + bx considera que y eacute a variaacutevel dependente(ou variaacutevel resposta) e que x eacute a variaacutevel independente (ou variaacutevel preditora) a serusada para explicar o comportamento da variaacutevel y A equaccedilatildeo da reta pode ser usadapara se antever qual seria o valor y0 da variaacutevel resposta y correspondente a umdeterminado valor x0 da variaacutevel preditora x
bull As foacutermulas que nos permitem calcular os valores de a e b a partir dos dados satildeo
yxn
n
i
n
i sumsum
O coeficiente b mede a inclinaccedilatildeo da reta de Regressatildeo Entatildeo ao passarmos de um pontoa outro sobre a reta b mede a relaccedilatildeo entre as variaccedilotildees de y e de x O coeficiente a medeo valor de y quando x eacute igual a zero ou seja eacute o intercepto da reta de Regressatildeo
O comando para calcular os coeficientes a e b seria gt lsprint(lsfit(xy))gtx=c(12345) y=c(11224)gtreg=lsfit(xy)gtlsprint(reg)
n
x
x
nyx
b2
n
1i
in
1i
2
i
1i
ii
minus
minus
=
sumsum =
=
=
==
x bya sdotminus=e
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1961
Cap 2-a Simulaccedilatildeo do conceito frequumlentistaConceito Frequumlentista de Probabilidade Suponha que o experimentofoi repetido n vezes sempre sob as mesmas condiccedilotildees e que o evento Aocorreu m vezes entre essas n realizaccedilotildees do experimento Entatildeoa fraccedilatildeo mn eacute uma boa aproximaccedilatildeo para a probabilidade de Ase o nuacutemero n de repeticcedilotildees for bastante grande
Simbolicamente P (A) congcongcongcong mn
Exemplo Simulando 100 lanccedilamentos de uma moedaNo R foram simulados 100 lanccedilamentos de uma moeda equilibrada isto eacute
onde as chances de cara e de coroa satildeo iguais Depois de cadalanccedilamento foi observado o nuacutemero acumulado de caras obtidas ateacute essemomen o e o ca cu a a a proporccedil o e caras correspon en e a a e a aseguir estatildeo apresentados os valores correspondentes ao nuacutemeroacumulado de caras ao longo do processo Por exemplo para a jogada denuacutemero 29 o nuacutemero acumulado de caras eacute 13 e a fraccedilatildeo de caras eacute 1329O graacutefico abaixo mostra a evoluccedilatildeo dessa fraccedilatildeo agrave medida que foramfeitos os 100 lanccedilamentos da moeda
Os comandos no R para a elaboraccedilatildeo do graacutefico
gtx=1100 y=cumsum(sample(01100rep=T))gtplot(xy1100 ylim=c(01) xlim=c(0100) pch=16)gtsegments(10510005)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2061
Cap 2-b Variaacuteveis Aleatoacuterias (va)Uma variaacutevel aleatoacuteria (va) eacute uma funccedilatildeo que associa cada elemento de um
espaccedilo amostral a um nuacutemero real As variaacuteveis aleatoacuterias podem ser do
tipo
Discreto se os seus valores pertencem a um conjunto enumeraacutevel de nuacutemerosreais (usualmente valores inteiros)
Contiacutenuo se os seus valores pertencem a um intervalo de nuacutemeros reais
O modelo probabiliacutestico de uma variaacutevel aleatoacuteria X estabelece o padratildeo de
comportamento de sua distribuiccedilatildeo de probabilidadeA fun atildeo de robabilidade de uma v a discreta X eacute definida orp(x)=P[X=x]
A funccedilatildeo de distribuiccedilatildeo acumulada F de uma v a X eacute definida porF(x) = P[Xlelelelex]
Se X eacute uma va discreta que assume os valores x 1
x 2
x 3
x N
entatildeo
bull A meacutedia ou esperanccedila de X eacuteE(X) = x 1 P(X=x 1 ) + x 2 P(X=x 2 ) + x 3 P(X=x 3 ) + + x N P(X=x N )
bull A Variacircncia de X eacute calculada por |Var(X)=(x 1 ndashE(X))2 P(X=x 1 )+(x 2 ndashE(X))2 P(X=x 2 )++(x N ndashE(X))2 P(X=x N )
bull O desvio padratildeo de X eacute igual agrave raiz quadrada natildeo negativa da suavariacircncia DP(X)= Var(X)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2161
Cap 2-b - va e o RO trabalho no R com uma va X estaacute baseado em 4 procedimentos
p probability ndash Gera a probabilidade de um valor de xq quantile ndash Gera o valor x de uma dada probabilidade acumulada pd density ndash Gera o valor da funccedilatildeo densidade num valor x da variaacutevel
Observar que quando a variaacutevel eacute discreta este valor eacute aprobabilidade de x quando a variaacutevel eacute contiacutenua o resultadoeacute a altura da funccedilatildeo densidade de probabilidade
r random ndash Gera n valores do modelo probabiliacutestico em questatildeo
As distribuiccedilotildees que estudaremos estatildeo listadas a seguir depois de cada uma delasentre parecircnteses estaacute o nome no R
(geom) Binomial negativa- Pascal (nbinom)
Entre as contiacutenuas Uniforme (unif ) Exponencial (exp) Normal (norm) t-student (t)quiquadrado (chisq) F (f )
A interligaccedilatildeo dos trecircs primeiros procedimentos pq e d seraacute ilustrada pela distribuiccedilatildeoNormal atraveacutes do graacutefico abaixo
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2261
Cap 2-b - va pnorm e qnormSeja a relaccedilatildeo p = P(Xltx) que aparece na tabela da distribuiccedilatildeo Normal Quiquadrada
t-student e F Para um dado valor de p acha-se um valor de x a procura direta que para aNormal no R corresponderia a pnorm(x 983221 σ) Neste caso devo informar o x e os dois
paracircmetros da distribuiccedilatildeo Normal 983221 e σJaacute a procura inversa seria para um dado valor de x achar um valor de p que para a Normalno R corresponderia a qnorm(p983221σ) Neste outro caso devo informar o valor de p desejado etambeacutem os dois paracircmetros da distribuiccedilatildeo Normal 983221 e σ
Exemplo Seja X a va que corresponde ao peso (em kg) de pessoas de uma certapopulaccedilatildeo com meacutedia 983221=70 Kg e desvio padratildeo σ=8 Kg assim X~ N(983221=70 σ2=82)
Se desejarmosa) P(Xlt80) usaremos no R o comando pnorm(80 70 8) isto eacute x=80 eacute o primeiro paracircmetroenquanto 70 e 8 satildeo paracircmetro especiacuteficos da distribuiccedilatildeo Normal
b) Admita que o peso limite para ser classificado como obeso eacute o valor que corresponde a10 dos mais pesados do populaccedilatildeo Achar este peso limiteO que se pede eacute a funccedilatildeo inversa Dado um valor de p=090 achar um valor de x que deixa90 abaixo dele No R seria qnorm(09 70 8) isto eacute o valor da probabilidade p=09 eacute
o primeiro paracircmetro enquanto 70 e 8 satildeo paracircmetros especiacuteficos da distribuiccedilatildeo NormalSe usarmos a Normal padratildeo z=(x-983221)σ no caso do item a o comando seria pnorm((80-70)8)ou pnorm(125) Repare que neste caso natildeo foi necessaacuterio passar os paracircmetros especiacuteficos daNormal pois 983221=0 e σ =1 coresponde ao default Observaccedilatildeo Sempre que usarmos um p oprimeiro paracircmetro eacute um x e os outros satildeo especiacuteficos da distribuiccedilatildeo em questatildeosempre que usarmos um q o primeiro paracircmetro eacute um p e os outros satildeo especiacuteficosSempre que usarmos um d o primeiro paracircmetro eacute um x
Quando usarmos uma distribuiccedilatildeo discreta o d corresponde aacute probabilidade no ponto x
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2361
Pag 118 ndash Figura 412
x=seq(010001)
plot(xdexp(x 12) type=l xlim=c(012) ylim=c(01) bty=l ylab=f(x) e F(x))
for(i in seq(0 25 001)) segments(i 0 i dexp(i12) col=lightgrey)
abline(v=0 h=0)
points(xdexp(x 12) type=l lwd=2 bty=l)
points(x pexp(x 12) lwd=2 type=l)
segments(250 25pexp(2512))
Cap 2-b - va dexp pexp points segments
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2461
Cap 2-b - va disponiacuteveis no Rrbinom(n size prob) binomialrpois(n lambda) Poissonrgeom(n prob) geometricarhyper(nn m n k) hipergeometricarnbinom(n size prob) binomial negativarunif(n min=0 max=1) uniformerexp(n rate=1) exponentialrnorm(n mean=0 sd=1) Gaussiana (normal)rt(n df) lsquoStudentrsquo (t )rf(n df1 df2) FisherndashSnedecor (F )
rchisq(n df) Quiquadradar amma n sha e scale=1 amma rbeta(n shape1 shape2) betarlnorm(n meanlog=0 sdlog=1) lognormalrcauchy(n location=0 scale=1) Cauchyrweibull(n shape scale=1) Weibullrwilcox(nn m n) Wilcoxonrsquos rank sum statistics
rsignrank(nn n) Wilcoxonrsquos signed rank statisticsrlogis(n location=0 scale=1) logistic
Todas essas distribuiccedilotildees apresentadas por rnome (nome da variaacutevel aleatoacuteria) como vimostrocando a primeira letra e mantendo os paracircmetros especiacuteficos de cada distribuiccedilatildeo(denotados por ) podem ser usadas substituindo a letra ldquor rdquo por
d valor da densidade de probabilidade no ponto x dnome (x )p probabilidade acumulada no ponto x pnome (x )
q quantil correspondente a probabilidade acumulada p dnome (p)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2561
Cap 2-c O Teorema Central do Limite (TCL)O Teorema Central do Limite (abreviadamente TCL) diz respeito ao comportamento da
meacutedia amostral agrave medida que o tamanho n da amostra cresce indefinidamente
Exemplo 31 ndash A distribuiccedilatildeo de renda e o TCLEacute um fato conhecido que a distribuiccedilatildeo da rendapessoal dos habitantes de um paiacutes eacuteusualmente muito desigual ou seja muitosganham pouco e poucos ganham muito Seforem sorteados 200 habitantes desse paiacutes e
com base nas suas rendas mensais
Agora se forem sorteadas 200 amostrascada uma delas contendo 2 habitantesdesse paiacutes e se forem calculadas as 200respectivas meacutedias amostrais a partir delas obteremos o histograma a seguir
Agora cada uma das 200 amostrassorteadas contendo 30 habitantes dessepaiacutes e se forem calculadas as 200 meacutediasamostrais o histograma seria
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2661
Cap 2-c ndash TCL ExemploComo pode ser observado no caso de n = 2 o histograma se aproxima mais de uma curvaNormal do que no caso de n = 1 E no caso de n = 30 a semelhanccedila do histograma com umacurva Normal eacute ainda maior
O Teorema Central do Limite afirma que independentemente de qual seja a
distribuiccedilatildeo original dos Xirsquos a distribuiccedilatildeo de probabilidade de e a
distribuiccedilatildeo Normal com meacutedia micromicromicromicro e variacircncia σσσσ2 n se aproximam cada vez
mais uma da outra agrave medida que n cresce
Portanto mesmo que a distribuiccedilatildeo de probabilidade dos Xirsquos seja desconhecida o Teorema
X n
Central do Limite garante a possibilidade de usarmos o modelo Normal para calcular ainda quede forma aproximada probabilidades relativas agrave meacutedia amostral desde que n sejasuficientemente grande
Exemplo 62 Simulando o efeito do TCL
Para ilustrar o funcionamento do Teorema Central do Limite vamos exibir agora um exemploem que a distribuiccedilatildeo original a partir da qual os dados satildeo gerados eacute uma exponencial modelo
este que daacute origem a uma funccedilatildeo densidade bastante assimeacutetrica (ao contraacuterio do que ocorre
com a curva Normal) A densidade de uma exponencial com paracircmetro eacute dada pela
expressatildeo
No R rexp(n ) simula n valores
λ
0 xλef(x) λx ge= minusλ
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2761
Cap 2-c ndash TCL ExemploA densidade de uma exponencial com paracircmetro eacute dada pela expressatildeo
Gerando dados por simulaccedilatildeo a partir de uma exponencial com λ = 13 para cada um dos
seguintes tamanhos n de amostra 1 2 3 4 5 10 15 e 201 Obtivemos 200 valores da meacutedia amostral 2 Utilizamos esses 200 valores para construir um histograma3 Traccedilamos no mesmo graacutefico uma curva da densidade Normal com E( )=3 e DP( )=3Xn
λ 0 xλef(x) λx ge= minus
Xn n
Os 8 histogramas nos mostram que agrave medida que o tamanho n da amostra cresce
a forma do histograma se aproxima cada vez mais de uma curva Normal
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2861
Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com
simulaccedilotildees - Exponencial
tclexp=function(n N=200 titulo= yl=c(0 4)) iniacutecio da funccedilatildeo ndash tclexpmedias=numeric(N)
for (i in 1N) medias[i]= mean(rexp(n13))
hist(medias xlim=c(-110) ylim=yl freq=F main=titulo)
x=seq(-110 02)
points(x dnorm(x 3 3sqrt(1n) ) type=l lwd=3)
fim da funccedilatildeo
graphicsoff()
par(mfrow=c(33) mai=c(3411))
tclexp(1titulo=n=1)
tclexp(2titulo=n=2)
tclexp(3titulo=n=3)
tclexp(4titulo=n=4)
tclexp(5titulo=n=5)
tclexp(6titulo=n=6)
tclexp(10titulo=n=10yl=c(06))
tclexp(15titulo=n=15yl=c(06))
tclexp(20titulo=n=20yl=c(06))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2961
Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com
simulaccedilotildees - Exponencial
Uma pergunta natural neste ponto serialdquoQuatildeo grande deve ser n para que possamos usar a aproximaccedilatildeo fornecida pelo
TCL com um niacutevel de precisatildeo aceitaacutevelrdquo
A rapidez com que essa convergecircncia se daacute depende de quatildeo distante estaacute a forma
da distribuiccedilatildeo original das Xirsquos de uma curva Normal Em outras palavras se a
distribuiccedilatildeo das Xirsquos jaacute natildeo for muito diferente de uma Normal com um n natildeo muito-
grande (usualmente n ge 30) a aproximaccedilatildeo da distribuiccedilatildeo de por uma Normal
funcionaria adequadamente
No exemplo a seguir vamos apresentar esse fenocircmeno a saber a convergecircncia da
distribuiccedilatildeo de para uma Normal agrave medida que n cresce gerando por simulaccedilatildeo osdados originais a partir de diferentes modelos probabiliacutesticos Em todos os casos a
distribuiccedilatildeo original eacute bem diferente da Normal E(X)=3 e DP(X)=3 No que se refere agrave
Simulaccedilatildeo foi seguida a mesma sequumlecircncia de passos do exemplo anterior
Xn
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3061
Cap 2-c ndash TCL Exemplo
Exponencial
Uniforme
Mistura deNormais
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3161
Como se pode observar
1 No caso da distribuiccedilatildeo uniforme (A) o histograma de jaacute se aproximabastante de uma Normal quando n eacute da ordem de 4
2 Jaacute no caso da distribuiccedilatildeo Exponencial (B) e da mistura de normais
(C) modelos esses que se afastam muito mais de umldquo rdquo
Cap 2-c ndash TCL Exemplo
mostra mais adequada a partir de n em torno de 10
3 No caso do modelo em (C) agrave medida que n cresce tudo se passacomo se houvesse a ldquoerupccedilatildeo de um vulcatildeo dentro do valerdquo
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3261
tclunif=function(nN=100titulo= yl=c(0 4))
medias=numeric(N)for (i in 1N) medias[i]= mean(runif(n 3-3sqrt(3) 3+3sqrt(3)))
hist(medias xlim=c(-610) ylim=yl freq=F main=titulo)
x=seq(-610 02)
points(x dnorm(x 3 3sqrt(1n) ) type=l lwd=3)
medias
Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com
as simulaccedilotildees - Uniforme
grap cso
par(mfrow=c(33) mai=c(3411))
tclunif(1titulo=n=1yl=c(06))
tclunif(2titulo=n=2yl=c(06))
tclunif(3titulo=n=3yl=c(06))
tclunif(4titulo=n=4yl=c(06))tclunif(5titulo=n=5yl=c(06))
tclunif(6titulo=n=6yl=c(06))
tclunif(10titulo=n=10yl=c(06))
tclunif(15titulo=n=15yl=c(06))
tclunif(20titulo=n=20yl=c(06))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3361
X2=c(rnorm(35011) rnorm(15081)) X2 eacute a Populaccedilatildeo de onde retiramos as amostras
br=seq(-2 12 5)
tcl2modas=function(nN=200titulo= yl=c(0 6)) medias=numeric(N)for (i in 1N) medias[i]= mean(sample(X2nrep=T))hist(mediasbreaks=br xlim=c(-212) tcl=-01 ylim=yl xarp=c(-31216)
tck=005 lab=c(5515) freq=F main=titulo)x=seq(-312 02)
Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com
as simulaccedilotildees - Mistura de Normais
points(x dnorm(x med dpsqrt(n) ) type=l lwd=2)
par(mfrow=c(24) mai=c(3011) mar=c(2 2 2 1))
hist(X2 freq=F breaks=seq(-3125) bty=o xlim=c(-212)xarp=c(-31216)tck=005 lab=c(5515) ylim=c(06) main=POPULACcedilAtildeO lwd=2)
tcl2modas(2titulo=n=2)tcl2modas(3titulo=n=3)
tcl2modas(4titulo=n=4)
tcl2modas(5titulo=n=5)
tcl2modas(10titulo=n=10)
tcl2modas(15titulo=n=15)
tcl2modas(25titulo=n=25)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3461
CAP 3-a) Intervalo de ConfianccedilaSeja um estimador pontual do paracircmetro eacute uma variaacutevel aleatoacuteria que varia deamostra para amostra Por isso haacute uma certa dose de incerteza inerente a esse processode estimaccedilatildeo Nosso objetivo agora eacute obter com base nos dados amostrais (da uacutenicaamostra observada) um intervalo ao qual o valor correto do paracircmetro deve ter grandechance de pertencer
bull Detalhando um pouco mais No processo de estimaccedilatildeo por intervalo de um paracircmetro θdevemos determinar um intervalo que contenha o verdadeiro valor do paracircmetro comprobabilidade 1-α onde α eacute um pequeno valor preacute-fixado Este intervalo eacute construiacutedo emgeral em torno do estimador pontual considerando uma margem de erro d de forma aque uma vez fixada a probabilidade 1-α calculemos d tal que P( - d le θ le + d ) = 1 -αChama-se intervalo de confianccedila para θ ao niacutevel 1 - α ao intervalo [ - d + d]
θ $θ
$θ$θ
$θ $θ
$
θ
bull Ou seja o estimador pontual eacute o centro do Intervalo de Confianccedila e o erro absoluto dassociado a define a amplitude desse intervalo O que eacute de fato variaacutevel aleatoacuteria satildeoos extremos do intervalo O paracircmetro tem valor desconhecido natildeo aleatoacuterio (fixo a ser estimado)
Exemplo Intervalo de Confianccedila para a meacutedia populacional com o desvio padratildeo conhecidoO paracircmetro a estimar eacute a meacutedia populacional micro A estimaccedilatildeo seraacute baseada em X1 X2 Xn
uma amostra aleatoacuteria com E(Xi) = micro e var(Xi) = σ2 para todo i = 12 n Queremos que seja
vaacutelida a expressatildeo o que equivale a P [ -d le -micro le d] = 1-α
$θ
X[ ] α1dmicroXP minus=leminus
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3561
bull Lembrando que para n suficientemente grande pelo Teorema Central do Limite a meacutediaamostral segue uma distribuiccedilatildeo que se aproxima da Normal(micromicromicromicro σσσσ2 n) (ou eacute exatamente aNormal(micromicromicromicro σσσσ2 n) no caso em que a distribuiccedilatildeo comum das va Xirsquos jaacute eacute Normal) entatildeo
P [-d le -micromicromicromicro le d] = 1-α rArr 1-α = P [ |Z| le ] Logo d =
bull Faremos uma simulaccedilatildeo para a construccedilatildeo de Intervalos de Confianccedila com 100 amostras dedois tipos de populaccedilatildeo Normal e Exponencial A lista de comandos do R que usamos eacute
ICN = function (N n mu sigma = 3 conf)
plot(0 0 type=n xlim=c(010) ylim=c(0N) bty=l
xlab=Normal ylab=amostras)abline(v=mu)
CAP 3-a) Intervalo de Confianccedila
X
nσ
d
minus
z0 = qnorm(1-((1-conf)2))
sigmaxbarra = sigmasqrt(n)
for (i in 1N)
x = rnorm(n mu sigma)
media = mean(x)
li = media - z0 sigmaxbarrals = media + z0 sigmaxbarra
plotx = c(lils)
ploty = c(ii)
if (li gt mu | ls lt mu) lines(plotxploty col=red)
else lines(plotxploty)
gt ICN(100 25 3 3 95)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3661
CAP 3-a) Intervalo de Confianccedila
ICexp = function (N n lambda conf)
mu=1lambda sigma=1lambda
plot(0 0 type=n xlim=c(010) ylim=c(0N) bty=lxlab=Exponencial ylab=amostras)
abline(v= mu)
z0 = qnorm(1-((1-conf)2))
sigmaxbarra = sigmasqrt(n)
for (i in 1N)
x = rexp(nlambda) me a = mean x
li = media - z0 sigmaxbarra
ls = media + z0 sigmaxbarra
plotx = c(lils)
ploty = c(ii)
if (li gt mu | ls lt mu) lines(plotx ploty col=red)
else lines(plotx ploty)
gt ICexp(100 25 13 95)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3761
CAP 3-b Teste de Hipoacuteteses (TH)O objetivo de um teste de hipoacutetese eacute avaliar a validade de uma afirmaccedilatildeo sobre determinada
caracteriacutestica da populaccedilatildeo usando para isso os dados de uma amostra Essa caracteriacutestica eacute
representada pela va contiacutenua X cujo comportamento probabiliacutestico eacute expresso pela funccedilatildeo dedensidade f com paracircmetro Ө que tem valor desconhecido
Em um teste existem duas hipoacuteteses envolvidas H0 denominada hipoacutetese nula e H1
denominada hipoacutetese alternativa O procedimento de teste de hipoacutetese consiste em estabelecer
um criteacuterio de decisatildeo que leve a Aceitar ou Rejeitar H0 com base nos valores amostrais
A Estatiacutestica de teste eacute uma funccedilatildeo da amostra aleatoacuteria utilizada para definir o criteacuterio de
decisatildeo Estabelecer o criteacuterio de decisatildeo consiste em dividir o conjunto dos valores possiacuteveis
da estatiacutestica de teste em duas partes denominadas Regiatildeo de Aceitaccedilatildeo A e Regiatildeo de
Rejeiccedilatildeo R da hipoacutetese nula
Em um teste de hipoacutetese haacute dois tipos possiacuteveis de erro de decisatildeo
Erro I - Rejeitar H0 quando H0 eacute verdadeira
Erro II - Aceitar H0 quando H0 eacute falsaAs probabilidades de ocorrecircncia dos erros satildeo α = P [ Erro I ] e β = P [ Erro II]
A probabilidade de erro I α eacute o niacutevel de significacircncia do teste cujo valor eacute arbitrado pelo
pesquisador deve ser pequena pois corresponde a probabilidade de um erro (005 ou 001)
O niacutevel criacutetico ou p-valor do teste eacute o menor valor de α para o qual ainda rejeitariacuteamos H0 de
acordo com os dados observados
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3861
CAP 3-b) ndash TH teste tttest(x y = NULL alternative = c(twosided less greater) mu = 0
paired = FALSE varequal = FALSE conflevel = 095 )
Procedimentos de teste de hipoacuteteses com niacutevel de significacircncia α e amostras de tamanho n
UmaAmostra
DuasAmostras
Obs Os testes acima satildeo bilaterais
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3961
CAP 3ndashb) TH exemplo de teste t ndash amostras independentespag233- teste t amostras independente - comparaccedilatildeo log(salaacuterio)
entre os grupos de comeacutercio e de serviccedilo
LogSal=c(1289156912501344145616361573171309060903
0977122011031069128714101496131113371366
1227119114591280115217401649176524101701
1538192419251721154918911534163812071682
120614232010143112651570)
Sal=exp(LogSal)
setor= c(rep(C23) rep(S23))
ttest(Sal[setor==C] Sal[setor==S] varequal=T)
Two Sample t-test
data Sal[setor == C] and Sal[setor == S]
t = -36822 df = 44 p-value = 00006289
alternative hypothesis true difference in means is not equal to 095 percent confidence interval
-23079005 -06751838
sample estimates
mean of x mean of y3786010 5277552
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4061
CAP 3ndashb) TH exemplo de teste t ndash amostra pareadapag237- teste t pareado
P1=c(6315596455545480598065203660986853
8765647785536980827184605572645564)
P2=c(3638306043466455604343523428837155
8238556767443459605968506254473652)
ttest(P1 P2 alt=greater paired = T)
Paired t-test
data P1 and P2
t = 44176 df = 33 p-value = 5072e-05
alternative hypothesis true difference in means is greater than 0
95 percent confidence interval
0716695 Inf
sample estimates
mean of the differences
1161765
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4161
CAP 3ndashb) TH exemplo de teste Quiquadrado chisqtest
pag233- teste Quiquadrado -
tcont=matrix(c(683585251530258 7461761220225) 72)
chisqtest(tcont)
Pearsons Chi-squared test
data tcont- = = - lt -
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4261
CAP 3ndashb) TH exemplo de teste Quiquadrado chisqtestaov(formula data = NULL )
pag244- ANOVA - Comparaccedilatildeo de trecircs raccedilotildees para suinos
A=c(444943514475425134305342453630
322133421040395246294247453959)
B=c(343640545953445432686954414647
6566455739)
C=c(574040364566395025212927283942
21304143294244582849)
aumentoP=c(ABC)
racao=c(rep(A30)rep(B20) rep(C25))
summaryaov(aov(aumentoP ~ racao))
Df Sum Sq Mean Sq F value Pr(gtF)racao 2 15385 7693 56136 0005425
Residuals 72 98666 1370
---
Signif codes 0 lsquorsquo 0001 lsquorsquo 001 lsquorsquo 005 lsquorsquo 01 lsquo rsquo 1
Warning message
In modelmatrixdefault(mt mf contrasts)
variable racao converted to a factor
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4361
ApecircndicesA-1) Apresentaremos aqui algumas figuras
feitas no R na elaboraccedilatildeo do livro
Achamos que o exame desses coacutedigos acompanhado dos resultados podeser um bom aprendizado um exerciacutecio ou talvez uma recordaccedilatildeo do materialaqui exposto
A-2) Resumo de comandosa) Criaccedilatildeo de dados
b) Informaccedilatildeo de uma Variaacutevel
c) Seleccedilatildeo de dados e manipulaccedilatildeo
d) Estatiacutesticas e operaccedilotildees matemaacuteticas
e) Corte e extraccedilatildeo de dados
f) Operaccedilatildeo com Matrizes
g) Graacuteficos (Plotting)
h) Teste de hipoacuteteses
i) Programming
j) Commandos auxiliaries em Graacuteficos
k) Comando par (Graphical parameters)
l) Input and output
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4461
A1) ndash Pag 14 ndash Figura 15
IDADE=c(616961716371726866697267636663636067716360696463667164706366646969646372736871726968687379)
IMC= c(245273281301254301280234268228255228235232203226239243271227237258213243243248219234216214221227227211268278275267286253239258247284235)
par(mfrow=c(12))hist(IDADE breaks=c(6065707580) ylim=c(020) ylab=Nuacutemero de Observaccedilotildees
main= col=grey right = F)hist(IMC breaks=c(200225250275300325)
ylab=Nuacutemero de Observaccedilotildeesmain= col=grey right = F )
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4561
A1) ndash Pag 44 ndash Figura 21
mat=matrix(c(81823913601818608740)32)
rownames(mat)=c(AtivaSedentaacuteriaTotal)colnames(mat)=c(NormalSobrepeso)barplot(t(mat) beside = TRUE space=c(315)
col=gray(c(79))legend = c(NormalSobrepeso) ylim = c(0 95) ylab= - percentagem)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4661
A1) ndash Pag 48 ndash Figura 22
mat= matrix(c(68154510 66214215 66242519 39161711)44byrow=T)
rownames(mat)=c(18 a 21 anos 22 a 25 anos 26 a 30 anos 31 a 40 anos)colnames(mat)=c(CinTeatSMDEx)mat1=mat for (i in 14) mat1[i]lt-mat1[i]100sum(mat1[i]) par(mfrow=c(12) mai=c(1111) mar=c(5 4 2 2) )barplot(matbeside=F ylim=c(0250) legend = c(18 a 21 anos 22 a 25 anos
26 a 30 anos 31 a 40 anos) xlab=Contagem)
barplot(mat1 beside=F xlab=Percentagem)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4761
A1) ndash Pag 52 ndash Figura 25X= c(184114821789235159118762592403190408372147328526471687
09642871437079238215753399242122530314859149806)y =c(01837012540193301620014230140604568022870231400861019960235302186012798991801254018210244160823
0147764068011818941403474539680150133247023685518102146187520214097090257291227
036282905401406510810113849399)plot(x y xlim=c(07) ylim=c(05) pch=16 bty=l xlab=Renda per capita
ylab=Telefonia Fixa per capita)
abline(lsfit(xy))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4861
A1) ndash Pag 109 ndash Figura 45
x=020
y1=dpois(x1) y2=dpois(x3) y3=dpois(x10)names(y1)=x names(y2)=x names(y3)=xpar(mfrow=c(13))plot(y1ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=1)plot(y2ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=3)plot(y3ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=10)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4961
A1) ndash Pag 118 ndash Figura 412
x=seq(010001)
plot(xdexp(x 12) type=l xlim=c(012) ylim=c(01) bty=l ylab=f(x) eF(x))for(i in seq(0 25 001)) segments(i 0 i dexp(i12) col=lightgrey)abline(v=0 h=0)points(xdexp(x 12) type=l lwd=2 bty=l)points(xpexp(x 12) lwd=2 type=l)segments(250 25pexp(2512))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5061
A1) ndash Pag 163 ndash Figura 68
plot(p xlim=c(618) ylim=c(016) type=n bty=l xaxt=n xlab= ylab=
cexaxis=6)for (i in 1015) rect(i-50 i+5 dbinom(i304) col=lightgrey) lty=2)segments(i0idbinom(i304) lty=2)
x=seq(61801) lines(x dnorm(x12sqrt(72)) lwd=2)x=seq(61801) lines(x dnorm(x12sqrt(72)) lwd=2)
axis(1 916 cexaxis=9) ax s seq cexax s=
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5161
A1) ndash Pag 198 ndash Figura 78
x1=seq(-4402)plot(x1dnorm(x1) type=l lwd=3 xlab= ylab= )lines(x1 dt(x11)) lines(x1 dt(x12)) lines(x1 dt(x15))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5261
A2ndashResumo de comandos
a)Criaccedilatildeo de dados
c()funccedilatildeo geneacuterica para combinar argumentos com o formando de um vetor fromto gera uma sequecircnce ldquordquo tem prioridade de operator pe13 + 1 is ldquo234rdquo
seq(fromtoby) gera uma sequecircncia by= especifica incremento
length= especifica um comprimento desejado
rep(xtimes) replicate x onuacutemero times de vezes use each= para repetir cada
elemento de x rep(c(123)2) gera 1 2 3 1 2 3 rep(c(12)each=2) gera 1 1 2 2
matrix(xnrow=ncol=) matrix elementos de x se reciclam caso x
rbind()combina vetores em linhas num estrutura de matrizes de dados
cbind()combina vetores em colunas num estrutura de matrizes de dados
array(xdim=) matriz com dados x especificar dimensotildees como dim=c(342)
elementos de x se reciclam caso x natildeo seja suficientemente grande
factor(xlevels=) codifica um vetor x como um fator gl(nklength=nklabels=1n) gerar niacuteveis (fatores) especificando
o padratildeo de seus niacuteveis k eacute o nuacutemero de niacuteveis e n eacute o nuacutemero de repeticcedilotildees
dataframe() criar um banco de dados Por exemplo
dataframe(v=14ch=c(gBcasad)n=5)
list()criar uma lista de argumentos Por exemplo list(a=c(12)b=hic=3i)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5361
A2ndashResumo de comandos
b) Informaccedilatildeo de uma Variaacutevellength(x) nuacutemero de elementos em x
dim(x) Obter ou definir a dimensatildeo de um objeto dim (x) = c(32)dimnames(x) Obter ou definir os nomes das dimensotildees de um objeto
nrow(x) nuacutemero de linhas
ncol(x) nuacutemero de colunas
c) Seleccedilatildeo de dados e manipulaccedilatildeochoose(n k) calcula a combinaccedilatildeo de elementos escolhidos entre n
resultando n [(n-k) k]
cut(xbreaks) divide x em intervalos (fatores) breaks eacute o nuacutemero de intervalos de
corte ou um vetor com os valores especiacuteficos
table(x) retorna uma tabela com as quantidades dos diferentes valores de x
(tipicamente para variaacuteveis dos tipos inteiros ou fatores)
sample(x size) retira aleatoriamente com e sem reposiccedilatildeo elementos detamanho SIZE do vetor x a opccedilatildeo replace = TRUE permite a retirada com reposiccedilatildeo
proptable(xmargin=) transforma a tabela como tabela de propoccedilatildeo
marginal margin=1 (com relaccedilatildeo as linhas) margin=2 (com relaccedilatildeo as colunas)
sort(x) Classifica os elementos de x em ordem crescente para classificar em ordem
decrescente rev(sort(x))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5461
A2ndashResumo de comandosd) Estatiacutesticas e operaccedilotildees matemaacuteticasmean(x) media dos elementos de x
median(x) mediana dos elementos de x
quantile(xprobs=) quantis de x correspondendo a uma dada probabilidadevar(x) ou cov(x) variacircncia dos elementos de x (calculado com n-1)
se x eacute uma matriz a matriz de covariacircncia eacute calculada
sd(x) desvio padracirco de of x
cor(x) matriz de correlaccedilatildeo de x se x for uma matriz ou (1 se x eacute um vector)
cor(x y) correlaccedilatildeo linear entre X e Y ou matriz de correlaccedilatildeo se eles satildeo matrizes
round(x n) arredonda os elementos de x para n casas decimais sum x soma os e emen os e x
prod(x) multilica os elementos de x
max(x) acha o maacuteximo dos elementos de x
min(x) acha o miacutenimo dos elementos de x
range(x) equivalente a c(min(x)max(x)
cumsum(x) um vetor onde o eacutesimo elemento eacute a soma de x[1] ateacute x[i]cumprod(x) um vetor onde o eacutesimo elemento eacute o produto de x[1] ateacute x[i]
cummin(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
cummax(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
sincostanasinacosatanatan2loglog10exp)
log(x base) calcula o logaritmo de x na base=base
weightedmean(x w) media ponderada de x com peso= w
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5561
A2ndashResumo de comandos
e) Corte e extraccedilatildeo de dadosindexaccedilatildeo de Vetores
x[n] n-eacutesimo elemento do vetor
x[-n] todos menos o n-eacutesimo elemento
x[1n] os primeiros n elemento
x[-(1n)] elementos de n+1 ateacute o final
x[c(432)] elementos especificados
x[y gt 5] todo elementos de onde os valores de y satildeo maiores que 5
x x gt 3 amp x lt 5 todo elementos entre 3 e 5
x[nome] elemento denominado nome
indexaccedilatildeo de Matrizes
x[ij] elemento na linha i coluna j
x[i] linha i
x[j] coluna j
x[c(13)] colunas 1 and 3
x[nome] linha nomeada nome
indexaccedilatildeo de data frames
x[[nome]] coluna chamada nome
x$nome equivalente a coluna chamada nome
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5661
A2ndashResumo de comandos
f) Operaccedilatildeo com Matrizest(x) transposta da matrix x
diag(x) retira a diagonal da matrix x
multiplicaccedilatildeo matricial
solve(ab) resove a equaccedilatildeo a x = b em relaccedilatildeo a x
solve(a) matriz inversa de a
rowSum(x) soma das linhas da matrix x
colSum(x) soma das colunas da matrix x
rowMeans x meacutedia das linhas da matrix x
colMeans(x) id meacutedia das colunas da matrix x
g) Graacuteficos (Plotting)plot(x y) diagrama de disperccedilatildeo plot dos pares (xy) num sistema de eixos
coordenadoshist(x) histogram dasfrequecircncias of x
barplot(x) graacutefico de barras of x usar horiz=T ara barras horizontal
pie(x) graacutefico de setores (pie-chart)
boxplot(x)
qqnorm(x) quantis de x em relaccedilatildeo aos valores esperados de uma dist Normal
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5761
A2ndashResumo de comandosparametros dos commando de Graacutefico
type=p especifica o tipo de plot p pontos l linhas b pontos
ligados por linhas o idecircntico mas as linhas passam sobre os pontos h
linhas verticais s escada (steps) os dados satildeo representados pelas alturasverticais
xlim= ylim= especifica os limites inferiores e superiores dos eixos por exemplocom xlim=c(1 10) ou xlim=range(x)
xlab= ylab= nomeia os eixos o nome deve ser do tipo caracter
main= tiacutetulo principal deve ser do tipo caracter
sub= sub-tiacutetulo (escrito em fonte menor)
podem ser usados como bty(tipo de caixa) lwd (lagura da linha) lty (tipo delinha) pch(tipo de ponto) cex xaxs yaxs xaxtyaxt
h) Teste de hipoacuteteses
ttest()proptest()
chisqtest()
aov(formula) analysis of variance model
anova(fit) analysis of variance (or deviance) tables for one or more
fitted model objects
Use o commando gt test para procurar todos os testes disponiacuteveis
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5861
A2ndashResumo de comandos
i) Programmingfunction( arglist ) expr para definer uma funccedilatildeo
return(value)
if(cond) expr
if(cond) consexpr else altexpr
for(var in seq) expr
while(cond) expr
re eat ex r
break
Usar chaves entre commandos dlimitando o iniacutecio e o fim de um grupo decomandos
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5961
A2ndashResumo de comandos
j) Commandos auxiliaries em Graacuteficospoints(x y) adiciona pontos (a opccedilatildeo type= pode ser usada)
lines(x y) adiciona linhas (a opccedilatildeo type= pode ser usada)text(x y labels ) adiciona texto na coordenada (xy) um uso tiacutepico eacute
plot(x y type=n) text(x ynames)
segments(x0 y0 x1 y1) desenha linhas do ponto (x0 y0) ao (x1 y1)
arrows(x0 y0 x1 y1 angle= 30 code=2) desenha seta do ponto
(x0 y0) ao (x1 y1)
abline(ab) desenha uma reta de inclinaccedilatildeo b e intercepto a
abline(v=x) desenha uma reta vertical em x
abline(lsfit(xy)) desenha uma reta da regressatildeo feita em lsfit(xy)
rect(x1 y1 x2 y2) desenha um retacircngulo que a esquerda inferior tem coordenadas(x1 y1) e o limite da direita superiores (x2 y2)
polygon(x y) desenha um poliacutegono que une os pontos com coordenadas X e Y
legend(x y legend) Acrescenta a lenda no ponto (x y) com os siacutembolos
dada pela legend
title()adiciona um tiacutetulo e opcionalmente um sub-tiacutetulo
axis(side) acrescenta um eixo na parte inferior (side = 1) agrave esquerda (2) na partesuperior (3) ou agrave direita (4)
box()desenhar uma caixa em torno do plot
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6061
A2ndashResumo de comandos
k) Comando par (Graphical parameters)Todos estes comando podem ser definidos a niacutevel global com o par () que
especifica os paracircmetros mas tambeacutem muitos podem ser usados comoparametros dos commando de Graacutefico
mfcol vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em colunas
mfrow vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em linhas(matrix for row)
bty controla o tipo de caixa desenhada ao redor do enredo valores permitidos satildeo
o l 7 c u ou se bt =n a caixa natildeo eacute desenhada
lty controla o tipo de linhas pode ser um inteiro ou string (1 solid 2 dashed 3dotted 4 dotdash 5 longdash 6twodash) ou uma string de ateacuteoito caracteres (entre 0 e 9) que especifica o comprimento em pontos oupixels dos elementos desenhados e os espaccedilos em branco por exemplolty=rdquo44rdquo equivale a lty=2
lwd nuacutemero que controla a largura das linhas default 1pch controla o tipo de siacutembolo pode tambeacutem ser um nuacutemero inteiro entre 1 e 25
ps um inteiro que controla o tamanho em pontos de textos e siacutembolos
pty um caracter que especifica o tipo da regiatildeo s quadrado m maacuteximal
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6161
A2ndashResumo de comandos
l) Input and outputreadtable(file) lecirc um arquivo em formato de tabela e cria um quadro de dados a
partir dele o separador default = eacute espaccedilo em branco header = TRUE ler a
primeira linha como um cabeccedilalho de nomes de coluna asis = TRUE paraevitar aque um vetore de caracteres seja convertido em factores usocommentchar = para evitar seja interpretado como um comentaacuteriouso skip = n para pular n linhas antes da leitura de dados consulte a ajudapara as opccedilotildees de linha de nomeaccedilatildeo o tratamento NA e outros
readcsv(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por viacutergulas
readdelim(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por tabulaccedilotildees
readfwf(filewidthsheader=FALSEsep= asis=FALSE)
ler uma tabela de dados em formato fix de largura m para um dataframe widthseacute um vetor inteiro informando os tamanhos dos campos
sink(file) saiacuteda de todos os comandos para um arquivo ateacute aparecer um comando
sink () que desliga writetable(x file=rownames=Tcolnames=Tsep= ) imprime x apoacutes a
conversatildeo para banco de dados
save(file) guarda os objetos especificados () no formato XDR
load()carregar o conjunto de dados salvos com o comando save
data(x) carrega um conjunto de dados especificado
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 561
Trabalhando no Rdata frameSatildeo usados para armazenamento de bancos de dados com n linhas (as observaccedilotildees) e
p colunas (as variaacuteveis) Podem natildeo ser da mesma caracteriacutestica misturandoalfanumeacutericos com numeacutericos e fatores Este comando seria uacutetil por exemplo para lerum banco de dados gerado no ExcelNo R um data frame seria lido pelo comando readtable Vamos ler a tabela 12 pag 7 dolivro [1] para tanto foi gerado um arquivo no Excel de nome tab1_2tex
Apresentamos aqui a 3 linhas iniciais dos dados de um total de 45 a primeira
linha (apresentada aqui em duas) corresponde aos nomes das variaacuteveisID CATEG IDADE PESO ALTURA IMC Classe_IMC CINTURA ID1A615821540245normal87109080MRID2S696301520273sobrepeso89104086GRID3S617011580281sobrepeso106123086GR
Para armazenarmos os dados no objeto tab12 usaremos o comando
tab12=readtable(fSBPO2010Rtab1_2txt header = T sep = )Observe que header = T serve para indicar que existe uma linha com os nomes dasvariaacuteveis (T significa True) e sep indica o separador no caso viacutergula
Experimente os comandosgtreadtable tab12[2]gt attach(tab12) CATEGgt tab12[3] IDADE
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 661
Cap 1 Analise Exploratoacuteria de Dados (AED)Anaacutelise Exploratoacuteria eacute um conjunto de teacutecnicas de tratamento de dados que semimplicar em uma fundamentaccedilatildeo matemaacutetica mais rigorosa nos ajuda a tomar um
primeiro contato com a informaccedilatildeo disponiacutevel
Em um levantamento de dados a respeito de um determinado assunto eles costumamser representados em uma tabela de dados Em uma tabela de dados cada linhacorresponde a uma observaccedilatildeo e cada coluna corresponde a uma variaacutevel
As variaacuteveis podem ser
Qualitativa nominal ou categoacuterica - seus valores possiacuteveis satildeo diferentes categoriasnatildeo ordenadas
- Quantitativa discreta - seus valores possiacuteveis satildeo resultados de um processo de
contagemQuantitativa contiacutenua - seus valores possiacuteveis podem ser expressos atraveacutes de
nuacutemeros reaisPara descrever o comportamento de uma variaacutevel eacute comum apresentar os valores que
ela assume organizados sob a forma de tabelas de frequecircncia e graacuteficos Os graacuteficosmais comuns para representarem variaacuteveis qualitativas satildeo os graacuteficos de barras e osgraacuteficos de setores
Usar para uma variaacutevel x que deve ser agrupada os comandos barplot(table(x))
pie(table(x)) Os principais argumentos desses comandos satildeo
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 761
barplot(x beside=F horiz=F xlab= xlim= col= space= )Onde
x um vetor de quantidades positivas Os valores em x representam a proporccedilatildeoobrigatoacuterio
beside se as barras seratildeo de lado ou empilhadas essa eacute uma variaacutevel do tiposucesso(Ttrue) ou fracasso (F false) o default eacute F Como exemplo olhar oapecircndice Figura 22
xlab corresponde ao tiacutetulo da variaacutevel x (natildeo obrigatoacuterio) o mesmo para ylab
xlim dois valores que correspondem aos limites no graacutefico da variaacutevel x (ylim)
space - quantidade de espaccedilo agrave esquerda antes de cada barra Se matrix podem ser 2valores o rimeiro barras do mesmo ru o e o se undo entre ru os
Cap1ndashAED barplot pie
col vetor informando as cores das barras Ver apecircndice
pie(x labels = names(x) edges = 200 col=NULL)Onde
x um vetor de quantidades positivas Os valores em x representam as proporccedilotildeeslabels um vetor de caracteres fornecendo nomes para os setores (natildeo obrigatoacuterio)
edges um inteiro A linha do ciacuterculo eacute aproximada por um poliacutegono com este
nuacutemero delados
col vetor informando as cores das barras
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 861
Exemplo
RCQ=c(808686908295928383898184788189877480918685848574768380788587
688387878789878888897877788984) digitar RCQ
rcq=rep(245) rcq[RCQ lt 78]=1 rcq[RCQ gt 85]=3 codificar
rcqt= table(rcq) tabular
names(rcqt)=c(PRMRGR) nomear as categorias
par(mfrow=c(12)) matrix de graficos (1 linha e 2 colunas)
pie(rcqt radius=12 col=c(greenbluepink)) graf de setor
Cap1-AED ndash ex table names par pie barplot
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 961
Pag 48 ndash Figura 22
mat= matrix(c(68154510 66214215 66242519 39161711)44byrow=T)
rownames(mat)=c(18 a 21 anos 22 a 25 anos 26 a 30 anos 31 a 40 anos)colnames(mat)=c(CinTeatSMDEx)
mat1=proptable(mat 2)
par(mfrow=c(12) mai=c(1111) mar=c(5 4 2 2) )
barplot(matbeside=F ylim=c(0250) legend = c(18 a 21 anos 22 a 25 anos
26 a 30 anos 31 a 40 anos) xlab=Contagem)
barplot(mat1 beside=F xlab=Percentagem)
Cap1-AED ndash ex barplot (beside=F)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1061
Pag 44 ndash Figura 21
mat=matrix(c(81823913601818608740)32)
rownames(mat)=c(AtivaSedentaacuteriaTotal)
colnames(mat)=c(NormalSobrepeso)
barplot(t(mat) beside = TRUE space=c(315)
col=gray(c(79))
legend = c(NormalSobrepeso) ylim = c(0 95) ylab= - percentagem)
Cap1-AED ndash ex barplot (beside=T)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1161
Para as variaacuteveis quantitativas os mais usados satildeo os Histogramas e os Diagramas Ramo-folhascujos comandos satildeo gthist(x) gt stem(x) Existe tambeacutem um comando chamado gtcut
que classifica uma variaacutevel numeacuterica Os principais argumentos do comando hist satildeo
hist(x breaks= freq =NULL right=T col=NULL main=xlim=range(breaks) ylim=NULL xlab=xname ylab) Onde
x a variaacutevel numeacuterica a ser discretizada (argumento obrigatoacuterio)
breaks vetor com os limites das classes
freq variaacutevel loacutegica se T (True) corresponde agrave contagem de cada classe se F (False) equivale adensidade de probabilidade a aacuterea total sob a curva (retacircngulos) teria soma 1
right variaacutevel loacutegica se T as classes satildeo fechadas agrave direira se F satildeo fechadas agrave esquerda
Cap1ndashAED stem cut table
main tiacutetulo principal
xlab e ylab roacutetulos dos eixos x e y respectivamente
xlim e ylim Dois valores limites para o graacutefico de cada uma das variaacuteveis
cut(x breaks right = T ) Onde
x a variaacutevel numeacuterica a ser discretizada (argumento obrigatoacuterio)breaks vetor com os limites das classes
right variaacutevel loacutegica se T as classes satildeo fechadas agrave direira se F agrave esquerda
stem(x hellip)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1261
Exemploda pag 15 ndash Figura 18
gt nt=c(18381254193316214231406456822872314
8611996235321861281254244214781182
347515012369214621412573362814071138) digitaccedilatildeo de nt
gt hist(nt breaks=c(50100150200250300350400450500) right=T
main=Histograma Telefonia fixa per capita
xlab=N linhas1000hab ylab=N de obs xlim=c(0500) ylim=c(010) col=grey) histograma da variavel gt
Cap1-AED hist
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1361
Exemploda pag 15 ndash Figura 18
gt nt=c(18381254193316214231406456822872314
8611996235321861281254244214781182
347515012369214621412573362814071138) digitaccedilatildeo de nt
gt stem(trunc(nt10)) o ramo a centena e a folha as dezenas
0 | 8
1 | 1122244441 | 5689
Cap1 AED ndash ex stem table cut
2 | 011123334
2 | 5
3 | 4
3 | 6
4 |
4 | 5
gt table(cut(nt breaks=c(50100150200250300350400450500) right=F))
[50100) [100150) [150200) [200250) [250300) [300350) [350400) [400450) [450500)
1 9 5 8 1 1 1 0 1
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1461
Para uma dada variaacutevel quantitativa uma medida de centralidade eacute um ldquovalor tiacutepicordquo em torno doqual se situam os valores daquela variaacutevelAs medidas de centralidade mais conhecidas satildeoa meacutedia aritmeacutetica e a mediana Usar os comando mean(x) median(y) Por exemplo
gt mean(nt)[1] 2001852gt median(nt)[1] 193Uma medida de localizaccedilatildeo eacute o quantil A funccedilatildeo apropriada do R para obter os quantis de um
vetor numeacuterico x eacute a funccedilatildeo gt quantile(x)Se desejarmos determinar os trecircs quartis usariacuteamos
o comando quantile(xc(02505075))
Se desejarmos o quinto o deacutecimo e o nonageacutesimo percentis usariacuteamos o comandogt quantile(xc(05010090))
Cap1-AED Medidas (estatiacutesticas)
O comando quantile(xp) retorna o quantil de ordem p das observaccedilotildees de x podendo p ser
um vetor Por exemplo
gt quantile(nt c(20 50 95))
20 50 95
1306 1930 3582
Uma medida de dispersatildeo para uma variaacutevel quantitativa eacute um indicador do grau de espalhamento
dos valores da amostra em torno da medida de centralidade As medidas de dispersatildeo mais
conhecidas satildeo a variacircncia o desvio-padratildeo e a distacircncia interquartil=diferenccedila entre o terceiro
e o primeiro quartis
gt var(nt)
[1] 7131464
gt sd(nt)
[1] 84448
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1561
gt q=fivenum(nt) q[4]-q[2] em q estatildeo os 5 nuacutem Subtraiacutemos o Q3 do Q1[1] 92
Os cinco valores x(1) Q1 Q2 Q3 x(n) miacutenimo os trecircs quartis e o maacuteximo satildeoimportantes para se ter uma boa ideacuteia da assimetria dos dados Esse valores podem serobtidos pelo comando fivenum(x) O summary(x) acrescenta tambeacutem a meacutedia ao resultado
Por exemplogt fivenum(nt)[1] 86 141 193 233 457gt summary(nt)
Min 1st Qu Median Mean 3rd Qu Max
860 1410 1930 2002 2330 4570
Cap1-AED IEQ fivenum boxplot
O Box Plot ou Desenho Esquemaacutetico eacute um graacutefico que se costuma utilizar para sintetizarem uma mesma figura vaacuterias informaccedilotildees relativas agrave distribuiccedilatildeo de uma determinadavariaacutevel quantitativa Nele tambeacutem satildeo representadas as observaccedilotildees discrepantesObservaccedilotildees discrepantes ou outliers satildeo observaccedilotildees cujos valores estatildeo muito afastadosdos demais (para mais ou para menos) Essas observaccedilotildees podem afetar de formasubstancial o resultado das anaacutelises estatiacutesticas O comando para usar-lo eacute boxplot(x)
Por exemplo ver fig 125 pag 28gt nt=c(18381254193316214231406456822872314
8611996235321861281254244214781182347515012369214621412573362814071138) digitaccedilatildeo de nt
gt boxplot(nt ylim=c(50500)xlab=N linhas1000hab)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1661
Quando se deseja investigar a relaccedilatildeo entre duas variaacuteveis qualitativas o caminho natural eacutemontar uma tabela de contingecircncia Construir uma tabela de contingecircncia consiste emcolocar nas linhas os valores possiacuteveis de uma variaacutevel e nas colunas os valores possiacuteveis
cruzamentoO comando para fazer a tabela seria gttable(xy)Por exemplogt tab12=readtable(fSBPO2010Rtab1_2txt header = T sep = )gt attach(tab12)
gt table(CATEG Classe_IMC)Classe_IMC
CATEG normal sobrepesoA 18 4
Cap1-AED Relaccedilatildeo entre duas variaacuteveis Qualitativas
Para analisar a relaccedilatildeo entre 2 variaacuteveis atraveacutes de uma tabela de contingecircncia umprocedimento muito uacutetil eacute calcular os percentuais em relaccedilatildeo aos totais das linhas etambeacutem os percentuais em relaccedilatildeo aos totais das colunas Os comandos seriamproptab(x1) para linha e proptab(x2) para coluna Por exemplo usando a tabela 25paacutegina 46
gt mat= matrix(c(68154510 66214215 66242519 39161711)44byrow=T)gt rownames(mat)=c(18 a 21 anos22 a 25 anos26 a 30 anos31 a 40 anos)gt colnames(mat)=c(CinTeatSMDEx)gt mat1=proptable(mat 1) por linha tab 27gt mat2=proptable(mat 2) por coluna tab 28
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1761
Cap1-AED Relaccedilatildeo entre duas variaacuteveis QuantitativaQuando se deseja investigar a relaccedilatildeo entre duas variaacuteveis quantitativas o mais adequado eacutecomeccedilar pela construccedilatildeo de um Diagrama de Dispersatildeo Construir um diagrama de
dispersatildeo para 2 variaacuteveis quantitativas X e Y consiste em localizar pares de valoresobservados (xi yi ) como pontos em um sistema de eixos coordenados O camando seriaplot(xy)Por exemplogtx=c(12345) y=c(11224) plot(xy)
Um indicador do grau de interdependecircncia linear para 2 variaacuteveis quantitativas X e Y eacute ocoeficiente de correlaccedilatildeo rxy que pode assumir qualquer valor real entre -1 e 1 Ocoeficiente de correlaccedilatildeo entre X e Y eacute calculado por uma das duas expressotildees
matemaacuteticas (equivalentes) a seguir
O comando seria cor(xy) Por exemplogtx=c(12345) y=c(11224) cor(xy)
[1] 09036961
sum sum
sum
sumsum
sum
= =
=
=
=
sdotminussdotminus
sdotsdotminus
=
minussdotminus
minusminus
=n
1i
n
1i
1222
i
22
i
n
1i
ii
122
i
2
i
n
1i
n
1i
ii
xy
)yny)(xnx(
yxnyx
)y(y)xx(
)y)(yx(x
r
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1861
Cap1-AED Relaccedilatildeo entre duas variaacuteveis Quantitativa
bull Quando se verifica atraveacutes do coeficiente de correlaccedilatildeo (ou pelo aspecto visual doDiagrama de Dispersatildeo) que existe uma forte relaccedilatildeo linear entre 2 variaacuteveis X e Y
pode ser de interesse calcular a equaccedilatildeo da reta que representa esta relaccedilatildeo entre as2 variaacuteveis y = a + bx A equaccedilatildeo y = a + bx considera que y eacute a variaacutevel dependente(ou variaacutevel resposta) e que x eacute a variaacutevel independente (ou variaacutevel preditora) a serusada para explicar o comportamento da variaacutevel y A equaccedilatildeo da reta pode ser usadapara se antever qual seria o valor y0 da variaacutevel resposta y correspondente a umdeterminado valor x0 da variaacutevel preditora x
bull As foacutermulas que nos permitem calcular os valores de a e b a partir dos dados satildeo
yxn
n
i
n
i sumsum
O coeficiente b mede a inclinaccedilatildeo da reta de Regressatildeo Entatildeo ao passarmos de um pontoa outro sobre a reta b mede a relaccedilatildeo entre as variaccedilotildees de y e de x O coeficiente a medeo valor de y quando x eacute igual a zero ou seja eacute o intercepto da reta de Regressatildeo
O comando para calcular os coeficientes a e b seria gt lsprint(lsfit(xy))gtx=c(12345) y=c(11224)gtreg=lsfit(xy)gtlsprint(reg)
n
x
x
nyx
b2
n
1i
in
1i
2
i
1i
ii
minus
minus
=
sumsum =
=
=
==
x bya sdotminus=e
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1961
Cap 2-a Simulaccedilatildeo do conceito frequumlentistaConceito Frequumlentista de Probabilidade Suponha que o experimentofoi repetido n vezes sempre sob as mesmas condiccedilotildees e que o evento Aocorreu m vezes entre essas n realizaccedilotildees do experimento Entatildeoa fraccedilatildeo mn eacute uma boa aproximaccedilatildeo para a probabilidade de Ase o nuacutemero n de repeticcedilotildees for bastante grande
Simbolicamente P (A) congcongcongcong mn
Exemplo Simulando 100 lanccedilamentos de uma moedaNo R foram simulados 100 lanccedilamentos de uma moeda equilibrada isto eacute
onde as chances de cara e de coroa satildeo iguais Depois de cadalanccedilamento foi observado o nuacutemero acumulado de caras obtidas ateacute essemomen o e o ca cu a a a proporccedil o e caras correspon en e a a e a aseguir estatildeo apresentados os valores correspondentes ao nuacutemeroacumulado de caras ao longo do processo Por exemplo para a jogada denuacutemero 29 o nuacutemero acumulado de caras eacute 13 e a fraccedilatildeo de caras eacute 1329O graacutefico abaixo mostra a evoluccedilatildeo dessa fraccedilatildeo agrave medida que foramfeitos os 100 lanccedilamentos da moeda
Os comandos no R para a elaboraccedilatildeo do graacutefico
gtx=1100 y=cumsum(sample(01100rep=T))gtplot(xy1100 ylim=c(01) xlim=c(0100) pch=16)gtsegments(10510005)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2061
Cap 2-b Variaacuteveis Aleatoacuterias (va)Uma variaacutevel aleatoacuteria (va) eacute uma funccedilatildeo que associa cada elemento de um
espaccedilo amostral a um nuacutemero real As variaacuteveis aleatoacuterias podem ser do
tipo
Discreto se os seus valores pertencem a um conjunto enumeraacutevel de nuacutemerosreais (usualmente valores inteiros)
Contiacutenuo se os seus valores pertencem a um intervalo de nuacutemeros reais
O modelo probabiliacutestico de uma variaacutevel aleatoacuteria X estabelece o padratildeo de
comportamento de sua distribuiccedilatildeo de probabilidadeA fun atildeo de robabilidade de uma v a discreta X eacute definida orp(x)=P[X=x]
A funccedilatildeo de distribuiccedilatildeo acumulada F de uma v a X eacute definida porF(x) = P[Xlelelelex]
Se X eacute uma va discreta que assume os valores x 1
x 2
x 3
x N
entatildeo
bull A meacutedia ou esperanccedila de X eacuteE(X) = x 1 P(X=x 1 ) + x 2 P(X=x 2 ) + x 3 P(X=x 3 ) + + x N P(X=x N )
bull A Variacircncia de X eacute calculada por |Var(X)=(x 1 ndashE(X))2 P(X=x 1 )+(x 2 ndashE(X))2 P(X=x 2 )++(x N ndashE(X))2 P(X=x N )
bull O desvio padratildeo de X eacute igual agrave raiz quadrada natildeo negativa da suavariacircncia DP(X)= Var(X)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2161
Cap 2-b - va e o RO trabalho no R com uma va X estaacute baseado em 4 procedimentos
p probability ndash Gera a probabilidade de um valor de xq quantile ndash Gera o valor x de uma dada probabilidade acumulada pd density ndash Gera o valor da funccedilatildeo densidade num valor x da variaacutevel
Observar que quando a variaacutevel eacute discreta este valor eacute aprobabilidade de x quando a variaacutevel eacute contiacutenua o resultadoeacute a altura da funccedilatildeo densidade de probabilidade
r random ndash Gera n valores do modelo probabiliacutestico em questatildeo
As distribuiccedilotildees que estudaremos estatildeo listadas a seguir depois de cada uma delasentre parecircnteses estaacute o nome no R
(geom) Binomial negativa- Pascal (nbinom)
Entre as contiacutenuas Uniforme (unif ) Exponencial (exp) Normal (norm) t-student (t)quiquadrado (chisq) F (f )
A interligaccedilatildeo dos trecircs primeiros procedimentos pq e d seraacute ilustrada pela distribuiccedilatildeoNormal atraveacutes do graacutefico abaixo
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2261
Cap 2-b - va pnorm e qnormSeja a relaccedilatildeo p = P(Xltx) que aparece na tabela da distribuiccedilatildeo Normal Quiquadrada
t-student e F Para um dado valor de p acha-se um valor de x a procura direta que para aNormal no R corresponderia a pnorm(x 983221 σ) Neste caso devo informar o x e os dois
paracircmetros da distribuiccedilatildeo Normal 983221 e σJaacute a procura inversa seria para um dado valor de x achar um valor de p que para a Normalno R corresponderia a qnorm(p983221σ) Neste outro caso devo informar o valor de p desejado etambeacutem os dois paracircmetros da distribuiccedilatildeo Normal 983221 e σ
Exemplo Seja X a va que corresponde ao peso (em kg) de pessoas de uma certapopulaccedilatildeo com meacutedia 983221=70 Kg e desvio padratildeo σ=8 Kg assim X~ N(983221=70 σ2=82)
Se desejarmosa) P(Xlt80) usaremos no R o comando pnorm(80 70 8) isto eacute x=80 eacute o primeiro paracircmetroenquanto 70 e 8 satildeo paracircmetro especiacuteficos da distribuiccedilatildeo Normal
b) Admita que o peso limite para ser classificado como obeso eacute o valor que corresponde a10 dos mais pesados do populaccedilatildeo Achar este peso limiteO que se pede eacute a funccedilatildeo inversa Dado um valor de p=090 achar um valor de x que deixa90 abaixo dele No R seria qnorm(09 70 8) isto eacute o valor da probabilidade p=09 eacute
o primeiro paracircmetro enquanto 70 e 8 satildeo paracircmetros especiacuteficos da distribuiccedilatildeo NormalSe usarmos a Normal padratildeo z=(x-983221)σ no caso do item a o comando seria pnorm((80-70)8)ou pnorm(125) Repare que neste caso natildeo foi necessaacuterio passar os paracircmetros especiacuteficos daNormal pois 983221=0 e σ =1 coresponde ao default Observaccedilatildeo Sempre que usarmos um p oprimeiro paracircmetro eacute um x e os outros satildeo especiacuteficos da distribuiccedilatildeo em questatildeosempre que usarmos um q o primeiro paracircmetro eacute um p e os outros satildeo especiacuteficosSempre que usarmos um d o primeiro paracircmetro eacute um x
Quando usarmos uma distribuiccedilatildeo discreta o d corresponde aacute probabilidade no ponto x
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2361
Pag 118 ndash Figura 412
x=seq(010001)
plot(xdexp(x 12) type=l xlim=c(012) ylim=c(01) bty=l ylab=f(x) e F(x))
for(i in seq(0 25 001)) segments(i 0 i dexp(i12) col=lightgrey)
abline(v=0 h=0)
points(xdexp(x 12) type=l lwd=2 bty=l)
points(x pexp(x 12) lwd=2 type=l)
segments(250 25pexp(2512))
Cap 2-b - va dexp pexp points segments
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2461
Cap 2-b - va disponiacuteveis no Rrbinom(n size prob) binomialrpois(n lambda) Poissonrgeom(n prob) geometricarhyper(nn m n k) hipergeometricarnbinom(n size prob) binomial negativarunif(n min=0 max=1) uniformerexp(n rate=1) exponentialrnorm(n mean=0 sd=1) Gaussiana (normal)rt(n df) lsquoStudentrsquo (t )rf(n df1 df2) FisherndashSnedecor (F )
rchisq(n df) Quiquadradar amma n sha e scale=1 amma rbeta(n shape1 shape2) betarlnorm(n meanlog=0 sdlog=1) lognormalrcauchy(n location=0 scale=1) Cauchyrweibull(n shape scale=1) Weibullrwilcox(nn m n) Wilcoxonrsquos rank sum statistics
rsignrank(nn n) Wilcoxonrsquos signed rank statisticsrlogis(n location=0 scale=1) logistic
Todas essas distribuiccedilotildees apresentadas por rnome (nome da variaacutevel aleatoacuteria) como vimostrocando a primeira letra e mantendo os paracircmetros especiacuteficos de cada distribuiccedilatildeo(denotados por ) podem ser usadas substituindo a letra ldquor rdquo por
d valor da densidade de probabilidade no ponto x dnome (x )p probabilidade acumulada no ponto x pnome (x )
q quantil correspondente a probabilidade acumulada p dnome (p)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2561
Cap 2-c O Teorema Central do Limite (TCL)O Teorema Central do Limite (abreviadamente TCL) diz respeito ao comportamento da
meacutedia amostral agrave medida que o tamanho n da amostra cresce indefinidamente
Exemplo 31 ndash A distribuiccedilatildeo de renda e o TCLEacute um fato conhecido que a distribuiccedilatildeo da rendapessoal dos habitantes de um paiacutes eacuteusualmente muito desigual ou seja muitosganham pouco e poucos ganham muito Seforem sorteados 200 habitantes desse paiacutes e
com base nas suas rendas mensais
Agora se forem sorteadas 200 amostrascada uma delas contendo 2 habitantesdesse paiacutes e se forem calculadas as 200respectivas meacutedias amostrais a partir delas obteremos o histograma a seguir
Agora cada uma das 200 amostrassorteadas contendo 30 habitantes dessepaiacutes e se forem calculadas as 200 meacutediasamostrais o histograma seria
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2661
Cap 2-c ndash TCL ExemploComo pode ser observado no caso de n = 2 o histograma se aproxima mais de uma curvaNormal do que no caso de n = 1 E no caso de n = 30 a semelhanccedila do histograma com umacurva Normal eacute ainda maior
O Teorema Central do Limite afirma que independentemente de qual seja a
distribuiccedilatildeo original dos Xirsquos a distribuiccedilatildeo de probabilidade de e a
distribuiccedilatildeo Normal com meacutedia micromicromicromicro e variacircncia σσσσ2 n se aproximam cada vez
mais uma da outra agrave medida que n cresce
Portanto mesmo que a distribuiccedilatildeo de probabilidade dos Xirsquos seja desconhecida o Teorema
X n
Central do Limite garante a possibilidade de usarmos o modelo Normal para calcular ainda quede forma aproximada probabilidades relativas agrave meacutedia amostral desde que n sejasuficientemente grande
Exemplo 62 Simulando o efeito do TCL
Para ilustrar o funcionamento do Teorema Central do Limite vamos exibir agora um exemploem que a distribuiccedilatildeo original a partir da qual os dados satildeo gerados eacute uma exponencial modelo
este que daacute origem a uma funccedilatildeo densidade bastante assimeacutetrica (ao contraacuterio do que ocorre
com a curva Normal) A densidade de uma exponencial com paracircmetro eacute dada pela
expressatildeo
No R rexp(n ) simula n valores
λ
0 xλef(x) λx ge= minusλ
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2761
Cap 2-c ndash TCL ExemploA densidade de uma exponencial com paracircmetro eacute dada pela expressatildeo
Gerando dados por simulaccedilatildeo a partir de uma exponencial com λ = 13 para cada um dos
seguintes tamanhos n de amostra 1 2 3 4 5 10 15 e 201 Obtivemos 200 valores da meacutedia amostral 2 Utilizamos esses 200 valores para construir um histograma3 Traccedilamos no mesmo graacutefico uma curva da densidade Normal com E( )=3 e DP( )=3Xn
λ 0 xλef(x) λx ge= minus
Xn n
Os 8 histogramas nos mostram que agrave medida que o tamanho n da amostra cresce
a forma do histograma se aproxima cada vez mais de uma curva Normal
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2861
Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com
simulaccedilotildees - Exponencial
tclexp=function(n N=200 titulo= yl=c(0 4)) iniacutecio da funccedilatildeo ndash tclexpmedias=numeric(N)
for (i in 1N) medias[i]= mean(rexp(n13))
hist(medias xlim=c(-110) ylim=yl freq=F main=titulo)
x=seq(-110 02)
points(x dnorm(x 3 3sqrt(1n) ) type=l lwd=3)
fim da funccedilatildeo
graphicsoff()
par(mfrow=c(33) mai=c(3411))
tclexp(1titulo=n=1)
tclexp(2titulo=n=2)
tclexp(3titulo=n=3)
tclexp(4titulo=n=4)
tclexp(5titulo=n=5)
tclexp(6titulo=n=6)
tclexp(10titulo=n=10yl=c(06))
tclexp(15titulo=n=15yl=c(06))
tclexp(20titulo=n=20yl=c(06))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2961
Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com
simulaccedilotildees - Exponencial
Uma pergunta natural neste ponto serialdquoQuatildeo grande deve ser n para que possamos usar a aproximaccedilatildeo fornecida pelo
TCL com um niacutevel de precisatildeo aceitaacutevelrdquo
A rapidez com que essa convergecircncia se daacute depende de quatildeo distante estaacute a forma
da distribuiccedilatildeo original das Xirsquos de uma curva Normal Em outras palavras se a
distribuiccedilatildeo das Xirsquos jaacute natildeo for muito diferente de uma Normal com um n natildeo muito-
grande (usualmente n ge 30) a aproximaccedilatildeo da distribuiccedilatildeo de por uma Normal
funcionaria adequadamente
No exemplo a seguir vamos apresentar esse fenocircmeno a saber a convergecircncia da
distribuiccedilatildeo de para uma Normal agrave medida que n cresce gerando por simulaccedilatildeo osdados originais a partir de diferentes modelos probabiliacutesticos Em todos os casos a
distribuiccedilatildeo original eacute bem diferente da Normal E(X)=3 e DP(X)=3 No que se refere agrave
Simulaccedilatildeo foi seguida a mesma sequumlecircncia de passos do exemplo anterior
Xn
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3061
Cap 2-c ndash TCL Exemplo
Exponencial
Uniforme
Mistura deNormais
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3161
Como se pode observar
1 No caso da distribuiccedilatildeo uniforme (A) o histograma de jaacute se aproximabastante de uma Normal quando n eacute da ordem de 4
2 Jaacute no caso da distribuiccedilatildeo Exponencial (B) e da mistura de normais
(C) modelos esses que se afastam muito mais de umldquo rdquo
Cap 2-c ndash TCL Exemplo
mostra mais adequada a partir de n em torno de 10
3 No caso do modelo em (C) agrave medida que n cresce tudo se passacomo se houvesse a ldquoerupccedilatildeo de um vulcatildeo dentro do valerdquo
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3261
tclunif=function(nN=100titulo= yl=c(0 4))
medias=numeric(N)for (i in 1N) medias[i]= mean(runif(n 3-3sqrt(3) 3+3sqrt(3)))
hist(medias xlim=c(-610) ylim=yl freq=F main=titulo)
x=seq(-610 02)
points(x dnorm(x 3 3sqrt(1n) ) type=l lwd=3)
medias
Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com
as simulaccedilotildees - Uniforme
grap cso
par(mfrow=c(33) mai=c(3411))
tclunif(1titulo=n=1yl=c(06))
tclunif(2titulo=n=2yl=c(06))
tclunif(3titulo=n=3yl=c(06))
tclunif(4titulo=n=4yl=c(06))tclunif(5titulo=n=5yl=c(06))
tclunif(6titulo=n=6yl=c(06))
tclunif(10titulo=n=10yl=c(06))
tclunif(15titulo=n=15yl=c(06))
tclunif(20titulo=n=20yl=c(06))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3361
X2=c(rnorm(35011) rnorm(15081)) X2 eacute a Populaccedilatildeo de onde retiramos as amostras
br=seq(-2 12 5)
tcl2modas=function(nN=200titulo= yl=c(0 6)) medias=numeric(N)for (i in 1N) medias[i]= mean(sample(X2nrep=T))hist(mediasbreaks=br xlim=c(-212) tcl=-01 ylim=yl xarp=c(-31216)
tck=005 lab=c(5515) freq=F main=titulo)x=seq(-312 02)
Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com
as simulaccedilotildees - Mistura de Normais
points(x dnorm(x med dpsqrt(n) ) type=l lwd=2)
par(mfrow=c(24) mai=c(3011) mar=c(2 2 2 1))
hist(X2 freq=F breaks=seq(-3125) bty=o xlim=c(-212)xarp=c(-31216)tck=005 lab=c(5515) ylim=c(06) main=POPULACcedilAtildeO lwd=2)
tcl2modas(2titulo=n=2)tcl2modas(3titulo=n=3)
tcl2modas(4titulo=n=4)
tcl2modas(5titulo=n=5)
tcl2modas(10titulo=n=10)
tcl2modas(15titulo=n=15)
tcl2modas(25titulo=n=25)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3461
CAP 3-a) Intervalo de ConfianccedilaSeja um estimador pontual do paracircmetro eacute uma variaacutevel aleatoacuteria que varia deamostra para amostra Por isso haacute uma certa dose de incerteza inerente a esse processode estimaccedilatildeo Nosso objetivo agora eacute obter com base nos dados amostrais (da uacutenicaamostra observada) um intervalo ao qual o valor correto do paracircmetro deve ter grandechance de pertencer
bull Detalhando um pouco mais No processo de estimaccedilatildeo por intervalo de um paracircmetro θdevemos determinar um intervalo que contenha o verdadeiro valor do paracircmetro comprobabilidade 1-α onde α eacute um pequeno valor preacute-fixado Este intervalo eacute construiacutedo emgeral em torno do estimador pontual considerando uma margem de erro d de forma aque uma vez fixada a probabilidade 1-α calculemos d tal que P( - d le θ le + d ) = 1 -αChama-se intervalo de confianccedila para θ ao niacutevel 1 - α ao intervalo [ - d + d]
θ $θ
$θ$θ
$θ $θ
$
θ
bull Ou seja o estimador pontual eacute o centro do Intervalo de Confianccedila e o erro absoluto dassociado a define a amplitude desse intervalo O que eacute de fato variaacutevel aleatoacuteria satildeoos extremos do intervalo O paracircmetro tem valor desconhecido natildeo aleatoacuterio (fixo a ser estimado)
Exemplo Intervalo de Confianccedila para a meacutedia populacional com o desvio padratildeo conhecidoO paracircmetro a estimar eacute a meacutedia populacional micro A estimaccedilatildeo seraacute baseada em X1 X2 Xn
uma amostra aleatoacuteria com E(Xi) = micro e var(Xi) = σ2 para todo i = 12 n Queremos que seja
vaacutelida a expressatildeo o que equivale a P [ -d le -micro le d] = 1-α
$θ
X[ ] α1dmicroXP minus=leminus
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3561
bull Lembrando que para n suficientemente grande pelo Teorema Central do Limite a meacutediaamostral segue uma distribuiccedilatildeo que se aproxima da Normal(micromicromicromicro σσσσ2 n) (ou eacute exatamente aNormal(micromicromicromicro σσσσ2 n) no caso em que a distribuiccedilatildeo comum das va Xirsquos jaacute eacute Normal) entatildeo
P [-d le -micromicromicromicro le d] = 1-α rArr 1-α = P [ |Z| le ] Logo d =
bull Faremos uma simulaccedilatildeo para a construccedilatildeo de Intervalos de Confianccedila com 100 amostras dedois tipos de populaccedilatildeo Normal e Exponencial A lista de comandos do R que usamos eacute
ICN = function (N n mu sigma = 3 conf)
plot(0 0 type=n xlim=c(010) ylim=c(0N) bty=l
xlab=Normal ylab=amostras)abline(v=mu)
CAP 3-a) Intervalo de Confianccedila
X
nσ
d
minus
z0 = qnorm(1-((1-conf)2))
sigmaxbarra = sigmasqrt(n)
for (i in 1N)
x = rnorm(n mu sigma)
media = mean(x)
li = media - z0 sigmaxbarrals = media + z0 sigmaxbarra
plotx = c(lils)
ploty = c(ii)
if (li gt mu | ls lt mu) lines(plotxploty col=red)
else lines(plotxploty)
gt ICN(100 25 3 3 95)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3661
CAP 3-a) Intervalo de Confianccedila
ICexp = function (N n lambda conf)
mu=1lambda sigma=1lambda
plot(0 0 type=n xlim=c(010) ylim=c(0N) bty=lxlab=Exponencial ylab=amostras)
abline(v= mu)
z0 = qnorm(1-((1-conf)2))
sigmaxbarra = sigmasqrt(n)
for (i in 1N)
x = rexp(nlambda) me a = mean x
li = media - z0 sigmaxbarra
ls = media + z0 sigmaxbarra
plotx = c(lils)
ploty = c(ii)
if (li gt mu | ls lt mu) lines(plotx ploty col=red)
else lines(plotx ploty)
gt ICexp(100 25 13 95)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3761
CAP 3-b Teste de Hipoacuteteses (TH)O objetivo de um teste de hipoacutetese eacute avaliar a validade de uma afirmaccedilatildeo sobre determinada
caracteriacutestica da populaccedilatildeo usando para isso os dados de uma amostra Essa caracteriacutestica eacute
representada pela va contiacutenua X cujo comportamento probabiliacutestico eacute expresso pela funccedilatildeo dedensidade f com paracircmetro Ө que tem valor desconhecido
Em um teste existem duas hipoacuteteses envolvidas H0 denominada hipoacutetese nula e H1
denominada hipoacutetese alternativa O procedimento de teste de hipoacutetese consiste em estabelecer
um criteacuterio de decisatildeo que leve a Aceitar ou Rejeitar H0 com base nos valores amostrais
A Estatiacutestica de teste eacute uma funccedilatildeo da amostra aleatoacuteria utilizada para definir o criteacuterio de
decisatildeo Estabelecer o criteacuterio de decisatildeo consiste em dividir o conjunto dos valores possiacuteveis
da estatiacutestica de teste em duas partes denominadas Regiatildeo de Aceitaccedilatildeo A e Regiatildeo de
Rejeiccedilatildeo R da hipoacutetese nula
Em um teste de hipoacutetese haacute dois tipos possiacuteveis de erro de decisatildeo
Erro I - Rejeitar H0 quando H0 eacute verdadeira
Erro II - Aceitar H0 quando H0 eacute falsaAs probabilidades de ocorrecircncia dos erros satildeo α = P [ Erro I ] e β = P [ Erro II]
A probabilidade de erro I α eacute o niacutevel de significacircncia do teste cujo valor eacute arbitrado pelo
pesquisador deve ser pequena pois corresponde a probabilidade de um erro (005 ou 001)
O niacutevel criacutetico ou p-valor do teste eacute o menor valor de α para o qual ainda rejeitariacuteamos H0 de
acordo com os dados observados
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3861
CAP 3-b) ndash TH teste tttest(x y = NULL alternative = c(twosided less greater) mu = 0
paired = FALSE varequal = FALSE conflevel = 095 )
Procedimentos de teste de hipoacuteteses com niacutevel de significacircncia α e amostras de tamanho n
UmaAmostra
DuasAmostras
Obs Os testes acima satildeo bilaterais
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3961
CAP 3ndashb) TH exemplo de teste t ndash amostras independentespag233- teste t amostras independente - comparaccedilatildeo log(salaacuterio)
entre os grupos de comeacutercio e de serviccedilo
LogSal=c(1289156912501344145616361573171309060903
0977122011031069128714101496131113371366
1227119114591280115217401649176524101701
1538192419251721154918911534163812071682
120614232010143112651570)
Sal=exp(LogSal)
setor= c(rep(C23) rep(S23))
ttest(Sal[setor==C] Sal[setor==S] varequal=T)
Two Sample t-test
data Sal[setor == C] and Sal[setor == S]
t = -36822 df = 44 p-value = 00006289
alternative hypothesis true difference in means is not equal to 095 percent confidence interval
-23079005 -06751838
sample estimates
mean of x mean of y3786010 5277552
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4061
CAP 3ndashb) TH exemplo de teste t ndash amostra pareadapag237- teste t pareado
P1=c(6315596455545480598065203660986853
8765647785536980827184605572645564)
P2=c(3638306043466455604343523428837155
8238556767443459605968506254473652)
ttest(P1 P2 alt=greater paired = T)
Paired t-test
data P1 and P2
t = 44176 df = 33 p-value = 5072e-05
alternative hypothesis true difference in means is greater than 0
95 percent confidence interval
0716695 Inf
sample estimates
mean of the differences
1161765
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4161
CAP 3ndashb) TH exemplo de teste Quiquadrado chisqtest
pag233- teste Quiquadrado -
tcont=matrix(c(683585251530258 7461761220225) 72)
chisqtest(tcont)
Pearsons Chi-squared test
data tcont- = = - lt -
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4261
CAP 3ndashb) TH exemplo de teste Quiquadrado chisqtestaov(formula data = NULL )
pag244- ANOVA - Comparaccedilatildeo de trecircs raccedilotildees para suinos
A=c(444943514475425134305342453630
322133421040395246294247453959)
B=c(343640545953445432686954414647
6566455739)
C=c(574040364566395025212927283942
21304143294244582849)
aumentoP=c(ABC)
racao=c(rep(A30)rep(B20) rep(C25))
summaryaov(aov(aumentoP ~ racao))
Df Sum Sq Mean Sq F value Pr(gtF)racao 2 15385 7693 56136 0005425
Residuals 72 98666 1370
---
Signif codes 0 lsquorsquo 0001 lsquorsquo 001 lsquorsquo 005 lsquorsquo 01 lsquo rsquo 1
Warning message
In modelmatrixdefault(mt mf contrasts)
variable racao converted to a factor
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4361
ApecircndicesA-1) Apresentaremos aqui algumas figuras
feitas no R na elaboraccedilatildeo do livro
Achamos que o exame desses coacutedigos acompanhado dos resultados podeser um bom aprendizado um exerciacutecio ou talvez uma recordaccedilatildeo do materialaqui exposto
A-2) Resumo de comandosa) Criaccedilatildeo de dados
b) Informaccedilatildeo de uma Variaacutevel
c) Seleccedilatildeo de dados e manipulaccedilatildeo
d) Estatiacutesticas e operaccedilotildees matemaacuteticas
e) Corte e extraccedilatildeo de dados
f) Operaccedilatildeo com Matrizes
g) Graacuteficos (Plotting)
h) Teste de hipoacuteteses
i) Programming
j) Commandos auxiliaries em Graacuteficos
k) Comando par (Graphical parameters)
l) Input and output
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4461
A1) ndash Pag 14 ndash Figura 15
IDADE=c(616961716371726866697267636663636067716360696463667164706366646969646372736871726968687379)
IMC= c(245273281301254301280234268228255228235232203226239243271227237258213243243248219234216214221227227211268278275267286253239258247284235)
par(mfrow=c(12))hist(IDADE breaks=c(6065707580) ylim=c(020) ylab=Nuacutemero de Observaccedilotildees
main= col=grey right = F)hist(IMC breaks=c(200225250275300325)
ylab=Nuacutemero de Observaccedilotildeesmain= col=grey right = F )
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4561
A1) ndash Pag 44 ndash Figura 21
mat=matrix(c(81823913601818608740)32)
rownames(mat)=c(AtivaSedentaacuteriaTotal)colnames(mat)=c(NormalSobrepeso)barplot(t(mat) beside = TRUE space=c(315)
col=gray(c(79))legend = c(NormalSobrepeso) ylim = c(0 95) ylab= - percentagem)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4661
A1) ndash Pag 48 ndash Figura 22
mat= matrix(c(68154510 66214215 66242519 39161711)44byrow=T)
rownames(mat)=c(18 a 21 anos 22 a 25 anos 26 a 30 anos 31 a 40 anos)colnames(mat)=c(CinTeatSMDEx)mat1=mat for (i in 14) mat1[i]lt-mat1[i]100sum(mat1[i]) par(mfrow=c(12) mai=c(1111) mar=c(5 4 2 2) )barplot(matbeside=F ylim=c(0250) legend = c(18 a 21 anos 22 a 25 anos
26 a 30 anos 31 a 40 anos) xlab=Contagem)
barplot(mat1 beside=F xlab=Percentagem)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4761
A1) ndash Pag 52 ndash Figura 25X= c(184114821789235159118762592403190408372147328526471687
09642871437079238215753399242122530314859149806)y =c(01837012540193301620014230140604568022870231400861019960235302186012798991801254018210244160823
0147764068011818941403474539680150133247023685518102146187520214097090257291227
036282905401406510810113849399)plot(x y xlim=c(07) ylim=c(05) pch=16 bty=l xlab=Renda per capita
ylab=Telefonia Fixa per capita)
abline(lsfit(xy))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4861
A1) ndash Pag 109 ndash Figura 45
x=020
y1=dpois(x1) y2=dpois(x3) y3=dpois(x10)names(y1)=x names(y2)=x names(y3)=xpar(mfrow=c(13))plot(y1ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=1)plot(y2ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=3)plot(y3ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=10)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4961
A1) ndash Pag 118 ndash Figura 412
x=seq(010001)
plot(xdexp(x 12) type=l xlim=c(012) ylim=c(01) bty=l ylab=f(x) eF(x))for(i in seq(0 25 001)) segments(i 0 i dexp(i12) col=lightgrey)abline(v=0 h=0)points(xdexp(x 12) type=l lwd=2 bty=l)points(xpexp(x 12) lwd=2 type=l)segments(250 25pexp(2512))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5061
A1) ndash Pag 163 ndash Figura 68
plot(p xlim=c(618) ylim=c(016) type=n bty=l xaxt=n xlab= ylab=
cexaxis=6)for (i in 1015) rect(i-50 i+5 dbinom(i304) col=lightgrey) lty=2)segments(i0idbinom(i304) lty=2)
x=seq(61801) lines(x dnorm(x12sqrt(72)) lwd=2)x=seq(61801) lines(x dnorm(x12sqrt(72)) lwd=2)
axis(1 916 cexaxis=9) ax s seq cexax s=
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5161
A1) ndash Pag 198 ndash Figura 78
x1=seq(-4402)plot(x1dnorm(x1) type=l lwd=3 xlab= ylab= )lines(x1 dt(x11)) lines(x1 dt(x12)) lines(x1 dt(x15))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5261
A2ndashResumo de comandos
a)Criaccedilatildeo de dados
c()funccedilatildeo geneacuterica para combinar argumentos com o formando de um vetor fromto gera uma sequecircnce ldquordquo tem prioridade de operator pe13 + 1 is ldquo234rdquo
seq(fromtoby) gera uma sequecircncia by= especifica incremento
length= especifica um comprimento desejado
rep(xtimes) replicate x onuacutemero times de vezes use each= para repetir cada
elemento de x rep(c(123)2) gera 1 2 3 1 2 3 rep(c(12)each=2) gera 1 1 2 2
matrix(xnrow=ncol=) matrix elementos de x se reciclam caso x
rbind()combina vetores em linhas num estrutura de matrizes de dados
cbind()combina vetores em colunas num estrutura de matrizes de dados
array(xdim=) matriz com dados x especificar dimensotildees como dim=c(342)
elementos de x se reciclam caso x natildeo seja suficientemente grande
factor(xlevels=) codifica um vetor x como um fator gl(nklength=nklabels=1n) gerar niacuteveis (fatores) especificando
o padratildeo de seus niacuteveis k eacute o nuacutemero de niacuteveis e n eacute o nuacutemero de repeticcedilotildees
dataframe() criar um banco de dados Por exemplo
dataframe(v=14ch=c(gBcasad)n=5)
list()criar uma lista de argumentos Por exemplo list(a=c(12)b=hic=3i)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5361
A2ndashResumo de comandos
b) Informaccedilatildeo de uma Variaacutevellength(x) nuacutemero de elementos em x
dim(x) Obter ou definir a dimensatildeo de um objeto dim (x) = c(32)dimnames(x) Obter ou definir os nomes das dimensotildees de um objeto
nrow(x) nuacutemero de linhas
ncol(x) nuacutemero de colunas
c) Seleccedilatildeo de dados e manipulaccedilatildeochoose(n k) calcula a combinaccedilatildeo de elementos escolhidos entre n
resultando n [(n-k) k]
cut(xbreaks) divide x em intervalos (fatores) breaks eacute o nuacutemero de intervalos de
corte ou um vetor com os valores especiacuteficos
table(x) retorna uma tabela com as quantidades dos diferentes valores de x
(tipicamente para variaacuteveis dos tipos inteiros ou fatores)
sample(x size) retira aleatoriamente com e sem reposiccedilatildeo elementos detamanho SIZE do vetor x a opccedilatildeo replace = TRUE permite a retirada com reposiccedilatildeo
proptable(xmargin=) transforma a tabela como tabela de propoccedilatildeo
marginal margin=1 (com relaccedilatildeo as linhas) margin=2 (com relaccedilatildeo as colunas)
sort(x) Classifica os elementos de x em ordem crescente para classificar em ordem
decrescente rev(sort(x))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5461
A2ndashResumo de comandosd) Estatiacutesticas e operaccedilotildees matemaacuteticasmean(x) media dos elementos de x
median(x) mediana dos elementos de x
quantile(xprobs=) quantis de x correspondendo a uma dada probabilidadevar(x) ou cov(x) variacircncia dos elementos de x (calculado com n-1)
se x eacute uma matriz a matriz de covariacircncia eacute calculada
sd(x) desvio padracirco de of x
cor(x) matriz de correlaccedilatildeo de x se x for uma matriz ou (1 se x eacute um vector)
cor(x y) correlaccedilatildeo linear entre X e Y ou matriz de correlaccedilatildeo se eles satildeo matrizes
round(x n) arredonda os elementos de x para n casas decimais sum x soma os e emen os e x
prod(x) multilica os elementos de x
max(x) acha o maacuteximo dos elementos de x
min(x) acha o miacutenimo dos elementos de x
range(x) equivalente a c(min(x)max(x)
cumsum(x) um vetor onde o eacutesimo elemento eacute a soma de x[1] ateacute x[i]cumprod(x) um vetor onde o eacutesimo elemento eacute o produto de x[1] ateacute x[i]
cummin(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
cummax(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
sincostanasinacosatanatan2loglog10exp)
log(x base) calcula o logaritmo de x na base=base
weightedmean(x w) media ponderada de x com peso= w
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5561
A2ndashResumo de comandos
e) Corte e extraccedilatildeo de dadosindexaccedilatildeo de Vetores
x[n] n-eacutesimo elemento do vetor
x[-n] todos menos o n-eacutesimo elemento
x[1n] os primeiros n elemento
x[-(1n)] elementos de n+1 ateacute o final
x[c(432)] elementos especificados
x[y gt 5] todo elementos de onde os valores de y satildeo maiores que 5
x x gt 3 amp x lt 5 todo elementos entre 3 e 5
x[nome] elemento denominado nome
indexaccedilatildeo de Matrizes
x[ij] elemento na linha i coluna j
x[i] linha i
x[j] coluna j
x[c(13)] colunas 1 and 3
x[nome] linha nomeada nome
indexaccedilatildeo de data frames
x[[nome]] coluna chamada nome
x$nome equivalente a coluna chamada nome
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5661
A2ndashResumo de comandos
f) Operaccedilatildeo com Matrizest(x) transposta da matrix x
diag(x) retira a diagonal da matrix x
multiplicaccedilatildeo matricial
solve(ab) resove a equaccedilatildeo a x = b em relaccedilatildeo a x
solve(a) matriz inversa de a
rowSum(x) soma das linhas da matrix x
colSum(x) soma das colunas da matrix x
rowMeans x meacutedia das linhas da matrix x
colMeans(x) id meacutedia das colunas da matrix x
g) Graacuteficos (Plotting)plot(x y) diagrama de disperccedilatildeo plot dos pares (xy) num sistema de eixos
coordenadoshist(x) histogram dasfrequecircncias of x
barplot(x) graacutefico de barras of x usar horiz=T ara barras horizontal
pie(x) graacutefico de setores (pie-chart)
boxplot(x)
qqnorm(x) quantis de x em relaccedilatildeo aos valores esperados de uma dist Normal
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5761
A2ndashResumo de comandosparametros dos commando de Graacutefico
type=p especifica o tipo de plot p pontos l linhas b pontos
ligados por linhas o idecircntico mas as linhas passam sobre os pontos h
linhas verticais s escada (steps) os dados satildeo representados pelas alturasverticais
xlim= ylim= especifica os limites inferiores e superiores dos eixos por exemplocom xlim=c(1 10) ou xlim=range(x)
xlab= ylab= nomeia os eixos o nome deve ser do tipo caracter
main= tiacutetulo principal deve ser do tipo caracter
sub= sub-tiacutetulo (escrito em fonte menor)
podem ser usados como bty(tipo de caixa) lwd (lagura da linha) lty (tipo delinha) pch(tipo de ponto) cex xaxs yaxs xaxtyaxt
h) Teste de hipoacuteteses
ttest()proptest()
chisqtest()
aov(formula) analysis of variance model
anova(fit) analysis of variance (or deviance) tables for one or more
fitted model objects
Use o commando gt test para procurar todos os testes disponiacuteveis
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5861
A2ndashResumo de comandos
i) Programmingfunction( arglist ) expr para definer uma funccedilatildeo
return(value)
if(cond) expr
if(cond) consexpr else altexpr
for(var in seq) expr
while(cond) expr
re eat ex r
break
Usar chaves entre commandos dlimitando o iniacutecio e o fim de um grupo decomandos
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5961
A2ndashResumo de comandos
j) Commandos auxiliaries em Graacuteficospoints(x y) adiciona pontos (a opccedilatildeo type= pode ser usada)
lines(x y) adiciona linhas (a opccedilatildeo type= pode ser usada)text(x y labels ) adiciona texto na coordenada (xy) um uso tiacutepico eacute
plot(x y type=n) text(x ynames)
segments(x0 y0 x1 y1) desenha linhas do ponto (x0 y0) ao (x1 y1)
arrows(x0 y0 x1 y1 angle= 30 code=2) desenha seta do ponto
(x0 y0) ao (x1 y1)
abline(ab) desenha uma reta de inclinaccedilatildeo b e intercepto a
abline(v=x) desenha uma reta vertical em x
abline(lsfit(xy)) desenha uma reta da regressatildeo feita em lsfit(xy)
rect(x1 y1 x2 y2) desenha um retacircngulo que a esquerda inferior tem coordenadas(x1 y1) e o limite da direita superiores (x2 y2)
polygon(x y) desenha um poliacutegono que une os pontos com coordenadas X e Y
legend(x y legend) Acrescenta a lenda no ponto (x y) com os siacutembolos
dada pela legend
title()adiciona um tiacutetulo e opcionalmente um sub-tiacutetulo
axis(side) acrescenta um eixo na parte inferior (side = 1) agrave esquerda (2) na partesuperior (3) ou agrave direita (4)
box()desenhar uma caixa em torno do plot
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6061
A2ndashResumo de comandos
k) Comando par (Graphical parameters)Todos estes comando podem ser definidos a niacutevel global com o par () que
especifica os paracircmetros mas tambeacutem muitos podem ser usados comoparametros dos commando de Graacutefico
mfcol vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em colunas
mfrow vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em linhas(matrix for row)
bty controla o tipo de caixa desenhada ao redor do enredo valores permitidos satildeo
o l 7 c u ou se bt =n a caixa natildeo eacute desenhada
lty controla o tipo de linhas pode ser um inteiro ou string (1 solid 2 dashed 3dotted 4 dotdash 5 longdash 6twodash) ou uma string de ateacuteoito caracteres (entre 0 e 9) que especifica o comprimento em pontos oupixels dos elementos desenhados e os espaccedilos em branco por exemplolty=rdquo44rdquo equivale a lty=2
lwd nuacutemero que controla a largura das linhas default 1pch controla o tipo de siacutembolo pode tambeacutem ser um nuacutemero inteiro entre 1 e 25
ps um inteiro que controla o tamanho em pontos de textos e siacutembolos
pty um caracter que especifica o tipo da regiatildeo s quadrado m maacuteximal
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6161
A2ndashResumo de comandos
l) Input and outputreadtable(file) lecirc um arquivo em formato de tabela e cria um quadro de dados a
partir dele o separador default = eacute espaccedilo em branco header = TRUE ler a
primeira linha como um cabeccedilalho de nomes de coluna asis = TRUE paraevitar aque um vetore de caracteres seja convertido em factores usocommentchar = para evitar seja interpretado como um comentaacuteriouso skip = n para pular n linhas antes da leitura de dados consulte a ajudapara as opccedilotildees de linha de nomeaccedilatildeo o tratamento NA e outros
readcsv(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por viacutergulas
readdelim(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por tabulaccedilotildees
readfwf(filewidthsheader=FALSEsep= asis=FALSE)
ler uma tabela de dados em formato fix de largura m para um dataframe widthseacute um vetor inteiro informando os tamanhos dos campos
sink(file) saiacuteda de todos os comandos para um arquivo ateacute aparecer um comando
sink () que desliga writetable(x file=rownames=Tcolnames=Tsep= ) imprime x apoacutes a
conversatildeo para banco de dados
save(file) guarda os objetos especificados () no formato XDR
load()carregar o conjunto de dados salvos com o comando save
data(x) carrega um conjunto de dados especificado
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 661
Cap 1 Analise Exploratoacuteria de Dados (AED)Anaacutelise Exploratoacuteria eacute um conjunto de teacutecnicas de tratamento de dados que semimplicar em uma fundamentaccedilatildeo matemaacutetica mais rigorosa nos ajuda a tomar um
primeiro contato com a informaccedilatildeo disponiacutevel
Em um levantamento de dados a respeito de um determinado assunto eles costumamser representados em uma tabela de dados Em uma tabela de dados cada linhacorresponde a uma observaccedilatildeo e cada coluna corresponde a uma variaacutevel
As variaacuteveis podem ser
Qualitativa nominal ou categoacuterica - seus valores possiacuteveis satildeo diferentes categoriasnatildeo ordenadas
- Quantitativa discreta - seus valores possiacuteveis satildeo resultados de um processo de
contagemQuantitativa contiacutenua - seus valores possiacuteveis podem ser expressos atraveacutes de
nuacutemeros reaisPara descrever o comportamento de uma variaacutevel eacute comum apresentar os valores que
ela assume organizados sob a forma de tabelas de frequecircncia e graacuteficos Os graacuteficosmais comuns para representarem variaacuteveis qualitativas satildeo os graacuteficos de barras e osgraacuteficos de setores
Usar para uma variaacutevel x que deve ser agrupada os comandos barplot(table(x))
pie(table(x)) Os principais argumentos desses comandos satildeo
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 761
barplot(x beside=F horiz=F xlab= xlim= col= space= )Onde
x um vetor de quantidades positivas Os valores em x representam a proporccedilatildeoobrigatoacuterio
beside se as barras seratildeo de lado ou empilhadas essa eacute uma variaacutevel do tiposucesso(Ttrue) ou fracasso (F false) o default eacute F Como exemplo olhar oapecircndice Figura 22
xlab corresponde ao tiacutetulo da variaacutevel x (natildeo obrigatoacuterio) o mesmo para ylab
xlim dois valores que correspondem aos limites no graacutefico da variaacutevel x (ylim)
space - quantidade de espaccedilo agrave esquerda antes de cada barra Se matrix podem ser 2valores o rimeiro barras do mesmo ru o e o se undo entre ru os
Cap1ndashAED barplot pie
col vetor informando as cores das barras Ver apecircndice
pie(x labels = names(x) edges = 200 col=NULL)Onde
x um vetor de quantidades positivas Os valores em x representam as proporccedilotildeeslabels um vetor de caracteres fornecendo nomes para os setores (natildeo obrigatoacuterio)
edges um inteiro A linha do ciacuterculo eacute aproximada por um poliacutegono com este
nuacutemero delados
col vetor informando as cores das barras
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 861
Exemplo
RCQ=c(808686908295928383898184788189877480918685848574768380788587
688387878789878888897877788984) digitar RCQ
rcq=rep(245) rcq[RCQ lt 78]=1 rcq[RCQ gt 85]=3 codificar
rcqt= table(rcq) tabular
names(rcqt)=c(PRMRGR) nomear as categorias
par(mfrow=c(12)) matrix de graficos (1 linha e 2 colunas)
pie(rcqt radius=12 col=c(greenbluepink)) graf de setor
Cap1-AED ndash ex table names par pie barplot
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 961
Pag 48 ndash Figura 22
mat= matrix(c(68154510 66214215 66242519 39161711)44byrow=T)
rownames(mat)=c(18 a 21 anos 22 a 25 anos 26 a 30 anos 31 a 40 anos)colnames(mat)=c(CinTeatSMDEx)
mat1=proptable(mat 2)
par(mfrow=c(12) mai=c(1111) mar=c(5 4 2 2) )
barplot(matbeside=F ylim=c(0250) legend = c(18 a 21 anos 22 a 25 anos
26 a 30 anos 31 a 40 anos) xlab=Contagem)
barplot(mat1 beside=F xlab=Percentagem)
Cap1-AED ndash ex barplot (beside=F)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1061
Pag 44 ndash Figura 21
mat=matrix(c(81823913601818608740)32)
rownames(mat)=c(AtivaSedentaacuteriaTotal)
colnames(mat)=c(NormalSobrepeso)
barplot(t(mat) beside = TRUE space=c(315)
col=gray(c(79))
legend = c(NormalSobrepeso) ylim = c(0 95) ylab= - percentagem)
Cap1-AED ndash ex barplot (beside=T)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1161
Para as variaacuteveis quantitativas os mais usados satildeo os Histogramas e os Diagramas Ramo-folhascujos comandos satildeo gthist(x) gt stem(x) Existe tambeacutem um comando chamado gtcut
que classifica uma variaacutevel numeacuterica Os principais argumentos do comando hist satildeo
hist(x breaks= freq =NULL right=T col=NULL main=xlim=range(breaks) ylim=NULL xlab=xname ylab) Onde
x a variaacutevel numeacuterica a ser discretizada (argumento obrigatoacuterio)
breaks vetor com os limites das classes
freq variaacutevel loacutegica se T (True) corresponde agrave contagem de cada classe se F (False) equivale adensidade de probabilidade a aacuterea total sob a curva (retacircngulos) teria soma 1
right variaacutevel loacutegica se T as classes satildeo fechadas agrave direira se F satildeo fechadas agrave esquerda
Cap1ndashAED stem cut table
main tiacutetulo principal
xlab e ylab roacutetulos dos eixos x e y respectivamente
xlim e ylim Dois valores limites para o graacutefico de cada uma das variaacuteveis
cut(x breaks right = T ) Onde
x a variaacutevel numeacuterica a ser discretizada (argumento obrigatoacuterio)breaks vetor com os limites das classes
right variaacutevel loacutegica se T as classes satildeo fechadas agrave direira se F agrave esquerda
stem(x hellip)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1261
Exemploda pag 15 ndash Figura 18
gt nt=c(18381254193316214231406456822872314
8611996235321861281254244214781182
347515012369214621412573362814071138) digitaccedilatildeo de nt
gt hist(nt breaks=c(50100150200250300350400450500) right=T
main=Histograma Telefonia fixa per capita
xlab=N linhas1000hab ylab=N de obs xlim=c(0500) ylim=c(010) col=grey) histograma da variavel gt
Cap1-AED hist
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1361
Exemploda pag 15 ndash Figura 18
gt nt=c(18381254193316214231406456822872314
8611996235321861281254244214781182
347515012369214621412573362814071138) digitaccedilatildeo de nt
gt stem(trunc(nt10)) o ramo a centena e a folha as dezenas
0 | 8
1 | 1122244441 | 5689
Cap1 AED ndash ex stem table cut
2 | 011123334
2 | 5
3 | 4
3 | 6
4 |
4 | 5
gt table(cut(nt breaks=c(50100150200250300350400450500) right=F))
[50100) [100150) [150200) [200250) [250300) [300350) [350400) [400450) [450500)
1 9 5 8 1 1 1 0 1
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1461
Para uma dada variaacutevel quantitativa uma medida de centralidade eacute um ldquovalor tiacutepicordquo em torno doqual se situam os valores daquela variaacutevelAs medidas de centralidade mais conhecidas satildeoa meacutedia aritmeacutetica e a mediana Usar os comando mean(x) median(y) Por exemplo
gt mean(nt)[1] 2001852gt median(nt)[1] 193Uma medida de localizaccedilatildeo eacute o quantil A funccedilatildeo apropriada do R para obter os quantis de um
vetor numeacuterico x eacute a funccedilatildeo gt quantile(x)Se desejarmos determinar os trecircs quartis usariacuteamos
o comando quantile(xc(02505075))
Se desejarmos o quinto o deacutecimo e o nonageacutesimo percentis usariacuteamos o comandogt quantile(xc(05010090))
Cap1-AED Medidas (estatiacutesticas)
O comando quantile(xp) retorna o quantil de ordem p das observaccedilotildees de x podendo p ser
um vetor Por exemplo
gt quantile(nt c(20 50 95))
20 50 95
1306 1930 3582
Uma medida de dispersatildeo para uma variaacutevel quantitativa eacute um indicador do grau de espalhamento
dos valores da amostra em torno da medida de centralidade As medidas de dispersatildeo mais
conhecidas satildeo a variacircncia o desvio-padratildeo e a distacircncia interquartil=diferenccedila entre o terceiro
e o primeiro quartis
gt var(nt)
[1] 7131464
gt sd(nt)
[1] 84448
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1561
gt q=fivenum(nt) q[4]-q[2] em q estatildeo os 5 nuacutem Subtraiacutemos o Q3 do Q1[1] 92
Os cinco valores x(1) Q1 Q2 Q3 x(n) miacutenimo os trecircs quartis e o maacuteximo satildeoimportantes para se ter uma boa ideacuteia da assimetria dos dados Esse valores podem serobtidos pelo comando fivenum(x) O summary(x) acrescenta tambeacutem a meacutedia ao resultado
Por exemplogt fivenum(nt)[1] 86 141 193 233 457gt summary(nt)
Min 1st Qu Median Mean 3rd Qu Max
860 1410 1930 2002 2330 4570
Cap1-AED IEQ fivenum boxplot
O Box Plot ou Desenho Esquemaacutetico eacute um graacutefico que se costuma utilizar para sintetizarem uma mesma figura vaacuterias informaccedilotildees relativas agrave distribuiccedilatildeo de uma determinadavariaacutevel quantitativa Nele tambeacutem satildeo representadas as observaccedilotildees discrepantesObservaccedilotildees discrepantes ou outliers satildeo observaccedilotildees cujos valores estatildeo muito afastadosdos demais (para mais ou para menos) Essas observaccedilotildees podem afetar de formasubstancial o resultado das anaacutelises estatiacutesticas O comando para usar-lo eacute boxplot(x)
Por exemplo ver fig 125 pag 28gt nt=c(18381254193316214231406456822872314
8611996235321861281254244214781182347515012369214621412573362814071138) digitaccedilatildeo de nt
gt boxplot(nt ylim=c(50500)xlab=N linhas1000hab)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1661
Quando se deseja investigar a relaccedilatildeo entre duas variaacuteveis qualitativas o caminho natural eacutemontar uma tabela de contingecircncia Construir uma tabela de contingecircncia consiste emcolocar nas linhas os valores possiacuteveis de uma variaacutevel e nas colunas os valores possiacuteveis
cruzamentoO comando para fazer a tabela seria gttable(xy)Por exemplogt tab12=readtable(fSBPO2010Rtab1_2txt header = T sep = )gt attach(tab12)
gt table(CATEG Classe_IMC)Classe_IMC
CATEG normal sobrepesoA 18 4
Cap1-AED Relaccedilatildeo entre duas variaacuteveis Qualitativas
Para analisar a relaccedilatildeo entre 2 variaacuteveis atraveacutes de uma tabela de contingecircncia umprocedimento muito uacutetil eacute calcular os percentuais em relaccedilatildeo aos totais das linhas etambeacutem os percentuais em relaccedilatildeo aos totais das colunas Os comandos seriamproptab(x1) para linha e proptab(x2) para coluna Por exemplo usando a tabela 25paacutegina 46
gt mat= matrix(c(68154510 66214215 66242519 39161711)44byrow=T)gt rownames(mat)=c(18 a 21 anos22 a 25 anos26 a 30 anos31 a 40 anos)gt colnames(mat)=c(CinTeatSMDEx)gt mat1=proptable(mat 1) por linha tab 27gt mat2=proptable(mat 2) por coluna tab 28
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1761
Cap1-AED Relaccedilatildeo entre duas variaacuteveis QuantitativaQuando se deseja investigar a relaccedilatildeo entre duas variaacuteveis quantitativas o mais adequado eacutecomeccedilar pela construccedilatildeo de um Diagrama de Dispersatildeo Construir um diagrama de
dispersatildeo para 2 variaacuteveis quantitativas X e Y consiste em localizar pares de valoresobservados (xi yi ) como pontos em um sistema de eixos coordenados O camando seriaplot(xy)Por exemplogtx=c(12345) y=c(11224) plot(xy)
Um indicador do grau de interdependecircncia linear para 2 variaacuteveis quantitativas X e Y eacute ocoeficiente de correlaccedilatildeo rxy que pode assumir qualquer valor real entre -1 e 1 Ocoeficiente de correlaccedilatildeo entre X e Y eacute calculado por uma das duas expressotildees
matemaacuteticas (equivalentes) a seguir
O comando seria cor(xy) Por exemplogtx=c(12345) y=c(11224) cor(xy)
[1] 09036961
sum sum
sum
sumsum
sum
= =
=
=
=
sdotminussdotminus
sdotsdotminus
=
minussdotminus
minusminus
=n
1i
n
1i
1222
i
22
i
n
1i
ii
122
i
2
i
n
1i
n
1i
ii
xy
)yny)(xnx(
yxnyx
)y(y)xx(
)y)(yx(x
r
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1861
Cap1-AED Relaccedilatildeo entre duas variaacuteveis Quantitativa
bull Quando se verifica atraveacutes do coeficiente de correlaccedilatildeo (ou pelo aspecto visual doDiagrama de Dispersatildeo) que existe uma forte relaccedilatildeo linear entre 2 variaacuteveis X e Y
pode ser de interesse calcular a equaccedilatildeo da reta que representa esta relaccedilatildeo entre as2 variaacuteveis y = a + bx A equaccedilatildeo y = a + bx considera que y eacute a variaacutevel dependente(ou variaacutevel resposta) e que x eacute a variaacutevel independente (ou variaacutevel preditora) a serusada para explicar o comportamento da variaacutevel y A equaccedilatildeo da reta pode ser usadapara se antever qual seria o valor y0 da variaacutevel resposta y correspondente a umdeterminado valor x0 da variaacutevel preditora x
bull As foacutermulas que nos permitem calcular os valores de a e b a partir dos dados satildeo
yxn
n
i
n
i sumsum
O coeficiente b mede a inclinaccedilatildeo da reta de Regressatildeo Entatildeo ao passarmos de um pontoa outro sobre a reta b mede a relaccedilatildeo entre as variaccedilotildees de y e de x O coeficiente a medeo valor de y quando x eacute igual a zero ou seja eacute o intercepto da reta de Regressatildeo
O comando para calcular os coeficientes a e b seria gt lsprint(lsfit(xy))gtx=c(12345) y=c(11224)gtreg=lsfit(xy)gtlsprint(reg)
n
x
x
nyx
b2
n
1i
in
1i
2
i
1i
ii
minus
minus
=
sumsum =
=
=
==
x bya sdotminus=e
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1961
Cap 2-a Simulaccedilatildeo do conceito frequumlentistaConceito Frequumlentista de Probabilidade Suponha que o experimentofoi repetido n vezes sempre sob as mesmas condiccedilotildees e que o evento Aocorreu m vezes entre essas n realizaccedilotildees do experimento Entatildeoa fraccedilatildeo mn eacute uma boa aproximaccedilatildeo para a probabilidade de Ase o nuacutemero n de repeticcedilotildees for bastante grande
Simbolicamente P (A) congcongcongcong mn
Exemplo Simulando 100 lanccedilamentos de uma moedaNo R foram simulados 100 lanccedilamentos de uma moeda equilibrada isto eacute
onde as chances de cara e de coroa satildeo iguais Depois de cadalanccedilamento foi observado o nuacutemero acumulado de caras obtidas ateacute essemomen o e o ca cu a a a proporccedil o e caras correspon en e a a e a aseguir estatildeo apresentados os valores correspondentes ao nuacutemeroacumulado de caras ao longo do processo Por exemplo para a jogada denuacutemero 29 o nuacutemero acumulado de caras eacute 13 e a fraccedilatildeo de caras eacute 1329O graacutefico abaixo mostra a evoluccedilatildeo dessa fraccedilatildeo agrave medida que foramfeitos os 100 lanccedilamentos da moeda
Os comandos no R para a elaboraccedilatildeo do graacutefico
gtx=1100 y=cumsum(sample(01100rep=T))gtplot(xy1100 ylim=c(01) xlim=c(0100) pch=16)gtsegments(10510005)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2061
Cap 2-b Variaacuteveis Aleatoacuterias (va)Uma variaacutevel aleatoacuteria (va) eacute uma funccedilatildeo que associa cada elemento de um
espaccedilo amostral a um nuacutemero real As variaacuteveis aleatoacuterias podem ser do
tipo
Discreto se os seus valores pertencem a um conjunto enumeraacutevel de nuacutemerosreais (usualmente valores inteiros)
Contiacutenuo se os seus valores pertencem a um intervalo de nuacutemeros reais
O modelo probabiliacutestico de uma variaacutevel aleatoacuteria X estabelece o padratildeo de
comportamento de sua distribuiccedilatildeo de probabilidadeA fun atildeo de robabilidade de uma v a discreta X eacute definida orp(x)=P[X=x]
A funccedilatildeo de distribuiccedilatildeo acumulada F de uma v a X eacute definida porF(x) = P[Xlelelelex]
Se X eacute uma va discreta que assume os valores x 1
x 2
x 3
x N
entatildeo
bull A meacutedia ou esperanccedila de X eacuteE(X) = x 1 P(X=x 1 ) + x 2 P(X=x 2 ) + x 3 P(X=x 3 ) + + x N P(X=x N )
bull A Variacircncia de X eacute calculada por |Var(X)=(x 1 ndashE(X))2 P(X=x 1 )+(x 2 ndashE(X))2 P(X=x 2 )++(x N ndashE(X))2 P(X=x N )
bull O desvio padratildeo de X eacute igual agrave raiz quadrada natildeo negativa da suavariacircncia DP(X)= Var(X)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2161
Cap 2-b - va e o RO trabalho no R com uma va X estaacute baseado em 4 procedimentos
p probability ndash Gera a probabilidade de um valor de xq quantile ndash Gera o valor x de uma dada probabilidade acumulada pd density ndash Gera o valor da funccedilatildeo densidade num valor x da variaacutevel
Observar que quando a variaacutevel eacute discreta este valor eacute aprobabilidade de x quando a variaacutevel eacute contiacutenua o resultadoeacute a altura da funccedilatildeo densidade de probabilidade
r random ndash Gera n valores do modelo probabiliacutestico em questatildeo
As distribuiccedilotildees que estudaremos estatildeo listadas a seguir depois de cada uma delasentre parecircnteses estaacute o nome no R
(geom) Binomial negativa- Pascal (nbinom)
Entre as contiacutenuas Uniforme (unif ) Exponencial (exp) Normal (norm) t-student (t)quiquadrado (chisq) F (f )
A interligaccedilatildeo dos trecircs primeiros procedimentos pq e d seraacute ilustrada pela distribuiccedilatildeoNormal atraveacutes do graacutefico abaixo
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2261
Cap 2-b - va pnorm e qnormSeja a relaccedilatildeo p = P(Xltx) que aparece na tabela da distribuiccedilatildeo Normal Quiquadrada
t-student e F Para um dado valor de p acha-se um valor de x a procura direta que para aNormal no R corresponderia a pnorm(x 983221 σ) Neste caso devo informar o x e os dois
paracircmetros da distribuiccedilatildeo Normal 983221 e σJaacute a procura inversa seria para um dado valor de x achar um valor de p que para a Normalno R corresponderia a qnorm(p983221σ) Neste outro caso devo informar o valor de p desejado etambeacutem os dois paracircmetros da distribuiccedilatildeo Normal 983221 e σ
Exemplo Seja X a va que corresponde ao peso (em kg) de pessoas de uma certapopulaccedilatildeo com meacutedia 983221=70 Kg e desvio padratildeo σ=8 Kg assim X~ N(983221=70 σ2=82)
Se desejarmosa) P(Xlt80) usaremos no R o comando pnorm(80 70 8) isto eacute x=80 eacute o primeiro paracircmetroenquanto 70 e 8 satildeo paracircmetro especiacuteficos da distribuiccedilatildeo Normal
b) Admita que o peso limite para ser classificado como obeso eacute o valor que corresponde a10 dos mais pesados do populaccedilatildeo Achar este peso limiteO que se pede eacute a funccedilatildeo inversa Dado um valor de p=090 achar um valor de x que deixa90 abaixo dele No R seria qnorm(09 70 8) isto eacute o valor da probabilidade p=09 eacute
o primeiro paracircmetro enquanto 70 e 8 satildeo paracircmetros especiacuteficos da distribuiccedilatildeo NormalSe usarmos a Normal padratildeo z=(x-983221)σ no caso do item a o comando seria pnorm((80-70)8)ou pnorm(125) Repare que neste caso natildeo foi necessaacuterio passar os paracircmetros especiacuteficos daNormal pois 983221=0 e σ =1 coresponde ao default Observaccedilatildeo Sempre que usarmos um p oprimeiro paracircmetro eacute um x e os outros satildeo especiacuteficos da distribuiccedilatildeo em questatildeosempre que usarmos um q o primeiro paracircmetro eacute um p e os outros satildeo especiacuteficosSempre que usarmos um d o primeiro paracircmetro eacute um x
Quando usarmos uma distribuiccedilatildeo discreta o d corresponde aacute probabilidade no ponto x
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2361
Pag 118 ndash Figura 412
x=seq(010001)
plot(xdexp(x 12) type=l xlim=c(012) ylim=c(01) bty=l ylab=f(x) e F(x))
for(i in seq(0 25 001)) segments(i 0 i dexp(i12) col=lightgrey)
abline(v=0 h=0)
points(xdexp(x 12) type=l lwd=2 bty=l)
points(x pexp(x 12) lwd=2 type=l)
segments(250 25pexp(2512))
Cap 2-b - va dexp pexp points segments
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2461
Cap 2-b - va disponiacuteveis no Rrbinom(n size prob) binomialrpois(n lambda) Poissonrgeom(n prob) geometricarhyper(nn m n k) hipergeometricarnbinom(n size prob) binomial negativarunif(n min=0 max=1) uniformerexp(n rate=1) exponentialrnorm(n mean=0 sd=1) Gaussiana (normal)rt(n df) lsquoStudentrsquo (t )rf(n df1 df2) FisherndashSnedecor (F )
rchisq(n df) Quiquadradar amma n sha e scale=1 amma rbeta(n shape1 shape2) betarlnorm(n meanlog=0 sdlog=1) lognormalrcauchy(n location=0 scale=1) Cauchyrweibull(n shape scale=1) Weibullrwilcox(nn m n) Wilcoxonrsquos rank sum statistics
rsignrank(nn n) Wilcoxonrsquos signed rank statisticsrlogis(n location=0 scale=1) logistic
Todas essas distribuiccedilotildees apresentadas por rnome (nome da variaacutevel aleatoacuteria) como vimostrocando a primeira letra e mantendo os paracircmetros especiacuteficos de cada distribuiccedilatildeo(denotados por ) podem ser usadas substituindo a letra ldquor rdquo por
d valor da densidade de probabilidade no ponto x dnome (x )p probabilidade acumulada no ponto x pnome (x )
q quantil correspondente a probabilidade acumulada p dnome (p)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2561
Cap 2-c O Teorema Central do Limite (TCL)O Teorema Central do Limite (abreviadamente TCL) diz respeito ao comportamento da
meacutedia amostral agrave medida que o tamanho n da amostra cresce indefinidamente
Exemplo 31 ndash A distribuiccedilatildeo de renda e o TCLEacute um fato conhecido que a distribuiccedilatildeo da rendapessoal dos habitantes de um paiacutes eacuteusualmente muito desigual ou seja muitosganham pouco e poucos ganham muito Seforem sorteados 200 habitantes desse paiacutes e
com base nas suas rendas mensais
Agora se forem sorteadas 200 amostrascada uma delas contendo 2 habitantesdesse paiacutes e se forem calculadas as 200respectivas meacutedias amostrais a partir delas obteremos o histograma a seguir
Agora cada uma das 200 amostrassorteadas contendo 30 habitantes dessepaiacutes e se forem calculadas as 200 meacutediasamostrais o histograma seria
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2661
Cap 2-c ndash TCL ExemploComo pode ser observado no caso de n = 2 o histograma se aproxima mais de uma curvaNormal do que no caso de n = 1 E no caso de n = 30 a semelhanccedila do histograma com umacurva Normal eacute ainda maior
O Teorema Central do Limite afirma que independentemente de qual seja a
distribuiccedilatildeo original dos Xirsquos a distribuiccedilatildeo de probabilidade de e a
distribuiccedilatildeo Normal com meacutedia micromicromicromicro e variacircncia σσσσ2 n se aproximam cada vez
mais uma da outra agrave medida que n cresce
Portanto mesmo que a distribuiccedilatildeo de probabilidade dos Xirsquos seja desconhecida o Teorema
X n
Central do Limite garante a possibilidade de usarmos o modelo Normal para calcular ainda quede forma aproximada probabilidades relativas agrave meacutedia amostral desde que n sejasuficientemente grande
Exemplo 62 Simulando o efeito do TCL
Para ilustrar o funcionamento do Teorema Central do Limite vamos exibir agora um exemploem que a distribuiccedilatildeo original a partir da qual os dados satildeo gerados eacute uma exponencial modelo
este que daacute origem a uma funccedilatildeo densidade bastante assimeacutetrica (ao contraacuterio do que ocorre
com a curva Normal) A densidade de uma exponencial com paracircmetro eacute dada pela
expressatildeo
No R rexp(n ) simula n valores
λ
0 xλef(x) λx ge= minusλ
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2761
Cap 2-c ndash TCL ExemploA densidade de uma exponencial com paracircmetro eacute dada pela expressatildeo
Gerando dados por simulaccedilatildeo a partir de uma exponencial com λ = 13 para cada um dos
seguintes tamanhos n de amostra 1 2 3 4 5 10 15 e 201 Obtivemos 200 valores da meacutedia amostral 2 Utilizamos esses 200 valores para construir um histograma3 Traccedilamos no mesmo graacutefico uma curva da densidade Normal com E( )=3 e DP( )=3Xn
λ 0 xλef(x) λx ge= minus
Xn n
Os 8 histogramas nos mostram que agrave medida que o tamanho n da amostra cresce
a forma do histograma se aproxima cada vez mais de uma curva Normal
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2861
Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com
simulaccedilotildees - Exponencial
tclexp=function(n N=200 titulo= yl=c(0 4)) iniacutecio da funccedilatildeo ndash tclexpmedias=numeric(N)
for (i in 1N) medias[i]= mean(rexp(n13))
hist(medias xlim=c(-110) ylim=yl freq=F main=titulo)
x=seq(-110 02)
points(x dnorm(x 3 3sqrt(1n) ) type=l lwd=3)
fim da funccedilatildeo
graphicsoff()
par(mfrow=c(33) mai=c(3411))
tclexp(1titulo=n=1)
tclexp(2titulo=n=2)
tclexp(3titulo=n=3)
tclexp(4titulo=n=4)
tclexp(5titulo=n=5)
tclexp(6titulo=n=6)
tclexp(10titulo=n=10yl=c(06))
tclexp(15titulo=n=15yl=c(06))
tclexp(20titulo=n=20yl=c(06))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2961
Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com
simulaccedilotildees - Exponencial
Uma pergunta natural neste ponto serialdquoQuatildeo grande deve ser n para que possamos usar a aproximaccedilatildeo fornecida pelo
TCL com um niacutevel de precisatildeo aceitaacutevelrdquo
A rapidez com que essa convergecircncia se daacute depende de quatildeo distante estaacute a forma
da distribuiccedilatildeo original das Xirsquos de uma curva Normal Em outras palavras se a
distribuiccedilatildeo das Xirsquos jaacute natildeo for muito diferente de uma Normal com um n natildeo muito-
grande (usualmente n ge 30) a aproximaccedilatildeo da distribuiccedilatildeo de por uma Normal
funcionaria adequadamente
No exemplo a seguir vamos apresentar esse fenocircmeno a saber a convergecircncia da
distribuiccedilatildeo de para uma Normal agrave medida que n cresce gerando por simulaccedilatildeo osdados originais a partir de diferentes modelos probabiliacutesticos Em todos os casos a
distribuiccedilatildeo original eacute bem diferente da Normal E(X)=3 e DP(X)=3 No que se refere agrave
Simulaccedilatildeo foi seguida a mesma sequumlecircncia de passos do exemplo anterior
Xn
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3061
Cap 2-c ndash TCL Exemplo
Exponencial
Uniforme
Mistura deNormais
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3161
Como se pode observar
1 No caso da distribuiccedilatildeo uniforme (A) o histograma de jaacute se aproximabastante de uma Normal quando n eacute da ordem de 4
2 Jaacute no caso da distribuiccedilatildeo Exponencial (B) e da mistura de normais
(C) modelos esses que se afastam muito mais de umldquo rdquo
Cap 2-c ndash TCL Exemplo
mostra mais adequada a partir de n em torno de 10
3 No caso do modelo em (C) agrave medida que n cresce tudo se passacomo se houvesse a ldquoerupccedilatildeo de um vulcatildeo dentro do valerdquo
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3261
tclunif=function(nN=100titulo= yl=c(0 4))
medias=numeric(N)for (i in 1N) medias[i]= mean(runif(n 3-3sqrt(3) 3+3sqrt(3)))
hist(medias xlim=c(-610) ylim=yl freq=F main=titulo)
x=seq(-610 02)
points(x dnorm(x 3 3sqrt(1n) ) type=l lwd=3)
medias
Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com
as simulaccedilotildees - Uniforme
grap cso
par(mfrow=c(33) mai=c(3411))
tclunif(1titulo=n=1yl=c(06))
tclunif(2titulo=n=2yl=c(06))
tclunif(3titulo=n=3yl=c(06))
tclunif(4titulo=n=4yl=c(06))tclunif(5titulo=n=5yl=c(06))
tclunif(6titulo=n=6yl=c(06))
tclunif(10titulo=n=10yl=c(06))
tclunif(15titulo=n=15yl=c(06))
tclunif(20titulo=n=20yl=c(06))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3361
X2=c(rnorm(35011) rnorm(15081)) X2 eacute a Populaccedilatildeo de onde retiramos as amostras
br=seq(-2 12 5)
tcl2modas=function(nN=200titulo= yl=c(0 6)) medias=numeric(N)for (i in 1N) medias[i]= mean(sample(X2nrep=T))hist(mediasbreaks=br xlim=c(-212) tcl=-01 ylim=yl xarp=c(-31216)
tck=005 lab=c(5515) freq=F main=titulo)x=seq(-312 02)
Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com
as simulaccedilotildees - Mistura de Normais
points(x dnorm(x med dpsqrt(n) ) type=l lwd=2)
par(mfrow=c(24) mai=c(3011) mar=c(2 2 2 1))
hist(X2 freq=F breaks=seq(-3125) bty=o xlim=c(-212)xarp=c(-31216)tck=005 lab=c(5515) ylim=c(06) main=POPULACcedilAtildeO lwd=2)
tcl2modas(2titulo=n=2)tcl2modas(3titulo=n=3)
tcl2modas(4titulo=n=4)
tcl2modas(5titulo=n=5)
tcl2modas(10titulo=n=10)
tcl2modas(15titulo=n=15)
tcl2modas(25titulo=n=25)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3461
CAP 3-a) Intervalo de ConfianccedilaSeja um estimador pontual do paracircmetro eacute uma variaacutevel aleatoacuteria que varia deamostra para amostra Por isso haacute uma certa dose de incerteza inerente a esse processode estimaccedilatildeo Nosso objetivo agora eacute obter com base nos dados amostrais (da uacutenicaamostra observada) um intervalo ao qual o valor correto do paracircmetro deve ter grandechance de pertencer
bull Detalhando um pouco mais No processo de estimaccedilatildeo por intervalo de um paracircmetro θdevemos determinar um intervalo que contenha o verdadeiro valor do paracircmetro comprobabilidade 1-α onde α eacute um pequeno valor preacute-fixado Este intervalo eacute construiacutedo emgeral em torno do estimador pontual considerando uma margem de erro d de forma aque uma vez fixada a probabilidade 1-α calculemos d tal que P( - d le θ le + d ) = 1 -αChama-se intervalo de confianccedila para θ ao niacutevel 1 - α ao intervalo [ - d + d]
θ $θ
$θ$θ
$θ $θ
$
θ
bull Ou seja o estimador pontual eacute o centro do Intervalo de Confianccedila e o erro absoluto dassociado a define a amplitude desse intervalo O que eacute de fato variaacutevel aleatoacuteria satildeoos extremos do intervalo O paracircmetro tem valor desconhecido natildeo aleatoacuterio (fixo a ser estimado)
Exemplo Intervalo de Confianccedila para a meacutedia populacional com o desvio padratildeo conhecidoO paracircmetro a estimar eacute a meacutedia populacional micro A estimaccedilatildeo seraacute baseada em X1 X2 Xn
uma amostra aleatoacuteria com E(Xi) = micro e var(Xi) = σ2 para todo i = 12 n Queremos que seja
vaacutelida a expressatildeo o que equivale a P [ -d le -micro le d] = 1-α
$θ
X[ ] α1dmicroXP minus=leminus
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3561
bull Lembrando que para n suficientemente grande pelo Teorema Central do Limite a meacutediaamostral segue uma distribuiccedilatildeo que se aproxima da Normal(micromicromicromicro σσσσ2 n) (ou eacute exatamente aNormal(micromicromicromicro σσσσ2 n) no caso em que a distribuiccedilatildeo comum das va Xirsquos jaacute eacute Normal) entatildeo
P [-d le -micromicromicromicro le d] = 1-α rArr 1-α = P [ |Z| le ] Logo d =
bull Faremos uma simulaccedilatildeo para a construccedilatildeo de Intervalos de Confianccedila com 100 amostras dedois tipos de populaccedilatildeo Normal e Exponencial A lista de comandos do R que usamos eacute
ICN = function (N n mu sigma = 3 conf)
plot(0 0 type=n xlim=c(010) ylim=c(0N) bty=l
xlab=Normal ylab=amostras)abline(v=mu)
CAP 3-a) Intervalo de Confianccedila
X
nσ
d
minus
z0 = qnorm(1-((1-conf)2))
sigmaxbarra = sigmasqrt(n)
for (i in 1N)
x = rnorm(n mu sigma)
media = mean(x)
li = media - z0 sigmaxbarrals = media + z0 sigmaxbarra
plotx = c(lils)
ploty = c(ii)
if (li gt mu | ls lt mu) lines(plotxploty col=red)
else lines(plotxploty)
gt ICN(100 25 3 3 95)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3661
CAP 3-a) Intervalo de Confianccedila
ICexp = function (N n lambda conf)
mu=1lambda sigma=1lambda
plot(0 0 type=n xlim=c(010) ylim=c(0N) bty=lxlab=Exponencial ylab=amostras)
abline(v= mu)
z0 = qnorm(1-((1-conf)2))
sigmaxbarra = sigmasqrt(n)
for (i in 1N)
x = rexp(nlambda) me a = mean x
li = media - z0 sigmaxbarra
ls = media + z0 sigmaxbarra
plotx = c(lils)
ploty = c(ii)
if (li gt mu | ls lt mu) lines(plotx ploty col=red)
else lines(plotx ploty)
gt ICexp(100 25 13 95)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3761
CAP 3-b Teste de Hipoacuteteses (TH)O objetivo de um teste de hipoacutetese eacute avaliar a validade de uma afirmaccedilatildeo sobre determinada
caracteriacutestica da populaccedilatildeo usando para isso os dados de uma amostra Essa caracteriacutestica eacute
representada pela va contiacutenua X cujo comportamento probabiliacutestico eacute expresso pela funccedilatildeo dedensidade f com paracircmetro Ө que tem valor desconhecido
Em um teste existem duas hipoacuteteses envolvidas H0 denominada hipoacutetese nula e H1
denominada hipoacutetese alternativa O procedimento de teste de hipoacutetese consiste em estabelecer
um criteacuterio de decisatildeo que leve a Aceitar ou Rejeitar H0 com base nos valores amostrais
A Estatiacutestica de teste eacute uma funccedilatildeo da amostra aleatoacuteria utilizada para definir o criteacuterio de
decisatildeo Estabelecer o criteacuterio de decisatildeo consiste em dividir o conjunto dos valores possiacuteveis
da estatiacutestica de teste em duas partes denominadas Regiatildeo de Aceitaccedilatildeo A e Regiatildeo de
Rejeiccedilatildeo R da hipoacutetese nula
Em um teste de hipoacutetese haacute dois tipos possiacuteveis de erro de decisatildeo
Erro I - Rejeitar H0 quando H0 eacute verdadeira
Erro II - Aceitar H0 quando H0 eacute falsaAs probabilidades de ocorrecircncia dos erros satildeo α = P [ Erro I ] e β = P [ Erro II]
A probabilidade de erro I α eacute o niacutevel de significacircncia do teste cujo valor eacute arbitrado pelo
pesquisador deve ser pequena pois corresponde a probabilidade de um erro (005 ou 001)
O niacutevel criacutetico ou p-valor do teste eacute o menor valor de α para o qual ainda rejeitariacuteamos H0 de
acordo com os dados observados
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3861
CAP 3-b) ndash TH teste tttest(x y = NULL alternative = c(twosided less greater) mu = 0
paired = FALSE varequal = FALSE conflevel = 095 )
Procedimentos de teste de hipoacuteteses com niacutevel de significacircncia α e amostras de tamanho n
UmaAmostra
DuasAmostras
Obs Os testes acima satildeo bilaterais
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3961
CAP 3ndashb) TH exemplo de teste t ndash amostras independentespag233- teste t amostras independente - comparaccedilatildeo log(salaacuterio)
entre os grupos de comeacutercio e de serviccedilo
LogSal=c(1289156912501344145616361573171309060903
0977122011031069128714101496131113371366
1227119114591280115217401649176524101701
1538192419251721154918911534163812071682
120614232010143112651570)
Sal=exp(LogSal)
setor= c(rep(C23) rep(S23))
ttest(Sal[setor==C] Sal[setor==S] varequal=T)
Two Sample t-test
data Sal[setor == C] and Sal[setor == S]
t = -36822 df = 44 p-value = 00006289
alternative hypothesis true difference in means is not equal to 095 percent confidence interval
-23079005 -06751838
sample estimates
mean of x mean of y3786010 5277552
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4061
CAP 3ndashb) TH exemplo de teste t ndash amostra pareadapag237- teste t pareado
P1=c(6315596455545480598065203660986853
8765647785536980827184605572645564)
P2=c(3638306043466455604343523428837155
8238556767443459605968506254473652)
ttest(P1 P2 alt=greater paired = T)
Paired t-test
data P1 and P2
t = 44176 df = 33 p-value = 5072e-05
alternative hypothesis true difference in means is greater than 0
95 percent confidence interval
0716695 Inf
sample estimates
mean of the differences
1161765
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4161
CAP 3ndashb) TH exemplo de teste Quiquadrado chisqtest
pag233- teste Quiquadrado -
tcont=matrix(c(683585251530258 7461761220225) 72)
chisqtest(tcont)
Pearsons Chi-squared test
data tcont- = = - lt -
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4261
CAP 3ndashb) TH exemplo de teste Quiquadrado chisqtestaov(formula data = NULL )
pag244- ANOVA - Comparaccedilatildeo de trecircs raccedilotildees para suinos
A=c(444943514475425134305342453630
322133421040395246294247453959)
B=c(343640545953445432686954414647
6566455739)
C=c(574040364566395025212927283942
21304143294244582849)
aumentoP=c(ABC)
racao=c(rep(A30)rep(B20) rep(C25))
summaryaov(aov(aumentoP ~ racao))
Df Sum Sq Mean Sq F value Pr(gtF)racao 2 15385 7693 56136 0005425
Residuals 72 98666 1370
---
Signif codes 0 lsquorsquo 0001 lsquorsquo 001 lsquorsquo 005 lsquorsquo 01 lsquo rsquo 1
Warning message
In modelmatrixdefault(mt mf contrasts)
variable racao converted to a factor
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4361
ApecircndicesA-1) Apresentaremos aqui algumas figuras
feitas no R na elaboraccedilatildeo do livro
Achamos que o exame desses coacutedigos acompanhado dos resultados podeser um bom aprendizado um exerciacutecio ou talvez uma recordaccedilatildeo do materialaqui exposto
A-2) Resumo de comandosa) Criaccedilatildeo de dados
b) Informaccedilatildeo de uma Variaacutevel
c) Seleccedilatildeo de dados e manipulaccedilatildeo
d) Estatiacutesticas e operaccedilotildees matemaacuteticas
e) Corte e extraccedilatildeo de dados
f) Operaccedilatildeo com Matrizes
g) Graacuteficos (Plotting)
h) Teste de hipoacuteteses
i) Programming
j) Commandos auxiliaries em Graacuteficos
k) Comando par (Graphical parameters)
l) Input and output
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4461
A1) ndash Pag 14 ndash Figura 15
IDADE=c(616961716371726866697267636663636067716360696463667164706366646969646372736871726968687379)
IMC= c(245273281301254301280234268228255228235232203226239243271227237258213243243248219234216214221227227211268278275267286253239258247284235)
par(mfrow=c(12))hist(IDADE breaks=c(6065707580) ylim=c(020) ylab=Nuacutemero de Observaccedilotildees
main= col=grey right = F)hist(IMC breaks=c(200225250275300325)
ylab=Nuacutemero de Observaccedilotildeesmain= col=grey right = F )
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4561
A1) ndash Pag 44 ndash Figura 21
mat=matrix(c(81823913601818608740)32)
rownames(mat)=c(AtivaSedentaacuteriaTotal)colnames(mat)=c(NormalSobrepeso)barplot(t(mat) beside = TRUE space=c(315)
col=gray(c(79))legend = c(NormalSobrepeso) ylim = c(0 95) ylab= - percentagem)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4661
A1) ndash Pag 48 ndash Figura 22
mat= matrix(c(68154510 66214215 66242519 39161711)44byrow=T)
rownames(mat)=c(18 a 21 anos 22 a 25 anos 26 a 30 anos 31 a 40 anos)colnames(mat)=c(CinTeatSMDEx)mat1=mat for (i in 14) mat1[i]lt-mat1[i]100sum(mat1[i]) par(mfrow=c(12) mai=c(1111) mar=c(5 4 2 2) )barplot(matbeside=F ylim=c(0250) legend = c(18 a 21 anos 22 a 25 anos
26 a 30 anos 31 a 40 anos) xlab=Contagem)
barplot(mat1 beside=F xlab=Percentagem)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4761
A1) ndash Pag 52 ndash Figura 25X= c(184114821789235159118762592403190408372147328526471687
09642871437079238215753399242122530314859149806)y =c(01837012540193301620014230140604568022870231400861019960235302186012798991801254018210244160823
0147764068011818941403474539680150133247023685518102146187520214097090257291227
036282905401406510810113849399)plot(x y xlim=c(07) ylim=c(05) pch=16 bty=l xlab=Renda per capita
ylab=Telefonia Fixa per capita)
abline(lsfit(xy))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4861
A1) ndash Pag 109 ndash Figura 45
x=020
y1=dpois(x1) y2=dpois(x3) y3=dpois(x10)names(y1)=x names(y2)=x names(y3)=xpar(mfrow=c(13))plot(y1ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=1)plot(y2ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=3)plot(y3ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=10)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4961
A1) ndash Pag 118 ndash Figura 412
x=seq(010001)
plot(xdexp(x 12) type=l xlim=c(012) ylim=c(01) bty=l ylab=f(x) eF(x))for(i in seq(0 25 001)) segments(i 0 i dexp(i12) col=lightgrey)abline(v=0 h=0)points(xdexp(x 12) type=l lwd=2 bty=l)points(xpexp(x 12) lwd=2 type=l)segments(250 25pexp(2512))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5061
A1) ndash Pag 163 ndash Figura 68
plot(p xlim=c(618) ylim=c(016) type=n bty=l xaxt=n xlab= ylab=
cexaxis=6)for (i in 1015) rect(i-50 i+5 dbinom(i304) col=lightgrey) lty=2)segments(i0idbinom(i304) lty=2)
x=seq(61801) lines(x dnorm(x12sqrt(72)) lwd=2)x=seq(61801) lines(x dnorm(x12sqrt(72)) lwd=2)
axis(1 916 cexaxis=9) ax s seq cexax s=
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5161
A1) ndash Pag 198 ndash Figura 78
x1=seq(-4402)plot(x1dnorm(x1) type=l lwd=3 xlab= ylab= )lines(x1 dt(x11)) lines(x1 dt(x12)) lines(x1 dt(x15))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5261
A2ndashResumo de comandos
a)Criaccedilatildeo de dados
c()funccedilatildeo geneacuterica para combinar argumentos com o formando de um vetor fromto gera uma sequecircnce ldquordquo tem prioridade de operator pe13 + 1 is ldquo234rdquo
seq(fromtoby) gera uma sequecircncia by= especifica incremento
length= especifica um comprimento desejado
rep(xtimes) replicate x onuacutemero times de vezes use each= para repetir cada
elemento de x rep(c(123)2) gera 1 2 3 1 2 3 rep(c(12)each=2) gera 1 1 2 2
matrix(xnrow=ncol=) matrix elementos de x se reciclam caso x
rbind()combina vetores em linhas num estrutura de matrizes de dados
cbind()combina vetores em colunas num estrutura de matrizes de dados
array(xdim=) matriz com dados x especificar dimensotildees como dim=c(342)
elementos de x se reciclam caso x natildeo seja suficientemente grande
factor(xlevels=) codifica um vetor x como um fator gl(nklength=nklabels=1n) gerar niacuteveis (fatores) especificando
o padratildeo de seus niacuteveis k eacute o nuacutemero de niacuteveis e n eacute o nuacutemero de repeticcedilotildees
dataframe() criar um banco de dados Por exemplo
dataframe(v=14ch=c(gBcasad)n=5)
list()criar uma lista de argumentos Por exemplo list(a=c(12)b=hic=3i)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5361
A2ndashResumo de comandos
b) Informaccedilatildeo de uma Variaacutevellength(x) nuacutemero de elementos em x
dim(x) Obter ou definir a dimensatildeo de um objeto dim (x) = c(32)dimnames(x) Obter ou definir os nomes das dimensotildees de um objeto
nrow(x) nuacutemero de linhas
ncol(x) nuacutemero de colunas
c) Seleccedilatildeo de dados e manipulaccedilatildeochoose(n k) calcula a combinaccedilatildeo de elementos escolhidos entre n
resultando n [(n-k) k]
cut(xbreaks) divide x em intervalos (fatores) breaks eacute o nuacutemero de intervalos de
corte ou um vetor com os valores especiacuteficos
table(x) retorna uma tabela com as quantidades dos diferentes valores de x
(tipicamente para variaacuteveis dos tipos inteiros ou fatores)
sample(x size) retira aleatoriamente com e sem reposiccedilatildeo elementos detamanho SIZE do vetor x a opccedilatildeo replace = TRUE permite a retirada com reposiccedilatildeo
proptable(xmargin=) transforma a tabela como tabela de propoccedilatildeo
marginal margin=1 (com relaccedilatildeo as linhas) margin=2 (com relaccedilatildeo as colunas)
sort(x) Classifica os elementos de x em ordem crescente para classificar em ordem
decrescente rev(sort(x))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5461
A2ndashResumo de comandosd) Estatiacutesticas e operaccedilotildees matemaacuteticasmean(x) media dos elementos de x
median(x) mediana dos elementos de x
quantile(xprobs=) quantis de x correspondendo a uma dada probabilidadevar(x) ou cov(x) variacircncia dos elementos de x (calculado com n-1)
se x eacute uma matriz a matriz de covariacircncia eacute calculada
sd(x) desvio padracirco de of x
cor(x) matriz de correlaccedilatildeo de x se x for uma matriz ou (1 se x eacute um vector)
cor(x y) correlaccedilatildeo linear entre X e Y ou matriz de correlaccedilatildeo se eles satildeo matrizes
round(x n) arredonda os elementos de x para n casas decimais sum x soma os e emen os e x
prod(x) multilica os elementos de x
max(x) acha o maacuteximo dos elementos de x
min(x) acha o miacutenimo dos elementos de x
range(x) equivalente a c(min(x)max(x)
cumsum(x) um vetor onde o eacutesimo elemento eacute a soma de x[1] ateacute x[i]cumprod(x) um vetor onde o eacutesimo elemento eacute o produto de x[1] ateacute x[i]
cummin(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
cummax(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
sincostanasinacosatanatan2loglog10exp)
log(x base) calcula o logaritmo de x na base=base
weightedmean(x w) media ponderada de x com peso= w
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5561
A2ndashResumo de comandos
e) Corte e extraccedilatildeo de dadosindexaccedilatildeo de Vetores
x[n] n-eacutesimo elemento do vetor
x[-n] todos menos o n-eacutesimo elemento
x[1n] os primeiros n elemento
x[-(1n)] elementos de n+1 ateacute o final
x[c(432)] elementos especificados
x[y gt 5] todo elementos de onde os valores de y satildeo maiores que 5
x x gt 3 amp x lt 5 todo elementos entre 3 e 5
x[nome] elemento denominado nome
indexaccedilatildeo de Matrizes
x[ij] elemento na linha i coluna j
x[i] linha i
x[j] coluna j
x[c(13)] colunas 1 and 3
x[nome] linha nomeada nome
indexaccedilatildeo de data frames
x[[nome]] coluna chamada nome
x$nome equivalente a coluna chamada nome
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5661
A2ndashResumo de comandos
f) Operaccedilatildeo com Matrizest(x) transposta da matrix x
diag(x) retira a diagonal da matrix x
multiplicaccedilatildeo matricial
solve(ab) resove a equaccedilatildeo a x = b em relaccedilatildeo a x
solve(a) matriz inversa de a
rowSum(x) soma das linhas da matrix x
colSum(x) soma das colunas da matrix x
rowMeans x meacutedia das linhas da matrix x
colMeans(x) id meacutedia das colunas da matrix x
g) Graacuteficos (Plotting)plot(x y) diagrama de disperccedilatildeo plot dos pares (xy) num sistema de eixos
coordenadoshist(x) histogram dasfrequecircncias of x
barplot(x) graacutefico de barras of x usar horiz=T ara barras horizontal
pie(x) graacutefico de setores (pie-chart)
boxplot(x)
qqnorm(x) quantis de x em relaccedilatildeo aos valores esperados de uma dist Normal
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5761
A2ndashResumo de comandosparametros dos commando de Graacutefico
type=p especifica o tipo de plot p pontos l linhas b pontos
ligados por linhas o idecircntico mas as linhas passam sobre os pontos h
linhas verticais s escada (steps) os dados satildeo representados pelas alturasverticais
xlim= ylim= especifica os limites inferiores e superiores dos eixos por exemplocom xlim=c(1 10) ou xlim=range(x)
xlab= ylab= nomeia os eixos o nome deve ser do tipo caracter
main= tiacutetulo principal deve ser do tipo caracter
sub= sub-tiacutetulo (escrito em fonte menor)
podem ser usados como bty(tipo de caixa) lwd (lagura da linha) lty (tipo delinha) pch(tipo de ponto) cex xaxs yaxs xaxtyaxt
h) Teste de hipoacuteteses
ttest()proptest()
chisqtest()
aov(formula) analysis of variance model
anova(fit) analysis of variance (or deviance) tables for one or more
fitted model objects
Use o commando gt test para procurar todos os testes disponiacuteveis
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5861
A2ndashResumo de comandos
i) Programmingfunction( arglist ) expr para definer uma funccedilatildeo
return(value)
if(cond) expr
if(cond) consexpr else altexpr
for(var in seq) expr
while(cond) expr
re eat ex r
break
Usar chaves entre commandos dlimitando o iniacutecio e o fim de um grupo decomandos
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5961
A2ndashResumo de comandos
j) Commandos auxiliaries em Graacuteficospoints(x y) adiciona pontos (a opccedilatildeo type= pode ser usada)
lines(x y) adiciona linhas (a opccedilatildeo type= pode ser usada)text(x y labels ) adiciona texto na coordenada (xy) um uso tiacutepico eacute
plot(x y type=n) text(x ynames)
segments(x0 y0 x1 y1) desenha linhas do ponto (x0 y0) ao (x1 y1)
arrows(x0 y0 x1 y1 angle= 30 code=2) desenha seta do ponto
(x0 y0) ao (x1 y1)
abline(ab) desenha uma reta de inclinaccedilatildeo b e intercepto a
abline(v=x) desenha uma reta vertical em x
abline(lsfit(xy)) desenha uma reta da regressatildeo feita em lsfit(xy)
rect(x1 y1 x2 y2) desenha um retacircngulo que a esquerda inferior tem coordenadas(x1 y1) e o limite da direita superiores (x2 y2)
polygon(x y) desenha um poliacutegono que une os pontos com coordenadas X e Y
legend(x y legend) Acrescenta a lenda no ponto (x y) com os siacutembolos
dada pela legend
title()adiciona um tiacutetulo e opcionalmente um sub-tiacutetulo
axis(side) acrescenta um eixo na parte inferior (side = 1) agrave esquerda (2) na partesuperior (3) ou agrave direita (4)
box()desenhar uma caixa em torno do plot
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6061
A2ndashResumo de comandos
k) Comando par (Graphical parameters)Todos estes comando podem ser definidos a niacutevel global com o par () que
especifica os paracircmetros mas tambeacutem muitos podem ser usados comoparametros dos commando de Graacutefico
mfcol vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em colunas
mfrow vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em linhas(matrix for row)
bty controla o tipo de caixa desenhada ao redor do enredo valores permitidos satildeo
o l 7 c u ou se bt =n a caixa natildeo eacute desenhada
lty controla o tipo de linhas pode ser um inteiro ou string (1 solid 2 dashed 3dotted 4 dotdash 5 longdash 6twodash) ou uma string de ateacuteoito caracteres (entre 0 e 9) que especifica o comprimento em pontos oupixels dos elementos desenhados e os espaccedilos em branco por exemplolty=rdquo44rdquo equivale a lty=2
lwd nuacutemero que controla a largura das linhas default 1pch controla o tipo de siacutembolo pode tambeacutem ser um nuacutemero inteiro entre 1 e 25
ps um inteiro que controla o tamanho em pontos de textos e siacutembolos
pty um caracter que especifica o tipo da regiatildeo s quadrado m maacuteximal
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6161
A2ndashResumo de comandos
l) Input and outputreadtable(file) lecirc um arquivo em formato de tabela e cria um quadro de dados a
partir dele o separador default = eacute espaccedilo em branco header = TRUE ler a
primeira linha como um cabeccedilalho de nomes de coluna asis = TRUE paraevitar aque um vetore de caracteres seja convertido em factores usocommentchar = para evitar seja interpretado como um comentaacuteriouso skip = n para pular n linhas antes da leitura de dados consulte a ajudapara as opccedilotildees de linha de nomeaccedilatildeo o tratamento NA e outros
readcsv(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por viacutergulas
readdelim(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por tabulaccedilotildees
readfwf(filewidthsheader=FALSEsep= asis=FALSE)
ler uma tabela de dados em formato fix de largura m para um dataframe widthseacute um vetor inteiro informando os tamanhos dos campos
sink(file) saiacuteda de todos os comandos para um arquivo ateacute aparecer um comando
sink () que desliga writetable(x file=rownames=Tcolnames=Tsep= ) imprime x apoacutes a
conversatildeo para banco de dados
save(file) guarda os objetos especificados () no formato XDR
load()carregar o conjunto de dados salvos com o comando save
data(x) carrega um conjunto de dados especificado
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 761
barplot(x beside=F horiz=F xlab= xlim= col= space= )Onde
x um vetor de quantidades positivas Os valores em x representam a proporccedilatildeoobrigatoacuterio
beside se as barras seratildeo de lado ou empilhadas essa eacute uma variaacutevel do tiposucesso(Ttrue) ou fracasso (F false) o default eacute F Como exemplo olhar oapecircndice Figura 22
xlab corresponde ao tiacutetulo da variaacutevel x (natildeo obrigatoacuterio) o mesmo para ylab
xlim dois valores que correspondem aos limites no graacutefico da variaacutevel x (ylim)
space - quantidade de espaccedilo agrave esquerda antes de cada barra Se matrix podem ser 2valores o rimeiro barras do mesmo ru o e o se undo entre ru os
Cap1ndashAED barplot pie
col vetor informando as cores das barras Ver apecircndice
pie(x labels = names(x) edges = 200 col=NULL)Onde
x um vetor de quantidades positivas Os valores em x representam as proporccedilotildeeslabels um vetor de caracteres fornecendo nomes para os setores (natildeo obrigatoacuterio)
edges um inteiro A linha do ciacuterculo eacute aproximada por um poliacutegono com este
nuacutemero delados
col vetor informando as cores das barras
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 861
Exemplo
RCQ=c(808686908295928383898184788189877480918685848574768380788587
688387878789878888897877788984) digitar RCQ
rcq=rep(245) rcq[RCQ lt 78]=1 rcq[RCQ gt 85]=3 codificar
rcqt= table(rcq) tabular
names(rcqt)=c(PRMRGR) nomear as categorias
par(mfrow=c(12)) matrix de graficos (1 linha e 2 colunas)
pie(rcqt radius=12 col=c(greenbluepink)) graf de setor
Cap1-AED ndash ex table names par pie barplot
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 961
Pag 48 ndash Figura 22
mat= matrix(c(68154510 66214215 66242519 39161711)44byrow=T)
rownames(mat)=c(18 a 21 anos 22 a 25 anos 26 a 30 anos 31 a 40 anos)colnames(mat)=c(CinTeatSMDEx)
mat1=proptable(mat 2)
par(mfrow=c(12) mai=c(1111) mar=c(5 4 2 2) )
barplot(matbeside=F ylim=c(0250) legend = c(18 a 21 anos 22 a 25 anos
26 a 30 anos 31 a 40 anos) xlab=Contagem)
barplot(mat1 beside=F xlab=Percentagem)
Cap1-AED ndash ex barplot (beside=F)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1061
Pag 44 ndash Figura 21
mat=matrix(c(81823913601818608740)32)
rownames(mat)=c(AtivaSedentaacuteriaTotal)
colnames(mat)=c(NormalSobrepeso)
barplot(t(mat) beside = TRUE space=c(315)
col=gray(c(79))
legend = c(NormalSobrepeso) ylim = c(0 95) ylab= - percentagem)
Cap1-AED ndash ex barplot (beside=T)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1161
Para as variaacuteveis quantitativas os mais usados satildeo os Histogramas e os Diagramas Ramo-folhascujos comandos satildeo gthist(x) gt stem(x) Existe tambeacutem um comando chamado gtcut
que classifica uma variaacutevel numeacuterica Os principais argumentos do comando hist satildeo
hist(x breaks= freq =NULL right=T col=NULL main=xlim=range(breaks) ylim=NULL xlab=xname ylab) Onde
x a variaacutevel numeacuterica a ser discretizada (argumento obrigatoacuterio)
breaks vetor com os limites das classes
freq variaacutevel loacutegica se T (True) corresponde agrave contagem de cada classe se F (False) equivale adensidade de probabilidade a aacuterea total sob a curva (retacircngulos) teria soma 1
right variaacutevel loacutegica se T as classes satildeo fechadas agrave direira se F satildeo fechadas agrave esquerda
Cap1ndashAED stem cut table
main tiacutetulo principal
xlab e ylab roacutetulos dos eixos x e y respectivamente
xlim e ylim Dois valores limites para o graacutefico de cada uma das variaacuteveis
cut(x breaks right = T ) Onde
x a variaacutevel numeacuterica a ser discretizada (argumento obrigatoacuterio)breaks vetor com os limites das classes
right variaacutevel loacutegica se T as classes satildeo fechadas agrave direira se F agrave esquerda
stem(x hellip)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1261
Exemploda pag 15 ndash Figura 18
gt nt=c(18381254193316214231406456822872314
8611996235321861281254244214781182
347515012369214621412573362814071138) digitaccedilatildeo de nt
gt hist(nt breaks=c(50100150200250300350400450500) right=T
main=Histograma Telefonia fixa per capita
xlab=N linhas1000hab ylab=N de obs xlim=c(0500) ylim=c(010) col=grey) histograma da variavel gt
Cap1-AED hist
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1361
Exemploda pag 15 ndash Figura 18
gt nt=c(18381254193316214231406456822872314
8611996235321861281254244214781182
347515012369214621412573362814071138) digitaccedilatildeo de nt
gt stem(trunc(nt10)) o ramo a centena e a folha as dezenas
0 | 8
1 | 1122244441 | 5689
Cap1 AED ndash ex stem table cut
2 | 011123334
2 | 5
3 | 4
3 | 6
4 |
4 | 5
gt table(cut(nt breaks=c(50100150200250300350400450500) right=F))
[50100) [100150) [150200) [200250) [250300) [300350) [350400) [400450) [450500)
1 9 5 8 1 1 1 0 1
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1461
Para uma dada variaacutevel quantitativa uma medida de centralidade eacute um ldquovalor tiacutepicordquo em torno doqual se situam os valores daquela variaacutevelAs medidas de centralidade mais conhecidas satildeoa meacutedia aritmeacutetica e a mediana Usar os comando mean(x) median(y) Por exemplo
gt mean(nt)[1] 2001852gt median(nt)[1] 193Uma medida de localizaccedilatildeo eacute o quantil A funccedilatildeo apropriada do R para obter os quantis de um
vetor numeacuterico x eacute a funccedilatildeo gt quantile(x)Se desejarmos determinar os trecircs quartis usariacuteamos
o comando quantile(xc(02505075))
Se desejarmos o quinto o deacutecimo e o nonageacutesimo percentis usariacuteamos o comandogt quantile(xc(05010090))
Cap1-AED Medidas (estatiacutesticas)
O comando quantile(xp) retorna o quantil de ordem p das observaccedilotildees de x podendo p ser
um vetor Por exemplo
gt quantile(nt c(20 50 95))
20 50 95
1306 1930 3582
Uma medida de dispersatildeo para uma variaacutevel quantitativa eacute um indicador do grau de espalhamento
dos valores da amostra em torno da medida de centralidade As medidas de dispersatildeo mais
conhecidas satildeo a variacircncia o desvio-padratildeo e a distacircncia interquartil=diferenccedila entre o terceiro
e o primeiro quartis
gt var(nt)
[1] 7131464
gt sd(nt)
[1] 84448
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1561
gt q=fivenum(nt) q[4]-q[2] em q estatildeo os 5 nuacutem Subtraiacutemos o Q3 do Q1[1] 92
Os cinco valores x(1) Q1 Q2 Q3 x(n) miacutenimo os trecircs quartis e o maacuteximo satildeoimportantes para se ter uma boa ideacuteia da assimetria dos dados Esse valores podem serobtidos pelo comando fivenum(x) O summary(x) acrescenta tambeacutem a meacutedia ao resultado
Por exemplogt fivenum(nt)[1] 86 141 193 233 457gt summary(nt)
Min 1st Qu Median Mean 3rd Qu Max
860 1410 1930 2002 2330 4570
Cap1-AED IEQ fivenum boxplot
O Box Plot ou Desenho Esquemaacutetico eacute um graacutefico que se costuma utilizar para sintetizarem uma mesma figura vaacuterias informaccedilotildees relativas agrave distribuiccedilatildeo de uma determinadavariaacutevel quantitativa Nele tambeacutem satildeo representadas as observaccedilotildees discrepantesObservaccedilotildees discrepantes ou outliers satildeo observaccedilotildees cujos valores estatildeo muito afastadosdos demais (para mais ou para menos) Essas observaccedilotildees podem afetar de formasubstancial o resultado das anaacutelises estatiacutesticas O comando para usar-lo eacute boxplot(x)
Por exemplo ver fig 125 pag 28gt nt=c(18381254193316214231406456822872314
8611996235321861281254244214781182347515012369214621412573362814071138) digitaccedilatildeo de nt
gt boxplot(nt ylim=c(50500)xlab=N linhas1000hab)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1661
Quando se deseja investigar a relaccedilatildeo entre duas variaacuteveis qualitativas o caminho natural eacutemontar uma tabela de contingecircncia Construir uma tabela de contingecircncia consiste emcolocar nas linhas os valores possiacuteveis de uma variaacutevel e nas colunas os valores possiacuteveis
cruzamentoO comando para fazer a tabela seria gttable(xy)Por exemplogt tab12=readtable(fSBPO2010Rtab1_2txt header = T sep = )gt attach(tab12)
gt table(CATEG Classe_IMC)Classe_IMC
CATEG normal sobrepesoA 18 4
Cap1-AED Relaccedilatildeo entre duas variaacuteveis Qualitativas
Para analisar a relaccedilatildeo entre 2 variaacuteveis atraveacutes de uma tabela de contingecircncia umprocedimento muito uacutetil eacute calcular os percentuais em relaccedilatildeo aos totais das linhas etambeacutem os percentuais em relaccedilatildeo aos totais das colunas Os comandos seriamproptab(x1) para linha e proptab(x2) para coluna Por exemplo usando a tabela 25paacutegina 46
gt mat= matrix(c(68154510 66214215 66242519 39161711)44byrow=T)gt rownames(mat)=c(18 a 21 anos22 a 25 anos26 a 30 anos31 a 40 anos)gt colnames(mat)=c(CinTeatSMDEx)gt mat1=proptable(mat 1) por linha tab 27gt mat2=proptable(mat 2) por coluna tab 28
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1761
Cap1-AED Relaccedilatildeo entre duas variaacuteveis QuantitativaQuando se deseja investigar a relaccedilatildeo entre duas variaacuteveis quantitativas o mais adequado eacutecomeccedilar pela construccedilatildeo de um Diagrama de Dispersatildeo Construir um diagrama de
dispersatildeo para 2 variaacuteveis quantitativas X e Y consiste em localizar pares de valoresobservados (xi yi ) como pontos em um sistema de eixos coordenados O camando seriaplot(xy)Por exemplogtx=c(12345) y=c(11224) plot(xy)
Um indicador do grau de interdependecircncia linear para 2 variaacuteveis quantitativas X e Y eacute ocoeficiente de correlaccedilatildeo rxy que pode assumir qualquer valor real entre -1 e 1 Ocoeficiente de correlaccedilatildeo entre X e Y eacute calculado por uma das duas expressotildees
matemaacuteticas (equivalentes) a seguir
O comando seria cor(xy) Por exemplogtx=c(12345) y=c(11224) cor(xy)
[1] 09036961
sum sum
sum
sumsum
sum
= =
=
=
=
sdotminussdotminus
sdotsdotminus
=
minussdotminus
minusminus
=n
1i
n
1i
1222
i
22
i
n
1i
ii
122
i
2
i
n
1i
n
1i
ii
xy
)yny)(xnx(
yxnyx
)y(y)xx(
)y)(yx(x
r
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1861
Cap1-AED Relaccedilatildeo entre duas variaacuteveis Quantitativa
bull Quando se verifica atraveacutes do coeficiente de correlaccedilatildeo (ou pelo aspecto visual doDiagrama de Dispersatildeo) que existe uma forte relaccedilatildeo linear entre 2 variaacuteveis X e Y
pode ser de interesse calcular a equaccedilatildeo da reta que representa esta relaccedilatildeo entre as2 variaacuteveis y = a + bx A equaccedilatildeo y = a + bx considera que y eacute a variaacutevel dependente(ou variaacutevel resposta) e que x eacute a variaacutevel independente (ou variaacutevel preditora) a serusada para explicar o comportamento da variaacutevel y A equaccedilatildeo da reta pode ser usadapara se antever qual seria o valor y0 da variaacutevel resposta y correspondente a umdeterminado valor x0 da variaacutevel preditora x
bull As foacutermulas que nos permitem calcular os valores de a e b a partir dos dados satildeo
yxn
n
i
n
i sumsum
O coeficiente b mede a inclinaccedilatildeo da reta de Regressatildeo Entatildeo ao passarmos de um pontoa outro sobre a reta b mede a relaccedilatildeo entre as variaccedilotildees de y e de x O coeficiente a medeo valor de y quando x eacute igual a zero ou seja eacute o intercepto da reta de Regressatildeo
O comando para calcular os coeficientes a e b seria gt lsprint(lsfit(xy))gtx=c(12345) y=c(11224)gtreg=lsfit(xy)gtlsprint(reg)
n
x
x
nyx
b2
n
1i
in
1i
2
i
1i
ii
minus
minus
=
sumsum =
=
=
==
x bya sdotminus=e
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1961
Cap 2-a Simulaccedilatildeo do conceito frequumlentistaConceito Frequumlentista de Probabilidade Suponha que o experimentofoi repetido n vezes sempre sob as mesmas condiccedilotildees e que o evento Aocorreu m vezes entre essas n realizaccedilotildees do experimento Entatildeoa fraccedilatildeo mn eacute uma boa aproximaccedilatildeo para a probabilidade de Ase o nuacutemero n de repeticcedilotildees for bastante grande
Simbolicamente P (A) congcongcongcong mn
Exemplo Simulando 100 lanccedilamentos de uma moedaNo R foram simulados 100 lanccedilamentos de uma moeda equilibrada isto eacute
onde as chances de cara e de coroa satildeo iguais Depois de cadalanccedilamento foi observado o nuacutemero acumulado de caras obtidas ateacute essemomen o e o ca cu a a a proporccedil o e caras correspon en e a a e a aseguir estatildeo apresentados os valores correspondentes ao nuacutemeroacumulado de caras ao longo do processo Por exemplo para a jogada denuacutemero 29 o nuacutemero acumulado de caras eacute 13 e a fraccedilatildeo de caras eacute 1329O graacutefico abaixo mostra a evoluccedilatildeo dessa fraccedilatildeo agrave medida que foramfeitos os 100 lanccedilamentos da moeda
Os comandos no R para a elaboraccedilatildeo do graacutefico
gtx=1100 y=cumsum(sample(01100rep=T))gtplot(xy1100 ylim=c(01) xlim=c(0100) pch=16)gtsegments(10510005)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2061
Cap 2-b Variaacuteveis Aleatoacuterias (va)Uma variaacutevel aleatoacuteria (va) eacute uma funccedilatildeo que associa cada elemento de um
espaccedilo amostral a um nuacutemero real As variaacuteveis aleatoacuterias podem ser do
tipo
Discreto se os seus valores pertencem a um conjunto enumeraacutevel de nuacutemerosreais (usualmente valores inteiros)
Contiacutenuo se os seus valores pertencem a um intervalo de nuacutemeros reais
O modelo probabiliacutestico de uma variaacutevel aleatoacuteria X estabelece o padratildeo de
comportamento de sua distribuiccedilatildeo de probabilidadeA fun atildeo de robabilidade de uma v a discreta X eacute definida orp(x)=P[X=x]
A funccedilatildeo de distribuiccedilatildeo acumulada F de uma v a X eacute definida porF(x) = P[Xlelelelex]
Se X eacute uma va discreta que assume os valores x 1
x 2
x 3
x N
entatildeo
bull A meacutedia ou esperanccedila de X eacuteE(X) = x 1 P(X=x 1 ) + x 2 P(X=x 2 ) + x 3 P(X=x 3 ) + + x N P(X=x N )
bull A Variacircncia de X eacute calculada por |Var(X)=(x 1 ndashE(X))2 P(X=x 1 )+(x 2 ndashE(X))2 P(X=x 2 )++(x N ndashE(X))2 P(X=x N )
bull O desvio padratildeo de X eacute igual agrave raiz quadrada natildeo negativa da suavariacircncia DP(X)= Var(X)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2161
Cap 2-b - va e o RO trabalho no R com uma va X estaacute baseado em 4 procedimentos
p probability ndash Gera a probabilidade de um valor de xq quantile ndash Gera o valor x de uma dada probabilidade acumulada pd density ndash Gera o valor da funccedilatildeo densidade num valor x da variaacutevel
Observar que quando a variaacutevel eacute discreta este valor eacute aprobabilidade de x quando a variaacutevel eacute contiacutenua o resultadoeacute a altura da funccedilatildeo densidade de probabilidade
r random ndash Gera n valores do modelo probabiliacutestico em questatildeo
As distribuiccedilotildees que estudaremos estatildeo listadas a seguir depois de cada uma delasentre parecircnteses estaacute o nome no R
(geom) Binomial negativa- Pascal (nbinom)
Entre as contiacutenuas Uniforme (unif ) Exponencial (exp) Normal (norm) t-student (t)quiquadrado (chisq) F (f )
A interligaccedilatildeo dos trecircs primeiros procedimentos pq e d seraacute ilustrada pela distribuiccedilatildeoNormal atraveacutes do graacutefico abaixo
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2261
Cap 2-b - va pnorm e qnormSeja a relaccedilatildeo p = P(Xltx) que aparece na tabela da distribuiccedilatildeo Normal Quiquadrada
t-student e F Para um dado valor de p acha-se um valor de x a procura direta que para aNormal no R corresponderia a pnorm(x 983221 σ) Neste caso devo informar o x e os dois
paracircmetros da distribuiccedilatildeo Normal 983221 e σJaacute a procura inversa seria para um dado valor de x achar um valor de p que para a Normalno R corresponderia a qnorm(p983221σ) Neste outro caso devo informar o valor de p desejado etambeacutem os dois paracircmetros da distribuiccedilatildeo Normal 983221 e σ
Exemplo Seja X a va que corresponde ao peso (em kg) de pessoas de uma certapopulaccedilatildeo com meacutedia 983221=70 Kg e desvio padratildeo σ=8 Kg assim X~ N(983221=70 σ2=82)
Se desejarmosa) P(Xlt80) usaremos no R o comando pnorm(80 70 8) isto eacute x=80 eacute o primeiro paracircmetroenquanto 70 e 8 satildeo paracircmetro especiacuteficos da distribuiccedilatildeo Normal
b) Admita que o peso limite para ser classificado como obeso eacute o valor que corresponde a10 dos mais pesados do populaccedilatildeo Achar este peso limiteO que se pede eacute a funccedilatildeo inversa Dado um valor de p=090 achar um valor de x que deixa90 abaixo dele No R seria qnorm(09 70 8) isto eacute o valor da probabilidade p=09 eacute
o primeiro paracircmetro enquanto 70 e 8 satildeo paracircmetros especiacuteficos da distribuiccedilatildeo NormalSe usarmos a Normal padratildeo z=(x-983221)σ no caso do item a o comando seria pnorm((80-70)8)ou pnorm(125) Repare que neste caso natildeo foi necessaacuterio passar os paracircmetros especiacuteficos daNormal pois 983221=0 e σ =1 coresponde ao default Observaccedilatildeo Sempre que usarmos um p oprimeiro paracircmetro eacute um x e os outros satildeo especiacuteficos da distribuiccedilatildeo em questatildeosempre que usarmos um q o primeiro paracircmetro eacute um p e os outros satildeo especiacuteficosSempre que usarmos um d o primeiro paracircmetro eacute um x
Quando usarmos uma distribuiccedilatildeo discreta o d corresponde aacute probabilidade no ponto x
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2361
Pag 118 ndash Figura 412
x=seq(010001)
plot(xdexp(x 12) type=l xlim=c(012) ylim=c(01) bty=l ylab=f(x) e F(x))
for(i in seq(0 25 001)) segments(i 0 i dexp(i12) col=lightgrey)
abline(v=0 h=0)
points(xdexp(x 12) type=l lwd=2 bty=l)
points(x pexp(x 12) lwd=2 type=l)
segments(250 25pexp(2512))
Cap 2-b - va dexp pexp points segments
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2461
Cap 2-b - va disponiacuteveis no Rrbinom(n size prob) binomialrpois(n lambda) Poissonrgeom(n prob) geometricarhyper(nn m n k) hipergeometricarnbinom(n size prob) binomial negativarunif(n min=0 max=1) uniformerexp(n rate=1) exponentialrnorm(n mean=0 sd=1) Gaussiana (normal)rt(n df) lsquoStudentrsquo (t )rf(n df1 df2) FisherndashSnedecor (F )
rchisq(n df) Quiquadradar amma n sha e scale=1 amma rbeta(n shape1 shape2) betarlnorm(n meanlog=0 sdlog=1) lognormalrcauchy(n location=0 scale=1) Cauchyrweibull(n shape scale=1) Weibullrwilcox(nn m n) Wilcoxonrsquos rank sum statistics
rsignrank(nn n) Wilcoxonrsquos signed rank statisticsrlogis(n location=0 scale=1) logistic
Todas essas distribuiccedilotildees apresentadas por rnome (nome da variaacutevel aleatoacuteria) como vimostrocando a primeira letra e mantendo os paracircmetros especiacuteficos de cada distribuiccedilatildeo(denotados por ) podem ser usadas substituindo a letra ldquor rdquo por
d valor da densidade de probabilidade no ponto x dnome (x )p probabilidade acumulada no ponto x pnome (x )
q quantil correspondente a probabilidade acumulada p dnome (p)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2561
Cap 2-c O Teorema Central do Limite (TCL)O Teorema Central do Limite (abreviadamente TCL) diz respeito ao comportamento da
meacutedia amostral agrave medida que o tamanho n da amostra cresce indefinidamente
Exemplo 31 ndash A distribuiccedilatildeo de renda e o TCLEacute um fato conhecido que a distribuiccedilatildeo da rendapessoal dos habitantes de um paiacutes eacuteusualmente muito desigual ou seja muitosganham pouco e poucos ganham muito Seforem sorteados 200 habitantes desse paiacutes e
com base nas suas rendas mensais
Agora se forem sorteadas 200 amostrascada uma delas contendo 2 habitantesdesse paiacutes e se forem calculadas as 200respectivas meacutedias amostrais a partir delas obteremos o histograma a seguir
Agora cada uma das 200 amostrassorteadas contendo 30 habitantes dessepaiacutes e se forem calculadas as 200 meacutediasamostrais o histograma seria
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2661
Cap 2-c ndash TCL ExemploComo pode ser observado no caso de n = 2 o histograma se aproxima mais de uma curvaNormal do que no caso de n = 1 E no caso de n = 30 a semelhanccedila do histograma com umacurva Normal eacute ainda maior
O Teorema Central do Limite afirma que independentemente de qual seja a
distribuiccedilatildeo original dos Xirsquos a distribuiccedilatildeo de probabilidade de e a
distribuiccedilatildeo Normal com meacutedia micromicromicromicro e variacircncia σσσσ2 n se aproximam cada vez
mais uma da outra agrave medida que n cresce
Portanto mesmo que a distribuiccedilatildeo de probabilidade dos Xirsquos seja desconhecida o Teorema
X n
Central do Limite garante a possibilidade de usarmos o modelo Normal para calcular ainda quede forma aproximada probabilidades relativas agrave meacutedia amostral desde que n sejasuficientemente grande
Exemplo 62 Simulando o efeito do TCL
Para ilustrar o funcionamento do Teorema Central do Limite vamos exibir agora um exemploem que a distribuiccedilatildeo original a partir da qual os dados satildeo gerados eacute uma exponencial modelo
este que daacute origem a uma funccedilatildeo densidade bastante assimeacutetrica (ao contraacuterio do que ocorre
com a curva Normal) A densidade de uma exponencial com paracircmetro eacute dada pela
expressatildeo
No R rexp(n ) simula n valores
λ
0 xλef(x) λx ge= minusλ
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2761
Cap 2-c ndash TCL ExemploA densidade de uma exponencial com paracircmetro eacute dada pela expressatildeo
Gerando dados por simulaccedilatildeo a partir de uma exponencial com λ = 13 para cada um dos
seguintes tamanhos n de amostra 1 2 3 4 5 10 15 e 201 Obtivemos 200 valores da meacutedia amostral 2 Utilizamos esses 200 valores para construir um histograma3 Traccedilamos no mesmo graacutefico uma curva da densidade Normal com E( )=3 e DP( )=3Xn
λ 0 xλef(x) λx ge= minus
Xn n
Os 8 histogramas nos mostram que agrave medida que o tamanho n da amostra cresce
a forma do histograma se aproxima cada vez mais de uma curva Normal
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2861
Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com
simulaccedilotildees - Exponencial
tclexp=function(n N=200 titulo= yl=c(0 4)) iniacutecio da funccedilatildeo ndash tclexpmedias=numeric(N)
for (i in 1N) medias[i]= mean(rexp(n13))
hist(medias xlim=c(-110) ylim=yl freq=F main=titulo)
x=seq(-110 02)
points(x dnorm(x 3 3sqrt(1n) ) type=l lwd=3)
fim da funccedilatildeo
graphicsoff()
par(mfrow=c(33) mai=c(3411))
tclexp(1titulo=n=1)
tclexp(2titulo=n=2)
tclexp(3titulo=n=3)
tclexp(4titulo=n=4)
tclexp(5titulo=n=5)
tclexp(6titulo=n=6)
tclexp(10titulo=n=10yl=c(06))
tclexp(15titulo=n=15yl=c(06))
tclexp(20titulo=n=20yl=c(06))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2961
Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com
simulaccedilotildees - Exponencial
Uma pergunta natural neste ponto serialdquoQuatildeo grande deve ser n para que possamos usar a aproximaccedilatildeo fornecida pelo
TCL com um niacutevel de precisatildeo aceitaacutevelrdquo
A rapidez com que essa convergecircncia se daacute depende de quatildeo distante estaacute a forma
da distribuiccedilatildeo original das Xirsquos de uma curva Normal Em outras palavras se a
distribuiccedilatildeo das Xirsquos jaacute natildeo for muito diferente de uma Normal com um n natildeo muito-
grande (usualmente n ge 30) a aproximaccedilatildeo da distribuiccedilatildeo de por uma Normal
funcionaria adequadamente
No exemplo a seguir vamos apresentar esse fenocircmeno a saber a convergecircncia da
distribuiccedilatildeo de para uma Normal agrave medida que n cresce gerando por simulaccedilatildeo osdados originais a partir de diferentes modelos probabiliacutesticos Em todos os casos a
distribuiccedilatildeo original eacute bem diferente da Normal E(X)=3 e DP(X)=3 No que se refere agrave
Simulaccedilatildeo foi seguida a mesma sequumlecircncia de passos do exemplo anterior
Xn
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3061
Cap 2-c ndash TCL Exemplo
Exponencial
Uniforme
Mistura deNormais
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3161
Como se pode observar
1 No caso da distribuiccedilatildeo uniforme (A) o histograma de jaacute se aproximabastante de uma Normal quando n eacute da ordem de 4
2 Jaacute no caso da distribuiccedilatildeo Exponencial (B) e da mistura de normais
(C) modelos esses que se afastam muito mais de umldquo rdquo
Cap 2-c ndash TCL Exemplo
mostra mais adequada a partir de n em torno de 10
3 No caso do modelo em (C) agrave medida que n cresce tudo se passacomo se houvesse a ldquoerupccedilatildeo de um vulcatildeo dentro do valerdquo
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3261
tclunif=function(nN=100titulo= yl=c(0 4))
medias=numeric(N)for (i in 1N) medias[i]= mean(runif(n 3-3sqrt(3) 3+3sqrt(3)))
hist(medias xlim=c(-610) ylim=yl freq=F main=titulo)
x=seq(-610 02)
points(x dnorm(x 3 3sqrt(1n) ) type=l lwd=3)
medias
Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com
as simulaccedilotildees - Uniforme
grap cso
par(mfrow=c(33) mai=c(3411))
tclunif(1titulo=n=1yl=c(06))
tclunif(2titulo=n=2yl=c(06))
tclunif(3titulo=n=3yl=c(06))
tclunif(4titulo=n=4yl=c(06))tclunif(5titulo=n=5yl=c(06))
tclunif(6titulo=n=6yl=c(06))
tclunif(10titulo=n=10yl=c(06))
tclunif(15titulo=n=15yl=c(06))
tclunif(20titulo=n=20yl=c(06))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3361
X2=c(rnorm(35011) rnorm(15081)) X2 eacute a Populaccedilatildeo de onde retiramos as amostras
br=seq(-2 12 5)
tcl2modas=function(nN=200titulo= yl=c(0 6)) medias=numeric(N)for (i in 1N) medias[i]= mean(sample(X2nrep=T))hist(mediasbreaks=br xlim=c(-212) tcl=-01 ylim=yl xarp=c(-31216)
tck=005 lab=c(5515) freq=F main=titulo)x=seq(-312 02)
Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com
as simulaccedilotildees - Mistura de Normais
points(x dnorm(x med dpsqrt(n) ) type=l lwd=2)
par(mfrow=c(24) mai=c(3011) mar=c(2 2 2 1))
hist(X2 freq=F breaks=seq(-3125) bty=o xlim=c(-212)xarp=c(-31216)tck=005 lab=c(5515) ylim=c(06) main=POPULACcedilAtildeO lwd=2)
tcl2modas(2titulo=n=2)tcl2modas(3titulo=n=3)
tcl2modas(4titulo=n=4)
tcl2modas(5titulo=n=5)
tcl2modas(10titulo=n=10)
tcl2modas(15titulo=n=15)
tcl2modas(25titulo=n=25)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3461
CAP 3-a) Intervalo de ConfianccedilaSeja um estimador pontual do paracircmetro eacute uma variaacutevel aleatoacuteria que varia deamostra para amostra Por isso haacute uma certa dose de incerteza inerente a esse processode estimaccedilatildeo Nosso objetivo agora eacute obter com base nos dados amostrais (da uacutenicaamostra observada) um intervalo ao qual o valor correto do paracircmetro deve ter grandechance de pertencer
bull Detalhando um pouco mais No processo de estimaccedilatildeo por intervalo de um paracircmetro θdevemos determinar um intervalo que contenha o verdadeiro valor do paracircmetro comprobabilidade 1-α onde α eacute um pequeno valor preacute-fixado Este intervalo eacute construiacutedo emgeral em torno do estimador pontual considerando uma margem de erro d de forma aque uma vez fixada a probabilidade 1-α calculemos d tal que P( - d le θ le + d ) = 1 -αChama-se intervalo de confianccedila para θ ao niacutevel 1 - α ao intervalo [ - d + d]
θ $θ
$θ$θ
$θ $θ
$
θ
bull Ou seja o estimador pontual eacute o centro do Intervalo de Confianccedila e o erro absoluto dassociado a define a amplitude desse intervalo O que eacute de fato variaacutevel aleatoacuteria satildeoos extremos do intervalo O paracircmetro tem valor desconhecido natildeo aleatoacuterio (fixo a ser estimado)
Exemplo Intervalo de Confianccedila para a meacutedia populacional com o desvio padratildeo conhecidoO paracircmetro a estimar eacute a meacutedia populacional micro A estimaccedilatildeo seraacute baseada em X1 X2 Xn
uma amostra aleatoacuteria com E(Xi) = micro e var(Xi) = σ2 para todo i = 12 n Queremos que seja
vaacutelida a expressatildeo o que equivale a P [ -d le -micro le d] = 1-α
$θ
X[ ] α1dmicroXP minus=leminus
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3561
bull Lembrando que para n suficientemente grande pelo Teorema Central do Limite a meacutediaamostral segue uma distribuiccedilatildeo que se aproxima da Normal(micromicromicromicro σσσσ2 n) (ou eacute exatamente aNormal(micromicromicromicro σσσσ2 n) no caso em que a distribuiccedilatildeo comum das va Xirsquos jaacute eacute Normal) entatildeo
P [-d le -micromicromicromicro le d] = 1-α rArr 1-α = P [ |Z| le ] Logo d =
bull Faremos uma simulaccedilatildeo para a construccedilatildeo de Intervalos de Confianccedila com 100 amostras dedois tipos de populaccedilatildeo Normal e Exponencial A lista de comandos do R que usamos eacute
ICN = function (N n mu sigma = 3 conf)
plot(0 0 type=n xlim=c(010) ylim=c(0N) bty=l
xlab=Normal ylab=amostras)abline(v=mu)
CAP 3-a) Intervalo de Confianccedila
X
nσ
d
minus
z0 = qnorm(1-((1-conf)2))
sigmaxbarra = sigmasqrt(n)
for (i in 1N)
x = rnorm(n mu sigma)
media = mean(x)
li = media - z0 sigmaxbarrals = media + z0 sigmaxbarra
plotx = c(lils)
ploty = c(ii)
if (li gt mu | ls lt mu) lines(plotxploty col=red)
else lines(plotxploty)
gt ICN(100 25 3 3 95)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3661
CAP 3-a) Intervalo de Confianccedila
ICexp = function (N n lambda conf)
mu=1lambda sigma=1lambda
plot(0 0 type=n xlim=c(010) ylim=c(0N) bty=lxlab=Exponencial ylab=amostras)
abline(v= mu)
z0 = qnorm(1-((1-conf)2))
sigmaxbarra = sigmasqrt(n)
for (i in 1N)
x = rexp(nlambda) me a = mean x
li = media - z0 sigmaxbarra
ls = media + z0 sigmaxbarra
plotx = c(lils)
ploty = c(ii)
if (li gt mu | ls lt mu) lines(plotx ploty col=red)
else lines(plotx ploty)
gt ICexp(100 25 13 95)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3761
CAP 3-b Teste de Hipoacuteteses (TH)O objetivo de um teste de hipoacutetese eacute avaliar a validade de uma afirmaccedilatildeo sobre determinada
caracteriacutestica da populaccedilatildeo usando para isso os dados de uma amostra Essa caracteriacutestica eacute
representada pela va contiacutenua X cujo comportamento probabiliacutestico eacute expresso pela funccedilatildeo dedensidade f com paracircmetro Ө que tem valor desconhecido
Em um teste existem duas hipoacuteteses envolvidas H0 denominada hipoacutetese nula e H1
denominada hipoacutetese alternativa O procedimento de teste de hipoacutetese consiste em estabelecer
um criteacuterio de decisatildeo que leve a Aceitar ou Rejeitar H0 com base nos valores amostrais
A Estatiacutestica de teste eacute uma funccedilatildeo da amostra aleatoacuteria utilizada para definir o criteacuterio de
decisatildeo Estabelecer o criteacuterio de decisatildeo consiste em dividir o conjunto dos valores possiacuteveis
da estatiacutestica de teste em duas partes denominadas Regiatildeo de Aceitaccedilatildeo A e Regiatildeo de
Rejeiccedilatildeo R da hipoacutetese nula
Em um teste de hipoacutetese haacute dois tipos possiacuteveis de erro de decisatildeo
Erro I - Rejeitar H0 quando H0 eacute verdadeira
Erro II - Aceitar H0 quando H0 eacute falsaAs probabilidades de ocorrecircncia dos erros satildeo α = P [ Erro I ] e β = P [ Erro II]
A probabilidade de erro I α eacute o niacutevel de significacircncia do teste cujo valor eacute arbitrado pelo
pesquisador deve ser pequena pois corresponde a probabilidade de um erro (005 ou 001)
O niacutevel criacutetico ou p-valor do teste eacute o menor valor de α para o qual ainda rejeitariacuteamos H0 de
acordo com os dados observados
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3861
CAP 3-b) ndash TH teste tttest(x y = NULL alternative = c(twosided less greater) mu = 0
paired = FALSE varequal = FALSE conflevel = 095 )
Procedimentos de teste de hipoacuteteses com niacutevel de significacircncia α e amostras de tamanho n
UmaAmostra
DuasAmostras
Obs Os testes acima satildeo bilaterais
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3961
CAP 3ndashb) TH exemplo de teste t ndash amostras independentespag233- teste t amostras independente - comparaccedilatildeo log(salaacuterio)
entre os grupos de comeacutercio e de serviccedilo
LogSal=c(1289156912501344145616361573171309060903
0977122011031069128714101496131113371366
1227119114591280115217401649176524101701
1538192419251721154918911534163812071682
120614232010143112651570)
Sal=exp(LogSal)
setor= c(rep(C23) rep(S23))
ttest(Sal[setor==C] Sal[setor==S] varequal=T)
Two Sample t-test
data Sal[setor == C] and Sal[setor == S]
t = -36822 df = 44 p-value = 00006289
alternative hypothesis true difference in means is not equal to 095 percent confidence interval
-23079005 -06751838
sample estimates
mean of x mean of y3786010 5277552
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4061
CAP 3ndashb) TH exemplo de teste t ndash amostra pareadapag237- teste t pareado
P1=c(6315596455545480598065203660986853
8765647785536980827184605572645564)
P2=c(3638306043466455604343523428837155
8238556767443459605968506254473652)
ttest(P1 P2 alt=greater paired = T)
Paired t-test
data P1 and P2
t = 44176 df = 33 p-value = 5072e-05
alternative hypothesis true difference in means is greater than 0
95 percent confidence interval
0716695 Inf
sample estimates
mean of the differences
1161765
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4161
CAP 3ndashb) TH exemplo de teste Quiquadrado chisqtest
pag233- teste Quiquadrado -
tcont=matrix(c(683585251530258 7461761220225) 72)
chisqtest(tcont)
Pearsons Chi-squared test
data tcont- = = - lt -
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4261
CAP 3ndashb) TH exemplo de teste Quiquadrado chisqtestaov(formula data = NULL )
pag244- ANOVA - Comparaccedilatildeo de trecircs raccedilotildees para suinos
A=c(444943514475425134305342453630
322133421040395246294247453959)
B=c(343640545953445432686954414647
6566455739)
C=c(574040364566395025212927283942
21304143294244582849)
aumentoP=c(ABC)
racao=c(rep(A30)rep(B20) rep(C25))
summaryaov(aov(aumentoP ~ racao))
Df Sum Sq Mean Sq F value Pr(gtF)racao 2 15385 7693 56136 0005425
Residuals 72 98666 1370
---
Signif codes 0 lsquorsquo 0001 lsquorsquo 001 lsquorsquo 005 lsquorsquo 01 lsquo rsquo 1
Warning message
In modelmatrixdefault(mt mf contrasts)
variable racao converted to a factor
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4361
ApecircndicesA-1) Apresentaremos aqui algumas figuras
feitas no R na elaboraccedilatildeo do livro
Achamos que o exame desses coacutedigos acompanhado dos resultados podeser um bom aprendizado um exerciacutecio ou talvez uma recordaccedilatildeo do materialaqui exposto
A-2) Resumo de comandosa) Criaccedilatildeo de dados
b) Informaccedilatildeo de uma Variaacutevel
c) Seleccedilatildeo de dados e manipulaccedilatildeo
d) Estatiacutesticas e operaccedilotildees matemaacuteticas
e) Corte e extraccedilatildeo de dados
f) Operaccedilatildeo com Matrizes
g) Graacuteficos (Plotting)
h) Teste de hipoacuteteses
i) Programming
j) Commandos auxiliaries em Graacuteficos
k) Comando par (Graphical parameters)
l) Input and output
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4461
A1) ndash Pag 14 ndash Figura 15
IDADE=c(616961716371726866697267636663636067716360696463667164706366646969646372736871726968687379)
IMC= c(245273281301254301280234268228255228235232203226239243271227237258213243243248219234216214221227227211268278275267286253239258247284235)
par(mfrow=c(12))hist(IDADE breaks=c(6065707580) ylim=c(020) ylab=Nuacutemero de Observaccedilotildees
main= col=grey right = F)hist(IMC breaks=c(200225250275300325)
ylab=Nuacutemero de Observaccedilotildeesmain= col=grey right = F )
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4561
A1) ndash Pag 44 ndash Figura 21
mat=matrix(c(81823913601818608740)32)
rownames(mat)=c(AtivaSedentaacuteriaTotal)colnames(mat)=c(NormalSobrepeso)barplot(t(mat) beside = TRUE space=c(315)
col=gray(c(79))legend = c(NormalSobrepeso) ylim = c(0 95) ylab= - percentagem)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4661
A1) ndash Pag 48 ndash Figura 22
mat= matrix(c(68154510 66214215 66242519 39161711)44byrow=T)
rownames(mat)=c(18 a 21 anos 22 a 25 anos 26 a 30 anos 31 a 40 anos)colnames(mat)=c(CinTeatSMDEx)mat1=mat for (i in 14) mat1[i]lt-mat1[i]100sum(mat1[i]) par(mfrow=c(12) mai=c(1111) mar=c(5 4 2 2) )barplot(matbeside=F ylim=c(0250) legend = c(18 a 21 anos 22 a 25 anos
26 a 30 anos 31 a 40 anos) xlab=Contagem)
barplot(mat1 beside=F xlab=Percentagem)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4761
A1) ndash Pag 52 ndash Figura 25X= c(184114821789235159118762592403190408372147328526471687
09642871437079238215753399242122530314859149806)y =c(01837012540193301620014230140604568022870231400861019960235302186012798991801254018210244160823
0147764068011818941403474539680150133247023685518102146187520214097090257291227
036282905401406510810113849399)plot(x y xlim=c(07) ylim=c(05) pch=16 bty=l xlab=Renda per capita
ylab=Telefonia Fixa per capita)
abline(lsfit(xy))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4861
A1) ndash Pag 109 ndash Figura 45
x=020
y1=dpois(x1) y2=dpois(x3) y3=dpois(x10)names(y1)=x names(y2)=x names(y3)=xpar(mfrow=c(13))plot(y1ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=1)plot(y2ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=3)plot(y3ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=10)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4961
A1) ndash Pag 118 ndash Figura 412
x=seq(010001)
plot(xdexp(x 12) type=l xlim=c(012) ylim=c(01) bty=l ylab=f(x) eF(x))for(i in seq(0 25 001)) segments(i 0 i dexp(i12) col=lightgrey)abline(v=0 h=0)points(xdexp(x 12) type=l lwd=2 bty=l)points(xpexp(x 12) lwd=2 type=l)segments(250 25pexp(2512))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5061
A1) ndash Pag 163 ndash Figura 68
plot(p xlim=c(618) ylim=c(016) type=n bty=l xaxt=n xlab= ylab=
cexaxis=6)for (i in 1015) rect(i-50 i+5 dbinom(i304) col=lightgrey) lty=2)segments(i0idbinom(i304) lty=2)
x=seq(61801) lines(x dnorm(x12sqrt(72)) lwd=2)x=seq(61801) lines(x dnorm(x12sqrt(72)) lwd=2)
axis(1 916 cexaxis=9) ax s seq cexax s=
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5161
A1) ndash Pag 198 ndash Figura 78
x1=seq(-4402)plot(x1dnorm(x1) type=l lwd=3 xlab= ylab= )lines(x1 dt(x11)) lines(x1 dt(x12)) lines(x1 dt(x15))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5261
A2ndashResumo de comandos
a)Criaccedilatildeo de dados
c()funccedilatildeo geneacuterica para combinar argumentos com o formando de um vetor fromto gera uma sequecircnce ldquordquo tem prioridade de operator pe13 + 1 is ldquo234rdquo
seq(fromtoby) gera uma sequecircncia by= especifica incremento
length= especifica um comprimento desejado
rep(xtimes) replicate x onuacutemero times de vezes use each= para repetir cada
elemento de x rep(c(123)2) gera 1 2 3 1 2 3 rep(c(12)each=2) gera 1 1 2 2
matrix(xnrow=ncol=) matrix elementos de x se reciclam caso x
rbind()combina vetores em linhas num estrutura de matrizes de dados
cbind()combina vetores em colunas num estrutura de matrizes de dados
array(xdim=) matriz com dados x especificar dimensotildees como dim=c(342)
elementos de x se reciclam caso x natildeo seja suficientemente grande
factor(xlevels=) codifica um vetor x como um fator gl(nklength=nklabels=1n) gerar niacuteveis (fatores) especificando
o padratildeo de seus niacuteveis k eacute o nuacutemero de niacuteveis e n eacute o nuacutemero de repeticcedilotildees
dataframe() criar um banco de dados Por exemplo
dataframe(v=14ch=c(gBcasad)n=5)
list()criar uma lista de argumentos Por exemplo list(a=c(12)b=hic=3i)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5361
A2ndashResumo de comandos
b) Informaccedilatildeo de uma Variaacutevellength(x) nuacutemero de elementos em x
dim(x) Obter ou definir a dimensatildeo de um objeto dim (x) = c(32)dimnames(x) Obter ou definir os nomes das dimensotildees de um objeto
nrow(x) nuacutemero de linhas
ncol(x) nuacutemero de colunas
c) Seleccedilatildeo de dados e manipulaccedilatildeochoose(n k) calcula a combinaccedilatildeo de elementos escolhidos entre n
resultando n [(n-k) k]
cut(xbreaks) divide x em intervalos (fatores) breaks eacute o nuacutemero de intervalos de
corte ou um vetor com os valores especiacuteficos
table(x) retorna uma tabela com as quantidades dos diferentes valores de x
(tipicamente para variaacuteveis dos tipos inteiros ou fatores)
sample(x size) retira aleatoriamente com e sem reposiccedilatildeo elementos detamanho SIZE do vetor x a opccedilatildeo replace = TRUE permite a retirada com reposiccedilatildeo
proptable(xmargin=) transforma a tabela como tabela de propoccedilatildeo
marginal margin=1 (com relaccedilatildeo as linhas) margin=2 (com relaccedilatildeo as colunas)
sort(x) Classifica os elementos de x em ordem crescente para classificar em ordem
decrescente rev(sort(x))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5461
A2ndashResumo de comandosd) Estatiacutesticas e operaccedilotildees matemaacuteticasmean(x) media dos elementos de x
median(x) mediana dos elementos de x
quantile(xprobs=) quantis de x correspondendo a uma dada probabilidadevar(x) ou cov(x) variacircncia dos elementos de x (calculado com n-1)
se x eacute uma matriz a matriz de covariacircncia eacute calculada
sd(x) desvio padracirco de of x
cor(x) matriz de correlaccedilatildeo de x se x for uma matriz ou (1 se x eacute um vector)
cor(x y) correlaccedilatildeo linear entre X e Y ou matriz de correlaccedilatildeo se eles satildeo matrizes
round(x n) arredonda os elementos de x para n casas decimais sum x soma os e emen os e x
prod(x) multilica os elementos de x
max(x) acha o maacuteximo dos elementos de x
min(x) acha o miacutenimo dos elementos de x
range(x) equivalente a c(min(x)max(x)
cumsum(x) um vetor onde o eacutesimo elemento eacute a soma de x[1] ateacute x[i]cumprod(x) um vetor onde o eacutesimo elemento eacute o produto de x[1] ateacute x[i]
cummin(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
cummax(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
sincostanasinacosatanatan2loglog10exp)
log(x base) calcula o logaritmo de x na base=base
weightedmean(x w) media ponderada de x com peso= w
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5561
A2ndashResumo de comandos
e) Corte e extraccedilatildeo de dadosindexaccedilatildeo de Vetores
x[n] n-eacutesimo elemento do vetor
x[-n] todos menos o n-eacutesimo elemento
x[1n] os primeiros n elemento
x[-(1n)] elementos de n+1 ateacute o final
x[c(432)] elementos especificados
x[y gt 5] todo elementos de onde os valores de y satildeo maiores que 5
x x gt 3 amp x lt 5 todo elementos entre 3 e 5
x[nome] elemento denominado nome
indexaccedilatildeo de Matrizes
x[ij] elemento na linha i coluna j
x[i] linha i
x[j] coluna j
x[c(13)] colunas 1 and 3
x[nome] linha nomeada nome
indexaccedilatildeo de data frames
x[[nome]] coluna chamada nome
x$nome equivalente a coluna chamada nome
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5661
A2ndashResumo de comandos
f) Operaccedilatildeo com Matrizest(x) transposta da matrix x
diag(x) retira a diagonal da matrix x
multiplicaccedilatildeo matricial
solve(ab) resove a equaccedilatildeo a x = b em relaccedilatildeo a x
solve(a) matriz inversa de a
rowSum(x) soma das linhas da matrix x
colSum(x) soma das colunas da matrix x
rowMeans x meacutedia das linhas da matrix x
colMeans(x) id meacutedia das colunas da matrix x
g) Graacuteficos (Plotting)plot(x y) diagrama de disperccedilatildeo plot dos pares (xy) num sistema de eixos
coordenadoshist(x) histogram dasfrequecircncias of x
barplot(x) graacutefico de barras of x usar horiz=T ara barras horizontal
pie(x) graacutefico de setores (pie-chart)
boxplot(x)
qqnorm(x) quantis de x em relaccedilatildeo aos valores esperados de uma dist Normal
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5761
A2ndashResumo de comandosparametros dos commando de Graacutefico
type=p especifica o tipo de plot p pontos l linhas b pontos
ligados por linhas o idecircntico mas as linhas passam sobre os pontos h
linhas verticais s escada (steps) os dados satildeo representados pelas alturasverticais
xlim= ylim= especifica os limites inferiores e superiores dos eixos por exemplocom xlim=c(1 10) ou xlim=range(x)
xlab= ylab= nomeia os eixos o nome deve ser do tipo caracter
main= tiacutetulo principal deve ser do tipo caracter
sub= sub-tiacutetulo (escrito em fonte menor)
podem ser usados como bty(tipo de caixa) lwd (lagura da linha) lty (tipo delinha) pch(tipo de ponto) cex xaxs yaxs xaxtyaxt
h) Teste de hipoacuteteses
ttest()proptest()
chisqtest()
aov(formula) analysis of variance model
anova(fit) analysis of variance (or deviance) tables for one or more
fitted model objects
Use o commando gt test para procurar todos os testes disponiacuteveis
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5861
A2ndashResumo de comandos
i) Programmingfunction( arglist ) expr para definer uma funccedilatildeo
return(value)
if(cond) expr
if(cond) consexpr else altexpr
for(var in seq) expr
while(cond) expr
re eat ex r
break
Usar chaves entre commandos dlimitando o iniacutecio e o fim de um grupo decomandos
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5961
A2ndashResumo de comandos
j) Commandos auxiliaries em Graacuteficospoints(x y) adiciona pontos (a opccedilatildeo type= pode ser usada)
lines(x y) adiciona linhas (a opccedilatildeo type= pode ser usada)text(x y labels ) adiciona texto na coordenada (xy) um uso tiacutepico eacute
plot(x y type=n) text(x ynames)
segments(x0 y0 x1 y1) desenha linhas do ponto (x0 y0) ao (x1 y1)
arrows(x0 y0 x1 y1 angle= 30 code=2) desenha seta do ponto
(x0 y0) ao (x1 y1)
abline(ab) desenha uma reta de inclinaccedilatildeo b e intercepto a
abline(v=x) desenha uma reta vertical em x
abline(lsfit(xy)) desenha uma reta da regressatildeo feita em lsfit(xy)
rect(x1 y1 x2 y2) desenha um retacircngulo que a esquerda inferior tem coordenadas(x1 y1) e o limite da direita superiores (x2 y2)
polygon(x y) desenha um poliacutegono que une os pontos com coordenadas X e Y
legend(x y legend) Acrescenta a lenda no ponto (x y) com os siacutembolos
dada pela legend
title()adiciona um tiacutetulo e opcionalmente um sub-tiacutetulo
axis(side) acrescenta um eixo na parte inferior (side = 1) agrave esquerda (2) na partesuperior (3) ou agrave direita (4)
box()desenhar uma caixa em torno do plot
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6061
A2ndashResumo de comandos
k) Comando par (Graphical parameters)Todos estes comando podem ser definidos a niacutevel global com o par () que
especifica os paracircmetros mas tambeacutem muitos podem ser usados comoparametros dos commando de Graacutefico
mfcol vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em colunas
mfrow vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em linhas(matrix for row)
bty controla o tipo de caixa desenhada ao redor do enredo valores permitidos satildeo
o l 7 c u ou se bt =n a caixa natildeo eacute desenhada
lty controla o tipo de linhas pode ser um inteiro ou string (1 solid 2 dashed 3dotted 4 dotdash 5 longdash 6twodash) ou uma string de ateacuteoito caracteres (entre 0 e 9) que especifica o comprimento em pontos oupixels dos elementos desenhados e os espaccedilos em branco por exemplolty=rdquo44rdquo equivale a lty=2
lwd nuacutemero que controla a largura das linhas default 1pch controla o tipo de siacutembolo pode tambeacutem ser um nuacutemero inteiro entre 1 e 25
ps um inteiro que controla o tamanho em pontos de textos e siacutembolos
pty um caracter que especifica o tipo da regiatildeo s quadrado m maacuteximal
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6161
A2ndashResumo de comandos
l) Input and outputreadtable(file) lecirc um arquivo em formato de tabela e cria um quadro de dados a
partir dele o separador default = eacute espaccedilo em branco header = TRUE ler a
primeira linha como um cabeccedilalho de nomes de coluna asis = TRUE paraevitar aque um vetore de caracteres seja convertido em factores usocommentchar = para evitar seja interpretado como um comentaacuteriouso skip = n para pular n linhas antes da leitura de dados consulte a ajudapara as opccedilotildees de linha de nomeaccedilatildeo o tratamento NA e outros
readcsv(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por viacutergulas
readdelim(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por tabulaccedilotildees
readfwf(filewidthsheader=FALSEsep= asis=FALSE)
ler uma tabela de dados em formato fix de largura m para um dataframe widthseacute um vetor inteiro informando os tamanhos dos campos
sink(file) saiacuteda de todos os comandos para um arquivo ateacute aparecer um comando
sink () que desliga writetable(x file=rownames=Tcolnames=Tsep= ) imprime x apoacutes a
conversatildeo para banco de dados
save(file) guarda os objetos especificados () no formato XDR
load()carregar o conjunto de dados salvos com o comando save
data(x) carrega um conjunto de dados especificado
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 861
Exemplo
RCQ=c(808686908295928383898184788189877480918685848574768380788587
688387878789878888897877788984) digitar RCQ
rcq=rep(245) rcq[RCQ lt 78]=1 rcq[RCQ gt 85]=3 codificar
rcqt= table(rcq) tabular
names(rcqt)=c(PRMRGR) nomear as categorias
par(mfrow=c(12)) matrix de graficos (1 linha e 2 colunas)
pie(rcqt radius=12 col=c(greenbluepink)) graf de setor
Cap1-AED ndash ex table names par pie barplot
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 961
Pag 48 ndash Figura 22
mat= matrix(c(68154510 66214215 66242519 39161711)44byrow=T)
rownames(mat)=c(18 a 21 anos 22 a 25 anos 26 a 30 anos 31 a 40 anos)colnames(mat)=c(CinTeatSMDEx)
mat1=proptable(mat 2)
par(mfrow=c(12) mai=c(1111) mar=c(5 4 2 2) )
barplot(matbeside=F ylim=c(0250) legend = c(18 a 21 anos 22 a 25 anos
26 a 30 anos 31 a 40 anos) xlab=Contagem)
barplot(mat1 beside=F xlab=Percentagem)
Cap1-AED ndash ex barplot (beside=F)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1061
Pag 44 ndash Figura 21
mat=matrix(c(81823913601818608740)32)
rownames(mat)=c(AtivaSedentaacuteriaTotal)
colnames(mat)=c(NormalSobrepeso)
barplot(t(mat) beside = TRUE space=c(315)
col=gray(c(79))
legend = c(NormalSobrepeso) ylim = c(0 95) ylab= - percentagem)
Cap1-AED ndash ex barplot (beside=T)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1161
Para as variaacuteveis quantitativas os mais usados satildeo os Histogramas e os Diagramas Ramo-folhascujos comandos satildeo gthist(x) gt stem(x) Existe tambeacutem um comando chamado gtcut
que classifica uma variaacutevel numeacuterica Os principais argumentos do comando hist satildeo
hist(x breaks= freq =NULL right=T col=NULL main=xlim=range(breaks) ylim=NULL xlab=xname ylab) Onde
x a variaacutevel numeacuterica a ser discretizada (argumento obrigatoacuterio)
breaks vetor com os limites das classes
freq variaacutevel loacutegica se T (True) corresponde agrave contagem de cada classe se F (False) equivale adensidade de probabilidade a aacuterea total sob a curva (retacircngulos) teria soma 1
right variaacutevel loacutegica se T as classes satildeo fechadas agrave direira se F satildeo fechadas agrave esquerda
Cap1ndashAED stem cut table
main tiacutetulo principal
xlab e ylab roacutetulos dos eixos x e y respectivamente
xlim e ylim Dois valores limites para o graacutefico de cada uma das variaacuteveis
cut(x breaks right = T ) Onde
x a variaacutevel numeacuterica a ser discretizada (argumento obrigatoacuterio)breaks vetor com os limites das classes
right variaacutevel loacutegica se T as classes satildeo fechadas agrave direira se F agrave esquerda
stem(x hellip)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1261
Exemploda pag 15 ndash Figura 18
gt nt=c(18381254193316214231406456822872314
8611996235321861281254244214781182
347515012369214621412573362814071138) digitaccedilatildeo de nt
gt hist(nt breaks=c(50100150200250300350400450500) right=T
main=Histograma Telefonia fixa per capita
xlab=N linhas1000hab ylab=N de obs xlim=c(0500) ylim=c(010) col=grey) histograma da variavel gt
Cap1-AED hist
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1361
Exemploda pag 15 ndash Figura 18
gt nt=c(18381254193316214231406456822872314
8611996235321861281254244214781182
347515012369214621412573362814071138) digitaccedilatildeo de nt
gt stem(trunc(nt10)) o ramo a centena e a folha as dezenas
0 | 8
1 | 1122244441 | 5689
Cap1 AED ndash ex stem table cut
2 | 011123334
2 | 5
3 | 4
3 | 6
4 |
4 | 5
gt table(cut(nt breaks=c(50100150200250300350400450500) right=F))
[50100) [100150) [150200) [200250) [250300) [300350) [350400) [400450) [450500)
1 9 5 8 1 1 1 0 1
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1461
Para uma dada variaacutevel quantitativa uma medida de centralidade eacute um ldquovalor tiacutepicordquo em torno doqual se situam os valores daquela variaacutevelAs medidas de centralidade mais conhecidas satildeoa meacutedia aritmeacutetica e a mediana Usar os comando mean(x) median(y) Por exemplo
gt mean(nt)[1] 2001852gt median(nt)[1] 193Uma medida de localizaccedilatildeo eacute o quantil A funccedilatildeo apropriada do R para obter os quantis de um
vetor numeacuterico x eacute a funccedilatildeo gt quantile(x)Se desejarmos determinar os trecircs quartis usariacuteamos
o comando quantile(xc(02505075))
Se desejarmos o quinto o deacutecimo e o nonageacutesimo percentis usariacuteamos o comandogt quantile(xc(05010090))
Cap1-AED Medidas (estatiacutesticas)
O comando quantile(xp) retorna o quantil de ordem p das observaccedilotildees de x podendo p ser
um vetor Por exemplo
gt quantile(nt c(20 50 95))
20 50 95
1306 1930 3582
Uma medida de dispersatildeo para uma variaacutevel quantitativa eacute um indicador do grau de espalhamento
dos valores da amostra em torno da medida de centralidade As medidas de dispersatildeo mais
conhecidas satildeo a variacircncia o desvio-padratildeo e a distacircncia interquartil=diferenccedila entre o terceiro
e o primeiro quartis
gt var(nt)
[1] 7131464
gt sd(nt)
[1] 84448
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1561
gt q=fivenum(nt) q[4]-q[2] em q estatildeo os 5 nuacutem Subtraiacutemos o Q3 do Q1[1] 92
Os cinco valores x(1) Q1 Q2 Q3 x(n) miacutenimo os trecircs quartis e o maacuteximo satildeoimportantes para se ter uma boa ideacuteia da assimetria dos dados Esse valores podem serobtidos pelo comando fivenum(x) O summary(x) acrescenta tambeacutem a meacutedia ao resultado
Por exemplogt fivenum(nt)[1] 86 141 193 233 457gt summary(nt)
Min 1st Qu Median Mean 3rd Qu Max
860 1410 1930 2002 2330 4570
Cap1-AED IEQ fivenum boxplot
O Box Plot ou Desenho Esquemaacutetico eacute um graacutefico que se costuma utilizar para sintetizarem uma mesma figura vaacuterias informaccedilotildees relativas agrave distribuiccedilatildeo de uma determinadavariaacutevel quantitativa Nele tambeacutem satildeo representadas as observaccedilotildees discrepantesObservaccedilotildees discrepantes ou outliers satildeo observaccedilotildees cujos valores estatildeo muito afastadosdos demais (para mais ou para menos) Essas observaccedilotildees podem afetar de formasubstancial o resultado das anaacutelises estatiacutesticas O comando para usar-lo eacute boxplot(x)
Por exemplo ver fig 125 pag 28gt nt=c(18381254193316214231406456822872314
8611996235321861281254244214781182347515012369214621412573362814071138) digitaccedilatildeo de nt
gt boxplot(nt ylim=c(50500)xlab=N linhas1000hab)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1661
Quando se deseja investigar a relaccedilatildeo entre duas variaacuteveis qualitativas o caminho natural eacutemontar uma tabela de contingecircncia Construir uma tabela de contingecircncia consiste emcolocar nas linhas os valores possiacuteveis de uma variaacutevel e nas colunas os valores possiacuteveis
cruzamentoO comando para fazer a tabela seria gttable(xy)Por exemplogt tab12=readtable(fSBPO2010Rtab1_2txt header = T sep = )gt attach(tab12)
gt table(CATEG Classe_IMC)Classe_IMC
CATEG normal sobrepesoA 18 4
Cap1-AED Relaccedilatildeo entre duas variaacuteveis Qualitativas
Para analisar a relaccedilatildeo entre 2 variaacuteveis atraveacutes de uma tabela de contingecircncia umprocedimento muito uacutetil eacute calcular os percentuais em relaccedilatildeo aos totais das linhas etambeacutem os percentuais em relaccedilatildeo aos totais das colunas Os comandos seriamproptab(x1) para linha e proptab(x2) para coluna Por exemplo usando a tabela 25paacutegina 46
gt mat= matrix(c(68154510 66214215 66242519 39161711)44byrow=T)gt rownames(mat)=c(18 a 21 anos22 a 25 anos26 a 30 anos31 a 40 anos)gt colnames(mat)=c(CinTeatSMDEx)gt mat1=proptable(mat 1) por linha tab 27gt mat2=proptable(mat 2) por coluna tab 28
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1761
Cap1-AED Relaccedilatildeo entre duas variaacuteveis QuantitativaQuando se deseja investigar a relaccedilatildeo entre duas variaacuteveis quantitativas o mais adequado eacutecomeccedilar pela construccedilatildeo de um Diagrama de Dispersatildeo Construir um diagrama de
dispersatildeo para 2 variaacuteveis quantitativas X e Y consiste em localizar pares de valoresobservados (xi yi ) como pontos em um sistema de eixos coordenados O camando seriaplot(xy)Por exemplogtx=c(12345) y=c(11224) plot(xy)
Um indicador do grau de interdependecircncia linear para 2 variaacuteveis quantitativas X e Y eacute ocoeficiente de correlaccedilatildeo rxy que pode assumir qualquer valor real entre -1 e 1 Ocoeficiente de correlaccedilatildeo entre X e Y eacute calculado por uma das duas expressotildees
matemaacuteticas (equivalentes) a seguir
O comando seria cor(xy) Por exemplogtx=c(12345) y=c(11224) cor(xy)
[1] 09036961
sum sum
sum
sumsum
sum
= =
=
=
=
sdotminussdotminus
sdotsdotminus
=
minussdotminus
minusminus
=n
1i
n
1i
1222
i
22
i
n
1i
ii
122
i
2
i
n
1i
n
1i
ii
xy
)yny)(xnx(
yxnyx
)y(y)xx(
)y)(yx(x
r
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1861
Cap1-AED Relaccedilatildeo entre duas variaacuteveis Quantitativa
bull Quando se verifica atraveacutes do coeficiente de correlaccedilatildeo (ou pelo aspecto visual doDiagrama de Dispersatildeo) que existe uma forte relaccedilatildeo linear entre 2 variaacuteveis X e Y
pode ser de interesse calcular a equaccedilatildeo da reta que representa esta relaccedilatildeo entre as2 variaacuteveis y = a + bx A equaccedilatildeo y = a + bx considera que y eacute a variaacutevel dependente(ou variaacutevel resposta) e que x eacute a variaacutevel independente (ou variaacutevel preditora) a serusada para explicar o comportamento da variaacutevel y A equaccedilatildeo da reta pode ser usadapara se antever qual seria o valor y0 da variaacutevel resposta y correspondente a umdeterminado valor x0 da variaacutevel preditora x
bull As foacutermulas que nos permitem calcular os valores de a e b a partir dos dados satildeo
yxn
n
i
n
i sumsum
O coeficiente b mede a inclinaccedilatildeo da reta de Regressatildeo Entatildeo ao passarmos de um pontoa outro sobre a reta b mede a relaccedilatildeo entre as variaccedilotildees de y e de x O coeficiente a medeo valor de y quando x eacute igual a zero ou seja eacute o intercepto da reta de Regressatildeo
O comando para calcular os coeficientes a e b seria gt lsprint(lsfit(xy))gtx=c(12345) y=c(11224)gtreg=lsfit(xy)gtlsprint(reg)
n
x
x
nyx
b2
n
1i
in
1i
2
i
1i
ii
minus
minus
=
sumsum =
=
=
==
x bya sdotminus=e
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1961
Cap 2-a Simulaccedilatildeo do conceito frequumlentistaConceito Frequumlentista de Probabilidade Suponha que o experimentofoi repetido n vezes sempre sob as mesmas condiccedilotildees e que o evento Aocorreu m vezes entre essas n realizaccedilotildees do experimento Entatildeoa fraccedilatildeo mn eacute uma boa aproximaccedilatildeo para a probabilidade de Ase o nuacutemero n de repeticcedilotildees for bastante grande
Simbolicamente P (A) congcongcongcong mn
Exemplo Simulando 100 lanccedilamentos de uma moedaNo R foram simulados 100 lanccedilamentos de uma moeda equilibrada isto eacute
onde as chances de cara e de coroa satildeo iguais Depois de cadalanccedilamento foi observado o nuacutemero acumulado de caras obtidas ateacute essemomen o e o ca cu a a a proporccedil o e caras correspon en e a a e a aseguir estatildeo apresentados os valores correspondentes ao nuacutemeroacumulado de caras ao longo do processo Por exemplo para a jogada denuacutemero 29 o nuacutemero acumulado de caras eacute 13 e a fraccedilatildeo de caras eacute 1329O graacutefico abaixo mostra a evoluccedilatildeo dessa fraccedilatildeo agrave medida que foramfeitos os 100 lanccedilamentos da moeda
Os comandos no R para a elaboraccedilatildeo do graacutefico
gtx=1100 y=cumsum(sample(01100rep=T))gtplot(xy1100 ylim=c(01) xlim=c(0100) pch=16)gtsegments(10510005)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2061
Cap 2-b Variaacuteveis Aleatoacuterias (va)Uma variaacutevel aleatoacuteria (va) eacute uma funccedilatildeo que associa cada elemento de um
espaccedilo amostral a um nuacutemero real As variaacuteveis aleatoacuterias podem ser do
tipo
Discreto se os seus valores pertencem a um conjunto enumeraacutevel de nuacutemerosreais (usualmente valores inteiros)
Contiacutenuo se os seus valores pertencem a um intervalo de nuacutemeros reais
O modelo probabiliacutestico de uma variaacutevel aleatoacuteria X estabelece o padratildeo de
comportamento de sua distribuiccedilatildeo de probabilidadeA fun atildeo de robabilidade de uma v a discreta X eacute definida orp(x)=P[X=x]
A funccedilatildeo de distribuiccedilatildeo acumulada F de uma v a X eacute definida porF(x) = P[Xlelelelex]
Se X eacute uma va discreta que assume os valores x 1
x 2
x 3
x N
entatildeo
bull A meacutedia ou esperanccedila de X eacuteE(X) = x 1 P(X=x 1 ) + x 2 P(X=x 2 ) + x 3 P(X=x 3 ) + + x N P(X=x N )
bull A Variacircncia de X eacute calculada por |Var(X)=(x 1 ndashE(X))2 P(X=x 1 )+(x 2 ndashE(X))2 P(X=x 2 )++(x N ndashE(X))2 P(X=x N )
bull O desvio padratildeo de X eacute igual agrave raiz quadrada natildeo negativa da suavariacircncia DP(X)= Var(X)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2161
Cap 2-b - va e o RO trabalho no R com uma va X estaacute baseado em 4 procedimentos
p probability ndash Gera a probabilidade de um valor de xq quantile ndash Gera o valor x de uma dada probabilidade acumulada pd density ndash Gera o valor da funccedilatildeo densidade num valor x da variaacutevel
Observar que quando a variaacutevel eacute discreta este valor eacute aprobabilidade de x quando a variaacutevel eacute contiacutenua o resultadoeacute a altura da funccedilatildeo densidade de probabilidade
r random ndash Gera n valores do modelo probabiliacutestico em questatildeo
As distribuiccedilotildees que estudaremos estatildeo listadas a seguir depois de cada uma delasentre parecircnteses estaacute o nome no R
(geom) Binomial negativa- Pascal (nbinom)
Entre as contiacutenuas Uniforme (unif ) Exponencial (exp) Normal (norm) t-student (t)quiquadrado (chisq) F (f )
A interligaccedilatildeo dos trecircs primeiros procedimentos pq e d seraacute ilustrada pela distribuiccedilatildeoNormal atraveacutes do graacutefico abaixo
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2261
Cap 2-b - va pnorm e qnormSeja a relaccedilatildeo p = P(Xltx) que aparece na tabela da distribuiccedilatildeo Normal Quiquadrada
t-student e F Para um dado valor de p acha-se um valor de x a procura direta que para aNormal no R corresponderia a pnorm(x 983221 σ) Neste caso devo informar o x e os dois
paracircmetros da distribuiccedilatildeo Normal 983221 e σJaacute a procura inversa seria para um dado valor de x achar um valor de p que para a Normalno R corresponderia a qnorm(p983221σ) Neste outro caso devo informar o valor de p desejado etambeacutem os dois paracircmetros da distribuiccedilatildeo Normal 983221 e σ
Exemplo Seja X a va que corresponde ao peso (em kg) de pessoas de uma certapopulaccedilatildeo com meacutedia 983221=70 Kg e desvio padratildeo σ=8 Kg assim X~ N(983221=70 σ2=82)
Se desejarmosa) P(Xlt80) usaremos no R o comando pnorm(80 70 8) isto eacute x=80 eacute o primeiro paracircmetroenquanto 70 e 8 satildeo paracircmetro especiacuteficos da distribuiccedilatildeo Normal
b) Admita que o peso limite para ser classificado como obeso eacute o valor que corresponde a10 dos mais pesados do populaccedilatildeo Achar este peso limiteO que se pede eacute a funccedilatildeo inversa Dado um valor de p=090 achar um valor de x que deixa90 abaixo dele No R seria qnorm(09 70 8) isto eacute o valor da probabilidade p=09 eacute
o primeiro paracircmetro enquanto 70 e 8 satildeo paracircmetros especiacuteficos da distribuiccedilatildeo NormalSe usarmos a Normal padratildeo z=(x-983221)σ no caso do item a o comando seria pnorm((80-70)8)ou pnorm(125) Repare que neste caso natildeo foi necessaacuterio passar os paracircmetros especiacuteficos daNormal pois 983221=0 e σ =1 coresponde ao default Observaccedilatildeo Sempre que usarmos um p oprimeiro paracircmetro eacute um x e os outros satildeo especiacuteficos da distribuiccedilatildeo em questatildeosempre que usarmos um q o primeiro paracircmetro eacute um p e os outros satildeo especiacuteficosSempre que usarmos um d o primeiro paracircmetro eacute um x
Quando usarmos uma distribuiccedilatildeo discreta o d corresponde aacute probabilidade no ponto x
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2361
Pag 118 ndash Figura 412
x=seq(010001)
plot(xdexp(x 12) type=l xlim=c(012) ylim=c(01) bty=l ylab=f(x) e F(x))
for(i in seq(0 25 001)) segments(i 0 i dexp(i12) col=lightgrey)
abline(v=0 h=0)
points(xdexp(x 12) type=l lwd=2 bty=l)
points(x pexp(x 12) lwd=2 type=l)
segments(250 25pexp(2512))
Cap 2-b - va dexp pexp points segments
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2461
Cap 2-b - va disponiacuteveis no Rrbinom(n size prob) binomialrpois(n lambda) Poissonrgeom(n prob) geometricarhyper(nn m n k) hipergeometricarnbinom(n size prob) binomial negativarunif(n min=0 max=1) uniformerexp(n rate=1) exponentialrnorm(n mean=0 sd=1) Gaussiana (normal)rt(n df) lsquoStudentrsquo (t )rf(n df1 df2) FisherndashSnedecor (F )
rchisq(n df) Quiquadradar amma n sha e scale=1 amma rbeta(n shape1 shape2) betarlnorm(n meanlog=0 sdlog=1) lognormalrcauchy(n location=0 scale=1) Cauchyrweibull(n shape scale=1) Weibullrwilcox(nn m n) Wilcoxonrsquos rank sum statistics
rsignrank(nn n) Wilcoxonrsquos signed rank statisticsrlogis(n location=0 scale=1) logistic
Todas essas distribuiccedilotildees apresentadas por rnome (nome da variaacutevel aleatoacuteria) como vimostrocando a primeira letra e mantendo os paracircmetros especiacuteficos de cada distribuiccedilatildeo(denotados por ) podem ser usadas substituindo a letra ldquor rdquo por
d valor da densidade de probabilidade no ponto x dnome (x )p probabilidade acumulada no ponto x pnome (x )
q quantil correspondente a probabilidade acumulada p dnome (p)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2561
Cap 2-c O Teorema Central do Limite (TCL)O Teorema Central do Limite (abreviadamente TCL) diz respeito ao comportamento da
meacutedia amostral agrave medida que o tamanho n da amostra cresce indefinidamente
Exemplo 31 ndash A distribuiccedilatildeo de renda e o TCLEacute um fato conhecido que a distribuiccedilatildeo da rendapessoal dos habitantes de um paiacutes eacuteusualmente muito desigual ou seja muitosganham pouco e poucos ganham muito Seforem sorteados 200 habitantes desse paiacutes e
com base nas suas rendas mensais
Agora se forem sorteadas 200 amostrascada uma delas contendo 2 habitantesdesse paiacutes e se forem calculadas as 200respectivas meacutedias amostrais a partir delas obteremos o histograma a seguir
Agora cada uma das 200 amostrassorteadas contendo 30 habitantes dessepaiacutes e se forem calculadas as 200 meacutediasamostrais o histograma seria
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2661
Cap 2-c ndash TCL ExemploComo pode ser observado no caso de n = 2 o histograma se aproxima mais de uma curvaNormal do que no caso de n = 1 E no caso de n = 30 a semelhanccedila do histograma com umacurva Normal eacute ainda maior
O Teorema Central do Limite afirma que independentemente de qual seja a
distribuiccedilatildeo original dos Xirsquos a distribuiccedilatildeo de probabilidade de e a
distribuiccedilatildeo Normal com meacutedia micromicromicromicro e variacircncia σσσσ2 n se aproximam cada vez
mais uma da outra agrave medida que n cresce
Portanto mesmo que a distribuiccedilatildeo de probabilidade dos Xirsquos seja desconhecida o Teorema
X n
Central do Limite garante a possibilidade de usarmos o modelo Normal para calcular ainda quede forma aproximada probabilidades relativas agrave meacutedia amostral desde que n sejasuficientemente grande
Exemplo 62 Simulando o efeito do TCL
Para ilustrar o funcionamento do Teorema Central do Limite vamos exibir agora um exemploem que a distribuiccedilatildeo original a partir da qual os dados satildeo gerados eacute uma exponencial modelo
este que daacute origem a uma funccedilatildeo densidade bastante assimeacutetrica (ao contraacuterio do que ocorre
com a curva Normal) A densidade de uma exponencial com paracircmetro eacute dada pela
expressatildeo
No R rexp(n ) simula n valores
λ
0 xλef(x) λx ge= minusλ
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2761
Cap 2-c ndash TCL ExemploA densidade de uma exponencial com paracircmetro eacute dada pela expressatildeo
Gerando dados por simulaccedilatildeo a partir de uma exponencial com λ = 13 para cada um dos
seguintes tamanhos n de amostra 1 2 3 4 5 10 15 e 201 Obtivemos 200 valores da meacutedia amostral 2 Utilizamos esses 200 valores para construir um histograma3 Traccedilamos no mesmo graacutefico uma curva da densidade Normal com E( )=3 e DP( )=3Xn
λ 0 xλef(x) λx ge= minus
Xn n
Os 8 histogramas nos mostram que agrave medida que o tamanho n da amostra cresce
a forma do histograma se aproxima cada vez mais de uma curva Normal
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2861
Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com
simulaccedilotildees - Exponencial
tclexp=function(n N=200 titulo= yl=c(0 4)) iniacutecio da funccedilatildeo ndash tclexpmedias=numeric(N)
for (i in 1N) medias[i]= mean(rexp(n13))
hist(medias xlim=c(-110) ylim=yl freq=F main=titulo)
x=seq(-110 02)
points(x dnorm(x 3 3sqrt(1n) ) type=l lwd=3)
fim da funccedilatildeo
graphicsoff()
par(mfrow=c(33) mai=c(3411))
tclexp(1titulo=n=1)
tclexp(2titulo=n=2)
tclexp(3titulo=n=3)
tclexp(4titulo=n=4)
tclexp(5titulo=n=5)
tclexp(6titulo=n=6)
tclexp(10titulo=n=10yl=c(06))
tclexp(15titulo=n=15yl=c(06))
tclexp(20titulo=n=20yl=c(06))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2961
Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com
simulaccedilotildees - Exponencial
Uma pergunta natural neste ponto serialdquoQuatildeo grande deve ser n para que possamos usar a aproximaccedilatildeo fornecida pelo
TCL com um niacutevel de precisatildeo aceitaacutevelrdquo
A rapidez com que essa convergecircncia se daacute depende de quatildeo distante estaacute a forma
da distribuiccedilatildeo original das Xirsquos de uma curva Normal Em outras palavras se a
distribuiccedilatildeo das Xirsquos jaacute natildeo for muito diferente de uma Normal com um n natildeo muito-
grande (usualmente n ge 30) a aproximaccedilatildeo da distribuiccedilatildeo de por uma Normal
funcionaria adequadamente
No exemplo a seguir vamos apresentar esse fenocircmeno a saber a convergecircncia da
distribuiccedilatildeo de para uma Normal agrave medida que n cresce gerando por simulaccedilatildeo osdados originais a partir de diferentes modelos probabiliacutesticos Em todos os casos a
distribuiccedilatildeo original eacute bem diferente da Normal E(X)=3 e DP(X)=3 No que se refere agrave
Simulaccedilatildeo foi seguida a mesma sequumlecircncia de passos do exemplo anterior
Xn
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3061
Cap 2-c ndash TCL Exemplo
Exponencial
Uniforme
Mistura deNormais
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3161
Como se pode observar
1 No caso da distribuiccedilatildeo uniforme (A) o histograma de jaacute se aproximabastante de uma Normal quando n eacute da ordem de 4
2 Jaacute no caso da distribuiccedilatildeo Exponencial (B) e da mistura de normais
(C) modelos esses que se afastam muito mais de umldquo rdquo
Cap 2-c ndash TCL Exemplo
mostra mais adequada a partir de n em torno de 10
3 No caso do modelo em (C) agrave medida que n cresce tudo se passacomo se houvesse a ldquoerupccedilatildeo de um vulcatildeo dentro do valerdquo
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3261
tclunif=function(nN=100titulo= yl=c(0 4))
medias=numeric(N)for (i in 1N) medias[i]= mean(runif(n 3-3sqrt(3) 3+3sqrt(3)))
hist(medias xlim=c(-610) ylim=yl freq=F main=titulo)
x=seq(-610 02)
points(x dnorm(x 3 3sqrt(1n) ) type=l lwd=3)
medias
Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com
as simulaccedilotildees - Uniforme
grap cso
par(mfrow=c(33) mai=c(3411))
tclunif(1titulo=n=1yl=c(06))
tclunif(2titulo=n=2yl=c(06))
tclunif(3titulo=n=3yl=c(06))
tclunif(4titulo=n=4yl=c(06))tclunif(5titulo=n=5yl=c(06))
tclunif(6titulo=n=6yl=c(06))
tclunif(10titulo=n=10yl=c(06))
tclunif(15titulo=n=15yl=c(06))
tclunif(20titulo=n=20yl=c(06))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3361
X2=c(rnorm(35011) rnorm(15081)) X2 eacute a Populaccedilatildeo de onde retiramos as amostras
br=seq(-2 12 5)
tcl2modas=function(nN=200titulo= yl=c(0 6)) medias=numeric(N)for (i in 1N) medias[i]= mean(sample(X2nrep=T))hist(mediasbreaks=br xlim=c(-212) tcl=-01 ylim=yl xarp=c(-31216)
tck=005 lab=c(5515) freq=F main=titulo)x=seq(-312 02)
Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com
as simulaccedilotildees - Mistura de Normais
points(x dnorm(x med dpsqrt(n) ) type=l lwd=2)
par(mfrow=c(24) mai=c(3011) mar=c(2 2 2 1))
hist(X2 freq=F breaks=seq(-3125) bty=o xlim=c(-212)xarp=c(-31216)tck=005 lab=c(5515) ylim=c(06) main=POPULACcedilAtildeO lwd=2)
tcl2modas(2titulo=n=2)tcl2modas(3titulo=n=3)
tcl2modas(4titulo=n=4)
tcl2modas(5titulo=n=5)
tcl2modas(10titulo=n=10)
tcl2modas(15titulo=n=15)
tcl2modas(25titulo=n=25)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3461
CAP 3-a) Intervalo de ConfianccedilaSeja um estimador pontual do paracircmetro eacute uma variaacutevel aleatoacuteria que varia deamostra para amostra Por isso haacute uma certa dose de incerteza inerente a esse processode estimaccedilatildeo Nosso objetivo agora eacute obter com base nos dados amostrais (da uacutenicaamostra observada) um intervalo ao qual o valor correto do paracircmetro deve ter grandechance de pertencer
bull Detalhando um pouco mais No processo de estimaccedilatildeo por intervalo de um paracircmetro θdevemos determinar um intervalo que contenha o verdadeiro valor do paracircmetro comprobabilidade 1-α onde α eacute um pequeno valor preacute-fixado Este intervalo eacute construiacutedo emgeral em torno do estimador pontual considerando uma margem de erro d de forma aque uma vez fixada a probabilidade 1-α calculemos d tal que P( - d le θ le + d ) = 1 -αChama-se intervalo de confianccedila para θ ao niacutevel 1 - α ao intervalo [ - d + d]
θ $θ
$θ$θ
$θ $θ
$
θ
bull Ou seja o estimador pontual eacute o centro do Intervalo de Confianccedila e o erro absoluto dassociado a define a amplitude desse intervalo O que eacute de fato variaacutevel aleatoacuteria satildeoos extremos do intervalo O paracircmetro tem valor desconhecido natildeo aleatoacuterio (fixo a ser estimado)
Exemplo Intervalo de Confianccedila para a meacutedia populacional com o desvio padratildeo conhecidoO paracircmetro a estimar eacute a meacutedia populacional micro A estimaccedilatildeo seraacute baseada em X1 X2 Xn
uma amostra aleatoacuteria com E(Xi) = micro e var(Xi) = σ2 para todo i = 12 n Queremos que seja
vaacutelida a expressatildeo o que equivale a P [ -d le -micro le d] = 1-α
$θ
X[ ] α1dmicroXP minus=leminus
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3561
bull Lembrando que para n suficientemente grande pelo Teorema Central do Limite a meacutediaamostral segue uma distribuiccedilatildeo que se aproxima da Normal(micromicromicromicro σσσσ2 n) (ou eacute exatamente aNormal(micromicromicromicro σσσσ2 n) no caso em que a distribuiccedilatildeo comum das va Xirsquos jaacute eacute Normal) entatildeo
P [-d le -micromicromicromicro le d] = 1-α rArr 1-α = P [ |Z| le ] Logo d =
bull Faremos uma simulaccedilatildeo para a construccedilatildeo de Intervalos de Confianccedila com 100 amostras dedois tipos de populaccedilatildeo Normal e Exponencial A lista de comandos do R que usamos eacute
ICN = function (N n mu sigma = 3 conf)
plot(0 0 type=n xlim=c(010) ylim=c(0N) bty=l
xlab=Normal ylab=amostras)abline(v=mu)
CAP 3-a) Intervalo de Confianccedila
X
nσ
d
minus
z0 = qnorm(1-((1-conf)2))
sigmaxbarra = sigmasqrt(n)
for (i in 1N)
x = rnorm(n mu sigma)
media = mean(x)
li = media - z0 sigmaxbarrals = media + z0 sigmaxbarra
plotx = c(lils)
ploty = c(ii)
if (li gt mu | ls lt mu) lines(plotxploty col=red)
else lines(plotxploty)
gt ICN(100 25 3 3 95)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3661
CAP 3-a) Intervalo de Confianccedila
ICexp = function (N n lambda conf)
mu=1lambda sigma=1lambda
plot(0 0 type=n xlim=c(010) ylim=c(0N) bty=lxlab=Exponencial ylab=amostras)
abline(v= mu)
z0 = qnorm(1-((1-conf)2))
sigmaxbarra = sigmasqrt(n)
for (i in 1N)
x = rexp(nlambda) me a = mean x
li = media - z0 sigmaxbarra
ls = media + z0 sigmaxbarra
plotx = c(lils)
ploty = c(ii)
if (li gt mu | ls lt mu) lines(plotx ploty col=red)
else lines(plotx ploty)
gt ICexp(100 25 13 95)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3761
CAP 3-b Teste de Hipoacuteteses (TH)O objetivo de um teste de hipoacutetese eacute avaliar a validade de uma afirmaccedilatildeo sobre determinada
caracteriacutestica da populaccedilatildeo usando para isso os dados de uma amostra Essa caracteriacutestica eacute
representada pela va contiacutenua X cujo comportamento probabiliacutestico eacute expresso pela funccedilatildeo dedensidade f com paracircmetro Ө que tem valor desconhecido
Em um teste existem duas hipoacuteteses envolvidas H0 denominada hipoacutetese nula e H1
denominada hipoacutetese alternativa O procedimento de teste de hipoacutetese consiste em estabelecer
um criteacuterio de decisatildeo que leve a Aceitar ou Rejeitar H0 com base nos valores amostrais
A Estatiacutestica de teste eacute uma funccedilatildeo da amostra aleatoacuteria utilizada para definir o criteacuterio de
decisatildeo Estabelecer o criteacuterio de decisatildeo consiste em dividir o conjunto dos valores possiacuteveis
da estatiacutestica de teste em duas partes denominadas Regiatildeo de Aceitaccedilatildeo A e Regiatildeo de
Rejeiccedilatildeo R da hipoacutetese nula
Em um teste de hipoacutetese haacute dois tipos possiacuteveis de erro de decisatildeo
Erro I - Rejeitar H0 quando H0 eacute verdadeira
Erro II - Aceitar H0 quando H0 eacute falsaAs probabilidades de ocorrecircncia dos erros satildeo α = P [ Erro I ] e β = P [ Erro II]
A probabilidade de erro I α eacute o niacutevel de significacircncia do teste cujo valor eacute arbitrado pelo
pesquisador deve ser pequena pois corresponde a probabilidade de um erro (005 ou 001)
O niacutevel criacutetico ou p-valor do teste eacute o menor valor de α para o qual ainda rejeitariacuteamos H0 de
acordo com os dados observados
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3861
CAP 3-b) ndash TH teste tttest(x y = NULL alternative = c(twosided less greater) mu = 0
paired = FALSE varequal = FALSE conflevel = 095 )
Procedimentos de teste de hipoacuteteses com niacutevel de significacircncia α e amostras de tamanho n
UmaAmostra
DuasAmostras
Obs Os testes acima satildeo bilaterais
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3961
CAP 3ndashb) TH exemplo de teste t ndash amostras independentespag233- teste t amostras independente - comparaccedilatildeo log(salaacuterio)
entre os grupos de comeacutercio e de serviccedilo
LogSal=c(1289156912501344145616361573171309060903
0977122011031069128714101496131113371366
1227119114591280115217401649176524101701
1538192419251721154918911534163812071682
120614232010143112651570)
Sal=exp(LogSal)
setor= c(rep(C23) rep(S23))
ttest(Sal[setor==C] Sal[setor==S] varequal=T)
Two Sample t-test
data Sal[setor == C] and Sal[setor == S]
t = -36822 df = 44 p-value = 00006289
alternative hypothesis true difference in means is not equal to 095 percent confidence interval
-23079005 -06751838
sample estimates
mean of x mean of y3786010 5277552
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4061
CAP 3ndashb) TH exemplo de teste t ndash amostra pareadapag237- teste t pareado
P1=c(6315596455545480598065203660986853
8765647785536980827184605572645564)
P2=c(3638306043466455604343523428837155
8238556767443459605968506254473652)
ttest(P1 P2 alt=greater paired = T)
Paired t-test
data P1 and P2
t = 44176 df = 33 p-value = 5072e-05
alternative hypothesis true difference in means is greater than 0
95 percent confidence interval
0716695 Inf
sample estimates
mean of the differences
1161765
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4161
CAP 3ndashb) TH exemplo de teste Quiquadrado chisqtest
pag233- teste Quiquadrado -
tcont=matrix(c(683585251530258 7461761220225) 72)
chisqtest(tcont)
Pearsons Chi-squared test
data tcont- = = - lt -
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4261
CAP 3ndashb) TH exemplo de teste Quiquadrado chisqtestaov(formula data = NULL )
pag244- ANOVA - Comparaccedilatildeo de trecircs raccedilotildees para suinos
A=c(444943514475425134305342453630
322133421040395246294247453959)
B=c(343640545953445432686954414647
6566455739)
C=c(574040364566395025212927283942
21304143294244582849)
aumentoP=c(ABC)
racao=c(rep(A30)rep(B20) rep(C25))
summaryaov(aov(aumentoP ~ racao))
Df Sum Sq Mean Sq F value Pr(gtF)racao 2 15385 7693 56136 0005425
Residuals 72 98666 1370
---
Signif codes 0 lsquorsquo 0001 lsquorsquo 001 lsquorsquo 005 lsquorsquo 01 lsquo rsquo 1
Warning message
In modelmatrixdefault(mt mf contrasts)
variable racao converted to a factor
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4361
ApecircndicesA-1) Apresentaremos aqui algumas figuras
feitas no R na elaboraccedilatildeo do livro
Achamos que o exame desses coacutedigos acompanhado dos resultados podeser um bom aprendizado um exerciacutecio ou talvez uma recordaccedilatildeo do materialaqui exposto
A-2) Resumo de comandosa) Criaccedilatildeo de dados
b) Informaccedilatildeo de uma Variaacutevel
c) Seleccedilatildeo de dados e manipulaccedilatildeo
d) Estatiacutesticas e operaccedilotildees matemaacuteticas
e) Corte e extraccedilatildeo de dados
f) Operaccedilatildeo com Matrizes
g) Graacuteficos (Plotting)
h) Teste de hipoacuteteses
i) Programming
j) Commandos auxiliaries em Graacuteficos
k) Comando par (Graphical parameters)
l) Input and output
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4461
A1) ndash Pag 14 ndash Figura 15
IDADE=c(616961716371726866697267636663636067716360696463667164706366646969646372736871726968687379)
IMC= c(245273281301254301280234268228255228235232203226239243271227237258213243243248219234216214221227227211268278275267286253239258247284235)
par(mfrow=c(12))hist(IDADE breaks=c(6065707580) ylim=c(020) ylab=Nuacutemero de Observaccedilotildees
main= col=grey right = F)hist(IMC breaks=c(200225250275300325)
ylab=Nuacutemero de Observaccedilotildeesmain= col=grey right = F )
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4561
A1) ndash Pag 44 ndash Figura 21
mat=matrix(c(81823913601818608740)32)
rownames(mat)=c(AtivaSedentaacuteriaTotal)colnames(mat)=c(NormalSobrepeso)barplot(t(mat) beside = TRUE space=c(315)
col=gray(c(79))legend = c(NormalSobrepeso) ylim = c(0 95) ylab= - percentagem)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4661
A1) ndash Pag 48 ndash Figura 22
mat= matrix(c(68154510 66214215 66242519 39161711)44byrow=T)
rownames(mat)=c(18 a 21 anos 22 a 25 anos 26 a 30 anos 31 a 40 anos)colnames(mat)=c(CinTeatSMDEx)mat1=mat for (i in 14) mat1[i]lt-mat1[i]100sum(mat1[i]) par(mfrow=c(12) mai=c(1111) mar=c(5 4 2 2) )barplot(matbeside=F ylim=c(0250) legend = c(18 a 21 anos 22 a 25 anos
26 a 30 anos 31 a 40 anos) xlab=Contagem)
barplot(mat1 beside=F xlab=Percentagem)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4761
A1) ndash Pag 52 ndash Figura 25X= c(184114821789235159118762592403190408372147328526471687
09642871437079238215753399242122530314859149806)y =c(01837012540193301620014230140604568022870231400861019960235302186012798991801254018210244160823
0147764068011818941403474539680150133247023685518102146187520214097090257291227
036282905401406510810113849399)plot(x y xlim=c(07) ylim=c(05) pch=16 bty=l xlab=Renda per capita
ylab=Telefonia Fixa per capita)
abline(lsfit(xy))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4861
A1) ndash Pag 109 ndash Figura 45
x=020
y1=dpois(x1) y2=dpois(x3) y3=dpois(x10)names(y1)=x names(y2)=x names(y3)=xpar(mfrow=c(13))plot(y1ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=1)plot(y2ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=3)plot(y3ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=10)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4961
A1) ndash Pag 118 ndash Figura 412
x=seq(010001)
plot(xdexp(x 12) type=l xlim=c(012) ylim=c(01) bty=l ylab=f(x) eF(x))for(i in seq(0 25 001)) segments(i 0 i dexp(i12) col=lightgrey)abline(v=0 h=0)points(xdexp(x 12) type=l lwd=2 bty=l)points(xpexp(x 12) lwd=2 type=l)segments(250 25pexp(2512))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5061
A1) ndash Pag 163 ndash Figura 68
plot(p xlim=c(618) ylim=c(016) type=n bty=l xaxt=n xlab= ylab=
cexaxis=6)for (i in 1015) rect(i-50 i+5 dbinom(i304) col=lightgrey) lty=2)segments(i0idbinom(i304) lty=2)
x=seq(61801) lines(x dnorm(x12sqrt(72)) lwd=2)x=seq(61801) lines(x dnorm(x12sqrt(72)) lwd=2)
axis(1 916 cexaxis=9) ax s seq cexax s=
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5161
A1) ndash Pag 198 ndash Figura 78
x1=seq(-4402)plot(x1dnorm(x1) type=l lwd=3 xlab= ylab= )lines(x1 dt(x11)) lines(x1 dt(x12)) lines(x1 dt(x15))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5261
A2ndashResumo de comandos
a)Criaccedilatildeo de dados
c()funccedilatildeo geneacuterica para combinar argumentos com o formando de um vetor fromto gera uma sequecircnce ldquordquo tem prioridade de operator pe13 + 1 is ldquo234rdquo
seq(fromtoby) gera uma sequecircncia by= especifica incremento
length= especifica um comprimento desejado
rep(xtimes) replicate x onuacutemero times de vezes use each= para repetir cada
elemento de x rep(c(123)2) gera 1 2 3 1 2 3 rep(c(12)each=2) gera 1 1 2 2
matrix(xnrow=ncol=) matrix elementos de x se reciclam caso x
rbind()combina vetores em linhas num estrutura de matrizes de dados
cbind()combina vetores em colunas num estrutura de matrizes de dados
array(xdim=) matriz com dados x especificar dimensotildees como dim=c(342)
elementos de x se reciclam caso x natildeo seja suficientemente grande
factor(xlevels=) codifica um vetor x como um fator gl(nklength=nklabels=1n) gerar niacuteveis (fatores) especificando
o padratildeo de seus niacuteveis k eacute o nuacutemero de niacuteveis e n eacute o nuacutemero de repeticcedilotildees
dataframe() criar um banco de dados Por exemplo
dataframe(v=14ch=c(gBcasad)n=5)
list()criar uma lista de argumentos Por exemplo list(a=c(12)b=hic=3i)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5361
A2ndashResumo de comandos
b) Informaccedilatildeo de uma Variaacutevellength(x) nuacutemero de elementos em x
dim(x) Obter ou definir a dimensatildeo de um objeto dim (x) = c(32)dimnames(x) Obter ou definir os nomes das dimensotildees de um objeto
nrow(x) nuacutemero de linhas
ncol(x) nuacutemero de colunas
c) Seleccedilatildeo de dados e manipulaccedilatildeochoose(n k) calcula a combinaccedilatildeo de elementos escolhidos entre n
resultando n [(n-k) k]
cut(xbreaks) divide x em intervalos (fatores) breaks eacute o nuacutemero de intervalos de
corte ou um vetor com os valores especiacuteficos
table(x) retorna uma tabela com as quantidades dos diferentes valores de x
(tipicamente para variaacuteveis dos tipos inteiros ou fatores)
sample(x size) retira aleatoriamente com e sem reposiccedilatildeo elementos detamanho SIZE do vetor x a opccedilatildeo replace = TRUE permite a retirada com reposiccedilatildeo
proptable(xmargin=) transforma a tabela como tabela de propoccedilatildeo
marginal margin=1 (com relaccedilatildeo as linhas) margin=2 (com relaccedilatildeo as colunas)
sort(x) Classifica os elementos de x em ordem crescente para classificar em ordem
decrescente rev(sort(x))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5461
A2ndashResumo de comandosd) Estatiacutesticas e operaccedilotildees matemaacuteticasmean(x) media dos elementos de x
median(x) mediana dos elementos de x
quantile(xprobs=) quantis de x correspondendo a uma dada probabilidadevar(x) ou cov(x) variacircncia dos elementos de x (calculado com n-1)
se x eacute uma matriz a matriz de covariacircncia eacute calculada
sd(x) desvio padracirco de of x
cor(x) matriz de correlaccedilatildeo de x se x for uma matriz ou (1 se x eacute um vector)
cor(x y) correlaccedilatildeo linear entre X e Y ou matriz de correlaccedilatildeo se eles satildeo matrizes
round(x n) arredonda os elementos de x para n casas decimais sum x soma os e emen os e x
prod(x) multilica os elementos de x
max(x) acha o maacuteximo dos elementos de x
min(x) acha o miacutenimo dos elementos de x
range(x) equivalente a c(min(x)max(x)
cumsum(x) um vetor onde o eacutesimo elemento eacute a soma de x[1] ateacute x[i]cumprod(x) um vetor onde o eacutesimo elemento eacute o produto de x[1] ateacute x[i]
cummin(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
cummax(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
sincostanasinacosatanatan2loglog10exp)
log(x base) calcula o logaritmo de x na base=base
weightedmean(x w) media ponderada de x com peso= w
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5561
A2ndashResumo de comandos
e) Corte e extraccedilatildeo de dadosindexaccedilatildeo de Vetores
x[n] n-eacutesimo elemento do vetor
x[-n] todos menos o n-eacutesimo elemento
x[1n] os primeiros n elemento
x[-(1n)] elementos de n+1 ateacute o final
x[c(432)] elementos especificados
x[y gt 5] todo elementos de onde os valores de y satildeo maiores que 5
x x gt 3 amp x lt 5 todo elementos entre 3 e 5
x[nome] elemento denominado nome
indexaccedilatildeo de Matrizes
x[ij] elemento na linha i coluna j
x[i] linha i
x[j] coluna j
x[c(13)] colunas 1 and 3
x[nome] linha nomeada nome
indexaccedilatildeo de data frames
x[[nome]] coluna chamada nome
x$nome equivalente a coluna chamada nome
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5661
A2ndashResumo de comandos
f) Operaccedilatildeo com Matrizest(x) transposta da matrix x
diag(x) retira a diagonal da matrix x
multiplicaccedilatildeo matricial
solve(ab) resove a equaccedilatildeo a x = b em relaccedilatildeo a x
solve(a) matriz inversa de a
rowSum(x) soma das linhas da matrix x
colSum(x) soma das colunas da matrix x
rowMeans x meacutedia das linhas da matrix x
colMeans(x) id meacutedia das colunas da matrix x
g) Graacuteficos (Plotting)plot(x y) diagrama de disperccedilatildeo plot dos pares (xy) num sistema de eixos
coordenadoshist(x) histogram dasfrequecircncias of x
barplot(x) graacutefico de barras of x usar horiz=T ara barras horizontal
pie(x) graacutefico de setores (pie-chart)
boxplot(x)
qqnorm(x) quantis de x em relaccedilatildeo aos valores esperados de uma dist Normal
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5761
A2ndashResumo de comandosparametros dos commando de Graacutefico
type=p especifica o tipo de plot p pontos l linhas b pontos
ligados por linhas o idecircntico mas as linhas passam sobre os pontos h
linhas verticais s escada (steps) os dados satildeo representados pelas alturasverticais
xlim= ylim= especifica os limites inferiores e superiores dos eixos por exemplocom xlim=c(1 10) ou xlim=range(x)
xlab= ylab= nomeia os eixos o nome deve ser do tipo caracter
main= tiacutetulo principal deve ser do tipo caracter
sub= sub-tiacutetulo (escrito em fonte menor)
podem ser usados como bty(tipo de caixa) lwd (lagura da linha) lty (tipo delinha) pch(tipo de ponto) cex xaxs yaxs xaxtyaxt
h) Teste de hipoacuteteses
ttest()proptest()
chisqtest()
aov(formula) analysis of variance model
anova(fit) analysis of variance (or deviance) tables for one or more
fitted model objects
Use o commando gt test para procurar todos os testes disponiacuteveis
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5861
A2ndashResumo de comandos
i) Programmingfunction( arglist ) expr para definer uma funccedilatildeo
return(value)
if(cond) expr
if(cond) consexpr else altexpr
for(var in seq) expr
while(cond) expr
re eat ex r
break
Usar chaves entre commandos dlimitando o iniacutecio e o fim de um grupo decomandos
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5961
A2ndashResumo de comandos
j) Commandos auxiliaries em Graacuteficospoints(x y) adiciona pontos (a opccedilatildeo type= pode ser usada)
lines(x y) adiciona linhas (a opccedilatildeo type= pode ser usada)text(x y labels ) adiciona texto na coordenada (xy) um uso tiacutepico eacute
plot(x y type=n) text(x ynames)
segments(x0 y0 x1 y1) desenha linhas do ponto (x0 y0) ao (x1 y1)
arrows(x0 y0 x1 y1 angle= 30 code=2) desenha seta do ponto
(x0 y0) ao (x1 y1)
abline(ab) desenha uma reta de inclinaccedilatildeo b e intercepto a
abline(v=x) desenha uma reta vertical em x
abline(lsfit(xy)) desenha uma reta da regressatildeo feita em lsfit(xy)
rect(x1 y1 x2 y2) desenha um retacircngulo que a esquerda inferior tem coordenadas(x1 y1) e o limite da direita superiores (x2 y2)
polygon(x y) desenha um poliacutegono que une os pontos com coordenadas X e Y
legend(x y legend) Acrescenta a lenda no ponto (x y) com os siacutembolos
dada pela legend
title()adiciona um tiacutetulo e opcionalmente um sub-tiacutetulo
axis(side) acrescenta um eixo na parte inferior (side = 1) agrave esquerda (2) na partesuperior (3) ou agrave direita (4)
box()desenhar uma caixa em torno do plot
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6061
A2ndashResumo de comandos
k) Comando par (Graphical parameters)Todos estes comando podem ser definidos a niacutevel global com o par () que
especifica os paracircmetros mas tambeacutem muitos podem ser usados comoparametros dos commando de Graacutefico
mfcol vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em colunas
mfrow vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em linhas(matrix for row)
bty controla o tipo de caixa desenhada ao redor do enredo valores permitidos satildeo
o l 7 c u ou se bt =n a caixa natildeo eacute desenhada
lty controla o tipo de linhas pode ser um inteiro ou string (1 solid 2 dashed 3dotted 4 dotdash 5 longdash 6twodash) ou uma string de ateacuteoito caracteres (entre 0 e 9) que especifica o comprimento em pontos oupixels dos elementos desenhados e os espaccedilos em branco por exemplolty=rdquo44rdquo equivale a lty=2
lwd nuacutemero que controla a largura das linhas default 1pch controla o tipo de siacutembolo pode tambeacutem ser um nuacutemero inteiro entre 1 e 25
ps um inteiro que controla o tamanho em pontos de textos e siacutembolos
pty um caracter que especifica o tipo da regiatildeo s quadrado m maacuteximal
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6161
A2ndashResumo de comandos
l) Input and outputreadtable(file) lecirc um arquivo em formato de tabela e cria um quadro de dados a
partir dele o separador default = eacute espaccedilo em branco header = TRUE ler a
primeira linha como um cabeccedilalho de nomes de coluna asis = TRUE paraevitar aque um vetore de caracteres seja convertido em factores usocommentchar = para evitar seja interpretado como um comentaacuteriouso skip = n para pular n linhas antes da leitura de dados consulte a ajudapara as opccedilotildees de linha de nomeaccedilatildeo o tratamento NA e outros
readcsv(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por viacutergulas
readdelim(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por tabulaccedilotildees
readfwf(filewidthsheader=FALSEsep= asis=FALSE)
ler uma tabela de dados em formato fix de largura m para um dataframe widthseacute um vetor inteiro informando os tamanhos dos campos
sink(file) saiacuteda de todos os comandos para um arquivo ateacute aparecer um comando
sink () que desliga writetable(x file=rownames=Tcolnames=Tsep= ) imprime x apoacutes a
conversatildeo para banco de dados
save(file) guarda os objetos especificados () no formato XDR
load()carregar o conjunto de dados salvos com o comando save
data(x) carrega um conjunto de dados especificado
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 961
Pag 48 ndash Figura 22
mat= matrix(c(68154510 66214215 66242519 39161711)44byrow=T)
rownames(mat)=c(18 a 21 anos 22 a 25 anos 26 a 30 anos 31 a 40 anos)colnames(mat)=c(CinTeatSMDEx)
mat1=proptable(mat 2)
par(mfrow=c(12) mai=c(1111) mar=c(5 4 2 2) )
barplot(matbeside=F ylim=c(0250) legend = c(18 a 21 anos 22 a 25 anos
26 a 30 anos 31 a 40 anos) xlab=Contagem)
barplot(mat1 beside=F xlab=Percentagem)
Cap1-AED ndash ex barplot (beside=F)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1061
Pag 44 ndash Figura 21
mat=matrix(c(81823913601818608740)32)
rownames(mat)=c(AtivaSedentaacuteriaTotal)
colnames(mat)=c(NormalSobrepeso)
barplot(t(mat) beside = TRUE space=c(315)
col=gray(c(79))
legend = c(NormalSobrepeso) ylim = c(0 95) ylab= - percentagem)
Cap1-AED ndash ex barplot (beside=T)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1161
Para as variaacuteveis quantitativas os mais usados satildeo os Histogramas e os Diagramas Ramo-folhascujos comandos satildeo gthist(x) gt stem(x) Existe tambeacutem um comando chamado gtcut
que classifica uma variaacutevel numeacuterica Os principais argumentos do comando hist satildeo
hist(x breaks= freq =NULL right=T col=NULL main=xlim=range(breaks) ylim=NULL xlab=xname ylab) Onde
x a variaacutevel numeacuterica a ser discretizada (argumento obrigatoacuterio)
breaks vetor com os limites das classes
freq variaacutevel loacutegica se T (True) corresponde agrave contagem de cada classe se F (False) equivale adensidade de probabilidade a aacuterea total sob a curva (retacircngulos) teria soma 1
right variaacutevel loacutegica se T as classes satildeo fechadas agrave direira se F satildeo fechadas agrave esquerda
Cap1ndashAED stem cut table
main tiacutetulo principal
xlab e ylab roacutetulos dos eixos x e y respectivamente
xlim e ylim Dois valores limites para o graacutefico de cada uma das variaacuteveis
cut(x breaks right = T ) Onde
x a variaacutevel numeacuterica a ser discretizada (argumento obrigatoacuterio)breaks vetor com os limites das classes
right variaacutevel loacutegica se T as classes satildeo fechadas agrave direira se F agrave esquerda
stem(x hellip)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1261
Exemploda pag 15 ndash Figura 18
gt nt=c(18381254193316214231406456822872314
8611996235321861281254244214781182
347515012369214621412573362814071138) digitaccedilatildeo de nt
gt hist(nt breaks=c(50100150200250300350400450500) right=T
main=Histograma Telefonia fixa per capita
xlab=N linhas1000hab ylab=N de obs xlim=c(0500) ylim=c(010) col=grey) histograma da variavel gt
Cap1-AED hist
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1361
Exemploda pag 15 ndash Figura 18
gt nt=c(18381254193316214231406456822872314
8611996235321861281254244214781182
347515012369214621412573362814071138) digitaccedilatildeo de nt
gt stem(trunc(nt10)) o ramo a centena e a folha as dezenas
0 | 8
1 | 1122244441 | 5689
Cap1 AED ndash ex stem table cut
2 | 011123334
2 | 5
3 | 4
3 | 6
4 |
4 | 5
gt table(cut(nt breaks=c(50100150200250300350400450500) right=F))
[50100) [100150) [150200) [200250) [250300) [300350) [350400) [400450) [450500)
1 9 5 8 1 1 1 0 1
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1461
Para uma dada variaacutevel quantitativa uma medida de centralidade eacute um ldquovalor tiacutepicordquo em torno doqual se situam os valores daquela variaacutevelAs medidas de centralidade mais conhecidas satildeoa meacutedia aritmeacutetica e a mediana Usar os comando mean(x) median(y) Por exemplo
gt mean(nt)[1] 2001852gt median(nt)[1] 193Uma medida de localizaccedilatildeo eacute o quantil A funccedilatildeo apropriada do R para obter os quantis de um
vetor numeacuterico x eacute a funccedilatildeo gt quantile(x)Se desejarmos determinar os trecircs quartis usariacuteamos
o comando quantile(xc(02505075))
Se desejarmos o quinto o deacutecimo e o nonageacutesimo percentis usariacuteamos o comandogt quantile(xc(05010090))
Cap1-AED Medidas (estatiacutesticas)
O comando quantile(xp) retorna o quantil de ordem p das observaccedilotildees de x podendo p ser
um vetor Por exemplo
gt quantile(nt c(20 50 95))
20 50 95
1306 1930 3582
Uma medida de dispersatildeo para uma variaacutevel quantitativa eacute um indicador do grau de espalhamento
dos valores da amostra em torno da medida de centralidade As medidas de dispersatildeo mais
conhecidas satildeo a variacircncia o desvio-padratildeo e a distacircncia interquartil=diferenccedila entre o terceiro
e o primeiro quartis
gt var(nt)
[1] 7131464
gt sd(nt)
[1] 84448
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1561
gt q=fivenum(nt) q[4]-q[2] em q estatildeo os 5 nuacutem Subtraiacutemos o Q3 do Q1[1] 92
Os cinco valores x(1) Q1 Q2 Q3 x(n) miacutenimo os trecircs quartis e o maacuteximo satildeoimportantes para se ter uma boa ideacuteia da assimetria dos dados Esse valores podem serobtidos pelo comando fivenum(x) O summary(x) acrescenta tambeacutem a meacutedia ao resultado
Por exemplogt fivenum(nt)[1] 86 141 193 233 457gt summary(nt)
Min 1st Qu Median Mean 3rd Qu Max
860 1410 1930 2002 2330 4570
Cap1-AED IEQ fivenum boxplot
O Box Plot ou Desenho Esquemaacutetico eacute um graacutefico que se costuma utilizar para sintetizarem uma mesma figura vaacuterias informaccedilotildees relativas agrave distribuiccedilatildeo de uma determinadavariaacutevel quantitativa Nele tambeacutem satildeo representadas as observaccedilotildees discrepantesObservaccedilotildees discrepantes ou outliers satildeo observaccedilotildees cujos valores estatildeo muito afastadosdos demais (para mais ou para menos) Essas observaccedilotildees podem afetar de formasubstancial o resultado das anaacutelises estatiacutesticas O comando para usar-lo eacute boxplot(x)
Por exemplo ver fig 125 pag 28gt nt=c(18381254193316214231406456822872314
8611996235321861281254244214781182347515012369214621412573362814071138) digitaccedilatildeo de nt
gt boxplot(nt ylim=c(50500)xlab=N linhas1000hab)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1661
Quando se deseja investigar a relaccedilatildeo entre duas variaacuteveis qualitativas o caminho natural eacutemontar uma tabela de contingecircncia Construir uma tabela de contingecircncia consiste emcolocar nas linhas os valores possiacuteveis de uma variaacutevel e nas colunas os valores possiacuteveis
cruzamentoO comando para fazer a tabela seria gttable(xy)Por exemplogt tab12=readtable(fSBPO2010Rtab1_2txt header = T sep = )gt attach(tab12)
gt table(CATEG Classe_IMC)Classe_IMC
CATEG normal sobrepesoA 18 4
Cap1-AED Relaccedilatildeo entre duas variaacuteveis Qualitativas
Para analisar a relaccedilatildeo entre 2 variaacuteveis atraveacutes de uma tabela de contingecircncia umprocedimento muito uacutetil eacute calcular os percentuais em relaccedilatildeo aos totais das linhas etambeacutem os percentuais em relaccedilatildeo aos totais das colunas Os comandos seriamproptab(x1) para linha e proptab(x2) para coluna Por exemplo usando a tabela 25paacutegina 46
gt mat= matrix(c(68154510 66214215 66242519 39161711)44byrow=T)gt rownames(mat)=c(18 a 21 anos22 a 25 anos26 a 30 anos31 a 40 anos)gt colnames(mat)=c(CinTeatSMDEx)gt mat1=proptable(mat 1) por linha tab 27gt mat2=proptable(mat 2) por coluna tab 28
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1761
Cap1-AED Relaccedilatildeo entre duas variaacuteveis QuantitativaQuando se deseja investigar a relaccedilatildeo entre duas variaacuteveis quantitativas o mais adequado eacutecomeccedilar pela construccedilatildeo de um Diagrama de Dispersatildeo Construir um diagrama de
dispersatildeo para 2 variaacuteveis quantitativas X e Y consiste em localizar pares de valoresobservados (xi yi ) como pontos em um sistema de eixos coordenados O camando seriaplot(xy)Por exemplogtx=c(12345) y=c(11224) plot(xy)
Um indicador do grau de interdependecircncia linear para 2 variaacuteveis quantitativas X e Y eacute ocoeficiente de correlaccedilatildeo rxy que pode assumir qualquer valor real entre -1 e 1 Ocoeficiente de correlaccedilatildeo entre X e Y eacute calculado por uma das duas expressotildees
matemaacuteticas (equivalentes) a seguir
O comando seria cor(xy) Por exemplogtx=c(12345) y=c(11224) cor(xy)
[1] 09036961
sum sum
sum
sumsum
sum
= =
=
=
=
sdotminussdotminus
sdotsdotminus
=
minussdotminus
minusminus
=n
1i
n
1i
1222
i
22
i
n
1i
ii
122
i
2
i
n
1i
n
1i
ii
xy
)yny)(xnx(
yxnyx
)y(y)xx(
)y)(yx(x
r
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1861
Cap1-AED Relaccedilatildeo entre duas variaacuteveis Quantitativa
bull Quando se verifica atraveacutes do coeficiente de correlaccedilatildeo (ou pelo aspecto visual doDiagrama de Dispersatildeo) que existe uma forte relaccedilatildeo linear entre 2 variaacuteveis X e Y
pode ser de interesse calcular a equaccedilatildeo da reta que representa esta relaccedilatildeo entre as2 variaacuteveis y = a + bx A equaccedilatildeo y = a + bx considera que y eacute a variaacutevel dependente(ou variaacutevel resposta) e que x eacute a variaacutevel independente (ou variaacutevel preditora) a serusada para explicar o comportamento da variaacutevel y A equaccedilatildeo da reta pode ser usadapara se antever qual seria o valor y0 da variaacutevel resposta y correspondente a umdeterminado valor x0 da variaacutevel preditora x
bull As foacutermulas que nos permitem calcular os valores de a e b a partir dos dados satildeo
yxn
n
i
n
i sumsum
O coeficiente b mede a inclinaccedilatildeo da reta de Regressatildeo Entatildeo ao passarmos de um pontoa outro sobre a reta b mede a relaccedilatildeo entre as variaccedilotildees de y e de x O coeficiente a medeo valor de y quando x eacute igual a zero ou seja eacute o intercepto da reta de Regressatildeo
O comando para calcular os coeficientes a e b seria gt lsprint(lsfit(xy))gtx=c(12345) y=c(11224)gtreg=lsfit(xy)gtlsprint(reg)
n
x
x
nyx
b2
n
1i
in
1i
2
i
1i
ii
minus
minus
=
sumsum =
=
=
==
x bya sdotminus=e
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1961
Cap 2-a Simulaccedilatildeo do conceito frequumlentistaConceito Frequumlentista de Probabilidade Suponha que o experimentofoi repetido n vezes sempre sob as mesmas condiccedilotildees e que o evento Aocorreu m vezes entre essas n realizaccedilotildees do experimento Entatildeoa fraccedilatildeo mn eacute uma boa aproximaccedilatildeo para a probabilidade de Ase o nuacutemero n de repeticcedilotildees for bastante grande
Simbolicamente P (A) congcongcongcong mn
Exemplo Simulando 100 lanccedilamentos de uma moedaNo R foram simulados 100 lanccedilamentos de uma moeda equilibrada isto eacute
onde as chances de cara e de coroa satildeo iguais Depois de cadalanccedilamento foi observado o nuacutemero acumulado de caras obtidas ateacute essemomen o e o ca cu a a a proporccedil o e caras correspon en e a a e a aseguir estatildeo apresentados os valores correspondentes ao nuacutemeroacumulado de caras ao longo do processo Por exemplo para a jogada denuacutemero 29 o nuacutemero acumulado de caras eacute 13 e a fraccedilatildeo de caras eacute 1329O graacutefico abaixo mostra a evoluccedilatildeo dessa fraccedilatildeo agrave medida que foramfeitos os 100 lanccedilamentos da moeda
Os comandos no R para a elaboraccedilatildeo do graacutefico
gtx=1100 y=cumsum(sample(01100rep=T))gtplot(xy1100 ylim=c(01) xlim=c(0100) pch=16)gtsegments(10510005)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2061
Cap 2-b Variaacuteveis Aleatoacuterias (va)Uma variaacutevel aleatoacuteria (va) eacute uma funccedilatildeo que associa cada elemento de um
espaccedilo amostral a um nuacutemero real As variaacuteveis aleatoacuterias podem ser do
tipo
Discreto se os seus valores pertencem a um conjunto enumeraacutevel de nuacutemerosreais (usualmente valores inteiros)
Contiacutenuo se os seus valores pertencem a um intervalo de nuacutemeros reais
O modelo probabiliacutestico de uma variaacutevel aleatoacuteria X estabelece o padratildeo de
comportamento de sua distribuiccedilatildeo de probabilidadeA fun atildeo de robabilidade de uma v a discreta X eacute definida orp(x)=P[X=x]
A funccedilatildeo de distribuiccedilatildeo acumulada F de uma v a X eacute definida porF(x) = P[Xlelelelex]
Se X eacute uma va discreta que assume os valores x 1
x 2
x 3
x N
entatildeo
bull A meacutedia ou esperanccedila de X eacuteE(X) = x 1 P(X=x 1 ) + x 2 P(X=x 2 ) + x 3 P(X=x 3 ) + + x N P(X=x N )
bull A Variacircncia de X eacute calculada por |Var(X)=(x 1 ndashE(X))2 P(X=x 1 )+(x 2 ndashE(X))2 P(X=x 2 )++(x N ndashE(X))2 P(X=x N )
bull O desvio padratildeo de X eacute igual agrave raiz quadrada natildeo negativa da suavariacircncia DP(X)= Var(X)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2161
Cap 2-b - va e o RO trabalho no R com uma va X estaacute baseado em 4 procedimentos
p probability ndash Gera a probabilidade de um valor de xq quantile ndash Gera o valor x de uma dada probabilidade acumulada pd density ndash Gera o valor da funccedilatildeo densidade num valor x da variaacutevel
Observar que quando a variaacutevel eacute discreta este valor eacute aprobabilidade de x quando a variaacutevel eacute contiacutenua o resultadoeacute a altura da funccedilatildeo densidade de probabilidade
r random ndash Gera n valores do modelo probabiliacutestico em questatildeo
As distribuiccedilotildees que estudaremos estatildeo listadas a seguir depois de cada uma delasentre parecircnteses estaacute o nome no R
(geom) Binomial negativa- Pascal (nbinom)
Entre as contiacutenuas Uniforme (unif ) Exponencial (exp) Normal (norm) t-student (t)quiquadrado (chisq) F (f )
A interligaccedilatildeo dos trecircs primeiros procedimentos pq e d seraacute ilustrada pela distribuiccedilatildeoNormal atraveacutes do graacutefico abaixo
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2261
Cap 2-b - va pnorm e qnormSeja a relaccedilatildeo p = P(Xltx) que aparece na tabela da distribuiccedilatildeo Normal Quiquadrada
t-student e F Para um dado valor de p acha-se um valor de x a procura direta que para aNormal no R corresponderia a pnorm(x 983221 σ) Neste caso devo informar o x e os dois
paracircmetros da distribuiccedilatildeo Normal 983221 e σJaacute a procura inversa seria para um dado valor de x achar um valor de p que para a Normalno R corresponderia a qnorm(p983221σ) Neste outro caso devo informar o valor de p desejado etambeacutem os dois paracircmetros da distribuiccedilatildeo Normal 983221 e σ
Exemplo Seja X a va que corresponde ao peso (em kg) de pessoas de uma certapopulaccedilatildeo com meacutedia 983221=70 Kg e desvio padratildeo σ=8 Kg assim X~ N(983221=70 σ2=82)
Se desejarmosa) P(Xlt80) usaremos no R o comando pnorm(80 70 8) isto eacute x=80 eacute o primeiro paracircmetroenquanto 70 e 8 satildeo paracircmetro especiacuteficos da distribuiccedilatildeo Normal
b) Admita que o peso limite para ser classificado como obeso eacute o valor que corresponde a10 dos mais pesados do populaccedilatildeo Achar este peso limiteO que se pede eacute a funccedilatildeo inversa Dado um valor de p=090 achar um valor de x que deixa90 abaixo dele No R seria qnorm(09 70 8) isto eacute o valor da probabilidade p=09 eacute
o primeiro paracircmetro enquanto 70 e 8 satildeo paracircmetros especiacuteficos da distribuiccedilatildeo NormalSe usarmos a Normal padratildeo z=(x-983221)σ no caso do item a o comando seria pnorm((80-70)8)ou pnorm(125) Repare que neste caso natildeo foi necessaacuterio passar os paracircmetros especiacuteficos daNormal pois 983221=0 e σ =1 coresponde ao default Observaccedilatildeo Sempre que usarmos um p oprimeiro paracircmetro eacute um x e os outros satildeo especiacuteficos da distribuiccedilatildeo em questatildeosempre que usarmos um q o primeiro paracircmetro eacute um p e os outros satildeo especiacuteficosSempre que usarmos um d o primeiro paracircmetro eacute um x
Quando usarmos uma distribuiccedilatildeo discreta o d corresponde aacute probabilidade no ponto x
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2361
Pag 118 ndash Figura 412
x=seq(010001)
plot(xdexp(x 12) type=l xlim=c(012) ylim=c(01) bty=l ylab=f(x) e F(x))
for(i in seq(0 25 001)) segments(i 0 i dexp(i12) col=lightgrey)
abline(v=0 h=0)
points(xdexp(x 12) type=l lwd=2 bty=l)
points(x pexp(x 12) lwd=2 type=l)
segments(250 25pexp(2512))
Cap 2-b - va dexp pexp points segments
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2461
Cap 2-b - va disponiacuteveis no Rrbinom(n size prob) binomialrpois(n lambda) Poissonrgeom(n prob) geometricarhyper(nn m n k) hipergeometricarnbinom(n size prob) binomial negativarunif(n min=0 max=1) uniformerexp(n rate=1) exponentialrnorm(n mean=0 sd=1) Gaussiana (normal)rt(n df) lsquoStudentrsquo (t )rf(n df1 df2) FisherndashSnedecor (F )
rchisq(n df) Quiquadradar amma n sha e scale=1 amma rbeta(n shape1 shape2) betarlnorm(n meanlog=0 sdlog=1) lognormalrcauchy(n location=0 scale=1) Cauchyrweibull(n shape scale=1) Weibullrwilcox(nn m n) Wilcoxonrsquos rank sum statistics
rsignrank(nn n) Wilcoxonrsquos signed rank statisticsrlogis(n location=0 scale=1) logistic
Todas essas distribuiccedilotildees apresentadas por rnome (nome da variaacutevel aleatoacuteria) como vimostrocando a primeira letra e mantendo os paracircmetros especiacuteficos de cada distribuiccedilatildeo(denotados por ) podem ser usadas substituindo a letra ldquor rdquo por
d valor da densidade de probabilidade no ponto x dnome (x )p probabilidade acumulada no ponto x pnome (x )
q quantil correspondente a probabilidade acumulada p dnome (p)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2561
Cap 2-c O Teorema Central do Limite (TCL)O Teorema Central do Limite (abreviadamente TCL) diz respeito ao comportamento da
meacutedia amostral agrave medida que o tamanho n da amostra cresce indefinidamente
Exemplo 31 ndash A distribuiccedilatildeo de renda e o TCLEacute um fato conhecido que a distribuiccedilatildeo da rendapessoal dos habitantes de um paiacutes eacuteusualmente muito desigual ou seja muitosganham pouco e poucos ganham muito Seforem sorteados 200 habitantes desse paiacutes e
com base nas suas rendas mensais
Agora se forem sorteadas 200 amostrascada uma delas contendo 2 habitantesdesse paiacutes e se forem calculadas as 200respectivas meacutedias amostrais a partir delas obteremos o histograma a seguir
Agora cada uma das 200 amostrassorteadas contendo 30 habitantes dessepaiacutes e se forem calculadas as 200 meacutediasamostrais o histograma seria
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2661
Cap 2-c ndash TCL ExemploComo pode ser observado no caso de n = 2 o histograma se aproxima mais de uma curvaNormal do que no caso de n = 1 E no caso de n = 30 a semelhanccedila do histograma com umacurva Normal eacute ainda maior
O Teorema Central do Limite afirma que independentemente de qual seja a
distribuiccedilatildeo original dos Xirsquos a distribuiccedilatildeo de probabilidade de e a
distribuiccedilatildeo Normal com meacutedia micromicromicromicro e variacircncia σσσσ2 n se aproximam cada vez
mais uma da outra agrave medida que n cresce
Portanto mesmo que a distribuiccedilatildeo de probabilidade dos Xirsquos seja desconhecida o Teorema
X n
Central do Limite garante a possibilidade de usarmos o modelo Normal para calcular ainda quede forma aproximada probabilidades relativas agrave meacutedia amostral desde que n sejasuficientemente grande
Exemplo 62 Simulando o efeito do TCL
Para ilustrar o funcionamento do Teorema Central do Limite vamos exibir agora um exemploem que a distribuiccedilatildeo original a partir da qual os dados satildeo gerados eacute uma exponencial modelo
este que daacute origem a uma funccedilatildeo densidade bastante assimeacutetrica (ao contraacuterio do que ocorre
com a curva Normal) A densidade de uma exponencial com paracircmetro eacute dada pela
expressatildeo
No R rexp(n ) simula n valores
λ
0 xλef(x) λx ge= minusλ
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2761
Cap 2-c ndash TCL ExemploA densidade de uma exponencial com paracircmetro eacute dada pela expressatildeo
Gerando dados por simulaccedilatildeo a partir de uma exponencial com λ = 13 para cada um dos
seguintes tamanhos n de amostra 1 2 3 4 5 10 15 e 201 Obtivemos 200 valores da meacutedia amostral 2 Utilizamos esses 200 valores para construir um histograma3 Traccedilamos no mesmo graacutefico uma curva da densidade Normal com E( )=3 e DP( )=3Xn
λ 0 xλef(x) λx ge= minus
Xn n
Os 8 histogramas nos mostram que agrave medida que o tamanho n da amostra cresce
a forma do histograma se aproxima cada vez mais de uma curva Normal
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2861
Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com
simulaccedilotildees - Exponencial
tclexp=function(n N=200 titulo= yl=c(0 4)) iniacutecio da funccedilatildeo ndash tclexpmedias=numeric(N)
for (i in 1N) medias[i]= mean(rexp(n13))
hist(medias xlim=c(-110) ylim=yl freq=F main=titulo)
x=seq(-110 02)
points(x dnorm(x 3 3sqrt(1n) ) type=l lwd=3)
fim da funccedilatildeo
graphicsoff()
par(mfrow=c(33) mai=c(3411))
tclexp(1titulo=n=1)
tclexp(2titulo=n=2)
tclexp(3titulo=n=3)
tclexp(4titulo=n=4)
tclexp(5titulo=n=5)
tclexp(6titulo=n=6)
tclexp(10titulo=n=10yl=c(06))
tclexp(15titulo=n=15yl=c(06))
tclexp(20titulo=n=20yl=c(06))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2961
Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com
simulaccedilotildees - Exponencial
Uma pergunta natural neste ponto serialdquoQuatildeo grande deve ser n para que possamos usar a aproximaccedilatildeo fornecida pelo
TCL com um niacutevel de precisatildeo aceitaacutevelrdquo
A rapidez com que essa convergecircncia se daacute depende de quatildeo distante estaacute a forma
da distribuiccedilatildeo original das Xirsquos de uma curva Normal Em outras palavras se a
distribuiccedilatildeo das Xirsquos jaacute natildeo for muito diferente de uma Normal com um n natildeo muito-
grande (usualmente n ge 30) a aproximaccedilatildeo da distribuiccedilatildeo de por uma Normal
funcionaria adequadamente
No exemplo a seguir vamos apresentar esse fenocircmeno a saber a convergecircncia da
distribuiccedilatildeo de para uma Normal agrave medida que n cresce gerando por simulaccedilatildeo osdados originais a partir de diferentes modelos probabiliacutesticos Em todos os casos a
distribuiccedilatildeo original eacute bem diferente da Normal E(X)=3 e DP(X)=3 No que se refere agrave
Simulaccedilatildeo foi seguida a mesma sequumlecircncia de passos do exemplo anterior
Xn
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3061
Cap 2-c ndash TCL Exemplo
Exponencial
Uniforme
Mistura deNormais
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3161
Como se pode observar
1 No caso da distribuiccedilatildeo uniforme (A) o histograma de jaacute se aproximabastante de uma Normal quando n eacute da ordem de 4
2 Jaacute no caso da distribuiccedilatildeo Exponencial (B) e da mistura de normais
(C) modelos esses que se afastam muito mais de umldquo rdquo
Cap 2-c ndash TCL Exemplo
mostra mais adequada a partir de n em torno de 10
3 No caso do modelo em (C) agrave medida que n cresce tudo se passacomo se houvesse a ldquoerupccedilatildeo de um vulcatildeo dentro do valerdquo
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3261
tclunif=function(nN=100titulo= yl=c(0 4))
medias=numeric(N)for (i in 1N) medias[i]= mean(runif(n 3-3sqrt(3) 3+3sqrt(3)))
hist(medias xlim=c(-610) ylim=yl freq=F main=titulo)
x=seq(-610 02)
points(x dnorm(x 3 3sqrt(1n) ) type=l lwd=3)
medias
Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com
as simulaccedilotildees - Uniforme
grap cso
par(mfrow=c(33) mai=c(3411))
tclunif(1titulo=n=1yl=c(06))
tclunif(2titulo=n=2yl=c(06))
tclunif(3titulo=n=3yl=c(06))
tclunif(4titulo=n=4yl=c(06))tclunif(5titulo=n=5yl=c(06))
tclunif(6titulo=n=6yl=c(06))
tclunif(10titulo=n=10yl=c(06))
tclunif(15titulo=n=15yl=c(06))
tclunif(20titulo=n=20yl=c(06))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3361
X2=c(rnorm(35011) rnorm(15081)) X2 eacute a Populaccedilatildeo de onde retiramos as amostras
br=seq(-2 12 5)
tcl2modas=function(nN=200titulo= yl=c(0 6)) medias=numeric(N)for (i in 1N) medias[i]= mean(sample(X2nrep=T))hist(mediasbreaks=br xlim=c(-212) tcl=-01 ylim=yl xarp=c(-31216)
tck=005 lab=c(5515) freq=F main=titulo)x=seq(-312 02)
Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com
as simulaccedilotildees - Mistura de Normais
points(x dnorm(x med dpsqrt(n) ) type=l lwd=2)
par(mfrow=c(24) mai=c(3011) mar=c(2 2 2 1))
hist(X2 freq=F breaks=seq(-3125) bty=o xlim=c(-212)xarp=c(-31216)tck=005 lab=c(5515) ylim=c(06) main=POPULACcedilAtildeO lwd=2)
tcl2modas(2titulo=n=2)tcl2modas(3titulo=n=3)
tcl2modas(4titulo=n=4)
tcl2modas(5titulo=n=5)
tcl2modas(10titulo=n=10)
tcl2modas(15titulo=n=15)
tcl2modas(25titulo=n=25)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3461
CAP 3-a) Intervalo de ConfianccedilaSeja um estimador pontual do paracircmetro eacute uma variaacutevel aleatoacuteria que varia deamostra para amostra Por isso haacute uma certa dose de incerteza inerente a esse processode estimaccedilatildeo Nosso objetivo agora eacute obter com base nos dados amostrais (da uacutenicaamostra observada) um intervalo ao qual o valor correto do paracircmetro deve ter grandechance de pertencer
bull Detalhando um pouco mais No processo de estimaccedilatildeo por intervalo de um paracircmetro θdevemos determinar um intervalo que contenha o verdadeiro valor do paracircmetro comprobabilidade 1-α onde α eacute um pequeno valor preacute-fixado Este intervalo eacute construiacutedo emgeral em torno do estimador pontual considerando uma margem de erro d de forma aque uma vez fixada a probabilidade 1-α calculemos d tal que P( - d le θ le + d ) = 1 -αChama-se intervalo de confianccedila para θ ao niacutevel 1 - α ao intervalo [ - d + d]
θ $θ
$θ$θ
$θ $θ
$
θ
bull Ou seja o estimador pontual eacute o centro do Intervalo de Confianccedila e o erro absoluto dassociado a define a amplitude desse intervalo O que eacute de fato variaacutevel aleatoacuteria satildeoos extremos do intervalo O paracircmetro tem valor desconhecido natildeo aleatoacuterio (fixo a ser estimado)
Exemplo Intervalo de Confianccedila para a meacutedia populacional com o desvio padratildeo conhecidoO paracircmetro a estimar eacute a meacutedia populacional micro A estimaccedilatildeo seraacute baseada em X1 X2 Xn
uma amostra aleatoacuteria com E(Xi) = micro e var(Xi) = σ2 para todo i = 12 n Queremos que seja
vaacutelida a expressatildeo o que equivale a P [ -d le -micro le d] = 1-α
$θ
X[ ] α1dmicroXP minus=leminus
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3561
bull Lembrando que para n suficientemente grande pelo Teorema Central do Limite a meacutediaamostral segue uma distribuiccedilatildeo que se aproxima da Normal(micromicromicromicro σσσσ2 n) (ou eacute exatamente aNormal(micromicromicromicro σσσσ2 n) no caso em que a distribuiccedilatildeo comum das va Xirsquos jaacute eacute Normal) entatildeo
P [-d le -micromicromicromicro le d] = 1-α rArr 1-α = P [ |Z| le ] Logo d =
bull Faremos uma simulaccedilatildeo para a construccedilatildeo de Intervalos de Confianccedila com 100 amostras dedois tipos de populaccedilatildeo Normal e Exponencial A lista de comandos do R que usamos eacute
ICN = function (N n mu sigma = 3 conf)
plot(0 0 type=n xlim=c(010) ylim=c(0N) bty=l
xlab=Normal ylab=amostras)abline(v=mu)
CAP 3-a) Intervalo de Confianccedila
X
nσ
d
minus
z0 = qnorm(1-((1-conf)2))
sigmaxbarra = sigmasqrt(n)
for (i in 1N)
x = rnorm(n mu sigma)
media = mean(x)
li = media - z0 sigmaxbarrals = media + z0 sigmaxbarra
plotx = c(lils)
ploty = c(ii)
if (li gt mu | ls lt mu) lines(plotxploty col=red)
else lines(plotxploty)
gt ICN(100 25 3 3 95)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3661
CAP 3-a) Intervalo de Confianccedila
ICexp = function (N n lambda conf)
mu=1lambda sigma=1lambda
plot(0 0 type=n xlim=c(010) ylim=c(0N) bty=lxlab=Exponencial ylab=amostras)
abline(v= mu)
z0 = qnorm(1-((1-conf)2))
sigmaxbarra = sigmasqrt(n)
for (i in 1N)
x = rexp(nlambda) me a = mean x
li = media - z0 sigmaxbarra
ls = media + z0 sigmaxbarra
plotx = c(lils)
ploty = c(ii)
if (li gt mu | ls lt mu) lines(plotx ploty col=red)
else lines(plotx ploty)
gt ICexp(100 25 13 95)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3761
CAP 3-b Teste de Hipoacuteteses (TH)O objetivo de um teste de hipoacutetese eacute avaliar a validade de uma afirmaccedilatildeo sobre determinada
caracteriacutestica da populaccedilatildeo usando para isso os dados de uma amostra Essa caracteriacutestica eacute
representada pela va contiacutenua X cujo comportamento probabiliacutestico eacute expresso pela funccedilatildeo dedensidade f com paracircmetro Ө que tem valor desconhecido
Em um teste existem duas hipoacuteteses envolvidas H0 denominada hipoacutetese nula e H1
denominada hipoacutetese alternativa O procedimento de teste de hipoacutetese consiste em estabelecer
um criteacuterio de decisatildeo que leve a Aceitar ou Rejeitar H0 com base nos valores amostrais
A Estatiacutestica de teste eacute uma funccedilatildeo da amostra aleatoacuteria utilizada para definir o criteacuterio de
decisatildeo Estabelecer o criteacuterio de decisatildeo consiste em dividir o conjunto dos valores possiacuteveis
da estatiacutestica de teste em duas partes denominadas Regiatildeo de Aceitaccedilatildeo A e Regiatildeo de
Rejeiccedilatildeo R da hipoacutetese nula
Em um teste de hipoacutetese haacute dois tipos possiacuteveis de erro de decisatildeo
Erro I - Rejeitar H0 quando H0 eacute verdadeira
Erro II - Aceitar H0 quando H0 eacute falsaAs probabilidades de ocorrecircncia dos erros satildeo α = P [ Erro I ] e β = P [ Erro II]
A probabilidade de erro I α eacute o niacutevel de significacircncia do teste cujo valor eacute arbitrado pelo
pesquisador deve ser pequena pois corresponde a probabilidade de um erro (005 ou 001)
O niacutevel criacutetico ou p-valor do teste eacute o menor valor de α para o qual ainda rejeitariacuteamos H0 de
acordo com os dados observados
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3861
CAP 3-b) ndash TH teste tttest(x y = NULL alternative = c(twosided less greater) mu = 0
paired = FALSE varequal = FALSE conflevel = 095 )
Procedimentos de teste de hipoacuteteses com niacutevel de significacircncia α e amostras de tamanho n
UmaAmostra
DuasAmostras
Obs Os testes acima satildeo bilaterais
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3961
CAP 3ndashb) TH exemplo de teste t ndash amostras independentespag233- teste t amostras independente - comparaccedilatildeo log(salaacuterio)
entre os grupos de comeacutercio e de serviccedilo
LogSal=c(1289156912501344145616361573171309060903
0977122011031069128714101496131113371366
1227119114591280115217401649176524101701
1538192419251721154918911534163812071682
120614232010143112651570)
Sal=exp(LogSal)
setor= c(rep(C23) rep(S23))
ttest(Sal[setor==C] Sal[setor==S] varequal=T)
Two Sample t-test
data Sal[setor == C] and Sal[setor == S]
t = -36822 df = 44 p-value = 00006289
alternative hypothesis true difference in means is not equal to 095 percent confidence interval
-23079005 -06751838
sample estimates
mean of x mean of y3786010 5277552
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4061
CAP 3ndashb) TH exemplo de teste t ndash amostra pareadapag237- teste t pareado
P1=c(6315596455545480598065203660986853
8765647785536980827184605572645564)
P2=c(3638306043466455604343523428837155
8238556767443459605968506254473652)
ttest(P1 P2 alt=greater paired = T)
Paired t-test
data P1 and P2
t = 44176 df = 33 p-value = 5072e-05
alternative hypothesis true difference in means is greater than 0
95 percent confidence interval
0716695 Inf
sample estimates
mean of the differences
1161765
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4161
CAP 3ndashb) TH exemplo de teste Quiquadrado chisqtest
pag233- teste Quiquadrado -
tcont=matrix(c(683585251530258 7461761220225) 72)
chisqtest(tcont)
Pearsons Chi-squared test
data tcont- = = - lt -
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4261
CAP 3ndashb) TH exemplo de teste Quiquadrado chisqtestaov(formula data = NULL )
pag244- ANOVA - Comparaccedilatildeo de trecircs raccedilotildees para suinos
A=c(444943514475425134305342453630
322133421040395246294247453959)
B=c(343640545953445432686954414647
6566455739)
C=c(574040364566395025212927283942
21304143294244582849)
aumentoP=c(ABC)
racao=c(rep(A30)rep(B20) rep(C25))
summaryaov(aov(aumentoP ~ racao))
Df Sum Sq Mean Sq F value Pr(gtF)racao 2 15385 7693 56136 0005425
Residuals 72 98666 1370
---
Signif codes 0 lsquorsquo 0001 lsquorsquo 001 lsquorsquo 005 lsquorsquo 01 lsquo rsquo 1
Warning message
In modelmatrixdefault(mt mf contrasts)
variable racao converted to a factor
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4361
ApecircndicesA-1) Apresentaremos aqui algumas figuras
feitas no R na elaboraccedilatildeo do livro
Achamos que o exame desses coacutedigos acompanhado dos resultados podeser um bom aprendizado um exerciacutecio ou talvez uma recordaccedilatildeo do materialaqui exposto
A-2) Resumo de comandosa) Criaccedilatildeo de dados
b) Informaccedilatildeo de uma Variaacutevel
c) Seleccedilatildeo de dados e manipulaccedilatildeo
d) Estatiacutesticas e operaccedilotildees matemaacuteticas
e) Corte e extraccedilatildeo de dados
f) Operaccedilatildeo com Matrizes
g) Graacuteficos (Plotting)
h) Teste de hipoacuteteses
i) Programming
j) Commandos auxiliaries em Graacuteficos
k) Comando par (Graphical parameters)
l) Input and output
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4461
A1) ndash Pag 14 ndash Figura 15
IDADE=c(616961716371726866697267636663636067716360696463667164706366646969646372736871726968687379)
IMC= c(245273281301254301280234268228255228235232203226239243271227237258213243243248219234216214221227227211268278275267286253239258247284235)
par(mfrow=c(12))hist(IDADE breaks=c(6065707580) ylim=c(020) ylab=Nuacutemero de Observaccedilotildees
main= col=grey right = F)hist(IMC breaks=c(200225250275300325)
ylab=Nuacutemero de Observaccedilotildeesmain= col=grey right = F )
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4561
A1) ndash Pag 44 ndash Figura 21
mat=matrix(c(81823913601818608740)32)
rownames(mat)=c(AtivaSedentaacuteriaTotal)colnames(mat)=c(NormalSobrepeso)barplot(t(mat) beside = TRUE space=c(315)
col=gray(c(79))legend = c(NormalSobrepeso) ylim = c(0 95) ylab= - percentagem)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4661
A1) ndash Pag 48 ndash Figura 22
mat= matrix(c(68154510 66214215 66242519 39161711)44byrow=T)
rownames(mat)=c(18 a 21 anos 22 a 25 anos 26 a 30 anos 31 a 40 anos)colnames(mat)=c(CinTeatSMDEx)mat1=mat for (i in 14) mat1[i]lt-mat1[i]100sum(mat1[i]) par(mfrow=c(12) mai=c(1111) mar=c(5 4 2 2) )barplot(matbeside=F ylim=c(0250) legend = c(18 a 21 anos 22 a 25 anos
26 a 30 anos 31 a 40 anos) xlab=Contagem)
barplot(mat1 beside=F xlab=Percentagem)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4761
A1) ndash Pag 52 ndash Figura 25X= c(184114821789235159118762592403190408372147328526471687
09642871437079238215753399242122530314859149806)y =c(01837012540193301620014230140604568022870231400861019960235302186012798991801254018210244160823
0147764068011818941403474539680150133247023685518102146187520214097090257291227
036282905401406510810113849399)plot(x y xlim=c(07) ylim=c(05) pch=16 bty=l xlab=Renda per capita
ylab=Telefonia Fixa per capita)
abline(lsfit(xy))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4861
A1) ndash Pag 109 ndash Figura 45
x=020
y1=dpois(x1) y2=dpois(x3) y3=dpois(x10)names(y1)=x names(y2)=x names(y3)=xpar(mfrow=c(13))plot(y1ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=1)plot(y2ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=3)plot(y3ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=10)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4961
A1) ndash Pag 118 ndash Figura 412
x=seq(010001)
plot(xdexp(x 12) type=l xlim=c(012) ylim=c(01) bty=l ylab=f(x) eF(x))for(i in seq(0 25 001)) segments(i 0 i dexp(i12) col=lightgrey)abline(v=0 h=0)points(xdexp(x 12) type=l lwd=2 bty=l)points(xpexp(x 12) lwd=2 type=l)segments(250 25pexp(2512))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5061
A1) ndash Pag 163 ndash Figura 68
plot(p xlim=c(618) ylim=c(016) type=n bty=l xaxt=n xlab= ylab=
cexaxis=6)for (i in 1015) rect(i-50 i+5 dbinom(i304) col=lightgrey) lty=2)segments(i0idbinom(i304) lty=2)
x=seq(61801) lines(x dnorm(x12sqrt(72)) lwd=2)x=seq(61801) lines(x dnorm(x12sqrt(72)) lwd=2)
axis(1 916 cexaxis=9) ax s seq cexax s=
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5161
A1) ndash Pag 198 ndash Figura 78
x1=seq(-4402)plot(x1dnorm(x1) type=l lwd=3 xlab= ylab= )lines(x1 dt(x11)) lines(x1 dt(x12)) lines(x1 dt(x15))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5261
A2ndashResumo de comandos
a)Criaccedilatildeo de dados
c()funccedilatildeo geneacuterica para combinar argumentos com o formando de um vetor fromto gera uma sequecircnce ldquordquo tem prioridade de operator pe13 + 1 is ldquo234rdquo
seq(fromtoby) gera uma sequecircncia by= especifica incremento
length= especifica um comprimento desejado
rep(xtimes) replicate x onuacutemero times de vezes use each= para repetir cada
elemento de x rep(c(123)2) gera 1 2 3 1 2 3 rep(c(12)each=2) gera 1 1 2 2
matrix(xnrow=ncol=) matrix elementos de x se reciclam caso x
rbind()combina vetores em linhas num estrutura de matrizes de dados
cbind()combina vetores em colunas num estrutura de matrizes de dados
array(xdim=) matriz com dados x especificar dimensotildees como dim=c(342)
elementos de x se reciclam caso x natildeo seja suficientemente grande
factor(xlevels=) codifica um vetor x como um fator gl(nklength=nklabels=1n) gerar niacuteveis (fatores) especificando
o padratildeo de seus niacuteveis k eacute o nuacutemero de niacuteveis e n eacute o nuacutemero de repeticcedilotildees
dataframe() criar um banco de dados Por exemplo
dataframe(v=14ch=c(gBcasad)n=5)
list()criar uma lista de argumentos Por exemplo list(a=c(12)b=hic=3i)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5361
A2ndashResumo de comandos
b) Informaccedilatildeo de uma Variaacutevellength(x) nuacutemero de elementos em x
dim(x) Obter ou definir a dimensatildeo de um objeto dim (x) = c(32)dimnames(x) Obter ou definir os nomes das dimensotildees de um objeto
nrow(x) nuacutemero de linhas
ncol(x) nuacutemero de colunas
c) Seleccedilatildeo de dados e manipulaccedilatildeochoose(n k) calcula a combinaccedilatildeo de elementos escolhidos entre n
resultando n [(n-k) k]
cut(xbreaks) divide x em intervalos (fatores) breaks eacute o nuacutemero de intervalos de
corte ou um vetor com os valores especiacuteficos
table(x) retorna uma tabela com as quantidades dos diferentes valores de x
(tipicamente para variaacuteveis dos tipos inteiros ou fatores)
sample(x size) retira aleatoriamente com e sem reposiccedilatildeo elementos detamanho SIZE do vetor x a opccedilatildeo replace = TRUE permite a retirada com reposiccedilatildeo
proptable(xmargin=) transforma a tabela como tabela de propoccedilatildeo
marginal margin=1 (com relaccedilatildeo as linhas) margin=2 (com relaccedilatildeo as colunas)
sort(x) Classifica os elementos de x em ordem crescente para classificar em ordem
decrescente rev(sort(x))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5461
A2ndashResumo de comandosd) Estatiacutesticas e operaccedilotildees matemaacuteticasmean(x) media dos elementos de x
median(x) mediana dos elementos de x
quantile(xprobs=) quantis de x correspondendo a uma dada probabilidadevar(x) ou cov(x) variacircncia dos elementos de x (calculado com n-1)
se x eacute uma matriz a matriz de covariacircncia eacute calculada
sd(x) desvio padracirco de of x
cor(x) matriz de correlaccedilatildeo de x se x for uma matriz ou (1 se x eacute um vector)
cor(x y) correlaccedilatildeo linear entre X e Y ou matriz de correlaccedilatildeo se eles satildeo matrizes
round(x n) arredonda os elementos de x para n casas decimais sum x soma os e emen os e x
prod(x) multilica os elementos de x
max(x) acha o maacuteximo dos elementos de x
min(x) acha o miacutenimo dos elementos de x
range(x) equivalente a c(min(x)max(x)
cumsum(x) um vetor onde o eacutesimo elemento eacute a soma de x[1] ateacute x[i]cumprod(x) um vetor onde o eacutesimo elemento eacute o produto de x[1] ateacute x[i]
cummin(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
cummax(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
sincostanasinacosatanatan2loglog10exp)
log(x base) calcula o logaritmo de x na base=base
weightedmean(x w) media ponderada de x com peso= w
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5561
A2ndashResumo de comandos
e) Corte e extraccedilatildeo de dadosindexaccedilatildeo de Vetores
x[n] n-eacutesimo elemento do vetor
x[-n] todos menos o n-eacutesimo elemento
x[1n] os primeiros n elemento
x[-(1n)] elementos de n+1 ateacute o final
x[c(432)] elementos especificados
x[y gt 5] todo elementos de onde os valores de y satildeo maiores que 5
x x gt 3 amp x lt 5 todo elementos entre 3 e 5
x[nome] elemento denominado nome
indexaccedilatildeo de Matrizes
x[ij] elemento na linha i coluna j
x[i] linha i
x[j] coluna j
x[c(13)] colunas 1 and 3
x[nome] linha nomeada nome
indexaccedilatildeo de data frames
x[[nome]] coluna chamada nome
x$nome equivalente a coluna chamada nome
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5661
A2ndashResumo de comandos
f) Operaccedilatildeo com Matrizest(x) transposta da matrix x
diag(x) retira a diagonal da matrix x
multiplicaccedilatildeo matricial
solve(ab) resove a equaccedilatildeo a x = b em relaccedilatildeo a x
solve(a) matriz inversa de a
rowSum(x) soma das linhas da matrix x
colSum(x) soma das colunas da matrix x
rowMeans x meacutedia das linhas da matrix x
colMeans(x) id meacutedia das colunas da matrix x
g) Graacuteficos (Plotting)plot(x y) diagrama de disperccedilatildeo plot dos pares (xy) num sistema de eixos
coordenadoshist(x) histogram dasfrequecircncias of x
barplot(x) graacutefico de barras of x usar horiz=T ara barras horizontal
pie(x) graacutefico de setores (pie-chart)
boxplot(x)
qqnorm(x) quantis de x em relaccedilatildeo aos valores esperados de uma dist Normal
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5761
A2ndashResumo de comandosparametros dos commando de Graacutefico
type=p especifica o tipo de plot p pontos l linhas b pontos
ligados por linhas o idecircntico mas as linhas passam sobre os pontos h
linhas verticais s escada (steps) os dados satildeo representados pelas alturasverticais
xlim= ylim= especifica os limites inferiores e superiores dos eixos por exemplocom xlim=c(1 10) ou xlim=range(x)
xlab= ylab= nomeia os eixos o nome deve ser do tipo caracter
main= tiacutetulo principal deve ser do tipo caracter
sub= sub-tiacutetulo (escrito em fonte menor)
podem ser usados como bty(tipo de caixa) lwd (lagura da linha) lty (tipo delinha) pch(tipo de ponto) cex xaxs yaxs xaxtyaxt
h) Teste de hipoacuteteses
ttest()proptest()
chisqtest()
aov(formula) analysis of variance model
anova(fit) analysis of variance (or deviance) tables for one or more
fitted model objects
Use o commando gt test para procurar todos os testes disponiacuteveis
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5861
A2ndashResumo de comandos
i) Programmingfunction( arglist ) expr para definer uma funccedilatildeo
return(value)
if(cond) expr
if(cond) consexpr else altexpr
for(var in seq) expr
while(cond) expr
re eat ex r
break
Usar chaves entre commandos dlimitando o iniacutecio e o fim de um grupo decomandos
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5961
A2ndashResumo de comandos
j) Commandos auxiliaries em Graacuteficospoints(x y) adiciona pontos (a opccedilatildeo type= pode ser usada)
lines(x y) adiciona linhas (a opccedilatildeo type= pode ser usada)text(x y labels ) adiciona texto na coordenada (xy) um uso tiacutepico eacute
plot(x y type=n) text(x ynames)
segments(x0 y0 x1 y1) desenha linhas do ponto (x0 y0) ao (x1 y1)
arrows(x0 y0 x1 y1 angle= 30 code=2) desenha seta do ponto
(x0 y0) ao (x1 y1)
abline(ab) desenha uma reta de inclinaccedilatildeo b e intercepto a
abline(v=x) desenha uma reta vertical em x
abline(lsfit(xy)) desenha uma reta da regressatildeo feita em lsfit(xy)
rect(x1 y1 x2 y2) desenha um retacircngulo que a esquerda inferior tem coordenadas(x1 y1) e o limite da direita superiores (x2 y2)
polygon(x y) desenha um poliacutegono que une os pontos com coordenadas X e Y
legend(x y legend) Acrescenta a lenda no ponto (x y) com os siacutembolos
dada pela legend
title()adiciona um tiacutetulo e opcionalmente um sub-tiacutetulo
axis(side) acrescenta um eixo na parte inferior (side = 1) agrave esquerda (2) na partesuperior (3) ou agrave direita (4)
box()desenhar uma caixa em torno do plot
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6061
A2ndashResumo de comandos
k) Comando par (Graphical parameters)Todos estes comando podem ser definidos a niacutevel global com o par () que
especifica os paracircmetros mas tambeacutem muitos podem ser usados comoparametros dos commando de Graacutefico
mfcol vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em colunas
mfrow vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em linhas(matrix for row)
bty controla o tipo de caixa desenhada ao redor do enredo valores permitidos satildeo
o l 7 c u ou se bt =n a caixa natildeo eacute desenhada
lty controla o tipo de linhas pode ser um inteiro ou string (1 solid 2 dashed 3dotted 4 dotdash 5 longdash 6twodash) ou uma string de ateacuteoito caracteres (entre 0 e 9) que especifica o comprimento em pontos oupixels dos elementos desenhados e os espaccedilos em branco por exemplolty=rdquo44rdquo equivale a lty=2
lwd nuacutemero que controla a largura das linhas default 1pch controla o tipo de siacutembolo pode tambeacutem ser um nuacutemero inteiro entre 1 e 25
ps um inteiro que controla o tamanho em pontos de textos e siacutembolos
pty um caracter que especifica o tipo da regiatildeo s quadrado m maacuteximal
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6161
A2ndashResumo de comandos
l) Input and outputreadtable(file) lecirc um arquivo em formato de tabela e cria um quadro de dados a
partir dele o separador default = eacute espaccedilo em branco header = TRUE ler a
primeira linha como um cabeccedilalho de nomes de coluna asis = TRUE paraevitar aque um vetore de caracteres seja convertido em factores usocommentchar = para evitar seja interpretado como um comentaacuteriouso skip = n para pular n linhas antes da leitura de dados consulte a ajudapara as opccedilotildees de linha de nomeaccedilatildeo o tratamento NA e outros
readcsv(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por viacutergulas
readdelim(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por tabulaccedilotildees
readfwf(filewidthsheader=FALSEsep= asis=FALSE)
ler uma tabela de dados em formato fix de largura m para um dataframe widthseacute um vetor inteiro informando os tamanhos dos campos
sink(file) saiacuteda de todos os comandos para um arquivo ateacute aparecer um comando
sink () que desliga writetable(x file=rownames=Tcolnames=Tsep= ) imprime x apoacutes a
conversatildeo para banco de dados
save(file) guarda os objetos especificados () no formato XDR
load()carregar o conjunto de dados salvos com o comando save
data(x) carrega um conjunto de dados especificado
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1061
Pag 44 ndash Figura 21
mat=matrix(c(81823913601818608740)32)
rownames(mat)=c(AtivaSedentaacuteriaTotal)
colnames(mat)=c(NormalSobrepeso)
barplot(t(mat) beside = TRUE space=c(315)
col=gray(c(79))
legend = c(NormalSobrepeso) ylim = c(0 95) ylab= - percentagem)
Cap1-AED ndash ex barplot (beside=T)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1161
Para as variaacuteveis quantitativas os mais usados satildeo os Histogramas e os Diagramas Ramo-folhascujos comandos satildeo gthist(x) gt stem(x) Existe tambeacutem um comando chamado gtcut
que classifica uma variaacutevel numeacuterica Os principais argumentos do comando hist satildeo
hist(x breaks= freq =NULL right=T col=NULL main=xlim=range(breaks) ylim=NULL xlab=xname ylab) Onde
x a variaacutevel numeacuterica a ser discretizada (argumento obrigatoacuterio)
breaks vetor com os limites das classes
freq variaacutevel loacutegica se T (True) corresponde agrave contagem de cada classe se F (False) equivale adensidade de probabilidade a aacuterea total sob a curva (retacircngulos) teria soma 1
right variaacutevel loacutegica se T as classes satildeo fechadas agrave direira se F satildeo fechadas agrave esquerda
Cap1ndashAED stem cut table
main tiacutetulo principal
xlab e ylab roacutetulos dos eixos x e y respectivamente
xlim e ylim Dois valores limites para o graacutefico de cada uma das variaacuteveis
cut(x breaks right = T ) Onde
x a variaacutevel numeacuterica a ser discretizada (argumento obrigatoacuterio)breaks vetor com os limites das classes
right variaacutevel loacutegica se T as classes satildeo fechadas agrave direira se F agrave esquerda
stem(x hellip)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1261
Exemploda pag 15 ndash Figura 18
gt nt=c(18381254193316214231406456822872314
8611996235321861281254244214781182
347515012369214621412573362814071138) digitaccedilatildeo de nt
gt hist(nt breaks=c(50100150200250300350400450500) right=T
main=Histograma Telefonia fixa per capita
xlab=N linhas1000hab ylab=N de obs xlim=c(0500) ylim=c(010) col=grey) histograma da variavel gt
Cap1-AED hist
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1361
Exemploda pag 15 ndash Figura 18
gt nt=c(18381254193316214231406456822872314
8611996235321861281254244214781182
347515012369214621412573362814071138) digitaccedilatildeo de nt
gt stem(trunc(nt10)) o ramo a centena e a folha as dezenas
0 | 8
1 | 1122244441 | 5689
Cap1 AED ndash ex stem table cut
2 | 011123334
2 | 5
3 | 4
3 | 6
4 |
4 | 5
gt table(cut(nt breaks=c(50100150200250300350400450500) right=F))
[50100) [100150) [150200) [200250) [250300) [300350) [350400) [400450) [450500)
1 9 5 8 1 1 1 0 1
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1461
Para uma dada variaacutevel quantitativa uma medida de centralidade eacute um ldquovalor tiacutepicordquo em torno doqual se situam os valores daquela variaacutevelAs medidas de centralidade mais conhecidas satildeoa meacutedia aritmeacutetica e a mediana Usar os comando mean(x) median(y) Por exemplo
gt mean(nt)[1] 2001852gt median(nt)[1] 193Uma medida de localizaccedilatildeo eacute o quantil A funccedilatildeo apropriada do R para obter os quantis de um
vetor numeacuterico x eacute a funccedilatildeo gt quantile(x)Se desejarmos determinar os trecircs quartis usariacuteamos
o comando quantile(xc(02505075))
Se desejarmos o quinto o deacutecimo e o nonageacutesimo percentis usariacuteamos o comandogt quantile(xc(05010090))
Cap1-AED Medidas (estatiacutesticas)
O comando quantile(xp) retorna o quantil de ordem p das observaccedilotildees de x podendo p ser
um vetor Por exemplo
gt quantile(nt c(20 50 95))
20 50 95
1306 1930 3582
Uma medida de dispersatildeo para uma variaacutevel quantitativa eacute um indicador do grau de espalhamento
dos valores da amostra em torno da medida de centralidade As medidas de dispersatildeo mais
conhecidas satildeo a variacircncia o desvio-padratildeo e a distacircncia interquartil=diferenccedila entre o terceiro
e o primeiro quartis
gt var(nt)
[1] 7131464
gt sd(nt)
[1] 84448
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1561
gt q=fivenum(nt) q[4]-q[2] em q estatildeo os 5 nuacutem Subtraiacutemos o Q3 do Q1[1] 92
Os cinco valores x(1) Q1 Q2 Q3 x(n) miacutenimo os trecircs quartis e o maacuteximo satildeoimportantes para se ter uma boa ideacuteia da assimetria dos dados Esse valores podem serobtidos pelo comando fivenum(x) O summary(x) acrescenta tambeacutem a meacutedia ao resultado
Por exemplogt fivenum(nt)[1] 86 141 193 233 457gt summary(nt)
Min 1st Qu Median Mean 3rd Qu Max
860 1410 1930 2002 2330 4570
Cap1-AED IEQ fivenum boxplot
O Box Plot ou Desenho Esquemaacutetico eacute um graacutefico que se costuma utilizar para sintetizarem uma mesma figura vaacuterias informaccedilotildees relativas agrave distribuiccedilatildeo de uma determinadavariaacutevel quantitativa Nele tambeacutem satildeo representadas as observaccedilotildees discrepantesObservaccedilotildees discrepantes ou outliers satildeo observaccedilotildees cujos valores estatildeo muito afastadosdos demais (para mais ou para menos) Essas observaccedilotildees podem afetar de formasubstancial o resultado das anaacutelises estatiacutesticas O comando para usar-lo eacute boxplot(x)
Por exemplo ver fig 125 pag 28gt nt=c(18381254193316214231406456822872314
8611996235321861281254244214781182347515012369214621412573362814071138) digitaccedilatildeo de nt
gt boxplot(nt ylim=c(50500)xlab=N linhas1000hab)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1661
Quando se deseja investigar a relaccedilatildeo entre duas variaacuteveis qualitativas o caminho natural eacutemontar uma tabela de contingecircncia Construir uma tabela de contingecircncia consiste emcolocar nas linhas os valores possiacuteveis de uma variaacutevel e nas colunas os valores possiacuteveis
cruzamentoO comando para fazer a tabela seria gttable(xy)Por exemplogt tab12=readtable(fSBPO2010Rtab1_2txt header = T sep = )gt attach(tab12)
gt table(CATEG Classe_IMC)Classe_IMC
CATEG normal sobrepesoA 18 4
Cap1-AED Relaccedilatildeo entre duas variaacuteveis Qualitativas
Para analisar a relaccedilatildeo entre 2 variaacuteveis atraveacutes de uma tabela de contingecircncia umprocedimento muito uacutetil eacute calcular os percentuais em relaccedilatildeo aos totais das linhas etambeacutem os percentuais em relaccedilatildeo aos totais das colunas Os comandos seriamproptab(x1) para linha e proptab(x2) para coluna Por exemplo usando a tabela 25paacutegina 46
gt mat= matrix(c(68154510 66214215 66242519 39161711)44byrow=T)gt rownames(mat)=c(18 a 21 anos22 a 25 anos26 a 30 anos31 a 40 anos)gt colnames(mat)=c(CinTeatSMDEx)gt mat1=proptable(mat 1) por linha tab 27gt mat2=proptable(mat 2) por coluna tab 28
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1761
Cap1-AED Relaccedilatildeo entre duas variaacuteveis QuantitativaQuando se deseja investigar a relaccedilatildeo entre duas variaacuteveis quantitativas o mais adequado eacutecomeccedilar pela construccedilatildeo de um Diagrama de Dispersatildeo Construir um diagrama de
dispersatildeo para 2 variaacuteveis quantitativas X e Y consiste em localizar pares de valoresobservados (xi yi ) como pontos em um sistema de eixos coordenados O camando seriaplot(xy)Por exemplogtx=c(12345) y=c(11224) plot(xy)
Um indicador do grau de interdependecircncia linear para 2 variaacuteveis quantitativas X e Y eacute ocoeficiente de correlaccedilatildeo rxy que pode assumir qualquer valor real entre -1 e 1 Ocoeficiente de correlaccedilatildeo entre X e Y eacute calculado por uma das duas expressotildees
matemaacuteticas (equivalentes) a seguir
O comando seria cor(xy) Por exemplogtx=c(12345) y=c(11224) cor(xy)
[1] 09036961
sum sum
sum
sumsum
sum
= =
=
=
=
sdotminussdotminus
sdotsdotminus
=
minussdotminus
minusminus
=n
1i
n
1i
1222
i
22
i
n
1i
ii
122
i
2
i
n
1i
n
1i
ii
xy
)yny)(xnx(
yxnyx
)y(y)xx(
)y)(yx(x
r
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1861
Cap1-AED Relaccedilatildeo entre duas variaacuteveis Quantitativa
bull Quando se verifica atraveacutes do coeficiente de correlaccedilatildeo (ou pelo aspecto visual doDiagrama de Dispersatildeo) que existe uma forte relaccedilatildeo linear entre 2 variaacuteveis X e Y
pode ser de interesse calcular a equaccedilatildeo da reta que representa esta relaccedilatildeo entre as2 variaacuteveis y = a + bx A equaccedilatildeo y = a + bx considera que y eacute a variaacutevel dependente(ou variaacutevel resposta) e que x eacute a variaacutevel independente (ou variaacutevel preditora) a serusada para explicar o comportamento da variaacutevel y A equaccedilatildeo da reta pode ser usadapara se antever qual seria o valor y0 da variaacutevel resposta y correspondente a umdeterminado valor x0 da variaacutevel preditora x
bull As foacutermulas que nos permitem calcular os valores de a e b a partir dos dados satildeo
yxn
n
i
n
i sumsum
O coeficiente b mede a inclinaccedilatildeo da reta de Regressatildeo Entatildeo ao passarmos de um pontoa outro sobre a reta b mede a relaccedilatildeo entre as variaccedilotildees de y e de x O coeficiente a medeo valor de y quando x eacute igual a zero ou seja eacute o intercepto da reta de Regressatildeo
O comando para calcular os coeficientes a e b seria gt lsprint(lsfit(xy))gtx=c(12345) y=c(11224)gtreg=lsfit(xy)gtlsprint(reg)
n
x
x
nyx
b2
n
1i
in
1i
2
i
1i
ii
minus
minus
=
sumsum =
=
=
==
x bya sdotminus=e
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1961
Cap 2-a Simulaccedilatildeo do conceito frequumlentistaConceito Frequumlentista de Probabilidade Suponha que o experimentofoi repetido n vezes sempre sob as mesmas condiccedilotildees e que o evento Aocorreu m vezes entre essas n realizaccedilotildees do experimento Entatildeoa fraccedilatildeo mn eacute uma boa aproximaccedilatildeo para a probabilidade de Ase o nuacutemero n de repeticcedilotildees for bastante grande
Simbolicamente P (A) congcongcongcong mn
Exemplo Simulando 100 lanccedilamentos de uma moedaNo R foram simulados 100 lanccedilamentos de uma moeda equilibrada isto eacute
onde as chances de cara e de coroa satildeo iguais Depois de cadalanccedilamento foi observado o nuacutemero acumulado de caras obtidas ateacute essemomen o e o ca cu a a a proporccedil o e caras correspon en e a a e a aseguir estatildeo apresentados os valores correspondentes ao nuacutemeroacumulado de caras ao longo do processo Por exemplo para a jogada denuacutemero 29 o nuacutemero acumulado de caras eacute 13 e a fraccedilatildeo de caras eacute 1329O graacutefico abaixo mostra a evoluccedilatildeo dessa fraccedilatildeo agrave medida que foramfeitos os 100 lanccedilamentos da moeda
Os comandos no R para a elaboraccedilatildeo do graacutefico
gtx=1100 y=cumsum(sample(01100rep=T))gtplot(xy1100 ylim=c(01) xlim=c(0100) pch=16)gtsegments(10510005)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2061
Cap 2-b Variaacuteveis Aleatoacuterias (va)Uma variaacutevel aleatoacuteria (va) eacute uma funccedilatildeo que associa cada elemento de um
espaccedilo amostral a um nuacutemero real As variaacuteveis aleatoacuterias podem ser do
tipo
Discreto se os seus valores pertencem a um conjunto enumeraacutevel de nuacutemerosreais (usualmente valores inteiros)
Contiacutenuo se os seus valores pertencem a um intervalo de nuacutemeros reais
O modelo probabiliacutestico de uma variaacutevel aleatoacuteria X estabelece o padratildeo de
comportamento de sua distribuiccedilatildeo de probabilidadeA fun atildeo de robabilidade de uma v a discreta X eacute definida orp(x)=P[X=x]
A funccedilatildeo de distribuiccedilatildeo acumulada F de uma v a X eacute definida porF(x) = P[Xlelelelex]
Se X eacute uma va discreta que assume os valores x 1
x 2
x 3
x N
entatildeo
bull A meacutedia ou esperanccedila de X eacuteE(X) = x 1 P(X=x 1 ) + x 2 P(X=x 2 ) + x 3 P(X=x 3 ) + + x N P(X=x N )
bull A Variacircncia de X eacute calculada por |Var(X)=(x 1 ndashE(X))2 P(X=x 1 )+(x 2 ndashE(X))2 P(X=x 2 )++(x N ndashE(X))2 P(X=x N )
bull O desvio padratildeo de X eacute igual agrave raiz quadrada natildeo negativa da suavariacircncia DP(X)= Var(X)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2161
Cap 2-b - va e o RO trabalho no R com uma va X estaacute baseado em 4 procedimentos
p probability ndash Gera a probabilidade de um valor de xq quantile ndash Gera o valor x de uma dada probabilidade acumulada pd density ndash Gera o valor da funccedilatildeo densidade num valor x da variaacutevel
Observar que quando a variaacutevel eacute discreta este valor eacute aprobabilidade de x quando a variaacutevel eacute contiacutenua o resultadoeacute a altura da funccedilatildeo densidade de probabilidade
r random ndash Gera n valores do modelo probabiliacutestico em questatildeo
As distribuiccedilotildees que estudaremos estatildeo listadas a seguir depois de cada uma delasentre parecircnteses estaacute o nome no R
(geom) Binomial negativa- Pascal (nbinom)
Entre as contiacutenuas Uniforme (unif ) Exponencial (exp) Normal (norm) t-student (t)quiquadrado (chisq) F (f )
A interligaccedilatildeo dos trecircs primeiros procedimentos pq e d seraacute ilustrada pela distribuiccedilatildeoNormal atraveacutes do graacutefico abaixo
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2261
Cap 2-b - va pnorm e qnormSeja a relaccedilatildeo p = P(Xltx) que aparece na tabela da distribuiccedilatildeo Normal Quiquadrada
t-student e F Para um dado valor de p acha-se um valor de x a procura direta que para aNormal no R corresponderia a pnorm(x 983221 σ) Neste caso devo informar o x e os dois
paracircmetros da distribuiccedilatildeo Normal 983221 e σJaacute a procura inversa seria para um dado valor de x achar um valor de p que para a Normalno R corresponderia a qnorm(p983221σ) Neste outro caso devo informar o valor de p desejado etambeacutem os dois paracircmetros da distribuiccedilatildeo Normal 983221 e σ
Exemplo Seja X a va que corresponde ao peso (em kg) de pessoas de uma certapopulaccedilatildeo com meacutedia 983221=70 Kg e desvio padratildeo σ=8 Kg assim X~ N(983221=70 σ2=82)
Se desejarmosa) P(Xlt80) usaremos no R o comando pnorm(80 70 8) isto eacute x=80 eacute o primeiro paracircmetroenquanto 70 e 8 satildeo paracircmetro especiacuteficos da distribuiccedilatildeo Normal
b) Admita que o peso limite para ser classificado como obeso eacute o valor que corresponde a10 dos mais pesados do populaccedilatildeo Achar este peso limiteO que se pede eacute a funccedilatildeo inversa Dado um valor de p=090 achar um valor de x que deixa90 abaixo dele No R seria qnorm(09 70 8) isto eacute o valor da probabilidade p=09 eacute
o primeiro paracircmetro enquanto 70 e 8 satildeo paracircmetros especiacuteficos da distribuiccedilatildeo NormalSe usarmos a Normal padratildeo z=(x-983221)σ no caso do item a o comando seria pnorm((80-70)8)ou pnorm(125) Repare que neste caso natildeo foi necessaacuterio passar os paracircmetros especiacuteficos daNormal pois 983221=0 e σ =1 coresponde ao default Observaccedilatildeo Sempre que usarmos um p oprimeiro paracircmetro eacute um x e os outros satildeo especiacuteficos da distribuiccedilatildeo em questatildeosempre que usarmos um q o primeiro paracircmetro eacute um p e os outros satildeo especiacuteficosSempre que usarmos um d o primeiro paracircmetro eacute um x
Quando usarmos uma distribuiccedilatildeo discreta o d corresponde aacute probabilidade no ponto x
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2361
Pag 118 ndash Figura 412
x=seq(010001)
plot(xdexp(x 12) type=l xlim=c(012) ylim=c(01) bty=l ylab=f(x) e F(x))
for(i in seq(0 25 001)) segments(i 0 i dexp(i12) col=lightgrey)
abline(v=0 h=0)
points(xdexp(x 12) type=l lwd=2 bty=l)
points(x pexp(x 12) lwd=2 type=l)
segments(250 25pexp(2512))
Cap 2-b - va dexp pexp points segments
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2461
Cap 2-b - va disponiacuteveis no Rrbinom(n size prob) binomialrpois(n lambda) Poissonrgeom(n prob) geometricarhyper(nn m n k) hipergeometricarnbinom(n size prob) binomial negativarunif(n min=0 max=1) uniformerexp(n rate=1) exponentialrnorm(n mean=0 sd=1) Gaussiana (normal)rt(n df) lsquoStudentrsquo (t )rf(n df1 df2) FisherndashSnedecor (F )
rchisq(n df) Quiquadradar amma n sha e scale=1 amma rbeta(n shape1 shape2) betarlnorm(n meanlog=0 sdlog=1) lognormalrcauchy(n location=0 scale=1) Cauchyrweibull(n shape scale=1) Weibullrwilcox(nn m n) Wilcoxonrsquos rank sum statistics
rsignrank(nn n) Wilcoxonrsquos signed rank statisticsrlogis(n location=0 scale=1) logistic
Todas essas distribuiccedilotildees apresentadas por rnome (nome da variaacutevel aleatoacuteria) como vimostrocando a primeira letra e mantendo os paracircmetros especiacuteficos de cada distribuiccedilatildeo(denotados por ) podem ser usadas substituindo a letra ldquor rdquo por
d valor da densidade de probabilidade no ponto x dnome (x )p probabilidade acumulada no ponto x pnome (x )
q quantil correspondente a probabilidade acumulada p dnome (p)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2561
Cap 2-c O Teorema Central do Limite (TCL)O Teorema Central do Limite (abreviadamente TCL) diz respeito ao comportamento da
meacutedia amostral agrave medida que o tamanho n da amostra cresce indefinidamente
Exemplo 31 ndash A distribuiccedilatildeo de renda e o TCLEacute um fato conhecido que a distribuiccedilatildeo da rendapessoal dos habitantes de um paiacutes eacuteusualmente muito desigual ou seja muitosganham pouco e poucos ganham muito Seforem sorteados 200 habitantes desse paiacutes e
com base nas suas rendas mensais
Agora se forem sorteadas 200 amostrascada uma delas contendo 2 habitantesdesse paiacutes e se forem calculadas as 200respectivas meacutedias amostrais a partir delas obteremos o histograma a seguir
Agora cada uma das 200 amostrassorteadas contendo 30 habitantes dessepaiacutes e se forem calculadas as 200 meacutediasamostrais o histograma seria
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2661
Cap 2-c ndash TCL ExemploComo pode ser observado no caso de n = 2 o histograma se aproxima mais de uma curvaNormal do que no caso de n = 1 E no caso de n = 30 a semelhanccedila do histograma com umacurva Normal eacute ainda maior
O Teorema Central do Limite afirma que independentemente de qual seja a
distribuiccedilatildeo original dos Xirsquos a distribuiccedilatildeo de probabilidade de e a
distribuiccedilatildeo Normal com meacutedia micromicromicromicro e variacircncia σσσσ2 n se aproximam cada vez
mais uma da outra agrave medida que n cresce
Portanto mesmo que a distribuiccedilatildeo de probabilidade dos Xirsquos seja desconhecida o Teorema
X n
Central do Limite garante a possibilidade de usarmos o modelo Normal para calcular ainda quede forma aproximada probabilidades relativas agrave meacutedia amostral desde que n sejasuficientemente grande
Exemplo 62 Simulando o efeito do TCL
Para ilustrar o funcionamento do Teorema Central do Limite vamos exibir agora um exemploem que a distribuiccedilatildeo original a partir da qual os dados satildeo gerados eacute uma exponencial modelo
este que daacute origem a uma funccedilatildeo densidade bastante assimeacutetrica (ao contraacuterio do que ocorre
com a curva Normal) A densidade de uma exponencial com paracircmetro eacute dada pela
expressatildeo
No R rexp(n ) simula n valores
λ
0 xλef(x) λx ge= minusλ
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2761
Cap 2-c ndash TCL ExemploA densidade de uma exponencial com paracircmetro eacute dada pela expressatildeo
Gerando dados por simulaccedilatildeo a partir de uma exponencial com λ = 13 para cada um dos
seguintes tamanhos n de amostra 1 2 3 4 5 10 15 e 201 Obtivemos 200 valores da meacutedia amostral 2 Utilizamos esses 200 valores para construir um histograma3 Traccedilamos no mesmo graacutefico uma curva da densidade Normal com E( )=3 e DP( )=3Xn
λ 0 xλef(x) λx ge= minus
Xn n
Os 8 histogramas nos mostram que agrave medida que o tamanho n da amostra cresce
a forma do histograma se aproxima cada vez mais de uma curva Normal
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2861
Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com
simulaccedilotildees - Exponencial
tclexp=function(n N=200 titulo= yl=c(0 4)) iniacutecio da funccedilatildeo ndash tclexpmedias=numeric(N)
for (i in 1N) medias[i]= mean(rexp(n13))
hist(medias xlim=c(-110) ylim=yl freq=F main=titulo)
x=seq(-110 02)
points(x dnorm(x 3 3sqrt(1n) ) type=l lwd=3)
fim da funccedilatildeo
graphicsoff()
par(mfrow=c(33) mai=c(3411))
tclexp(1titulo=n=1)
tclexp(2titulo=n=2)
tclexp(3titulo=n=3)
tclexp(4titulo=n=4)
tclexp(5titulo=n=5)
tclexp(6titulo=n=6)
tclexp(10titulo=n=10yl=c(06))
tclexp(15titulo=n=15yl=c(06))
tclexp(20titulo=n=20yl=c(06))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2961
Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com
simulaccedilotildees - Exponencial
Uma pergunta natural neste ponto serialdquoQuatildeo grande deve ser n para que possamos usar a aproximaccedilatildeo fornecida pelo
TCL com um niacutevel de precisatildeo aceitaacutevelrdquo
A rapidez com que essa convergecircncia se daacute depende de quatildeo distante estaacute a forma
da distribuiccedilatildeo original das Xirsquos de uma curva Normal Em outras palavras se a
distribuiccedilatildeo das Xirsquos jaacute natildeo for muito diferente de uma Normal com um n natildeo muito-
grande (usualmente n ge 30) a aproximaccedilatildeo da distribuiccedilatildeo de por uma Normal
funcionaria adequadamente
No exemplo a seguir vamos apresentar esse fenocircmeno a saber a convergecircncia da
distribuiccedilatildeo de para uma Normal agrave medida que n cresce gerando por simulaccedilatildeo osdados originais a partir de diferentes modelos probabiliacutesticos Em todos os casos a
distribuiccedilatildeo original eacute bem diferente da Normal E(X)=3 e DP(X)=3 No que se refere agrave
Simulaccedilatildeo foi seguida a mesma sequumlecircncia de passos do exemplo anterior
Xn
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3061
Cap 2-c ndash TCL Exemplo
Exponencial
Uniforme
Mistura deNormais
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3161
Como se pode observar
1 No caso da distribuiccedilatildeo uniforme (A) o histograma de jaacute se aproximabastante de uma Normal quando n eacute da ordem de 4
2 Jaacute no caso da distribuiccedilatildeo Exponencial (B) e da mistura de normais
(C) modelos esses que se afastam muito mais de umldquo rdquo
Cap 2-c ndash TCL Exemplo
mostra mais adequada a partir de n em torno de 10
3 No caso do modelo em (C) agrave medida que n cresce tudo se passacomo se houvesse a ldquoerupccedilatildeo de um vulcatildeo dentro do valerdquo
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3261
tclunif=function(nN=100titulo= yl=c(0 4))
medias=numeric(N)for (i in 1N) medias[i]= mean(runif(n 3-3sqrt(3) 3+3sqrt(3)))
hist(medias xlim=c(-610) ylim=yl freq=F main=titulo)
x=seq(-610 02)
points(x dnorm(x 3 3sqrt(1n) ) type=l lwd=3)
medias
Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com
as simulaccedilotildees - Uniforme
grap cso
par(mfrow=c(33) mai=c(3411))
tclunif(1titulo=n=1yl=c(06))
tclunif(2titulo=n=2yl=c(06))
tclunif(3titulo=n=3yl=c(06))
tclunif(4titulo=n=4yl=c(06))tclunif(5titulo=n=5yl=c(06))
tclunif(6titulo=n=6yl=c(06))
tclunif(10titulo=n=10yl=c(06))
tclunif(15titulo=n=15yl=c(06))
tclunif(20titulo=n=20yl=c(06))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3361
X2=c(rnorm(35011) rnorm(15081)) X2 eacute a Populaccedilatildeo de onde retiramos as amostras
br=seq(-2 12 5)
tcl2modas=function(nN=200titulo= yl=c(0 6)) medias=numeric(N)for (i in 1N) medias[i]= mean(sample(X2nrep=T))hist(mediasbreaks=br xlim=c(-212) tcl=-01 ylim=yl xarp=c(-31216)
tck=005 lab=c(5515) freq=F main=titulo)x=seq(-312 02)
Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com
as simulaccedilotildees - Mistura de Normais
points(x dnorm(x med dpsqrt(n) ) type=l lwd=2)
par(mfrow=c(24) mai=c(3011) mar=c(2 2 2 1))
hist(X2 freq=F breaks=seq(-3125) bty=o xlim=c(-212)xarp=c(-31216)tck=005 lab=c(5515) ylim=c(06) main=POPULACcedilAtildeO lwd=2)
tcl2modas(2titulo=n=2)tcl2modas(3titulo=n=3)
tcl2modas(4titulo=n=4)
tcl2modas(5titulo=n=5)
tcl2modas(10titulo=n=10)
tcl2modas(15titulo=n=15)
tcl2modas(25titulo=n=25)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3461
CAP 3-a) Intervalo de ConfianccedilaSeja um estimador pontual do paracircmetro eacute uma variaacutevel aleatoacuteria que varia deamostra para amostra Por isso haacute uma certa dose de incerteza inerente a esse processode estimaccedilatildeo Nosso objetivo agora eacute obter com base nos dados amostrais (da uacutenicaamostra observada) um intervalo ao qual o valor correto do paracircmetro deve ter grandechance de pertencer
bull Detalhando um pouco mais No processo de estimaccedilatildeo por intervalo de um paracircmetro θdevemos determinar um intervalo que contenha o verdadeiro valor do paracircmetro comprobabilidade 1-α onde α eacute um pequeno valor preacute-fixado Este intervalo eacute construiacutedo emgeral em torno do estimador pontual considerando uma margem de erro d de forma aque uma vez fixada a probabilidade 1-α calculemos d tal que P( - d le θ le + d ) = 1 -αChama-se intervalo de confianccedila para θ ao niacutevel 1 - α ao intervalo [ - d + d]
θ $θ
$θ$θ
$θ $θ
$
θ
bull Ou seja o estimador pontual eacute o centro do Intervalo de Confianccedila e o erro absoluto dassociado a define a amplitude desse intervalo O que eacute de fato variaacutevel aleatoacuteria satildeoos extremos do intervalo O paracircmetro tem valor desconhecido natildeo aleatoacuterio (fixo a ser estimado)
Exemplo Intervalo de Confianccedila para a meacutedia populacional com o desvio padratildeo conhecidoO paracircmetro a estimar eacute a meacutedia populacional micro A estimaccedilatildeo seraacute baseada em X1 X2 Xn
uma amostra aleatoacuteria com E(Xi) = micro e var(Xi) = σ2 para todo i = 12 n Queremos que seja
vaacutelida a expressatildeo o que equivale a P [ -d le -micro le d] = 1-α
$θ
X[ ] α1dmicroXP minus=leminus
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3561
bull Lembrando que para n suficientemente grande pelo Teorema Central do Limite a meacutediaamostral segue uma distribuiccedilatildeo que se aproxima da Normal(micromicromicromicro σσσσ2 n) (ou eacute exatamente aNormal(micromicromicromicro σσσσ2 n) no caso em que a distribuiccedilatildeo comum das va Xirsquos jaacute eacute Normal) entatildeo
P [-d le -micromicromicromicro le d] = 1-α rArr 1-α = P [ |Z| le ] Logo d =
bull Faremos uma simulaccedilatildeo para a construccedilatildeo de Intervalos de Confianccedila com 100 amostras dedois tipos de populaccedilatildeo Normal e Exponencial A lista de comandos do R que usamos eacute
ICN = function (N n mu sigma = 3 conf)
plot(0 0 type=n xlim=c(010) ylim=c(0N) bty=l
xlab=Normal ylab=amostras)abline(v=mu)
CAP 3-a) Intervalo de Confianccedila
X
nσ
d
minus
z0 = qnorm(1-((1-conf)2))
sigmaxbarra = sigmasqrt(n)
for (i in 1N)
x = rnorm(n mu sigma)
media = mean(x)
li = media - z0 sigmaxbarrals = media + z0 sigmaxbarra
plotx = c(lils)
ploty = c(ii)
if (li gt mu | ls lt mu) lines(plotxploty col=red)
else lines(plotxploty)
gt ICN(100 25 3 3 95)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3661
CAP 3-a) Intervalo de Confianccedila
ICexp = function (N n lambda conf)
mu=1lambda sigma=1lambda
plot(0 0 type=n xlim=c(010) ylim=c(0N) bty=lxlab=Exponencial ylab=amostras)
abline(v= mu)
z0 = qnorm(1-((1-conf)2))
sigmaxbarra = sigmasqrt(n)
for (i in 1N)
x = rexp(nlambda) me a = mean x
li = media - z0 sigmaxbarra
ls = media + z0 sigmaxbarra
plotx = c(lils)
ploty = c(ii)
if (li gt mu | ls lt mu) lines(plotx ploty col=red)
else lines(plotx ploty)
gt ICexp(100 25 13 95)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3761
CAP 3-b Teste de Hipoacuteteses (TH)O objetivo de um teste de hipoacutetese eacute avaliar a validade de uma afirmaccedilatildeo sobre determinada
caracteriacutestica da populaccedilatildeo usando para isso os dados de uma amostra Essa caracteriacutestica eacute
representada pela va contiacutenua X cujo comportamento probabiliacutestico eacute expresso pela funccedilatildeo dedensidade f com paracircmetro Ө que tem valor desconhecido
Em um teste existem duas hipoacuteteses envolvidas H0 denominada hipoacutetese nula e H1
denominada hipoacutetese alternativa O procedimento de teste de hipoacutetese consiste em estabelecer
um criteacuterio de decisatildeo que leve a Aceitar ou Rejeitar H0 com base nos valores amostrais
A Estatiacutestica de teste eacute uma funccedilatildeo da amostra aleatoacuteria utilizada para definir o criteacuterio de
decisatildeo Estabelecer o criteacuterio de decisatildeo consiste em dividir o conjunto dos valores possiacuteveis
da estatiacutestica de teste em duas partes denominadas Regiatildeo de Aceitaccedilatildeo A e Regiatildeo de
Rejeiccedilatildeo R da hipoacutetese nula
Em um teste de hipoacutetese haacute dois tipos possiacuteveis de erro de decisatildeo
Erro I - Rejeitar H0 quando H0 eacute verdadeira
Erro II - Aceitar H0 quando H0 eacute falsaAs probabilidades de ocorrecircncia dos erros satildeo α = P [ Erro I ] e β = P [ Erro II]
A probabilidade de erro I α eacute o niacutevel de significacircncia do teste cujo valor eacute arbitrado pelo
pesquisador deve ser pequena pois corresponde a probabilidade de um erro (005 ou 001)
O niacutevel criacutetico ou p-valor do teste eacute o menor valor de α para o qual ainda rejeitariacuteamos H0 de
acordo com os dados observados
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3861
CAP 3-b) ndash TH teste tttest(x y = NULL alternative = c(twosided less greater) mu = 0
paired = FALSE varequal = FALSE conflevel = 095 )
Procedimentos de teste de hipoacuteteses com niacutevel de significacircncia α e amostras de tamanho n
UmaAmostra
DuasAmostras
Obs Os testes acima satildeo bilaterais
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3961
CAP 3ndashb) TH exemplo de teste t ndash amostras independentespag233- teste t amostras independente - comparaccedilatildeo log(salaacuterio)
entre os grupos de comeacutercio e de serviccedilo
LogSal=c(1289156912501344145616361573171309060903
0977122011031069128714101496131113371366
1227119114591280115217401649176524101701
1538192419251721154918911534163812071682
120614232010143112651570)
Sal=exp(LogSal)
setor= c(rep(C23) rep(S23))
ttest(Sal[setor==C] Sal[setor==S] varequal=T)
Two Sample t-test
data Sal[setor == C] and Sal[setor == S]
t = -36822 df = 44 p-value = 00006289
alternative hypothesis true difference in means is not equal to 095 percent confidence interval
-23079005 -06751838
sample estimates
mean of x mean of y3786010 5277552
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4061
CAP 3ndashb) TH exemplo de teste t ndash amostra pareadapag237- teste t pareado
P1=c(6315596455545480598065203660986853
8765647785536980827184605572645564)
P2=c(3638306043466455604343523428837155
8238556767443459605968506254473652)
ttest(P1 P2 alt=greater paired = T)
Paired t-test
data P1 and P2
t = 44176 df = 33 p-value = 5072e-05
alternative hypothesis true difference in means is greater than 0
95 percent confidence interval
0716695 Inf
sample estimates
mean of the differences
1161765
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4161
CAP 3ndashb) TH exemplo de teste Quiquadrado chisqtest
pag233- teste Quiquadrado -
tcont=matrix(c(683585251530258 7461761220225) 72)
chisqtest(tcont)
Pearsons Chi-squared test
data tcont- = = - lt -
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4261
CAP 3ndashb) TH exemplo de teste Quiquadrado chisqtestaov(formula data = NULL )
pag244- ANOVA - Comparaccedilatildeo de trecircs raccedilotildees para suinos
A=c(444943514475425134305342453630
322133421040395246294247453959)
B=c(343640545953445432686954414647
6566455739)
C=c(574040364566395025212927283942
21304143294244582849)
aumentoP=c(ABC)
racao=c(rep(A30)rep(B20) rep(C25))
summaryaov(aov(aumentoP ~ racao))
Df Sum Sq Mean Sq F value Pr(gtF)racao 2 15385 7693 56136 0005425
Residuals 72 98666 1370
---
Signif codes 0 lsquorsquo 0001 lsquorsquo 001 lsquorsquo 005 lsquorsquo 01 lsquo rsquo 1
Warning message
In modelmatrixdefault(mt mf contrasts)
variable racao converted to a factor
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4361
ApecircndicesA-1) Apresentaremos aqui algumas figuras
feitas no R na elaboraccedilatildeo do livro
Achamos que o exame desses coacutedigos acompanhado dos resultados podeser um bom aprendizado um exerciacutecio ou talvez uma recordaccedilatildeo do materialaqui exposto
A-2) Resumo de comandosa) Criaccedilatildeo de dados
b) Informaccedilatildeo de uma Variaacutevel
c) Seleccedilatildeo de dados e manipulaccedilatildeo
d) Estatiacutesticas e operaccedilotildees matemaacuteticas
e) Corte e extraccedilatildeo de dados
f) Operaccedilatildeo com Matrizes
g) Graacuteficos (Plotting)
h) Teste de hipoacuteteses
i) Programming
j) Commandos auxiliaries em Graacuteficos
k) Comando par (Graphical parameters)
l) Input and output
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4461
A1) ndash Pag 14 ndash Figura 15
IDADE=c(616961716371726866697267636663636067716360696463667164706366646969646372736871726968687379)
IMC= c(245273281301254301280234268228255228235232203226239243271227237258213243243248219234216214221227227211268278275267286253239258247284235)
par(mfrow=c(12))hist(IDADE breaks=c(6065707580) ylim=c(020) ylab=Nuacutemero de Observaccedilotildees
main= col=grey right = F)hist(IMC breaks=c(200225250275300325)
ylab=Nuacutemero de Observaccedilotildeesmain= col=grey right = F )
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4561
A1) ndash Pag 44 ndash Figura 21
mat=matrix(c(81823913601818608740)32)
rownames(mat)=c(AtivaSedentaacuteriaTotal)colnames(mat)=c(NormalSobrepeso)barplot(t(mat) beside = TRUE space=c(315)
col=gray(c(79))legend = c(NormalSobrepeso) ylim = c(0 95) ylab= - percentagem)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4661
A1) ndash Pag 48 ndash Figura 22
mat= matrix(c(68154510 66214215 66242519 39161711)44byrow=T)
rownames(mat)=c(18 a 21 anos 22 a 25 anos 26 a 30 anos 31 a 40 anos)colnames(mat)=c(CinTeatSMDEx)mat1=mat for (i in 14) mat1[i]lt-mat1[i]100sum(mat1[i]) par(mfrow=c(12) mai=c(1111) mar=c(5 4 2 2) )barplot(matbeside=F ylim=c(0250) legend = c(18 a 21 anos 22 a 25 anos
26 a 30 anos 31 a 40 anos) xlab=Contagem)
barplot(mat1 beside=F xlab=Percentagem)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4761
A1) ndash Pag 52 ndash Figura 25X= c(184114821789235159118762592403190408372147328526471687
09642871437079238215753399242122530314859149806)y =c(01837012540193301620014230140604568022870231400861019960235302186012798991801254018210244160823
0147764068011818941403474539680150133247023685518102146187520214097090257291227
036282905401406510810113849399)plot(x y xlim=c(07) ylim=c(05) pch=16 bty=l xlab=Renda per capita
ylab=Telefonia Fixa per capita)
abline(lsfit(xy))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4861
A1) ndash Pag 109 ndash Figura 45
x=020
y1=dpois(x1) y2=dpois(x3) y3=dpois(x10)names(y1)=x names(y2)=x names(y3)=xpar(mfrow=c(13))plot(y1ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=1)plot(y2ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=3)plot(y3ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=10)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4961
A1) ndash Pag 118 ndash Figura 412
x=seq(010001)
plot(xdexp(x 12) type=l xlim=c(012) ylim=c(01) bty=l ylab=f(x) eF(x))for(i in seq(0 25 001)) segments(i 0 i dexp(i12) col=lightgrey)abline(v=0 h=0)points(xdexp(x 12) type=l lwd=2 bty=l)points(xpexp(x 12) lwd=2 type=l)segments(250 25pexp(2512))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5061
A1) ndash Pag 163 ndash Figura 68
plot(p xlim=c(618) ylim=c(016) type=n bty=l xaxt=n xlab= ylab=
cexaxis=6)for (i in 1015) rect(i-50 i+5 dbinom(i304) col=lightgrey) lty=2)segments(i0idbinom(i304) lty=2)
x=seq(61801) lines(x dnorm(x12sqrt(72)) lwd=2)x=seq(61801) lines(x dnorm(x12sqrt(72)) lwd=2)
axis(1 916 cexaxis=9) ax s seq cexax s=
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5161
A1) ndash Pag 198 ndash Figura 78
x1=seq(-4402)plot(x1dnorm(x1) type=l lwd=3 xlab= ylab= )lines(x1 dt(x11)) lines(x1 dt(x12)) lines(x1 dt(x15))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5261
A2ndashResumo de comandos
a)Criaccedilatildeo de dados
c()funccedilatildeo geneacuterica para combinar argumentos com o formando de um vetor fromto gera uma sequecircnce ldquordquo tem prioridade de operator pe13 + 1 is ldquo234rdquo
seq(fromtoby) gera uma sequecircncia by= especifica incremento
length= especifica um comprimento desejado
rep(xtimes) replicate x onuacutemero times de vezes use each= para repetir cada
elemento de x rep(c(123)2) gera 1 2 3 1 2 3 rep(c(12)each=2) gera 1 1 2 2
matrix(xnrow=ncol=) matrix elementos de x se reciclam caso x
rbind()combina vetores em linhas num estrutura de matrizes de dados
cbind()combina vetores em colunas num estrutura de matrizes de dados
array(xdim=) matriz com dados x especificar dimensotildees como dim=c(342)
elementos de x se reciclam caso x natildeo seja suficientemente grande
factor(xlevels=) codifica um vetor x como um fator gl(nklength=nklabels=1n) gerar niacuteveis (fatores) especificando
o padratildeo de seus niacuteveis k eacute o nuacutemero de niacuteveis e n eacute o nuacutemero de repeticcedilotildees
dataframe() criar um banco de dados Por exemplo
dataframe(v=14ch=c(gBcasad)n=5)
list()criar uma lista de argumentos Por exemplo list(a=c(12)b=hic=3i)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5361
A2ndashResumo de comandos
b) Informaccedilatildeo de uma Variaacutevellength(x) nuacutemero de elementos em x
dim(x) Obter ou definir a dimensatildeo de um objeto dim (x) = c(32)dimnames(x) Obter ou definir os nomes das dimensotildees de um objeto
nrow(x) nuacutemero de linhas
ncol(x) nuacutemero de colunas
c) Seleccedilatildeo de dados e manipulaccedilatildeochoose(n k) calcula a combinaccedilatildeo de elementos escolhidos entre n
resultando n [(n-k) k]
cut(xbreaks) divide x em intervalos (fatores) breaks eacute o nuacutemero de intervalos de
corte ou um vetor com os valores especiacuteficos
table(x) retorna uma tabela com as quantidades dos diferentes valores de x
(tipicamente para variaacuteveis dos tipos inteiros ou fatores)
sample(x size) retira aleatoriamente com e sem reposiccedilatildeo elementos detamanho SIZE do vetor x a opccedilatildeo replace = TRUE permite a retirada com reposiccedilatildeo
proptable(xmargin=) transforma a tabela como tabela de propoccedilatildeo
marginal margin=1 (com relaccedilatildeo as linhas) margin=2 (com relaccedilatildeo as colunas)
sort(x) Classifica os elementos de x em ordem crescente para classificar em ordem
decrescente rev(sort(x))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5461
A2ndashResumo de comandosd) Estatiacutesticas e operaccedilotildees matemaacuteticasmean(x) media dos elementos de x
median(x) mediana dos elementos de x
quantile(xprobs=) quantis de x correspondendo a uma dada probabilidadevar(x) ou cov(x) variacircncia dos elementos de x (calculado com n-1)
se x eacute uma matriz a matriz de covariacircncia eacute calculada
sd(x) desvio padracirco de of x
cor(x) matriz de correlaccedilatildeo de x se x for uma matriz ou (1 se x eacute um vector)
cor(x y) correlaccedilatildeo linear entre X e Y ou matriz de correlaccedilatildeo se eles satildeo matrizes
round(x n) arredonda os elementos de x para n casas decimais sum x soma os e emen os e x
prod(x) multilica os elementos de x
max(x) acha o maacuteximo dos elementos de x
min(x) acha o miacutenimo dos elementos de x
range(x) equivalente a c(min(x)max(x)
cumsum(x) um vetor onde o eacutesimo elemento eacute a soma de x[1] ateacute x[i]cumprod(x) um vetor onde o eacutesimo elemento eacute o produto de x[1] ateacute x[i]
cummin(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
cummax(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
sincostanasinacosatanatan2loglog10exp)
log(x base) calcula o logaritmo de x na base=base
weightedmean(x w) media ponderada de x com peso= w
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5561
A2ndashResumo de comandos
e) Corte e extraccedilatildeo de dadosindexaccedilatildeo de Vetores
x[n] n-eacutesimo elemento do vetor
x[-n] todos menos o n-eacutesimo elemento
x[1n] os primeiros n elemento
x[-(1n)] elementos de n+1 ateacute o final
x[c(432)] elementos especificados
x[y gt 5] todo elementos de onde os valores de y satildeo maiores que 5
x x gt 3 amp x lt 5 todo elementos entre 3 e 5
x[nome] elemento denominado nome
indexaccedilatildeo de Matrizes
x[ij] elemento na linha i coluna j
x[i] linha i
x[j] coluna j
x[c(13)] colunas 1 and 3
x[nome] linha nomeada nome
indexaccedilatildeo de data frames
x[[nome]] coluna chamada nome
x$nome equivalente a coluna chamada nome
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5661
A2ndashResumo de comandos
f) Operaccedilatildeo com Matrizest(x) transposta da matrix x
diag(x) retira a diagonal da matrix x
multiplicaccedilatildeo matricial
solve(ab) resove a equaccedilatildeo a x = b em relaccedilatildeo a x
solve(a) matriz inversa de a
rowSum(x) soma das linhas da matrix x
colSum(x) soma das colunas da matrix x
rowMeans x meacutedia das linhas da matrix x
colMeans(x) id meacutedia das colunas da matrix x
g) Graacuteficos (Plotting)plot(x y) diagrama de disperccedilatildeo plot dos pares (xy) num sistema de eixos
coordenadoshist(x) histogram dasfrequecircncias of x
barplot(x) graacutefico de barras of x usar horiz=T ara barras horizontal
pie(x) graacutefico de setores (pie-chart)
boxplot(x)
qqnorm(x) quantis de x em relaccedilatildeo aos valores esperados de uma dist Normal
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5761
A2ndashResumo de comandosparametros dos commando de Graacutefico
type=p especifica o tipo de plot p pontos l linhas b pontos
ligados por linhas o idecircntico mas as linhas passam sobre os pontos h
linhas verticais s escada (steps) os dados satildeo representados pelas alturasverticais
xlim= ylim= especifica os limites inferiores e superiores dos eixos por exemplocom xlim=c(1 10) ou xlim=range(x)
xlab= ylab= nomeia os eixos o nome deve ser do tipo caracter
main= tiacutetulo principal deve ser do tipo caracter
sub= sub-tiacutetulo (escrito em fonte menor)
podem ser usados como bty(tipo de caixa) lwd (lagura da linha) lty (tipo delinha) pch(tipo de ponto) cex xaxs yaxs xaxtyaxt
h) Teste de hipoacuteteses
ttest()proptest()
chisqtest()
aov(formula) analysis of variance model
anova(fit) analysis of variance (or deviance) tables for one or more
fitted model objects
Use o commando gt test para procurar todos os testes disponiacuteveis
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5861
A2ndashResumo de comandos
i) Programmingfunction( arglist ) expr para definer uma funccedilatildeo
return(value)
if(cond) expr
if(cond) consexpr else altexpr
for(var in seq) expr
while(cond) expr
re eat ex r
break
Usar chaves entre commandos dlimitando o iniacutecio e o fim de um grupo decomandos
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5961
A2ndashResumo de comandos
j) Commandos auxiliaries em Graacuteficospoints(x y) adiciona pontos (a opccedilatildeo type= pode ser usada)
lines(x y) adiciona linhas (a opccedilatildeo type= pode ser usada)text(x y labels ) adiciona texto na coordenada (xy) um uso tiacutepico eacute
plot(x y type=n) text(x ynames)
segments(x0 y0 x1 y1) desenha linhas do ponto (x0 y0) ao (x1 y1)
arrows(x0 y0 x1 y1 angle= 30 code=2) desenha seta do ponto
(x0 y0) ao (x1 y1)
abline(ab) desenha uma reta de inclinaccedilatildeo b e intercepto a
abline(v=x) desenha uma reta vertical em x
abline(lsfit(xy)) desenha uma reta da regressatildeo feita em lsfit(xy)
rect(x1 y1 x2 y2) desenha um retacircngulo que a esquerda inferior tem coordenadas(x1 y1) e o limite da direita superiores (x2 y2)
polygon(x y) desenha um poliacutegono que une os pontos com coordenadas X e Y
legend(x y legend) Acrescenta a lenda no ponto (x y) com os siacutembolos
dada pela legend
title()adiciona um tiacutetulo e opcionalmente um sub-tiacutetulo
axis(side) acrescenta um eixo na parte inferior (side = 1) agrave esquerda (2) na partesuperior (3) ou agrave direita (4)
box()desenhar uma caixa em torno do plot
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6061
A2ndashResumo de comandos
k) Comando par (Graphical parameters)Todos estes comando podem ser definidos a niacutevel global com o par () que
especifica os paracircmetros mas tambeacutem muitos podem ser usados comoparametros dos commando de Graacutefico
mfcol vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em colunas
mfrow vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em linhas(matrix for row)
bty controla o tipo de caixa desenhada ao redor do enredo valores permitidos satildeo
o l 7 c u ou se bt =n a caixa natildeo eacute desenhada
lty controla o tipo de linhas pode ser um inteiro ou string (1 solid 2 dashed 3dotted 4 dotdash 5 longdash 6twodash) ou uma string de ateacuteoito caracteres (entre 0 e 9) que especifica o comprimento em pontos oupixels dos elementos desenhados e os espaccedilos em branco por exemplolty=rdquo44rdquo equivale a lty=2
lwd nuacutemero que controla a largura das linhas default 1pch controla o tipo de siacutembolo pode tambeacutem ser um nuacutemero inteiro entre 1 e 25
ps um inteiro que controla o tamanho em pontos de textos e siacutembolos
pty um caracter que especifica o tipo da regiatildeo s quadrado m maacuteximal
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6161
A2ndashResumo de comandos
l) Input and outputreadtable(file) lecirc um arquivo em formato de tabela e cria um quadro de dados a
partir dele o separador default = eacute espaccedilo em branco header = TRUE ler a
primeira linha como um cabeccedilalho de nomes de coluna asis = TRUE paraevitar aque um vetore de caracteres seja convertido em factores usocommentchar = para evitar seja interpretado como um comentaacuteriouso skip = n para pular n linhas antes da leitura de dados consulte a ajudapara as opccedilotildees de linha de nomeaccedilatildeo o tratamento NA e outros
readcsv(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por viacutergulas
readdelim(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por tabulaccedilotildees
readfwf(filewidthsheader=FALSEsep= asis=FALSE)
ler uma tabela de dados em formato fix de largura m para um dataframe widthseacute um vetor inteiro informando os tamanhos dos campos
sink(file) saiacuteda de todos os comandos para um arquivo ateacute aparecer um comando
sink () que desliga writetable(x file=rownames=Tcolnames=Tsep= ) imprime x apoacutes a
conversatildeo para banco de dados
save(file) guarda os objetos especificados () no formato XDR
load()carregar o conjunto de dados salvos com o comando save
data(x) carrega um conjunto de dados especificado
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1161
Para as variaacuteveis quantitativas os mais usados satildeo os Histogramas e os Diagramas Ramo-folhascujos comandos satildeo gthist(x) gt stem(x) Existe tambeacutem um comando chamado gtcut
que classifica uma variaacutevel numeacuterica Os principais argumentos do comando hist satildeo
hist(x breaks= freq =NULL right=T col=NULL main=xlim=range(breaks) ylim=NULL xlab=xname ylab) Onde
x a variaacutevel numeacuterica a ser discretizada (argumento obrigatoacuterio)
breaks vetor com os limites das classes
freq variaacutevel loacutegica se T (True) corresponde agrave contagem de cada classe se F (False) equivale adensidade de probabilidade a aacuterea total sob a curva (retacircngulos) teria soma 1
right variaacutevel loacutegica se T as classes satildeo fechadas agrave direira se F satildeo fechadas agrave esquerda
Cap1ndashAED stem cut table
main tiacutetulo principal
xlab e ylab roacutetulos dos eixos x e y respectivamente
xlim e ylim Dois valores limites para o graacutefico de cada uma das variaacuteveis
cut(x breaks right = T ) Onde
x a variaacutevel numeacuterica a ser discretizada (argumento obrigatoacuterio)breaks vetor com os limites das classes
right variaacutevel loacutegica se T as classes satildeo fechadas agrave direira se F agrave esquerda
stem(x hellip)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1261
Exemploda pag 15 ndash Figura 18
gt nt=c(18381254193316214231406456822872314
8611996235321861281254244214781182
347515012369214621412573362814071138) digitaccedilatildeo de nt
gt hist(nt breaks=c(50100150200250300350400450500) right=T
main=Histograma Telefonia fixa per capita
xlab=N linhas1000hab ylab=N de obs xlim=c(0500) ylim=c(010) col=grey) histograma da variavel gt
Cap1-AED hist
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1361
Exemploda pag 15 ndash Figura 18
gt nt=c(18381254193316214231406456822872314
8611996235321861281254244214781182
347515012369214621412573362814071138) digitaccedilatildeo de nt
gt stem(trunc(nt10)) o ramo a centena e a folha as dezenas
0 | 8
1 | 1122244441 | 5689
Cap1 AED ndash ex stem table cut
2 | 011123334
2 | 5
3 | 4
3 | 6
4 |
4 | 5
gt table(cut(nt breaks=c(50100150200250300350400450500) right=F))
[50100) [100150) [150200) [200250) [250300) [300350) [350400) [400450) [450500)
1 9 5 8 1 1 1 0 1
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1461
Para uma dada variaacutevel quantitativa uma medida de centralidade eacute um ldquovalor tiacutepicordquo em torno doqual se situam os valores daquela variaacutevelAs medidas de centralidade mais conhecidas satildeoa meacutedia aritmeacutetica e a mediana Usar os comando mean(x) median(y) Por exemplo
gt mean(nt)[1] 2001852gt median(nt)[1] 193Uma medida de localizaccedilatildeo eacute o quantil A funccedilatildeo apropriada do R para obter os quantis de um
vetor numeacuterico x eacute a funccedilatildeo gt quantile(x)Se desejarmos determinar os trecircs quartis usariacuteamos
o comando quantile(xc(02505075))
Se desejarmos o quinto o deacutecimo e o nonageacutesimo percentis usariacuteamos o comandogt quantile(xc(05010090))
Cap1-AED Medidas (estatiacutesticas)
O comando quantile(xp) retorna o quantil de ordem p das observaccedilotildees de x podendo p ser
um vetor Por exemplo
gt quantile(nt c(20 50 95))
20 50 95
1306 1930 3582
Uma medida de dispersatildeo para uma variaacutevel quantitativa eacute um indicador do grau de espalhamento
dos valores da amostra em torno da medida de centralidade As medidas de dispersatildeo mais
conhecidas satildeo a variacircncia o desvio-padratildeo e a distacircncia interquartil=diferenccedila entre o terceiro
e o primeiro quartis
gt var(nt)
[1] 7131464
gt sd(nt)
[1] 84448
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1561
gt q=fivenum(nt) q[4]-q[2] em q estatildeo os 5 nuacutem Subtraiacutemos o Q3 do Q1[1] 92
Os cinco valores x(1) Q1 Q2 Q3 x(n) miacutenimo os trecircs quartis e o maacuteximo satildeoimportantes para se ter uma boa ideacuteia da assimetria dos dados Esse valores podem serobtidos pelo comando fivenum(x) O summary(x) acrescenta tambeacutem a meacutedia ao resultado
Por exemplogt fivenum(nt)[1] 86 141 193 233 457gt summary(nt)
Min 1st Qu Median Mean 3rd Qu Max
860 1410 1930 2002 2330 4570
Cap1-AED IEQ fivenum boxplot
O Box Plot ou Desenho Esquemaacutetico eacute um graacutefico que se costuma utilizar para sintetizarem uma mesma figura vaacuterias informaccedilotildees relativas agrave distribuiccedilatildeo de uma determinadavariaacutevel quantitativa Nele tambeacutem satildeo representadas as observaccedilotildees discrepantesObservaccedilotildees discrepantes ou outliers satildeo observaccedilotildees cujos valores estatildeo muito afastadosdos demais (para mais ou para menos) Essas observaccedilotildees podem afetar de formasubstancial o resultado das anaacutelises estatiacutesticas O comando para usar-lo eacute boxplot(x)
Por exemplo ver fig 125 pag 28gt nt=c(18381254193316214231406456822872314
8611996235321861281254244214781182347515012369214621412573362814071138) digitaccedilatildeo de nt
gt boxplot(nt ylim=c(50500)xlab=N linhas1000hab)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1661
Quando se deseja investigar a relaccedilatildeo entre duas variaacuteveis qualitativas o caminho natural eacutemontar uma tabela de contingecircncia Construir uma tabela de contingecircncia consiste emcolocar nas linhas os valores possiacuteveis de uma variaacutevel e nas colunas os valores possiacuteveis
cruzamentoO comando para fazer a tabela seria gttable(xy)Por exemplogt tab12=readtable(fSBPO2010Rtab1_2txt header = T sep = )gt attach(tab12)
gt table(CATEG Classe_IMC)Classe_IMC
CATEG normal sobrepesoA 18 4
Cap1-AED Relaccedilatildeo entre duas variaacuteveis Qualitativas
Para analisar a relaccedilatildeo entre 2 variaacuteveis atraveacutes de uma tabela de contingecircncia umprocedimento muito uacutetil eacute calcular os percentuais em relaccedilatildeo aos totais das linhas etambeacutem os percentuais em relaccedilatildeo aos totais das colunas Os comandos seriamproptab(x1) para linha e proptab(x2) para coluna Por exemplo usando a tabela 25paacutegina 46
gt mat= matrix(c(68154510 66214215 66242519 39161711)44byrow=T)gt rownames(mat)=c(18 a 21 anos22 a 25 anos26 a 30 anos31 a 40 anos)gt colnames(mat)=c(CinTeatSMDEx)gt mat1=proptable(mat 1) por linha tab 27gt mat2=proptable(mat 2) por coluna tab 28
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1761
Cap1-AED Relaccedilatildeo entre duas variaacuteveis QuantitativaQuando se deseja investigar a relaccedilatildeo entre duas variaacuteveis quantitativas o mais adequado eacutecomeccedilar pela construccedilatildeo de um Diagrama de Dispersatildeo Construir um diagrama de
dispersatildeo para 2 variaacuteveis quantitativas X e Y consiste em localizar pares de valoresobservados (xi yi ) como pontos em um sistema de eixos coordenados O camando seriaplot(xy)Por exemplogtx=c(12345) y=c(11224) plot(xy)
Um indicador do grau de interdependecircncia linear para 2 variaacuteveis quantitativas X e Y eacute ocoeficiente de correlaccedilatildeo rxy que pode assumir qualquer valor real entre -1 e 1 Ocoeficiente de correlaccedilatildeo entre X e Y eacute calculado por uma das duas expressotildees
matemaacuteticas (equivalentes) a seguir
O comando seria cor(xy) Por exemplogtx=c(12345) y=c(11224) cor(xy)
[1] 09036961
sum sum
sum
sumsum
sum
= =
=
=
=
sdotminussdotminus
sdotsdotminus
=
minussdotminus
minusminus
=n
1i
n
1i
1222
i
22
i
n
1i
ii
122
i
2
i
n
1i
n
1i
ii
xy
)yny)(xnx(
yxnyx
)y(y)xx(
)y)(yx(x
r
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1861
Cap1-AED Relaccedilatildeo entre duas variaacuteveis Quantitativa
bull Quando se verifica atraveacutes do coeficiente de correlaccedilatildeo (ou pelo aspecto visual doDiagrama de Dispersatildeo) que existe uma forte relaccedilatildeo linear entre 2 variaacuteveis X e Y
pode ser de interesse calcular a equaccedilatildeo da reta que representa esta relaccedilatildeo entre as2 variaacuteveis y = a + bx A equaccedilatildeo y = a + bx considera que y eacute a variaacutevel dependente(ou variaacutevel resposta) e que x eacute a variaacutevel independente (ou variaacutevel preditora) a serusada para explicar o comportamento da variaacutevel y A equaccedilatildeo da reta pode ser usadapara se antever qual seria o valor y0 da variaacutevel resposta y correspondente a umdeterminado valor x0 da variaacutevel preditora x
bull As foacutermulas que nos permitem calcular os valores de a e b a partir dos dados satildeo
yxn
n
i
n
i sumsum
O coeficiente b mede a inclinaccedilatildeo da reta de Regressatildeo Entatildeo ao passarmos de um pontoa outro sobre a reta b mede a relaccedilatildeo entre as variaccedilotildees de y e de x O coeficiente a medeo valor de y quando x eacute igual a zero ou seja eacute o intercepto da reta de Regressatildeo
O comando para calcular os coeficientes a e b seria gt lsprint(lsfit(xy))gtx=c(12345) y=c(11224)gtreg=lsfit(xy)gtlsprint(reg)
n
x
x
nyx
b2
n
1i
in
1i
2
i
1i
ii
minus
minus
=
sumsum =
=
=
==
x bya sdotminus=e
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1961
Cap 2-a Simulaccedilatildeo do conceito frequumlentistaConceito Frequumlentista de Probabilidade Suponha que o experimentofoi repetido n vezes sempre sob as mesmas condiccedilotildees e que o evento Aocorreu m vezes entre essas n realizaccedilotildees do experimento Entatildeoa fraccedilatildeo mn eacute uma boa aproximaccedilatildeo para a probabilidade de Ase o nuacutemero n de repeticcedilotildees for bastante grande
Simbolicamente P (A) congcongcongcong mn
Exemplo Simulando 100 lanccedilamentos de uma moedaNo R foram simulados 100 lanccedilamentos de uma moeda equilibrada isto eacute
onde as chances de cara e de coroa satildeo iguais Depois de cadalanccedilamento foi observado o nuacutemero acumulado de caras obtidas ateacute essemomen o e o ca cu a a a proporccedil o e caras correspon en e a a e a aseguir estatildeo apresentados os valores correspondentes ao nuacutemeroacumulado de caras ao longo do processo Por exemplo para a jogada denuacutemero 29 o nuacutemero acumulado de caras eacute 13 e a fraccedilatildeo de caras eacute 1329O graacutefico abaixo mostra a evoluccedilatildeo dessa fraccedilatildeo agrave medida que foramfeitos os 100 lanccedilamentos da moeda
Os comandos no R para a elaboraccedilatildeo do graacutefico
gtx=1100 y=cumsum(sample(01100rep=T))gtplot(xy1100 ylim=c(01) xlim=c(0100) pch=16)gtsegments(10510005)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2061
Cap 2-b Variaacuteveis Aleatoacuterias (va)Uma variaacutevel aleatoacuteria (va) eacute uma funccedilatildeo que associa cada elemento de um
espaccedilo amostral a um nuacutemero real As variaacuteveis aleatoacuterias podem ser do
tipo
Discreto se os seus valores pertencem a um conjunto enumeraacutevel de nuacutemerosreais (usualmente valores inteiros)
Contiacutenuo se os seus valores pertencem a um intervalo de nuacutemeros reais
O modelo probabiliacutestico de uma variaacutevel aleatoacuteria X estabelece o padratildeo de
comportamento de sua distribuiccedilatildeo de probabilidadeA fun atildeo de robabilidade de uma v a discreta X eacute definida orp(x)=P[X=x]
A funccedilatildeo de distribuiccedilatildeo acumulada F de uma v a X eacute definida porF(x) = P[Xlelelelex]
Se X eacute uma va discreta que assume os valores x 1
x 2
x 3
x N
entatildeo
bull A meacutedia ou esperanccedila de X eacuteE(X) = x 1 P(X=x 1 ) + x 2 P(X=x 2 ) + x 3 P(X=x 3 ) + + x N P(X=x N )
bull A Variacircncia de X eacute calculada por |Var(X)=(x 1 ndashE(X))2 P(X=x 1 )+(x 2 ndashE(X))2 P(X=x 2 )++(x N ndashE(X))2 P(X=x N )
bull O desvio padratildeo de X eacute igual agrave raiz quadrada natildeo negativa da suavariacircncia DP(X)= Var(X)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2161
Cap 2-b - va e o RO trabalho no R com uma va X estaacute baseado em 4 procedimentos
p probability ndash Gera a probabilidade de um valor de xq quantile ndash Gera o valor x de uma dada probabilidade acumulada pd density ndash Gera o valor da funccedilatildeo densidade num valor x da variaacutevel
Observar que quando a variaacutevel eacute discreta este valor eacute aprobabilidade de x quando a variaacutevel eacute contiacutenua o resultadoeacute a altura da funccedilatildeo densidade de probabilidade
r random ndash Gera n valores do modelo probabiliacutestico em questatildeo
As distribuiccedilotildees que estudaremos estatildeo listadas a seguir depois de cada uma delasentre parecircnteses estaacute o nome no R
(geom) Binomial negativa- Pascal (nbinom)
Entre as contiacutenuas Uniforme (unif ) Exponencial (exp) Normal (norm) t-student (t)quiquadrado (chisq) F (f )
A interligaccedilatildeo dos trecircs primeiros procedimentos pq e d seraacute ilustrada pela distribuiccedilatildeoNormal atraveacutes do graacutefico abaixo
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2261
Cap 2-b - va pnorm e qnormSeja a relaccedilatildeo p = P(Xltx) que aparece na tabela da distribuiccedilatildeo Normal Quiquadrada
t-student e F Para um dado valor de p acha-se um valor de x a procura direta que para aNormal no R corresponderia a pnorm(x 983221 σ) Neste caso devo informar o x e os dois
paracircmetros da distribuiccedilatildeo Normal 983221 e σJaacute a procura inversa seria para um dado valor de x achar um valor de p que para a Normalno R corresponderia a qnorm(p983221σ) Neste outro caso devo informar o valor de p desejado etambeacutem os dois paracircmetros da distribuiccedilatildeo Normal 983221 e σ
Exemplo Seja X a va que corresponde ao peso (em kg) de pessoas de uma certapopulaccedilatildeo com meacutedia 983221=70 Kg e desvio padratildeo σ=8 Kg assim X~ N(983221=70 σ2=82)
Se desejarmosa) P(Xlt80) usaremos no R o comando pnorm(80 70 8) isto eacute x=80 eacute o primeiro paracircmetroenquanto 70 e 8 satildeo paracircmetro especiacuteficos da distribuiccedilatildeo Normal
b) Admita que o peso limite para ser classificado como obeso eacute o valor que corresponde a10 dos mais pesados do populaccedilatildeo Achar este peso limiteO que se pede eacute a funccedilatildeo inversa Dado um valor de p=090 achar um valor de x que deixa90 abaixo dele No R seria qnorm(09 70 8) isto eacute o valor da probabilidade p=09 eacute
o primeiro paracircmetro enquanto 70 e 8 satildeo paracircmetros especiacuteficos da distribuiccedilatildeo NormalSe usarmos a Normal padratildeo z=(x-983221)σ no caso do item a o comando seria pnorm((80-70)8)ou pnorm(125) Repare que neste caso natildeo foi necessaacuterio passar os paracircmetros especiacuteficos daNormal pois 983221=0 e σ =1 coresponde ao default Observaccedilatildeo Sempre que usarmos um p oprimeiro paracircmetro eacute um x e os outros satildeo especiacuteficos da distribuiccedilatildeo em questatildeosempre que usarmos um q o primeiro paracircmetro eacute um p e os outros satildeo especiacuteficosSempre que usarmos um d o primeiro paracircmetro eacute um x
Quando usarmos uma distribuiccedilatildeo discreta o d corresponde aacute probabilidade no ponto x
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2361
Pag 118 ndash Figura 412
x=seq(010001)
plot(xdexp(x 12) type=l xlim=c(012) ylim=c(01) bty=l ylab=f(x) e F(x))
for(i in seq(0 25 001)) segments(i 0 i dexp(i12) col=lightgrey)
abline(v=0 h=0)
points(xdexp(x 12) type=l lwd=2 bty=l)
points(x pexp(x 12) lwd=2 type=l)
segments(250 25pexp(2512))
Cap 2-b - va dexp pexp points segments
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2461
Cap 2-b - va disponiacuteveis no Rrbinom(n size prob) binomialrpois(n lambda) Poissonrgeom(n prob) geometricarhyper(nn m n k) hipergeometricarnbinom(n size prob) binomial negativarunif(n min=0 max=1) uniformerexp(n rate=1) exponentialrnorm(n mean=0 sd=1) Gaussiana (normal)rt(n df) lsquoStudentrsquo (t )rf(n df1 df2) FisherndashSnedecor (F )
rchisq(n df) Quiquadradar amma n sha e scale=1 amma rbeta(n shape1 shape2) betarlnorm(n meanlog=0 sdlog=1) lognormalrcauchy(n location=0 scale=1) Cauchyrweibull(n shape scale=1) Weibullrwilcox(nn m n) Wilcoxonrsquos rank sum statistics
rsignrank(nn n) Wilcoxonrsquos signed rank statisticsrlogis(n location=0 scale=1) logistic
Todas essas distribuiccedilotildees apresentadas por rnome (nome da variaacutevel aleatoacuteria) como vimostrocando a primeira letra e mantendo os paracircmetros especiacuteficos de cada distribuiccedilatildeo(denotados por ) podem ser usadas substituindo a letra ldquor rdquo por
d valor da densidade de probabilidade no ponto x dnome (x )p probabilidade acumulada no ponto x pnome (x )
q quantil correspondente a probabilidade acumulada p dnome (p)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2561
Cap 2-c O Teorema Central do Limite (TCL)O Teorema Central do Limite (abreviadamente TCL) diz respeito ao comportamento da
meacutedia amostral agrave medida que o tamanho n da amostra cresce indefinidamente
Exemplo 31 ndash A distribuiccedilatildeo de renda e o TCLEacute um fato conhecido que a distribuiccedilatildeo da rendapessoal dos habitantes de um paiacutes eacuteusualmente muito desigual ou seja muitosganham pouco e poucos ganham muito Seforem sorteados 200 habitantes desse paiacutes e
com base nas suas rendas mensais
Agora se forem sorteadas 200 amostrascada uma delas contendo 2 habitantesdesse paiacutes e se forem calculadas as 200respectivas meacutedias amostrais a partir delas obteremos o histograma a seguir
Agora cada uma das 200 amostrassorteadas contendo 30 habitantes dessepaiacutes e se forem calculadas as 200 meacutediasamostrais o histograma seria
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2661
Cap 2-c ndash TCL ExemploComo pode ser observado no caso de n = 2 o histograma se aproxima mais de uma curvaNormal do que no caso de n = 1 E no caso de n = 30 a semelhanccedila do histograma com umacurva Normal eacute ainda maior
O Teorema Central do Limite afirma que independentemente de qual seja a
distribuiccedilatildeo original dos Xirsquos a distribuiccedilatildeo de probabilidade de e a
distribuiccedilatildeo Normal com meacutedia micromicromicromicro e variacircncia σσσσ2 n se aproximam cada vez
mais uma da outra agrave medida que n cresce
Portanto mesmo que a distribuiccedilatildeo de probabilidade dos Xirsquos seja desconhecida o Teorema
X n
Central do Limite garante a possibilidade de usarmos o modelo Normal para calcular ainda quede forma aproximada probabilidades relativas agrave meacutedia amostral desde que n sejasuficientemente grande
Exemplo 62 Simulando o efeito do TCL
Para ilustrar o funcionamento do Teorema Central do Limite vamos exibir agora um exemploem que a distribuiccedilatildeo original a partir da qual os dados satildeo gerados eacute uma exponencial modelo
este que daacute origem a uma funccedilatildeo densidade bastante assimeacutetrica (ao contraacuterio do que ocorre
com a curva Normal) A densidade de uma exponencial com paracircmetro eacute dada pela
expressatildeo
No R rexp(n ) simula n valores
λ
0 xλef(x) λx ge= minusλ
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2761
Cap 2-c ndash TCL ExemploA densidade de uma exponencial com paracircmetro eacute dada pela expressatildeo
Gerando dados por simulaccedilatildeo a partir de uma exponencial com λ = 13 para cada um dos
seguintes tamanhos n de amostra 1 2 3 4 5 10 15 e 201 Obtivemos 200 valores da meacutedia amostral 2 Utilizamos esses 200 valores para construir um histograma3 Traccedilamos no mesmo graacutefico uma curva da densidade Normal com E( )=3 e DP( )=3Xn
λ 0 xλef(x) λx ge= minus
Xn n
Os 8 histogramas nos mostram que agrave medida que o tamanho n da amostra cresce
a forma do histograma se aproxima cada vez mais de uma curva Normal
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2861
Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com
simulaccedilotildees - Exponencial
tclexp=function(n N=200 titulo= yl=c(0 4)) iniacutecio da funccedilatildeo ndash tclexpmedias=numeric(N)
for (i in 1N) medias[i]= mean(rexp(n13))
hist(medias xlim=c(-110) ylim=yl freq=F main=titulo)
x=seq(-110 02)
points(x dnorm(x 3 3sqrt(1n) ) type=l lwd=3)
fim da funccedilatildeo
graphicsoff()
par(mfrow=c(33) mai=c(3411))
tclexp(1titulo=n=1)
tclexp(2titulo=n=2)
tclexp(3titulo=n=3)
tclexp(4titulo=n=4)
tclexp(5titulo=n=5)
tclexp(6titulo=n=6)
tclexp(10titulo=n=10yl=c(06))
tclexp(15titulo=n=15yl=c(06))
tclexp(20titulo=n=20yl=c(06))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2961
Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com
simulaccedilotildees - Exponencial
Uma pergunta natural neste ponto serialdquoQuatildeo grande deve ser n para que possamos usar a aproximaccedilatildeo fornecida pelo
TCL com um niacutevel de precisatildeo aceitaacutevelrdquo
A rapidez com que essa convergecircncia se daacute depende de quatildeo distante estaacute a forma
da distribuiccedilatildeo original das Xirsquos de uma curva Normal Em outras palavras se a
distribuiccedilatildeo das Xirsquos jaacute natildeo for muito diferente de uma Normal com um n natildeo muito-
grande (usualmente n ge 30) a aproximaccedilatildeo da distribuiccedilatildeo de por uma Normal
funcionaria adequadamente
No exemplo a seguir vamos apresentar esse fenocircmeno a saber a convergecircncia da
distribuiccedilatildeo de para uma Normal agrave medida que n cresce gerando por simulaccedilatildeo osdados originais a partir de diferentes modelos probabiliacutesticos Em todos os casos a
distribuiccedilatildeo original eacute bem diferente da Normal E(X)=3 e DP(X)=3 No que se refere agrave
Simulaccedilatildeo foi seguida a mesma sequumlecircncia de passos do exemplo anterior
Xn
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3061
Cap 2-c ndash TCL Exemplo
Exponencial
Uniforme
Mistura deNormais
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3161
Como se pode observar
1 No caso da distribuiccedilatildeo uniforme (A) o histograma de jaacute se aproximabastante de uma Normal quando n eacute da ordem de 4
2 Jaacute no caso da distribuiccedilatildeo Exponencial (B) e da mistura de normais
(C) modelos esses que se afastam muito mais de umldquo rdquo
Cap 2-c ndash TCL Exemplo
mostra mais adequada a partir de n em torno de 10
3 No caso do modelo em (C) agrave medida que n cresce tudo se passacomo se houvesse a ldquoerupccedilatildeo de um vulcatildeo dentro do valerdquo
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3261
tclunif=function(nN=100titulo= yl=c(0 4))
medias=numeric(N)for (i in 1N) medias[i]= mean(runif(n 3-3sqrt(3) 3+3sqrt(3)))
hist(medias xlim=c(-610) ylim=yl freq=F main=titulo)
x=seq(-610 02)
points(x dnorm(x 3 3sqrt(1n) ) type=l lwd=3)
medias
Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com
as simulaccedilotildees - Uniforme
grap cso
par(mfrow=c(33) mai=c(3411))
tclunif(1titulo=n=1yl=c(06))
tclunif(2titulo=n=2yl=c(06))
tclunif(3titulo=n=3yl=c(06))
tclunif(4titulo=n=4yl=c(06))tclunif(5titulo=n=5yl=c(06))
tclunif(6titulo=n=6yl=c(06))
tclunif(10titulo=n=10yl=c(06))
tclunif(15titulo=n=15yl=c(06))
tclunif(20titulo=n=20yl=c(06))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3361
X2=c(rnorm(35011) rnorm(15081)) X2 eacute a Populaccedilatildeo de onde retiramos as amostras
br=seq(-2 12 5)
tcl2modas=function(nN=200titulo= yl=c(0 6)) medias=numeric(N)for (i in 1N) medias[i]= mean(sample(X2nrep=T))hist(mediasbreaks=br xlim=c(-212) tcl=-01 ylim=yl xarp=c(-31216)
tck=005 lab=c(5515) freq=F main=titulo)x=seq(-312 02)
Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com
as simulaccedilotildees - Mistura de Normais
points(x dnorm(x med dpsqrt(n) ) type=l lwd=2)
par(mfrow=c(24) mai=c(3011) mar=c(2 2 2 1))
hist(X2 freq=F breaks=seq(-3125) bty=o xlim=c(-212)xarp=c(-31216)tck=005 lab=c(5515) ylim=c(06) main=POPULACcedilAtildeO lwd=2)
tcl2modas(2titulo=n=2)tcl2modas(3titulo=n=3)
tcl2modas(4titulo=n=4)
tcl2modas(5titulo=n=5)
tcl2modas(10titulo=n=10)
tcl2modas(15titulo=n=15)
tcl2modas(25titulo=n=25)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3461
CAP 3-a) Intervalo de ConfianccedilaSeja um estimador pontual do paracircmetro eacute uma variaacutevel aleatoacuteria que varia deamostra para amostra Por isso haacute uma certa dose de incerteza inerente a esse processode estimaccedilatildeo Nosso objetivo agora eacute obter com base nos dados amostrais (da uacutenicaamostra observada) um intervalo ao qual o valor correto do paracircmetro deve ter grandechance de pertencer
bull Detalhando um pouco mais No processo de estimaccedilatildeo por intervalo de um paracircmetro θdevemos determinar um intervalo que contenha o verdadeiro valor do paracircmetro comprobabilidade 1-α onde α eacute um pequeno valor preacute-fixado Este intervalo eacute construiacutedo emgeral em torno do estimador pontual considerando uma margem de erro d de forma aque uma vez fixada a probabilidade 1-α calculemos d tal que P( - d le θ le + d ) = 1 -αChama-se intervalo de confianccedila para θ ao niacutevel 1 - α ao intervalo [ - d + d]
θ $θ
$θ$θ
$θ $θ
$
θ
bull Ou seja o estimador pontual eacute o centro do Intervalo de Confianccedila e o erro absoluto dassociado a define a amplitude desse intervalo O que eacute de fato variaacutevel aleatoacuteria satildeoos extremos do intervalo O paracircmetro tem valor desconhecido natildeo aleatoacuterio (fixo a ser estimado)
Exemplo Intervalo de Confianccedila para a meacutedia populacional com o desvio padratildeo conhecidoO paracircmetro a estimar eacute a meacutedia populacional micro A estimaccedilatildeo seraacute baseada em X1 X2 Xn
uma amostra aleatoacuteria com E(Xi) = micro e var(Xi) = σ2 para todo i = 12 n Queremos que seja
vaacutelida a expressatildeo o que equivale a P [ -d le -micro le d] = 1-α
$θ
X[ ] α1dmicroXP minus=leminus
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3561
bull Lembrando que para n suficientemente grande pelo Teorema Central do Limite a meacutediaamostral segue uma distribuiccedilatildeo que se aproxima da Normal(micromicromicromicro σσσσ2 n) (ou eacute exatamente aNormal(micromicromicromicro σσσσ2 n) no caso em que a distribuiccedilatildeo comum das va Xirsquos jaacute eacute Normal) entatildeo
P [-d le -micromicromicromicro le d] = 1-α rArr 1-α = P [ |Z| le ] Logo d =
bull Faremos uma simulaccedilatildeo para a construccedilatildeo de Intervalos de Confianccedila com 100 amostras dedois tipos de populaccedilatildeo Normal e Exponencial A lista de comandos do R que usamos eacute
ICN = function (N n mu sigma = 3 conf)
plot(0 0 type=n xlim=c(010) ylim=c(0N) bty=l
xlab=Normal ylab=amostras)abline(v=mu)
CAP 3-a) Intervalo de Confianccedila
X
nσ
d
minus
z0 = qnorm(1-((1-conf)2))
sigmaxbarra = sigmasqrt(n)
for (i in 1N)
x = rnorm(n mu sigma)
media = mean(x)
li = media - z0 sigmaxbarrals = media + z0 sigmaxbarra
plotx = c(lils)
ploty = c(ii)
if (li gt mu | ls lt mu) lines(plotxploty col=red)
else lines(plotxploty)
gt ICN(100 25 3 3 95)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3661
CAP 3-a) Intervalo de Confianccedila
ICexp = function (N n lambda conf)
mu=1lambda sigma=1lambda
plot(0 0 type=n xlim=c(010) ylim=c(0N) bty=lxlab=Exponencial ylab=amostras)
abline(v= mu)
z0 = qnorm(1-((1-conf)2))
sigmaxbarra = sigmasqrt(n)
for (i in 1N)
x = rexp(nlambda) me a = mean x
li = media - z0 sigmaxbarra
ls = media + z0 sigmaxbarra
plotx = c(lils)
ploty = c(ii)
if (li gt mu | ls lt mu) lines(plotx ploty col=red)
else lines(plotx ploty)
gt ICexp(100 25 13 95)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3761
CAP 3-b Teste de Hipoacuteteses (TH)O objetivo de um teste de hipoacutetese eacute avaliar a validade de uma afirmaccedilatildeo sobre determinada
caracteriacutestica da populaccedilatildeo usando para isso os dados de uma amostra Essa caracteriacutestica eacute
representada pela va contiacutenua X cujo comportamento probabiliacutestico eacute expresso pela funccedilatildeo dedensidade f com paracircmetro Ө que tem valor desconhecido
Em um teste existem duas hipoacuteteses envolvidas H0 denominada hipoacutetese nula e H1
denominada hipoacutetese alternativa O procedimento de teste de hipoacutetese consiste em estabelecer
um criteacuterio de decisatildeo que leve a Aceitar ou Rejeitar H0 com base nos valores amostrais
A Estatiacutestica de teste eacute uma funccedilatildeo da amostra aleatoacuteria utilizada para definir o criteacuterio de
decisatildeo Estabelecer o criteacuterio de decisatildeo consiste em dividir o conjunto dos valores possiacuteveis
da estatiacutestica de teste em duas partes denominadas Regiatildeo de Aceitaccedilatildeo A e Regiatildeo de
Rejeiccedilatildeo R da hipoacutetese nula
Em um teste de hipoacutetese haacute dois tipos possiacuteveis de erro de decisatildeo
Erro I - Rejeitar H0 quando H0 eacute verdadeira
Erro II - Aceitar H0 quando H0 eacute falsaAs probabilidades de ocorrecircncia dos erros satildeo α = P [ Erro I ] e β = P [ Erro II]
A probabilidade de erro I α eacute o niacutevel de significacircncia do teste cujo valor eacute arbitrado pelo
pesquisador deve ser pequena pois corresponde a probabilidade de um erro (005 ou 001)
O niacutevel criacutetico ou p-valor do teste eacute o menor valor de α para o qual ainda rejeitariacuteamos H0 de
acordo com os dados observados
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3861
CAP 3-b) ndash TH teste tttest(x y = NULL alternative = c(twosided less greater) mu = 0
paired = FALSE varequal = FALSE conflevel = 095 )
Procedimentos de teste de hipoacuteteses com niacutevel de significacircncia α e amostras de tamanho n
UmaAmostra
DuasAmostras
Obs Os testes acima satildeo bilaterais
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3961
CAP 3ndashb) TH exemplo de teste t ndash amostras independentespag233- teste t amostras independente - comparaccedilatildeo log(salaacuterio)
entre os grupos de comeacutercio e de serviccedilo
LogSal=c(1289156912501344145616361573171309060903
0977122011031069128714101496131113371366
1227119114591280115217401649176524101701
1538192419251721154918911534163812071682
120614232010143112651570)
Sal=exp(LogSal)
setor= c(rep(C23) rep(S23))
ttest(Sal[setor==C] Sal[setor==S] varequal=T)
Two Sample t-test
data Sal[setor == C] and Sal[setor == S]
t = -36822 df = 44 p-value = 00006289
alternative hypothesis true difference in means is not equal to 095 percent confidence interval
-23079005 -06751838
sample estimates
mean of x mean of y3786010 5277552
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4061
CAP 3ndashb) TH exemplo de teste t ndash amostra pareadapag237- teste t pareado
P1=c(6315596455545480598065203660986853
8765647785536980827184605572645564)
P2=c(3638306043466455604343523428837155
8238556767443459605968506254473652)
ttest(P1 P2 alt=greater paired = T)
Paired t-test
data P1 and P2
t = 44176 df = 33 p-value = 5072e-05
alternative hypothesis true difference in means is greater than 0
95 percent confidence interval
0716695 Inf
sample estimates
mean of the differences
1161765
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4161
CAP 3ndashb) TH exemplo de teste Quiquadrado chisqtest
pag233- teste Quiquadrado -
tcont=matrix(c(683585251530258 7461761220225) 72)
chisqtest(tcont)
Pearsons Chi-squared test
data tcont- = = - lt -
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4261
CAP 3ndashb) TH exemplo de teste Quiquadrado chisqtestaov(formula data = NULL )
pag244- ANOVA - Comparaccedilatildeo de trecircs raccedilotildees para suinos
A=c(444943514475425134305342453630
322133421040395246294247453959)
B=c(343640545953445432686954414647
6566455739)
C=c(574040364566395025212927283942
21304143294244582849)
aumentoP=c(ABC)
racao=c(rep(A30)rep(B20) rep(C25))
summaryaov(aov(aumentoP ~ racao))
Df Sum Sq Mean Sq F value Pr(gtF)racao 2 15385 7693 56136 0005425
Residuals 72 98666 1370
---
Signif codes 0 lsquorsquo 0001 lsquorsquo 001 lsquorsquo 005 lsquorsquo 01 lsquo rsquo 1
Warning message
In modelmatrixdefault(mt mf contrasts)
variable racao converted to a factor
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4361
ApecircndicesA-1) Apresentaremos aqui algumas figuras
feitas no R na elaboraccedilatildeo do livro
Achamos que o exame desses coacutedigos acompanhado dos resultados podeser um bom aprendizado um exerciacutecio ou talvez uma recordaccedilatildeo do materialaqui exposto
A-2) Resumo de comandosa) Criaccedilatildeo de dados
b) Informaccedilatildeo de uma Variaacutevel
c) Seleccedilatildeo de dados e manipulaccedilatildeo
d) Estatiacutesticas e operaccedilotildees matemaacuteticas
e) Corte e extraccedilatildeo de dados
f) Operaccedilatildeo com Matrizes
g) Graacuteficos (Plotting)
h) Teste de hipoacuteteses
i) Programming
j) Commandos auxiliaries em Graacuteficos
k) Comando par (Graphical parameters)
l) Input and output
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4461
A1) ndash Pag 14 ndash Figura 15
IDADE=c(616961716371726866697267636663636067716360696463667164706366646969646372736871726968687379)
IMC= c(245273281301254301280234268228255228235232203226239243271227237258213243243248219234216214221227227211268278275267286253239258247284235)
par(mfrow=c(12))hist(IDADE breaks=c(6065707580) ylim=c(020) ylab=Nuacutemero de Observaccedilotildees
main= col=grey right = F)hist(IMC breaks=c(200225250275300325)
ylab=Nuacutemero de Observaccedilotildeesmain= col=grey right = F )
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4561
A1) ndash Pag 44 ndash Figura 21
mat=matrix(c(81823913601818608740)32)
rownames(mat)=c(AtivaSedentaacuteriaTotal)colnames(mat)=c(NormalSobrepeso)barplot(t(mat) beside = TRUE space=c(315)
col=gray(c(79))legend = c(NormalSobrepeso) ylim = c(0 95) ylab= - percentagem)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4661
A1) ndash Pag 48 ndash Figura 22
mat= matrix(c(68154510 66214215 66242519 39161711)44byrow=T)
rownames(mat)=c(18 a 21 anos 22 a 25 anos 26 a 30 anos 31 a 40 anos)colnames(mat)=c(CinTeatSMDEx)mat1=mat for (i in 14) mat1[i]lt-mat1[i]100sum(mat1[i]) par(mfrow=c(12) mai=c(1111) mar=c(5 4 2 2) )barplot(matbeside=F ylim=c(0250) legend = c(18 a 21 anos 22 a 25 anos
26 a 30 anos 31 a 40 anos) xlab=Contagem)
barplot(mat1 beside=F xlab=Percentagem)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4761
A1) ndash Pag 52 ndash Figura 25X= c(184114821789235159118762592403190408372147328526471687
09642871437079238215753399242122530314859149806)y =c(01837012540193301620014230140604568022870231400861019960235302186012798991801254018210244160823
0147764068011818941403474539680150133247023685518102146187520214097090257291227
036282905401406510810113849399)plot(x y xlim=c(07) ylim=c(05) pch=16 bty=l xlab=Renda per capita
ylab=Telefonia Fixa per capita)
abline(lsfit(xy))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4861
A1) ndash Pag 109 ndash Figura 45
x=020
y1=dpois(x1) y2=dpois(x3) y3=dpois(x10)names(y1)=x names(y2)=x names(y3)=xpar(mfrow=c(13))plot(y1ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=1)plot(y2ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=3)plot(y3ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=10)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4961
A1) ndash Pag 118 ndash Figura 412
x=seq(010001)
plot(xdexp(x 12) type=l xlim=c(012) ylim=c(01) bty=l ylab=f(x) eF(x))for(i in seq(0 25 001)) segments(i 0 i dexp(i12) col=lightgrey)abline(v=0 h=0)points(xdexp(x 12) type=l lwd=2 bty=l)points(xpexp(x 12) lwd=2 type=l)segments(250 25pexp(2512))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5061
A1) ndash Pag 163 ndash Figura 68
plot(p xlim=c(618) ylim=c(016) type=n bty=l xaxt=n xlab= ylab=
cexaxis=6)for (i in 1015) rect(i-50 i+5 dbinom(i304) col=lightgrey) lty=2)segments(i0idbinom(i304) lty=2)
x=seq(61801) lines(x dnorm(x12sqrt(72)) lwd=2)x=seq(61801) lines(x dnorm(x12sqrt(72)) lwd=2)
axis(1 916 cexaxis=9) ax s seq cexax s=
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5161
A1) ndash Pag 198 ndash Figura 78
x1=seq(-4402)plot(x1dnorm(x1) type=l lwd=3 xlab= ylab= )lines(x1 dt(x11)) lines(x1 dt(x12)) lines(x1 dt(x15))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5261
A2ndashResumo de comandos
a)Criaccedilatildeo de dados
c()funccedilatildeo geneacuterica para combinar argumentos com o formando de um vetor fromto gera uma sequecircnce ldquordquo tem prioridade de operator pe13 + 1 is ldquo234rdquo
seq(fromtoby) gera uma sequecircncia by= especifica incremento
length= especifica um comprimento desejado
rep(xtimes) replicate x onuacutemero times de vezes use each= para repetir cada
elemento de x rep(c(123)2) gera 1 2 3 1 2 3 rep(c(12)each=2) gera 1 1 2 2
matrix(xnrow=ncol=) matrix elementos de x se reciclam caso x
rbind()combina vetores em linhas num estrutura de matrizes de dados
cbind()combina vetores em colunas num estrutura de matrizes de dados
array(xdim=) matriz com dados x especificar dimensotildees como dim=c(342)
elementos de x se reciclam caso x natildeo seja suficientemente grande
factor(xlevels=) codifica um vetor x como um fator gl(nklength=nklabels=1n) gerar niacuteveis (fatores) especificando
o padratildeo de seus niacuteveis k eacute o nuacutemero de niacuteveis e n eacute o nuacutemero de repeticcedilotildees
dataframe() criar um banco de dados Por exemplo
dataframe(v=14ch=c(gBcasad)n=5)
list()criar uma lista de argumentos Por exemplo list(a=c(12)b=hic=3i)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5361
A2ndashResumo de comandos
b) Informaccedilatildeo de uma Variaacutevellength(x) nuacutemero de elementos em x
dim(x) Obter ou definir a dimensatildeo de um objeto dim (x) = c(32)dimnames(x) Obter ou definir os nomes das dimensotildees de um objeto
nrow(x) nuacutemero de linhas
ncol(x) nuacutemero de colunas
c) Seleccedilatildeo de dados e manipulaccedilatildeochoose(n k) calcula a combinaccedilatildeo de elementos escolhidos entre n
resultando n [(n-k) k]
cut(xbreaks) divide x em intervalos (fatores) breaks eacute o nuacutemero de intervalos de
corte ou um vetor com os valores especiacuteficos
table(x) retorna uma tabela com as quantidades dos diferentes valores de x
(tipicamente para variaacuteveis dos tipos inteiros ou fatores)
sample(x size) retira aleatoriamente com e sem reposiccedilatildeo elementos detamanho SIZE do vetor x a opccedilatildeo replace = TRUE permite a retirada com reposiccedilatildeo
proptable(xmargin=) transforma a tabela como tabela de propoccedilatildeo
marginal margin=1 (com relaccedilatildeo as linhas) margin=2 (com relaccedilatildeo as colunas)
sort(x) Classifica os elementos de x em ordem crescente para classificar em ordem
decrescente rev(sort(x))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5461
A2ndashResumo de comandosd) Estatiacutesticas e operaccedilotildees matemaacuteticasmean(x) media dos elementos de x
median(x) mediana dos elementos de x
quantile(xprobs=) quantis de x correspondendo a uma dada probabilidadevar(x) ou cov(x) variacircncia dos elementos de x (calculado com n-1)
se x eacute uma matriz a matriz de covariacircncia eacute calculada
sd(x) desvio padracirco de of x
cor(x) matriz de correlaccedilatildeo de x se x for uma matriz ou (1 se x eacute um vector)
cor(x y) correlaccedilatildeo linear entre X e Y ou matriz de correlaccedilatildeo se eles satildeo matrizes
round(x n) arredonda os elementos de x para n casas decimais sum x soma os e emen os e x
prod(x) multilica os elementos de x
max(x) acha o maacuteximo dos elementos de x
min(x) acha o miacutenimo dos elementos de x
range(x) equivalente a c(min(x)max(x)
cumsum(x) um vetor onde o eacutesimo elemento eacute a soma de x[1] ateacute x[i]cumprod(x) um vetor onde o eacutesimo elemento eacute o produto de x[1] ateacute x[i]
cummin(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
cummax(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
sincostanasinacosatanatan2loglog10exp)
log(x base) calcula o logaritmo de x na base=base
weightedmean(x w) media ponderada de x com peso= w
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5561
A2ndashResumo de comandos
e) Corte e extraccedilatildeo de dadosindexaccedilatildeo de Vetores
x[n] n-eacutesimo elemento do vetor
x[-n] todos menos o n-eacutesimo elemento
x[1n] os primeiros n elemento
x[-(1n)] elementos de n+1 ateacute o final
x[c(432)] elementos especificados
x[y gt 5] todo elementos de onde os valores de y satildeo maiores que 5
x x gt 3 amp x lt 5 todo elementos entre 3 e 5
x[nome] elemento denominado nome
indexaccedilatildeo de Matrizes
x[ij] elemento na linha i coluna j
x[i] linha i
x[j] coluna j
x[c(13)] colunas 1 and 3
x[nome] linha nomeada nome
indexaccedilatildeo de data frames
x[[nome]] coluna chamada nome
x$nome equivalente a coluna chamada nome
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5661
A2ndashResumo de comandos
f) Operaccedilatildeo com Matrizest(x) transposta da matrix x
diag(x) retira a diagonal da matrix x
multiplicaccedilatildeo matricial
solve(ab) resove a equaccedilatildeo a x = b em relaccedilatildeo a x
solve(a) matriz inversa de a
rowSum(x) soma das linhas da matrix x
colSum(x) soma das colunas da matrix x
rowMeans x meacutedia das linhas da matrix x
colMeans(x) id meacutedia das colunas da matrix x
g) Graacuteficos (Plotting)plot(x y) diagrama de disperccedilatildeo plot dos pares (xy) num sistema de eixos
coordenadoshist(x) histogram dasfrequecircncias of x
barplot(x) graacutefico de barras of x usar horiz=T ara barras horizontal
pie(x) graacutefico de setores (pie-chart)
boxplot(x)
qqnorm(x) quantis de x em relaccedilatildeo aos valores esperados de uma dist Normal
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5761
A2ndashResumo de comandosparametros dos commando de Graacutefico
type=p especifica o tipo de plot p pontos l linhas b pontos
ligados por linhas o idecircntico mas as linhas passam sobre os pontos h
linhas verticais s escada (steps) os dados satildeo representados pelas alturasverticais
xlim= ylim= especifica os limites inferiores e superiores dos eixos por exemplocom xlim=c(1 10) ou xlim=range(x)
xlab= ylab= nomeia os eixos o nome deve ser do tipo caracter
main= tiacutetulo principal deve ser do tipo caracter
sub= sub-tiacutetulo (escrito em fonte menor)
podem ser usados como bty(tipo de caixa) lwd (lagura da linha) lty (tipo delinha) pch(tipo de ponto) cex xaxs yaxs xaxtyaxt
h) Teste de hipoacuteteses
ttest()proptest()
chisqtest()
aov(formula) analysis of variance model
anova(fit) analysis of variance (or deviance) tables for one or more
fitted model objects
Use o commando gt test para procurar todos os testes disponiacuteveis
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5861
A2ndashResumo de comandos
i) Programmingfunction( arglist ) expr para definer uma funccedilatildeo
return(value)
if(cond) expr
if(cond) consexpr else altexpr
for(var in seq) expr
while(cond) expr
re eat ex r
break
Usar chaves entre commandos dlimitando o iniacutecio e o fim de um grupo decomandos
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5961
A2ndashResumo de comandos
j) Commandos auxiliaries em Graacuteficospoints(x y) adiciona pontos (a opccedilatildeo type= pode ser usada)
lines(x y) adiciona linhas (a opccedilatildeo type= pode ser usada)text(x y labels ) adiciona texto na coordenada (xy) um uso tiacutepico eacute
plot(x y type=n) text(x ynames)
segments(x0 y0 x1 y1) desenha linhas do ponto (x0 y0) ao (x1 y1)
arrows(x0 y0 x1 y1 angle= 30 code=2) desenha seta do ponto
(x0 y0) ao (x1 y1)
abline(ab) desenha uma reta de inclinaccedilatildeo b e intercepto a
abline(v=x) desenha uma reta vertical em x
abline(lsfit(xy)) desenha uma reta da regressatildeo feita em lsfit(xy)
rect(x1 y1 x2 y2) desenha um retacircngulo que a esquerda inferior tem coordenadas(x1 y1) e o limite da direita superiores (x2 y2)
polygon(x y) desenha um poliacutegono que une os pontos com coordenadas X e Y
legend(x y legend) Acrescenta a lenda no ponto (x y) com os siacutembolos
dada pela legend
title()adiciona um tiacutetulo e opcionalmente um sub-tiacutetulo
axis(side) acrescenta um eixo na parte inferior (side = 1) agrave esquerda (2) na partesuperior (3) ou agrave direita (4)
box()desenhar uma caixa em torno do plot
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6061
A2ndashResumo de comandos
k) Comando par (Graphical parameters)Todos estes comando podem ser definidos a niacutevel global com o par () que
especifica os paracircmetros mas tambeacutem muitos podem ser usados comoparametros dos commando de Graacutefico
mfcol vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em colunas
mfrow vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em linhas(matrix for row)
bty controla o tipo de caixa desenhada ao redor do enredo valores permitidos satildeo
o l 7 c u ou se bt =n a caixa natildeo eacute desenhada
lty controla o tipo de linhas pode ser um inteiro ou string (1 solid 2 dashed 3dotted 4 dotdash 5 longdash 6twodash) ou uma string de ateacuteoito caracteres (entre 0 e 9) que especifica o comprimento em pontos oupixels dos elementos desenhados e os espaccedilos em branco por exemplolty=rdquo44rdquo equivale a lty=2
lwd nuacutemero que controla a largura das linhas default 1pch controla o tipo de siacutembolo pode tambeacutem ser um nuacutemero inteiro entre 1 e 25
ps um inteiro que controla o tamanho em pontos de textos e siacutembolos
pty um caracter que especifica o tipo da regiatildeo s quadrado m maacuteximal
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6161
A2ndashResumo de comandos
l) Input and outputreadtable(file) lecirc um arquivo em formato de tabela e cria um quadro de dados a
partir dele o separador default = eacute espaccedilo em branco header = TRUE ler a
primeira linha como um cabeccedilalho de nomes de coluna asis = TRUE paraevitar aque um vetore de caracteres seja convertido em factores usocommentchar = para evitar seja interpretado como um comentaacuteriouso skip = n para pular n linhas antes da leitura de dados consulte a ajudapara as opccedilotildees de linha de nomeaccedilatildeo o tratamento NA e outros
readcsv(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por viacutergulas
readdelim(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por tabulaccedilotildees
readfwf(filewidthsheader=FALSEsep= asis=FALSE)
ler uma tabela de dados em formato fix de largura m para um dataframe widthseacute um vetor inteiro informando os tamanhos dos campos
sink(file) saiacuteda de todos os comandos para um arquivo ateacute aparecer um comando
sink () que desliga writetable(x file=rownames=Tcolnames=Tsep= ) imprime x apoacutes a
conversatildeo para banco de dados
save(file) guarda os objetos especificados () no formato XDR
load()carregar o conjunto de dados salvos com o comando save
data(x) carrega um conjunto de dados especificado
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1261
Exemploda pag 15 ndash Figura 18
gt nt=c(18381254193316214231406456822872314
8611996235321861281254244214781182
347515012369214621412573362814071138) digitaccedilatildeo de nt
gt hist(nt breaks=c(50100150200250300350400450500) right=T
main=Histograma Telefonia fixa per capita
xlab=N linhas1000hab ylab=N de obs xlim=c(0500) ylim=c(010) col=grey) histograma da variavel gt
Cap1-AED hist
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1361
Exemploda pag 15 ndash Figura 18
gt nt=c(18381254193316214231406456822872314
8611996235321861281254244214781182
347515012369214621412573362814071138) digitaccedilatildeo de nt
gt stem(trunc(nt10)) o ramo a centena e a folha as dezenas
0 | 8
1 | 1122244441 | 5689
Cap1 AED ndash ex stem table cut
2 | 011123334
2 | 5
3 | 4
3 | 6
4 |
4 | 5
gt table(cut(nt breaks=c(50100150200250300350400450500) right=F))
[50100) [100150) [150200) [200250) [250300) [300350) [350400) [400450) [450500)
1 9 5 8 1 1 1 0 1
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1461
Para uma dada variaacutevel quantitativa uma medida de centralidade eacute um ldquovalor tiacutepicordquo em torno doqual se situam os valores daquela variaacutevelAs medidas de centralidade mais conhecidas satildeoa meacutedia aritmeacutetica e a mediana Usar os comando mean(x) median(y) Por exemplo
gt mean(nt)[1] 2001852gt median(nt)[1] 193Uma medida de localizaccedilatildeo eacute o quantil A funccedilatildeo apropriada do R para obter os quantis de um
vetor numeacuterico x eacute a funccedilatildeo gt quantile(x)Se desejarmos determinar os trecircs quartis usariacuteamos
o comando quantile(xc(02505075))
Se desejarmos o quinto o deacutecimo e o nonageacutesimo percentis usariacuteamos o comandogt quantile(xc(05010090))
Cap1-AED Medidas (estatiacutesticas)
O comando quantile(xp) retorna o quantil de ordem p das observaccedilotildees de x podendo p ser
um vetor Por exemplo
gt quantile(nt c(20 50 95))
20 50 95
1306 1930 3582
Uma medida de dispersatildeo para uma variaacutevel quantitativa eacute um indicador do grau de espalhamento
dos valores da amostra em torno da medida de centralidade As medidas de dispersatildeo mais
conhecidas satildeo a variacircncia o desvio-padratildeo e a distacircncia interquartil=diferenccedila entre o terceiro
e o primeiro quartis
gt var(nt)
[1] 7131464
gt sd(nt)
[1] 84448
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1561
gt q=fivenum(nt) q[4]-q[2] em q estatildeo os 5 nuacutem Subtraiacutemos o Q3 do Q1[1] 92
Os cinco valores x(1) Q1 Q2 Q3 x(n) miacutenimo os trecircs quartis e o maacuteximo satildeoimportantes para se ter uma boa ideacuteia da assimetria dos dados Esse valores podem serobtidos pelo comando fivenum(x) O summary(x) acrescenta tambeacutem a meacutedia ao resultado
Por exemplogt fivenum(nt)[1] 86 141 193 233 457gt summary(nt)
Min 1st Qu Median Mean 3rd Qu Max
860 1410 1930 2002 2330 4570
Cap1-AED IEQ fivenum boxplot
O Box Plot ou Desenho Esquemaacutetico eacute um graacutefico que se costuma utilizar para sintetizarem uma mesma figura vaacuterias informaccedilotildees relativas agrave distribuiccedilatildeo de uma determinadavariaacutevel quantitativa Nele tambeacutem satildeo representadas as observaccedilotildees discrepantesObservaccedilotildees discrepantes ou outliers satildeo observaccedilotildees cujos valores estatildeo muito afastadosdos demais (para mais ou para menos) Essas observaccedilotildees podem afetar de formasubstancial o resultado das anaacutelises estatiacutesticas O comando para usar-lo eacute boxplot(x)
Por exemplo ver fig 125 pag 28gt nt=c(18381254193316214231406456822872314
8611996235321861281254244214781182347515012369214621412573362814071138) digitaccedilatildeo de nt
gt boxplot(nt ylim=c(50500)xlab=N linhas1000hab)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1661
Quando se deseja investigar a relaccedilatildeo entre duas variaacuteveis qualitativas o caminho natural eacutemontar uma tabela de contingecircncia Construir uma tabela de contingecircncia consiste emcolocar nas linhas os valores possiacuteveis de uma variaacutevel e nas colunas os valores possiacuteveis
cruzamentoO comando para fazer a tabela seria gttable(xy)Por exemplogt tab12=readtable(fSBPO2010Rtab1_2txt header = T sep = )gt attach(tab12)
gt table(CATEG Classe_IMC)Classe_IMC
CATEG normal sobrepesoA 18 4
Cap1-AED Relaccedilatildeo entre duas variaacuteveis Qualitativas
Para analisar a relaccedilatildeo entre 2 variaacuteveis atraveacutes de uma tabela de contingecircncia umprocedimento muito uacutetil eacute calcular os percentuais em relaccedilatildeo aos totais das linhas etambeacutem os percentuais em relaccedilatildeo aos totais das colunas Os comandos seriamproptab(x1) para linha e proptab(x2) para coluna Por exemplo usando a tabela 25paacutegina 46
gt mat= matrix(c(68154510 66214215 66242519 39161711)44byrow=T)gt rownames(mat)=c(18 a 21 anos22 a 25 anos26 a 30 anos31 a 40 anos)gt colnames(mat)=c(CinTeatSMDEx)gt mat1=proptable(mat 1) por linha tab 27gt mat2=proptable(mat 2) por coluna tab 28
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1761
Cap1-AED Relaccedilatildeo entre duas variaacuteveis QuantitativaQuando se deseja investigar a relaccedilatildeo entre duas variaacuteveis quantitativas o mais adequado eacutecomeccedilar pela construccedilatildeo de um Diagrama de Dispersatildeo Construir um diagrama de
dispersatildeo para 2 variaacuteveis quantitativas X e Y consiste em localizar pares de valoresobservados (xi yi ) como pontos em um sistema de eixos coordenados O camando seriaplot(xy)Por exemplogtx=c(12345) y=c(11224) plot(xy)
Um indicador do grau de interdependecircncia linear para 2 variaacuteveis quantitativas X e Y eacute ocoeficiente de correlaccedilatildeo rxy que pode assumir qualquer valor real entre -1 e 1 Ocoeficiente de correlaccedilatildeo entre X e Y eacute calculado por uma das duas expressotildees
matemaacuteticas (equivalentes) a seguir
O comando seria cor(xy) Por exemplogtx=c(12345) y=c(11224) cor(xy)
[1] 09036961
sum sum
sum
sumsum
sum
= =
=
=
=
sdotminussdotminus
sdotsdotminus
=
minussdotminus
minusminus
=n
1i
n
1i
1222
i
22
i
n
1i
ii
122
i
2
i
n
1i
n
1i
ii
xy
)yny)(xnx(
yxnyx
)y(y)xx(
)y)(yx(x
r
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1861
Cap1-AED Relaccedilatildeo entre duas variaacuteveis Quantitativa
bull Quando se verifica atraveacutes do coeficiente de correlaccedilatildeo (ou pelo aspecto visual doDiagrama de Dispersatildeo) que existe uma forte relaccedilatildeo linear entre 2 variaacuteveis X e Y
pode ser de interesse calcular a equaccedilatildeo da reta que representa esta relaccedilatildeo entre as2 variaacuteveis y = a + bx A equaccedilatildeo y = a + bx considera que y eacute a variaacutevel dependente(ou variaacutevel resposta) e que x eacute a variaacutevel independente (ou variaacutevel preditora) a serusada para explicar o comportamento da variaacutevel y A equaccedilatildeo da reta pode ser usadapara se antever qual seria o valor y0 da variaacutevel resposta y correspondente a umdeterminado valor x0 da variaacutevel preditora x
bull As foacutermulas que nos permitem calcular os valores de a e b a partir dos dados satildeo
yxn
n
i
n
i sumsum
O coeficiente b mede a inclinaccedilatildeo da reta de Regressatildeo Entatildeo ao passarmos de um pontoa outro sobre a reta b mede a relaccedilatildeo entre as variaccedilotildees de y e de x O coeficiente a medeo valor de y quando x eacute igual a zero ou seja eacute o intercepto da reta de Regressatildeo
O comando para calcular os coeficientes a e b seria gt lsprint(lsfit(xy))gtx=c(12345) y=c(11224)gtreg=lsfit(xy)gtlsprint(reg)
n
x
x
nyx
b2
n
1i
in
1i
2
i
1i
ii
minus
minus
=
sumsum =
=
=
==
x bya sdotminus=e
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1961
Cap 2-a Simulaccedilatildeo do conceito frequumlentistaConceito Frequumlentista de Probabilidade Suponha que o experimentofoi repetido n vezes sempre sob as mesmas condiccedilotildees e que o evento Aocorreu m vezes entre essas n realizaccedilotildees do experimento Entatildeoa fraccedilatildeo mn eacute uma boa aproximaccedilatildeo para a probabilidade de Ase o nuacutemero n de repeticcedilotildees for bastante grande
Simbolicamente P (A) congcongcongcong mn
Exemplo Simulando 100 lanccedilamentos de uma moedaNo R foram simulados 100 lanccedilamentos de uma moeda equilibrada isto eacute
onde as chances de cara e de coroa satildeo iguais Depois de cadalanccedilamento foi observado o nuacutemero acumulado de caras obtidas ateacute essemomen o e o ca cu a a a proporccedil o e caras correspon en e a a e a aseguir estatildeo apresentados os valores correspondentes ao nuacutemeroacumulado de caras ao longo do processo Por exemplo para a jogada denuacutemero 29 o nuacutemero acumulado de caras eacute 13 e a fraccedilatildeo de caras eacute 1329O graacutefico abaixo mostra a evoluccedilatildeo dessa fraccedilatildeo agrave medida que foramfeitos os 100 lanccedilamentos da moeda
Os comandos no R para a elaboraccedilatildeo do graacutefico
gtx=1100 y=cumsum(sample(01100rep=T))gtplot(xy1100 ylim=c(01) xlim=c(0100) pch=16)gtsegments(10510005)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2061
Cap 2-b Variaacuteveis Aleatoacuterias (va)Uma variaacutevel aleatoacuteria (va) eacute uma funccedilatildeo que associa cada elemento de um
espaccedilo amostral a um nuacutemero real As variaacuteveis aleatoacuterias podem ser do
tipo
Discreto se os seus valores pertencem a um conjunto enumeraacutevel de nuacutemerosreais (usualmente valores inteiros)
Contiacutenuo se os seus valores pertencem a um intervalo de nuacutemeros reais
O modelo probabiliacutestico de uma variaacutevel aleatoacuteria X estabelece o padratildeo de
comportamento de sua distribuiccedilatildeo de probabilidadeA fun atildeo de robabilidade de uma v a discreta X eacute definida orp(x)=P[X=x]
A funccedilatildeo de distribuiccedilatildeo acumulada F de uma v a X eacute definida porF(x) = P[Xlelelelex]
Se X eacute uma va discreta que assume os valores x 1
x 2
x 3
x N
entatildeo
bull A meacutedia ou esperanccedila de X eacuteE(X) = x 1 P(X=x 1 ) + x 2 P(X=x 2 ) + x 3 P(X=x 3 ) + + x N P(X=x N )
bull A Variacircncia de X eacute calculada por |Var(X)=(x 1 ndashE(X))2 P(X=x 1 )+(x 2 ndashE(X))2 P(X=x 2 )++(x N ndashE(X))2 P(X=x N )
bull O desvio padratildeo de X eacute igual agrave raiz quadrada natildeo negativa da suavariacircncia DP(X)= Var(X)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2161
Cap 2-b - va e o RO trabalho no R com uma va X estaacute baseado em 4 procedimentos
p probability ndash Gera a probabilidade de um valor de xq quantile ndash Gera o valor x de uma dada probabilidade acumulada pd density ndash Gera o valor da funccedilatildeo densidade num valor x da variaacutevel
Observar que quando a variaacutevel eacute discreta este valor eacute aprobabilidade de x quando a variaacutevel eacute contiacutenua o resultadoeacute a altura da funccedilatildeo densidade de probabilidade
r random ndash Gera n valores do modelo probabiliacutestico em questatildeo
As distribuiccedilotildees que estudaremos estatildeo listadas a seguir depois de cada uma delasentre parecircnteses estaacute o nome no R
(geom) Binomial negativa- Pascal (nbinom)
Entre as contiacutenuas Uniforme (unif ) Exponencial (exp) Normal (norm) t-student (t)quiquadrado (chisq) F (f )
A interligaccedilatildeo dos trecircs primeiros procedimentos pq e d seraacute ilustrada pela distribuiccedilatildeoNormal atraveacutes do graacutefico abaixo
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2261
Cap 2-b - va pnorm e qnormSeja a relaccedilatildeo p = P(Xltx) que aparece na tabela da distribuiccedilatildeo Normal Quiquadrada
t-student e F Para um dado valor de p acha-se um valor de x a procura direta que para aNormal no R corresponderia a pnorm(x 983221 σ) Neste caso devo informar o x e os dois
paracircmetros da distribuiccedilatildeo Normal 983221 e σJaacute a procura inversa seria para um dado valor de x achar um valor de p que para a Normalno R corresponderia a qnorm(p983221σ) Neste outro caso devo informar o valor de p desejado etambeacutem os dois paracircmetros da distribuiccedilatildeo Normal 983221 e σ
Exemplo Seja X a va que corresponde ao peso (em kg) de pessoas de uma certapopulaccedilatildeo com meacutedia 983221=70 Kg e desvio padratildeo σ=8 Kg assim X~ N(983221=70 σ2=82)
Se desejarmosa) P(Xlt80) usaremos no R o comando pnorm(80 70 8) isto eacute x=80 eacute o primeiro paracircmetroenquanto 70 e 8 satildeo paracircmetro especiacuteficos da distribuiccedilatildeo Normal
b) Admita que o peso limite para ser classificado como obeso eacute o valor que corresponde a10 dos mais pesados do populaccedilatildeo Achar este peso limiteO que se pede eacute a funccedilatildeo inversa Dado um valor de p=090 achar um valor de x que deixa90 abaixo dele No R seria qnorm(09 70 8) isto eacute o valor da probabilidade p=09 eacute
o primeiro paracircmetro enquanto 70 e 8 satildeo paracircmetros especiacuteficos da distribuiccedilatildeo NormalSe usarmos a Normal padratildeo z=(x-983221)σ no caso do item a o comando seria pnorm((80-70)8)ou pnorm(125) Repare que neste caso natildeo foi necessaacuterio passar os paracircmetros especiacuteficos daNormal pois 983221=0 e σ =1 coresponde ao default Observaccedilatildeo Sempre que usarmos um p oprimeiro paracircmetro eacute um x e os outros satildeo especiacuteficos da distribuiccedilatildeo em questatildeosempre que usarmos um q o primeiro paracircmetro eacute um p e os outros satildeo especiacuteficosSempre que usarmos um d o primeiro paracircmetro eacute um x
Quando usarmos uma distribuiccedilatildeo discreta o d corresponde aacute probabilidade no ponto x
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2361
Pag 118 ndash Figura 412
x=seq(010001)
plot(xdexp(x 12) type=l xlim=c(012) ylim=c(01) bty=l ylab=f(x) e F(x))
for(i in seq(0 25 001)) segments(i 0 i dexp(i12) col=lightgrey)
abline(v=0 h=0)
points(xdexp(x 12) type=l lwd=2 bty=l)
points(x pexp(x 12) lwd=2 type=l)
segments(250 25pexp(2512))
Cap 2-b - va dexp pexp points segments
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2461
Cap 2-b - va disponiacuteveis no Rrbinom(n size prob) binomialrpois(n lambda) Poissonrgeom(n prob) geometricarhyper(nn m n k) hipergeometricarnbinom(n size prob) binomial negativarunif(n min=0 max=1) uniformerexp(n rate=1) exponentialrnorm(n mean=0 sd=1) Gaussiana (normal)rt(n df) lsquoStudentrsquo (t )rf(n df1 df2) FisherndashSnedecor (F )
rchisq(n df) Quiquadradar amma n sha e scale=1 amma rbeta(n shape1 shape2) betarlnorm(n meanlog=0 sdlog=1) lognormalrcauchy(n location=0 scale=1) Cauchyrweibull(n shape scale=1) Weibullrwilcox(nn m n) Wilcoxonrsquos rank sum statistics
rsignrank(nn n) Wilcoxonrsquos signed rank statisticsrlogis(n location=0 scale=1) logistic
Todas essas distribuiccedilotildees apresentadas por rnome (nome da variaacutevel aleatoacuteria) como vimostrocando a primeira letra e mantendo os paracircmetros especiacuteficos de cada distribuiccedilatildeo(denotados por ) podem ser usadas substituindo a letra ldquor rdquo por
d valor da densidade de probabilidade no ponto x dnome (x )p probabilidade acumulada no ponto x pnome (x )
q quantil correspondente a probabilidade acumulada p dnome (p)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2561
Cap 2-c O Teorema Central do Limite (TCL)O Teorema Central do Limite (abreviadamente TCL) diz respeito ao comportamento da
meacutedia amostral agrave medida que o tamanho n da amostra cresce indefinidamente
Exemplo 31 ndash A distribuiccedilatildeo de renda e o TCLEacute um fato conhecido que a distribuiccedilatildeo da rendapessoal dos habitantes de um paiacutes eacuteusualmente muito desigual ou seja muitosganham pouco e poucos ganham muito Seforem sorteados 200 habitantes desse paiacutes e
com base nas suas rendas mensais
Agora se forem sorteadas 200 amostrascada uma delas contendo 2 habitantesdesse paiacutes e se forem calculadas as 200respectivas meacutedias amostrais a partir delas obteremos o histograma a seguir
Agora cada uma das 200 amostrassorteadas contendo 30 habitantes dessepaiacutes e se forem calculadas as 200 meacutediasamostrais o histograma seria
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2661
Cap 2-c ndash TCL ExemploComo pode ser observado no caso de n = 2 o histograma se aproxima mais de uma curvaNormal do que no caso de n = 1 E no caso de n = 30 a semelhanccedila do histograma com umacurva Normal eacute ainda maior
O Teorema Central do Limite afirma que independentemente de qual seja a
distribuiccedilatildeo original dos Xirsquos a distribuiccedilatildeo de probabilidade de e a
distribuiccedilatildeo Normal com meacutedia micromicromicromicro e variacircncia σσσσ2 n se aproximam cada vez
mais uma da outra agrave medida que n cresce
Portanto mesmo que a distribuiccedilatildeo de probabilidade dos Xirsquos seja desconhecida o Teorema
X n
Central do Limite garante a possibilidade de usarmos o modelo Normal para calcular ainda quede forma aproximada probabilidades relativas agrave meacutedia amostral desde que n sejasuficientemente grande
Exemplo 62 Simulando o efeito do TCL
Para ilustrar o funcionamento do Teorema Central do Limite vamos exibir agora um exemploem que a distribuiccedilatildeo original a partir da qual os dados satildeo gerados eacute uma exponencial modelo
este que daacute origem a uma funccedilatildeo densidade bastante assimeacutetrica (ao contraacuterio do que ocorre
com a curva Normal) A densidade de uma exponencial com paracircmetro eacute dada pela
expressatildeo
No R rexp(n ) simula n valores
λ
0 xλef(x) λx ge= minusλ
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2761
Cap 2-c ndash TCL ExemploA densidade de uma exponencial com paracircmetro eacute dada pela expressatildeo
Gerando dados por simulaccedilatildeo a partir de uma exponencial com λ = 13 para cada um dos
seguintes tamanhos n de amostra 1 2 3 4 5 10 15 e 201 Obtivemos 200 valores da meacutedia amostral 2 Utilizamos esses 200 valores para construir um histograma3 Traccedilamos no mesmo graacutefico uma curva da densidade Normal com E( )=3 e DP( )=3Xn
λ 0 xλef(x) λx ge= minus
Xn n
Os 8 histogramas nos mostram que agrave medida que o tamanho n da amostra cresce
a forma do histograma se aproxima cada vez mais de uma curva Normal
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2861
Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com
simulaccedilotildees - Exponencial
tclexp=function(n N=200 titulo= yl=c(0 4)) iniacutecio da funccedilatildeo ndash tclexpmedias=numeric(N)
for (i in 1N) medias[i]= mean(rexp(n13))
hist(medias xlim=c(-110) ylim=yl freq=F main=titulo)
x=seq(-110 02)
points(x dnorm(x 3 3sqrt(1n) ) type=l lwd=3)
fim da funccedilatildeo
graphicsoff()
par(mfrow=c(33) mai=c(3411))
tclexp(1titulo=n=1)
tclexp(2titulo=n=2)
tclexp(3titulo=n=3)
tclexp(4titulo=n=4)
tclexp(5titulo=n=5)
tclexp(6titulo=n=6)
tclexp(10titulo=n=10yl=c(06))
tclexp(15titulo=n=15yl=c(06))
tclexp(20titulo=n=20yl=c(06))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2961
Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com
simulaccedilotildees - Exponencial
Uma pergunta natural neste ponto serialdquoQuatildeo grande deve ser n para que possamos usar a aproximaccedilatildeo fornecida pelo
TCL com um niacutevel de precisatildeo aceitaacutevelrdquo
A rapidez com que essa convergecircncia se daacute depende de quatildeo distante estaacute a forma
da distribuiccedilatildeo original das Xirsquos de uma curva Normal Em outras palavras se a
distribuiccedilatildeo das Xirsquos jaacute natildeo for muito diferente de uma Normal com um n natildeo muito-
grande (usualmente n ge 30) a aproximaccedilatildeo da distribuiccedilatildeo de por uma Normal
funcionaria adequadamente
No exemplo a seguir vamos apresentar esse fenocircmeno a saber a convergecircncia da
distribuiccedilatildeo de para uma Normal agrave medida que n cresce gerando por simulaccedilatildeo osdados originais a partir de diferentes modelos probabiliacutesticos Em todos os casos a
distribuiccedilatildeo original eacute bem diferente da Normal E(X)=3 e DP(X)=3 No que se refere agrave
Simulaccedilatildeo foi seguida a mesma sequumlecircncia de passos do exemplo anterior
Xn
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3061
Cap 2-c ndash TCL Exemplo
Exponencial
Uniforme
Mistura deNormais
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3161
Como se pode observar
1 No caso da distribuiccedilatildeo uniforme (A) o histograma de jaacute se aproximabastante de uma Normal quando n eacute da ordem de 4
2 Jaacute no caso da distribuiccedilatildeo Exponencial (B) e da mistura de normais
(C) modelos esses que se afastam muito mais de umldquo rdquo
Cap 2-c ndash TCL Exemplo
mostra mais adequada a partir de n em torno de 10
3 No caso do modelo em (C) agrave medida que n cresce tudo se passacomo se houvesse a ldquoerupccedilatildeo de um vulcatildeo dentro do valerdquo
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3261
tclunif=function(nN=100titulo= yl=c(0 4))
medias=numeric(N)for (i in 1N) medias[i]= mean(runif(n 3-3sqrt(3) 3+3sqrt(3)))
hist(medias xlim=c(-610) ylim=yl freq=F main=titulo)
x=seq(-610 02)
points(x dnorm(x 3 3sqrt(1n) ) type=l lwd=3)
medias
Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com
as simulaccedilotildees - Uniforme
grap cso
par(mfrow=c(33) mai=c(3411))
tclunif(1titulo=n=1yl=c(06))
tclunif(2titulo=n=2yl=c(06))
tclunif(3titulo=n=3yl=c(06))
tclunif(4titulo=n=4yl=c(06))tclunif(5titulo=n=5yl=c(06))
tclunif(6titulo=n=6yl=c(06))
tclunif(10titulo=n=10yl=c(06))
tclunif(15titulo=n=15yl=c(06))
tclunif(20titulo=n=20yl=c(06))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3361
X2=c(rnorm(35011) rnorm(15081)) X2 eacute a Populaccedilatildeo de onde retiramos as amostras
br=seq(-2 12 5)
tcl2modas=function(nN=200titulo= yl=c(0 6)) medias=numeric(N)for (i in 1N) medias[i]= mean(sample(X2nrep=T))hist(mediasbreaks=br xlim=c(-212) tcl=-01 ylim=yl xarp=c(-31216)
tck=005 lab=c(5515) freq=F main=titulo)x=seq(-312 02)
Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com
as simulaccedilotildees - Mistura de Normais
points(x dnorm(x med dpsqrt(n) ) type=l lwd=2)
par(mfrow=c(24) mai=c(3011) mar=c(2 2 2 1))
hist(X2 freq=F breaks=seq(-3125) bty=o xlim=c(-212)xarp=c(-31216)tck=005 lab=c(5515) ylim=c(06) main=POPULACcedilAtildeO lwd=2)
tcl2modas(2titulo=n=2)tcl2modas(3titulo=n=3)
tcl2modas(4titulo=n=4)
tcl2modas(5titulo=n=5)
tcl2modas(10titulo=n=10)
tcl2modas(15titulo=n=15)
tcl2modas(25titulo=n=25)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3461
CAP 3-a) Intervalo de ConfianccedilaSeja um estimador pontual do paracircmetro eacute uma variaacutevel aleatoacuteria que varia deamostra para amostra Por isso haacute uma certa dose de incerteza inerente a esse processode estimaccedilatildeo Nosso objetivo agora eacute obter com base nos dados amostrais (da uacutenicaamostra observada) um intervalo ao qual o valor correto do paracircmetro deve ter grandechance de pertencer
bull Detalhando um pouco mais No processo de estimaccedilatildeo por intervalo de um paracircmetro θdevemos determinar um intervalo que contenha o verdadeiro valor do paracircmetro comprobabilidade 1-α onde α eacute um pequeno valor preacute-fixado Este intervalo eacute construiacutedo emgeral em torno do estimador pontual considerando uma margem de erro d de forma aque uma vez fixada a probabilidade 1-α calculemos d tal que P( - d le θ le + d ) = 1 -αChama-se intervalo de confianccedila para θ ao niacutevel 1 - α ao intervalo [ - d + d]
θ $θ
$θ$θ
$θ $θ
$
θ
bull Ou seja o estimador pontual eacute o centro do Intervalo de Confianccedila e o erro absoluto dassociado a define a amplitude desse intervalo O que eacute de fato variaacutevel aleatoacuteria satildeoos extremos do intervalo O paracircmetro tem valor desconhecido natildeo aleatoacuterio (fixo a ser estimado)
Exemplo Intervalo de Confianccedila para a meacutedia populacional com o desvio padratildeo conhecidoO paracircmetro a estimar eacute a meacutedia populacional micro A estimaccedilatildeo seraacute baseada em X1 X2 Xn
uma amostra aleatoacuteria com E(Xi) = micro e var(Xi) = σ2 para todo i = 12 n Queremos que seja
vaacutelida a expressatildeo o que equivale a P [ -d le -micro le d] = 1-α
$θ
X[ ] α1dmicroXP minus=leminus
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3561
bull Lembrando que para n suficientemente grande pelo Teorema Central do Limite a meacutediaamostral segue uma distribuiccedilatildeo que se aproxima da Normal(micromicromicromicro σσσσ2 n) (ou eacute exatamente aNormal(micromicromicromicro σσσσ2 n) no caso em que a distribuiccedilatildeo comum das va Xirsquos jaacute eacute Normal) entatildeo
P [-d le -micromicromicromicro le d] = 1-α rArr 1-α = P [ |Z| le ] Logo d =
bull Faremos uma simulaccedilatildeo para a construccedilatildeo de Intervalos de Confianccedila com 100 amostras dedois tipos de populaccedilatildeo Normal e Exponencial A lista de comandos do R que usamos eacute
ICN = function (N n mu sigma = 3 conf)
plot(0 0 type=n xlim=c(010) ylim=c(0N) bty=l
xlab=Normal ylab=amostras)abline(v=mu)
CAP 3-a) Intervalo de Confianccedila
X
nσ
d
minus
z0 = qnorm(1-((1-conf)2))
sigmaxbarra = sigmasqrt(n)
for (i in 1N)
x = rnorm(n mu sigma)
media = mean(x)
li = media - z0 sigmaxbarrals = media + z0 sigmaxbarra
plotx = c(lils)
ploty = c(ii)
if (li gt mu | ls lt mu) lines(plotxploty col=red)
else lines(plotxploty)
gt ICN(100 25 3 3 95)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3661
CAP 3-a) Intervalo de Confianccedila
ICexp = function (N n lambda conf)
mu=1lambda sigma=1lambda
plot(0 0 type=n xlim=c(010) ylim=c(0N) bty=lxlab=Exponencial ylab=amostras)
abline(v= mu)
z0 = qnorm(1-((1-conf)2))
sigmaxbarra = sigmasqrt(n)
for (i in 1N)
x = rexp(nlambda) me a = mean x
li = media - z0 sigmaxbarra
ls = media + z0 sigmaxbarra
plotx = c(lils)
ploty = c(ii)
if (li gt mu | ls lt mu) lines(plotx ploty col=red)
else lines(plotx ploty)
gt ICexp(100 25 13 95)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3761
CAP 3-b Teste de Hipoacuteteses (TH)O objetivo de um teste de hipoacutetese eacute avaliar a validade de uma afirmaccedilatildeo sobre determinada
caracteriacutestica da populaccedilatildeo usando para isso os dados de uma amostra Essa caracteriacutestica eacute
representada pela va contiacutenua X cujo comportamento probabiliacutestico eacute expresso pela funccedilatildeo dedensidade f com paracircmetro Ө que tem valor desconhecido
Em um teste existem duas hipoacuteteses envolvidas H0 denominada hipoacutetese nula e H1
denominada hipoacutetese alternativa O procedimento de teste de hipoacutetese consiste em estabelecer
um criteacuterio de decisatildeo que leve a Aceitar ou Rejeitar H0 com base nos valores amostrais
A Estatiacutestica de teste eacute uma funccedilatildeo da amostra aleatoacuteria utilizada para definir o criteacuterio de
decisatildeo Estabelecer o criteacuterio de decisatildeo consiste em dividir o conjunto dos valores possiacuteveis
da estatiacutestica de teste em duas partes denominadas Regiatildeo de Aceitaccedilatildeo A e Regiatildeo de
Rejeiccedilatildeo R da hipoacutetese nula
Em um teste de hipoacutetese haacute dois tipos possiacuteveis de erro de decisatildeo
Erro I - Rejeitar H0 quando H0 eacute verdadeira
Erro II - Aceitar H0 quando H0 eacute falsaAs probabilidades de ocorrecircncia dos erros satildeo α = P [ Erro I ] e β = P [ Erro II]
A probabilidade de erro I α eacute o niacutevel de significacircncia do teste cujo valor eacute arbitrado pelo
pesquisador deve ser pequena pois corresponde a probabilidade de um erro (005 ou 001)
O niacutevel criacutetico ou p-valor do teste eacute o menor valor de α para o qual ainda rejeitariacuteamos H0 de
acordo com os dados observados
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3861
CAP 3-b) ndash TH teste tttest(x y = NULL alternative = c(twosided less greater) mu = 0
paired = FALSE varequal = FALSE conflevel = 095 )
Procedimentos de teste de hipoacuteteses com niacutevel de significacircncia α e amostras de tamanho n
UmaAmostra
DuasAmostras
Obs Os testes acima satildeo bilaterais
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3961
CAP 3ndashb) TH exemplo de teste t ndash amostras independentespag233- teste t amostras independente - comparaccedilatildeo log(salaacuterio)
entre os grupos de comeacutercio e de serviccedilo
LogSal=c(1289156912501344145616361573171309060903
0977122011031069128714101496131113371366
1227119114591280115217401649176524101701
1538192419251721154918911534163812071682
120614232010143112651570)
Sal=exp(LogSal)
setor= c(rep(C23) rep(S23))
ttest(Sal[setor==C] Sal[setor==S] varequal=T)
Two Sample t-test
data Sal[setor == C] and Sal[setor == S]
t = -36822 df = 44 p-value = 00006289
alternative hypothesis true difference in means is not equal to 095 percent confidence interval
-23079005 -06751838
sample estimates
mean of x mean of y3786010 5277552
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4061
CAP 3ndashb) TH exemplo de teste t ndash amostra pareadapag237- teste t pareado
P1=c(6315596455545480598065203660986853
8765647785536980827184605572645564)
P2=c(3638306043466455604343523428837155
8238556767443459605968506254473652)
ttest(P1 P2 alt=greater paired = T)
Paired t-test
data P1 and P2
t = 44176 df = 33 p-value = 5072e-05
alternative hypothesis true difference in means is greater than 0
95 percent confidence interval
0716695 Inf
sample estimates
mean of the differences
1161765
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4161
CAP 3ndashb) TH exemplo de teste Quiquadrado chisqtest
pag233- teste Quiquadrado -
tcont=matrix(c(683585251530258 7461761220225) 72)
chisqtest(tcont)
Pearsons Chi-squared test
data tcont- = = - lt -
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4261
CAP 3ndashb) TH exemplo de teste Quiquadrado chisqtestaov(formula data = NULL )
pag244- ANOVA - Comparaccedilatildeo de trecircs raccedilotildees para suinos
A=c(444943514475425134305342453630
322133421040395246294247453959)
B=c(343640545953445432686954414647
6566455739)
C=c(574040364566395025212927283942
21304143294244582849)
aumentoP=c(ABC)
racao=c(rep(A30)rep(B20) rep(C25))
summaryaov(aov(aumentoP ~ racao))
Df Sum Sq Mean Sq F value Pr(gtF)racao 2 15385 7693 56136 0005425
Residuals 72 98666 1370
---
Signif codes 0 lsquorsquo 0001 lsquorsquo 001 lsquorsquo 005 lsquorsquo 01 lsquo rsquo 1
Warning message
In modelmatrixdefault(mt mf contrasts)
variable racao converted to a factor
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4361
ApecircndicesA-1) Apresentaremos aqui algumas figuras
feitas no R na elaboraccedilatildeo do livro
Achamos que o exame desses coacutedigos acompanhado dos resultados podeser um bom aprendizado um exerciacutecio ou talvez uma recordaccedilatildeo do materialaqui exposto
A-2) Resumo de comandosa) Criaccedilatildeo de dados
b) Informaccedilatildeo de uma Variaacutevel
c) Seleccedilatildeo de dados e manipulaccedilatildeo
d) Estatiacutesticas e operaccedilotildees matemaacuteticas
e) Corte e extraccedilatildeo de dados
f) Operaccedilatildeo com Matrizes
g) Graacuteficos (Plotting)
h) Teste de hipoacuteteses
i) Programming
j) Commandos auxiliaries em Graacuteficos
k) Comando par (Graphical parameters)
l) Input and output
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4461
A1) ndash Pag 14 ndash Figura 15
IDADE=c(616961716371726866697267636663636067716360696463667164706366646969646372736871726968687379)
IMC= c(245273281301254301280234268228255228235232203226239243271227237258213243243248219234216214221227227211268278275267286253239258247284235)
par(mfrow=c(12))hist(IDADE breaks=c(6065707580) ylim=c(020) ylab=Nuacutemero de Observaccedilotildees
main= col=grey right = F)hist(IMC breaks=c(200225250275300325)
ylab=Nuacutemero de Observaccedilotildeesmain= col=grey right = F )
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4561
A1) ndash Pag 44 ndash Figura 21
mat=matrix(c(81823913601818608740)32)
rownames(mat)=c(AtivaSedentaacuteriaTotal)colnames(mat)=c(NormalSobrepeso)barplot(t(mat) beside = TRUE space=c(315)
col=gray(c(79))legend = c(NormalSobrepeso) ylim = c(0 95) ylab= - percentagem)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4661
A1) ndash Pag 48 ndash Figura 22
mat= matrix(c(68154510 66214215 66242519 39161711)44byrow=T)
rownames(mat)=c(18 a 21 anos 22 a 25 anos 26 a 30 anos 31 a 40 anos)colnames(mat)=c(CinTeatSMDEx)mat1=mat for (i in 14) mat1[i]lt-mat1[i]100sum(mat1[i]) par(mfrow=c(12) mai=c(1111) mar=c(5 4 2 2) )barplot(matbeside=F ylim=c(0250) legend = c(18 a 21 anos 22 a 25 anos
26 a 30 anos 31 a 40 anos) xlab=Contagem)
barplot(mat1 beside=F xlab=Percentagem)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4761
A1) ndash Pag 52 ndash Figura 25X= c(184114821789235159118762592403190408372147328526471687
09642871437079238215753399242122530314859149806)y =c(01837012540193301620014230140604568022870231400861019960235302186012798991801254018210244160823
0147764068011818941403474539680150133247023685518102146187520214097090257291227
036282905401406510810113849399)plot(x y xlim=c(07) ylim=c(05) pch=16 bty=l xlab=Renda per capita
ylab=Telefonia Fixa per capita)
abline(lsfit(xy))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4861
A1) ndash Pag 109 ndash Figura 45
x=020
y1=dpois(x1) y2=dpois(x3) y3=dpois(x10)names(y1)=x names(y2)=x names(y3)=xpar(mfrow=c(13))plot(y1ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=1)plot(y2ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=3)plot(y3ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=10)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4961
A1) ndash Pag 118 ndash Figura 412
x=seq(010001)
plot(xdexp(x 12) type=l xlim=c(012) ylim=c(01) bty=l ylab=f(x) eF(x))for(i in seq(0 25 001)) segments(i 0 i dexp(i12) col=lightgrey)abline(v=0 h=0)points(xdexp(x 12) type=l lwd=2 bty=l)points(xpexp(x 12) lwd=2 type=l)segments(250 25pexp(2512))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5061
A1) ndash Pag 163 ndash Figura 68
plot(p xlim=c(618) ylim=c(016) type=n bty=l xaxt=n xlab= ylab=
cexaxis=6)for (i in 1015) rect(i-50 i+5 dbinom(i304) col=lightgrey) lty=2)segments(i0idbinom(i304) lty=2)
x=seq(61801) lines(x dnorm(x12sqrt(72)) lwd=2)x=seq(61801) lines(x dnorm(x12sqrt(72)) lwd=2)
axis(1 916 cexaxis=9) ax s seq cexax s=
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5161
A1) ndash Pag 198 ndash Figura 78
x1=seq(-4402)plot(x1dnorm(x1) type=l lwd=3 xlab= ylab= )lines(x1 dt(x11)) lines(x1 dt(x12)) lines(x1 dt(x15))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5261
A2ndashResumo de comandos
a)Criaccedilatildeo de dados
c()funccedilatildeo geneacuterica para combinar argumentos com o formando de um vetor fromto gera uma sequecircnce ldquordquo tem prioridade de operator pe13 + 1 is ldquo234rdquo
seq(fromtoby) gera uma sequecircncia by= especifica incremento
length= especifica um comprimento desejado
rep(xtimes) replicate x onuacutemero times de vezes use each= para repetir cada
elemento de x rep(c(123)2) gera 1 2 3 1 2 3 rep(c(12)each=2) gera 1 1 2 2
matrix(xnrow=ncol=) matrix elementos de x se reciclam caso x
rbind()combina vetores em linhas num estrutura de matrizes de dados
cbind()combina vetores em colunas num estrutura de matrizes de dados
array(xdim=) matriz com dados x especificar dimensotildees como dim=c(342)
elementos de x se reciclam caso x natildeo seja suficientemente grande
factor(xlevels=) codifica um vetor x como um fator gl(nklength=nklabels=1n) gerar niacuteveis (fatores) especificando
o padratildeo de seus niacuteveis k eacute o nuacutemero de niacuteveis e n eacute o nuacutemero de repeticcedilotildees
dataframe() criar um banco de dados Por exemplo
dataframe(v=14ch=c(gBcasad)n=5)
list()criar uma lista de argumentos Por exemplo list(a=c(12)b=hic=3i)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5361
A2ndashResumo de comandos
b) Informaccedilatildeo de uma Variaacutevellength(x) nuacutemero de elementos em x
dim(x) Obter ou definir a dimensatildeo de um objeto dim (x) = c(32)dimnames(x) Obter ou definir os nomes das dimensotildees de um objeto
nrow(x) nuacutemero de linhas
ncol(x) nuacutemero de colunas
c) Seleccedilatildeo de dados e manipulaccedilatildeochoose(n k) calcula a combinaccedilatildeo de elementos escolhidos entre n
resultando n [(n-k) k]
cut(xbreaks) divide x em intervalos (fatores) breaks eacute o nuacutemero de intervalos de
corte ou um vetor com os valores especiacuteficos
table(x) retorna uma tabela com as quantidades dos diferentes valores de x
(tipicamente para variaacuteveis dos tipos inteiros ou fatores)
sample(x size) retira aleatoriamente com e sem reposiccedilatildeo elementos detamanho SIZE do vetor x a opccedilatildeo replace = TRUE permite a retirada com reposiccedilatildeo
proptable(xmargin=) transforma a tabela como tabela de propoccedilatildeo
marginal margin=1 (com relaccedilatildeo as linhas) margin=2 (com relaccedilatildeo as colunas)
sort(x) Classifica os elementos de x em ordem crescente para classificar em ordem
decrescente rev(sort(x))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5461
A2ndashResumo de comandosd) Estatiacutesticas e operaccedilotildees matemaacuteticasmean(x) media dos elementos de x
median(x) mediana dos elementos de x
quantile(xprobs=) quantis de x correspondendo a uma dada probabilidadevar(x) ou cov(x) variacircncia dos elementos de x (calculado com n-1)
se x eacute uma matriz a matriz de covariacircncia eacute calculada
sd(x) desvio padracirco de of x
cor(x) matriz de correlaccedilatildeo de x se x for uma matriz ou (1 se x eacute um vector)
cor(x y) correlaccedilatildeo linear entre X e Y ou matriz de correlaccedilatildeo se eles satildeo matrizes
round(x n) arredonda os elementos de x para n casas decimais sum x soma os e emen os e x
prod(x) multilica os elementos de x
max(x) acha o maacuteximo dos elementos de x
min(x) acha o miacutenimo dos elementos de x
range(x) equivalente a c(min(x)max(x)
cumsum(x) um vetor onde o eacutesimo elemento eacute a soma de x[1] ateacute x[i]cumprod(x) um vetor onde o eacutesimo elemento eacute o produto de x[1] ateacute x[i]
cummin(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
cummax(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
sincostanasinacosatanatan2loglog10exp)
log(x base) calcula o logaritmo de x na base=base
weightedmean(x w) media ponderada de x com peso= w
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5561
A2ndashResumo de comandos
e) Corte e extraccedilatildeo de dadosindexaccedilatildeo de Vetores
x[n] n-eacutesimo elemento do vetor
x[-n] todos menos o n-eacutesimo elemento
x[1n] os primeiros n elemento
x[-(1n)] elementos de n+1 ateacute o final
x[c(432)] elementos especificados
x[y gt 5] todo elementos de onde os valores de y satildeo maiores que 5
x x gt 3 amp x lt 5 todo elementos entre 3 e 5
x[nome] elemento denominado nome
indexaccedilatildeo de Matrizes
x[ij] elemento na linha i coluna j
x[i] linha i
x[j] coluna j
x[c(13)] colunas 1 and 3
x[nome] linha nomeada nome
indexaccedilatildeo de data frames
x[[nome]] coluna chamada nome
x$nome equivalente a coluna chamada nome
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5661
A2ndashResumo de comandos
f) Operaccedilatildeo com Matrizest(x) transposta da matrix x
diag(x) retira a diagonal da matrix x
multiplicaccedilatildeo matricial
solve(ab) resove a equaccedilatildeo a x = b em relaccedilatildeo a x
solve(a) matriz inversa de a
rowSum(x) soma das linhas da matrix x
colSum(x) soma das colunas da matrix x
rowMeans x meacutedia das linhas da matrix x
colMeans(x) id meacutedia das colunas da matrix x
g) Graacuteficos (Plotting)plot(x y) diagrama de disperccedilatildeo plot dos pares (xy) num sistema de eixos
coordenadoshist(x) histogram dasfrequecircncias of x
barplot(x) graacutefico de barras of x usar horiz=T ara barras horizontal
pie(x) graacutefico de setores (pie-chart)
boxplot(x)
qqnorm(x) quantis de x em relaccedilatildeo aos valores esperados de uma dist Normal
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5761
A2ndashResumo de comandosparametros dos commando de Graacutefico
type=p especifica o tipo de plot p pontos l linhas b pontos
ligados por linhas o idecircntico mas as linhas passam sobre os pontos h
linhas verticais s escada (steps) os dados satildeo representados pelas alturasverticais
xlim= ylim= especifica os limites inferiores e superiores dos eixos por exemplocom xlim=c(1 10) ou xlim=range(x)
xlab= ylab= nomeia os eixos o nome deve ser do tipo caracter
main= tiacutetulo principal deve ser do tipo caracter
sub= sub-tiacutetulo (escrito em fonte menor)
podem ser usados como bty(tipo de caixa) lwd (lagura da linha) lty (tipo delinha) pch(tipo de ponto) cex xaxs yaxs xaxtyaxt
h) Teste de hipoacuteteses
ttest()proptest()
chisqtest()
aov(formula) analysis of variance model
anova(fit) analysis of variance (or deviance) tables for one or more
fitted model objects
Use o commando gt test para procurar todos os testes disponiacuteveis
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5861
A2ndashResumo de comandos
i) Programmingfunction( arglist ) expr para definer uma funccedilatildeo
return(value)
if(cond) expr
if(cond) consexpr else altexpr
for(var in seq) expr
while(cond) expr
re eat ex r
break
Usar chaves entre commandos dlimitando o iniacutecio e o fim de um grupo decomandos
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5961
A2ndashResumo de comandos
j) Commandos auxiliaries em Graacuteficospoints(x y) adiciona pontos (a opccedilatildeo type= pode ser usada)
lines(x y) adiciona linhas (a opccedilatildeo type= pode ser usada)text(x y labels ) adiciona texto na coordenada (xy) um uso tiacutepico eacute
plot(x y type=n) text(x ynames)
segments(x0 y0 x1 y1) desenha linhas do ponto (x0 y0) ao (x1 y1)
arrows(x0 y0 x1 y1 angle= 30 code=2) desenha seta do ponto
(x0 y0) ao (x1 y1)
abline(ab) desenha uma reta de inclinaccedilatildeo b e intercepto a
abline(v=x) desenha uma reta vertical em x
abline(lsfit(xy)) desenha uma reta da regressatildeo feita em lsfit(xy)
rect(x1 y1 x2 y2) desenha um retacircngulo que a esquerda inferior tem coordenadas(x1 y1) e o limite da direita superiores (x2 y2)
polygon(x y) desenha um poliacutegono que une os pontos com coordenadas X e Y
legend(x y legend) Acrescenta a lenda no ponto (x y) com os siacutembolos
dada pela legend
title()adiciona um tiacutetulo e opcionalmente um sub-tiacutetulo
axis(side) acrescenta um eixo na parte inferior (side = 1) agrave esquerda (2) na partesuperior (3) ou agrave direita (4)
box()desenhar uma caixa em torno do plot
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6061
A2ndashResumo de comandos
k) Comando par (Graphical parameters)Todos estes comando podem ser definidos a niacutevel global com o par () que
especifica os paracircmetros mas tambeacutem muitos podem ser usados comoparametros dos commando de Graacutefico
mfcol vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em colunas
mfrow vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em linhas(matrix for row)
bty controla o tipo de caixa desenhada ao redor do enredo valores permitidos satildeo
o l 7 c u ou se bt =n a caixa natildeo eacute desenhada
lty controla o tipo de linhas pode ser um inteiro ou string (1 solid 2 dashed 3dotted 4 dotdash 5 longdash 6twodash) ou uma string de ateacuteoito caracteres (entre 0 e 9) que especifica o comprimento em pontos oupixels dos elementos desenhados e os espaccedilos em branco por exemplolty=rdquo44rdquo equivale a lty=2
lwd nuacutemero que controla a largura das linhas default 1pch controla o tipo de siacutembolo pode tambeacutem ser um nuacutemero inteiro entre 1 e 25
ps um inteiro que controla o tamanho em pontos de textos e siacutembolos
pty um caracter que especifica o tipo da regiatildeo s quadrado m maacuteximal
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6161
A2ndashResumo de comandos
l) Input and outputreadtable(file) lecirc um arquivo em formato de tabela e cria um quadro de dados a
partir dele o separador default = eacute espaccedilo em branco header = TRUE ler a
primeira linha como um cabeccedilalho de nomes de coluna asis = TRUE paraevitar aque um vetore de caracteres seja convertido em factores usocommentchar = para evitar seja interpretado como um comentaacuteriouso skip = n para pular n linhas antes da leitura de dados consulte a ajudapara as opccedilotildees de linha de nomeaccedilatildeo o tratamento NA e outros
readcsv(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por viacutergulas
readdelim(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por tabulaccedilotildees
readfwf(filewidthsheader=FALSEsep= asis=FALSE)
ler uma tabela de dados em formato fix de largura m para um dataframe widthseacute um vetor inteiro informando os tamanhos dos campos
sink(file) saiacuteda de todos os comandos para um arquivo ateacute aparecer um comando
sink () que desliga writetable(x file=rownames=Tcolnames=Tsep= ) imprime x apoacutes a
conversatildeo para banco de dados
save(file) guarda os objetos especificados () no formato XDR
load()carregar o conjunto de dados salvos com o comando save
data(x) carrega um conjunto de dados especificado
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1361
Exemploda pag 15 ndash Figura 18
gt nt=c(18381254193316214231406456822872314
8611996235321861281254244214781182
347515012369214621412573362814071138) digitaccedilatildeo de nt
gt stem(trunc(nt10)) o ramo a centena e a folha as dezenas
0 | 8
1 | 1122244441 | 5689
Cap1 AED ndash ex stem table cut
2 | 011123334
2 | 5
3 | 4
3 | 6
4 |
4 | 5
gt table(cut(nt breaks=c(50100150200250300350400450500) right=F))
[50100) [100150) [150200) [200250) [250300) [300350) [350400) [400450) [450500)
1 9 5 8 1 1 1 0 1
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1461
Para uma dada variaacutevel quantitativa uma medida de centralidade eacute um ldquovalor tiacutepicordquo em torno doqual se situam os valores daquela variaacutevelAs medidas de centralidade mais conhecidas satildeoa meacutedia aritmeacutetica e a mediana Usar os comando mean(x) median(y) Por exemplo
gt mean(nt)[1] 2001852gt median(nt)[1] 193Uma medida de localizaccedilatildeo eacute o quantil A funccedilatildeo apropriada do R para obter os quantis de um
vetor numeacuterico x eacute a funccedilatildeo gt quantile(x)Se desejarmos determinar os trecircs quartis usariacuteamos
o comando quantile(xc(02505075))
Se desejarmos o quinto o deacutecimo e o nonageacutesimo percentis usariacuteamos o comandogt quantile(xc(05010090))
Cap1-AED Medidas (estatiacutesticas)
O comando quantile(xp) retorna o quantil de ordem p das observaccedilotildees de x podendo p ser
um vetor Por exemplo
gt quantile(nt c(20 50 95))
20 50 95
1306 1930 3582
Uma medida de dispersatildeo para uma variaacutevel quantitativa eacute um indicador do grau de espalhamento
dos valores da amostra em torno da medida de centralidade As medidas de dispersatildeo mais
conhecidas satildeo a variacircncia o desvio-padratildeo e a distacircncia interquartil=diferenccedila entre o terceiro
e o primeiro quartis
gt var(nt)
[1] 7131464
gt sd(nt)
[1] 84448
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1561
gt q=fivenum(nt) q[4]-q[2] em q estatildeo os 5 nuacutem Subtraiacutemos o Q3 do Q1[1] 92
Os cinco valores x(1) Q1 Q2 Q3 x(n) miacutenimo os trecircs quartis e o maacuteximo satildeoimportantes para se ter uma boa ideacuteia da assimetria dos dados Esse valores podem serobtidos pelo comando fivenum(x) O summary(x) acrescenta tambeacutem a meacutedia ao resultado
Por exemplogt fivenum(nt)[1] 86 141 193 233 457gt summary(nt)
Min 1st Qu Median Mean 3rd Qu Max
860 1410 1930 2002 2330 4570
Cap1-AED IEQ fivenum boxplot
O Box Plot ou Desenho Esquemaacutetico eacute um graacutefico que se costuma utilizar para sintetizarem uma mesma figura vaacuterias informaccedilotildees relativas agrave distribuiccedilatildeo de uma determinadavariaacutevel quantitativa Nele tambeacutem satildeo representadas as observaccedilotildees discrepantesObservaccedilotildees discrepantes ou outliers satildeo observaccedilotildees cujos valores estatildeo muito afastadosdos demais (para mais ou para menos) Essas observaccedilotildees podem afetar de formasubstancial o resultado das anaacutelises estatiacutesticas O comando para usar-lo eacute boxplot(x)
Por exemplo ver fig 125 pag 28gt nt=c(18381254193316214231406456822872314
8611996235321861281254244214781182347515012369214621412573362814071138) digitaccedilatildeo de nt
gt boxplot(nt ylim=c(50500)xlab=N linhas1000hab)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1661
Quando se deseja investigar a relaccedilatildeo entre duas variaacuteveis qualitativas o caminho natural eacutemontar uma tabela de contingecircncia Construir uma tabela de contingecircncia consiste emcolocar nas linhas os valores possiacuteveis de uma variaacutevel e nas colunas os valores possiacuteveis
cruzamentoO comando para fazer a tabela seria gttable(xy)Por exemplogt tab12=readtable(fSBPO2010Rtab1_2txt header = T sep = )gt attach(tab12)
gt table(CATEG Classe_IMC)Classe_IMC
CATEG normal sobrepesoA 18 4
Cap1-AED Relaccedilatildeo entre duas variaacuteveis Qualitativas
Para analisar a relaccedilatildeo entre 2 variaacuteveis atraveacutes de uma tabela de contingecircncia umprocedimento muito uacutetil eacute calcular os percentuais em relaccedilatildeo aos totais das linhas etambeacutem os percentuais em relaccedilatildeo aos totais das colunas Os comandos seriamproptab(x1) para linha e proptab(x2) para coluna Por exemplo usando a tabela 25paacutegina 46
gt mat= matrix(c(68154510 66214215 66242519 39161711)44byrow=T)gt rownames(mat)=c(18 a 21 anos22 a 25 anos26 a 30 anos31 a 40 anos)gt colnames(mat)=c(CinTeatSMDEx)gt mat1=proptable(mat 1) por linha tab 27gt mat2=proptable(mat 2) por coluna tab 28
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1761
Cap1-AED Relaccedilatildeo entre duas variaacuteveis QuantitativaQuando se deseja investigar a relaccedilatildeo entre duas variaacuteveis quantitativas o mais adequado eacutecomeccedilar pela construccedilatildeo de um Diagrama de Dispersatildeo Construir um diagrama de
dispersatildeo para 2 variaacuteveis quantitativas X e Y consiste em localizar pares de valoresobservados (xi yi ) como pontos em um sistema de eixos coordenados O camando seriaplot(xy)Por exemplogtx=c(12345) y=c(11224) plot(xy)
Um indicador do grau de interdependecircncia linear para 2 variaacuteveis quantitativas X e Y eacute ocoeficiente de correlaccedilatildeo rxy que pode assumir qualquer valor real entre -1 e 1 Ocoeficiente de correlaccedilatildeo entre X e Y eacute calculado por uma das duas expressotildees
matemaacuteticas (equivalentes) a seguir
O comando seria cor(xy) Por exemplogtx=c(12345) y=c(11224) cor(xy)
[1] 09036961
sum sum
sum
sumsum
sum
= =
=
=
=
sdotminussdotminus
sdotsdotminus
=
minussdotminus
minusminus
=n
1i
n
1i
1222
i
22
i
n
1i
ii
122
i
2
i
n
1i
n
1i
ii
xy
)yny)(xnx(
yxnyx
)y(y)xx(
)y)(yx(x
r
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1861
Cap1-AED Relaccedilatildeo entre duas variaacuteveis Quantitativa
bull Quando se verifica atraveacutes do coeficiente de correlaccedilatildeo (ou pelo aspecto visual doDiagrama de Dispersatildeo) que existe uma forte relaccedilatildeo linear entre 2 variaacuteveis X e Y
pode ser de interesse calcular a equaccedilatildeo da reta que representa esta relaccedilatildeo entre as2 variaacuteveis y = a + bx A equaccedilatildeo y = a + bx considera que y eacute a variaacutevel dependente(ou variaacutevel resposta) e que x eacute a variaacutevel independente (ou variaacutevel preditora) a serusada para explicar o comportamento da variaacutevel y A equaccedilatildeo da reta pode ser usadapara se antever qual seria o valor y0 da variaacutevel resposta y correspondente a umdeterminado valor x0 da variaacutevel preditora x
bull As foacutermulas que nos permitem calcular os valores de a e b a partir dos dados satildeo
yxn
n
i
n
i sumsum
O coeficiente b mede a inclinaccedilatildeo da reta de Regressatildeo Entatildeo ao passarmos de um pontoa outro sobre a reta b mede a relaccedilatildeo entre as variaccedilotildees de y e de x O coeficiente a medeo valor de y quando x eacute igual a zero ou seja eacute o intercepto da reta de Regressatildeo
O comando para calcular os coeficientes a e b seria gt lsprint(lsfit(xy))gtx=c(12345) y=c(11224)gtreg=lsfit(xy)gtlsprint(reg)
n
x
x
nyx
b2
n
1i
in
1i
2
i
1i
ii
minus
minus
=
sumsum =
=
=
==
x bya sdotminus=e
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1961
Cap 2-a Simulaccedilatildeo do conceito frequumlentistaConceito Frequumlentista de Probabilidade Suponha que o experimentofoi repetido n vezes sempre sob as mesmas condiccedilotildees e que o evento Aocorreu m vezes entre essas n realizaccedilotildees do experimento Entatildeoa fraccedilatildeo mn eacute uma boa aproximaccedilatildeo para a probabilidade de Ase o nuacutemero n de repeticcedilotildees for bastante grande
Simbolicamente P (A) congcongcongcong mn
Exemplo Simulando 100 lanccedilamentos de uma moedaNo R foram simulados 100 lanccedilamentos de uma moeda equilibrada isto eacute
onde as chances de cara e de coroa satildeo iguais Depois de cadalanccedilamento foi observado o nuacutemero acumulado de caras obtidas ateacute essemomen o e o ca cu a a a proporccedil o e caras correspon en e a a e a aseguir estatildeo apresentados os valores correspondentes ao nuacutemeroacumulado de caras ao longo do processo Por exemplo para a jogada denuacutemero 29 o nuacutemero acumulado de caras eacute 13 e a fraccedilatildeo de caras eacute 1329O graacutefico abaixo mostra a evoluccedilatildeo dessa fraccedilatildeo agrave medida que foramfeitos os 100 lanccedilamentos da moeda
Os comandos no R para a elaboraccedilatildeo do graacutefico
gtx=1100 y=cumsum(sample(01100rep=T))gtplot(xy1100 ylim=c(01) xlim=c(0100) pch=16)gtsegments(10510005)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2061
Cap 2-b Variaacuteveis Aleatoacuterias (va)Uma variaacutevel aleatoacuteria (va) eacute uma funccedilatildeo que associa cada elemento de um
espaccedilo amostral a um nuacutemero real As variaacuteveis aleatoacuterias podem ser do
tipo
Discreto se os seus valores pertencem a um conjunto enumeraacutevel de nuacutemerosreais (usualmente valores inteiros)
Contiacutenuo se os seus valores pertencem a um intervalo de nuacutemeros reais
O modelo probabiliacutestico de uma variaacutevel aleatoacuteria X estabelece o padratildeo de
comportamento de sua distribuiccedilatildeo de probabilidadeA fun atildeo de robabilidade de uma v a discreta X eacute definida orp(x)=P[X=x]
A funccedilatildeo de distribuiccedilatildeo acumulada F de uma v a X eacute definida porF(x) = P[Xlelelelex]
Se X eacute uma va discreta que assume os valores x 1
x 2
x 3
x N
entatildeo
bull A meacutedia ou esperanccedila de X eacuteE(X) = x 1 P(X=x 1 ) + x 2 P(X=x 2 ) + x 3 P(X=x 3 ) + + x N P(X=x N )
bull A Variacircncia de X eacute calculada por |Var(X)=(x 1 ndashE(X))2 P(X=x 1 )+(x 2 ndashE(X))2 P(X=x 2 )++(x N ndashE(X))2 P(X=x N )
bull O desvio padratildeo de X eacute igual agrave raiz quadrada natildeo negativa da suavariacircncia DP(X)= Var(X)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2161
Cap 2-b - va e o RO trabalho no R com uma va X estaacute baseado em 4 procedimentos
p probability ndash Gera a probabilidade de um valor de xq quantile ndash Gera o valor x de uma dada probabilidade acumulada pd density ndash Gera o valor da funccedilatildeo densidade num valor x da variaacutevel
Observar que quando a variaacutevel eacute discreta este valor eacute aprobabilidade de x quando a variaacutevel eacute contiacutenua o resultadoeacute a altura da funccedilatildeo densidade de probabilidade
r random ndash Gera n valores do modelo probabiliacutestico em questatildeo
As distribuiccedilotildees que estudaremos estatildeo listadas a seguir depois de cada uma delasentre parecircnteses estaacute o nome no R
(geom) Binomial negativa- Pascal (nbinom)
Entre as contiacutenuas Uniforme (unif ) Exponencial (exp) Normal (norm) t-student (t)quiquadrado (chisq) F (f )
A interligaccedilatildeo dos trecircs primeiros procedimentos pq e d seraacute ilustrada pela distribuiccedilatildeoNormal atraveacutes do graacutefico abaixo
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2261
Cap 2-b - va pnorm e qnormSeja a relaccedilatildeo p = P(Xltx) que aparece na tabela da distribuiccedilatildeo Normal Quiquadrada
t-student e F Para um dado valor de p acha-se um valor de x a procura direta que para aNormal no R corresponderia a pnorm(x 983221 σ) Neste caso devo informar o x e os dois
paracircmetros da distribuiccedilatildeo Normal 983221 e σJaacute a procura inversa seria para um dado valor de x achar um valor de p que para a Normalno R corresponderia a qnorm(p983221σ) Neste outro caso devo informar o valor de p desejado etambeacutem os dois paracircmetros da distribuiccedilatildeo Normal 983221 e σ
Exemplo Seja X a va que corresponde ao peso (em kg) de pessoas de uma certapopulaccedilatildeo com meacutedia 983221=70 Kg e desvio padratildeo σ=8 Kg assim X~ N(983221=70 σ2=82)
Se desejarmosa) P(Xlt80) usaremos no R o comando pnorm(80 70 8) isto eacute x=80 eacute o primeiro paracircmetroenquanto 70 e 8 satildeo paracircmetro especiacuteficos da distribuiccedilatildeo Normal
b) Admita que o peso limite para ser classificado como obeso eacute o valor que corresponde a10 dos mais pesados do populaccedilatildeo Achar este peso limiteO que se pede eacute a funccedilatildeo inversa Dado um valor de p=090 achar um valor de x que deixa90 abaixo dele No R seria qnorm(09 70 8) isto eacute o valor da probabilidade p=09 eacute
o primeiro paracircmetro enquanto 70 e 8 satildeo paracircmetros especiacuteficos da distribuiccedilatildeo NormalSe usarmos a Normal padratildeo z=(x-983221)σ no caso do item a o comando seria pnorm((80-70)8)ou pnorm(125) Repare que neste caso natildeo foi necessaacuterio passar os paracircmetros especiacuteficos daNormal pois 983221=0 e σ =1 coresponde ao default Observaccedilatildeo Sempre que usarmos um p oprimeiro paracircmetro eacute um x e os outros satildeo especiacuteficos da distribuiccedilatildeo em questatildeosempre que usarmos um q o primeiro paracircmetro eacute um p e os outros satildeo especiacuteficosSempre que usarmos um d o primeiro paracircmetro eacute um x
Quando usarmos uma distribuiccedilatildeo discreta o d corresponde aacute probabilidade no ponto x
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2361
Pag 118 ndash Figura 412
x=seq(010001)
plot(xdexp(x 12) type=l xlim=c(012) ylim=c(01) bty=l ylab=f(x) e F(x))
for(i in seq(0 25 001)) segments(i 0 i dexp(i12) col=lightgrey)
abline(v=0 h=0)
points(xdexp(x 12) type=l lwd=2 bty=l)
points(x pexp(x 12) lwd=2 type=l)
segments(250 25pexp(2512))
Cap 2-b - va dexp pexp points segments
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2461
Cap 2-b - va disponiacuteveis no Rrbinom(n size prob) binomialrpois(n lambda) Poissonrgeom(n prob) geometricarhyper(nn m n k) hipergeometricarnbinom(n size prob) binomial negativarunif(n min=0 max=1) uniformerexp(n rate=1) exponentialrnorm(n mean=0 sd=1) Gaussiana (normal)rt(n df) lsquoStudentrsquo (t )rf(n df1 df2) FisherndashSnedecor (F )
rchisq(n df) Quiquadradar amma n sha e scale=1 amma rbeta(n shape1 shape2) betarlnorm(n meanlog=0 sdlog=1) lognormalrcauchy(n location=0 scale=1) Cauchyrweibull(n shape scale=1) Weibullrwilcox(nn m n) Wilcoxonrsquos rank sum statistics
rsignrank(nn n) Wilcoxonrsquos signed rank statisticsrlogis(n location=0 scale=1) logistic
Todas essas distribuiccedilotildees apresentadas por rnome (nome da variaacutevel aleatoacuteria) como vimostrocando a primeira letra e mantendo os paracircmetros especiacuteficos de cada distribuiccedilatildeo(denotados por ) podem ser usadas substituindo a letra ldquor rdquo por
d valor da densidade de probabilidade no ponto x dnome (x )p probabilidade acumulada no ponto x pnome (x )
q quantil correspondente a probabilidade acumulada p dnome (p)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2561
Cap 2-c O Teorema Central do Limite (TCL)O Teorema Central do Limite (abreviadamente TCL) diz respeito ao comportamento da
meacutedia amostral agrave medida que o tamanho n da amostra cresce indefinidamente
Exemplo 31 ndash A distribuiccedilatildeo de renda e o TCLEacute um fato conhecido que a distribuiccedilatildeo da rendapessoal dos habitantes de um paiacutes eacuteusualmente muito desigual ou seja muitosganham pouco e poucos ganham muito Seforem sorteados 200 habitantes desse paiacutes e
com base nas suas rendas mensais
Agora se forem sorteadas 200 amostrascada uma delas contendo 2 habitantesdesse paiacutes e se forem calculadas as 200respectivas meacutedias amostrais a partir delas obteremos o histograma a seguir
Agora cada uma das 200 amostrassorteadas contendo 30 habitantes dessepaiacutes e se forem calculadas as 200 meacutediasamostrais o histograma seria
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2661
Cap 2-c ndash TCL ExemploComo pode ser observado no caso de n = 2 o histograma se aproxima mais de uma curvaNormal do que no caso de n = 1 E no caso de n = 30 a semelhanccedila do histograma com umacurva Normal eacute ainda maior
O Teorema Central do Limite afirma que independentemente de qual seja a
distribuiccedilatildeo original dos Xirsquos a distribuiccedilatildeo de probabilidade de e a
distribuiccedilatildeo Normal com meacutedia micromicromicromicro e variacircncia σσσσ2 n se aproximam cada vez
mais uma da outra agrave medida que n cresce
Portanto mesmo que a distribuiccedilatildeo de probabilidade dos Xirsquos seja desconhecida o Teorema
X n
Central do Limite garante a possibilidade de usarmos o modelo Normal para calcular ainda quede forma aproximada probabilidades relativas agrave meacutedia amostral desde que n sejasuficientemente grande
Exemplo 62 Simulando o efeito do TCL
Para ilustrar o funcionamento do Teorema Central do Limite vamos exibir agora um exemploem que a distribuiccedilatildeo original a partir da qual os dados satildeo gerados eacute uma exponencial modelo
este que daacute origem a uma funccedilatildeo densidade bastante assimeacutetrica (ao contraacuterio do que ocorre
com a curva Normal) A densidade de uma exponencial com paracircmetro eacute dada pela
expressatildeo
No R rexp(n ) simula n valores
λ
0 xλef(x) λx ge= minusλ
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2761
Cap 2-c ndash TCL ExemploA densidade de uma exponencial com paracircmetro eacute dada pela expressatildeo
Gerando dados por simulaccedilatildeo a partir de uma exponencial com λ = 13 para cada um dos
seguintes tamanhos n de amostra 1 2 3 4 5 10 15 e 201 Obtivemos 200 valores da meacutedia amostral 2 Utilizamos esses 200 valores para construir um histograma3 Traccedilamos no mesmo graacutefico uma curva da densidade Normal com E( )=3 e DP( )=3Xn
λ 0 xλef(x) λx ge= minus
Xn n
Os 8 histogramas nos mostram que agrave medida que o tamanho n da amostra cresce
a forma do histograma se aproxima cada vez mais de uma curva Normal
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2861
Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com
simulaccedilotildees - Exponencial
tclexp=function(n N=200 titulo= yl=c(0 4)) iniacutecio da funccedilatildeo ndash tclexpmedias=numeric(N)
for (i in 1N) medias[i]= mean(rexp(n13))
hist(medias xlim=c(-110) ylim=yl freq=F main=titulo)
x=seq(-110 02)
points(x dnorm(x 3 3sqrt(1n) ) type=l lwd=3)
fim da funccedilatildeo
graphicsoff()
par(mfrow=c(33) mai=c(3411))
tclexp(1titulo=n=1)
tclexp(2titulo=n=2)
tclexp(3titulo=n=3)
tclexp(4titulo=n=4)
tclexp(5titulo=n=5)
tclexp(6titulo=n=6)
tclexp(10titulo=n=10yl=c(06))
tclexp(15titulo=n=15yl=c(06))
tclexp(20titulo=n=20yl=c(06))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2961
Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com
simulaccedilotildees - Exponencial
Uma pergunta natural neste ponto serialdquoQuatildeo grande deve ser n para que possamos usar a aproximaccedilatildeo fornecida pelo
TCL com um niacutevel de precisatildeo aceitaacutevelrdquo
A rapidez com que essa convergecircncia se daacute depende de quatildeo distante estaacute a forma
da distribuiccedilatildeo original das Xirsquos de uma curva Normal Em outras palavras se a
distribuiccedilatildeo das Xirsquos jaacute natildeo for muito diferente de uma Normal com um n natildeo muito-
grande (usualmente n ge 30) a aproximaccedilatildeo da distribuiccedilatildeo de por uma Normal
funcionaria adequadamente
No exemplo a seguir vamos apresentar esse fenocircmeno a saber a convergecircncia da
distribuiccedilatildeo de para uma Normal agrave medida que n cresce gerando por simulaccedilatildeo osdados originais a partir de diferentes modelos probabiliacutesticos Em todos os casos a
distribuiccedilatildeo original eacute bem diferente da Normal E(X)=3 e DP(X)=3 No que se refere agrave
Simulaccedilatildeo foi seguida a mesma sequumlecircncia de passos do exemplo anterior
Xn
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3061
Cap 2-c ndash TCL Exemplo
Exponencial
Uniforme
Mistura deNormais
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3161
Como se pode observar
1 No caso da distribuiccedilatildeo uniforme (A) o histograma de jaacute se aproximabastante de uma Normal quando n eacute da ordem de 4
2 Jaacute no caso da distribuiccedilatildeo Exponencial (B) e da mistura de normais
(C) modelos esses que se afastam muito mais de umldquo rdquo
Cap 2-c ndash TCL Exemplo
mostra mais adequada a partir de n em torno de 10
3 No caso do modelo em (C) agrave medida que n cresce tudo se passacomo se houvesse a ldquoerupccedilatildeo de um vulcatildeo dentro do valerdquo
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3261
tclunif=function(nN=100titulo= yl=c(0 4))
medias=numeric(N)for (i in 1N) medias[i]= mean(runif(n 3-3sqrt(3) 3+3sqrt(3)))
hist(medias xlim=c(-610) ylim=yl freq=F main=titulo)
x=seq(-610 02)
points(x dnorm(x 3 3sqrt(1n) ) type=l lwd=3)
medias
Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com
as simulaccedilotildees - Uniforme
grap cso
par(mfrow=c(33) mai=c(3411))
tclunif(1titulo=n=1yl=c(06))
tclunif(2titulo=n=2yl=c(06))
tclunif(3titulo=n=3yl=c(06))
tclunif(4titulo=n=4yl=c(06))tclunif(5titulo=n=5yl=c(06))
tclunif(6titulo=n=6yl=c(06))
tclunif(10titulo=n=10yl=c(06))
tclunif(15titulo=n=15yl=c(06))
tclunif(20titulo=n=20yl=c(06))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3361
X2=c(rnorm(35011) rnorm(15081)) X2 eacute a Populaccedilatildeo de onde retiramos as amostras
br=seq(-2 12 5)
tcl2modas=function(nN=200titulo= yl=c(0 6)) medias=numeric(N)for (i in 1N) medias[i]= mean(sample(X2nrep=T))hist(mediasbreaks=br xlim=c(-212) tcl=-01 ylim=yl xarp=c(-31216)
tck=005 lab=c(5515) freq=F main=titulo)x=seq(-312 02)
Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com
as simulaccedilotildees - Mistura de Normais
points(x dnorm(x med dpsqrt(n) ) type=l lwd=2)
par(mfrow=c(24) mai=c(3011) mar=c(2 2 2 1))
hist(X2 freq=F breaks=seq(-3125) bty=o xlim=c(-212)xarp=c(-31216)tck=005 lab=c(5515) ylim=c(06) main=POPULACcedilAtildeO lwd=2)
tcl2modas(2titulo=n=2)tcl2modas(3titulo=n=3)
tcl2modas(4titulo=n=4)
tcl2modas(5titulo=n=5)
tcl2modas(10titulo=n=10)
tcl2modas(15titulo=n=15)
tcl2modas(25titulo=n=25)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3461
CAP 3-a) Intervalo de ConfianccedilaSeja um estimador pontual do paracircmetro eacute uma variaacutevel aleatoacuteria que varia deamostra para amostra Por isso haacute uma certa dose de incerteza inerente a esse processode estimaccedilatildeo Nosso objetivo agora eacute obter com base nos dados amostrais (da uacutenicaamostra observada) um intervalo ao qual o valor correto do paracircmetro deve ter grandechance de pertencer
bull Detalhando um pouco mais No processo de estimaccedilatildeo por intervalo de um paracircmetro θdevemos determinar um intervalo que contenha o verdadeiro valor do paracircmetro comprobabilidade 1-α onde α eacute um pequeno valor preacute-fixado Este intervalo eacute construiacutedo emgeral em torno do estimador pontual considerando uma margem de erro d de forma aque uma vez fixada a probabilidade 1-α calculemos d tal que P( - d le θ le + d ) = 1 -αChama-se intervalo de confianccedila para θ ao niacutevel 1 - α ao intervalo [ - d + d]
θ $θ
$θ$θ
$θ $θ
$
θ
bull Ou seja o estimador pontual eacute o centro do Intervalo de Confianccedila e o erro absoluto dassociado a define a amplitude desse intervalo O que eacute de fato variaacutevel aleatoacuteria satildeoos extremos do intervalo O paracircmetro tem valor desconhecido natildeo aleatoacuterio (fixo a ser estimado)
Exemplo Intervalo de Confianccedila para a meacutedia populacional com o desvio padratildeo conhecidoO paracircmetro a estimar eacute a meacutedia populacional micro A estimaccedilatildeo seraacute baseada em X1 X2 Xn
uma amostra aleatoacuteria com E(Xi) = micro e var(Xi) = σ2 para todo i = 12 n Queremos que seja
vaacutelida a expressatildeo o que equivale a P [ -d le -micro le d] = 1-α
$θ
X[ ] α1dmicroXP minus=leminus
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3561
bull Lembrando que para n suficientemente grande pelo Teorema Central do Limite a meacutediaamostral segue uma distribuiccedilatildeo que se aproxima da Normal(micromicromicromicro σσσσ2 n) (ou eacute exatamente aNormal(micromicromicromicro σσσσ2 n) no caso em que a distribuiccedilatildeo comum das va Xirsquos jaacute eacute Normal) entatildeo
P [-d le -micromicromicromicro le d] = 1-α rArr 1-α = P [ |Z| le ] Logo d =
bull Faremos uma simulaccedilatildeo para a construccedilatildeo de Intervalos de Confianccedila com 100 amostras dedois tipos de populaccedilatildeo Normal e Exponencial A lista de comandos do R que usamos eacute
ICN = function (N n mu sigma = 3 conf)
plot(0 0 type=n xlim=c(010) ylim=c(0N) bty=l
xlab=Normal ylab=amostras)abline(v=mu)
CAP 3-a) Intervalo de Confianccedila
X
nσ
d
minus
z0 = qnorm(1-((1-conf)2))
sigmaxbarra = sigmasqrt(n)
for (i in 1N)
x = rnorm(n mu sigma)
media = mean(x)
li = media - z0 sigmaxbarrals = media + z0 sigmaxbarra
plotx = c(lils)
ploty = c(ii)
if (li gt mu | ls lt mu) lines(plotxploty col=red)
else lines(plotxploty)
gt ICN(100 25 3 3 95)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3661
CAP 3-a) Intervalo de Confianccedila
ICexp = function (N n lambda conf)
mu=1lambda sigma=1lambda
plot(0 0 type=n xlim=c(010) ylim=c(0N) bty=lxlab=Exponencial ylab=amostras)
abline(v= mu)
z0 = qnorm(1-((1-conf)2))
sigmaxbarra = sigmasqrt(n)
for (i in 1N)
x = rexp(nlambda) me a = mean x
li = media - z0 sigmaxbarra
ls = media + z0 sigmaxbarra
plotx = c(lils)
ploty = c(ii)
if (li gt mu | ls lt mu) lines(plotx ploty col=red)
else lines(plotx ploty)
gt ICexp(100 25 13 95)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3761
CAP 3-b Teste de Hipoacuteteses (TH)O objetivo de um teste de hipoacutetese eacute avaliar a validade de uma afirmaccedilatildeo sobre determinada
caracteriacutestica da populaccedilatildeo usando para isso os dados de uma amostra Essa caracteriacutestica eacute
representada pela va contiacutenua X cujo comportamento probabiliacutestico eacute expresso pela funccedilatildeo dedensidade f com paracircmetro Ө que tem valor desconhecido
Em um teste existem duas hipoacuteteses envolvidas H0 denominada hipoacutetese nula e H1
denominada hipoacutetese alternativa O procedimento de teste de hipoacutetese consiste em estabelecer
um criteacuterio de decisatildeo que leve a Aceitar ou Rejeitar H0 com base nos valores amostrais
A Estatiacutestica de teste eacute uma funccedilatildeo da amostra aleatoacuteria utilizada para definir o criteacuterio de
decisatildeo Estabelecer o criteacuterio de decisatildeo consiste em dividir o conjunto dos valores possiacuteveis
da estatiacutestica de teste em duas partes denominadas Regiatildeo de Aceitaccedilatildeo A e Regiatildeo de
Rejeiccedilatildeo R da hipoacutetese nula
Em um teste de hipoacutetese haacute dois tipos possiacuteveis de erro de decisatildeo
Erro I - Rejeitar H0 quando H0 eacute verdadeira
Erro II - Aceitar H0 quando H0 eacute falsaAs probabilidades de ocorrecircncia dos erros satildeo α = P [ Erro I ] e β = P [ Erro II]
A probabilidade de erro I α eacute o niacutevel de significacircncia do teste cujo valor eacute arbitrado pelo
pesquisador deve ser pequena pois corresponde a probabilidade de um erro (005 ou 001)
O niacutevel criacutetico ou p-valor do teste eacute o menor valor de α para o qual ainda rejeitariacuteamos H0 de
acordo com os dados observados
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3861
CAP 3-b) ndash TH teste tttest(x y = NULL alternative = c(twosided less greater) mu = 0
paired = FALSE varequal = FALSE conflevel = 095 )
Procedimentos de teste de hipoacuteteses com niacutevel de significacircncia α e amostras de tamanho n
UmaAmostra
DuasAmostras
Obs Os testes acima satildeo bilaterais
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3961
CAP 3ndashb) TH exemplo de teste t ndash amostras independentespag233- teste t amostras independente - comparaccedilatildeo log(salaacuterio)
entre os grupos de comeacutercio e de serviccedilo
LogSal=c(1289156912501344145616361573171309060903
0977122011031069128714101496131113371366
1227119114591280115217401649176524101701
1538192419251721154918911534163812071682
120614232010143112651570)
Sal=exp(LogSal)
setor= c(rep(C23) rep(S23))
ttest(Sal[setor==C] Sal[setor==S] varequal=T)
Two Sample t-test
data Sal[setor == C] and Sal[setor == S]
t = -36822 df = 44 p-value = 00006289
alternative hypothesis true difference in means is not equal to 095 percent confidence interval
-23079005 -06751838
sample estimates
mean of x mean of y3786010 5277552
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4061
CAP 3ndashb) TH exemplo de teste t ndash amostra pareadapag237- teste t pareado
P1=c(6315596455545480598065203660986853
8765647785536980827184605572645564)
P2=c(3638306043466455604343523428837155
8238556767443459605968506254473652)
ttest(P1 P2 alt=greater paired = T)
Paired t-test
data P1 and P2
t = 44176 df = 33 p-value = 5072e-05
alternative hypothesis true difference in means is greater than 0
95 percent confidence interval
0716695 Inf
sample estimates
mean of the differences
1161765
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4161
CAP 3ndashb) TH exemplo de teste Quiquadrado chisqtest
pag233- teste Quiquadrado -
tcont=matrix(c(683585251530258 7461761220225) 72)
chisqtest(tcont)
Pearsons Chi-squared test
data tcont- = = - lt -
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4261
CAP 3ndashb) TH exemplo de teste Quiquadrado chisqtestaov(formula data = NULL )
pag244- ANOVA - Comparaccedilatildeo de trecircs raccedilotildees para suinos
A=c(444943514475425134305342453630
322133421040395246294247453959)
B=c(343640545953445432686954414647
6566455739)
C=c(574040364566395025212927283942
21304143294244582849)
aumentoP=c(ABC)
racao=c(rep(A30)rep(B20) rep(C25))
summaryaov(aov(aumentoP ~ racao))
Df Sum Sq Mean Sq F value Pr(gtF)racao 2 15385 7693 56136 0005425
Residuals 72 98666 1370
---
Signif codes 0 lsquorsquo 0001 lsquorsquo 001 lsquorsquo 005 lsquorsquo 01 lsquo rsquo 1
Warning message
In modelmatrixdefault(mt mf contrasts)
variable racao converted to a factor
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4361
ApecircndicesA-1) Apresentaremos aqui algumas figuras
feitas no R na elaboraccedilatildeo do livro
Achamos que o exame desses coacutedigos acompanhado dos resultados podeser um bom aprendizado um exerciacutecio ou talvez uma recordaccedilatildeo do materialaqui exposto
A-2) Resumo de comandosa) Criaccedilatildeo de dados
b) Informaccedilatildeo de uma Variaacutevel
c) Seleccedilatildeo de dados e manipulaccedilatildeo
d) Estatiacutesticas e operaccedilotildees matemaacuteticas
e) Corte e extraccedilatildeo de dados
f) Operaccedilatildeo com Matrizes
g) Graacuteficos (Plotting)
h) Teste de hipoacuteteses
i) Programming
j) Commandos auxiliaries em Graacuteficos
k) Comando par (Graphical parameters)
l) Input and output
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4461
A1) ndash Pag 14 ndash Figura 15
IDADE=c(616961716371726866697267636663636067716360696463667164706366646969646372736871726968687379)
IMC= c(245273281301254301280234268228255228235232203226239243271227237258213243243248219234216214221227227211268278275267286253239258247284235)
par(mfrow=c(12))hist(IDADE breaks=c(6065707580) ylim=c(020) ylab=Nuacutemero de Observaccedilotildees
main= col=grey right = F)hist(IMC breaks=c(200225250275300325)
ylab=Nuacutemero de Observaccedilotildeesmain= col=grey right = F )
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4561
A1) ndash Pag 44 ndash Figura 21
mat=matrix(c(81823913601818608740)32)
rownames(mat)=c(AtivaSedentaacuteriaTotal)colnames(mat)=c(NormalSobrepeso)barplot(t(mat) beside = TRUE space=c(315)
col=gray(c(79))legend = c(NormalSobrepeso) ylim = c(0 95) ylab= - percentagem)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4661
A1) ndash Pag 48 ndash Figura 22
mat= matrix(c(68154510 66214215 66242519 39161711)44byrow=T)
rownames(mat)=c(18 a 21 anos 22 a 25 anos 26 a 30 anos 31 a 40 anos)colnames(mat)=c(CinTeatSMDEx)mat1=mat for (i in 14) mat1[i]lt-mat1[i]100sum(mat1[i]) par(mfrow=c(12) mai=c(1111) mar=c(5 4 2 2) )barplot(matbeside=F ylim=c(0250) legend = c(18 a 21 anos 22 a 25 anos
26 a 30 anos 31 a 40 anos) xlab=Contagem)
barplot(mat1 beside=F xlab=Percentagem)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4761
A1) ndash Pag 52 ndash Figura 25X= c(184114821789235159118762592403190408372147328526471687
09642871437079238215753399242122530314859149806)y =c(01837012540193301620014230140604568022870231400861019960235302186012798991801254018210244160823
0147764068011818941403474539680150133247023685518102146187520214097090257291227
036282905401406510810113849399)plot(x y xlim=c(07) ylim=c(05) pch=16 bty=l xlab=Renda per capita
ylab=Telefonia Fixa per capita)
abline(lsfit(xy))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4861
A1) ndash Pag 109 ndash Figura 45
x=020
y1=dpois(x1) y2=dpois(x3) y3=dpois(x10)names(y1)=x names(y2)=x names(y3)=xpar(mfrow=c(13))plot(y1ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=1)plot(y2ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=3)plot(y3ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=10)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4961
A1) ndash Pag 118 ndash Figura 412
x=seq(010001)
plot(xdexp(x 12) type=l xlim=c(012) ylim=c(01) bty=l ylab=f(x) eF(x))for(i in seq(0 25 001)) segments(i 0 i dexp(i12) col=lightgrey)abline(v=0 h=0)points(xdexp(x 12) type=l lwd=2 bty=l)points(xpexp(x 12) lwd=2 type=l)segments(250 25pexp(2512))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5061
A1) ndash Pag 163 ndash Figura 68
plot(p xlim=c(618) ylim=c(016) type=n bty=l xaxt=n xlab= ylab=
cexaxis=6)for (i in 1015) rect(i-50 i+5 dbinom(i304) col=lightgrey) lty=2)segments(i0idbinom(i304) lty=2)
x=seq(61801) lines(x dnorm(x12sqrt(72)) lwd=2)x=seq(61801) lines(x dnorm(x12sqrt(72)) lwd=2)
axis(1 916 cexaxis=9) ax s seq cexax s=
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5161
A1) ndash Pag 198 ndash Figura 78
x1=seq(-4402)plot(x1dnorm(x1) type=l lwd=3 xlab= ylab= )lines(x1 dt(x11)) lines(x1 dt(x12)) lines(x1 dt(x15))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5261
A2ndashResumo de comandos
a)Criaccedilatildeo de dados
c()funccedilatildeo geneacuterica para combinar argumentos com o formando de um vetor fromto gera uma sequecircnce ldquordquo tem prioridade de operator pe13 + 1 is ldquo234rdquo
seq(fromtoby) gera uma sequecircncia by= especifica incremento
length= especifica um comprimento desejado
rep(xtimes) replicate x onuacutemero times de vezes use each= para repetir cada
elemento de x rep(c(123)2) gera 1 2 3 1 2 3 rep(c(12)each=2) gera 1 1 2 2
matrix(xnrow=ncol=) matrix elementos de x se reciclam caso x
rbind()combina vetores em linhas num estrutura de matrizes de dados
cbind()combina vetores em colunas num estrutura de matrizes de dados
array(xdim=) matriz com dados x especificar dimensotildees como dim=c(342)
elementos de x se reciclam caso x natildeo seja suficientemente grande
factor(xlevels=) codifica um vetor x como um fator gl(nklength=nklabels=1n) gerar niacuteveis (fatores) especificando
o padratildeo de seus niacuteveis k eacute o nuacutemero de niacuteveis e n eacute o nuacutemero de repeticcedilotildees
dataframe() criar um banco de dados Por exemplo
dataframe(v=14ch=c(gBcasad)n=5)
list()criar uma lista de argumentos Por exemplo list(a=c(12)b=hic=3i)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5361
A2ndashResumo de comandos
b) Informaccedilatildeo de uma Variaacutevellength(x) nuacutemero de elementos em x
dim(x) Obter ou definir a dimensatildeo de um objeto dim (x) = c(32)dimnames(x) Obter ou definir os nomes das dimensotildees de um objeto
nrow(x) nuacutemero de linhas
ncol(x) nuacutemero de colunas
c) Seleccedilatildeo de dados e manipulaccedilatildeochoose(n k) calcula a combinaccedilatildeo de elementos escolhidos entre n
resultando n [(n-k) k]
cut(xbreaks) divide x em intervalos (fatores) breaks eacute o nuacutemero de intervalos de
corte ou um vetor com os valores especiacuteficos
table(x) retorna uma tabela com as quantidades dos diferentes valores de x
(tipicamente para variaacuteveis dos tipos inteiros ou fatores)
sample(x size) retira aleatoriamente com e sem reposiccedilatildeo elementos detamanho SIZE do vetor x a opccedilatildeo replace = TRUE permite a retirada com reposiccedilatildeo
proptable(xmargin=) transforma a tabela como tabela de propoccedilatildeo
marginal margin=1 (com relaccedilatildeo as linhas) margin=2 (com relaccedilatildeo as colunas)
sort(x) Classifica os elementos de x em ordem crescente para classificar em ordem
decrescente rev(sort(x))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5461
A2ndashResumo de comandosd) Estatiacutesticas e operaccedilotildees matemaacuteticasmean(x) media dos elementos de x
median(x) mediana dos elementos de x
quantile(xprobs=) quantis de x correspondendo a uma dada probabilidadevar(x) ou cov(x) variacircncia dos elementos de x (calculado com n-1)
se x eacute uma matriz a matriz de covariacircncia eacute calculada
sd(x) desvio padracirco de of x
cor(x) matriz de correlaccedilatildeo de x se x for uma matriz ou (1 se x eacute um vector)
cor(x y) correlaccedilatildeo linear entre X e Y ou matriz de correlaccedilatildeo se eles satildeo matrizes
round(x n) arredonda os elementos de x para n casas decimais sum x soma os e emen os e x
prod(x) multilica os elementos de x
max(x) acha o maacuteximo dos elementos de x
min(x) acha o miacutenimo dos elementos de x
range(x) equivalente a c(min(x)max(x)
cumsum(x) um vetor onde o eacutesimo elemento eacute a soma de x[1] ateacute x[i]cumprod(x) um vetor onde o eacutesimo elemento eacute o produto de x[1] ateacute x[i]
cummin(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
cummax(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
sincostanasinacosatanatan2loglog10exp)
log(x base) calcula o logaritmo de x na base=base
weightedmean(x w) media ponderada de x com peso= w
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5561
A2ndashResumo de comandos
e) Corte e extraccedilatildeo de dadosindexaccedilatildeo de Vetores
x[n] n-eacutesimo elemento do vetor
x[-n] todos menos o n-eacutesimo elemento
x[1n] os primeiros n elemento
x[-(1n)] elementos de n+1 ateacute o final
x[c(432)] elementos especificados
x[y gt 5] todo elementos de onde os valores de y satildeo maiores que 5
x x gt 3 amp x lt 5 todo elementos entre 3 e 5
x[nome] elemento denominado nome
indexaccedilatildeo de Matrizes
x[ij] elemento na linha i coluna j
x[i] linha i
x[j] coluna j
x[c(13)] colunas 1 and 3
x[nome] linha nomeada nome
indexaccedilatildeo de data frames
x[[nome]] coluna chamada nome
x$nome equivalente a coluna chamada nome
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5661
A2ndashResumo de comandos
f) Operaccedilatildeo com Matrizest(x) transposta da matrix x
diag(x) retira a diagonal da matrix x
multiplicaccedilatildeo matricial
solve(ab) resove a equaccedilatildeo a x = b em relaccedilatildeo a x
solve(a) matriz inversa de a
rowSum(x) soma das linhas da matrix x
colSum(x) soma das colunas da matrix x
rowMeans x meacutedia das linhas da matrix x
colMeans(x) id meacutedia das colunas da matrix x
g) Graacuteficos (Plotting)plot(x y) diagrama de disperccedilatildeo plot dos pares (xy) num sistema de eixos
coordenadoshist(x) histogram dasfrequecircncias of x
barplot(x) graacutefico de barras of x usar horiz=T ara barras horizontal
pie(x) graacutefico de setores (pie-chart)
boxplot(x)
qqnorm(x) quantis de x em relaccedilatildeo aos valores esperados de uma dist Normal
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5761
A2ndashResumo de comandosparametros dos commando de Graacutefico
type=p especifica o tipo de plot p pontos l linhas b pontos
ligados por linhas o idecircntico mas as linhas passam sobre os pontos h
linhas verticais s escada (steps) os dados satildeo representados pelas alturasverticais
xlim= ylim= especifica os limites inferiores e superiores dos eixos por exemplocom xlim=c(1 10) ou xlim=range(x)
xlab= ylab= nomeia os eixos o nome deve ser do tipo caracter
main= tiacutetulo principal deve ser do tipo caracter
sub= sub-tiacutetulo (escrito em fonte menor)
podem ser usados como bty(tipo de caixa) lwd (lagura da linha) lty (tipo delinha) pch(tipo de ponto) cex xaxs yaxs xaxtyaxt
h) Teste de hipoacuteteses
ttest()proptest()
chisqtest()
aov(formula) analysis of variance model
anova(fit) analysis of variance (or deviance) tables for one or more
fitted model objects
Use o commando gt test para procurar todos os testes disponiacuteveis
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5861
A2ndashResumo de comandos
i) Programmingfunction( arglist ) expr para definer uma funccedilatildeo
return(value)
if(cond) expr
if(cond) consexpr else altexpr
for(var in seq) expr
while(cond) expr
re eat ex r
break
Usar chaves entre commandos dlimitando o iniacutecio e o fim de um grupo decomandos
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5961
A2ndashResumo de comandos
j) Commandos auxiliaries em Graacuteficospoints(x y) adiciona pontos (a opccedilatildeo type= pode ser usada)
lines(x y) adiciona linhas (a opccedilatildeo type= pode ser usada)text(x y labels ) adiciona texto na coordenada (xy) um uso tiacutepico eacute
plot(x y type=n) text(x ynames)
segments(x0 y0 x1 y1) desenha linhas do ponto (x0 y0) ao (x1 y1)
arrows(x0 y0 x1 y1 angle= 30 code=2) desenha seta do ponto
(x0 y0) ao (x1 y1)
abline(ab) desenha uma reta de inclinaccedilatildeo b e intercepto a
abline(v=x) desenha uma reta vertical em x
abline(lsfit(xy)) desenha uma reta da regressatildeo feita em lsfit(xy)
rect(x1 y1 x2 y2) desenha um retacircngulo que a esquerda inferior tem coordenadas(x1 y1) e o limite da direita superiores (x2 y2)
polygon(x y) desenha um poliacutegono que une os pontos com coordenadas X e Y
legend(x y legend) Acrescenta a lenda no ponto (x y) com os siacutembolos
dada pela legend
title()adiciona um tiacutetulo e opcionalmente um sub-tiacutetulo
axis(side) acrescenta um eixo na parte inferior (side = 1) agrave esquerda (2) na partesuperior (3) ou agrave direita (4)
box()desenhar uma caixa em torno do plot
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6061
A2ndashResumo de comandos
k) Comando par (Graphical parameters)Todos estes comando podem ser definidos a niacutevel global com o par () que
especifica os paracircmetros mas tambeacutem muitos podem ser usados comoparametros dos commando de Graacutefico
mfcol vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em colunas
mfrow vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em linhas(matrix for row)
bty controla o tipo de caixa desenhada ao redor do enredo valores permitidos satildeo
o l 7 c u ou se bt =n a caixa natildeo eacute desenhada
lty controla o tipo de linhas pode ser um inteiro ou string (1 solid 2 dashed 3dotted 4 dotdash 5 longdash 6twodash) ou uma string de ateacuteoito caracteres (entre 0 e 9) que especifica o comprimento em pontos oupixels dos elementos desenhados e os espaccedilos em branco por exemplolty=rdquo44rdquo equivale a lty=2
lwd nuacutemero que controla a largura das linhas default 1pch controla o tipo de siacutembolo pode tambeacutem ser um nuacutemero inteiro entre 1 e 25
ps um inteiro que controla o tamanho em pontos de textos e siacutembolos
pty um caracter que especifica o tipo da regiatildeo s quadrado m maacuteximal
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6161
A2ndashResumo de comandos
l) Input and outputreadtable(file) lecirc um arquivo em formato de tabela e cria um quadro de dados a
partir dele o separador default = eacute espaccedilo em branco header = TRUE ler a
primeira linha como um cabeccedilalho de nomes de coluna asis = TRUE paraevitar aque um vetore de caracteres seja convertido em factores usocommentchar = para evitar seja interpretado como um comentaacuteriouso skip = n para pular n linhas antes da leitura de dados consulte a ajudapara as opccedilotildees de linha de nomeaccedilatildeo o tratamento NA e outros
readcsv(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por viacutergulas
readdelim(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por tabulaccedilotildees
readfwf(filewidthsheader=FALSEsep= asis=FALSE)
ler uma tabela de dados em formato fix de largura m para um dataframe widthseacute um vetor inteiro informando os tamanhos dos campos
sink(file) saiacuteda de todos os comandos para um arquivo ateacute aparecer um comando
sink () que desliga writetable(x file=rownames=Tcolnames=Tsep= ) imprime x apoacutes a
conversatildeo para banco de dados
save(file) guarda os objetos especificados () no formato XDR
load()carregar o conjunto de dados salvos com o comando save
data(x) carrega um conjunto de dados especificado
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1461
Para uma dada variaacutevel quantitativa uma medida de centralidade eacute um ldquovalor tiacutepicordquo em torno doqual se situam os valores daquela variaacutevelAs medidas de centralidade mais conhecidas satildeoa meacutedia aritmeacutetica e a mediana Usar os comando mean(x) median(y) Por exemplo
gt mean(nt)[1] 2001852gt median(nt)[1] 193Uma medida de localizaccedilatildeo eacute o quantil A funccedilatildeo apropriada do R para obter os quantis de um
vetor numeacuterico x eacute a funccedilatildeo gt quantile(x)Se desejarmos determinar os trecircs quartis usariacuteamos
o comando quantile(xc(02505075))
Se desejarmos o quinto o deacutecimo e o nonageacutesimo percentis usariacuteamos o comandogt quantile(xc(05010090))
Cap1-AED Medidas (estatiacutesticas)
O comando quantile(xp) retorna o quantil de ordem p das observaccedilotildees de x podendo p ser
um vetor Por exemplo
gt quantile(nt c(20 50 95))
20 50 95
1306 1930 3582
Uma medida de dispersatildeo para uma variaacutevel quantitativa eacute um indicador do grau de espalhamento
dos valores da amostra em torno da medida de centralidade As medidas de dispersatildeo mais
conhecidas satildeo a variacircncia o desvio-padratildeo e a distacircncia interquartil=diferenccedila entre o terceiro
e o primeiro quartis
gt var(nt)
[1] 7131464
gt sd(nt)
[1] 84448
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1561
gt q=fivenum(nt) q[4]-q[2] em q estatildeo os 5 nuacutem Subtraiacutemos o Q3 do Q1[1] 92
Os cinco valores x(1) Q1 Q2 Q3 x(n) miacutenimo os trecircs quartis e o maacuteximo satildeoimportantes para se ter uma boa ideacuteia da assimetria dos dados Esse valores podem serobtidos pelo comando fivenum(x) O summary(x) acrescenta tambeacutem a meacutedia ao resultado
Por exemplogt fivenum(nt)[1] 86 141 193 233 457gt summary(nt)
Min 1st Qu Median Mean 3rd Qu Max
860 1410 1930 2002 2330 4570
Cap1-AED IEQ fivenum boxplot
O Box Plot ou Desenho Esquemaacutetico eacute um graacutefico que se costuma utilizar para sintetizarem uma mesma figura vaacuterias informaccedilotildees relativas agrave distribuiccedilatildeo de uma determinadavariaacutevel quantitativa Nele tambeacutem satildeo representadas as observaccedilotildees discrepantesObservaccedilotildees discrepantes ou outliers satildeo observaccedilotildees cujos valores estatildeo muito afastadosdos demais (para mais ou para menos) Essas observaccedilotildees podem afetar de formasubstancial o resultado das anaacutelises estatiacutesticas O comando para usar-lo eacute boxplot(x)
Por exemplo ver fig 125 pag 28gt nt=c(18381254193316214231406456822872314
8611996235321861281254244214781182347515012369214621412573362814071138) digitaccedilatildeo de nt
gt boxplot(nt ylim=c(50500)xlab=N linhas1000hab)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1661
Quando se deseja investigar a relaccedilatildeo entre duas variaacuteveis qualitativas o caminho natural eacutemontar uma tabela de contingecircncia Construir uma tabela de contingecircncia consiste emcolocar nas linhas os valores possiacuteveis de uma variaacutevel e nas colunas os valores possiacuteveis
cruzamentoO comando para fazer a tabela seria gttable(xy)Por exemplogt tab12=readtable(fSBPO2010Rtab1_2txt header = T sep = )gt attach(tab12)
gt table(CATEG Classe_IMC)Classe_IMC
CATEG normal sobrepesoA 18 4
Cap1-AED Relaccedilatildeo entre duas variaacuteveis Qualitativas
Para analisar a relaccedilatildeo entre 2 variaacuteveis atraveacutes de uma tabela de contingecircncia umprocedimento muito uacutetil eacute calcular os percentuais em relaccedilatildeo aos totais das linhas etambeacutem os percentuais em relaccedilatildeo aos totais das colunas Os comandos seriamproptab(x1) para linha e proptab(x2) para coluna Por exemplo usando a tabela 25paacutegina 46
gt mat= matrix(c(68154510 66214215 66242519 39161711)44byrow=T)gt rownames(mat)=c(18 a 21 anos22 a 25 anos26 a 30 anos31 a 40 anos)gt colnames(mat)=c(CinTeatSMDEx)gt mat1=proptable(mat 1) por linha tab 27gt mat2=proptable(mat 2) por coluna tab 28
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1761
Cap1-AED Relaccedilatildeo entre duas variaacuteveis QuantitativaQuando se deseja investigar a relaccedilatildeo entre duas variaacuteveis quantitativas o mais adequado eacutecomeccedilar pela construccedilatildeo de um Diagrama de Dispersatildeo Construir um diagrama de
dispersatildeo para 2 variaacuteveis quantitativas X e Y consiste em localizar pares de valoresobservados (xi yi ) como pontos em um sistema de eixos coordenados O camando seriaplot(xy)Por exemplogtx=c(12345) y=c(11224) plot(xy)
Um indicador do grau de interdependecircncia linear para 2 variaacuteveis quantitativas X e Y eacute ocoeficiente de correlaccedilatildeo rxy que pode assumir qualquer valor real entre -1 e 1 Ocoeficiente de correlaccedilatildeo entre X e Y eacute calculado por uma das duas expressotildees
matemaacuteticas (equivalentes) a seguir
O comando seria cor(xy) Por exemplogtx=c(12345) y=c(11224) cor(xy)
[1] 09036961
sum sum
sum
sumsum
sum
= =
=
=
=
sdotminussdotminus
sdotsdotminus
=
minussdotminus
minusminus
=n
1i
n
1i
1222
i
22
i
n
1i
ii
122
i
2
i
n
1i
n
1i
ii
xy
)yny)(xnx(
yxnyx
)y(y)xx(
)y)(yx(x
r
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1861
Cap1-AED Relaccedilatildeo entre duas variaacuteveis Quantitativa
bull Quando se verifica atraveacutes do coeficiente de correlaccedilatildeo (ou pelo aspecto visual doDiagrama de Dispersatildeo) que existe uma forte relaccedilatildeo linear entre 2 variaacuteveis X e Y
pode ser de interesse calcular a equaccedilatildeo da reta que representa esta relaccedilatildeo entre as2 variaacuteveis y = a + bx A equaccedilatildeo y = a + bx considera que y eacute a variaacutevel dependente(ou variaacutevel resposta) e que x eacute a variaacutevel independente (ou variaacutevel preditora) a serusada para explicar o comportamento da variaacutevel y A equaccedilatildeo da reta pode ser usadapara se antever qual seria o valor y0 da variaacutevel resposta y correspondente a umdeterminado valor x0 da variaacutevel preditora x
bull As foacutermulas que nos permitem calcular os valores de a e b a partir dos dados satildeo
yxn
n
i
n
i sumsum
O coeficiente b mede a inclinaccedilatildeo da reta de Regressatildeo Entatildeo ao passarmos de um pontoa outro sobre a reta b mede a relaccedilatildeo entre as variaccedilotildees de y e de x O coeficiente a medeo valor de y quando x eacute igual a zero ou seja eacute o intercepto da reta de Regressatildeo
O comando para calcular os coeficientes a e b seria gt lsprint(lsfit(xy))gtx=c(12345) y=c(11224)gtreg=lsfit(xy)gtlsprint(reg)
n
x
x
nyx
b2
n
1i
in
1i
2
i
1i
ii
minus
minus
=
sumsum =
=
=
==
x bya sdotminus=e
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1961
Cap 2-a Simulaccedilatildeo do conceito frequumlentistaConceito Frequumlentista de Probabilidade Suponha que o experimentofoi repetido n vezes sempre sob as mesmas condiccedilotildees e que o evento Aocorreu m vezes entre essas n realizaccedilotildees do experimento Entatildeoa fraccedilatildeo mn eacute uma boa aproximaccedilatildeo para a probabilidade de Ase o nuacutemero n de repeticcedilotildees for bastante grande
Simbolicamente P (A) congcongcongcong mn
Exemplo Simulando 100 lanccedilamentos de uma moedaNo R foram simulados 100 lanccedilamentos de uma moeda equilibrada isto eacute
onde as chances de cara e de coroa satildeo iguais Depois de cadalanccedilamento foi observado o nuacutemero acumulado de caras obtidas ateacute essemomen o e o ca cu a a a proporccedil o e caras correspon en e a a e a aseguir estatildeo apresentados os valores correspondentes ao nuacutemeroacumulado de caras ao longo do processo Por exemplo para a jogada denuacutemero 29 o nuacutemero acumulado de caras eacute 13 e a fraccedilatildeo de caras eacute 1329O graacutefico abaixo mostra a evoluccedilatildeo dessa fraccedilatildeo agrave medida que foramfeitos os 100 lanccedilamentos da moeda
Os comandos no R para a elaboraccedilatildeo do graacutefico
gtx=1100 y=cumsum(sample(01100rep=T))gtplot(xy1100 ylim=c(01) xlim=c(0100) pch=16)gtsegments(10510005)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2061
Cap 2-b Variaacuteveis Aleatoacuterias (va)Uma variaacutevel aleatoacuteria (va) eacute uma funccedilatildeo que associa cada elemento de um
espaccedilo amostral a um nuacutemero real As variaacuteveis aleatoacuterias podem ser do
tipo
Discreto se os seus valores pertencem a um conjunto enumeraacutevel de nuacutemerosreais (usualmente valores inteiros)
Contiacutenuo se os seus valores pertencem a um intervalo de nuacutemeros reais
O modelo probabiliacutestico de uma variaacutevel aleatoacuteria X estabelece o padratildeo de
comportamento de sua distribuiccedilatildeo de probabilidadeA fun atildeo de robabilidade de uma v a discreta X eacute definida orp(x)=P[X=x]
A funccedilatildeo de distribuiccedilatildeo acumulada F de uma v a X eacute definida porF(x) = P[Xlelelelex]
Se X eacute uma va discreta que assume os valores x 1
x 2
x 3
x N
entatildeo
bull A meacutedia ou esperanccedila de X eacuteE(X) = x 1 P(X=x 1 ) + x 2 P(X=x 2 ) + x 3 P(X=x 3 ) + + x N P(X=x N )
bull A Variacircncia de X eacute calculada por |Var(X)=(x 1 ndashE(X))2 P(X=x 1 )+(x 2 ndashE(X))2 P(X=x 2 )++(x N ndashE(X))2 P(X=x N )
bull O desvio padratildeo de X eacute igual agrave raiz quadrada natildeo negativa da suavariacircncia DP(X)= Var(X)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2161
Cap 2-b - va e o RO trabalho no R com uma va X estaacute baseado em 4 procedimentos
p probability ndash Gera a probabilidade de um valor de xq quantile ndash Gera o valor x de uma dada probabilidade acumulada pd density ndash Gera o valor da funccedilatildeo densidade num valor x da variaacutevel
Observar que quando a variaacutevel eacute discreta este valor eacute aprobabilidade de x quando a variaacutevel eacute contiacutenua o resultadoeacute a altura da funccedilatildeo densidade de probabilidade
r random ndash Gera n valores do modelo probabiliacutestico em questatildeo
As distribuiccedilotildees que estudaremos estatildeo listadas a seguir depois de cada uma delasentre parecircnteses estaacute o nome no R
(geom) Binomial negativa- Pascal (nbinom)
Entre as contiacutenuas Uniforme (unif ) Exponencial (exp) Normal (norm) t-student (t)quiquadrado (chisq) F (f )
A interligaccedilatildeo dos trecircs primeiros procedimentos pq e d seraacute ilustrada pela distribuiccedilatildeoNormal atraveacutes do graacutefico abaixo
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2261
Cap 2-b - va pnorm e qnormSeja a relaccedilatildeo p = P(Xltx) que aparece na tabela da distribuiccedilatildeo Normal Quiquadrada
t-student e F Para um dado valor de p acha-se um valor de x a procura direta que para aNormal no R corresponderia a pnorm(x 983221 σ) Neste caso devo informar o x e os dois
paracircmetros da distribuiccedilatildeo Normal 983221 e σJaacute a procura inversa seria para um dado valor de x achar um valor de p que para a Normalno R corresponderia a qnorm(p983221σ) Neste outro caso devo informar o valor de p desejado etambeacutem os dois paracircmetros da distribuiccedilatildeo Normal 983221 e σ
Exemplo Seja X a va que corresponde ao peso (em kg) de pessoas de uma certapopulaccedilatildeo com meacutedia 983221=70 Kg e desvio padratildeo σ=8 Kg assim X~ N(983221=70 σ2=82)
Se desejarmosa) P(Xlt80) usaremos no R o comando pnorm(80 70 8) isto eacute x=80 eacute o primeiro paracircmetroenquanto 70 e 8 satildeo paracircmetro especiacuteficos da distribuiccedilatildeo Normal
b) Admita que o peso limite para ser classificado como obeso eacute o valor que corresponde a10 dos mais pesados do populaccedilatildeo Achar este peso limiteO que se pede eacute a funccedilatildeo inversa Dado um valor de p=090 achar um valor de x que deixa90 abaixo dele No R seria qnorm(09 70 8) isto eacute o valor da probabilidade p=09 eacute
o primeiro paracircmetro enquanto 70 e 8 satildeo paracircmetros especiacuteficos da distribuiccedilatildeo NormalSe usarmos a Normal padratildeo z=(x-983221)σ no caso do item a o comando seria pnorm((80-70)8)ou pnorm(125) Repare que neste caso natildeo foi necessaacuterio passar os paracircmetros especiacuteficos daNormal pois 983221=0 e σ =1 coresponde ao default Observaccedilatildeo Sempre que usarmos um p oprimeiro paracircmetro eacute um x e os outros satildeo especiacuteficos da distribuiccedilatildeo em questatildeosempre que usarmos um q o primeiro paracircmetro eacute um p e os outros satildeo especiacuteficosSempre que usarmos um d o primeiro paracircmetro eacute um x
Quando usarmos uma distribuiccedilatildeo discreta o d corresponde aacute probabilidade no ponto x
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2361
Pag 118 ndash Figura 412
x=seq(010001)
plot(xdexp(x 12) type=l xlim=c(012) ylim=c(01) bty=l ylab=f(x) e F(x))
for(i in seq(0 25 001)) segments(i 0 i dexp(i12) col=lightgrey)
abline(v=0 h=0)
points(xdexp(x 12) type=l lwd=2 bty=l)
points(x pexp(x 12) lwd=2 type=l)
segments(250 25pexp(2512))
Cap 2-b - va dexp pexp points segments
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2461
Cap 2-b - va disponiacuteveis no Rrbinom(n size prob) binomialrpois(n lambda) Poissonrgeom(n prob) geometricarhyper(nn m n k) hipergeometricarnbinom(n size prob) binomial negativarunif(n min=0 max=1) uniformerexp(n rate=1) exponentialrnorm(n mean=0 sd=1) Gaussiana (normal)rt(n df) lsquoStudentrsquo (t )rf(n df1 df2) FisherndashSnedecor (F )
rchisq(n df) Quiquadradar amma n sha e scale=1 amma rbeta(n shape1 shape2) betarlnorm(n meanlog=0 sdlog=1) lognormalrcauchy(n location=0 scale=1) Cauchyrweibull(n shape scale=1) Weibullrwilcox(nn m n) Wilcoxonrsquos rank sum statistics
rsignrank(nn n) Wilcoxonrsquos signed rank statisticsrlogis(n location=0 scale=1) logistic
Todas essas distribuiccedilotildees apresentadas por rnome (nome da variaacutevel aleatoacuteria) como vimostrocando a primeira letra e mantendo os paracircmetros especiacuteficos de cada distribuiccedilatildeo(denotados por ) podem ser usadas substituindo a letra ldquor rdquo por
d valor da densidade de probabilidade no ponto x dnome (x )p probabilidade acumulada no ponto x pnome (x )
q quantil correspondente a probabilidade acumulada p dnome (p)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2561
Cap 2-c O Teorema Central do Limite (TCL)O Teorema Central do Limite (abreviadamente TCL) diz respeito ao comportamento da
meacutedia amostral agrave medida que o tamanho n da amostra cresce indefinidamente
Exemplo 31 ndash A distribuiccedilatildeo de renda e o TCLEacute um fato conhecido que a distribuiccedilatildeo da rendapessoal dos habitantes de um paiacutes eacuteusualmente muito desigual ou seja muitosganham pouco e poucos ganham muito Seforem sorteados 200 habitantes desse paiacutes e
com base nas suas rendas mensais
Agora se forem sorteadas 200 amostrascada uma delas contendo 2 habitantesdesse paiacutes e se forem calculadas as 200respectivas meacutedias amostrais a partir delas obteremos o histograma a seguir
Agora cada uma das 200 amostrassorteadas contendo 30 habitantes dessepaiacutes e se forem calculadas as 200 meacutediasamostrais o histograma seria
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2661
Cap 2-c ndash TCL ExemploComo pode ser observado no caso de n = 2 o histograma se aproxima mais de uma curvaNormal do que no caso de n = 1 E no caso de n = 30 a semelhanccedila do histograma com umacurva Normal eacute ainda maior
O Teorema Central do Limite afirma que independentemente de qual seja a
distribuiccedilatildeo original dos Xirsquos a distribuiccedilatildeo de probabilidade de e a
distribuiccedilatildeo Normal com meacutedia micromicromicromicro e variacircncia σσσσ2 n se aproximam cada vez
mais uma da outra agrave medida que n cresce
Portanto mesmo que a distribuiccedilatildeo de probabilidade dos Xirsquos seja desconhecida o Teorema
X n
Central do Limite garante a possibilidade de usarmos o modelo Normal para calcular ainda quede forma aproximada probabilidades relativas agrave meacutedia amostral desde que n sejasuficientemente grande
Exemplo 62 Simulando o efeito do TCL
Para ilustrar o funcionamento do Teorema Central do Limite vamos exibir agora um exemploem que a distribuiccedilatildeo original a partir da qual os dados satildeo gerados eacute uma exponencial modelo
este que daacute origem a uma funccedilatildeo densidade bastante assimeacutetrica (ao contraacuterio do que ocorre
com a curva Normal) A densidade de uma exponencial com paracircmetro eacute dada pela
expressatildeo
No R rexp(n ) simula n valores
λ
0 xλef(x) λx ge= minusλ
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2761
Cap 2-c ndash TCL ExemploA densidade de uma exponencial com paracircmetro eacute dada pela expressatildeo
Gerando dados por simulaccedilatildeo a partir de uma exponencial com λ = 13 para cada um dos
seguintes tamanhos n de amostra 1 2 3 4 5 10 15 e 201 Obtivemos 200 valores da meacutedia amostral 2 Utilizamos esses 200 valores para construir um histograma3 Traccedilamos no mesmo graacutefico uma curva da densidade Normal com E( )=3 e DP( )=3Xn
λ 0 xλef(x) λx ge= minus
Xn n
Os 8 histogramas nos mostram que agrave medida que o tamanho n da amostra cresce
a forma do histograma se aproxima cada vez mais de uma curva Normal
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2861
Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com
simulaccedilotildees - Exponencial
tclexp=function(n N=200 titulo= yl=c(0 4)) iniacutecio da funccedilatildeo ndash tclexpmedias=numeric(N)
for (i in 1N) medias[i]= mean(rexp(n13))
hist(medias xlim=c(-110) ylim=yl freq=F main=titulo)
x=seq(-110 02)
points(x dnorm(x 3 3sqrt(1n) ) type=l lwd=3)
fim da funccedilatildeo
graphicsoff()
par(mfrow=c(33) mai=c(3411))
tclexp(1titulo=n=1)
tclexp(2titulo=n=2)
tclexp(3titulo=n=3)
tclexp(4titulo=n=4)
tclexp(5titulo=n=5)
tclexp(6titulo=n=6)
tclexp(10titulo=n=10yl=c(06))
tclexp(15titulo=n=15yl=c(06))
tclexp(20titulo=n=20yl=c(06))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2961
Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com
simulaccedilotildees - Exponencial
Uma pergunta natural neste ponto serialdquoQuatildeo grande deve ser n para que possamos usar a aproximaccedilatildeo fornecida pelo
TCL com um niacutevel de precisatildeo aceitaacutevelrdquo
A rapidez com que essa convergecircncia se daacute depende de quatildeo distante estaacute a forma
da distribuiccedilatildeo original das Xirsquos de uma curva Normal Em outras palavras se a
distribuiccedilatildeo das Xirsquos jaacute natildeo for muito diferente de uma Normal com um n natildeo muito-
grande (usualmente n ge 30) a aproximaccedilatildeo da distribuiccedilatildeo de por uma Normal
funcionaria adequadamente
No exemplo a seguir vamos apresentar esse fenocircmeno a saber a convergecircncia da
distribuiccedilatildeo de para uma Normal agrave medida que n cresce gerando por simulaccedilatildeo osdados originais a partir de diferentes modelos probabiliacutesticos Em todos os casos a
distribuiccedilatildeo original eacute bem diferente da Normal E(X)=3 e DP(X)=3 No que se refere agrave
Simulaccedilatildeo foi seguida a mesma sequumlecircncia de passos do exemplo anterior
Xn
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3061
Cap 2-c ndash TCL Exemplo
Exponencial
Uniforme
Mistura deNormais
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3161
Como se pode observar
1 No caso da distribuiccedilatildeo uniforme (A) o histograma de jaacute se aproximabastante de uma Normal quando n eacute da ordem de 4
2 Jaacute no caso da distribuiccedilatildeo Exponencial (B) e da mistura de normais
(C) modelos esses que se afastam muito mais de umldquo rdquo
Cap 2-c ndash TCL Exemplo
mostra mais adequada a partir de n em torno de 10
3 No caso do modelo em (C) agrave medida que n cresce tudo se passacomo se houvesse a ldquoerupccedilatildeo de um vulcatildeo dentro do valerdquo
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3261
tclunif=function(nN=100titulo= yl=c(0 4))
medias=numeric(N)for (i in 1N) medias[i]= mean(runif(n 3-3sqrt(3) 3+3sqrt(3)))
hist(medias xlim=c(-610) ylim=yl freq=F main=titulo)
x=seq(-610 02)
points(x dnorm(x 3 3sqrt(1n) ) type=l lwd=3)
medias
Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com
as simulaccedilotildees - Uniforme
grap cso
par(mfrow=c(33) mai=c(3411))
tclunif(1titulo=n=1yl=c(06))
tclunif(2titulo=n=2yl=c(06))
tclunif(3titulo=n=3yl=c(06))
tclunif(4titulo=n=4yl=c(06))tclunif(5titulo=n=5yl=c(06))
tclunif(6titulo=n=6yl=c(06))
tclunif(10titulo=n=10yl=c(06))
tclunif(15titulo=n=15yl=c(06))
tclunif(20titulo=n=20yl=c(06))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3361
X2=c(rnorm(35011) rnorm(15081)) X2 eacute a Populaccedilatildeo de onde retiramos as amostras
br=seq(-2 12 5)
tcl2modas=function(nN=200titulo= yl=c(0 6)) medias=numeric(N)for (i in 1N) medias[i]= mean(sample(X2nrep=T))hist(mediasbreaks=br xlim=c(-212) tcl=-01 ylim=yl xarp=c(-31216)
tck=005 lab=c(5515) freq=F main=titulo)x=seq(-312 02)
Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com
as simulaccedilotildees - Mistura de Normais
points(x dnorm(x med dpsqrt(n) ) type=l lwd=2)
par(mfrow=c(24) mai=c(3011) mar=c(2 2 2 1))
hist(X2 freq=F breaks=seq(-3125) bty=o xlim=c(-212)xarp=c(-31216)tck=005 lab=c(5515) ylim=c(06) main=POPULACcedilAtildeO lwd=2)
tcl2modas(2titulo=n=2)tcl2modas(3titulo=n=3)
tcl2modas(4titulo=n=4)
tcl2modas(5titulo=n=5)
tcl2modas(10titulo=n=10)
tcl2modas(15titulo=n=15)
tcl2modas(25titulo=n=25)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3461
CAP 3-a) Intervalo de ConfianccedilaSeja um estimador pontual do paracircmetro eacute uma variaacutevel aleatoacuteria que varia deamostra para amostra Por isso haacute uma certa dose de incerteza inerente a esse processode estimaccedilatildeo Nosso objetivo agora eacute obter com base nos dados amostrais (da uacutenicaamostra observada) um intervalo ao qual o valor correto do paracircmetro deve ter grandechance de pertencer
bull Detalhando um pouco mais No processo de estimaccedilatildeo por intervalo de um paracircmetro θdevemos determinar um intervalo que contenha o verdadeiro valor do paracircmetro comprobabilidade 1-α onde α eacute um pequeno valor preacute-fixado Este intervalo eacute construiacutedo emgeral em torno do estimador pontual considerando uma margem de erro d de forma aque uma vez fixada a probabilidade 1-α calculemos d tal que P( - d le θ le + d ) = 1 -αChama-se intervalo de confianccedila para θ ao niacutevel 1 - α ao intervalo [ - d + d]
θ $θ
$θ$θ
$θ $θ
$
θ
bull Ou seja o estimador pontual eacute o centro do Intervalo de Confianccedila e o erro absoluto dassociado a define a amplitude desse intervalo O que eacute de fato variaacutevel aleatoacuteria satildeoos extremos do intervalo O paracircmetro tem valor desconhecido natildeo aleatoacuterio (fixo a ser estimado)
Exemplo Intervalo de Confianccedila para a meacutedia populacional com o desvio padratildeo conhecidoO paracircmetro a estimar eacute a meacutedia populacional micro A estimaccedilatildeo seraacute baseada em X1 X2 Xn
uma amostra aleatoacuteria com E(Xi) = micro e var(Xi) = σ2 para todo i = 12 n Queremos que seja
vaacutelida a expressatildeo o que equivale a P [ -d le -micro le d] = 1-α
$θ
X[ ] α1dmicroXP minus=leminus
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3561
bull Lembrando que para n suficientemente grande pelo Teorema Central do Limite a meacutediaamostral segue uma distribuiccedilatildeo que se aproxima da Normal(micromicromicromicro σσσσ2 n) (ou eacute exatamente aNormal(micromicromicromicro σσσσ2 n) no caso em que a distribuiccedilatildeo comum das va Xirsquos jaacute eacute Normal) entatildeo
P [-d le -micromicromicromicro le d] = 1-α rArr 1-α = P [ |Z| le ] Logo d =
bull Faremos uma simulaccedilatildeo para a construccedilatildeo de Intervalos de Confianccedila com 100 amostras dedois tipos de populaccedilatildeo Normal e Exponencial A lista de comandos do R que usamos eacute
ICN = function (N n mu sigma = 3 conf)
plot(0 0 type=n xlim=c(010) ylim=c(0N) bty=l
xlab=Normal ylab=amostras)abline(v=mu)
CAP 3-a) Intervalo de Confianccedila
X
nσ
d
minus
z0 = qnorm(1-((1-conf)2))
sigmaxbarra = sigmasqrt(n)
for (i in 1N)
x = rnorm(n mu sigma)
media = mean(x)
li = media - z0 sigmaxbarrals = media + z0 sigmaxbarra
plotx = c(lils)
ploty = c(ii)
if (li gt mu | ls lt mu) lines(plotxploty col=red)
else lines(plotxploty)
gt ICN(100 25 3 3 95)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3661
CAP 3-a) Intervalo de Confianccedila
ICexp = function (N n lambda conf)
mu=1lambda sigma=1lambda
plot(0 0 type=n xlim=c(010) ylim=c(0N) bty=lxlab=Exponencial ylab=amostras)
abline(v= mu)
z0 = qnorm(1-((1-conf)2))
sigmaxbarra = sigmasqrt(n)
for (i in 1N)
x = rexp(nlambda) me a = mean x
li = media - z0 sigmaxbarra
ls = media + z0 sigmaxbarra
plotx = c(lils)
ploty = c(ii)
if (li gt mu | ls lt mu) lines(plotx ploty col=red)
else lines(plotx ploty)
gt ICexp(100 25 13 95)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3761
CAP 3-b Teste de Hipoacuteteses (TH)O objetivo de um teste de hipoacutetese eacute avaliar a validade de uma afirmaccedilatildeo sobre determinada
caracteriacutestica da populaccedilatildeo usando para isso os dados de uma amostra Essa caracteriacutestica eacute
representada pela va contiacutenua X cujo comportamento probabiliacutestico eacute expresso pela funccedilatildeo dedensidade f com paracircmetro Ө que tem valor desconhecido
Em um teste existem duas hipoacuteteses envolvidas H0 denominada hipoacutetese nula e H1
denominada hipoacutetese alternativa O procedimento de teste de hipoacutetese consiste em estabelecer
um criteacuterio de decisatildeo que leve a Aceitar ou Rejeitar H0 com base nos valores amostrais
A Estatiacutestica de teste eacute uma funccedilatildeo da amostra aleatoacuteria utilizada para definir o criteacuterio de
decisatildeo Estabelecer o criteacuterio de decisatildeo consiste em dividir o conjunto dos valores possiacuteveis
da estatiacutestica de teste em duas partes denominadas Regiatildeo de Aceitaccedilatildeo A e Regiatildeo de
Rejeiccedilatildeo R da hipoacutetese nula
Em um teste de hipoacutetese haacute dois tipos possiacuteveis de erro de decisatildeo
Erro I - Rejeitar H0 quando H0 eacute verdadeira
Erro II - Aceitar H0 quando H0 eacute falsaAs probabilidades de ocorrecircncia dos erros satildeo α = P [ Erro I ] e β = P [ Erro II]
A probabilidade de erro I α eacute o niacutevel de significacircncia do teste cujo valor eacute arbitrado pelo
pesquisador deve ser pequena pois corresponde a probabilidade de um erro (005 ou 001)
O niacutevel criacutetico ou p-valor do teste eacute o menor valor de α para o qual ainda rejeitariacuteamos H0 de
acordo com os dados observados
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3861
CAP 3-b) ndash TH teste tttest(x y = NULL alternative = c(twosided less greater) mu = 0
paired = FALSE varequal = FALSE conflevel = 095 )
Procedimentos de teste de hipoacuteteses com niacutevel de significacircncia α e amostras de tamanho n
UmaAmostra
DuasAmostras
Obs Os testes acima satildeo bilaterais
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3961
CAP 3ndashb) TH exemplo de teste t ndash amostras independentespag233- teste t amostras independente - comparaccedilatildeo log(salaacuterio)
entre os grupos de comeacutercio e de serviccedilo
LogSal=c(1289156912501344145616361573171309060903
0977122011031069128714101496131113371366
1227119114591280115217401649176524101701
1538192419251721154918911534163812071682
120614232010143112651570)
Sal=exp(LogSal)
setor= c(rep(C23) rep(S23))
ttest(Sal[setor==C] Sal[setor==S] varequal=T)
Two Sample t-test
data Sal[setor == C] and Sal[setor == S]
t = -36822 df = 44 p-value = 00006289
alternative hypothesis true difference in means is not equal to 095 percent confidence interval
-23079005 -06751838
sample estimates
mean of x mean of y3786010 5277552
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4061
CAP 3ndashb) TH exemplo de teste t ndash amostra pareadapag237- teste t pareado
P1=c(6315596455545480598065203660986853
8765647785536980827184605572645564)
P2=c(3638306043466455604343523428837155
8238556767443459605968506254473652)
ttest(P1 P2 alt=greater paired = T)
Paired t-test
data P1 and P2
t = 44176 df = 33 p-value = 5072e-05
alternative hypothesis true difference in means is greater than 0
95 percent confidence interval
0716695 Inf
sample estimates
mean of the differences
1161765
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4161
CAP 3ndashb) TH exemplo de teste Quiquadrado chisqtest
pag233- teste Quiquadrado -
tcont=matrix(c(683585251530258 7461761220225) 72)
chisqtest(tcont)
Pearsons Chi-squared test
data tcont- = = - lt -
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4261
CAP 3ndashb) TH exemplo de teste Quiquadrado chisqtestaov(formula data = NULL )
pag244- ANOVA - Comparaccedilatildeo de trecircs raccedilotildees para suinos
A=c(444943514475425134305342453630
322133421040395246294247453959)
B=c(343640545953445432686954414647
6566455739)
C=c(574040364566395025212927283942
21304143294244582849)
aumentoP=c(ABC)
racao=c(rep(A30)rep(B20) rep(C25))
summaryaov(aov(aumentoP ~ racao))
Df Sum Sq Mean Sq F value Pr(gtF)racao 2 15385 7693 56136 0005425
Residuals 72 98666 1370
---
Signif codes 0 lsquorsquo 0001 lsquorsquo 001 lsquorsquo 005 lsquorsquo 01 lsquo rsquo 1
Warning message
In modelmatrixdefault(mt mf contrasts)
variable racao converted to a factor
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4361
ApecircndicesA-1) Apresentaremos aqui algumas figuras
feitas no R na elaboraccedilatildeo do livro
Achamos que o exame desses coacutedigos acompanhado dos resultados podeser um bom aprendizado um exerciacutecio ou talvez uma recordaccedilatildeo do materialaqui exposto
A-2) Resumo de comandosa) Criaccedilatildeo de dados
b) Informaccedilatildeo de uma Variaacutevel
c) Seleccedilatildeo de dados e manipulaccedilatildeo
d) Estatiacutesticas e operaccedilotildees matemaacuteticas
e) Corte e extraccedilatildeo de dados
f) Operaccedilatildeo com Matrizes
g) Graacuteficos (Plotting)
h) Teste de hipoacuteteses
i) Programming
j) Commandos auxiliaries em Graacuteficos
k) Comando par (Graphical parameters)
l) Input and output
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4461
A1) ndash Pag 14 ndash Figura 15
IDADE=c(616961716371726866697267636663636067716360696463667164706366646969646372736871726968687379)
IMC= c(245273281301254301280234268228255228235232203226239243271227237258213243243248219234216214221227227211268278275267286253239258247284235)
par(mfrow=c(12))hist(IDADE breaks=c(6065707580) ylim=c(020) ylab=Nuacutemero de Observaccedilotildees
main= col=grey right = F)hist(IMC breaks=c(200225250275300325)
ylab=Nuacutemero de Observaccedilotildeesmain= col=grey right = F )
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4561
A1) ndash Pag 44 ndash Figura 21
mat=matrix(c(81823913601818608740)32)
rownames(mat)=c(AtivaSedentaacuteriaTotal)colnames(mat)=c(NormalSobrepeso)barplot(t(mat) beside = TRUE space=c(315)
col=gray(c(79))legend = c(NormalSobrepeso) ylim = c(0 95) ylab= - percentagem)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4661
A1) ndash Pag 48 ndash Figura 22
mat= matrix(c(68154510 66214215 66242519 39161711)44byrow=T)
rownames(mat)=c(18 a 21 anos 22 a 25 anos 26 a 30 anos 31 a 40 anos)colnames(mat)=c(CinTeatSMDEx)mat1=mat for (i in 14) mat1[i]lt-mat1[i]100sum(mat1[i]) par(mfrow=c(12) mai=c(1111) mar=c(5 4 2 2) )barplot(matbeside=F ylim=c(0250) legend = c(18 a 21 anos 22 a 25 anos
26 a 30 anos 31 a 40 anos) xlab=Contagem)
barplot(mat1 beside=F xlab=Percentagem)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4761
A1) ndash Pag 52 ndash Figura 25X= c(184114821789235159118762592403190408372147328526471687
09642871437079238215753399242122530314859149806)y =c(01837012540193301620014230140604568022870231400861019960235302186012798991801254018210244160823
0147764068011818941403474539680150133247023685518102146187520214097090257291227
036282905401406510810113849399)plot(x y xlim=c(07) ylim=c(05) pch=16 bty=l xlab=Renda per capita
ylab=Telefonia Fixa per capita)
abline(lsfit(xy))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4861
A1) ndash Pag 109 ndash Figura 45
x=020
y1=dpois(x1) y2=dpois(x3) y3=dpois(x10)names(y1)=x names(y2)=x names(y3)=xpar(mfrow=c(13))plot(y1ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=1)plot(y2ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=3)plot(y3ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=10)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4961
A1) ndash Pag 118 ndash Figura 412
x=seq(010001)
plot(xdexp(x 12) type=l xlim=c(012) ylim=c(01) bty=l ylab=f(x) eF(x))for(i in seq(0 25 001)) segments(i 0 i dexp(i12) col=lightgrey)abline(v=0 h=0)points(xdexp(x 12) type=l lwd=2 bty=l)points(xpexp(x 12) lwd=2 type=l)segments(250 25pexp(2512))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5061
A1) ndash Pag 163 ndash Figura 68
plot(p xlim=c(618) ylim=c(016) type=n bty=l xaxt=n xlab= ylab=
cexaxis=6)for (i in 1015) rect(i-50 i+5 dbinom(i304) col=lightgrey) lty=2)segments(i0idbinom(i304) lty=2)
x=seq(61801) lines(x dnorm(x12sqrt(72)) lwd=2)x=seq(61801) lines(x dnorm(x12sqrt(72)) lwd=2)
axis(1 916 cexaxis=9) ax s seq cexax s=
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5161
A1) ndash Pag 198 ndash Figura 78
x1=seq(-4402)plot(x1dnorm(x1) type=l lwd=3 xlab= ylab= )lines(x1 dt(x11)) lines(x1 dt(x12)) lines(x1 dt(x15))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5261
A2ndashResumo de comandos
a)Criaccedilatildeo de dados
c()funccedilatildeo geneacuterica para combinar argumentos com o formando de um vetor fromto gera uma sequecircnce ldquordquo tem prioridade de operator pe13 + 1 is ldquo234rdquo
seq(fromtoby) gera uma sequecircncia by= especifica incremento
length= especifica um comprimento desejado
rep(xtimes) replicate x onuacutemero times de vezes use each= para repetir cada
elemento de x rep(c(123)2) gera 1 2 3 1 2 3 rep(c(12)each=2) gera 1 1 2 2
matrix(xnrow=ncol=) matrix elementos de x se reciclam caso x
rbind()combina vetores em linhas num estrutura de matrizes de dados
cbind()combina vetores em colunas num estrutura de matrizes de dados
array(xdim=) matriz com dados x especificar dimensotildees como dim=c(342)
elementos de x se reciclam caso x natildeo seja suficientemente grande
factor(xlevels=) codifica um vetor x como um fator gl(nklength=nklabels=1n) gerar niacuteveis (fatores) especificando
o padratildeo de seus niacuteveis k eacute o nuacutemero de niacuteveis e n eacute o nuacutemero de repeticcedilotildees
dataframe() criar um banco de dados Por exemplo
dataframe(v=14ch=c(gBcasad)n=5)
list()criar uma lista de argumentos Por exemplo list(a=c(12)b=hic=3i)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5361
A2ndashResumo de comandos
b) Informaccedilatildeo de uma Variaacutevellength(x) nuacutemero de elementos em x
dim(x) Obter ou definir a dimensatildeo de um objeto dim (x) = c(32)dimnames(x) Obter ou definir os nomes das dimensotildees de um objeto
nrow(x) nuacutemero de linhas
ncol(x) nuacutemero de colunas
c) Seleccedilatildeo de dados e manipulaccedilatildeochoose(n k) calcula a combinaccedilatildeo de elementos escolhidos entre n
resultando n [(n-k) k]
cut(xbreaks) divide x em intervalos (fatores) breaks eacute o nuacutemero de intervalos de
corte ou um vetor com os valores especiacuteficos
table(x) retorna uma tabela com as quantidades dos diferentes valores de x
(tipicamente para variaacuteveis dos tipos inteiros ou fatores)
sample(x size) retira aleatoriamente com e sem reposiccedilatildeo elementos detamanho SIZE do vetor x a opccedilatildeo replace = TRUE permite a retirada com reposiccedilatildeo
proptable(xmargin=) transforma a tabela como tabela de propoccedilatildeo
marginal margin=1 (com relaccedilatildeo as linhas) margin=2 (com relaccedilatildeo as colunas)
sort(x) Classifica os elementos de x em ordem crescente para classificar em ordem
decrescente rev(sort(x))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5461
A2ndashResumo de comandosd) Estatiacutesticas e operaccedilotildees matemaacuteticasmean(x) media dos elementos de x
median(x) mediana dos elementos de x
quantile(xprobs=) quantis de x correspondendo a uma dada probabilidadevar(x) ou cov(x) variacircncia dos elementos de x (calculado com n-1)
se x eacute uma matriz a matriz de covariacircncia eacute calculada
sd(x) desvio padracirco de of x
cor(x) matriz de correlaccedilatildeo de x se x for uma matriz ou (1 se x eacute um vector)
cor(x y) correlaccedilatildeo linear entre X e Y ou matriz de correlaccedilatildeo se eles satildeo matrizes
round(x n) arredonda os elementos de x para n casas decimais sum x soma os e emen os e x
prod(x) multilica os elementos de x
max(x) acha o maacuteximo dos elementos de x
min(x) acha o miacutenimo dos elementos de x
range(x) equivalente a c(min(x)max(x)
cumsum(x) um vetor onde o eacutesimo elemento eacute a soma de x[1] ateacute x[i]cumprod(x) um vetor onde o eacutesimo elemento eacute o produto de x[1] ateacute x[i]
cummin(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
cummax(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
sincostanasinacosatanatan2loglog10exp)
log(x base) calcula o logaritmo de x na base=base
weightedmean(x w) media ponderada de x com peso= w
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5561
A2ndashResumo de comandos
e) Corte e extraccedilatildeo de dadosindexaccedilatildeo de Vetores
x[n] n-eacutesimo elemento do vetor
x[-n] todos menos o n-eacutesimo elemento
x[1n] os primeiros n elemento
x[-(1n)] elementos de n+1 ateacute o final
x[c(432)] elementos especificados
x[y gt 5] todo elementos de onde os valores de y satildeo maiores que 5
x x gt 3 amp x lt 5 todo elementos entre 3 e 5
x[nome] elemento denominado nome
indexaccedilatildeo de Matrizes
x[ij] elemento na linha i coluna j
x[i] linha i
x[j] coluna j
x[c(13)] colunas 1 and 3
x[nome] linha nomeada nome
indexaccedilatildeo de data frames
x[[nome]] coluna chamada nome
x$nome equivalente a coluna chamada nome
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5661
A2ndashResumo de comandos
f) Operaccedilatildeo com Matrizest(x) transposta da matrix x
diag(x) retira a diagonal da matrix x
multiplicaccedilatildeo matricial
solve(ab) resove a equaccedilatildeo a x = b em relaccedilatildeo a x
solve(a) matriz inversa de a
rowSum(x) soma das linhas da matrix x
colSum(x) soma das colunas da matrix x
rowMeans x meacutedia das linhas da matrix x
colMeans(x) id meacutedia das colunas da matrix x
g) Graacuteficos (Plotting)plot(x y) diagrama de disperccedilatildeo plot dos pares (xy) num sistema de eixos
coordenadoshist(x) histogram dasfrequecircncias of x
barplot(x) graacutefico de barras of x usar horiz=T ara barras horizontal
pie(x) graacutefico de setores (pie-chart)
boxplot(x)
qqnorm(x) quantis de x em relaccedilatildeo aos valores esperados de uma dist Normal
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5761
A2ndashResumo de comandosparametros dos commando de Graacutefico
type=p especifica o tipo de plot p pontos l linhas b pontos
ligados por linhas o idecircntico mas as linhas passam sobre os pontos h
linhas verticais s escada (steps) os dados satildeo representados pelas alturasverticais
xlim= ylim= especifica os limites inferiores e superiores dos eixos por exemplocom xlim=c(1 10) ou xlim=range(x)
xlab= ylab= nomeia os eixos o nome deve ser do tipo caracter
main= tiacutetulo principal deve ser do tipo caracter
sub= sub-tiacutetulo (escrito em fonte menor)
podem ser usados como bty(tipo de caixa) lwd (lagura da linha) lty (tipo delinha) pch(tipo de ponto) cex xaxs yaxs xaxtyaxt
h) Teste de hipoacuteteses
ttest()proptest()
chisqtest()
aov(formula) analysis of variance model
anova(fit) analysis of variance (or deviance) tables for one or more
fitted model objects
Use o commando gt test para procurar todos os testes disponiacuteveis
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5861
A2ndashResumo de comandos
i) Programmingfunction( arglist ) expr para definer uma funccedilatildeo
return(value)
if(cond) expr
if(cond) consexpr else altexpr
for(var in seq) expr
while(cond) expr
re eat ex r
break
Usar chaves entre commandos dlimitando o iniacutecio e o fim de um grupo decomandos
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5961
A2ndashResumo de comandos
j) Commandos auxiliaries em Graacuteficospoints(x y) adiciona pontos (a opccedilatildeo type= pode ser usada)
lines(x y) adiciona linhas (a opccedilatildeo type= pode ser usada)text(x y labels ) adiciona texto na coordenada (xy) um uso tiacutepico eacute
plot(x y type=n) text(x ynames)
segments(x0 y0 x1 y1) desenha linhas do ponto (x0 y0) ao (x1 y1)
arrows(x0 y0 x1 y1 angle= 30 code=2) desenha seta do ponto
(x0 y0) ao (x1 y1)
abline(ab) desenha uma reta de inclinaccedilatildeo b e intercepto a
abline(v=x) desenha uma reta vertical em x
abline(lsfit(xy)) desenha uma reta da regressatildeo feita em lsfit(xy)
rect(x1 y1 x2 y2) desenha um retacircngulo que a esquerda inferior tem coordenadas(x1 y1) e o limite da direita superiores (x2 y2)
polygon(x y) desenha um poliacutegono que une os pontos com coordenadas X e Y
legend(x y legend) Acrescenta a lenda no ponto (x y) com os siacutembolos
dada pela legend
title()adiciona um tiacutetulo e opcionalmente um sub-tiacutetulo
axis(side) acrescenta um eixo na parte inferior (side = 1) agrave esquerda (2) na partesuperior (3) ou agrave direita (4)
box()desenhar uma caixa em torno do plot
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6061
A2ndashResumo de comandos
k) Comando par (Graphical parameters)Todos estes comando podem ser definidos a niacutevel global com o par () que
especifica os paracircmetros mas tambeacutem muitos podem ser usados comoparametros dos commando de Graacutefico
mfcol vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em colunas
mfrow vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em linhas(matrix for row)
bty controla o tipo de caixa desenhada ao redor do enredo valores permitidos satildeo
o l 7 c u ou se bt =n a caixa natildeo eacute desenhada
lty controla o tipo de linhas pode ser um inteiro ou string (1 solid 2 dashed 3dotted 4 dotdash 5 longdash 6twodash) ou uma string de ateacuteoito caracteres (entre 0 e 9) que especifica o comprimento em pontos oupixels dos elementos desenhados e os espaccedilos em branco por exemplolty=rdquo44rdquo equivale a lty=2
lwd nuacutemero que controla a largura das linhas default 1pch controla o tipo de siacutembolo pode tambeacutem ser um nuacutemero inteiro entre 1 e 25
ps um inteiro que controla o tamanho em pontos de textos e siacutembolos
pty um caracter que especifica o tipo da regiatildeo s quadrado m maacuteximal
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6161
A2ndashResumo de comandos
l) Input and outputreadtable(file) lecirc um arquivo em formato de tabela e cria um quadro de dados a
partir dele o separador default = eacute espaccedilo em branco header = TRUE ler a
primeira linha como um cabeccedilalho de nomes de coluna asis = TRUE paraevitar aque um vetore de caracteres seja convertido em factores usocommentchar = para evitar seja interpretado como um comentaacuteriouso skip = n para pular n linhas antes da leitura de dados consulte a ajudapara as opccedilotildees de linha de nomeaccedilatildeo o tratamento NA e outros
readcsv(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por viacutergulas
readdelim(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por tabulaccedilotildees
readfwf(filewidthsheader=FALSEsep= asis=FALSE)
ler uma tabela de dados em formato fix de largura m para um dataframe widthseacute um vetor inteiro informando os tamanhos dos campos
sink(file) saiacuteda de todos os comandos para um arquivo ateacute aparecer um comando
sink () que desliga writetable(x file=rownames=Tcolnames=Tsep= ) imprime x apoacutes a
conversatildeo para banco de dados
save(file) guarda os objetos especificados () no formato XDR
load()carregar o conjunto de dados salvos com o comando save
data(x) carrega um conjunto de dados especificado
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1561
gt q=fivenum(nt) q[4]-q[2] em q estatildeo os 5 nuacutem Subtraiacutemos o Q3 do Q1[1] 92
Os cinco valores x(1) Q1 Q2 Q3 x(n) miacutenimo os trecircs quartis e o maacuteximo satildeoimportantes para se ter uma boa ideacuteia da assimetria dos dados Esse valores podem serobtidos pelo comando fivenum(x) O summary(x) acrescenta tambeacutem a meacutedia ao resultado
Por exemplogt fivenum(nt)[1] 86 141 193 233 457gt summary(nt)
Min 1st Qu Median Mean 3rd Qu Max
860 1410 1930 2002 2330 4570
Cap1-AED IEQ fivenum boxplot
O Box Plot ou Desenho Esquemaacutetico eacute um graacutefico que se costuma utilizar para sintetizarem uma mesma figura vaacuterias informaccedilotildees relativas agrave distribuiccedilatildeo de uma determinadavariaacutevel quantitativa Nele tambeacutem satildeo representadas as observaccedilotildees discrepantesObservaccedilotildees discrepantes ou outliers satildeo observaccedilotildees cujos valores estatildeo muito afastadosdos demais (para mais ou para menos) Essas observaccedilotildees podem afetar de formasubstancial o resultado das anaacutelises estatiacutesticas O comando para usar-lo eacute boxplot(x)
Por exemplo ver fig 125 pag 28gt nt=c(18381254193316214231406456822872314
8611996235321861281254244214781182347515012369214621412573362814071138) digitaccedilatildeo de nt
gt boxplot(nt ylim=c(50500)xlab=N linhas1000hab)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1661
Quando se deseja investigar a relaccedilatildeo entre duas variaacuteveis qualitativas o caminho natural eacutemontar uma tabela de contingecircncia Construir uma tabela de contingecircncia consiste emcolocar nas linhas os valores possiacuteveis de uma variaacutevel e nas colunas os valores possiacuteveis
cruzamentoO comando para fazer a tabela seria gttable(xy)Por exemplogt tab12=readtable(fSBPO2010Rtab1_2txt header = T sep = )gt attach(tab12)
gt table(CATEG Classe_IMC)Classe_IMC
CATEG normal sobrepesoA 18 4
Cap1-AED Relaccedilatildeo entre duas variaacuteveis Qualitativas
Para analisar a relaccedilatildeo entre 2 variaacuteveis atraveacutes de uma tabela de contingecircncia umprocedimento muito uacutetil eacute calcular os percentuais em relaccedilatildeo aos totais das linhas etambeacutem os percentuais em relaccedilatildeo aos totais das colunas Os comandos seriamproptab(x1) para linha e proptab(x2) para coluna Por exemplo usando a tabela 25paacutegina 46
gt mat= matrix(c(68154510 66214215 66242519 39161711)44byrow=T)gt rownames(mat)=c(18 a 21 anos22 a 25 anos26 a 30 anos31 a 40 anos)gt colnames(mat)=c(CinTeatSMDEx)gt mat1=proptable(mat 1) por linha tab 27gt mat2=proptable(mat 2) por coluna tab 28
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1761
Cap1-AED Relaccedilatildeo entre duas variaacuteveis QuantitativaQuando se deseja investigar a relaccedilatildeo entre duas variaacuteveis quantitativas o mais adequado eacutecomeccedilar pela construccedilatildeo de um Diagrama de Dispersatildeo Construir um diagrama de
dispersatildeo para 2 variaacuteveis quantitativas X e Y consiste em localizar pares de valoresobservados (xi yi ) como pontos em um sistema de eixos coordenados O camando seriaplot(xy)Por exemplogtx=c(12345) y=c(11224) plot(xy)
Um indicador do grau de interdependecircncia linear para 2 variaacuteveis quantitativas X e Y eacute ocoeficiente de correlaccedilatildeo rxy que pode assumir qualquer valor real entre -1 e 1 Ocoeficiente de correlaccedilatildeo entre X e Y eacute calculado por uma das duas expressotildees
matemaacuteticas (equivalentes) a seguir
O comando seria cor(xy) Por exemplogtx=c(12345) y=c(11224) cor(xy)
[1] 09036961
sum sum
sum
sumsum
sum
= =
=
=
=
sdotminussdotminus
sdotsdotminus
=
minussdotminus
minusminus
=n
1i
n
1i
1222
i
22
i
n
1i
ii
122
i
2
i
n
1i
n
1i
ii
xy
)yny)(xnx(
yxnyx
)y(y)xx(
)y)(yx(x
r
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1861
Cap1-AED Relaccedilatildeo entre duas variaacuteveis Quantitativa
bull Quando se verifica atraveacutes do coeficiente de correlaccedilatildeo (ou pelo aspecto visual doDiagrama de Dispersatildeo) que existe uma forte relaccedilatildeo linear entre 2 variaacuteveis X e Y
pode ser de interesse calcular a equaccedilatildeo da reta que representa esta relaccedilatildeo entre as2 variaacuteveis y = a + bx A equaccedilatildeo y = a + bx considera que y eacute a variaacutevel dependente(ou variaacutevel resposta) e que x eacute a variaacutevel independente (ou variaacutevel preditora) a serusada para explicar o comportamento da variaacutevel y A equaccedilatildeo da reta pode ser usadapara se antever qual seria o valor y0 da variaacutevel resposta y correspondente a umdeterminado valor x0 da variaacutevel preditora x
bull As foacutermulas que nos permitem calcular os valores de a e b a partir dos dados satildeo
yxn
n
i
n
i sumsum
O coeficiente b mede a inclinaccedilatildeo da reta de Regressatildeo Entatildeo ao passarmos de um pontoa outro sobre a reta b mede a relaccedilatildeo entre as variaccedilotildees de y e de x O coeficiente a medeo valor de y quando x eacute igual a zero ou seja eacute o intercepto da reta de Regressatildeo
O comando para calcular os coeficientes a e b seria gt lsprint(lsfit(xy))gtx=c(12345) y=c(11224)gtreg=lsfit(xy)gtlsprint(reg)
n
x
x
nyx
b2
n
1i
in
1i
2
i
1i
ii
minus
minus
=
sumsum =
=
=
==
x bya sdotminus=e
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1961
Cap 2-a Simulaccedilatildeo do conceito frequumlentistaConceito Frequumlentista de Probabilidade Suponha que o experimentofoi repetido n vezes sempre sob as mesmas condiccedilotildees e que o evento Aocorreu m vezes entre essas n realizaccedilotildees do experimento Entatildeoa fraccedilatildeo mn eacute uma boa aproximaccedilatildeo para a probabilidade de Ase o nuacutemero n de repeticcedilotildees for bastante grande
Simbolicamente P (A) congcongcongcong mn
Exemplo Simulando 100 lanccedilamentos de uma moedaNo R foram simulados 100 lanccedilamentos de uma moeda equilibrada isto eacute
onde as chances de cara e de coroa satildeo iguais Depois de cadalanccedilamento foi observado o nuacutemero acumulado de caras obtidas ateacute essemomen o e o ca cu a a a proporccedil o e caras correspon en e a a e a aseguir estatildeo apresentados os valores correspondentes ao nuacutemeroacumulado de caras ao longo do processo Por exemplo para a jogada denuacutemero 29 o nuacutemero acumulado de caras eacute 13 e a fraccedilatildeo de caras eacute 1329O graacutefico abaixo mostra a evoluccedilatildeo dessa fraccedilatildeo agrave medida que foramfeitos os 100 lanccedilamentos da moeda
Os comandos no R para a elaboraccedilatildeo do graacutefico
gtx=1100 y=cumsum(sample(01100rep=T))gtplot(xy1100 ylim=c(01) xlim=c(0100) pch=16)gtsegments(10510005)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2061
Cap 2-b Variaacuteveis Aleatoacuterias (va)Uma variaacutevel aleatoacuteria (va) eacute uma funccedilatildeo que associa cada elemento de um
espaccedilo amostral a um nuacutemero real As variaacuteveis aleatoacuterias podem ser do
tipo
Discreto se os seus valores pertencem a um conjunto enumeraacutevel de nuacutemerosreais (usualmente valores inteiros)
Contiacutenuo se os seus valores pertencem a um intervalo de nuacutemeros reais
O modelo probabiliacutestico de uma variaacutevel aleatoacuteria X estabelece o padratildeo de
comportamento de sua distribuiccedilatildeo de probabilidadeA fun atildeo de robabilidade de uma v a discreta X eacute definida orp(x)=P[X=x]
A funccedilatildeo de distribuiccedilatildeo acumulada F de uma v a X eacute definida porF(x) = P[Xlelelelex]
Se X eacute uma va discreta que assume os valores x 1
x 2
x 3
x N
entatildeo
bull A meacutedia ou esperanccedila de X eacuteE(X) = x 1 P(X=x 1 ) + x 2 P(X=x 2 ) + x 3 P(X=x 3 ) + + x N P(X=x N )
bull A Variacircncia de X eacute calculada por |Var(X)=(x 1 ndashE(X))2 P(X=x 1 )+(x 2 ndashE(X))2 P(X=x 2 )++(x N ndashE(X))2 P(X=x N )
bull O desvio padratildeo de X eacute igual agrave raiz quadrada natildeo negativa da suavariacircncia DP(X)= Var(X)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2161
Cap 2-b - va e o RO trabalho no R com uma va X estaacute baseado em 4 procedimentos
p probability ndash Gera a probabilidade de um valor de xq quantile ndash Gera o valor x de uma dada probabilidade acumulada pd density ndash Gera o valor da funccedilatildeo densidade num valor x da variaacutevel
Observar que quando a variaacutevel eacute discreta este valor eacute aprobabilidade de x quando a variaacutevel eacute contiacutenua o resultadoeacute a altura da funccedilatildeo densidade de probabilidade
r random ndash Gera n valores do modelo probabiliacutestico em questatildeo
As distribuiccedilotildees que estudaremos estatildeo listadas a seguir depois de cada uma delasentre parecircnteses estaacute o nome no R
(geom) Binomial negativa- Pascal (nbinom)
Entre as contiacutenuas Uniforme (unif ) Exponencial (exp) Normal (norm) t-student (t)quiquadrado (chisq) F (f )
A interligaccedilatildeo dos trecircs primeiros procedimentos pq e d seraacute ilustrada pela distribuiccedilatildeoNormal atraveacutes do graacutefico abaixo
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2261
Cap 2-b - va pnorm e qnormSeja a relaccedilatildeo p = P(Xltx) que aparece na tabela da distribuiccedilatildeo Normal Quiquadrada
t-student e F Para um dado valor de p acha-se um valor de x a procura direta que para aNormal no R corresponderia a pnorm(x 983221 σ) Neste caso devo informar o x e os dois
paracircmetros da distribuiccedilatildeo Normal 983221 e σJaacute a procura inversa seria para um dado valor de x achar um valor de p que para a Normalno R corresponderia a qnorm(p983221σ) Neste outro caso devo informar o valor de p desejado etambeacutem os dois paracircmetros da distribuiccedilatildeo Normal 983221 e σ
Exemplo Seja X a va que corresponde ao peso (em kg) de pessoas de uma certapopulaccedilatildeo com meacutedia 983221=70 Kg e desvio padratildeo σ=8 Kg assim X~ N(983221=70 σ2=82)
Se desejarmosa) P(Xlt80) usaremos no R o comando pnorm(80 70 8) isto eacute x=80 eacute o primeiro paracircmetroenquanto 70 e 8 satildeo paracircmetro especiacuteficos da distribuiccedilatildeo Normal
b) Admita que o peso limite para ser classificado como obeso eacute o valor que corresponde a10 dos mais pesados do populaccedilatildeo Achar este peso limiteO que se pede eacute a funccedilatildeo inversa Dado um valor de p=090 achar um valor de x que deixa90 abaixo dele No R seria qnorm(09 70 8) isto eacute o valor da probabilidade p=09 eacute
o primeiro paracircmetro enquanto 70 e 8 satildeo paracircmetros especiacuteficos da distribuiccedilatildeo NormalSe usarmos a Normal padratildeo z=(x-983221)σ no caso do item a o comando seria pnorm((80-70)8)ou pnorm(125) Repare que neste caso natildeo foi necessaacuterio passar os paracircmetros especiacuteficos daNormal pois 983221=0 e σ =1 coresponde ao default Observaccedilatildeo Sempre que usarmos um p oprimeiro paracircmetro eacute um x e os outros satildeo especiacuteficos da distribuiccedilatildeo em questatildeosempre que usarmos um q o primeiro paracircmetro eacute um p e os outros satildeo especiacuteficosSempre que usarmos um d o primeiro paracircmetro eacute um x
Quando usarmos uma distribuiccedilatildeo discreta o d corresponde aacute probabilidade no ponto x
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2361
Pag 118 ndash Figura 412
x=seq(010001)
plot(xdexp(x 12) type=l xlim=c(012) ylim=c(01) bty=l ylab=f(x) e F(x))
for(i in seq(0 25 001)) segments(i 0 i dexp(i12) col=lightgrey)
abline(v=0 h=0)
points(xdexp(x 12) type=l lwd=2 bty=l)
points(x pexp(x 12) lwd=2 type=l)
segments(250 25pexp(2512))
Cap 2-b - va dexp pexp points segments
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2461
Cap 2-b - va disponiacuteveis no Rrbinom(n size prob) binomialrpois(n lambda) Poissonrgeom(n prob) geometricarhyper(nn m n k) hipergeometricarnbinom(n size prob) binomial negativarunif(n min=0 max=1) uniformerexp(n rate=1) exponentialrnorm(n mean=0 sd=1) Gaussiana (normal)rt(n df) lsquoStudentrsquo (t )rf(n df1 df2) FisherndashSnedecor (F )
rchisq(n df) Quiquadradar amma n sha e scale=1 amma rbeta(n shape1 shape2) betarlnorm(n meanlog=0 sdlog=1) lognormalrcauchy(n location=0 scale=1) Cauchyrweibull(n shape scale=1) Weibullrwilcox(nn m n) Wilcoxonrsquos rank sum statistics
rsignrank(nn n) Wilcoxonrsquos signed rank statisticsrlogis(n location=0 scale=1) logistic
Todas essas distribuiccedilotildees apresentadas por rnome (nome da variaacutevel aleatoacuteria) como vimostrocando a primeira letra e mantendo os paracircmetros especiacuteficos de cada distribuiccedilatildeo(denotados por ) podem ser usadas substituindo a letra ldquor rdquo por
d valor da densidade de probabilidade no ponto x dnome (x )p probabilidade acumulada no ponto x pnome (x )
q quantil correspondente a probabilidade acumulada p dnome (p)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2561
Cap 2-c O Teorema Central do Limite (TCL)O Teorema Central do Limite (abreviadamente TCL) diz respeito ao comportamento da
meacutedia amostral agrave medida que o tamanho n da amostra cresce indefinidamente
Exemplo 31 ndash A distribuiccedilatildeo de renda e o TCLEacute um fato conhecido que a distribuiccedilatildeo da rendapessoal dos habitantes de um paiacutes eacuteusualmente muito desigual ou seja muitosganham pouco e poucos ganham muito Seforem sorteados 200 habitantes desse paiacutes e
com base nas suas rendas mensais
Agora se forem sorteadas 200 amostrascada uma delas contendo 2 habitantesdesse paiacutes e se forem calculadas as 200respectivas meacutedias amostrais a partir delas obteremos o histograma a seguir
Agora cada uma das 200 amostrassorteadas contendo 30 habitantes dessepaiacutes e se forem calculadas as 200 meacutediasamostrais o histograma seria
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2661
Cap 2-c ndash TCL ExemploComo pode ser observado no caso de n = 2 o histograma se aproxima mais de uma curvaNormal do que no caso de n = 1 E no caso de n = 30 a semelhanccedila do histograma com umacurva Normal eacute ainda maior
O Teorema Central do Limite afirma que independentemente de qual seja a
distribuiccedilatildeo original dos Xirsquos a distribuiccedilatildeo de probabilidade de e a
distribuiccedilatildeo Normal com meacutedia micromicromicromicro e variacircncia σσσσ2 n se aproximam cada vez
mais uma da outra agrave medida que n cresce
Portanto mesmo que a distribuiccedilatildeo de probabilidade dos Xirsquos seja desconhecida o Teorema
X n
Central do Limite garante a possibilidade de usarmos o modelo Normal para calcular ainda quede forma aproximada probabilidades relativas agrave meacutedia amostral desde que n sejasuficientemente grande
Exemplo 62 Simulando o efeito do TCL
Para ilustrar o funcionamento do Teorema Central do Limite vamos exibir agora um exemploem que a distribuiccedilatildeo original a partir da qual os dados satildeo gerados eacute uma exponencial modelo
este que daacute origem a uma funccedilatildeo densidade bastante assimeacutetrica (ao contraacuterio do que ocorre
com a curva Normal) A densidade de uma exponencial com paracircmetro eacute dada pela
expressatildeo
No R rexp(n ) simula n valores
λ
0 xλef(x) λx ge= minusλ
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2761
Cap 2-c ndash TCL ExemploA densidade de uma exponencial com paracircmetro eacute dada pela expressatildeo
Gerando dados por simulaccedilatildeo a partir de uma exponencial com λ = 13 para cada um dos
seguintes tamanhos n de amostra 1 2 3 4 5 10 15 e 201 Obtivemos 200 valores da meacutedia amostral 2 Utilizamos esses 200 valores para construir um histograma3 Traccedilamos no mesmo graacutefico uma curva da densidade Normal com E( )=3 e DP( )=3Xn
λ 0 xλef(x) λx ge= minus
Xn n
Os 8 histogramas nos mostram que agrave medida que o tamanho n da amostra cresce
a forma do histograma se aproxima cada vez mais de uma curva Normal
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2861
Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com
simulaccedilotildees - Exponencial
tclexp=function(n N=200 titulo= yl=c(0 4)) iniacutecio da funccedilatildeo ndash tclexpmedias=numeric(N)
for (i in 1N) medias[i]= mean(rexp(n13))
hist(medias xlim=c(-110) ylim=yl freq=F main=titulo)
x=seq(-110 02)
points(x dnorm(x 3 3sqrt(1n) ) type=l lwd=3)
fim da funccedilatildeo
graphicsoff()
par(mfrow=c(33) mai=c(3411))
tclexp(1titulo=n=1)
tclexp(2titulo=n=2)
tclexp(3titulo=n=3)
tclexp(4titulo=n=4)
tclexp(5titulo=n=5)
tclexp(6titulo=n=6)
tclexp(10titulo=n=10yl=c(06))
tclexp(15titulo=n=15yl=c(06))
tclexp(20titulo=n=20yl=c(06))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2961
Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com
simulaccedilotildees - Exponencial
Uma pergunta natural neste ponto serialdquoQuatildeo grande deve ser n para que possamos usar a aproximaccedilatildeo fornecida pelo
TCL com um niacutevel de precisatildeo aceitaacutevelrdquo
A rapidez com que essa convergecircncia se daacute depende de quatildeo distante estaacute a forma
da distribuiccedilatildeo original das Xirsquos de uma curva Normal Em outras palavras se a
distribuiccedilatildeo das Xirsquos jaacute natildeo for muito diferente de uma Normal com um n natildeo muito-
grande (usualmente n ge 30) a aproximaccedilatildeo da distribuiccedilatildeo de por uma Normal
funcionaria adequadamente
No exemplo a seguir vamos apresentar esse fenocircmeno a saber a convergecircncia da
distribuiccedilatildeo de para uma Normal agrave medida que n cresce gerando por simulaccedilatildeo osdados originais a partir de diferentes modelos probabiliacutesticos Em todos os casos a
distribuiccedilatildeo original eacute bem diferente da Normal E(X)=3 e DP(X)=3 No que se refere agrave
Simulaccedilatildeo foi seguida a mesma sequumlecircncia de passos do exemplo anterior
Xn
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3061
Cap 2-c ndash TCL Exemplo
Exponencial
Uniforme
Mistura deNormais
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3161
Como se pode observar
1 No caso da distribuiccedilatildeo uniforme (A) o histograma de jaacute se aproximabastante de uma Normal quando n eacute da ordem de 4
2 Jaacute no caso da distribuiccedilatildeo Exponencial (B) e da mistura de normais
(C) modelos esses que se afastam muito mais de umldquo rdquo
Cap 2-c ndash TCL Exemplo
mostra mais adequada a partir de n em torno de 10
3 No caso do modelo em (C) agrave medida que n cresce tudo se passacomo se houvesse a ldquoerupccedilatildeo de um vulcatildeo dentro do valerdquo
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3261
tclunif=function(nN=100titulo= yl=c(0 4))
medias=numeric(N)for (i in 1N) medias[i]= mean(runif(n 3-3sqrt(3) 3+3sqrt(3)))
hist(medias xlim=c(-610) ylim=yl freq=F main=titulo)
x=seq(-610 02)
points(x dnorm(x 3 3sqrt(1n) ) type=l lwd=3)
medias
Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com
as simulaccedilotildees - Uniforme
grap cso
par(mfrow=c(33) mai=c(3411))
tclunif(1titulo=n=1yl=c(06))
tclunif(2titulo=n=2yl=c(06))
tclunif(3titulo=n=3yl=c(06))
tclunif(4titulo=n=4yl=c(06))tclunif(5titulo=n=5yl=c(06))
tclunif(6titulo=n=6yl=c(06))
tclunif(10titulo=n=10yl=c(06))
tclunif(15titulo=n=15yl=c(06))
tclunif(20titulo=n=20yl=c(06))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3361
X2=c(rnorm(35011) rnorm(15081)) X2 eacute a Populaccedilatildeo de onde retiramos as amostras
br=seq(-2 12 5)
tcl2modas=function(nN=200titulo= yl=c(0 6)) medias=numeric(N)for (i in 1N) medias[i]= mean(sample(X2nrep=T))hist(mediasbreaks=br xlim=c(-212) tcl=-01 ylim=yl xarp=c(-31216)
tck=005 lab=c(5515) freq=F main=titulo)x=seq(-312 02)
Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com
as simulaccedilotildees - Mistura de Normais
points(x dnorm(x med dpsqrt(n) ) type=l lwd=2)
par(mfrow=c(24) mai=c(3011) mar=c(2 2 2 1))
hist(X2 freq=F breaks=seq(-3125) bty=o xlim=c(-212)xarp=c(-31216)tck=005 lab=c(5515) ylim=c(06) main=POPULACcedilAtildeO lwd=2)
tcl2modas(2titulo=n=2)tcl2modas(3titulo=n=3)
tcl2modas(4titulo=n=4)
tcl2modas(5titulo=n=5)
tcl2modas(10titulo=n=10)
tcl2modas(15titulo=n=15)
tcl2modas(25titulo=n=25)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3461
CAP 3-a) Intervalo de ConfianccedilaSeja um estimador pontual do paracircmetro eacute uma variaacutevel aleatoacuteria que varia deamostra para amostra Por isso haacute uma certa dose de incerteza inerente a esse processode estimaccedilatildeo Nosso objetivo agora eacute obter com base nos dados amostrais (da uacutenicaamostra observada) um intervalo ao qual o valor correto do paracircmetro deve ter grandechance de pertencer
bull Detalhando um pouco mais No processo de estimaccedilatildeo por intervalo de um paracircmetro θdevemos determinar um intervalo que contenha o verdadeiro valor do paracircmetro comprobabilidade 1-α onde α eacute um pequeno valor preacute-fixado Este intervalo eacute construiacutedo emgeral em torno do estimador pontual considerando uma margem de erro d de forma aque uma vez fixada a probabilidade 1-α calculemos d tal que P( - d le θ le + d ) = 1 -αChama-se intervalo de confianccedila para θ ao niacutevel 1 - α ao intervalo [ - d + d]
θ $θ
$θ$θ
$θ $θ
$
θ
bull Ou seja o estimador pontual eacute o centro do Intervalo de Confianccedila e o erro absoluto dassociado a define a amplitude desse intervalo O que eacute de fato variaacutevel aleatoacuteria satildeoos extremos do intervalo O paracircmetro tem valor desconhecido natildeo aleatoacuterio (fixo a ser estimado)
Exemplo Intervalo de Confianccedila para a meacutedia populacional com o desvio padratildeo conhecidoO paracircmetro a estimar eacute a meacutedia populacional micro A estimaccedilatildeo seraacute baseada em X1 X2 Xn
uma amostra aleatoacuteria com E(Xi) = micro e var(Xi) = σ2 para todo i = 12 n Queremos que seja
vaacutelida a expressatildeo o que equivale a P [ -d le -micro le d] = 1-α
$θ
X[ ] α1dmicroXP minus=leminus
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3561
bull Lembrando que para n suficientemente grande pelo Teorema Central do Limite a meacutediaamostral segue uma distribuiccedilatildeo que se aproxima da Normal(micromicromicromicro σσσσ2 n) (ou eacute exatamente aNormal(micromicromicromicro σσσσ2 n) no caso em que a distribuiccedilatildeo comum das va Xirsquos jaacute eacute Normal) entatildeo
P [-d le -micromicromicromicro le d] = 1-α rArr 1-α = P [ |Z| le ] Logo d =
bull Faremos uma simulaccedilatildeo para a construccedilatildeo de Intervalos de Confianccedila com 100 amostras dedois tipos de populaccedilatildeo Normal e Exponencial A lista de comandos do R que usamos eacute
ICN = function (N n mu sigma = 3 conf)
plot(0 0 type=n xlim=c(010) ylim=c(0N) bty=l
xlab=Normal ylab=amostras)abline(v=mu)
CAP 3-a) Intervalo de Confianccedila
X
nσ
d
minus
z0 = qnorm(1-((1-conf)2))
sigmaxbarra = sigmasqrt(n)
for (i in 1N)
x = rnorm(n mu sigma)
media = mean(x)
li = media - z0 sigmaxbarrals = media + z0 sigmaxbarra
plotx = c(lils)
ploty = c(ii)
if (li gt mu | ls lt mu) lines(plotxploty col=red)
else lines(plotxploty)
gt ICN(100 25 3 3 95)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3661
CAP 3-a) Intervalo de Confianccedila
ICexp = function (N n lambda conf)
mu=1lambda sigma=1lambda
plot(0 0 type=n xlim=c(010) ylim=c(0N) bty=lxlab=Exponencial ylab=amostras)
abline(v= mu)
z0 = qnorm(1-((1-conf)2))
sigmaxbarra = sigmasqrt(n)
for (i in 1N)
x = rexp(nlambda) me a = mean x
li = media - z0 sigmaxbarra
ls = media + z0 sigmaxbarra
plotx = c(lils)
ploty = c(ii)
if (li gt mu | ls lt mu) lines(plotx ploty col=red)
else lines(plotx ploty)
gt ICexp(100 25 13 95)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3761
CAP 3-b Teste de Hipoacuteteses (TH)O objetivo de um teste de hipoacutetese eacute avaliar a validade de uma afirmaccedilatildeo sobre determinada
caracteriacutestica da populaccedilatildeo usando para isso os dados de uma amostra Essa caracteriacutestica eacute
representada pela va contiacutenua X cujo comportamento probabiliacutestico eacute expresso pela funccedilatildeo dedensidade f com paracircmetro Ө que tem valor desconhecido
Em um teste existem duas hipoacuteteses envolvidas H0 denominada hipoacutetese nula e H1
denominada hipoacutetese alternativa O procedimento de teste de hipoacutetese consiste em estabelecer
um criteacuterio de decisatildeo que leve a Aceitar ou Rejeitar H0 com base nos valores amostrais
A Estatiacutestica de teste eacute uma funccedilatildeo da amostra aleatoacuteria utilizada para definir o criteacuterio de
decisatildeo Estabelecer o criteacuterio de decisatildeo consiste em dividir o conjunto dos valores possiacuteveis
da estatiacutestica de teste em duas partes denominadas Regiatildeo de Aceitaccedilatildeo A e Regiatildeo de
Rejeiccedilatildeo R da hipoacutetese nula
Em um teste de hipoacutetese haacute dois tipos possiacuteveis de erro de decisatildeo
Erro I - Rejeitar H0 quando H0 eacute verdadeira
Erro II - Aceitar H0 quando H0 eacute falsaAs probabilidades de ocorrecircncia dos erros satildeo α = P [ Erro I ] e β = P [ Erro II]
A probabilidade de erro I α eacute o niacutevel de significacircncia do teste cujo valor eacute arbitrado pelo
pesquisador deve ser pequena pois corresponde a probabilidade de um erro (005 ou 001)
O niacutevel criacutetico ou p-valor do teste eacute o menor valor de α para o qual ainda rejeitariacuteamos H0 de
acordo com os dados observados
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3861
CAP 3-b) ndash TH teste tttest(x y = NULL alternative = c(twosided less greater) mu = 0
paired = FALSE varequal = FALSE conflevel = 095 )
Procedimentos de teste de hipoacuteteses com niacutevel de significacircncia α e amostras de tamanho n
UmaAmostra
DuasAmostras
Obs Os testes acima satildeo bilaterais
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3961
CAP 3ndashb) TH exemplo de teste t ndash amostras independentespag233- teste t amostras independente - comparaccedilatildeo log(salaacuterio)
entre os grupos de comeacutercio e de serviccedilo
LogSal=c(1289156912501344145616361573171309060903
0977122011031069128714101496131113371366
1227119114591280115217401649176524101701
1538192419251721154918911534163812071682
120614232010143112651570)
Sal=exp(LogSal)
setor= c(rep(C23) rep(S23))
ttest(Sal[setor==C] Sal[setor==S] varequal=T)
Two Sample t-test
data Sal[setor == C] and Sal[setor == S]
t = -36822 df = 44 p-value = 00006289
alternative hypothesis true difference in means is not equal to 095 percent confidence interval
-23079005 -06751838
sample estimates
mean of x mean of y3786010 5277552
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4061
CAP 3ndashb) TH exemplo de teste t ndash amostra pareadapag237- teste t pareado
P1=c(6315596455545480598065203660986853
8765647785536980827184605572645564)
P2=c(3638306043466455604343523428837155
8238556767443459605968506254473652)
ttest(P1 P2 alt=greater paired = T)
Paired t-test
data P1 and P2
t = 44176 df = 33 p-value = 5072e-05
alternative hypothesis true difference in means is greater than 0
95 percent confidence interval
0716695 Inf
sample estimates
mean of the differences
1161765
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4161
CAP 3ndashb) TH exemplo de teste Quiquadrado chisqtest
pag233- teste Quiquadrado -
tcont=matrix(c(683585251530258 7461761220225) 72)
chisqtest(tcont)
Pearsons Chi-squared test
data tcont- = = - lt -
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4261
CAP 3ndashb) TH exemplo de teste Quiquadrado chisqtestaov(formula data = NULL )
pag244- ANOVA - Comparaccedilatildeo de trecircs raccedilotildees para suinos
A=c(444943514475425134305342453630
322133421040395246294247453959)
B=c(343640545953445432686954414647
6566455739)
C=c(574040364566395025212927283942
21304143294244582849)
aumentoP=c(ABC)
racao=c(rep(A30)rep(B20) rep(C25))
summaryaov(aov(aumentoP ~ racao))
Df Sum Sq Mean Sq F value Pr(gtF)racao 2 15385 7693 56136 0005425
Residuals 72 98666 1370
---
Signif codes 0 lsquorsquo 0001 lsquorsquo 001 lsquorsquo 005 lsquorsquo 01 lsquo rsquo 1
Warning message
In modelmatrixdefault(mt mf contrasts)
variable racao converted to a factor
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4361
ApecircndicesA-1) Apresentaremos aqui algumas figuras
feitas no R na elaboraccedilatildeo do livro
Achamos que o exame desses coacutedigos acompanhado dos resultados podeser um bom aprendizado um exerciacutecio ou talvez uma recordaccedilatildeo do materialaqui exposto
A-2) Resumo de comandosa) Criaccedilatildeo de dados
b) Informaccedilatildeo de uma Variaacutevel
c) Seleccedilatildeo de dados e manipulaccedilatildeo
d) Estatiacutesticas e operaccedilotildees matemaacuteticas
e) Corte e extraccedilatildeo de dados
f) Operaccedilatildeo com Matrizes
g) Graacuteficos (Plotting)
h) Teste de hipoacuteteses
i) Programming
j) Commandos auxiliaries em Graacuteficos
k) Comando par (Graphical parameters)
l) Input and output
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4461
A1) ndash Pag 14 ndash Figura 15
IDADE=c(616961716371726866697267636663636067716360696463667164706366646969646372736871726968687379)
IMC= c(245273281301254301280234268228255228235232203226239243271227237258213243243248219234216214221227227211268278275267286253239258247284235)
par(mfrow=c(12))hist(IDADE breaks=c(6065707580) ylim=c(020) ylab=Nuacutemero de Observaccedilotildees
main= col=grey right = F)hist(IMC breaks=c(200225250275300325)
ylab=Nuacutemero de Observaccedilotildeesmain= col=grey right = F )
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4561
A1) ndash Pag 44 ndash Figura 21
mat=matrix(c(81823913601818608740)32)
rownames(mat)=c(AtivaSedentaacuteriaTotal)colnames(mat)=c(NormalSobrepeso)barplot(t(mat) beside = TRUE space=c(315)
col=gray(c(79))legend = c(NormalSobrepeso) ylim = c(0 95) ylab= - percentagem)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4661
A1) ndash Pag 48 ndash Figura 22
mat= matrix(c(68154510 66214215 66242519 39161711)44byrow=T)
rownames(mat)=c(18 a 21 anos 22 a 25 anos 26 a 30 anos 31 a 40 anos)colnames(mat)=c(CinTeatSMDEx)mat1=mat for (i in 14) mat1[i]lt-mat1[i]100sum(mat1[i]) par(mfrow=c(12) mai=c(1111) mar=c(5 4 2 2) )barplot(matbeside=F ylim=c(0250) legend = c(18 a 21 anos 22 a 25 anos
26 a 30 anos 31 a 40 anos) xlab=Contagem)
barplot(mat1 beside=F xlab=Percentagem)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4761
A1) ndash Pag 52 ndash Figura 25X= c(184114821789235159118762592403190408372147328526471687
09642871437079238215753399242122530314859149806)y =c(01837012540193301620014230140604568022870231400861019960235302186012798991801254018210244160823
0147764068011818941403474539680150133247023685518102146187520214097090257291227
036282905401406510810113849399)plot(x y xlim=c(07) ylim=c(05) pch=16 bty=l xlab=Renda per capita
ylab=Telefonia Fixa per capita)
abline(lsfit(xy))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4861
A1) ndash Pag 109 ndash Figura 45
x=020
y1=dpois(x1) y2=dpois(x3) y3=dpois(x10)names(y1)=x names(y2)=x names(y3)=xpar(mfrow=c(13))plot(y1ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=1)plot(y2ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=3)plot(y3ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=10)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4961
A1) ndash Pag 118 ndash Figura 412
x=seq(010001)
plot(xdexp(x 12) type=l xlim=c(012) ylim=c(01) bty=l ylab=f(x) eF(x))for(i in seq(0 25 001)) segments(i 0 i dexp(i12) col=lightgrey)abline(v=0 h=0)points(xdexp(x 12) type=l lwd=2 bty=l)points(xpexp(x 12) lwd=2 type=l)segments(250 25pexp(2512))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5061
A1) ndash Pag 163 ndash Figura 68
plot(p xlim=c(618) ylim=c(016) type=n bty=l xaxt=n xlab= ylab=
cexaxis=6)for (i in 1015) rect(i-50 i+5 dbinom(i304) col=lightgrey) lty=2)segments(i0idbinom(i304) lty=2)
x=seq(61801) lines(x dnorm(x12sqrt(72)) lwd=2)x=seq(61801) lines(x dnorm(x12sqrt(72)) lwd=2)
axis(1 916 cexaxis=9) ax s seq cexax s=
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5161
A1) ndash Pag 198 ndash Figura 78
x1=seq(-4402)plot(x1dnorm(x1) type=l lwd=3 xlab= ylab= )lines(x1 dt(x11)) lines(x1 dt(x12)) lines(x1 dt(x15))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5261
A2ndashResumo de comandos
a)Criaccedilatildeo de dados
c()funccedilatildeo geneacuterica para combinar argumentos com o formando de um vetor fromto gera uma sequecircnce ldquordquo tem prioridade de operator pe13 + 1 is ldquo234rdquo
seq(fromtoby) gera uma sequecircncia by= especifica incremento
length= especifica um comprimento desejado
rep(xtimes) replicate x onuacutemero times de vezes use each= para repetir cada
elemento de x rep(c(123)2) gera 1 2 3 1 2 3 rep(c(12)each=2) gera 1 1 2 2
matrix(xnrow=ncol=) matrix elementos de x se reciclam caso x
rbind()combina vetores em linhas num estrutura de matrizes de dados
cbind()combina vetores em colunas num estrutura de matrizes de dados
array(xdim=) matriz com dados x especificar dimensotildees como dim=c(342)
elementos de x se reciclam caso x natildeo seja suficientemente grande
factor(xlevels=) codifica um vetor x como um fator gl(nklength=nklabels=1n) gerar niacuteveis (fatores) especificando
o padratildeo de seus niacuteveis k eacute o nuacutemero de niacuteveis e n eacute o nuacutemero de repeticcedilotildees
dataframe() criar um banco de dados Por exemplo
dataframe(v=14ch=c(gBcasad)n=5)
list()criar uma lista de argumentos Por exemplo list(a=c(12)b=hic=3i)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5361
A2ndashResumo de comandos
b) Informaccedilatildeo de uma Variaacutevellength(x) nuacutemero de elementos em x
dim(x) Obter ou definir a dimensatildeo de um objeto dim (x) = c(32)dimnames(x) Obter ou definir os nomes das dimensotildees de um objeto
nrow(x) nuacutemero de linhas
ncol(x) nuacutemero de colunas
c) Seleccedilatildeo de dados e manipulaccedilatildeochoose(n k) calcula a combinaccedilatildeo de elementos escolhidos entre n
resultando n [(n-k) k]
cut(xbreaks) divide x em intervalos (fatores) breaks eacute o nuacutemero de intervalos de
corte ou um vetor com os valores especiacuteficos
table(x) retorna uma tabela com as quantidades dos diferentes valores de x
(tipicamente para variaacuteveis dos tipos inteiros ou fatores)
sample(x size) retira aleatoriamente com e sem reposiccedilatildeo elementos detamanho SIZE do vetor x a opccedilatildeo replace = TRUE permite a retirada com reposiccedilatildeo
proptable(xmargin=) transforma a tabela como tabela de propoccedilatildeo
marginal margin=1 (com relaccedilatildeo as linhas) margin=2 (com relaccedilatildeo as colunas)
sort(x) Classifica os elementos de x em ordem crescente para classificar em ordem
decrescente rev(sort(x))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5461
A2ndashResumo de comandosd) Estatiacutesticas e operaccedilotildees matemaacuteticasmean(x) media dos elementos de x
median(x) mediana dos elementos de x
quantile(xprobs=) quantis de x correspondendo a uma dada probabilidadevar(x) ou cov(x) variacircncia dos elementos de x (calculado com n-1)
se x eacute uma matriz a matriz de covariacircncia eacute calculada
sd(x) desvio padracirco de of x
cor(x) matriz de correlaccedilatildeo de x se x for uma matriz ou (1 se x eacute um vector)
cor(x y) correlaccedilatildeo linear entre X e Y ou matriz de correlaccedilatildeo se eles satildeo matrizes
round(x n) arredonda os elementos de x para n casas decimais sum x soma os e emen os e x
prod(x) multilica os elementos de x
max(x) acha o maacuteximo dos elementos de x
min(x) acha o miacutenimo dos elementos de x
range(x) equivalente a c(min(x)max(x)
cumsum(x) um vetor onde o eacutesimo elemento eacute a soma de x[1] ateacute x[i]cumprod(x) um vetor onde o eacutesimo elemento eacute o produto de x[1] ateacute x[i]
cummin(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
cummax(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
sincostanasinacosatanatan2loglog10exp)
log(x base) calcula o logaritmo de x na base=base
weightedmean(x w) media ponderada de x com peso= w
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5561
A2ndashResumo de comandos
e) Corte e extraccedilatildeo de dadosindexaccedilatildeo de Vetores
x[n] n-eacutesimo elemento do vetor
x[-n] todos menos o n-eacutesimo elemento
x[1n] os primeiros n elemento
x[-(1n)] elementos de n+1 ateacute o final
x[c(432)] elementos especificados
x[y gt 5] todo elementos de onde os valores de y satildeo maiores que 5
x x gt 3 amp x lt 5 todo elementos entre 3 e 5
x[nome] elemento denominado nome
indexaccedilatildeo de Matrizes
x[ij] elemento na linha i coluna j
x[i] linha i
x[j] coluna j
x[c(13)] colunas 1 and 3
x[nome] linha nomeada nome
indexaccedilatildeo de data frames
x[[nome]] coluna chamada nome
x$nome equivalente a coluna chamada nome
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5661
A2ndashResumo de comandos
f) Operaccedilatildeo com Matrizest(x) transposta da matrix x
diag(x) retira a diagonal da matrix x
multiplicaccedilatildeo matricial
solve(ab) resove a equaccedilatildeo a x = b em relaccedilatildeo a x
solve(a) matriz inversa de a
rowSum(x) soma das linhas da matrix x
colSum(x) soma das colunas da matrix x
rowMeans x meacutedia das linhas da matrix x
colMeans(x) id meacutedia das colunas da matrix x
g) Graacuteficos (Plotting)plot(x y) diagrama de disperccedilatildeo plot dos pares (xy) num sistema de eixos
coordenadoshist(x) histogram dasfrequecircncias of x
barplot(x) graacutefico de barras of x usar horiz=T ara barras horizontal
pie(x) graacutefico de setores (pie-chart)
boxplot(x)
qqnorm(x) quantis de x em relaccedilatildeo aos valores esperados de uma dist Normal
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5761
A2ndashResumo de comandosparametros dos commando de Graacutefico
type=p especifica o tipo de plot p pontos l linhas b pontos
ligados por linhas o idecircntico mas as linhas passam sobre os pontos h
linhas verticais s escada (steps) os dados satildeo representados pelas alturasverticais
xlim= ylim= especifica os limites inferiores e superiores dos eixos por exemplocom xlim=c(1 10) ou xlim=range(x)
xlab= ylab= nomeia os eixos o nome deve ser do tipo caracter
main= tiacutetulo principal deve ser do tipo caracter
sub= sub-tiacutetulo (escrito em fonte menor)
podem ser usados como bty(tipo de caixa) lwd (lagura da linha) lty (tipo delinha) pch(tipo de ponto) cex xaxs yaxs xaxtyaxt
h) Teste de hipoacuteteses
ttest()proptest()
chisqtest()
aov(formula) analysis of variance model
anova(fit) analysis of variance (or deviance) tables for one or more
fitted model objects
Use o commando gt test para procurar todos os testes disponiacuteveis
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5861
A2ndashResumo de comandos
i) Programmingfunction( arglist ) expr para definer uma funccedilatildeo
return(value)
if(cond) expr
if(cond) consexpr else altexpr
for(var in seq) expr
while(cond) expr
re eat ex r
break
Usar chaves entre commandos dlimitando o iniacutecio e o fim de um grupo decomandos
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5961
A2ndashResumo de comandos
j) Commandos auxiliaries em Graacuteficospoints(x y) adiciona pontos (a opccedilatildeo type= pode ser usada)
lines(x y) adiciona linhas (a opccedilatildeo type= pode ser usada)text(x y labels ) adiciona texto na coordenada (xy) um uso tiacutepico eacute
plot(x y type=n) text(x ynames)
segments(x0 y0 x1 y1) desenha linhas do ponto (x0 y0) ao (x1 y1)
arrows(x0 y0 x1 y1 angle= 30 code=2) desenha seta do ponto
(x0 y0) ao (x1 y1)
abline(ab) desenha uma reta de inclinaccedilatildeo b e intercepto a
abline(v=x) desenha uma reta vertical em x
abline(lsfit(xy)) desenha uma reta da regressatildeo feita em lsfit(xy)
rect(x1 y1 x2 y2) desenha um retacircngulo que a esquerda inferior tem coordenadas(x1 y1) e o limite da direita superiores (x2 y2)
polygon(x y) desenha um poliacutegono que une os pontos com coordenadas X e Y
legend(x y legend) Acrescenta a lenda no ponto (x y) com os siacutembolos
dada pela legend
title()adiciona um tiacutetulo e opcionalmente um sub-tiacutetulo
axis(side) acrescenta um eixo na parte inferior (side = 1) agrave esquerda (2) na partesuperior (3) ou agrave direita (4)
box()desenhar uma caixa em torno do plot
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6061
A2ndashResumo de comandos
k) Comando par (Graphical parameters)Todos estes comando podem ser definidos a niacutevel global com o par () que
especifica os paracircmetros mas tambeacutem muitos podem ser usados comoparametros dos commando de Graacutefico
mfcol vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em colunas
mfrow vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em linhas(matrix for row)
bty controla o tipo de caixa desenhada ao redor do enredo valores permitidos satildeo
o l 7 c u ou se bt =n a caixa natildeo eacute desenhada
lty controla o tipo de linhas pode ser um inteiro ou string (1 solid 2 dashed 3dotted 4 dotdash 5 longdash 6twodash) ou uma string de ateacuteoito caracteres (entre 0 e 9) que especifica o comprimento em pontos oupixels dos elementos desenhados e os espaccedilos em branco por exemplolty=rdquo44rdquo equivale a lty=2
lwd nuacutemero que controla a largura das linhas default 1pch controla o tipo de siacutembolo pode tambeacutem ser um nuacutemero inteiro entre 1 e 25
ps um inteiro que controla o tamanho em pontos de textos e siacutembolos
pty um caracter que especifica o tipo da regiatildeo s quadrado m maacuteximal
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6161
A2ndashResumo de comandos
l) Input and outputreadtable(file) lecirc um arquivo em formato de tabela e cria um quadro de dados a
partir dele o separador default = eacute espaccedilo em branco header = TRUE ler a
primeira linha como um cabeccedilalho de nomes de coluna asis = TRUE paraevitar aque um vetore de caracteres seja convertido em factores usocommentchar = para evitar seja interpretado como um comentaacuteriouso skip = n para pular n linhas antes da leitura de dados consulte a ajudapara as opccedilotildees de linha de nomeaccedilatildeo o tratamento NA e outros
readcsv(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por viacutergulas
readdelim(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por tabulaccedilotildees
readfwf(filewidthsheader=FALSEsep= asis=FALSE)
ler uma tabela de dados em formato fix de largura m para um dataframe widthseacute um vetor inteiro informando os tamanhos dos campos
sink(file) saiacuteda de todos os comandos para um arquivo ateacute aparecer um comando
sink () que desliga writetable(x file=rownames=Tcolnames=Tsep= ) imprime x apoacutes a
conversatildeo para banco de dados
save(file) guarda os objetos especificados () no formato XDR
load()carregar o conjunto de dados salvos com o comando save
data(x) carrega um conjunto de dados especificado
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1661
Quando se deseja investigar a relaccedilatildeo entre duas variaacuteveis qualitativas o caminho natural eacutemontar uma tabela de contingecircncia Construir uma tabela de contingecircncia consiste emcolocar nas linhas os valores possiacuteveis de uma variaacutevel e nas colunas os valores possiacuteveis
cruzamentoO comando para fazer a tabela seria gttable(xy)Por exemplogt tab12=readtable(fSBPO2010Rtab1_2txt header = T sep = )gt attach(tab12)
gt table(CATEG Classe_IMC)Classe_IMC
CATEG normal sobrepesoA 18 4
Cap1-AED Relaccedilatildeo entre duas variaacuteveis Qualitativas
Para analisar a relaccedilatildeo entre 2 variaacuteveis atraveacutes de uma tabela de contingecircncia umprocedimento muito uacutetil eacute calcular os percentuais em relaccedilatildeo aos totais das linhas etambeacutem os percentuais em relaccedilatildeo aos totais das colunas Os comandos seriamproptab(x1) para linha e proptab(x2) para coluna Por exemplo usando a tabela 25paacutegina 46
gt mat= matrix(c(68154510 66214215 66242519 39161711)44byrow=T)gt rownames(mat)=c(18 a 21 anos22 a 25 anos26 a 30 anos31 a 40 anos)gt colnames(mat)=c(CinTeatSMDEx)gt mat1=proptable(mat 1) por linha tab 27gt mat2=proptable(mat 2) por coluna tab 28
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1761
Cap1-AED Relaccedilatildeo entre duas variaacuteveis QuantitativaQuando se deseja investigar a relaccedilatildeo entre duas variaacuteveis quantitativas o mais adequado eacutecomeccedilar pela construccedilatildeo de um Diagrama de Dispersatildeo Construir um diagrama de
dispersatildeo para 2 variaacuteveis quantitativas X e Y consiste em localizar pares de valoresobservados (xi yi ) como pontos em um sistema de eixos coordenados O camando seriaplot(xy)Por exemplogtx=c(12345) y=c(11224) plot(xy)
Um indicador do grau de interdependecircncia linear para 2 variaacuteveis quantitativas X e Y eacute ocoeficiente de correlaccedilatildeo rxy que pode assumir qualquer valor real entre -1 e 1 Ocoeficiente de correlaccedilatildeo entre X e Y eacute calculado por uma das duas expressotildees
matemaacuteticas (equivalentes) a seguir
O comando seria cor(xy) Por exemplogtx=c(12345) y=c(11224) cor(xy)
[1] 09036961
sum sum
sum
sumsum
sum
= =
=
=
=
sdotminussdotminus
sdotsdotminus
=
minussdotminus
minusminus
=n
1i
n
1i
1222
i
22
i
n
1i
ii
122
i
2
i
n
1i
n
1i
ii
xy
)yny)(xnx(
yxnyx
)y(y)xx(
)y)(yx(x
r
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1861
Cap1-AED Relaccedilatildeo entre duas variaacuteveis Quantitativa
bull Quando se verifica atraveacutes do coeficiente de correlaccedilatildeo (ou pelo aspecto visual doDiagrama de Dispersatildeo) que existe uma forte relaccedilatildeo linear entre 2 variaacuteveis X e Y
pode ser de interesse calcular a equaccedilatildeo da reta que representa esta relaccedilatildeo entre as2 variaacuteveis y = a + bx A equaccedilatildeo y = a + bx considera que y eacute a variaacutevel dependente(ou variaacutevel resposta) e que x eacute a variaacutevel independente (ou variaacutevel preditora) a serusada para explicar o comportamento da variaacutevel y A equaccedilatildeo da reta pode ser usadapara se antever qual seria o valor y0 da variaacutevel resposta y correspondente a umdeterminado valor x0 da variaacutevel preditora x
bull As foacutermulas que nos permitem calcular os valores de a e b a partir dos dados satildeo
yxn
n
i
n
i sumsum
O coeficiente b mede a inclinaccedilatildeo da reta de Regressatildeo Entatildeo ao passarmos de um pontoa outro sobre a reta b mede a relaccedilatildeo entre as variaccedilotildees de y e de x O coeficiente a medeo valor de y quando x eacute igual a zero ou seja eacute o intercepto da reta de Regressatildeo
O comando para calcular os coeficientes a e b seria gt lsprint(lsfit(xy))gtx=c(12345) y=c(11224)gtreg=lsfit(xy)gtlsprint(reg)
n
x
x
nyx
b2
n
1i
in
1i
2
i
1i
ii
minus
minus
=
sumsum =
=
=
==
x bya sdotminus=e
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1961
Cap 2-a Simulaccedilatildeo do conceito frequumlentistaConceito Frequumlentista de Probabilidade Suponha que o experimentofoi repetido n vezes sempre sob as mesmas condiccedilotildees e que o evento Aocorreu m vezes entre essas n realizaccedilotildees do experimento Entatildeoa fraccedilatildeo mn eacute uma boa aproximaccedilatildeo para a probabilidade de Ase o nuacutemero n de repeticcedilotildees for bastante grande
Simbolicamente P (A) congcongcongcong mn
Exemplo Simulando 100 lanccedilamentos de uma moedaNo R foram simulados 100 lanccedilamentos de uma moeda equilibrada isto eacute
onde as chances de cara e de coroa satildeo iguais Depois de cadalanccedilamento foi observado o nuacutemero acumulado de caras obtidas ateacute essemomen o e o ca cu a a a proporccedil o e caras correspon en e a a e a aseguir estatildeo apresentados os valores correspondentes ao nuacutemeroacumulado de caras ao longo do processo Por exemplo para a jogada denuacutemero 29 o nuacutemero acumulado de caras eacute 13 e a fraccedilatildeo de caras eacute 1329O graacutefico abaixo mostra a evoluccedilatildeo dessa fraccedilatildeo agrave medida que foramfeitos os 100 lanccedilamentos da moeda
Os comandos no R para a elaboraccedilatildeo do graacutefico
gtx=1100 y=cumsum(sample(01100rep=T))gtplot(xy1100 ylim=c(01) xlim=c(0100) pch=16)gtsegments(10510005)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2061
Cap 2-b Variaacuteveis Aleatoacuterias (va)Uma variaacutevel aleatoacuteria (va) eacute uma funccedilatildeo que associa cada elemento de um
espaccedilo amostral a um nuacutemero real As variaacuteveis aleatoacuterias podem ser do
tipo
Discreto se os seus valores pertencem a um conjunto enumeraacutevel de nuacutemerosreais (usualmente valores inteiros)
Contiacutenuo se os seus valores pertencem a um intervalo de nuacutemeros reais
O modelo probabiliacutestico de uma variaacutevel aleatoacuteria X estabelece o padratildeo de
comportamento de sua distribuiccedilatildeo de probabilidadeA fun atildeo de robabilidade de uma v a discreta X eacute definida orp(x)=P[X=x]
A funccedilatildeo de distribuiccedilatildeo acumulada F de uma v a X eacute definida porF(x) = P[Xlelelelex]
Se X eacute uma va discreta que assume os valores x 1
x 2
x 3
x N
entatildeo
bull A meacutedia ou esperanccedila de X eacuteE(X) = x 1 P(X=x 1 ) + x 2 P(X=x 2 ) + x 3 P(X=x 3 ) + + x N P(X=x N )
bull A Variacircncia de X eacute calculada por |Var(X)=(x 1 ndashE(X))2 P(X=x 1 )+(x 2 ndashE(X))2 P(X=x 2 )++(x N ndashE(X))2 P(X=x N )
bull O desvio padratildeo de X eacute igual agrave raiz quadrada natildeo negativa da suavariacircncia DP(X)= Var(X)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2161
Cap 2-b - va e o RO trabalho no R com uma va X estaacute baseado em 4 procedimentos
p probability ndash Gera a probabilidade de um valor de xq quantile ndash Gera o valor x de uma dada probabilidade acumulada pd density ndash Gera o valor da funccedilatildeo densidade num valor x da variaacutevel
Observar que quando a variaacutevel eacute discreta este valor eacute aprobabilidade de x quando a variaacutevel eacute contiacutenua o resultadoeacute a altura da funccedilatildeo densidade de probabilidade
r random ndash Gera n valores do modelo probabiliacutestico em questatildeo
As distribuiccedilotildees que estudaremos estatildeo listadas a seguir depois de cada uma delasentre parecircnteses estaacute o nome no R
(geom) Binomial negativa- Pascal (nbinom)
Entre as contiacutenuas Uniforme (unif ) Exponencial (exp) Normal (norm) t-student (t)quiquadrado (chisq) F (f )
A interligaccedilatildeo dos trecircs primeiros procedimentos pq e d seraacute ilustrada pela distribuiccedilatildeoNormal atraveacutes do graacutefico abaixo
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2261
Cap 2-b - va pnorm e qnormSeja a relaccedilatildeo p = P(Xltx) que aparece na tabela da distribuiccedilatildeo Normal Quiquadrada
t-student e F Para um dado valor de p acha-se um valor de x a procura direta que para aNormal no R corresponderia a pnorm(x 983221 σ) Neste caso devo informar o x e os dois
paracircmetros da distribuiccedilatildeo Normal 983221 e σJaacute a procura inversa seria para um dado valor de x achar um valor de p que para a Normalno R corresponderia a qnorm(p983221σ) Neste outro caso devo informar o valor de p desejado etambeacutem os dois paracircmetros da distribuiccedilatildeo Normal 983221 e σ
Exemplo Seja X a va que corresponde ao peso (em kg) de pessoas de uma certapopulaccedilatildeo com meacutedia 983221=70 Kg e desvio padratildeo σ=8 Kg assim X~ N(983221=70 σ2=82)
Se desejarmosa) P(Xlt80) usaremos no R o comando pnorm(80 70 8) isto eacute x=80 eacute o primeiro paracircmetroenquanto 70 e 8 satildeo paracircmetro especiacuteficos da distribuiccedilatildeo Normal
b) Admita que o peso limite para ser classificado como obeso eacute o valor que corresponde a10 dos mais pesados do populaccedilatildeo Achar este peso limiteO que se pede eacute a funccedilatildeo inversa Dado um valor de p=090 achar um valor de x que deixa90 abaixo dele No R seria qnorm(09 70 8) isto eacute o valor da probabilidade p=09 eacute
o primeiro paracircmetro enquanto 70 e 8 satildeo paracircmetros especiacuteficos da distribuiccedilatildeo NormalSe usarmos a Normal padratildeo z=(x-983221)σ no caso do item a o comando seria pnorm((80-70)8)ou pnorm(125) Repare que neste caso natildeo foi necessaacuterio passar os paracircmetros especiacuteficos daNormal pois 983221=0 e σ =1 coresponde ao default Observaccedilatildeo Sempre que usarmos um p oprimeiro paracircmetro eacute um x e os outros satildeo especiacuteficos da distribuiccedilatildeo em questatildeosempre que usarmos um q o primeiro paracircmetro eacute um p e os outros satildeo especiacuteficosSempre que usarmos um d o primeiro paracircmetro eacute um x
Quando usarmos uma distribuiccedilatildeo discreta o d corresponde aacute probabilidade no ponto x
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2361
Pag 118 ndash Figura 412
x=seq(010001)
plot(xdexp(x 12) type=l xlim=c(012) ylim=c(01) bty=l ylab=f(x) e F(x))
for(i in seq(0 25 001)) segments(i 0 i dexp(i12) col=lightgrey)
abline(v=0 h=0)
points(xdexp(x 12) type=l lwd=2 bty=l)
points(x pexp(x 12) lwd=2 type=l)
segments(250 25pexp(2512))
Cap 2-b - va dexp pexp points segments
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2461
Cap 2-b - va disponiacuteveis no Rrbinom(n size prob) binomialrpois(n lambda) Poissonrgeom(n prob) geometricarhyper(nn m n k) hipergeometricarnbinom(n size prob) binomial negativarunif(n min=0 max=1) uniformerexp(n rate=1) exponentialrnorm(n mean=0 sd=1) Gaussiana (normal)rt(n df) lsquoStudentrsquo (t )rf(n df1 df2) FisherndashSnedecor (F )
rchisq(n df) Quiquadradar amma n sha e scale=1 amma rbeta(n shape1 shape2) betarlnorm(n meanlog=0 sdlog=1) lognormalrcauchy(n location=0 scale=1) Cauchyrweibull(n shape scale=1) Weibullrwilcox(nn m n) Wilcoxonrsquos rank sum statistics
rsignrank(nn n) Wilcoxonrsquos signed rank statisticsrlogis(n location=0 scale=1) logistic
Todas essas distribuiccedilotildees apresentadas por rnome (nome da variaacutevel aleatoacuteria) como vimostrocando a primeira letra e mantendo os paracircmetros especiacuteficos de cada distribuiccedilatildeo(denotados por ) podem ser usadas substituindo a letra ldquor rdquo por
d valor da densidade de probabilidade no ponto x dnome (x )p probabilidade acumulada no ponto x pnome (x )
q quantil correspondente a probabilidade acumulada p dnome (p)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2561
Cap 2-c O Teorema Central do Limite (TCL)O Teorema Central do Limite (abreviadamente TCL) diz respeito ao comportamento da
meacutedia amostral agrave medida que o tamanho n da amostra cresce indefinidamente
Exemplo 31 ndash A distribuiccedilatildeo de renda e o TCLEacute um fato conhecido que a distribuiccedilatildeo da rendapessoal dos habitantes de um paiacutes eacuteusualmente muito desigual ou seja muitosganham pouco e poucos ganham muito Seforem sorteados 200 habitantes desse paiacutes e
com base nas suas rendas mensais
Agora se forem sorteadas 200 amostrascada uma delas contendo 2 habitantesdesse paiacutes e se forem calculadas as 200respectivas meacutedias amostrais a partir delas obteremos o histograma a seguir
Agora cada uma das 200 amostrassorteadas contendo 30 habitantes dessepaiacutes e se forem calculadas as 200 meacutediasamostrais o histograma seria
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2661
Cap 2-c ndash TCL ExemploComo pode ser observado no caso de n = 2 o histograma se aproxima mais de uma curvaNormal do que no caso de n = 1 E no caso de n = 30 a semelhanccedila do histograma com umacurva Normal eacute ainda maior
O Teorema Central do Limite afirma que independentemente de qual seja a
distribuiccedilatildeo original dos Xirsquos a distribuiccedilatildeo de probabilidade de e a
distribuiccedilatildeo Normal com meacutedia micromicromicromicro e variacircncia σσσσ2 n se aproximam cada vez
mais uma da outra agrave medida que n cresce
Portanto mesmo que a distribuiccedilatildeo de probabilidade dos Xirsquos seja desconhecida o Teorema
X n
Central do Limite garante a possibilidade de usarmos o modelo Normal para calcular ainda quede forma aproximada probabilidades relativas agrave meacutedia amostral desde que n sejasuficientemente grande
Exemplo 62 Simulando o efeito do TCL
Para ilustrar o funcionamento do Teorema Central do Limite vamos exibir agora um exemploem que a distribuiccedilatildeo original a partir da qual os dados satildeo gerados eacute uma exponencial modelo
este que daacute origem a uma funccedilatildeo densidade bastante assimeacutetrica (ao contraacuterio do que ocorre
com a curva Normal) A densidade de uma exponencial com paracircmetro eacute dada pela
expressatildeo
No R rexp(n ) simula n valores
λ
0 xλef(x) λx ge= minusλ
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2761
Cap 2-c ndash TCL ExemploA densidade de uma exponencial com paracircmetro eacute dada pela expressatildeo
Gerando dados por simulaccedilatildeo a partir de uma exponencial com λ = 13 para cada um dos
seguintes tamanhos n de amostra 1 2 3 4 5 10 15 e 201 Obtivemos 200 valores da meacutedia amostral 2 Utilizamos esses 200 valores para construir um histograma3 Traccedilamos no mesmo graacutefico uma curva da densidade Normal com E( )=3 e DP( )=3Xn
λ 0 xλef(x) λx ge= minus
Xn n
Os 8 histogramas nos mostram que agrave medida que o tamanho n da amostra cresce
a forma do histograma se aproxima cada vez mais de uma curva Normal
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2861
Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com
simulaccedilotildees - Exponencial
tclexp=function(n N=200 titulo= yl=c(0 4)) iniacutecio da funccedilatildeo ndash tclexpmedias=numeric(N)
for (i in 1N) medias[i]= mean(rexp(n13))
hist(medias xlim=c(-110) ylim=yl freq=F main=titulo)
x=seq(-110 02)
points(x dnorm(x 3 3sqrt(1n) ) type=l lwd=3)
fim da funccedilatildeo
graphicsoff()
par(mfrow=c(33) mai=c(3411))
tclexp(1titulo=n=1)
tclexp(2titulo=n=2)
tclexp(3titulo=n=3)
tclexp(4titulo=n=4)
tclexp(5titulo=n=5)
tclexp(6titulo=n=6)
tclexp(10titulo=n=10yl=c(06))
tclexp(15titulo=n=15yl=c(06))
tclexp(20titulo=n=20yl=c(06))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2961
Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com
simulaccedilotildees - Exponencial
Uma pergunta natural neste ponto serialdquoQuatildeo grande deve ser n para que possamos usar a aproximaccedilatildeo fornecida pelo
TCL com um niacutevel de precisatildeo aceitaacutevelrdquo
A rapidez com que essa convergecircncia se daacute depende de quatildeo distante estaacute a forma
da distribuiccedilatildeo original das Xirsquos de uma curva Normal Em outras palavras se a
distribuiccedilatildeo das Xirsquos jaacute natildeo for muito diferente de uma Normal com um n natildeo muito-
grande (usualmente n ge 30) a aproximaccedilatildeo da distribuiccedilatildeo de por uma Normal
funcionaria adequadamente
No exemplo a seguir vamos apresentar esse fenocircmeno a saber a convergecircncia da
distribuiccedilatildeo de para uma Normal agrave medida que n cresce gerando por simulaccedilatildeo osdados originais a partir de diferentes modelos probabiliacutesticos Em todos os casos a
distribuiccedilatildeo original eacute bem diferente da Normal E(X)=3 e DP(X)=3 No que se refere agrave
Simulaccedilatildeo foi seguida a mesma sequumlecircncia de passos do exemplo anterior
Xn
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3061
Cap 2-c ndash TCL Exemplo
Exponencial
Uniforme
Mistura deNormais
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3161
Como se pode observar
1 No caso da distribuiccedilatildeo uniforme (A) o histograma de jaacute se aproximabastante de uma Normal quando n eacute da ordem de 4
2 Jaacute no caso da distribuiccedilatildeo Exponencial (B) e da mistura de normais
(C) modelos esses que se afastam muito mais de umldquo rdquo
Cap 2-c ndash TCL Exemplo
mostra mais adequada a partir de n em torno de 10
3 No caso do modelo em (C) agrave medida que n cresce tudo se passacomo se houvesse a ldquoerupccedilatildeo de um vulcatildeo dentro do valerdquo
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3261
tclunif=function(nN=100titulo= yl=c(0 4))
medias=numeric(N)for (i in 1N) medias[i]= mean(runif(n 3-3sqrt(3) 3+3sqrt(3)))
hist(medias xlim=c(-610) ylim=yl freq=F main=titulo)
x=seq(-610 02)
points(x dnorm(x 3 3sqrt(1n) ) type=l lwd=3)
medias
Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com
as simulaccedilotildees - Uniforme
grap cso
par(mfrow=c(33) mai=c(3411))
tclunif(1titulo=n=1yl=c(06))
tclunif(2titulo=n=2yl=c(06))
tclunif(3titulo=n=3yl=c(06))
tclunif(4titulo=n=4yl=c(06))tclunif(5titulo=n=5yl=c(06))
tclunif(6titulo=n=6yl=c(06))
tclunif(10titulo=n=10yl=c(06))
tclunif(15titulo=n=15yl=c(06))
tclunif(20titulo=n=20yl=c(06))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3361
X2=c(rnorm(35011) rnorm(15081)) X2 eacute a Populaccedilatildeo de onde retiramos as amostras
br=seq(-2 12 5)
tcl2modas=function(nN=200titulo= yl=c(0 6)) medias=numeric(N)for (i in 1N) medias[i]= mean(sample(X2nrep=T))hist(mediasbreaks=br xlim=c(-212) tcl=-01 ylim=yl xarp=c(-31216)
tck=005 lab=c(5515) freq=F main=titulo)x=seq(-312 02)
Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com
as simulaccedilotildees - Mistura de Normais
points(x dnorm(x med dpsqrt(n) ) type=l lwd=2)
par(mfrow=c(24) mai=c(3011) mar=c(2 2 2 1))
hist(X2 freq=F breaks=seq(-3125) bty=o xlim=c(-212)xarp=c(-31216)tck=005 lab=c(5515) ylim=c(06) main=POPULACcedilAtildeO lwd=2)
tcl2modas(2titulo=n=2)tcl2modas(3titulo=n=3)
tcl2modas(4titulo=n=4)
tcl2modas(5titulo=n=5)
tcl2modas(10titulo=n=10)
tcl2modas(15titulo=n=15)
tcl2modas(25titulo=n=25)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3461
CAP 3-a) Intervalo de ConfianccedilaSeja um estimador pontual do paracircmetro eacute uma variaacutevel aleatoacuteria que varia deamostra para amostra Por isso haacute uma certa dose de incerteza inerente a esse processode estimaccedilatildeo Nosso objetivo agora eacute obter com base nos dados amostrais (da uacutenicaamostra observada) um intervalo ao qual o valor correto do paracircmetro deve ter grandechance de pertencer
bull Detalhando um pouco mais No processo de estimaccedilatildeo por intervalo de um paracircmetro θdevemos determinar um intervalo que contenha o verdadeiro valor do paracircmetro comprobabilidade 1-α onde α eacute um pequeno valor preacute-fixado Este intervalo eacute construiacutedo emgeral em torno do estimador pontual considerando uma margem de erro d de forma aque uma vez fixada a probabilidade 1-α calculemos d tal que P( - d le θ le + d ) = 1 -αChama-se intervalo de confianccedila para θ ao niacutevel 1 - α ao intervalo [ - d + d]
θ $θ
$θ$θ
$θ $θ
$
θ
bull Ou seja o estimador pontual eacute o centro do Intervalo de Confianccedila e o erro absoluto dassociado a define a amplitude desse intervalo O que eacute de fato variaacutevel aleatoacuteria satildeoos extremos do intervalo O paracircmetro tem valor desconhecido natildeo aleatoacuterio (fixo a ser estimado)
Exemplo Intervalo de Confianccedila para a meacutedia populacional com o desvio padratildeo conhecidoO paracircmetro a estimar eacute a meacutedia populacional micro A estimaccedilatildeo seraacute baseada em X1 X2 Xn
uma amostra aleatoacuteria com E(Xi) = micro e var(Xi) = σ2 para todo i = 12 n Queremos que seja
vaacutelida a expressatildeo o que equivale a P [ -d le -micro le d] = 1-α
$θ
X[ ] α1dmicroXP minus=leminus
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3561
bull Lembrando que para n suficientemente grande pelo Teorema Central do Limite a meacutediaamostral segue uma distribuiccedilatildeo que se aproxima da Normal(micromicromicromicro σσσσ2 n) (ou eacute exatamente aNormal(micromicromicromicro σσσσ2 n) no caso em que a distribuiccedilatildeo comum das va Xirsquos jaacute eacute Normal) entatildeo
P [-d le -micromicromicromicro le d] = 1-α rArr 1-α = P [ |Z| le ] Logo d =
bull Faremos uma simulaccedilatildeo para a construccedilatildeo de Intervalos de Confianccedila com 100 amostras dedois tipos de populaccedilatildeo Normal e Exponencial A lista de comandos do R que usamos eacute
ICN = function (N n mu sigma = 3 conf)
plot(0 0 type=n xlim=c(010) ylim=c(0N) bty=l
xlab=Normal ylab=amostras)abline(v=mu)
CAP 3-a) Intervalo de Confianccedila
X
nσ
d
minus
z0 = qnorm(1-((1-conf)2))
sigmaxbarra = sigmasqrt(n)
for (i in 1N)
x = rnorm(n mu sigma)
media = mean(x)
li = media - z0 sigmaxbarrals = media + z0 sigmaxbarra
plotx = c(lils)
ploty = c(ii)
if (li gt mu | ls lt mu) lines(plotxploty col=red)
else lines(plotxploty)
gt ICN(100 25 3 3 95)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3661
CAP 3-a) Intervalo de Confianccedila
ICexp = function (N n lambda conf)
mu=1lambda sigma=1lambda
plot(0 0 type=n xlim=c(010) ylim=c(0N) bty=lxlab=Exponencial ylab=amostras)
abline(v= mu)
z0 = qnorm(1-((1-conf)2))
sigmaxbarra = sigmasqrt(n)
for (i in 1N)
x = rexp(nlambda) me a = mean x
li = media - z0 sigmaxbarra
ls = media + z0 sigmaxbarra
plotx = c(lils)
ploty = c(ii)
if (li gt mu | ls lt mu) lines(plotx ploty col=red)
else lines(plotx ploty)
gt ICexp(100 25 13 95)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3761
CAP 3-b Teste de Hipoacuteteses (TH)O objetivo de um teste de hipoacutetese eacute avaliar a validade de uma afirmaccedilatildeo sobre determinada
caracteriacutestica da populaccedilatildeo usando para isso os dados de uma amostra Essa caracteriacutestica eacute
representada pela va contiacutenua X cujo comportamento probabiliacutestico eacute expresso pela funccedilatildeo dedensidade f com paracircmetro Ө que tem valor desconhecido
Em um teste existem duas hipoacuteteses envolvidas H0 denominada hipoacutetese nula e H1
denominada hipoacutetese alternativa O procedimento de teste de hipoacutetese consiste em estabelecer
um criteacuterio de decisatildeo que leve a Aceitar ou Rejeitar H0 com base nos valores amostrais
A Estatiacutestica de teste eacute uma funccedilatildeo da amostra aleatoacuteria utilizada para definir o criteacuterio de
decisatildeo Estabelecer o criteacuterio de decisatildeo consiste em dividir o conjunto dos valores possiacuteveis
da estatiacutestica de teste em duas partes denominadas Regiatildeo de Aceitaccedilatildeo A e Regiatildeo de
Rejeiccedilatildeo R da hipoacutetese nula
Em um teste de hipoacutetese haacute dois tipos possiacuteveis de erro de decisatildeo
Erro I - Rejeitar H0 quando H0 eacute verdadeira
Erro II - Aceitar H0 quando H0 eacute falsaAs probabilidades de ocorrecircncia dos erros satildeo α = P [ Erro I ] e β = P [ Erro II]
A probabilidade de erro I α eacute o niacutevel de significacircncia do teste cujo valor eacute arbitrado pelo
pesquisador deve ser pequena pois corresponde a probabilidade de um erro (005 ou 001)
O niacutevel criacutetico ou p-valor do teste eacute o menor valor de α para o qual ainda rejeitariacuteamos H0 de
acordo com os dados observados
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3861
CAP 3-b) ndash TH teste tttest(x y = NULL alternative = c(twosided less greater) mu = 0
paired = FALSE varequal = FALSE conflevel = 095 )
Procedimentos de teste de hipoacuteteses com niacutevel de significacircncia α e amostras de tamanho n
UmaAmostra
DuasAmostras
Obs Os testes acima satildeo bilaterais
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3961
CAP 3ndashb) TH exemplo de teste t ndash amostras independentespag233- teste t amostras independente - comparaccedilatildeo log(salaacuterio)
entre os grupos de comeacutercio e de serviccedilo
LogSal=c(1289156912501344145616361573171309060903
0977122011031069128714101496131113371366
1227119114591280115217401649176524101701
1538192419251721154918911534163812071682
120614232010143112651570)
Sal=exp(LogSal)
setor= c(rep(C23) rep(S23))
ttest(Sal[setor==C] Sal[setor==S] varequal=T)
Two Sample t-test
data Sal[setor == C] and Sal[setor == S]
t = -36822 df = 44 p-value = 00006289
alternative hypothesis true difference in means is not equal to 095 percent confidence interval
-23079005 -06751838
sample estimates
mean of x mean of y3786010 5277552
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4061
CAP 3ndashb) TH exemplo de teste t ndash amostra pareadapag237- teste t pareado
P1=c(6315596455545480598065203660986853
8765647785536980827184605572645564)
P2=c(3638306043466455604343523428837155
8238556767443459605968506254473652)
ttest(P1 P2 alt=greater paired = T)
Paired t-test
data P1 and P2
t = 44176 df = 33 p-value = 5072e-05
alternative hypothesis true difference in means is greater than 0
95 percent confidence interval
0716695 Inf
sample estimates
mean of the differences
1161765
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4161
CAP 3ndashb) TH exemplo de teste Quiquadrado chisqtest
pag233- teste Quiquadrado -
tcont=matrix(c(683585251530258 7461761220225) 72)
chisqtest(tcont)
Pearsons Chi-squared test
data tcont- = = - lt -
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4261
CAP 3ndashb) TH exemplo de teste Quiquadrado chisqtestaov(formula data = NULL )
pag244- ANOVA - Comparaccedilatildeo de trecircs raccedilotildees para suinos
A=c(444943514475425134305342453630
322133421040395246294247453959)
B=c(343640545953445432686954414647
6566455739)
C=c(574040364566395025212927283942
21304143294244582849)
aumentoP=c(ABC)
racao=c(rep(A30)rep(B20) rep(C25))
summaryaov(aov(aumentoP ~ racao))
Df Sum Sq Mean Sq F value Pr(gtF)racao 2 15385 7693 56136 0005425
Residuals 72 98666 1370
---
Signif codes 0 lsquorsquo 0001 lsquorsquo 001 lsquorsquo 005 lsquorsquo 01 lsquo rsquo 1
Warning message
In modelmatrixdefault(mt mf contrasts)
variable racao converted to a factor
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4361
ApecircndicesA-1) Apresentaremos aqui algumas figuras
feitas no R na elaboraccedilatildeo do livro
Achamos que o exame desses coacutedigos acompanhado dos resultados podeser um bom aprendizado um exerciacutecio ou talvez uma recordaccedilatildeo do materialaqui exposto
A-2) Resumo de comandosa) Criaccedilatildeo de dados
b) Informaccedilatildeo de uma Variaacutevel
c) Seleccedilatildeo de dados e manipulaccedilatildeo
d) Estatiacutesticas e operaccedilotildees matemaacuteticas
e) Corte e extraccedilatildeo de dados
f) Operaccedilatildeo com Matrizes
g) Graacuteficos (Plotting)
h) Teste de hipoacuteteses
i) Programming
j) Commandos auxiliaries em Graacuteficos
k) Comando par (Graphical parameters)
l) Input and output
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4461
A1) ndash Pag 14 ndash Figura 15
IDADE=c(616961716371726866697267636663636067716360696463667164706366646969646372736871726968687379)
IMC= c(245273281301254301280234268228255228235232203226239243271227237258213243243248219234216214221227227211268278275267286253239258247284235)
par(mfrow=c(12))hist(IDADE breaks=c(6065707580) ylim=c(020) ylab=Nuacutemero de Observaccedilotildees
main= col=grey right = F)hist(IMC breaks=c(200225250275300325)
ylab=Nuacutemero de Observaccedilotildeesmain= col=grey right = F )
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4561
A1) ndash Pag 44 ndash Figura 21
mat=matrix(c(81823913601818608740)32)
rownames(mat)=c(AtivaSedentaacuteriaTotal)colnames(mat)=c(NormalSobrepeso)barplot(t(mat) beside = TRUE space=c(315)
col=gray(c(79))legend = c(NormalSobrepeso) ylim = c(0 95) ylab= - percentagem)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4661
A1) ndash Pag 48 ndash Figura 22
mat= matrix(c(68154510 66214215 66242519 39161711)44byrow=T)
rownames(mat)=c(18 a 21 anos 22 a 25 anos 26 a 30 anos 31 a 40 anos)colnames(mat)=c(CinTeatSMDEx)mat1=mat for (i in 14) mat1[i]lt-mat1[i]100sum(mat1[i]) par(mfrow=c(12) mai=c(1111) mar=c(5 4 2 2) )barplot(matbeside=F ylim=c(0250) legend = c(18 a 21 anos 22 a 25 anos
26 a 30 anos 31 a 40 anos) xlab=Contagem)
barplot(mat1 beside=F xlab=Percentagem)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4761
A1) ndash Pag 52 ndash Figura 25X= c(184114821789235159118762592403190408372147328526471687
09642871437079238215753399242122530314859149806)y =c(01837012540193301620014230140604568022870231400861019960235302186012798991801254018210244160823
0147764068011818941403474539680150133247023685518102146187520214097090257291227
036282905401406510810113849399)plot(x y xlim=c(07) ylim=c(05) pch=16 bty=l xlab=Renda per capita
ylab=Telefonia Fixa per capita)
abline(lsfit(xy))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4861
A1) ndash Pag 109 ndash Figura 45
x=020
y1=dpois(x1) y2=dpois(x3) y3=dpois(x10)names(y1)=x names(y2)=x names(y3)=xpar(mfrow=c(13))plot(y1ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=1)plot(y2ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=3)plot(y3ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=10)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4961
A1) ndash Pag 118 ndash Figura 412
x=seq(010001)
plot(xdexp(x 12) type=l xlim=c(012) ylim=c(01) bty=l ylab=f(x) eF(x))for(i in seq(0 25 001)) segments(i 0 i dexp(i12) col=lightgrey)abline(v=0 h=0)points(xdexp(x 12) type=l lwd=2 bty=l)points(xpexp(x 12) lwd=2 type=l)segments(250 25pexp(2512))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5061
A1) ndash Pag 163 ndash Figura 68
plot(p xlim=c(618) ylim=c(016) type=n bty=l xaxt=n xlab= ylab=
cexaxis=6)for (i in 1015) rect(i-50 i+5 dbinom(i304) col=lightgrey) lty=2)segments(i0idbinom(i304) lty=2)
x=seq(61801) lines(x dnorm(x12sqrt(72)) lwd=2)x=seq(61801) lines(x dnorm(x12sqrt(72)) lwd=2)
axis(1 916 cexaxis=9) ax s seq cexax s=
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5161
A1) ndash Pag 198 ndash Figura 78
x1=seq(-4402)plot(x1dnorm(x1) type=l lwd=3 xlab= ylab= )lines(x1 dt(x11)) lines(x1 dt(x12)) lines(x1 dt(x15))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5261
A2ndashResumo de comandos
a)Criaccedilatildeo de dados
c()funccedilatildeo geneacuterica para combinar argumentos com o formando de um vetor fromto gera uma sequecircnce ldquordquo tem prioridade de operator pe13 + 1 is ldquo234rdquo
seq(fromtoby) gera uma sequecircncia by= especifica incremento
length= especifica um comprimento desejado
rep(xtimes) replicate x onuacutemero times de vezes use each= para repetir cada
elemento de x rep(c(123)2) gera 1 2 3 1 2 3 rep(c(12)each=2) gera 1 1 2 2
matrix(xnrow=ncol=) matrix elementos de x se reciclam caso x
rbind()combina vetores em linhas num estrutura de matrizes de dados
cbind()combina vetores em colunas num estrutura de matrizes de dados
array(xdim=) matriz com dados x especificar dimensotildees como dim=c(342)
elementos de x se reciclam caso x natildeo seja suficientemente grande
factor(xlevels=) codifica um vetor x como um fator gl(nklength=nklabels=1n) gerar niacuteveis (fatores) especificando
o padratildeo de seus niacuteveis k eacute o nuacutemero de niacuteveis e n eacute o nuacutemero de repeticcedilotildees
dataframe() criar um banco de dados Por exemplo
dataframe(v=14ch=c(gBcasad)n=5)
list()criar uma lista de argumentos Por exemplo list(a=c(12)b=hic=3i)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5361
A2ndashResumo de comandos
b) Informaccedilatildeo de uma Variaacutevellength(x) nuacutemero de elementos em x
dim(x) Obter ou definir a dimensatildeo de um objeto dim (x) = c(32)dimnames(x) Obter ou definir os nomes das dimensotildees de um objeto
nrow(x) nuacutemero de linhas
ncol(x) nuacutemero de colunas
c) Seleccedilatildeo de dados e manipulaccedilatildeochoose(n k) calcula a combinaccedilatildeo de elementos escolhidos entre n
resultando n [(n-k) k]
cut(xbreaks) divide x em intervalos (fatores) breaks eacute o nuacutemero de intervalos de
corte ou um vetor com os valores especiacuteficos
table(x) retorna uma tabela com as quantidades dos diferentes valores de x
(tipicamente para variaacuteveis dos tipos inteiros ou fatores)
sample(x size) retira aleatoriamente com e sem reposiccedilatildeo elementos detamanho SIZE do vetor x a opccedilatildeo replace = TRUE permite a retirada com reposiccedilatildeo
proptable(xmargin=) transforma a tabela como tabela de propoccedilatildeo
marginal margin=1 (com relaccedilatildeo as linhas) margin=2 (com relaccedilatildeo as colunas)
sort(x) Classifica os elementos de x em ordem crescente para classificar em ordem
decrescente rev(sort(x))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5461
A2ndashResumo de comandosd) Estatiacutesticas e operaccedilotildees matemaacuteticasmean(x) media dos elementos de x
median(x) mediana dos elementos de x
quantile(xprobs=) quantis de x correspondendo a uma dada probabilidadevar(x) ou cov(x) variacircncia dos elementos de x (calculado com n-1)
se x eacute uma matriz a matriz de covariacircncia eacute calculada
sd(x) desvio padracirco de of x
cor(x) matriz de correlaccedilatildeo de x se x for uma matriz ou (1 se x eacute um vector)
cor(x y) correlaccedilatildeo linear entre X e Y ou matriz de correlaccedilatildeo se eles satildeo matrizes
round(x n) arredonda os elementos de x para n casas decimais sum x soma os e emen os e x
prod(x) multilica os elementos de x
max(x) acha o maacuteximo dos elementos de x
min(x) acha o miacutenimo dos elementos de x
range(x) equivalente a c(min(x)max(x)
cumsum(x) um vetor onde o eacutesimo elemento eacute a soma de x[1] ateacute x[i]cumprod(x) um vetor onde o eacutesimo elemento eacute o produto de x[1] ateacute x[i]
cummin(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
cummax(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
sincostanasinacosatanatan2loglog10exp)
log(x base) calcula o logaritmo de x na base=base
weightedmean(x w) media ponderada de x com peso= w
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5561
A2ndashResumo de comandos
e) Corte e extraccedilatildeo de dadosindexaccedilatildeo de Vetores
x[n] n-eacutesimo elemento do vetor
x[-n] todos menos o n-eacutesimo elemento
x[1n] os primeiros n elemento
x[-(1n)] elementos de n+1 ateacute o final
x[c(432)] elementos especificados
x[y gt 5] todo elementos de onde os valores de y satildeo maiores que 5
x x gt 3 amp x lt 5 todo elementos entre 3 e 5
x[nome] elemento denominado nome
indexaccedilatildeo de Matrizes
x[ij] elemento na linha i coluna j
x[i] linha i
x[j] coluna j
x[c(13)] colunas 1 and 3
x[nome] linha nomeada nome
indexaccedilatildeo de data frames
x[[nome]] coluna chamada nome
x$nome equivalente a coluna chamada nome
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5661
A2ndashResumo de comandos
f) Operaccedilatildeo com Matrizest(x) transposta da matrix x
diag(x) retira a diagonal da matrix x
multiplicaccedilatildeo matricial
solve(ab) resove a equaccedilatildeo a x = b em relaccedilatildeo a x
solve(a) matriz inversa de a
rowSum(x) soma das linhas da matrix x
colSum(x) soma das colunas da matrix x
rowMeans x meacutedia das linhas da matrix x
colMeans(x) id meacutedia das colunas da matrix x
g) Graacuteficos (Plotting)plot(x y) diagrama de disperccedilatildeo plot dos pares (xy) num sistema de eixos
coordenadoshist(x) histogram dasfrequecircncias of x
barplot(x) graacutefico de barras of x usar horiz=T ara barras horizontal
pie(x) graacutefico de setores (pie-chart)
boxplot(x)
qqnorm(x) quantis de x em relaccedilatildeo aos valores esperados de uma dist Normal
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5761
A2ndashResumo de comandosparametros dos commando de Graacutefico
type=p especifica o tipo de plot p pontos l linhas b pontos
ligados por linhas o idecircntico mas as linhas passam sobre os pontos h
linhas verticais s escada (steps) os dados satildeo representados pelas alturasverticais
xlim= ylim= especifica os limites inferiores e superiores dos eixos por exemplocom xlim=c(1 10) ou xlim=range(x)
xlab= ylab= nomeia os eixos o nome deve ser do tipo caracter
main= tiacutetulo principal deve ser do tipo caracter
sub= sub-tiacutetulo (escrito em fonte menor)
podem ser usados como bty(tipo de caixa) lwd (lagura da linha) lty (tipo delinha) pch(tipo de ponto) cex xaxs yaxs xaxtyaxt
h) Teste de hipoacuteteses
ttest()proptest()
chisqtest()
aov(formula) analysis of variance model
anova(fit) analysis of variance (or deviance) tables for one or more
fitted model objects
Use o commando gt test para procurar todos os testes disponiacuteveis
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5861
A2ndashResumo de comandos
i) Programmingfunction( arglist ) expr para definer uma funccedilatildeo
return(value)
if(cond) expr
if(cond) consexpr else altexpr
for(var in seq) expr
while(cond) expr
re eat ex r
break
Usar chaves entre commandos dlimitando o iniacutecio e o fim de um grupo decomandos
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5961
A2ndashResumo de comandos
j) Commandos auxiliaries em Graacuteficospoints(x y) adiciona pontos (a opccedilatildeo type= pode ser usada)
lines(x y) adiciona linhas (a opccedilatildeo type= pode ser usada)text(x y labels ) adiciona texto na coordenada (xy) um uso tiacutepico eacute
plot(x y type=n) text(x ynames)
segments(x0 y0 x1 y1) desenha linhas do ponto (x0 y0) ao (x1 y1)
arrows(x0 y0 x1 y1 angle= 30 code=2) desenha seta do ponto
(x0 y0) ao (x1 y1)
abline(ab) desenha uma reta de inclinaccedilatildeo b e intercepto a
abline(v=x) desenha uma reta vertical em x
abline(lsfit(xy)) desenha uma reta da regressatildeo feita em lsfit(xy)
rect(x1 y1 x2 y2) desenha um retacircngulo que a esquerda inferior tem coordenadas(x1 y1) e o limite da direita superiores (x2 y2)
polygon(x y) desenha um poliacutegono que une os pontos com coordenadas X e Y
legend(x y legend) Acrescenta a lenda no ponto (x y) com os siacutembolos
dada pela legend
title()adiciona um tiacutetulo e opcionalmente um sub-tiacutetulo
axis(side) acrescenta um eixo na parte inferior (side = 1) agrave esquerda (2) na partesuperior (3) ou agrave direita (4)
box()desenhar uma caixa em torno do plot
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6061
A2ndashResumo de comandos
k) Comando par (Graphical parameters)Todos estes comando podem ser definidos a niacutevel global com o par () que
especifica os paracircmetros mas tambeacutem muitos podem ser usados comoparametros dos commando de Graacutefico
mfcol vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em colunas
mfrow vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em linhas(matrix for row)
bty controla o tipo de caixa desenhada ao redor do enredo valores permitidos satildeo
o l 7 c u ou se bt =n a caixa natildeo eacute desenhada
lty controla o tipo de linhas pode ser um inteiro ou string (1 solid 2 dashed 3dotted 4 dotdash 5 longdash 6twodash) ou uma string de ateacuteoito caracteres (entre 0 e 9) que especifica o comprimento em pontos oupixels dos elementos desenhados e os espaccedilos em branco por exemplolty=rdquo44rdquo equivale a lty=2
lwd nuacutemero que controla a largura das linhas default 1pch controla o tipo de siacutembolo pode tambeacutem ser um nuacutemero inteiro entre 1 e 25
ps um inteiro que controla o tamanho em pontos de textos e siacutembolos
pty um caracter que especifica o tipo da regiatildeo s quadrado m maacuteximal
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6161
A2ndashResumo de comandos
l) Input and outputreadtable(file) lecirc um arquivo em formato de tabela e cria um quadro de dados a
partir dele o separador default = eacute espaccedilo em branco header = TRUE ler a
primeira linha como um cabeccedilalho de nomes de coluna asis = TRUE paraevitar aque um vetore de caracteres seja convertido em factores usocommentchar = para evitar seja interpretado como um comentaacuteriouso skip = n para pular n linhas antes da leitura de dados consulte a ajudapara as opccedilotildees de linha de nomeaccedilatildeo o tratamento NA e outros
readcsv(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por viacutergulas
readdelim(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por tabulaccedilotildees
readfwf(filewidthsheader=FALSEsep= asis=FALSE)
ler uma tabela de dados em formato fix de largura m para um dataframe widthseacute um vetor inteiro informando os tamanhos dos campos
sink(file) saiacuteda de todos os comandos para um arquivo ateacute aparecer um comando
sink () que desliga writetable(x file=rownames=Tcolnames=Tsep= ) imprime x apoacutes a
conversatildeo para banco de dados
save(file) guarda os objetos especificados () no formato XDR
load()carregar o conjunto de dados salvos com o comando save
data(x) carrega um conjunto de dados especificado
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1761
Cap1-AED Relaccedilatildeo entre duas variaacuteveis QuantitativaQuando se deseja investigar a relaccedilatildeo entre duas variaacuteveis quantitativas o mais adequado eacutecomeccedilar pela construccedilatildeo de um Diagrama de Dispersatildeo Construir um diagrama de
dispersatildeo para 2 variaacuteveis quantitativas X e Y consiste em localizar pares de valoresobservados (xi yi ) como pontos em um sistema de eixos coordenados O camando seriaplot(xy)Por exemplogtx=c(12345) y=c(11224) plot(xy)
Um indicador do grau de interdependecircncia linear para 2 variaacuteveis quantitativas X e Y eacute ocoeficiente de correlaccedilatildeo rxy que pode assumir qualquer valor real entre -1 e 1 Ocoeficiente de correlaccedilatildeo entre X e Y eacute calculado por uma das duas expressotildees
matemaacuteticas (equivalentes) a seguir
O comando seria cor(xy) Por exemplogtx=c(12345) y=c(11224) cor(xy)
[1] 09036961
sum sum
sum
sumsum
sum
= =
=
=
=
sdotminussdotminus
sdotsdotminus
=
minussdotminus
minusminus
=n
1i
n
1i
1222
i
22
i
n
1i
ii
122
i
2
i
n
1i
n
1i
ii
xy
)yny)(xnx(
yxnyx
)y(y)xx(
)y)(yx(x
r
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1861
Cap1-AED Relaccedilatildeo entre duas variaacuteveis Quantitativa
bull Quando se verifica atraveacutes do coeficiente de correlaccedilatildeo (ou pelo aspecto visual doDiagrama de Dispersatildeo) que existe uma forte relaccedilatildeo linear entre 2 variaacuteveis X e Y
pode ser de interesse calcular a equaccedilatildeo da reta que representa esta relaccedilatildeo entre as2 variaacuteveis y = a + bx A equaccedilatildeo y = a + bx considera que y eacute a variaacutevel dependente(ou variaacutevel resposta) e que x eacute a variaacutevel independente (ou variaacutevel preditora) a serusada para explicar o comportamento da variaacutevel y A equaccedilatildeo da reta pode ser usadapara se antever qual seria o valor y0 da variaacutevel resposta y correspondente a umdeterminado valor x0 da variaacutevel preditora x
bull As foacutermulas que nos permitem calcular os valores de a e b a partir dos dados satildeo
yxn
n
i
n
i sumsum
O coeficiente b mede a inclinaccedilatildeo da reta de Regressatildeo Entatildeo ao passarmos de um pontoa outro sobre a reta b mede a relaccedilatildeo entre as variaccedilotildees de y e de x O coeficiente a medeo valor de y quando x eacute igual a zero ou seja eacute o intercepto da reta de Regressatildeo
O comando para calcular os coeficientes a e b seria gt lsprint(lsfit(xy))gtx=c(12345) y=c(11224)gtreg=lsfit(xy)gtlsprint(reg)
n
x
x
nyx
b2
n
1i
in
1i
2
i
1i
ii
minus
minus
=
sumsum =
=
=
==
x bya sdotminus=e
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1961
Cap 2-a Simulaccedilatildeo do conceito frequumlentistaConceito Frequumlentista de Probabilidade Suponha que o experimentofoi repetido n vezes sempre sob as mesmas condiccedilotildees e que o evento Aocorreu m vezes entre essas n realizaccedilotildees do experimento Entatildeoa fraccedilatildeo mn eacute uma boa aproximaccedilatildeo para a probabilidade de Ase o nuacutemero n de repeticcedilotildees for bastante grande
Simbolicamente P (A) congcongcongcong mn
Exemplo Simulando 100 lanccedilamentos de uma moedaNo R foram simulados 100 lanccedilamentos de uma moeda equilibrada isto eacute
onde as chances de cara e de coroa satildeo iguais Depois de cadalanccedilamento foi observado o nuacutemero acumulado de caras obtidas ateacute essemomen o e o ca cu a a a proporccedil o e caras correspon en e a a e a aseguir estatildeo apresentados os valores correspondentes ao nuacutemeroacumulado de caras ao longo do processo Por exemplo para a jogada denuacutemero 29 o nuacutemero acumulado de caras eacute 13 e a fraccedilatildeo de caras eacute 1329O graacutefico abaixo mostra a evoluccedilatildeo dessa fraccedilatildeo agrave medida que foramfeitos os 100 lanccedilamentos da moeda
Os comandos no R para a elaboraccedilatildeo do graacutefico
gtx=1100 y=cumsum(sample(01100rep=T))gtplot(xy1100 ylim=c(01) xlim=c(0100) pch=16)gtsegments(10510005)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2061
Cap 2-b Variaacuteveis Aleatoacuterias (va)Uma variaacutevel aleatoacuteria (va) eacute uma funccedilatildeo que associa cada elemento de um
espaccedilo amostral a um nuacutemero real As variaacuteveis aleatoacuterias podem ser do
tipo
Discreto se os seus valores pertencem a um conjunto enumeraacutevel de nuacutemerosreais (usualmente valores inteiros)
Contiacutenuo se os seus valores pertencem a um intervalo de nuacutemeros reais
O modelo probabiliacutestico de uma variaacutevel aleatoacuteria X estabelece o padratildeo de
comportamento de sua distribuiccedilatildeo de probabilidadeA fun atildeo de robabilidade de uma v a discreta X eacute definida orp(x)=P[X=x]
A funccedilatildeo de distribuiccedilatildeo acumulada F de uma v a X eacute definida porF(x) = P[Xlelelelex]
Se X eacute uma va discreta que assume os valores x 1
x 2
x 3
x N
entatildeo
bull A meacutedia ou esperanccedila de X eacuteE(X) = x 1 P(X=x 1 ) + x 2 P(X=x 2 ) + x 3 P(X=x 3 ) + + x N P(X=x N )
bull A Variacircncia de X eacute calculada por |Var(X)=(x 1 ndashE(X))2 P(X=x 1 )+(x 2 ndashE(X))2 P(X=x 2 )++(x N ndashE(X))2 P(X=x N )
bull O desvio padratildeo de X eacute igual agrave raiz quadrada natildeo negativa da suavariacircncia DP(X)= Var(X)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2161
Cap 2-b - va e o RO trabalho no R com uma va X estaacute baseado em 4 procedimentos
p probability ndash Gera a probabilidade de um valor de xq quantile ndash Gera o valor x de uma dada probabilidade acumulada pd density ndash Gera o valor da funccedilatildeo densidade num valor x da variaacutevel
Observar que quando a variaacutevel eacute discreta este valor eacute aprobabilidade de x quando a variaacutevel eacute contiacutenua o resultadoeacute a altura da funccedilatildeo densidade de probabilidade
r random ndash Gera n valores do modelo probabiliacutestico em questatildeo
As distribuiccedilotildees que estudaremos estatildeo listadas a seguir depois de cada uma delasentre parecircnteses estaacute o nome no R
(geom) Binomial negativa- Pascal (nbinom)
Entre as contiacutenuas Uniforme (unif ) Exponencial (exp) Normal (norm) t-student (t)quiquadrado (chisq) F (f )
A interligaccedilatildeo dos trecircs primeiros procedimentos pq e d seraacute ilustrada pela distribuiccedilatildeoNormal atraveacutes do graacutefico abaixo
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2261
Cap 2-b - va pnorm e qnormSeja a relaccedilatildeo p = P(Xltx) que aparece na tabela da distribuiccedilatildeo Normal Quiquadrada
t-student e F Para um dado valor de p acha-se um valor de x a procura direta que para aNormal no R corresponderia a pnorm(x 983221 σ) Neste caso devo informar o x e os dois
paracircmetros da distribuiccedilatildeo Normal 983221 e σJaacute a procura inversa seria para um dado valor de x achar um valor de p que para a Normalno R corresponderia a qnorm(p983221σ) Neste outro caso devo informar o valor de p desejado etambeacutem os dois paracircmetros da distribuiccedilatildeo Normal 983221 e σ
Exemplo Seja X a va que corresponde ao peso (em kg) de pessoas de uma certapopulaccedilatildeo com meacutedia 983221=70 Kg e desvio padratildeo σ=8 Kg assim X~ N(983221=70 σ2=82)
Se desejarmosa) P(Xlt80) usaremos no R o comando pnorm(80 70 8) isto eacute x=80 eacute o primeiro paracircmetroenquanto 70 e 8 satildeo paracircmetro especiacuteficos da distribuiccedilatildeo Normal
b) Admita que o peso limite para ser classificado como obeso eacute o valor que corresponde a10 dos mais pesados do populaccedilatildeo Achar este peso limiteO que se pede eacute a funccedilatildeo inversa Dado um valor de p=090 achar um valor de x que deixa90 abaixo dele No R seria qnorm(09 70 8) isto eacute o valor da probabilidade p=09 eacute
o primeiro paracircmetro enquanto 70 e 8 satildeo paracircmetros especiacuteficos da distribuiccedilatildeo NormalSe usarmos a Normal padratildeo z=(x-983221)σ no caso do item a o comando seria pnorm((80-70)8)ou pnorm(125) Repare que neste caso natildeo foi necessaacuterio passar os paracircmetros especiacuteficos daNormal pois 983221=0 e σ =1 coresponde ao default Observaccedilatildeo Sempre que usarmos um p oprimeiro paracircmetro eacute um x e os outros satildeo especiacuteficos da distribuiccedilatildeo em questatildeosempre que usarmos um q o primeiro paracircmetro eacute um p e os outros satildeo especiacuteficosSempre que usarmos um d o primeiro paracircmetro eacute um x
Quando usarmos uma distribuiccedilatildeo discreta o d corresponde aacute probabilidade no ponto x
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2361
Pag 118 ndash Figura 412
x=seq(010001)
plot(xdexp(x 12) type=l xlim=c(012) ylim=c(01) bty=l ylab=f(x) e F(x))
for(i in seq(0 25 001)) segments(i 0 i dexp(i12) col=lightgrey)
abline(v=0 h=0)
points(xdexp(x 12) type=l lwd=2 bty=l)
points(x pexp(x 12) lwd=2 type=l)
segments(250 25pexp(2512))
Cap 2-b - va dexp pexp points segments
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2461
Cap 2-b - va disponiacuteveis no Rrbinom(n size prob) binomialrpois(n lambda) Poissonrgeom(n prob) geometricarhyper(nn m n k) hipergeometricarnbinom(n size prob) binomial negativarunif(n min=0 max=1) uniformerexp(n rate=1) exponentialrnorm(n mean=0 sd=1) Gaussiana (normal)rt(n df) lsquoStudentrsquo (t )rf(n df1 df2) FisherndashSnedecor (F )
rchisq(n df) Quiquadradar amma n sha e scale=1 amma rbeta(n shape1 shape2) betarlnorm(n meanlog=0 sdlog=1) lognormalrcauchy(n location=0 scale=1) Cauchyrweibull(n shape scale=1) Weibullrwilcox(nn m n) Wilcoxonrsquos rank sum statistics
rsignrank(nn n) Wilcoxonrsquos signed rank statisticsrlogis(n location=0 scale=1) logistic
Todas essas distribuiccedilotildees apresentadas por rnome (nome da variaacutevel aleatoacuteria) como vimostrocando a primeira letra e mantendo os paracircmetros especiacuteficos de cada distribuiccedilatildeo(denotados por ) podem ser usadas substituindo a letra ldquor rdquo por
d valor da densidade de probabilidade no ponto x dnome (x )p probabilidade acumulada no ponto x pnome (x )
q quantil correspondente a probabilidade acumulada p dnome (p)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2561
Cap 2-c O Teorema Central do Limite (TCL)O Teorema Central do Limite (abreviadamente TCL) diz respeito ao comportamento da
meacutedia amostral agrave medida que o tamanho n da amostra cresce indefinidamente
Exemplo 31 ndash A distribuiccedilatildeo de renda e o TCLEacute um fato conhecido que a distribuiccedilatildeo da rendapessoal dos habitantes de um paiacutes eacuteusualmente muito desigual ou seja muitosganham pouco e poucos ganham muito Seforem sorteados 200 habitantes desse paiacutes e
com base nas suas rendas mensais
Agora se forem sorteadas 200 amostrascada uma delas contendo 2 habitantesdesse paiacutes e se forem calculadas as 200respectivas meacutedias amostrais a partir delas obteremos o histograma a seguir
Agora cada uma das 200 amostrassorteadas contendo 30 habitantes dessepaiacutes e se forem calculadas as 200 meacutediasamostrais o histograma seria
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2661
Cap 2-c ndash TCL ExemploComo pode ser observado no caso de n = 2 o histograma se aproxima mais de uma curvaNormal do que no caso de n = 1 E no caso de n = 30 a semelhanccedila do histograma com umacurva Normal eacute ainda maior
O Teorema Central do Limite afirma que independentemente de qual seja a
distribuiccedilatildeo original dos Xirsquos a distribuiccedilatildeo de probabilidade de e a
distribuiccedilatildeo Normal com meacutedia micromicromicromicro e variacircncia σσσσ2 n se aproximam cada vez
mais uma da outra agrave medida que n cresce
Portanto mesmo que a distribuiccedilatildeo de probabilidade dos Xirsquos seja desconhecida o Teorema
X n
Central do Limite garante a possibilidade de usarmos o modelo Normal para calcular ainda quede forma aproximada probabilidades relativas agrave meacutedia amostral desde que n sejasuficientemente grande
Exemplo 62 Simulando o efeito do TCL
Para ilustrar o funcionamento do Teorema Central do Limite vamos exibir agora um exemploem que a distribuiccedilatildeo original a partir da qual os dados satildeo gerados eacute uma exponencial modelo
este que daacute origem a uma funccedilatildeo densidade bastante assimeacutetrica (ao contraacuterio do que ocorre
com a curva Normal) A densidade de uma exponencial com paracircmetro eacute dada pela
expressatildeo
No R rexp(n ) simula n valores
λ
0 xλef(x) λx ge= minusλ
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2761
Cap 2-c ndash TCL ExemploA densidade de uma exponencial com paracircmetro eacute dada pela expressatildeo
Gerando dados por simulaccedilatildeo a partir de uma exponencial com λ = 13 para cada um dos
seguintes tamanhos n de amostra 1 2 3 4 5 10 15 e 201 Obtivemos 200 valores da meacutedia amostral 2 Utilizamos esses 200 valores para construir um histograma3 Traccedilamos no mesmo graacutefico uma curva da densidade Normal com E( )=3 e DP( )=3Xn
λ 0 xλef(x) λx ge= minus
Xn n
Os 8 histogramas nos mostram que agrave medida que o tamanho n da amostra cresce
a forma do histograma se aproxima cada vez mais de uma curva Normal
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2861
Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com
simulaccedilotildees - Exponencial
tclexp=function(n N=200 titulo= yl=c(0 4)) iniacutecio da funccedilatildeo ndash tclexpmedias=numeric(N)
for (i in 1N) medias[i]= mean(rexp(n13))
hist(medias xlim=c(-110) ylim=yl freq=F main=titulo)
x=seq(-110 02)
points(x dnorm(x 3 3sqrt(1n) ) type=l lwd=3)
fim da funccedilatildeo
graphicsoff()
par(mfrow=c(33) mai=c(3411))
tclexp(1titulo=n=1)
tclexp(2titulo=n=2)
tclexp(3titulo=n=3)
tclexp(4titulo=n=4)
tclexp(5titulo=n=5)
tclexp(6titulo=n=6)
tclexp(10titulo=n=10yl=c(06))
tclexp(15titulo=n=15yl=c(06))
tclexp(20titulo=n=20yl=c(06))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2961
Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com
simulaccedilotildees - Exponencial
Uma pergunta natural neste ponto serialdquoQuatildeo grande deve ser n para que possamos usar a aproximaccedilatildeo fornecida pelo
TCL com um niacutevel de precisatildeo aceitaacutevelrdquo
A rapidez com que essa convergecircncia se daacute depende de quatildeo distante estaacute a forma
da distribuiccedilatildeo original das Xirsquos de uma curva Normal Em outras palavras se a
distribuiccedilatildeo das Xirsquos jaacute natildeo for muito diferente de uma Normal com um n natildeo muito-
grande (usualmente n ge 30) a aproximaccedilatildeo da distribuiccedilatildeo de por uma Normal
funcionaria adequadamente
No exemplo a seguir vamos apresentar esse fenocircmeno a saber a convergecircncia da
distribuiccedilatildeo de para uma Normal agrave medida que n cresce gerando por simulaccedilatildeo osdados originais a partir de diferentes modelos probabiliacutesticos Em todos os casos a
distribuiccedilatildeo original eacute bem diferente da Normal E(X)=3 e DP(X)=3 No que se refere agrave
Simulaccedilatildeo foi seguida a mesma sequumlecircncia de passos do exemplo anterior
Xn
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3061
Cap 2-c ndash TCL Exemplo
Exponencial
Uniforme
Mistura deNormais
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3161
Como se pode observar
1 No caso da distribuiccedilatildeo uniforme (A) o histograma de jaacute se aproximabastante de uma Normal quando n eacute da ordem de 4
2 Jaacute no caso da distribuiccedilatildeo Exponencial (B) e da mistura de normais
(C) modelos esses que se afastam muito mais de umldquo rdquo
Cap 2-c ndash TCL Exemplo
mostra mais adequada a partir de n em torno de 10
3 No caso do modelo em (C) agrave medida que n cresce tudo se passacomo se houvesse a ldquoerupccedilatildeo de um vulcatildeo dentro do valerdquo
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3261
tclunif=function(nN=100titulo= yl=c(0 4))
medias=numeric(N)for (i in 1N) medias[i]= mean(runif(n 3-3sqrt(3) 3+3sqrt(3)))
hist(medias xlim=c(-610) ylim=yl freq=F main=titulo)
x=seq(-610 02)
points(x dnorm(x 3 3sqrt(1n) ) type=l lwd=3)
medias
Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com
as simulaccedilotildees - Uniforme
grap cso
par(mfrow=c(33) mai=c(3411))
tclunif(1titulo=n=1yl=c(06))
tclunif(2titulo=n=2yl=c(06))
tclunif(3titulo=n=3yl=c(06))
tclunif(4titulo=n=4yl=c(06))tclunif(5titulo=n=5yl=c(06))
tclunif(6titulo=n=6yl=c(06))
tclunif(10titulo=n=10yl=c(06))
tclunif(15titulo=n=15yl=c(06))
tclunif(20titulo=n=20yl=c(06))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3361
X2=c(rnorm(35011) rnorm(15081)) X2 eacute a Populaccedilatildeo de onde retiramos as amostras
br=seq(-2 12 5)
tcl2modas=function(nN=200titulo= yl=c(0 6)) medias=numeric(N)for (i in 1N) medias[i]= mean(sample(X2nrep=T))hist(mediasbreaks=br xlim=c(-212) tcl=-01 ylim=yl xarp=c(-31216)
tck=005 lab=c(5515) freq=F main=titulo)x=seq(-312 02)
Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com
as simulaccedilotildees - Mistura de Normais
points(x dnorm(x med dpsqrt(n) ) type=l lwd=2)
par(mfrow=c(24) mai=c(3011) mar=c(2 2 2 1))
hist(X2 freq=F breaks=seq(-3125) bty=o xlim=c(-212)xarp=c(-31216)tck=005 lab=c(5515) ylim=c(06) main=POPULACcedilAtildeO lwd=2)
tcl2modas(2titulo=n=2)tcl2modas(3titulo=n=3)
tcl2modas(4titulo=n=4)
tcl2modas(5titulo=n=5)
tcl2modas(10titulo=n=10)
tcl2modas(15titulo=n=15)
tcl2modas(25titulo=n=25)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3461
CAP 3-a) Intervalo de ConfianccedilaSeja um estimador pontual do paracircmetro eacute uma variaacutevel aleatoacuteria que varia deamostra para amostra Por isso haacute uma certa dose de incerteza inerente a esse processode estimaccedilatildeo Nosso objetivo agora eacute obter com base nos dados amostrais (da uacutenicaamostra observada) um intervalo ao qual o valor correto do paracircmetro deve ter grandechance de pertencer
bull Detalhando um pouco mais No processo de estimaccedilatildeo por intervalo de um paracircmetro θdevemos determinar um intervalo que contenha o verdadeiro valor do paracircmetro comprobabilidade 1-α onde α eacute um pequeno valor preacute-fixado Este intervalo eacute construiacutedo emgeral em torno do estimador pontual considerando uma margem de erro d de forma aque uma vez fixada a probabilidade 1-α calculemos d tal que P( - d le θ le + d ) = 1 -αChama-se intervalo de confianccedila para θ ao niacutevel 1 - α ao intervalo [ - d + d]
θ $θ
$θ$θ
$θ $θ
$
θ
bull Ou seja o estimador pontual eacute o centro do Intervalo de Confianccedila e o erro absoluto dassociado a define a amplitude desse intervalo O que eacute de fato variaacutevel aleatoacuteria satildeoos extremos do intervalo O paracircmetro tem valor desconhecido natildeo aleatoacuterio (fixo a ser estimado)
Exemplo Intervalo de Confianccedila para a meacutedia populacional com o desvio padratildeo conhecidoO paracircmetro a estimar eacute a meacutedia populacional micro A estimaccedilatildeo seraacute baseada em X1 X2 Xn
uma amostra aleatoacuteria com E(Xi) = micro e var(Xi) = σ2 para todo i = 12 n Queremos que seja
vaacutelida a expressatildeo o que equivale a P [ -d le -micro le d] = 1-α
$θ
X[ ] α1dmicroXP minus=leminus
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3561
bull Lembrando que para n suficientemente grande pelo Teorema Central do Limite a meacutediaamostral segue uma distribuiccedilatildeo que se aproxima da Normal(micromicromicromicro σσσσ2 n) (ou eacute exatamente aNormal(micromicromicromicro σσσσ2 n) no caso em que a distribuiccedilatildeo comum das va Xirsquos jaacute eacute Normal) entatildeo
P [-d le -micromicromicromicro le d] = 1-α rArr 1-α = P [ |Z| le ] Logo d =
bull Faremos uma simulaccedilatildeo para a construccedilatildeo de Intervalos de Confianccedila com 100 amostras dedois tipos de populaccedilatildeo Normal e Exponencial A lista de comandos do R que usamos eacute
ICN = function (N n mu sigma = 3 conf)
plot(0 0 type=n xlim=c(010) ylim=c(0N) bty=l
xlab=Normal ylab=amostras)abline(v=mu)
CAP 3-a) Intervalo de Confianccedila
X
nσ
d
minus
z0 = qnorm(1-((1-conf)2))
sigmaxbarra = sigmasqrt(n)
for (i in 1N)
x = rnorm(n mu sigma)
media = mean(x)
li = media - z0 sigmaxbarrals = media + z0 sigmaxbarra
plotx = c(lils)
ploty = c(ii)
if (li gt mu | ls lt mu) lines(plotxploty col=red)
else lines(plotxploty)
gt ICN(100 25 3 3 95)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3661
CAP 3-a) Intervalo de Confianccedila
ICexp = function (N n lambda conf)
mu=1lambda sigma=1lambda
plot(0 0 type=n xlim=c(010) ylim=c(0N) bty=lxlab=Exponencial ylab=amostras)
abline(v= mu)
z0 = qnorm(1-((1-conf)2))
sigmaxbarra = sigmasqrt(n)
for (i in 1N)
x = rexp(nlambda) me a = mean x
li = media - z0 sigmaxbarra
ls = media + z0 sigmaxbarra
plotx = c(lils)
ploty = c(ii)
if (li gt mu | ls lt mu) lines(plotx ploty col=red)
else lines(plotx ploty)
gt ICexp(100 25 13 95)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3761
CAP 3-b Teste de Hipoacuteteses (TH)O objetivo de um teste de hipoacutetese eacute avaliar a validade de uma afirmaccedilatildeo sobre determinada
caracteriacutestica da populaccedilatildeo usando para isso os dados de uma amostra Essa caracteriacutestica eacute
representada pela va contiacutenua X cujo comportamento probabiliacutestico eacute expresso pela funccedilatildeo dedensidade f com paracircmetro Ө que tem valor desconhecido
Em um teste existem duas hipoacuteteses envolvidas H0 denominada hipoacutetese nula e H1
denominada hipoacutetese alternativa O procedimento de teste de hipoacutetese consiste em estabelecer
um criteacuterio de decisatildeo que leve a Aceitar ou Rejeitar H0 com base nos valores amostrais
A Estatiacutestica de teste eacute uma funccedilatildeo da amostra aleatoacuteria utilizada para definir o criteacuterio de
decisatildeo Estabelecer o criteacuterio de decisatildeo consiste em dividir o conjunto dos valores possiacuteveis
da estatiacutestica de teste em duas partes denominadas Regiatildeo de Aceitaccedilatildeo A e Regiatildeo de
Rejeiccedilatildeo R da hipoacutetese nula
Em um teste de hipoacutetese haacute dois tipos possiacuteveis de erro de decisatildeo
Erro I - Rejeitar H0 quando H0 eacute verdadeira
Erro II - Aceitar H0 quando H0 eacute falsaAs probabilidades de ocorrecircncia dos erros satildeo α = P [ Erro I ] e β = P [ Erro II]
A probabilidade de erro I α eacute o niacutevel de significacircncia do teste cujo valor eacute arbitrado pelo
pesquisador deve ser pequena pois corresponde a probabilidade de um erro (005 ou 001)
O niacutevel criacutetico ou p-valor do teste eacute o menor valor de α para o qual ainda rejeitariacuteamos H0 de
acordo com os dados observados
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3861
CAP 3-b) ndash TH teste tttest(x y = NULL alternative = c(twosided less greater) mu = 0
paired = FALSE varequal = FALSE conflevel = 095 )
Procedimentos de teste de hipoacuteteses com niacutevel de significacircncia α e amostras de tamanho n
UmaAmostra
DuasAmostras
Obs Os testes acima satildeo bilaterais
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3961
CAP 3ndashb) TH exemplo de teste t ndash amostras independentespag233- teste t amostras independente - comparaccedilatildeo log(salaacuterio)
entre os grupos de comeacutercio e de serviccedilo
LogSal=c(1289156912501344145616361573171309060903
0977122011031069128714101496131113371366
1227119114591280115217401649176524101701
1538192419251721154918911534163812071682
120614232010143112651570)
Sal=exp(LogSal)
setor= c(rep(C23) rep(S23))
ttest(Sal[setor==C] Sal[setor==S] varequal=T)
Two Sample t-test
data Sal[setor == C] and Sal[setor == S]
t = -36822 df = 44 p-value = 00006289
alternative hypothesis true difference in means is not equal to 095 percent confidence interval
-23079005 -06751838
sample estimates
mean of x mean of y3786010 5277552
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4061
CAP 3ndashb) TH exemplo de teste t ndash amostra pareadapag237- teste t pareado
P1=c(6315596455545480598065203660986853
8765647785536980827184605572645564)
P2=c(3638306043466455604343523428837155
8238556767443459605968506254473652)
ttest(P1 P2 alt=greater paired = T)
Paired t-test
data P1 and P2
t = 44176 df = 33 p-value = 5072e-05
alternative hypothesis true difference in means is greater than 0
95 percent confidence interval
0716695 Inf
sample estimates
mean of the differences
1161765
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4161
CAP 3ndashb) TH exemplo de teste Quiquadrado chisqtest
pag233- teste Quiquadrado -
tcont=matrix(c(683585251530258 7461761220225) 72)
chisqtest(tcont)
Pearsons Chi-squared test
data tcont- = = - lt -
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4261
CAP 3ndashb) TH exemplo de teste Quiquadrado chisqtestaov(formula data = NULL )
pag244- ANOVA - Comparaccedilatildeo de trecircs raccedilotildees para suinos
A=c(444943514475425134305342453630
322133421040395246294247453959)
B=c(343640545953445432686954414647
6566455739)
C=c(574040364566395025212927283942
21304143294244582849)
aumentoP=c(ABC)
racao=c(rep(A30)rep(B20) rep(C25))
summaryaov(aov(aumentoP ~ racao))
Df Sum Sq Mean Sq F value Pr(gtF)racao 2 15385 7693 56136 0005425
Residuals 72 98666 1370
---
Signif codes 0 lsquorsquo 0001 lsquorsquo 001 lsquorsquo 005 lsquorsquo 01 lsquo rsquo 1
Warning message
In modelmatrixdefault(mt mf contrasts)
variable racao converted to a factor
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4361
ApecircndicesA-1) Apresentaremos aqui algumas figuras
feitas no R na elaboraccedilatildeo do livro
Achamos que o exame desses coacutedigos acompanhado dos resultados podeser um bom aprendizado um exerciacutecio ou talvez uma recordaccedilatildeo do materialaqui exposto
A-2) Resumo de comandosa) Criaccedilatildeo de dados
b) Informaccedilatildeo de uma Variaacutevel
c) Seleccedilatildeo de dados e manipulaccedilatildeo
d) Estatiacutesticas e operaccedilotildees matemaacuteticas
e) Corte e extraccedilatildeo de dados
f) Operaccedilatildeo com Matrizes
g) Graacuteficos (Plotting)
h) Teste de hipoacuteteses
i) Programming
j) Commandos auxiliaries em Graacuteficos
k) Comando par (Graphical parameters)
l) Input and output
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4461
A1) ndash Pag 14 ndash Figura 15
IDADE=c(616961716371726866697267636663636067716360696463667164706366646969646372736871726968687379)
IMC= c(245273281301254301280234268228255228235232203226239243271227237258213243243248219234216214221227227211268278275267286253239258247284235)
par(mfrow=c(12))hist(IDADE breaks=c(6065707580) ylim=c(020) ylab=Nuacutemero de Observaccedilotildees
main= col=grey right = F)hist(IMC breaks=c(200225250275300325)
ylab=Nuacutemero de Observaccedilotildeesmain= col=grey right = F )
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4561
A1) ndash Pag 44 ndash Figura 21
mat=matrix(c(81823913601818608740)32)
rownames(mat)=c(AtivaSedentaacuteriaTotal)colnames(mat)=c(NormalSobrepeso)barplot(t(mat) beside = TRUE space=c(315)
col=gray(c(79))legend = c(NormalSobrepeso) ylim = c(0 95) ylab= - percentagem)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4661
A1) ndash Pag 48 ndash Figura 22
mat= matrix(c(68154510 66214215 66242519 39161711)44byrow=T)
rownames(mat)=c(18 a 21 anos 22 a 25 anos 26 a 30 anos 31 a 40 anos)colnames(mat)=c(CinTeatSMDEx)mat1=mat for (i in 14) mat1[i]lt-mat1[i]100sum(mat1[i]) par(mfrow=c(12) mai=c(1111) mar=c(5 4 2 2) )barplot(matbeside=F ylim=c(0250) legend = c(18 a 21 anos 22 a 25 anos
26 a 30 anos 31 a 40 anos) xlab=Contagem)
barplot(mat1 beside=F xlab=Percentagem)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4761
A1) ndash Pag 52 ndash Figura 25X= c(184114821789235159118762592403190408372147328526471687
09642871437079238215753399242122530314859149806)y =c(01837012540193301620014230140604568022870231400861019960235302186012798991801254018210244160823
0147764068011818941403474539680150133247023685518102146187520214097090257291227
036282905401406510810113849399)plot(x y xlim=c(07) ylim=c(05) pch=16 bty=l xlab=Renda per capita
ylab=Telefonia Fixa per capita)
abline(lsfit(xy))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4861
A1) ndash Pag 109 ndash Figura 45
x=020
y1=dpois(x1) y2=dpois(x3) y3=dpois(x10)names(y1)=x names(y2)=x names(y3)=xpar(mfrow=c(13))plot(y1ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=1)plot(y2ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=3)plot(y3ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=10)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4961
A1) ndash Pag 118 ndash Figura 412
x=seq(010001)
plot(xdexp(x 12) type=l xlim=c(012) ylim=c(01) bty=l ylab=f(x) eF(x))for(i in seq(0 25 001)) segments(i 0 i dexp(i12) col=lightgrey)abline(v=0 h=0)points(xdexp(x 12) type=l lwd=2 bty=l)points(xpexp(x 12) lwd=2 type=l)segments(250 25pexp(2512))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5061
A1) ndash Pag 163 ndash Figura 68
plot(p xlim=c(618) ylim=c(016) type=n bty=l xaxt=n xlab= ylab=
cexaxis=6)for (i in 1015) rect(i-50 i+5 dbinom(i304) col=lightgrey) lty=2)segments(i0idbinom(i304) lty=2)
x=seq(61801) lines(x dnorm(x12sqrt(72)) lwd=2)x=seq(61801) lines(x dnorm(x12sqrt(72)) lwd=2)
axis(1 916 cexaxis=9) ax s seq cexax s=
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5161
A1) ndash Pag 198 ndash Figura 78
x1=seq(-4402)plot(x1dnorm(x1) type=l lwd=3 xlab= ylab= )lines(x1 dt(x11)) lines(x1 dt(x12)) lines(x1 dt(x15))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5261
A2ndashResumo de comandos
a)Criaccedilatildeo de dados
c()funccedilatildeo geneacuterica para combinar argumentos com o formando de um vetor fromto gera uma sequecircnce ldquordquo tem prioridade de operator pe13 + 1 is ldquo234rdquo
seq(fromtoby) gera uma sequecircncia by= especifica incremento
length= especifica um comprimento desejado
rep(xtimes) replicate x onuacutemero times de vezes use each= para repetir cada
elemento de x rep(c(123)2) gera 1 2 3 1 2 3 rep(c(12)each=2) gera 1 1 2 2
matrix(xnrow=ncol=) matrix elementos de x se reciclam caso x
rbind()combina vetores em linhas num estrutura de matrizes de dados
cbind()combina vetores em colunas num estrutura de matrizes de dados
array(xdim=) matriz com dados x especificar dimensotildees como dim=c(342)
elementos de x se reciclam caso x natildeo seja suficientemente grande
factor(xlevels=) codifica um vetor x como um fator gl(nklength=nklabels=1n) gerar niacuteveis (fatores) especificando
o padratildeo de seus niacuteveis k eacute o nuacutemero de niacuteveis e n eacute o nuacutemero de repeticcedilotildees
dataframe() criar um banco de dados Por exemplo
dataframe(v=14ch=c(gBcasad)n=5)
list()criar uma lista de argumentos Por exemplo list(a=c(12)b=hic=3i)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5361
A2ndashResumo de comandos
b) Informaccedilatildeo de uma Variaacutevellength(x) nuacutemero de elementos em x
dim(x) Obter ou definir a dimensatildeo de um objeto dim (x) = c(32)dimnames(x) Obter ou definir os nomes das dimensotildees de um objeto
nrow(x) nuacutemero de linhas
ncol(x) nuacutemero de colunas
c) Seleccedilatildeo de dados e manipulaccedilatildeochoose(n k) calcula a combinaccedilatildeo de elementos escolhidos entre n
resultando n [(n-k) k]
cut(xbreaks) divide x em intervalos (fatores) breaks eacute o nuacutemero de intervalos de
corte ou um vetor com os valores especiacuteficos
table(x) retorna uma tabela com as quantidades dos diferentes valores de x
(tipicamente para variaacuteveis dos tipos inteiros ou fatores)
sample(x size) retira aleatoriamente com e sem reposiccedilatildeo elementos detamanho SIZE do vetor x a opccedilatildeo replace = TRUE permite a retirada com reposiccedilatildeo
proptable(xmargin=) transforma a tabela como tabela de propoccedilatildeo
marginal margin=1 (com relaccedilatildeo as linhas) margin=2 (com relaccedilatildeo as colunas)
sort(x) Classifica os elementos de x em ordem crescente para classificar em ordem
decrescente rev(sort(x))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5461
A2ndashResumo de comandosd) Estatiacutesticas e operaccedilotildees matemaacuteticasmean(x) media dos elementos de x
median(x) mediana dos elementos de x
quantile(xprobs=) quantis de x correspondendo a uma dada probabilidadevar(x) ou cov(x) variacircncia dos elementos de x (calculado com n-1)
se x eacute uma matriz a matriz de covariacircncia eacute calculada
sd(x) desvio padracirco de of x
cor(x) matriz de correlaccedilatildeo de x se x for uma matriz ou (1 se x eacute um vector)
cor(x y) correlaccedilatildeo linear entre X e Y ou matriz de correlaccedilatildeo se eles satildeo matrizes
round(x n) arredonda os elementos de x para n casas decimais sum x soma os e emen os e x
prod(x) multilica os elementos de x
max(x) acha o maacuteximo dos elementos de x
min(x) acha o miacutenimo dos elementos de x
range(x) equivalente a c(min(x)max(x)
cumsum(x) um vetor onde o eacutesimo elemento eacute a soma de x[1] ateacute x[i]cumprod(x) um vetor onde o eacutesimo elemento eacute o produto de x[1] ateacute x[i]
cummin(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
cummax(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
sincostanasinacosatanatan2loglog10exp)
log(x base) calcula o logaritmo de x na base=base
weightedmean(x w) media ponderada de x com peso= w
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5561
A2ndashResumo de comandos
e) Corte e extraccedilatildeo de dadosindexaccedilatildeo de Vetores
x[n] n-eacutesimo elemento do vetor
x[-n] todos menos o n-eacutesimo elemento
x[1n] os primeiros n elemento
x[-(1n)] elementos de n+1 ateacute o final
x[c(432)] elementos especificados
x[y gt 5] todo elementos de onde os valores de y satildeo maiores que 5
x x gt 3 amp x lt 5 todo elementos entre 3 e 5
x[nome] elemento denominado nome
indexaccedilatildeo de Matrizes
x[ij] elemento na linha i coluna j
x[i] linha i
x[j] coluna j
x[c(13)] colunas 1 and 3
x[nome] linha nomeada nome
indexaccedilatildeo de data frames
x[[nome]] coluna chamada nome
x$nome equivalente a coluna chamada nome
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5661
A2ndashResumo de comandos
f) Operaccedilatildeo com Matrizest(x) transposta da matrix x
diag(x) retira a diagonal da matrix x
multiplicaccedilatildeo matricial
solve(ab) resove a equaccedilatildeo a x = b em relaccedilatildeo a x
solve(a) matriz inversa de a
rowSum(x) soma das linhas da matrix x
colSum(x) soma das colunas da matrix x
rowMeans x meacutedia das linhas da matrix x
colMeans(x) id meacutedia das colunas da matrix x
g) Graacuteficos (Plotting)plot(x y) diagrama de disperccedilatildeo plot dos pares (xy) num sistema de eixos
coordenadoshist(x) histogram dasfrequecircncias of x
barplot(x) graacutefico de barras of x usar horiz=T ara barras horizontal
pie(x) graacutefico de setores (pie-chart)
boxplot(x)
qqnorm(x) quantis de x em relaccedilatildeo aos valores esperados de uma dist Normal
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5761
A2ndashResumo de comandosparametros dos commando de Graacutefico
type=p especifica o tipo de plot p pontos l linhas b pontos
ligados por linhas o idecircntico mas as linhas passam sobre os pontos h
linhas verticais s escada (steps) os dados satildeo representados pelas alturasverticais
xlim= ylim= especifica os limites inferiores e superiores dos eixos por exemplocom xlim=c(1 10) ou xlim=range(x)
xlab= ylab= nomeia os eixos o nome deve ser do tipo caracter
main= tiacutetulo principal deve ser do tipo caracter
sub= sub-tiacutetulo (escrito em fonte menor)
podem ser usados como bty(tipo de caixa) lwd (lagura da linha) lty (tipo delinha) pch(tipo de ponto) cex xaxs yaxs xaxtyaxt
h) Teste de hipoacuteteses
ttest()proptest()
chisqtest()
aov(formula) analysis of variance model
anova(fit) analysis of variance (or deviance) tables for one or more
fitted model objects
Use o commando gt test para procurar todos os testes disponiacuteveis
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5861
A2ndashResumo de comandos
i) Programmingfunction( arglist ) expr para definer uma funccedilatildeo
return(value)
if(cond) expr
if(cond) consexpr else altexpr
for(var in seq) expr
while(cond) expr
re eat ex r
break
Usar chaves entre commandos dlimitando o iniacutecio e o fim de um grupo decomandos
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5961
A2ndashResumo de comandos
j) Commandos auxiliaries em Graacuteficospoints(x y) adiciona pontos (a opccedilatildeo type= pode ser usada)
lines(x y) adiciona linhas (a opccedilatildeo type= pode ser usada)text(x y labels ) adiciona texto na coordenada (xy) um uso tiacutepico eacute
plot(x y type=n) text(x ynames)
segments(x0 y0 x1 y1) desenha linhas do ponto (x0 y0) ao (x1 y1)
arrows(x0 y0 x1 y1 angle= 30 code=2) desenha seta do ponto
(x0 y0) ao (x1 y1)
abline(ab) desenha uma reta de inclinaccedilatildeo b e intercepto a
abline(v=x) desenha uma reta vertical em x
abline(lsfit(xy)) desenha uma reta da regressatildeo feita em lsfit(xy)
rect(x1 y1 x2 y2) desenha um retacircngulo que a esquerda inferior tem coordenadas(x1 y1) e o limite da direita superiores (x2 y2)
polygon(x y) desenha um poliacutegono que une os pontos com coordenadas X e Y
legend(x y legend) Acrescenta a lenda no ponto (x y) com os siacutembolos
dada pela legend
title()adiciona um tiacutetulo e opcionalmente um sub-tiacutetulo
axis(side) acrescenta um eixo na parte inferior (side = 1) agrave esquerda (2) na partesuperior (3) ou agrave direita (4)
box()desenhar uma caixa em torno do plot
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6061
A2ndashResumo de comandos
k) Comando par (Graphical parameters)Todos estes comando podem ser definidos a niacutevel global com o par () que
especifica os paracircmetros mas tambeacutem muitos podem ser usados comoparametros dos commando de Graacutefico
mfcol vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em colunas
mfrow vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em linhas(matrix for row)
bty controla o tipo de caixa desenhada ao redor do enredo valores permitidos satildeo
o l 7 c u ou se bt =n a caixa natildeo eacute desenhada
lty controla o tipo de linhas pode ser um inteiro ou string (1 solid 2 dashed 3dotted 4 dotdash 5 longdash 6twodash) ou uma string de ateacuteoito caracteres (entre 0 e 9) que especifica o comprimento em pontos oupixels dos elementos desenhados e os espaccedilos em branco por exemplolty=rdquo44rdquo equivale a lty=2
lwd nuacutemero que controla a largura das linhas default 1pch controla o tipo de siacutembolo pode tambeacutem ser um nuacutemero inteiro entre 1 e 25
ps um inteiro que controla o tamanho em pontos de textos e siacutembolos
pty um caracter que especifica o tipo da regiatildeo s quadrado m maacuteximal
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6161
A2ndashResumo de comandos
l) Input and outputreadtable(file) lecirc um arquivo em formato de tabela e cria um quadro de dados a
partir dele o separador default = eacute espaccedilo em branco header = TRUE ler a
primeira linha como um cabeccedilalho de nomes de coluna asis = TRUE paraevitar aque um vetore de caracteres seja convertido em factores usocommentchar = para evitar seja interpretado como um comentaacuteriouso skip = n para pular n linhas antes da leitura de dados consulte a ajudapara as opccedilotildees de linha de nomeaccedilatildeo o tratamento NA e outros
readcsv(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por viacutergulas
readdelim(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por tabulaccedilotildees
readfwf(filewidthsheader=FALSEsep= asis=FALSE)
ler uma tabela de dados em formato fix de largura m para um dataframe widthseacute um vetor inteiro informando os tamanhos dos campos
sink(file) saiacuteda de todos os comandos para um arquivo ateacute aparecer um comando
sink () que desliga writetable(x file=rownames=Tcolnames=Tsep= ) imprime x apoacutes a
conversatildeo para banco de dados
save(file) guarda os objetos especificados () no formato XDR
load()carregar o conjunto de dados salvos com o comando save
data(x) carrega um conjunto de dados especificado
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1861
Cap1-AED Relaccedilatildeo entre duas variaacuteveis Quantitativa
bull Quando se verifica atraveacutes do coeficiente de correlaccedilatildeo (ou pelo aspecto visual doDiagrama de Dispersatildeo) que existe uma forte relaccedilatildeo linear entre 2 variaacuteveis X e Y
pode ser de interesse calcular a equaccedilatildeo da reta que representa esta relaccedilatildeo entre as2 variaacuteveis y = a + bx A equaccedilatildeo y = a + bx considera que y eacute a variaacutevel dependente(ou variaacutevel resposta) e que x eacute a variaacutevel independente (ou variaacutevel preditora) a serusada para explicar o comportamento da variaacutevel y A equaccedilatildeo da reta pode ser usadapara se antever qual seria o valor y0 da variaacutevel resposta y correspondente a umdeterminado valor x0 da variaacutevel preditora x
bull As foacutermulas que nos permitem calcular os valores de a e b a partir dos dados satildeo
yxn
n
i
n
i sumsum
O coeficiente b mede a inclinaccedilatildeo da reta de Regressatildeo Entatildeo ao passarmos de um pontoa outro sobre a reta b mede a relaccedilatildeo entre as variaccedilotildees de y e de x O coeficiente a medeo valor de y quando x eacute igual a zero ou seja eacute o intercepto da reta de Regressatildeo
O comando para calcular os coeficientes a e b seria gt lsprint(lsfit(xy))gtx=c(12345) y=c(11224)gtreg=lsfit(xy)gtlsprint(reg)
n
x
x
nyx
b2
n
1i
in
1i
2
i
1i
ii
minus
minus
=
sumsum =
=
=
==
x bya sdotminus=e
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1961
Cap 2-a Simulaccedilatildeo do conceito frequumlentistaConceito Frequumlentista de Probabilidade Suponha que o experimentofoi repetido n vezes sempre sob as mesmas condiccedilotildees e que o evento Aocorreu m vezes entre essas n realizaccedilotildees do experimento Entatildeoa fraccedilatildeo mn eacute uma boa aproximaccedilatildeo para a probabilidade de Ase o nuacutemero n de repeticcedilotildees for bastante grande
Simbolicamente P (A) congcongcongcong mn
Exemplo Simulando 100 lanccedilamentos de uma moedaNo R foram simulados 100 lanccedilamentos de uma moeda equilibrada isto eacute
onde as chances de cara e de coroa satildeo iguais Depois de cadalanccedilamento foi observado o nuacutemero acumulado de caras obtidas ateacute essemomen o e o ca cu a a a proporccedil o e caras correspon en e a a e a aseguir estatildeo apresentados os valores correspondentes ao nuacutemeroacumulado de caras ao longo do processo Por exemplo para a jogada denuacutemero 29 o nuacutemero acumulado de caras eacute 13 e a fraccedilatildeo de caras eacute 1329O graacutefico abaixo mostra a evoluccedilatildeo dessa fraccedilatildeo agrave medida que foramfeitos os 100 lanccedilamentos da moeda
Os comandos no R para a elaboraccedilatildeo do graacutefico
gtx=1100 y=cumsum(sample(01100rep=T))gtplot(xy1100 ylim=c(01) xlim=c(0100) pch=16)gtsegments(10510005)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2061
Cap 2-b Variaacuteveis Aleatoacuterias (va)Uma variaacutevel aleatoacuteria (va) eacute uma funccedilatildeo que associa cada elemento de um
espaccedilo amostral a um nuacutemero real As variaacuteveis aleatoacuterias podem ser do
tipo
Discreto se os seus valores pertencem a um conjunto enumeraacutevel de nuacutemerosreais (usualmente valores inteiros)
Contiacutenuo se os seus valores pertencem a um intervalo de nuacutemeros reais
O modelo probabiliacutestico de uma variaacutevel aleatoacuteria X estabelece o padratildeo de
comportamento de sua distribuiccedilatildeo de probabilidadeA fun atildeo de robabilidade de uma v a discreta X eacute definida orp(x)=P[X=x]
A funccedilatildeo de distribuiccedilatildeo acumulada F de uma v a X eacute definida porF(x) = P[Xlelelelex]
Se X eacute uma va discreta que assume os valores x 1
x 2
x 3
x N
entatildeo
bull A meacutedia ou esperanccedila de X eacuteE(X) = x 1 P(X=x 1 ) + x 2 P(X=x 2 ) + x 3 P(X=x 3 ) + + x N P(X=x N )
bull A Variacircncia de X eacute calculada por |Var(X)=(x 1 ndashE(X))2 P(X=x 1 )+(x 2 ndashE(X))2 P(X=x 2 )++(x N ndashE(X))2 P(X=x N )
bull O desvio padratildeo de X eacute igual agrave raiz quadrada natildeo negativa da suavariacircncia DP(X)= Var(X)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2161
Cap 2-b - va e o RO trabalho no R com uma va X estaacute baseado em 4 procedimentos
p probability ndash Gera a probabilidade de um valor de xq quantile ndash Gera o valor x de uma dada probabilidade acumulada pd density ndash Gera o valor da funccedilatildeo densidade num valor x da variaacutevel
Observar que quando a variaacutevel eacute discreta este valor eacute aprobabilidade de x quando a variaacutevel eacute contiacutenua o resultadoeacute a altura da funccedilatildeo densidade de probabilidade
r random ndash Gera n valores do modelo probabiliacutestico em questatildeo
As distribuiccedilotildees que estudaremos estatildeo listadas a seguir depois de cada uma delasentre parecircnteses estaacute o nome no R
(geom) Binomial negativa- Pascal (nbinom)
Entre as contiacutenuas Uniforme (unif ) Exponencial (exp) Normal (norm) t-student (t)quiquadrado (chisq) F (f )
A interligaccedilatildeo dos trecircs primeiros procedimentos pq e d seraacute ilustrada pela distribuiccedilatildeoNormal atraveacutes do graacutefico abaixo
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2261
Cap 2-b - va pnorm e qnormSeja a relaccedilatildeo p = P(Xltx) que aparece na tabela da distribuiccedilatildeo Normal Quiquadrada
t-student e F Para um dado valor de p acha-se um valor de x a procura direta que para aNormal no R corresponderia a pnorm(x 983221 σ) Neste caso devo informar o x e os dois
paracircmetros da distribuiccedilatildeo Normal 983221 e σJaacute a procura inversa seria para um dado valor de x achar um valor de p que para a Normalno R corresponderia a qnorm(p983221σ) Neste outro caso devo informar o valor de p desejado etambeacutem os dois paracircmetros da distribuiccedilatildeo Normal 983221 e σ
Exemplo Seja X a va que corresponde ao peso (em kg) de pessoas de uma certapopulaccedilatildeo com meacutedia 983221=70 Kg e desvio padratildeo σ=8 Kg assim X~ N(983221=70 σ2=82)
Se desejarmosa) P(Xlt80) usaremos no R o comando pnorm(80 70 8) isto eacute x=80 eacute o primeiro paracircmetroenquanto 70 e 8 satildeo paracircmetro especiacuteficos da distribuiccedilatildeo Normal
b) Admita que o peso limite para ser classificado como obeso eacute o valor que corresponde a10 dos mais pesados do populaccedilatildeo Achar este peso limiteO que se pede eacute a funccedilatildeo inversa Dado um valor de p=090 achar um valor de x que deixa90 abaixo dele No R seria qnorm(09 70 8) isto eacute o valor da probabilidade p=09 eacute
o primeiro paracircmetro enquanto 70 e 8 satildeo paracircmetros especiacuteficos da distribuiccedilatildeo NormalSe usarmos a Normal padratildeo z=(x-983221)σ no caso do item a o comando seria pnorm((80-70)8)ou pnorm(125) Repare que neste caso natildeo foi necessaacuterio passar os paracircmetros especiacuteficos daNormal pois 983221=0 e σ =1 coresponde ao default Observaccedilatildeo Sempre que usarmos um p oprimeiro paracircmetro eacute um x e os outros satildeo especiacuteficos da distribuiccedilatildeo em questatildeosempre que usarmos um q o primeiro paracircmetro eacute um p e os outros satildeo especiacuteficosSempre que usarmos um d o primeiro paracircmetro eacute um x
Quando usarmos uma distribuiccedilatildeo discreta o d corresponde aacute probabilidade no ponto x
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2361
Pag 118 ndash Figura 412
x=seq(010001)
plot(xdexp(x 12) type=l xlim=c(012) ylim=c(01) bty=l ylab=f(x) e F(x))
for(i in seq(0 25 001)) segments(i 0 i dexp(i12) col=lightgrey)
abline(v=0 h=0)
points(xdexp(x 12) type=l lwd=2 bty=l)
points(x pexp(x 12) lwd=2 type=l)
segments(250 25pexp(2512))
Cap 2-b - va dexp pexp points segments
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2461
Cap 2-b - va disponiacuteveis no Rrbinom(n size prob) binomialrpois(n lambda) Poissonrgeom(n prob) geometricarhyper(nn m n k) hipergeometricarnbinom(n size prob) binomial negativarunif(n min=0 max=1) uniformerexp(n rate=1) exponentialrnorm(n mean=0 sd=1) Gaussiana (normal)rt(n df) lsquoStudentrsquo (t )rf(n df1 df2) FisherndashSnedecor (F )
rchisq(n df) Quiquadradar amma n sha e scale=1 amma rbeta(n shape1 shape2) betarlnorm(n meanlog=0 sdlog=1) lognormalrcauchy(n location=0 scale=1) Cauchyrweibull(n shape scale=1) Weibullrwilcox(nn m n) Wilcoxonrsquos rank sum statistics
rsignrank(nn n) Wilcoxonrsquos signed rank statisticsrlogis(n location=0 scale=1) logistic
Todas essas distribuiccedilotildees apresentadas por rnome (nome da variaacutevel aleatoacuteria) como vimostrocando a primeira letra e mantendo os paracircmetros especiacuteficos de cada distribuiccedilatildeo(denotados por ) podem ser usadas substituindo a letra ldquor rdquo por
d valor da densidade de probabilidade no ponto x dnome (x )p probabilidade acumulada no ponto x pnome (x )
q quantil correspondente a probabilidade acumulada p dnome (p)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2561
Cap 2-c O Teorema Central do Limite (TCL)O Teorema Central do Limite (abreviadamente TCL) diz respeito ao comportamento da
meacutedia amostral agrave medida que o tamanho n da amostra cresce indefinidamente
Exemplo 31 ndash A distribuiccedilatildeo de renda e o TCLEacute um fato conhecido que a distribuiccedilatildeo da rendapessoal dos habitantes de um paiacutes eacuteusualmente muito desigual ou seja muitosganham pouco e poucos ganham muito Seforem sorteados 200 habitantes desse paiacutes e
com base nas suas rendas mensais
Agora se forem sorteadas 200 amostrascada uma delas contendo 2 habitantesdesse paiacutes e se forem calculadas as 200respectivas meacutedias amostrais a partir delas obteremos o histograma a seguir
Agora cada uma das 200 amostrassorteadas contendo 30 habitantes dessepaiacutes e se forem calculadas as 200 meacutediasamostrais o histograma seria
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2661
Cap 2-c ndash TCL ExemploComo pode ser observado no caso de n = 2 o histograma se aproxima mais de uma curvaNormal do que no caso de n = 1 E no caso de n = 30 a semelhanccedila do histograma com umacurva Normal eacute ainda maior
O Teorema Central do Limite afirma que independentemente de qual seja a
distribuiccedilatildeo original dos Xirsquos a distribuiccedilatildeo de probabilidade de e a
distribuiccedilatildeo Normal com meacutedia micromicromicromicro e variacircncia σσσσ2 n se aproximam cada vez
mais uma da outra agrave medida que n cresce
Portanto mesmo que a distribuiccedilatildeo de probabilidade dos Xirsquos seja desconhecida o Teorema
X n
Central do Limite garante a possibilidade de usarmos o modelo Normal para calcular ainda quede forma aproximada probabilidades relativas agrave meacutedia amostral desde que n sejasuficientemente grande
Exemplo 62 Simulando o efeito do TCL
Para ilustrar o funcionamento do Teorema Central do Limite vamos exibir agora um exemploem que a distribuiccedilatildeo original a partir da qual os dados satildeo gerados eacute uma exponencial modelo
este que daacute origem a uma funccedilatildeo densidade bastante assimeacutetrica (ao contraacuterio do que ocorre
com a curva Normal) A densidade de uma exponencial com paracircmetro eacute dada pela
expressatildeo
No R rexp(n ) simula n valores
λ
0 xλef(x) λx ge= minusλ
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2761
Cap 2-c ndash TCL ExemploA densidade de uma exponencial com paracircmetro eacute dada pela expressatildeo
Gerando dados por simulaccedilatildeo a partir de uma exponencial com λ = 13 para cada um dos
seguintes tamanhos n de amostra 1 2 3 4 5 10 15 e 201 Obtivemos 200 valores da meacutedia amostral 2 Utilizamos esses 200 valores para construir um histograma3 Traccedilamos no mesmo graacutefico uma curva da densidade Normal com E( )=3 e DP( )=3Xn
λ 0 xλef(x) λx ge= minus
Xn n
Os 8 histogramas nos mostram que agrave medida que o tamanho n da amostra cresce
a forma do histograma se aproxima cada vez mais de uma curva Normal
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2861
Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com
simulaccedilotildees - Exponencial
tclexp=function(n N=200 titulo= yl=c(0 4)) iniacutecio da funccedilatildeo ndash tclexpmedias=numeric(N)
for (i in 1N) medias[i]= mean(rexp(n13))
hist(medias xlim=c(-110) ylim=yl freq=F main=titulo)
x=seq(-110 02)
points(x dnorm(x 3 3sqrt(1n) ) type=l lwd=3)
fim da funccedilatildeo
graphicsoff()
par(mfrow=c(33) mai=c(3411))
tclexp(1titulo=n=1)
tclexp(2titulo=n=2)
tclexp(3titulo=n=3)
tclexp(4titulo=n=4)
tclexp(5titulo=n=5)
tclexp(6titulo=n=6)
tclexp(10titulo=n=10yl=c(06))
tclexp(15titulo=n=15yl=c(06))
tclexp(20titulo=n=20yl=c(06))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2961
Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com
simulaccedilotildees - Exponencial
Uma pergunta natural neste ponto serialdquoQuatildeo grande deve ser n para que possamos usar a aproximaccedilatildeo fornecida pelo
TCL com um niacutevel de precisatildeo aceitaacutevelrdquo
A rapidez com que essa convergecircncia se daacute depende de quatildeo distante estaacute a forma
da distribuiccedilatildeo original das Xirsquos de uma curva Normal Em outras palavras se a
distribuiccedilatildeo das Xirsquos jaacute natildeo for muito diferente de uma Normal com um n natildeo muito-
grande (usualmente n ge 30) a aproximaccedilatildeo da distribuiccedilatildeo de por uma Normal
funcionaria adequadamente
No exemplo a seguir vamos apresentar esse fenocircmeno a saber a convergecircncia da
distribuiccedilatildeo de para uma Normal agrave medida que n cresce gerando por simulaccedilatildeo osdados originais a partir de diferentes modelos probabiliacutesticos Em todos os casos a
distribuiccedilatildeo original eacute bem diferente da Normal E(X)=3 e DP(X)=3 No que se refere agrave
Simulaccedilatildeo foi seguida a mesma sequumlecircncia de passos do exemplo anterior
Xn
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3061
Cap 2-c ndash TCL Exemplo
Exponencial
Uniforme
Mistura deNormais
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3161
Como se pode observar
1 No caso da distribuiccedilatildeo uniforme (A) o histograma de jaacute se aproximabastante de uma Normal quando n eacute da ordem de 4
2 Jaacute no caso da distribuiccedilatildeo Exponencial (B) e da mistura de normais
(C) modelos esses que se afastam muito mais de umldquo rdquo
Cap 2-c ndash TCL Exemplo
mostra mais adequada a partir de n em torno de 10
3 No caso do modelo em (C) agrave medida que n cresce tudo se passacomo se houvesse a ldquoerupccedilatildeo de um vulcatildeo dentro do valerdquo
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3261
tclunif=function(nN=100titulo= yl=c(0 4))
medias=numeric(N)for (i in 1N) medias[i]= mean(runif(n 3-3sqrt(3) 3+3sqrt(3)))
hist(medias xlim=c(-610) ylim=yl freq=F main=titulo)
x=seq(-610 02)
points(x dnorm(x 3 3sqrt(1n) ) type=l lwd=3)
medias
Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com
as simulaccedilotildees - Uniforme
grap cso
par(mfrow=c(33) mai=c(3411))
tclunif(1titulo=n=1yl=c(06))
tclunif(2titulo=n=2yl=c(06))
tclunif(3titulo=n=3yl=c(06))
tclunif(4titulo=n=4yl=c(06))tclunif(5titulo=n=5yl=c(06))
tclunif(6titulo=n=6yl=c(06))
tclunif(10titulo=n=10yl=c(06))
tclunif(15titulo=n=15yl=c(06))
tclunif(20titulo=n=20yl=c(06))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3361
X2=c(rnorm(35011) rnorm(15081)) X2 eacute a Populaccedilatildeo de onde retiramos as amostras
br=seq(-2 12 5)
tcl2modas=function(nN=200titulo= yl=c(0 6)) medias=numeric(N)for (i in 1N) medias[i]= mean(sample(X2nrep=T))hist(mediasbreaks=br xlim=c(-212) tcl=-01 ylim=yl xarp=c(-31216)
tck=005 lab=c(5515) freq=F main=titulo)x=seq(-312 02)
Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com
as simulaccedilotildees - Mistura de Normais
points(x dnorm(x med dpsqrt(n) ) type=l lwd=2)
par(mfrow=c(24) mai=c(3011) mar=c(2 2 2 1))
hist(X2 freq=F breaks=seq(-3125) bty=o xlim=c(-212)xarp=c(-31216)tck=005 lab=c(5515) ylim=c(06) main=POPULACcedilAtildeO lwd=2)
tcl2modas(2titulo=n=2)tcl2modas(3titulo=n=3)
tcl2modas(4titulo=n=4)
tcl2modas(5titulo=n=5)
tcl2modas(10titulo=n=10)
tcl2modas(15titulo=n=15)
tcl2modas(25titulo=n=25)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3461
CAP 3-a) Intervalo de ConfianccedilaSeja um estimador pontual do paracircmetro eacute uma variaacutevel aleatoacuteria que varia deamostra para amostra Por isso haacute uma certa dose de incerteza inerente a esse processode estimaccedilatildeo Nosso objetivo agora eacute obter com base nos dados amostrais (da uacutenicaamostra observada) um intervalo ao qual o valor correto do paracircmetro deve ter grandechance de pertencer
bull Detalhando um pouco mais No processo de estimaccedilatildeo por intervalo de um paracircmetro θdevemos determinar um intervalo que contenha o verdadeiro valor do paracircmetro comprobabilidade 1-α onde α eacute um pequeno valor preacute-fixado Este intervalo eacute construiacutedo emgeral em torno do estimador pontual considerando uma margem de erro d de forma aque uma vez fixada a probabilidade 1-α calculemos d tal que P( - d le θ le + d ) = 1 -αChama-se intervalo de confianccedila para θ ao niacutevel 1 - α ao intervalo [ - d + d]
θ $θ
$θ$θ
$θ $θ
$
θ
bull Ou seja o estimador pontual eacute o centro do Intervalo de Confianccedila e o erro absoluto dassociado a define a amplitude desse intervalo O que eacute de fato variaacutevel aleatoacuteria satildeoos extremos do intervalo O paracircmetro tem valor desconhecido natildeo aleatoacuterio (fixo a ser estimado)
Exemplo Intervalo de Confianccedila para a meacutedia populacional com o desvio padratildeo conhecidoO paracircmetro a estimar eacute a meacutedia populacional micro A estimaccedilatildeo seraacute baseada em X1 X2 Xn
uma amostra aleatoacuteria com E(Xi) = micro e var(Xi) = σ2 para todo i = 12 n Queremos que seja
vaacutelida a expressatildeo o que equivale a P [ -d le -micro le d] = 1-α
$θ
X[ ] α1dmicroXP minus=leminus
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3561
bull Lembrando que para n suficientemente grande pelo Teorema Central do Limite a meacutediaamostral segue uma distribuiccedilatildeo que se aproxima da Normal(micromicromicromicro σσσσ2 n) (ou eacute exatamente aNormal(micromicromicromicro σσσσ2 n) no caso em que a distribuiccedilatildeo comum das va Xirsquos jaacute eacute Normal) entatildeo
P [-d le -micromicromicromicro le d] = 1-α rArr 1-α = P [ |Z| le ] Logo d =
bull Faremos uma simulaccedilatildeo para a construccedilatildeo de Intervalos de Confianccedila com 100 amostras dedois tipos de populaccedilatildeo Normal e Exponencial A lista de comandos do R que usamos eacute
ICN = function (N n mu sigma = 3 conf)
plot(0 0 type=n xlim=c(010) ylim=c(0N) bty=l
xlab=Normal ylab=amostras)abline(v=mu)
CAP 3-a) Intervalo de Confianccedila
X
nσ
d
minus
z0 = qnorm(1-((1-conf)2))
sigmaxbarra = sigmasqrt(n)
for (i in 1N)
x = rnorm(n mu sigma)
media = mean(x)
li = media - z0 sigmaxbarrals = media + z0 sigmaxbarra
plotx = c(lils)
ploty = c(ii)
if (li gt mu | ls lt mu) lines(plotxploty col=red)
else lines(plotxploty)
gt ICN(100 25 3 3 95)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3661
CAP 3-a) Intervalo de Confianccedila
ICexp = function (N n lambda conf)
mu=1lambda sigma=1lambda
plot(0 0 type=n xlim=c(010) ylim=c(0N) bty=lxlab=Exponencial ylab=amostras)
abline(v= mu)
z0 = qnorm(1-((1-conf)2))
sigmaxbarra = sigmasqrt(n)
for (i in 1N)
x = rexp(nlambda) me a = mean x
li = media - z0 sigmaxbarra
ls = media + z0 sigmaxbarra
plotx = c(lils)
ploty = c(ii)
if (li gt mu | ls lt mu) lines(plotx ploty col=red)
else lines(plotx ploty)
gt ICexp(100 25 13 95)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3761
CAP 3-b Teste de Hipoacuteteses (TH)O objetivo de um teste de hipoacutetese eacute avaliar a validade de uma afirmaccedilatildeo sobre determinada
caracteriacutestica da populaccedilatildeo usando para isso os dados de uma amostra Essa caracteriacutestica eacute
representada pela va contiacutenua X cujo comportamento probabiliacutestico eacute expresso pela funccedilatildeo dedensidade f com paracircmetro Ө que tem valor desconhecido
Em um teste existem duas hipoacuteteses envolvidas H0 denominada hipoacutetese nula e H1
denominada hipoacutetese alternativa O procedimento de teste de hipoacutetese consiste em estabelecer
um criteacuterio de decisatildeo que leve a Aceitar ou Rejeitar H0 com base nos valores amostrais
A Estatiacutestica de teste eacute uma funccedilatildeo da amostra aleatoacuteria utilizada para definir o criteacuterio de
decisatildeo Estabelecer o criteacuterio de decisatildeo consiste em dividir o conjunto dos valores possiacuteveis
da estatiacutestica de teste em duas partes denominadas Regiatildeo de Aceitaccedilatildeo A e Regiatildeo de
Rejeiccedilatildeo R da hipoacutetese nula
Em um teste de hipoacutetese haacute dois tipos possiacuteveis de erro de decisatildeo
Erro I - Rejeitar H0 quando H0 eacute verdadeira
Erro II - Aceitar H0 quando H0 eacute falsaAs probabilidades de ocorrecircncia dos erros satildeo α = P [ Erro I ] e β = P [ Erro II]
A probabilidade de erro I α eacute o niacutevel de significacircncia do teste cujo valor eacute arbitrado pelo
pesquisador deve ser pequena pois corresponde a probabilidade de um erro (005 ou 001)
O niacutevel criacutetico ou p-valor do teste eacute o menor valor de α para o qual ainda rejeitariacuteamos H0 de
acordo com os dados observados
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3861
CAP 3-b) ndash TH teste tttest(x y = NULL alternative = c(twosided less greater) mu = 0
paired = FALSE varequal = FALSE conflevel = 095 )
Procedimentos de teste de hipoacuteteses com niacutevel de significacircncia α e amostras de tamanho n
UmaAmostra
DuasAmostras
Obs Os testes acima satildeo bilaterais
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3961
CAP 3ndashb) TH exemplo de teste t ndash amostras independentespag233- teste t amostras independente - comparaccedilatildeo log(salaacuterio)
entre os grupos de comeacutercio e de serviccedilo
LogSal=c(1289156912501344145616361573171309060903
0977122011031069128714101496131113371366
1227119114591280115217401649176524101701
1538192419251721154918911534163812071682
120614232010143112651570)
Sal=exp(LogSal)
setor= c(rep(C23) rep(S23))
ttest(Sal[setor==C] Sal[setor==S] varequal=T)
Two Sample t-test
data Sal[setor == C] and Sal[setor == S]
t = -36822 df = 44 p-value = 00006289
alternative hypothesis true difference in means is not equal to 095 percent confidence interval
-23079005 -06751838
sample estimates
mean of x mean of y3786010 5277552
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4061
CAP 3ndashb) TH exemplo de teste t ndash amostra pareadapag237- teste t pareado
P1=c(6315596455545480598065203660986853
8765647785536980827184605572645564)
P2=c(3638306043466455604343523428837155
8238556767443459605968506254473652)
ttest(P1 P2 alt=greater paired = T)
Paired t-test
data P1 and P2
t = 44176 df = 33 p-value = 5072e-05
alternative hypothesis true difference in means is greater than 0
95 percent confidence interval
0716695 Inf
sample estimates
mean of the differences
1161765
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4161
CAP 3ndashb) TH exemplo de teste Quiquadrado chisqtest
pag233- teste Quiquadrado -
tcont=matrix(c(683585251530258 7461761220225) 72)
chisqtest(tcont)
Pearsons Chi-squared test
data tcont- = = - lt -
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4261
CAP 3ndashb) TH exemplo de teste Quiquadrado chisqtestaov(formula data = NULL )
pag244- ANOVA - Comparaccedilatildeo de trecircs raccedilotildees para suinos
A=c(444943514475425134305342453630
322133421040395246294247453959)
B=c(343640545953445432686954414647
6566455739)
C=c(574040364566395025212927283942
21304143294244582849)
aumentoP=c(ABC)
racao=c(rep(A30)rep(B20) rep(C25))
summaryaov(aov(aumentoP ~ racao))
Df Sum Sq Mean Sq F value Pr(gtF)racao 2 15385 7693 56136 0005425
Residuals 72 98666 1370
---
Signif codes 0 lsquorsquo 0001 lsquorsquo 001 lsquorsquo 005 lsquorsquo 01 lsquo rsquo 1
Warning message
In modelmatrixdefault(mt mf contrasts)
variable racao converted to a factor
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4361
ApecircndicesA-1) Apresentaremos aqui algumas figuras
feitas no R na elaboraccedilatildeo do livro
Achamos que o exame desses coacutedigos acompanhado dos resultados podeser um bom aprendizado um exerciacutecio ou talvez uma recordaccedilatildeo do materialaqui exposto
A-2) Resumo de comandosa) Criaccedilatildeo de dados
b) Informaccedilatildeo de uma Variaacutevel
c) Seleccedilatildeo de dados e manipulaccedilatildeo
d) Estatiacutesticas e operaccedilotildees matemaacuteticas
e) Corte e extraccedilatildeo de dados
f) Operaccedilatildeo com Matrizes
g) Graacuteficos (Plotting)
h) Teste de hipoacuteteses
i) Programming
j) Commandos auxiliaries em Graacuteficos
k) Comando par (Graphical parameters)
l) Input and output
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4461
A1) ndash Pag 14 ndash Figura 15
IDADE=c(616961716371726866697267636663636067716360696463667164706366646969646372736871726968687379)
IMC= c(245273281301254301280234268228255228235232203226239243271227237258213243243248219234216214221227227211268278275267286253239258247284235)
par(mfrow=c(12))hist(IDADE breaks=c(6065707580) ylim=c(020) ylab=Nuacutemero de Observaccedilotildees
main= col=grey right = F)hist(IMC breaks=c(200225250275300325)
ylab=Nuacutemero de Observaccedilotildeesmain= col=grey right = F )
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4561
A1) ndash Pag 44 ndash Figura 21
mat=matrix(c(81823913601818608740)32)
rownames(mat)=c(AtivaSedentaacuteriaTotal)colnames(mat)=c(NormalSobrepeso)barplot(t(mat) beside = TRUE space=c(315)
col=gray(c(79))legend = c(NormalSobrepeso) ylim = c(0 95) ylab= - percentagem)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4661
A1) ndash Pag 48 ndash Figura 22
mat= matrix(c(68154510 66214215 66242519 39161711)44byrow=T)
rownames(mat)=c(18 a 21 anos 22 a 25 anos 26 a 30 anos 31 a 40 anos)colnames(mat)=c(CinTeatSMDEx)mat1=mat for (i in 14) mat1[i]lt-mat1[i]100sum(mat1[i]) par(mfrow=c(12) mai=c(1111) mar=c(5 4 2 2) )barplot(matbeside=F ylim=c(0250) legend = c(18 a 21 anos 22 a 25 anos
26 a 30 anos 31 a 40 anos) xlab=Contagem)
barplot(mat1 beside=F xlab=Percentagem)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4761
A1) ndash Pag 52 ndash Figura 25X= c(184114821789235159118762592403190408372147328526471687
09642871437079238215753399242122530314859149806)y =c(01837012540193301620014230140604568022870231400861019960235302186012798991801254018210244160823
0147764068011818941403474539680150133247023685518102146187520214097090257291227
036282905401406510810113849399)plot(x y xlim=c(07) ylim=c(05) pch=16 bty=l xlab=Renda per capita
ylab=Telefonia Fixa per capita)
abline(lsfit(xy))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4861
A1) ndash Pag 109 ndash Figura 45
x=020
y1=dpois(x1) y2=dpois(x3) y3=dpois(x10)names(y1)=x names(y2)=x names(y3)=xpar(mfrow=c(13))plot(y1ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=1)plot(y2ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=3)plot(y3ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=10)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4961
A1) ndash Pag 118 ndash Figura 412
x=seq(010001)
plot(xdexp(x 12) type=l xlim=c(012) ylim=c(01) bty=l ylab=f(x) eF(x))for(i in seq(0 25 001)) segments(i 0 i dexp(i12) col=lightgrey)abline(v=0 h=0)points(xdexp(x 12) type=l lwd=2 bty=l)points(xpexp(x 12) lwd=2 type=l)segments(250 25pexp(2512))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5061
A1) ndash Pag 163 ndash Figura 68
plot(p xlim=c(618) ylim=c(016) type=n bty=l xaxt=n xlab= ylab=
cexaxis=6)for (i in 1015) rect(i-50 i+5 dbinom(i304) col=lightgrey) lty=2)segments(i0idbinom(i304) lty=2)
x=seq(61801) lines(x dnorm(x12sqrt(72)) lwd=2)x=seq(61801) lines(x dnorm(x12sqrt(72)) lwd=2)
axis(1 916 cexaxis=9) ax s seq cexax s=
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5161
A1) ndash Pag 198 ndash Figura 78
x1=seq(-4402)plot(x1dnorm(x1) type=l lwd=3 xlab= ylab= )lines(x1 dt(x11)) lines(x1 dt(x12)) lines(x1 dt(x15))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5261
A2ndashResumo de comandos
a)Criaccedilatildeo de dados
c()funccedilatildeo geneacuterica para combinar argumentos com o formando de um vetor fromto gera uma sequecircnce ldquordquo tem prioridade de operator pe13 + 1 is ldquo234rdquo
seq(fromtoby) gera uma sequecircncia by= especifica incremento
length= especifica um comprimento desejado
rep(xtimes) replicate x onuacutemero times de vezes use each= para repetir cada
elemento de x rep(c(123)2) gera 1 2 3 1 2 3 rep(c(12)each=2) gera 1 1 2 2
matrix(xnrow=ncol=) matrix elementos de x se reciclam caso x
rbind()combina vetores em linhas num estrutura de matrizes de dados
cbind()combina vetores em colunas num estrutura de matrizes de dados
array(xdim=) matriz com dados x especificar dimensotildees como dim=c(342)
elementos de x se reciclam caso x natildeo seja suficientemente grande
factor(xlevels=) codifica um vetor x como um fator gl(nklength=nklabels=1n) gerar niacuteveis (fatores) especificando
o padratildeo de seus niacuteveis k eacute o nuacutemero de niacuteveis e n eacute o nuacutemero de repeticcedilotildees
dataframe() criar um banco de dados Por exemplo
dataframe(v=14ch=c(gBcasad)n=5)
list()criar uma lista de argumentos Por exemplo list(a=c(12)b=hic=3i)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5361
A2ndashResumo de comandos
b) Informaccedilatildeo de uma Variaacutevellength(x) nuacutemero de elementos em x
dim(x) Obter ou definir a dimensatildeo de um objeto dim (x) = c(32)dimnames(x) Obter ou definir os nomes das dimensotildees de um objeto
nrow(x) nuacutemero de linhas
ncol(x) nuacutemero de colunas
c) Seleccedilatildeo de dados e manipulaccedilatildeochoose(n k) calcula a combinaccedilatildeo de elementos escolhidos entre n
resultando n [(n-k) k]
cut(xbreaks) divide x em intervalos (fatores) breaks eacute o nuacutemero de intervalos de
corte ou um vetor com os valores especiacuteficos
table(x) retorna uma tabela com as quantidades dos diferentes valores de x
(tipicamente para variaacuteveis dos tipos inteiros ou fatores)
sample(x size) retira aleatoriamente com e sem reposiccedilatildeo elementos detamanho SIZE do vetor x a opccedilatildeo replace = TRUE permite a retirada com reposiccedilatildeo
proptable(xmargin=) transforma a tabela como tabela de propoccedilatildeo
marginal margin=1 (com relaccedilatildeo as linhas) margin=2 (com relaccedilatildeo as colunas)
sort(x) Classifica os elementos de x em ordem crescente para classificar em ordem
decrescente rev(sort(x))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5461
A2ndashResumo de comandosd) Estatiacutesticas e operaccedilotildees matemaacuteticasmean(x) media dos elementos de x
median(x) mediana dos elementos de x
quantile(xprobs=) quantis de x correspondendo a uma dada probabilidadevar(x) ou cov(x) variacircncia dos elementos de x (calculado com n-1)
se x eacute uma matriz a matriz de covariacircncia eacute calculada
sd(x) desvio padracirco de of x
cor(x) matriz de correlaccedilatildeo de x se x for uma matriz ou (1 se x eacute um vector)
cor(x y) correlaccedilatildeo linear entre X e Y ou matriz de correlaccedilatildeo se eles satildeo matrizes
round(x n) arredonda os elementos de x para n casas decimais sum x soma os e emen os e x
prod(x) multilica os elementos de x
max(x) acha o maacuteximo dos elementos de x
min(x) acha o miacutenimo dos elementos de x
range(x) equivalente a c(min(x)max(x)
cumsum(x) um vetor onde o eacutesimo elemento eacute a soma de x[1] ateacute x[i]cumprod(x) um vetor onde o eacutesimo elemento eacute o produto de x[1] ateacute x[i]
cummin(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
cummax(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
sincostanasinacosatanatan2loglog10exp)
log(x base) calcula o logaritmo de x na base=base
weightedmean(x w) media ponderada de x com peso= w
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5561
A2ndashResumo de comandos
e) Corte e extraccedilatildeo de dadosindexaccedilatildeo de Vetores
x[n] n-eacutesimo elemento do vetor
x[-n] todos menos o n-eacutesimo elemento
x[1n] os primeiros n elemento
x[-(1n)] elementos de n+1 ateacute o final
x[c(432)] elementos especificados
x[y gt 5] todo elementos de onde os valores de y satildeo maiores que 5
x x gt 3 amp x lt 5 todo elementos entre 3 e 5
x[nome] elemento denominado nome
indexaccedilatildeo de Matrizes
x[ij] elemento na linha i coluna j
x[i] linha i
x[j] coluna j
x[c(13)] colunas 1 and 3
x[nome] linha nomeada nome
indexaccedilatildeo de data frames
x[[nome]] coluna chamada nome
x$nome equivalente a coluna chamada nome
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5661
A2ndashResumo de comandos
f) Operaccedilatildeo com Matrizest(x) transposta da matrix x
diag(x) retira a diagonal da matrix x
multiplicaccedilatildeo matricial
solve(ab) resove a equaccedilatildeo a x = b em relaccedilatildeo a x
solve(a) matriz inversa de a
rowSum(x) soma das linhas da matrix x
colSum(x) soma das colunas da matrix x
rowMeans x meacutedia das linhas da matrix x
colMeans(x) id meacutedia das colunas da matrix x
g) Graacuteficos (Plotting)plot(x y) diagrama de disperccedilatildeo plot dos pares (xy) num sistema de eixos
coordenadoshist(x) histogram dasfrequecircncias of x
barplot(x) graacutefico de barras of x usar horiz=T ara barras horizontal
pie(x) graacutefico de setores (pie-chart)
boxplot(x)
qqnorm(x) quantis de x em relaccedilatildeo aos valores esperados de uma dist Normal
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5761
A2ndashResumo de comandosparametros dos commando de Graacutefico
type=p especifica o tipo de plot p pontos l linhas b pontos
ligados por linhas o idecircntico mas as linhas passam sobre os pontos h
linhas verticais s escada (steps) os dados satildeo representados pelas alturasverticais
xlim= ylim= especifica os limites inferiores e superiores dos eixos por exemplocom xlim=c(1 10) ou xlim=range(x)
xlab= ylab= nomeia os eixos o nome deve ser do tipo caracter
main= tiacutetulo principal deve ser do tipo caracter
sub= sub-tiacutetulo (escrito em fonte menor)
podem ser usados como bty(tipo de caixa) lwd (lagura da linha) lty (tipo delinha) pch(tipo de ponto) cex xaxs yaxs xaxtyaxt
h) Teste de hipoacuteteses
ttest()proptest()
chisqtest()
aov(formula) analysis of variance model
anova(fit) analysis of variance (or deviance) tables for one or more
fitted model objects
Use o commando gt test para procurar todos os testes disponiacuteveis
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5861
A2ndashResumo de comandos
i) Programmingfunction( arglist ) expr para definer uma funccedilatildeo
return(value)
if(cond) expr
if(cond) consexpr else altexpr
for(var in seq) expr
while(cond) expr
re eat ex r
break
Usar chaves entre commandos dlimitando o iniacutecio e o fim de um grupo decomandos
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5961
A2ndashResumo de comandos
j) Commandos auxiliaries em Graacuteficospoints(x y) adiciona pontos (a opccedilatildeo type= pode ser usada)
lines(x y) adiciona linhas (a opccedilatildeo type= pode ser usada)text(x y labels ) adiciona texto na coordenada (xy) um uso tiacutepico eacute
plot(x y type=n) text(x ynames)
segments(x0 y0 x1 y1) desenha linhas do ponto (x0 y0) ao (x1 y1)
arrows(x0 y0 x1 y1 angle= 30 code=2) desenha seta do ponto
(x0 y0) ao (x1 y1)
abline(ab) desenha uma reta de inclinaccedilatildeo b e intercepto a
abline(v=x) desenha uma reta vertical em x
abline(lsfit(xy)) desenha uma reta da regressatildeo feita em lsfit(xy)
rect(x1 y1 x2 y2) desenha um retacircngulo que a esquerda inferior tem coordenadas(x1 y1) e o limite da direita superiores (x2 y2)
polygon(x y) desenha um poliacutegono que une os pontos com coordenadas X e Y
legend(x y legend) Acrescenta a lenda no ponto (x y) com os siacutembolos
dada pela legend
title()adiciona um tiacutetulo e opcionalmente um sub-tiacutetulo
axis(side) acrescenta um eixo na parte inferior (side = 1) agrave esquerda (2) na partesuperior (3) ou agrave direita (4)
box()desenhar uma caixa em torno do plot
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6061
A2ndashResumo de comandos
k) Comando par (Graphical parameters)Todos estes comando podem ser definidos a niacutevel global com o par () que
especifica os paracircmetros mas tambeacutem muitos podem ser usados comoparametros dos commando de Graacutefico
mfcol vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em colunas
mfrow vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em linhas(matrix for row)
bty controla o tipo de caixa desenhada ao redor do enredo valores permitidos satildeo
o l 7 c u ou se bt =n a caixa natildeo eacute desenhada
lty controla o tipo de linhas pode ser um inteiro ou string (1 solid 2 dashed 3dotted 4 dotdash 5 longdash 6twodash) ou uma string de ateacuteoito caracteres (entre 0 e 9) que especifica o comprimento em pontos oupixels dos elementos desenhados e os espaccedilos em branco por exemplolty=rdquo44rdquo equivale a lty=2
lwd nuacutemero que controla a largura das linhas default 1pch controla o tipo de siacutembolo pode tambeacutem ser um nuacutemero inteiro entre 1 e 25
ps um inteiro que controla o tamanho em pontos de textos e siacutembolos
pty um caracter que especifica o tipo da regiatildeo s quadrado m maacuteximal
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6161
A2ndashResumo de comandos
l) Input and outputreadtable(file) lecirc um arquivo em formato de tabela e cria um quadro de dados a
partir dele o separador default = eacute espaccedilo em branco header = TRUE ler a
primeira linha como um cabeccedilalho de nomes de coluna asis = TRUE paraevitar aque um vetore de caracteres seja convertido em factores usocommentchar = para evitar seja interpretado como um comentaacuteriouso skip = n para pular n linhas antes da leitura de dados consulte a ajudapara as opccedilotildees de linha de nomeaccedilatildeo o tratamento NA e outros
readcsv(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por viacutergulas
readdelim(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por tabulaccedilotildees
readfwf(filewidthsheader=FALSEsep= asis=FALSE)
ler uma tabela de dados em formato fix de largura m para um dataframe widthseacute um vetor inteiro informando os tamanhos dos campos
sink(file) saiacuteda de todos os comandos para um arquivo ateacute aparecer um comando
sink () que desliga writetable(x file=rownames=Tcolnames=Tsep= ) imprime x apoacutes a
conversatildeo para banco de dados
save(file) guarda os objetos especificados () no formato XDR
load()carregar o conjunto de dados salvos com o comando save
data(x) carrega um conjunto de dados especificado
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 1961
Cap 2-a Simulaccedilatildeo do conceito frequumlentistaConceito Frequumlentista de Probabilidade Suponha que o experimentofoi repetido n vezes sempre sob as mesmas condiccedilotildees e que o evento Aocorreu m vezes entre essas n realizaccedilotildees do experimento Entatildeoa fraccedilatildeo mn eacute uma boa aproximaccedilatildeo para a probabilidade de Ase o nuacutemero n de repeticcedilotildees for bastante grande
Simbolicamente P (A) congcongcongcong mn
Exemplo Simulando 100 lanccedilamentos de uma moedaNo R foram simulados 100 lanccedilamentos de uma moeda equilibrada isto eacute
onde as chances de cara e de coroa satildeo iguais Depois de cadalanccedilamento foi observado o nuacutemero acumulado de caras obtidas ateacute essemomen o e o ca cu a a a proporccedil o e caras correspon en e a a e a aseguir estatildeo apresentados os valores correspondentes ao nuacutemeroacumulado de caras ao longo do processo Por exemplo para a jogada denuacutemero 29 o nuacutemero acumulado de caras eacute 13 e a fraccedilatildeo de caras eacute 1329O graacutefico abaixo mostra a evoluccedilatildeo dessa fraccedilatildeo agrave medida que foramfeitos os 100 lanccedilamentos da moeda
Os comandos no R para a elaboraccedilatildeo do graacutefico
gtx=1100 y=cumsum(sample(01100rep=T))gtplot(xy1100 ylim=c(01) xlim=c(0100) pch=16)gtsegments(10510005)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2061
Cap 2-b Variaacuteveis Aleatoacuterias (va)Uma variaacutevel aleatoacuteria (va) eacute uma funccedilatildeo que associa cada elemento de um
espaccedilo amostral a um nuacutemero real As variaacuteveis aleatoacuterias podem ser do
tipo
Discreto se os seus valores pertencem a um conjunto enumeraacutevel de nuacutemerosreais (usualmente valores inteiros)
Contiacutenuo se os seus valores pertencem a um intervalo de nuacutemeros reais
O modelo probabiliacutestico de uma variaacutevel aleatoacuteria X estabelece o padratildeo de
comportamento de sua distribuiccedilatildeo de probabilidadeA fun atildeo de robabilidade de uma v a discreta X eacute definida orp(x)=P[X=x]
A funccedilatildeo de distribuiccedilatildeo acumulada F de uma v a X eacute definida porF(x) = P[Xlelelelex]
Se X eacute uma va discreta que assume os valores x 1
x 2
x 3
x N
entatildeo
bull A meacutedia ou esperanccedila de X eacuteE(X) = x 1 P(X=x 1 ) + x 2 P(X=x 2 ) + x 3 P(X=x 3 ) + + x N P(X=x N )
bull A Variacircncia de X eacute calculada por |Var(X)=(x 1 ndashE(X))2 P(X=x 1 )+(x 2 ndashE(X))2 P(X=x 2 )++(x N ndashE(X))2 P(X=x N )
bull O desvio padratildeo de X eacute igual agrave raiz quadrada natildeo negativa da suavariacircncia DP(X)= Var(X)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2161
Cap 2-b - va e o RO trabalho no R com uma va X estaacute baseado em 4 procedimentos
p probability ndash Gera a probabilidade de um valor de xq quantile ndash Gera o valor x de uma dada probabilidade acumulada pd density ndash Gera o valor da funccedilatildeo densidade num valor x da variaacutevel
Observar que quando a variaacutevel eacute discreta este valor eacute aprobabilidade de x quando a variaacutevel eacute contiacutenua o resultadoeacute a altura da funccedilatildeo densidade de probabilidade
r random ndash Gera n valores do modelo probabiliacutestico em questatildeo
As distribuiccedilotildees que estudaremos estatildeo listadas a seguir depois de cada uma delasentre parecircnteses estaacute o nome no R
(geom) Binomial negativa- Pascal (nbinom)
Entre as contiacutenuas Uniforme (unif ) Exponencial (exp) Normal (norm) t-student (t)quiquadrado (chisq) F (f )
A interligaccedilatildeo dos trecircs primeiros procedimentos pq e d seraacute ilustrada pela distribuiccedilatildeoNormal atraveacutes do graacutefico abaixo
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2261
Cap 2-b - va pnorm e qnormSeja a relaccedilatildeo p = P(Xltx) que aparece na tabela da distribuiccedilatildeo Normal Quiquadrada
t-student e F Para um dado valor de p acha-se um valor de x a procura direta que para aNormal no R corresponderia a pnorm(x 983221 σ) Neste caso devo informar o x e os dois
paracircmetros da distribuiccedilatildeo Normal 983221 e σJaacute a procura inversa seria para um dado valor de x achar um valor de p que para a Normalno R corresponderia a qnorm(p983221σ) Neste outro caso devo informar o valor de p desejado etambeacutem os dois paracircmetros da distribuiccedilatildeo Normal 983221 e σ
Exemplo Seja X a va que corresponde ao peso (em kg) de pessoas de uma certapopulaccedilatildeo com meacutedia 983221=70 Kg e desvio padratildeo σ=8 Kg assim X~ N(983221=70 σ2=82)
Se desejarmosa) P(Xlt80) usaremos no R o comando pnorm(80 70 8) isto eacute x=80 eacute o primeiro paracircmetroenquanto 70 e 8 satildeo paracircmetro especiacuteficos da distribuiccedilatildeo Normal
b) Admita que o peso limite para ser classificado como obeso eacute o valor que corresponde a10 dos mais pesados do populaccedilatildeo Achar este peso limiteO que se pede eacute a funccedilatildeo inversa Dado um valor de p=090 achar um valor de x que deixa90 abaixo dele No R seria qnorm(09 70 8) isto eacute o valor da probabilidade p=09 eacute
o primeiro paracircmetro enquanto 70 e 8 satildeo paracircmetros especiacuteficos da distribuiccedilatildeo NormalSe usarmos a Normal padratildeo z=(x-983221)σ no caso do item a o comando seria pnorm((80-70)8)ou pnorm(125) Repare que neste caso natildeo foi necessaacuterio passar os paracircmetros especiacuteficos daNormal pois 983221=0 e σ =1 coresponde ao default Observaccedilatildeo Sempre que usarmos um p oprimeiro paracircmetro eacute um x e os outros satildeo especiacuteficos da distribuiccedilatildeo em questatildeosempre que usarmos um q o primeiro paracircmetro eacute um p e os outros satildeo especiacuteficosSempre que usarmos um d o primeiro paracircmetro eacute um x
Quando usarmos uma distribuiccedilatildeo discreta o d corresponde aacute probabilidade no ponto x
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2361
Pag 118 ndash Figura 412
x=seq(010001)
plot(xdexp(x 12) type=l xlim=c(012) ylim=c(01) bty=l ylab=f(x) e F(x))
for(i in seq(0 25 001)) segments(i 0 i dexp(i12) col=lightgrey)
abline(v=0 h=0)
points(xdexp(x 12) type=l lwd=2 bty=l)
points(x pexp(x 12) lwd=2 type=l)
segments(250 25pexp(2512))
Cap 2-b - va dexp pexp points segments
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2461
Cap 2-b - va disponiacuteveis no Rrbinom(n size prob) binomialrpois(n lambda) Poissonrgeom(n prob) geometricarhyper(nn m n k) hipergeometricarnbinom(n size prob) binomial negativarunif(n min=0 max=1) uniformerexp(n rate=1) exponentialrnorm(n mean=0 sd=1) Gaussiana (normal)rt(n df) lsquoStudentrsquo (t )rf(n df1 df2) FisherndashSnedecor (F )
rchisq(n df) Quiquadradar amma n sha e scale=1 amma rbeta(n shape1 shape2) betarlnorm(n meanlog=0 sdlog=1) lognormalrcauchy(n location=0 scale=1) Cauchyrweibull(n shape scale=1) Weibullrwilcox(nn m n) Wilcoxonrsquos rank sum statistics
rsignrank(nn n) Wilcoxonrsquos signed rank statisticsrlogis(n location=0 scale=1) logistic
Todas essas distribuiccedilotildees apresentadas por rnome (nome da variaacutevel aleatoacuteria) como vimostrocando a primeira letra e mantendo os paracircmetros especiacuteficos de cada distribuiccedilatildeo(denotados por ) podem ser usadas substituindo a letra ldquor rdquo por
d valor da densidade de probabilidade no ponto x dnome (x )p probabilidade acumulada no ponto x pnome (x )
q quantil correspondente a probabilidade acumulada p dnome (p)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2561
Cap 2-c O Teorema Central do Limite (TCL)O Teorema Central do Limite (abreviadamente TCL) diz respeito ao comportamento da
meacutedia amostral agrave medida que o tamanho n da amostra cresce indefinidamente
Exemplo 31 ndash A distribuiccedilatildeo de renda e o TCLEacute um fato conhecido que a distribuiccedilatildeo da rendapessoal dos habitantes de um paiacutes eacuteusualmente muito desigual ou seja muitosganham pouco e poucos ganham muito Seforem sorteados 200 habitantes desse paiacutes e
com base nas suas rendas mensais
Agora se forem sorteadas 200 amostrascada uma delas contendo 2 habitantesdesse paiacutes e se forem calculadas as 200respectivas meacutedias amostrais a partir delas obteremos o histograma a seguir
Agora cada uma das 200 amostrassorteadas contendo 30 habitantes dessepaiacutes e se forem calculadas as 200 meacutediasamostrais o histograma seria
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2661
Cap 2-c ndash TCL ExemploComo pode ser observado no caso de n = 2 o histograma se aproxima mais de uma curvaNormal do que no caso de n = 1 E no caso de n = 30 a semelhanccedila do histograma com umacurva Normal eacute ainda maior
O Teorema Central do Limite afirma que independentemente de qual seja a
distribuiccedilatildeo original dos Xirsquos a distribuiccedilatildeo de probabilidade de e a
distribuiccedilatildeo Normal com meacutedia micromicromicromicro e variacircncia σσσσ2 n se aproximam cada vez
mais uma da outra agrave medida que n cresce
Portanto mesmo que a distribuiccedilatildeo de probabilidade dos Xirsquos seja desconhecida o Teorema
X n
Central do Limite garante a possibilidade de usarmos o modelo Normal para calcular ainda quede forma aproximada probabilidades relativas agrave meacutedia amostral desde que n sejasuficientemente grande
Exemplo 62 Simulando o efeito do TCL
Para ilustrar o funcionamento do Teorema Central do Limite vamos exibir agora um exemploem que a distribuiccedilatildeo original a partir da qual os dados satildeo gerados eacute uma exponencial modelo
este que daacute origem a uma funccedilatildeo densidade bastante assimeacutetrica (ao contraacuterio do que ocorre
com a curva Normal) A densidade de uma exponencial com paracircmetro eacute dada pela
expressatildeo
No R rexp(n ) simula n valores
λ
0 xλef(x) λx ge= minusλ
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2761
Cap 2-c ndash TCL ExemploA densidade de uma exponencial com paracircmetro eacute dada pela expressatildeo
Gerando dados por simulaccedilatildeo a partir de uma exponencial com λ = 13 para cada um dos
seguintes tamanhos n de amostra 1 2 3 4 5 10 15 e 201 Obtivemos 200 valores da meacutedia amostral 2 Utilizamos esses 200 valores para construir um histograma3 Traccedilamos no mesmo graacutefico uma curva da densidade Normal com E( )=3 e DP( )=3Xn
λ 0 xλef(x) λx ge= minus
Xn n
Os 8 histogramas nos mostram que agrave medida que o tamanho n da amostra cresce
a forma do histograma se aproxima cada vez mais de uma curva Normal
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2861
Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com
simulaccedilotildees - Exponencial
tclexp=function(n N=200 titulo= yl=c(0 4)) iniacutecio da funccedilatildeo ndash tclexpmedias=numeric(N)
for (i in 1N) medias[i]= mean(rexp(n13))
hist(medias xlim=c(-110) ylim=yl freq=F main=titulo)
x=seq(-110 02)
points(x dnorm(x 3 3sqrt(1n) ) type=l lwd=3)
fim da funccedilatildeo
graphicsoff()
par(mfrow=c(33) mai=c(3411))
tclexp(1titulo=n=1)
tclexp(2titulo=n=2)
tclexp(3titulo=n=3)
tclexp(4titulo=n=4)
tclexp(5titulo=n=5)
tclexp(6titulo=n=6)
tclexp(10titulo=n=10yl=c(06))
tclexp(15titulo=n=15yl=c(06))
tclexp(20titulo=n=20yl=c(06))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2961
Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com
simulaccedilotildees - Exponencial
Uma pergunta natural neste ponto serialdquoQuatildeo grande deve ser n para que possamos usar a aproximaccedilatildeo fornecida pelo
TCL com um niacutevel de precisatildeo aceitaacutevelrdquo
A rapidez com que essa convergecircncia se daacute depende de quatildeo distante estaacute a forma
da distribuiccedilatildeo original das Xirsquos de uma curva Normal Em outras palavras se a
distribuiccedilatildeo das Xirsquos jaacute natildeo for muito diferente de uma Normal com um n natildeo muito-
grande (usualmente n ge 30) a aproximaccedilatildeo da distribuiccedilatildeo de por uma Normal
funcionaria adequadamente
No exemplo a seguir vamos apresentar esse fenocircmeno a saber a convergecircncia da
distribuiccedilatildeo de para uma Normal agrave medida que n cresce gerando por simulaccedilatildeo osdados originais a partir de diferentes modelos probabiliacutesticos Em todos os casos a
distribuiccedilatildeo original eacute bem diferente da Normal E(X)=3 e DP(X)=3 No que se refere agrave
Simulaccedilatildeo foi seguida a mesma sequumlecircncia de passos do exemplo anterior
Xn
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3061
Cap 2-c ndash TCL Exemplo
Exponencial
Uniforme
Mistura deNormais
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3161
Como se pode observar
1 No caso da distribuiccedilatildeo uniforme (A) o histograma de jaacute se aproximabastante de uma Normal quando n eacute da ordem de 4
2 Jaacute no caso da distribuiccedilatildeo Exponencial (B) e da mistura de normais
(C) modelos esses que se afastam muito mais de umldquo rdquo
Cap 2-c ndash TCL Exemplo
mostra mais adequada a partir de n em torno de 10
3 No caso do modelo em (C) agrave medida que n cresce tudo se passacomo se houvesse a ldquoerupccedilatildeo de um vulcatildeo dentro do valerdquo
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3261
tclunif=function(nN=100titulo= yl=c(0 4))
medias=numeric(N)for (i in 1N) medias[i]= mean(runif(n 3-3sqrt(3) 3+3sqrt(3)))
hist(medias xlim=c(-610) ylim=yl freq=F main=titulo)
x=seq(-610 02)
points(x dnorm(x 3 3sqrt(1n) ) type=l lwd=3)
medias
Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com
as simulaccedilotildees - Uniforme
grap cso
par(mfrow=c(33) mai=c(3411))
tclunif(1titulo=n=1yl=c(06))
tclunif(2titulo=n=2yl=c(06))
tclunif(3titulo=n=3yl=c(06))
tclunif(4titulo=n=4yl=c(06))tclunif(5titulo=n=5yl=c(06))
tclunif(6titulo=n=6yl=c(06))
tclunif(10titulo=n=10yl=c(06))
tclunif(15titulo=n=15yl=c(06))
tclunif(20titulo=n=20yl=c(06))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3361
X2=c(rnorm(35011) rnorm(15081)) X2 eacute a Populaccedilatildeo de onde retiramos as amostras
br=seq(-2 12 5)
tcl2modas=function(nN=200titulo= yl=c(0 6)) medias=numeric(N)for (i in 1N) medias[i]= mean(sample(X2nrep=T))hist(mediasbreaks=br xlim=c(-212) tcl=-01 ylim=yl xarp=c(-31216)
tck=005 lab=c(5515) freq=F main=titulo)x=seq(-312 02)
Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com
as simulaccedilotildees - Mistura de Normais
points(x dnorm(x med dpsqrt(n) ) type=l lwd=2)
par(mfrow=c(24) mai=c(3011) mar=c(2 2 2 1))
hist(X2 freq=F breaks=seq(-3125) bty=o xlim=c(-212)xarp=c(-31216)tck=005 lab=c(5515) ylim=c(06) main=POPULACcedilAtildeO lwd=2)
tcl2modas(2titulo=n=2)tcl2modas(3titulo=n=3)
tcl2modas(4titulo=n=4)
tcl2modas(5titulo=n=5)
tcl2modas(10titulo=n=10)
tcl2modas(15titulo=n=15)
tcl2modas(25titulo=n=25)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3461
CAP 3-a) Intervalo de ConfianccedilaSeja um estimador pontual do paracircmetro eacute uma variaacutevel aleatoacuteria que varia deamostra para amostra Por isso haacute uma certa dose de incerteza inerente a esse processode estimaccedilatildeo Nosso objetivo agora eacute obter com base nos dados amostrais (da uacutenicaamostra observada) um intervalo ao qual o valor correto do paracircmetro deve ter grandechance de pertencer
bull Detalhando um pouco mais No processo de estimaccedilatildeo por intervalo de um paracircmetro θdevemos determinar um intervalo que contenha o verdadeiro valor do paracircmetro comprobabilidade 1-α onde α eacute um pequeno valor preacute-fixado Este intervalo eacute construiacutedo emgeral em torno do estimador pontual considerando uma margem de erro d de forma aque uma vez fixada a probabilidade 1-α calculemos d tal que P( - d le θ le + d ) = 1 -αChama-se intervalo de confianccedila para θ ao niacutevel 1 - α ao intervalo [ - d + d]
θ $θ
$θ$θ
$θ $θ
$
θ
bull Ou seja o estimador pontual eacute o centro do Intervalo de Confianccedila e o erro absoluto dassociado a define a amplitude desse intervalo O que eacute de fato variaacutevel aleatoacuteria satildeoos extremos do intervalo O paracircmetro tem valor desconhecido natildeo aleatoacuterio (fixo a ser estimado)
Exemplo Intervalo de Confianccedila para a meacutedia populacional com o desvio padratildeo conhecidoO paracircmetro a estimar eacute a meacutedia populacional micro A estimaccedilatildeo seraacute baseada em X1 X2 Xn
uma amostra aleatoacuteria com E(Xi) = micro e var(Xi) = σ2 para todo i = 12 n Queremos que seja
vaacutelida a expressatildeo o que equivale a P [ -d le -micro le d] = 1-α
$θ
X[ ] α1dmicroXP minus=leminus
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3561
bull Lembrando que para n suficientemente grande pelo Teorema Central do Limite a meacutediaamostral segue uma distribuiccedilatildeo que se aproxima da Normal(micromicromicromicro σσσσ2 n) (ou eacute exatamente aNormal(micromicromicromicro σσσσ2 n) no caso em que a distribuiccedilatildeo comum das va Xirsquos jaacute eacute Normal) entatildeo
P [-d le -micromicromicromicro le d] = 1-α rArr 1-α = P [ |Z| le ] Logo d =
bull Faremos uma simulaccedilatildeo para a construccedilatildeo de Intervalos de Confianccedila com 100 amostras dedois tipos de populaccedilatildeo Normal e Exponencial A lista de comandos do R que usamos eacute
ICN = function (N n mu sigma = 3 conf)
plot(0 0 type=n xlim=c(010) ylim=c(0N) bty=l
xlab=Normal ylab=amostras)abline(v=mu)
CAP 3-a) Intervalo de Confianccedila
X
nσ
d
minus
z0 = qnorm(1-((1-conf)2))
sigmaxbarra = sigmasqrt(n)
for (i in 1N)
x = rnorm(n mu sigma)
media = mean(x)
li = media - z0 sigmaxbarrals = media + z0 sigmaxbarra
plotx = c(lils)
ploty = c(ii)
if (li gt mu | ls lt mu) lines(plotxploty col=red)
else lines(plotxploty)
gt ICN(100 25 3 3 95)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3661
CAP 3-a) Intervalo de Confianccedila
ICexp = function (N n lambda conf)
mu=1lambda sigma=1lambda
plot(0 0 type=n xlim=c(010) ylim=c(0N) bty=lxlab=Exponencial ylab=amostras)
abline(v= mu)
z0 = qnorm(1-((1-conf)2))
sigmaxbarra = sigmasqrt(n)
for (i in 1N)
x = rexp(nlambda) me a = mean x
li = media - z0 sigmaxbarra
ls = media + z0 sigmaxbarra
plotx = c(lils)
ploty = c(ii)
if (li gt mu | ls lt mu) lines(plotx ploty col=red)
else lines(plotx ploty)
gt ICexp(100 25 13 95)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3761
CAP 3-b Teste de Hipoacuteteses (TH)O objetivo de um teste de hipoacutetese eacute avaliar a validade de uma afirmaccedilatildeo sobre determinada
caracteriacutestica da populaccedilatildeo usando para isso os dados de uma amostra Essa caracteriacutestica eacute
representada pela va contiacutenua X cujo comportamento probabiliacutestico eacute expresso pela funccedilatildeo dedensidade f com paracircmetro Ө que tem valor desconhecido
Em um teste existem duas hipoacuteteses envolvidas H0 denominada hipoacutetese nula e H1
denominada hipoacutetese alternativa O procedimento de teste de hipoacutetese consiste em estabelecer
um criteacuterio de decisatildeo que leve a Aceitar ou Rejeitar H0 com base nos valores amostrais
A Estatiacutestica de teste eacute uma funccedilatildeo da amostra aleatoacuteria utilizada para definir o criteacuterio de
decisatildeo Estabelecer o criteacuterio de decisatildeo consiste em dividir o conjunto dos valores possiacuteveis
da estatiacutestica de teste em duas partes denominadas Regiatildeo de Aceitaccedilatildeo A e Regiatildeo de
Rejeiccedilatildeo R da hipoacutetese nula
Em um teste de hipoacutetese haacute dois tipos possiacuteveis de erro de decisatildeo
Erro I - Rejeitar H0 quando H0 eacute verdadeira
Erro II - Aceitar H0 quando H0 eacute falsaAs probabilidades de ocorrecircncia dos erros satildeo α = P [ Erro I ] e β = P [ Erro II]
A probabilidade de erro I α eacute o niacutevel de significacircncia do teste cujo valor eacute arbitrado pelo
pesquisador deve ser pequena pois corresponde a probabilidade de um erro (005 ou 001)
O niacutevel criacutetico ou p-valor do teste eacute o menor valor de α para o qual ainda rejeitariacuteamos H0 de
acordo com os dados observados
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3861
CAP 3-b) ndash TH teste tttest(x y = NULL alternative = c(twosided less greater) mu = 0
paired = FALSE varequal = FALSE conflevel = 095 )
Procedimentos de teste de hipoacuteteses com niacutevel de significacircncia α e amostras de tamanho n
UmaAmostra
DuasAmostras
Obs Os testes acima satildeo bilaterais
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3961
CAP 3ndashb) TH exemplo de teste t ndash amostras independentespag233- teste t amostras independente - comparaccedilatildeo log(salaacuterio)
entre os grupos de comeacutercio e de serviccedilo
LogSal=c(1289156912501344145616361573171309060903
0977122011031069128714101496131113371366
1227119114591280115217401649176524101701
1538192419251721154918911534163812071682
120614232010143112651570)
Sal=exp(LogSal)
setor= c(rep(C23) rep(S23))
ttest(Sal[setor==C] Sal[setor==S] varequal=T)
Two Sample t-test
data Sal[setor == C] and Sal[setor == S]
t = -36822 df = 44 p-value = 00006289
alternative hypothesis true difference in means is not equal to 095 percent confidence interval
-23079005 -06751838
sample estimates
mean of x mean of y3786010 5277552
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4061
CAP 3ndashb) TH exemplo de teste t ndash amostra pareadapag237- teste t pareado
P1=c(6315596455545480598065203660986853
8765647785536980827184605572645564)
P2=c(3638306043466455604343523428837155
8238556767443459605968506254473652)
ttest(P1 P2 alt=greater paired = T)
Paired t-test
data P1 and P2
t = 44176 df = 33 p-value = 5072e-05
alternative hypothesis true difference in means is greater than 0
95 percent confidence interval
0716695 Inf
sample estimates
mean of the differences
1161765
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4161
CAP 3ndashb) TH exemplo de teste Quiquadrado chisqtest
pag233- teste Quiquadrado -
tcont=matrix(c(683585251530258 7461761220225) 72)
chisqtest(tcont)
Pearsons Chi-squared test
data tcont- = = - lt -
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4261
CAP 3ndashb) TH exemplo de teste Quiquadrado chisqtestaov(formula data = NULL )
pag244- ANOVA - Comparaccedilatildeo de trecircs raccedilotildees para suinos
A=c(444943514475425134305342453630
322133421040395246294247453959)
B=c(343640545953445432686954414647
6566455739)
C=c(574040364566395025212927283942
21304143294244582849)
aumentoP=c(ABC)
racao=c(rep(A30)rep(B20) rep(C25))
summaryaov(aov(aumentoP ~ racao))
Df Sum Sq Mean Sq F value Pr(gtF)racao 2 15385 7693 56136 0005425
Residuals 72 98666 1370
---
Signif codes 0 lsquorsquo 0001 lsquorsquo 001 lsquorsquo 005 lsquorsquo 01 lsquo rsquo 1
Warning message
In modelmatrixdefault(mt mf contrasts)
variable racao converted to a factor
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4361
ApecircndicesA-1) Apresentaremos aqui algumas figuras
feitas no R na elaboraccedilatildeo do livro
Achamos que o exame desses coacutedigos acompanhado dos resultados podeser um bom aprendizado um exerciacutecio ou talvez uma recordaccedilatildeo do materialaqui exposto
A-2) Resumo de comandosa) Criaccedilatildeo de dados
b) Informaccedilatildeo de uma Variaacutevel
c) Seleccedilatildeo de dados e manipulaccedilatildeo
d) Estatiacutesticas e operaccedilotildees matemaacuteticas
e) Corte e extraccedilatildeo de dados
f) Operaccedilatildeo com Matrizes
g) Graacuteficos (Plotting)
h) Teste de hipoacuteteses
i) Programming
j) Commandos auxiliaries em Graacuteficos
k) Comando par (Graphical parameters)
l) Input and output
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4461
A1) ndash Pag 14 ndash Figura 15
IDADE=c(616961716371726866697267636663636067716360696463667164706366646969646372736871726968687379)
IMC= c(245273281301254301280234268228255228235232203226239243271227237258213243243248219234216214221227227211268278275267286253239258247284235)
par(mfrow=c(12))hist(IDADE breaks=c(6065707580) ylim=c(020) ylab=Nuacutemero de Observaccedilotildees
main= col=grey right = F)hist(IMC breaks=c(200225250275300325)
ylab=Nuacutemero de Observaccedilotildeesmain= col=grey right = F )
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4561
A1) ndash Pag 44 ndash Figura 21
mat=matrix(c(81823913601818608740)32)
rownames(mat)=c(AtivaSedentaacuteriaTotal)colnames(mat)=c(NormalSobrepeso)barplot(t(mat) beside = TRUE space=c(315)
col=gray(c(79))legend = c(NormalSobrepeso) ylim = c(0 95) ylab= - percentagem)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4661
A1) ndash Pag 48 ndash Figura 22
mat= matrix(c(68154510 66214215 66242519 39161711)44byrow=T)
rownames(mat)=c(18 a 21 anos 22 a 25 anos 26 a 30 anos 31 a 40 anos)colnames(mat)=c(CinTeatSMDEx)mat1=mat for (i in 14) mat1[i]lt-mat1[i]100sum(mat1[i]) par(mfrow=c(12) mai=c(1111) mar=c(5 4 2 2) )barplot(matbeside=F ylim=c(0250) legend = c(18 a 21 anos 22 a 25 anos
26 a 30 anos 31 a 40 anos) xlab=Contagem)
barplot(mat1 beside=F xlab=Percentagem)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4761
A1) ndash Pag 52 ndash Figura 25X= c(184114821789235159118762592403190408372147328526471687
09642871437079238215753399242122530314859149806)y =c(01837012540193301620014230140604568022870231400861019960235302186012798991801254018210244160823
0147764068011818941403474539680150133247023685518102146187520214097090257291227
036282905401406510810113849399)plot(x y xlim=c(07) ylim=c(05) pch=16 bty=l xlab=Renda per capita
ylab=Telefonia Fixa per capita)
abline(lsfit(xy))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4861
A1) ndash Pag 109 ndash Figura 45
x=020
y1=dpois(x1) y2=dpois(x3) y3=dpois(x10)names(y1)=x names(y2)=x names(y3)=xpar(mfrow=c(13))plot(y1ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=1)plot(y2ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=3)plot(y3ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=10)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4961
A1) ndash Pag 118 ndash Figura 412
x=seq(010001)
plot(xdexp(x 12) type=l xlim=c(012) ylim=c(01) bty=l ylab=f(x) eF(x))for(i in seq(0 25 001)) segments(i 0 i dexp(i12) col=lightgrey)abline(v=0 h=0)points(xdexp(x 12) type=l lwd=2 bty=l)points(xpexp(x 12) lwd=2 type=l)segments(250 25pexp(2512))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5061
A1) ndash Pag 163 ndash Figura 68
plot(p xlim=c(618) ylim=c(016) type=n bty=l xaxt=n xlab= ylab=
cexaxis=6)for (i in 1015) rect(i-50 i+5 dbinom(i304) col=lightgrey) lty=2)segments(i0idbinom(i304) lty=2)
x=seq(61801) lines(x dnorm(x12sqrt(72)) lwd=2)x=seq(61801) lines(x dnorm(x12sqrt(72)) lwd=2)
axis(1 916 cexaxis=9) ax s seq cexax s=
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5161
A1) ndash Pag 198 ndash Figura 78
x1=seq(-4402)plot(x1dnorm(x1) type=l lwd=3 xlab= ylab= )lines(x1 dt(x11)) lines(x1 dt(x12)) lines(x1 dt(x15))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5261
A2ndashResumo de comandos
a)Criaccedilatildeo de dados
c()funccedilatildeo geneacuterica para combinar argumentos com o formando de um vetor fromto gera uma sequecircnce ldquordquo tem prioridade de operator pe13 + 1 is ldquo234rdquo
seq(fromtoby) gera uma sequecircncia by= especifica incremento
length= especifica um comprimento desejado
rep(xtimes) replicate x onuacutemero times de vezes use each= para repetir cada
elemento de x rep(c(123)2) gera 1 2 3 1 2 3 rep(c(12)each=2) gera 1 1 2 2
matrix(xnrow=ncol=) matrix elementos de x se reciclam caso x
rbind()combina vetores em linhas num estrutura de matrizes de dados
cbind()combina vetores em colunas num estrutura de matrizes de dados
array(xdim=) matriz com dados x especificar dimensotildees como dim=c(342)
elementos de x se reciclam caso x natildeo seja suficientemente grande
factor(xlevels=) codifica um vetor x como um fator gl(nklength=nklabels=1n) gerar niacuteveis (fatores) especificando
o padratildeo de seus niacuteveis k eacute o nuacutemero de niacuteveis e n eacute o nuacutemero de repeticcedilotildees
dataframe() criar um banco de dados Por exemplo
dataframe(v=14ch=c(gBcasad)n=5)
list()criar uma lista de argumentos Por exemplo list(a=c(12)b=hic=3i)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5361
A2ndashResumo de comandos
b) Informaccedilatildeo de uma Variaacutevellength(x) nuacutemero de elementos em x
dim(x) Obter ou definir a dimensatildeo de um objeto dim (x) = c(32)dimnames(x) Obter ou definir os nomes das dimensotildees de um objeto
nrow(x) nuacutemero de linhas
ncol(x) nuacutemero de colunas
c) Seleccedilatildeo de dados e manipulaccedilatildeochoose(n k) calcula a combinaccedilatildeo de elementos escolhidos entre n
resultando n [(n-k) k]
cut(xbreaks) divide x em intervalos (fatores) breaks eacute o nuacutemero de intervalos de
corte ou um vetor com os valores especiacuteficos
table(x) retorna uma tabela com as quantidades dos diferentes valores de x
(tipicamente para variaacuteveis dos tipos inteiros ou fatores)
sample(x size) retira aleatoriamente com e sem reposiccedilatildeo elementos detamanho SIZE do vetor x a opccedilatildeo replace = TRUE permite a retirada com reposiccedilatildeo
proptable(xmargin=) transforma a tabela como tabela de propoccedilatildeo
marginal margin=1 (com relaccedilatildeo as linhas) margin=2 (com relaccedilatildeo as colunas)
sort(x) Classifica os elementos de x em ordem crescente para classificar em ordem
decrescente rev(sort(x))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5461
A2ndashResumo de comandosd) Estatiacutesticas e operaccedilotildees matemaacuteticasmean(x) media dos elementos de x
median(x) mediana dos elementos de x
quantile(xprobs=) quantis de x correspondendo a uma dada probabilidadevar(x) ou cov(x) variacircncia dos elementos de x (calculado com n-1)
se x eacute uma matriz a matriz de covariacircncia eacute calculada
sd(x) desvio padracirco de of x
cor(x) matriz de correlaccedilatildeo de x se x for uma matriz ou (1 se x eacute um vector)
cor(x y) correlaccedilatildeo linear entre X e Y ou matriz de correlaccedilatildeo se eles satildeo matrizes
round(x n) arredonda os elementos de x para n casas decimais sum x soma os e emen os e x
prod(x) multilica os elementos de x
max(x) acha o maacuteximo dos elementos de x
min(x) acha o miacutenimo dos elementos de x
range(x) equivalente a c(min(x)max(x)
cumsum(x) um vetor onde o eacutesimo elemento eacute a soma de x[1] ateacute x[i]cumprod(x) um vetor onde o eacutesimo elemento eacute o produto de x[1] ateacute x[i]
cummin(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
cummax(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
sincostanasinacosatanatan2loglog10exp)
log(x base) calcula o logaritmo de x na base=base
weightedmean(x w) media ponderada de x com peso= w
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5561
A2ndashResumo de comandos
e) Corte e extraccedilatildeo de dadosindexaccedilatildeo de Vetores
x[n] n-eacutesimo elemento do vetor
x[-n] todos menos o n-eacutesimo elemento
x[1n] os primeiros n elemento
x[-(1n)] elementos de n+1 ateacute o final
x[c(432)] elementos especificados
x[y gt 5] todo elementos de onde os valores de y satildeo maiores que 5
x x gt 3 amp x lt 5 todo elementos entre 3 e 5
x[nome] elemento denominado nome
indexaccedilatildeo de Matrizes
x[ij] elemento na linha i coluna j
x[i] linha i
x[j] coluna j
x[c(13)] colunas 1 and 3
x[nome] linha nomeada nome
indexaccedilatildeo de data frames
x[[nome]] coluna chamada nome
x$nome equivalente a coluna chamada nome
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5661
A2ndashResumo de comandos
f) Operaccedilatildeo com Matrizest(x) transposta da matrix x
diag(x) retira a diagonal da matrix x
multiplicaccedilatildeo matricial
solve(ab) resove a equaccedilatildeo a x = b em relaccedilatildeo a x
solve(a) matriz inversa de a
rowSum(x) soma das linhas da matrix x
colSum(x) soma das colunas da matrix x
rowMeans x meacutedia das linhas da matrix x
colMeans(x) id meacutedia das colunas da matrix x
g) Graacuteficos (Plotting)plot(x y) diagrama de disperccedilatildeo plot dos pares (xy) num sistema de eixos
coordenadoshist(x) histogram dasfrequecircncias of x
barplot(x) graacutefico de barras of x usar horiz=T ara barras horizontal
pie(x) graacutefico de setores (pie-chart)
boxplot(x)
qqnorm(x) quantis de x em relaccedilatildeo aos valores esperados de uma dist Normal
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5761
A2ndashResumo de comandosparametros dos commando de Graacutefico
type=p especifica o tipo de plot p pontos l linhas b pontos
ligados por linhas o idecircntico mas as linhas passam sobre os pontos h
linhas verticais s escada (steps) os dados satildeo representados pelas alturasverticais
xlim= ylim= especifica os limites inferiores e superiores dos eixos por exemplocom xlim=c(1 10) ou xlim=range(x)
xlab= ylab= nomeia os eixos o nome deve ser do tipo caracter
main= tiacutetulo principal deve ser do tipo caracter
sub= sub-tiacutetulo (escrito em fonte menor)
podem ser usados como bty(tipo de caixa) lwd (lagura da linha) lty (tipo delinha) pch(tipo de ponto) cex xaxs yaxs xaxtyaxt
h) Teste de hipoacuteteses
ttest()proptest()
chisqtest()
aov(formula) analysis of variance model
anova(fit) analysis of variance (or deviance) tables for one or more
fitted model objects
Use o commando gt test para procurar todos os testes disponiacuteveis
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5861
A2ndashResumo de comandos
i) Programmingfunction( arglist ) expr para definer uma funccedilatildeo
return(value)
if(cond) expr
if(cond) consexpr else altexpr
for(var in seq) expr
while(cond) expr
re eat ex r
break
Usar chaves entre commandos dlimitando o iniacutecio e o fim de um grupo decomandos
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5961
A2ndashResumo de comandos
j) Commandos auxiliaries em Graacuteficospoints(x y) adiciona pontos (a opccedilatildeo type= pode ser usada)
lines(x y) adiciona linhas (a opccedilatildeo type= pode ser usada)text(x y labels ) adiciona texto na coordenada (xy) um uso tiacutepico eacute
plot(x y type=n) text(x ynames)
segments(x0 y0 x1 y1) desenha linhas do ponto (x0 y0) ao (x1 y1)
arrows(x0 y0 x1 y1 angle= 30 code=2) desenha seta do ponto
(x0 y0) ao (x1 y1)
abline(ab) desenha uma reta de inclinaccedilatildeo b e intercepto a
abline(v=x) desenha uma reta vertical em x
abline(lsfit(xy)) desenha uma reta da regressatildeo feita em lsfit(xy)
rect(x1 y1 x2 y2) desenha um retacircngulo que a esquerda inferior tem coordenadas(x1 y1) e o limite da direita superiores (x2 y2)
polygon(x y) desenha um poliacutegono que une os pontos com coordenadas X e Y
legend(x y legend) Acrescenta a lenda no ponto (x y) com os siacutembolos
dada pela legend
title()adiciona um tiacutetulo e opcionalmente um sub-tiacutetulo
axis(side) acrescenta um eixo na parte inferior (side = 1) agrave esquerda (2) na partesuperior (3) ou agrave direita (4)
box()desenhar uma caixa em torno do plot
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6061
A2ndashResumo de comandos
k) Comando par (Graphical parameters)Todos estes comando podem ser definidos a niacutevel global com o par () que
especifica os paracircmetros mas tambeacutem muitos podem ser usados comoparametros dos commando de Graacutefico
mfcol vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em colunas
mfrow vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em linhas(matrix for row)
bty controla o tipo de caixa desenhada ao redor do enredo valores permitidos satildeo
o l 7 c u ou se bt =n a caixa natildeo eacute desenhada
lty controla o tipo de linhas pode ser um inteiro ou string (1 solid 2 dashed 3dotted 4 dotdash 5 longdash 6twodash) ou uma string de ateacuteoito caracteres (entre 0 e 9) que especifica o comprimento em pontos oupixels dos elementos desenhados e os espaccedilos em branco por exemplolty=rdquo44rdquo equivale a lty=2
lwd nuacutemero que controla a largura das linhas default 1pch controla o tipo de siacutembolo pode tambeacutem ser um nuacutemero inteiro entre 1 e 25
ps um inteiro que controla o tamanho em pontos de textos e siacutembolos
pty um caracter que especifica o tipo da regiatildeo s quadrado m maacuteximal
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6161
A2ndashResumo de comandos
l) Input and outputreadtable(file) lecirc um arquivo em formato de tabela e cria um quadro de dados a
partir dele o separador default = eacute espaccedilo em branco header = TRUE ler a
primeira linha como um cabeccedilalho de nomes de coluna asis = TRUE paraevitar aque um vetore de caracteres seja convertido em factores usocommentchar = para evitar seja interpretado como um comentaacuteriouso skip = n para pular n linhas antes da leitura de dados consulte a ajudapara as opccedilotildees de linha de nomeaccedilatildeo o tratamento NA e outros
readcsv(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por viacutergulas
readdelim(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por tabulaccedilotildees
readfwf(filewidthsheader=FALSEsep= asis=FALSE)
ler uma tabela de dados em formato fix de largura m para um dataframe widthseacute um vetor inteiro informando os tamanhos dos campos
sink(file) saiacuteda de todos os comandos para um arquivo ateacute aparecer um comando
sink () que desliga writetable(x file=rownames=Tcolnames=Tsep= ) imprime x apoacutes a
conversatildeo para banco de dados
save(file) guarda os objetos especificados () no formato XDR
load()carregar o conjunto de dados salvos com o comando save
data(x) carrega um conjunto de dados especificado
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2061
Cap 2-b Variaacuteveis Aleatoacuterias (va)Uma variaacutevel aleatoacuteria (va) eacute uma funccedilatildeo que associa cada elemento de um
espaccedilo amostral a um nuacutemero real As variaacuteveis aleatoacuterias podem ser do
tipo
Discreto se os seus valores pertencem a um conjunto enumeraacutevel de nuacutemerosreais (usualmente valores inteiros)
Contiacutenuo se os seus valores pertencem a um intervalo de nuacutemeros reais
O modelo probabiliacutestico de uma variaacutevel aleatoacuteria X estabelece o padratildeo de
comportamento de sua distribuiccedilatildeo de probabilidadeA fun atildeo de robabilidade de uma v a discreta X eacute definida orp(x)=P[X=x]
A funccedilatildeo de distribuiccedilatildeo acumulada F de uma v a X eacute definida porF(x) = P[Xlelelelex]
Se X eacute uma va discreta que assume os valores x 1
x 2
x 3
x N
entatildeo
bull A meacutedia ou esperanccedila de X eacuteE(X) = x 1 P(X=x 1 ) + x 2 P(X=x 2 ) + x 3 P(X=x 3 ) + + x N P(X=x N )
bull A Variacircncia de X eacute calculada por |Var(X)=(x 1 ndashE(X))2 P(X=x 1 )+(x 2 ndashE(X))2 P(X=x 2 )++(x N ndashE(X))2 P(X=x N )
bull O desvio padratildeo de X eacute igual agrave raiz quadrada natildeo negativa da suavariacircncia DP(X)= Var(X)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2161
Cap 2-b - va e o RO trabalho no R com uma va X estaacute baseado em 4 procedimentos
p probability ndash Gera a probabilidade de um valor de xq quantile ndash Gera o valor x de uma dada probabilidade acumulada pd density ndash Gera o valor da funccedilatildeo densidade num valor x da variaacutevel
Observar que quando a variaacutevel eacute discreta este valor eacute aprobabilidade de x quando a variaacutevel eacute contiacutenua o resultadoeacute a altura da funccedilatildeo densidade de probabilidade
r random ndash Gera n valores do modelo probabiliacutestico em questatildeo
As distribuiccedilotildees que estudaremos estatildeo listadas a seguir depois de cada uma delasentre parecircnteses estaacute o nome no R
(geom) Binomial negativa- Pascal (nbinom)
Entre as contiacutenuas Uniforme (unif ) Exponencial (exp) Normal (norm) t-student (t)quiquadrado (chisq) F (f )
A interligaccedilatildeo dos trecircs primeiros procedimentos pq e d seraacute ilustrada pela distribuiccedilatildeoNormal atraveacutes do graacutefico abaixo
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2261
Cap 2-b - va pnorm e qnormSeja a relaccedilatildeo p = P(Xltx) que aparece na tabela da distribuiccedilatildeo Normal Quiquadrada
t-student e F Para um dado valor de p acha-se um valor de x a procura direta que para aNormal no R corresponderia a pnorm(x 983221 σ) Neste caso devo informar o x e os dois
paracircmetros da distribuiccedilatildeo Normal 983221 e σJaacute a procura inversa seria para um dado valor de x achar um valor de p que para a Normalno R corresponderia a qnorm(p983221σ) Neste outro caso devo informar o valor de p desejado etambeacutem os dois paracircmetros da distribuiccedilatildeo Normal 983221 e σ
Exemplo Seja X a va que corresponde ao peso (em kg) de pessoas de uma certapopulaccedilatildeo com meacutedia 983221=70 Kg e desvio padratildeo σ=8 Kg assim X~ N(983221=70 σ2=82)
Se desejarmosa) P(Xlt80) usaremos no R o comando pnorm(80 70 8) isto eacute x=80 eacute o primeiro paracircmetroenquanto 70 e 8 satildeo paracircmetro especiacuteficos da distribuiccedilatildeo Normal
b) Admita que o peso limite para ser classificado como obeso eacute o valor que corresponde a10 dos mais pesados do populaccedilatildeo Achar este peso limiteO que se pede eacute a funccedilatildeo inversa Dado um valor de p=090 achar um valor de x que deixa90 abaixo dele No R seria qnorm(09 70 8) isto eacute o valor da probabilidade p=09 eacute
o primeiro paracircmetro enquanto 70 e 8 satildeo paracircmetros especiacuteficos da distribuiccedilatildeo NormalSe usarmos a Normal padratildeo z=(x-983221)σ no caso do item a o comando seria pnorm((80-70)8)ou pnorm(125) Repare que neste caso natildeo foi necessaacuterio passar os paracircmetros especiacuteficos daNormal pois 983221=0 e σ =1 coresponde ao default Observaccedilatildeo Sempre que usarmos um p oprimeiro paracircmetro eacute um x e os outros satildeo especiacuteficos da distribuiccedilatildeo em questatildeosempre que usarmos um q o primeiro paracircmetro eacute um p e os outros satildeo especiacuteficosSempre que usarmos um d o primeiro paracircmetro eacute um x
Quando usarmos uma distribuiccedilatildeo discreta o d corresponde aacute probabilidade no ponto x
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2361
Pag 118 ndash Figura 412
x=seq(010001)
plot(xdexp(x 12) type=l xlim=c(012) ylim=c(01) bty=l ylab=f(x) e F(x))
for(i in seq(0 25 001)) segments(i 0 i dexp(i12) col=lightgrey)
abline(v=0 h=0)
points(xdexp(x 12) type=l lwd=2 bty=l)
points(x pexp(x 12) lwd=2 type=l)
segments(250 25pexp(2512))
Cap 2-b - va dexp pexp points segments
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2461
Cap 2-b - va disponiacuteveis no Rrbinom(n size prob) binomialrpois(n lambda) Poissonrgeom(n prob) geometricarhyper(nn m n k) hipergeometricarnbinom(n size prob) binomial negativarunif(n min=0 max=1) uniformerexp(n rate=1) exponentialrnorm(n mean=0 sd=1) Gaussiana (normal)rt(n df) lsquoStudentrsquo (t )rf(n df1 df2) FisherndashSnedecor (F )
rchisq(n df) Quiquadradar amma n sha e scale=1 amma rbeta(n shape1 shape2) betarlnorm(n meanlog=0 sdlog=1) lognormalrcauchy(n location=0 scale=1) Cauchyrweibull(n shape scale=1) Weibullrwilcox(nn m n) Wilcoxonrsquos rank sum statistics
rsignrank(nn n) Wilcoxonrsquos signed rank statisticsrlogis(n location=0 scale=1) logistic
Todas essas distribuiccedilotildees apresentadas por rnome (nome da variaacutevel aleatoacuteria) como vimostrocando a primeira letra e mantendo os paracircmetros especiacuteficos de cada distribuiccedilatildeo(denotados por ) podem ser usadas substituindo a letra ldquor rdquo por
d valor da densidade de probabilidade no ponto x dnome (x )p probabilidade acumulada no ponto x pnome (x )
q quantil correspondente a probabilidade acumulada p dnome (p)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2561
Cap 2-c O Teorema Central do Limite (TCL)O Teorema Central do Limite (abreviadamente TCL) diz respeito ao comportamento da
meacutedia amostral agrave medida que o tamanho n da amostra cresce indefinidamente
Exemplo 31 ndash A distribuiccedilatildeo de renda e o TCLEacute um fato conhecido que a distribuiccedilatildeo da rendapessoal dos habitantes de um paiacutes eacuteusualmente muito desigual ou seja muitosganham pouco e poucos ganham muito Seforem sorteados 200 habitantes desse paiacutes e
com base nas suas rendas mensais
Agora se forem sorteadas 200 amostrascada uma delas contendo 2 habitantesdesse paiacutes e se forem calculadas as 200respectivas meacutedias amostrais a partir delas obteremos o histograma a seguir
Agora cada uma das 200 amostrassorteadas contendo 30 habitantes dessepaiacutes e se forem calculadas as 200 meacutediasamostrais o histograma seria
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2661
Cap 2-c ndash TCL ExemploComo pode ser observado no caso de n = 2 o histograma se aproxima mais de uma curvaNormal do que no caso de n = 1 E no caso de n = 30 a semelhanccedila do histograma com umacurva Normal eacute ainda maior
O Teorema Central do Limite afirma que independentemente de qual seja a
distribuiccedilatildeo original dos Xirsquos a distribuiccedilatildeo de probabilidade de e a
distribuiccedilatildeo Normal com meacutedia micromicromicromicro e variacircncia σσσσ2 n se aproximam cada vez
mais uma da outra agrave medida que n cresce
Portanto mesmo que a distribuiccedilatildeo de probabilidade dos Xirsquos seja desconhecida o Teorema
X n
Central do Limite garante a possibilidade de usarmos o modelo Normal para calcular ainda quede forma aproximada probabilidades relativas agrave meacutedia amostral desde que n sejasuficientemente grande
Exemplo 62 Simulando o efeito do TCL
Para ilustrar o funcionamento do Teorema Central do Limite vamos exibir agora um exemploem que a distribuiccedilatildeo original a partir da qual os dados satildeo gerados eacute uma exponencial modelo
este que daacute origem a uma funccedilatildeo densidade bastante assimeacutetrica (ao contraacuterio do que ocorre
com a curva Normal) A densidade de uma exponencial com paracircmetro eacute dada pela
expressatildeo
No R rexp(n ) simula n valores
λ
0 xλef(x) λx ge= minusλ
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2761
Cap 2-c ndash TCL ExemploA densidade de uma exponencial com paracircmetro eacute dada pela expressatildeo
Gerando dados por simulaccedilatildeo a partir de uma exponencial com λ = 13 para cada um dos
seguintes tamanhos n de amostra 1 2 3 4 5 10 15 e 201 Obtivemos 200 valores da meacutedia amostral 2 Utilizamos esses 200 valores para construir um histograma3 Traccedilamos no mesmo graacutefico uma curva da densidade Normal com E( )=3 e DP( )=3Xn
λ 0 xλef(x) λx ge= minus
Xn n
Os 8 histogramas nos mostram que agrave medida que o tamanho n da amostra cresce
a forma do histograma se aproxima cada vez mais de uma curva Normal
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2861
Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com
simulaccedilotildees - Exponencial
tclexp=function(n N=200 titulo= yl=c(0 4)) iniacutecio da funccedilatildeo ndash tclexpmedias=numeric(N)
for (i in 1N) medias[i]= mean(rexp(n13))
hist(medias xlim=c(-110) ylim=yl freq=F main=titulo)
x=seq(-110 02)
points(x dnorm(x 3 3sqrt(1n) ) type=l lwd=3)
fim da funccedilatildeo
graphicsoff()
par(mfrow=c(33) mai=c(3411))
tclexp(1titulo=n=1)
tclexp(2titulo=n=2)
tclexp(3titulo=n=3)
tclexp(4titulo=n=4)
tclexp(5titulo=n=5)
tclexp(6titulo=n=6)
tclexp(10titulo=n=10yl=c(06))
tclexp(15titulo=n=15yl=c(06))
tclexp(20titulo=n=20yl=c(06))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2961
Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com
simulaccedilotildees - Exponencial
Uma pergunta natural neste ponto serialdquoQuatildeo grande deve ser n para que possamos usar a aproximaccedilatildeo fornecida pelo
TCL com um niacutevel de precisatildeo aceitaacutevelrdquo
A rapidez com que essa convergecircncia se daacute depende de quatildeo distante estaacute a forma
da distribuiccedilatildeo original das Xirsquos de uma curva Normal Em outras palavras se a
distribuiccedilatildeo das Xirsquos jaacute natildeo for muito diferente de uma Normal com um n natildeo muito-
grande (usualmente n ge 30) a aproximaccedilatildeo da distribuiccedilatildeo de por uma Normal
funcionaria adequadamente
No exemplo a seguir vamos apresentar esse fenocircmeno a saber a convergecircncia da
distribuiccedilatildeo de para uma Normal agrave medida que n cresce gerando por simulaccedilatildeo osdados originais a partir de diferentes modelos probabiliacutesticos Em todos os casos a
distribuiccedilatildeo original eacute bem diferente da Normal E(X)=3 e DP(X)=3 No que se refere agrave
Simulaccedilatildeo foi seguida a mesma sequumlecircncia de passos do exemplo anterior
Xn
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3061
Cap 2-c ndash TCL Exemplo
Exponencial
Uniforme
Mistura deNormais
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3161
Como se pode observar
1 No caso da distribuiccedilatildeo uniforme (A) o histograma de jaacute se aproximabastante de uma Normal quando n eacute da ordem de 4
2 Jaacute no caso da distribuiccedilatildeo Exponencial (B) e da mistura de normais
(C) modelos esses que se afastam muito mais de umldquo rdquo
Cap 2-c ndash TCL Exemplo
mostra mais adequada a partir de n em torno de 10
3 No caso do modelo em (C) agrave medida que n cresce tudo se passacomo se houvesse a ldquoerupccedilatildeo de um vulcatildeo dentro do valerdquo
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3261
tclunif=function(nN=100titulo= yl=c(0 4))
medias=numeric(N)for (i in 1N) medias[i]= mean(runif(n 3-3sqrt(3) 3+3sqrt(3)))
hist(medias xlim=c(-610) ylim=yl freq=F main=titulo)
x=seq(-610 02)
points(x dnorm(x 3 3sqrt(1n) ) type=l lwd=3)
medias
Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com
as simulaccedilotildees - Uniforme
grap cso
par(mfrow=c(33) mai=c(3411))
tclunif(1titulo=n=1yl=c(06))
tclunif(2titulo=n=2yl=c(06))
tclunif(3titulo=n=3yl=c(06))
tclunif(4titulo=n=4yl=c(06))tclunif(5titulo=n=5yl=c(06))
tclunif(6titulo=n=6yl=c(06))
tclunif(10titulo=n=10yl=c(06))
tclunif(15titulo=n=15yl=c(06))
tclunif(20titulo=n=20yl=c(06))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3361
X2=c(rnorm(35011) rnorm(15081)) X2 eacute a Populaccedilatildeo de onde retiramos as amostras
br=seq(-2 12 5)
tcl2modas=function(nN=200titulo= yl=c(0 6)) medias=numeric(N)for (i in 1N) medias[i]= mean(sample(X2nrep=T))hist(mediasbreaks=br xlim=c(-212) tcl=-01 ylim=yl xarp=c(-31216)
tck=005 lab=c(5515) freq=F main=titulo)x=seq(-312 02)
Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com
as simulaccedilotildees - Mistura de Normais
points(x dnorm(x med dpsqrt(n) ) type=l lwd=2)
par(mfrow=c(24) mai=c(3011) mar=c(2 2 2 1))
hist(X2 freq=F breaks=seq(-3125) bty=o xlim=c(-212)xarp=c(-31216)tck=005 lab=c(5515) ylim=c(06) main=POPULACcedilAtildeO lwd=2)
tcl2modas(2titulo=n=2)tcl2modas(3titulo=n=3)
tcl2modas(4titulo=n=4)
tcl2modas(5titulo=n=5)
tcl2modas(10titulo=n=10)
tcl2modas(15titulo=n=15)
tcl2modas(25titulo=n=25)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3461
CAP 3-a) Intervalo de ConfianccedilaSeja um estimador pontual do paracircmetro eacute uma variaacutevel aleatoacuteria que varia deamostra para amostra Por isso haacute uma certa dose de incerteza inerente a esse processode estimaccedilatildeo Nosso objetivo agora eacute obter com base nos dados amostrais (da uacutenicaamostra observada) um intervalo ao qual o valor correto do paracircmetro deve ter grandechance de pertencer
bull Detalhando um pouco mais No processo de estimaccedilatildeo por intervalo de um paracircmetro θdevemos determinar um intervalo que contenha o verdadeiro valor do paracircmetro comprobabilidade 1-α onde α eacute um pequeno valor preacute-fixado Este intervalo eacute construiacutedo emgeral em torno do estimador pontual considerando uma margem de erro d de forma aque uma vez fixada a probabilidade 1-α calculemos d tal que P( - d le θ le + d ) = 1 -αChama-se intervalo de confianccedila para θ ao niacutevel 1 - α ao intervalo [ - d + d]
θ $θ
$θ$θ
$θ $θ
$
θ
bull Ou seja o estimador pontual eacute o centro do Intervalo de Confianccedila e o erro absoluto dassociado a define a amplitude desse intervalo O que eacute de fato variaacutevel aleatoacuteria satildeoos extremos do intervalo O paracircmetro tem valor desconhecido natildeo aleatoacuterio (fixo a ser estimado)
Exemplo Intervalo de Confianccedila para a meacutedia populacional com o desvio padratildeo conhecidoO paracircmetro a estimar eacute a meacutedia populacional micro A estimaccedilatildeo seraacute baseada em X1 X2 Xn
uma amostra aleatoacuteria com E(Xi) = micro e var(Xi) = σ2 para todo i = 12 n Queremos que seja
vaacutelida a expressatildeo o que equivale a P [ -d le -micro le d] = 1-α
$θ
X[ ] α1dmicroXP minus=leminus
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3561
bull Lembrando que para n suficientemente grande pelo Teorema Central do Limite a meacutediaamostral segue uma distribuiccedilatildeo que se aproxima da Normal(micromicromicromicro σσσσ2 n) (ou eacute exatamente aNormal(micromicromicromicro σσσσ2 n) no caso em que a distribuiccedilatildeo comum das va Xirsquos jaacute eacute Normal) entatildeo
P [-d le -micromicromicromicro le d] = 1-α rArr 1-α = P [ |Z| le ] Logo d =
bull Faremos uma simulaccedilatildeo para a construccedilatildeo de Intervalos de Confianccedila com 100 amostras dedois tipos de populaccedilatildeo Normal e Exponencial A lista de comandos do R que usamos eacute
ICN = function (N n mu sigma = 3 conf)
plot(0 0 type=n xlim=c(010) ylim=c(0N) bty=l
xlab=Normal ylab=amostras)abline(v=mu)
CAP 3-a) Intervalo de Confianccedila
X
nσ
d
minus
z0 = qnorm(1-((1-conf)2))
sigmaxbarra = sigmasqrt(n)
for (i in 1N)
x = rnorm(n mu sigma)
media = mean(x)
li = media - z0 sigmaxbarrals = media + z0 sigmaxbarra
plotx = c(lils)
ploty = c(ii)
if (li gt mu | ls lt mu) lines(plotxploty col=red)
else lines(plotxploty)
gt ICN(100 25 3 3 95)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3661
CAP 3-a) Intervalo de Confianccedila
ICexp = function (N n lambda conf)
mu=1lambda sigma=1lambda
plot(0 0 type=n xlim=c(010) ylim=c(0N) bty=lxlab=Exponencial ylab=amostras)
abline(v= mu)
z0 = qnorm(1-((1-conf)2))
sigmaxbarra = sigmasqrt(n)
for (i in 1N)
x = rexp(nlambda) me a = mean x
li = media - z0 sigmaxbarra
ls = media + z0 sigmaxbarra
plotx = c(lils)
ploty = c(ii)
if (li gt mu | ls lt mu) lines(plotx ploty col=red)
else lines(plotx ploty)
gt ICexp(100 25 13 95)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3761
CAP 3-b Teste de Hipoacuteteses (TH)O objetivo de um teste de hipoacutetese eacute avaliar a validade de uma afirmaccedilatildeo sobre determinada
caracteriacutestica da populaccedilatildeo usando para isso os dados de uma amostra Essa caracteriacutestica eacute
representada pela va contiacutenua X cujo comportamento probabiliacutestico eacute expresso pela funccedilatildeo dedensidade f com paracircmetro Ө que tem valor desconhecido
Em um teste existem duas hipoacuteteses envolvidas H0 denominada hipoacutetese nula e H1
denominada hipoacutetese alternativa O procedimento de teste de hipoacutetese consiste em estabelecer
um criteacuterio de decisatildeo que leve a Aceitar ou Rejeitar H0 com base nos valores amostrais
A Estatiacutestica de teste eacute uma funccedilatildeo da amostra aleatoacuteria utilizada para definir o criteacuterio de
decisatildeo Estabelecer o criteacuterio de decisatildeo consiste em dividir o conjunto dos valores possiacuteveis
da estatiacutestica de teste em duas partes denominadas Regiatildeo de Aceitaccedilatildeo A e Regiatildeo de
Rejeiccedilatildeo R da hipoacutetese nula
Em um teste de hipoacutetese haacute dois tipos possiacuteveis de erro de decisatildeo
Erro I - Rejeitar H0 quando H0 eacute verdadeira
Erro II - Aceitar H0 quando H0 eacute falsaAs probabilidades de ocorrecircncia dos erros satildeo α = P [ Erro I ] e β = P [ Erro II]
A probabilidade de erro I α eacute o niacutevel de significacircncia do teste cujo valor eacute arbitrado pelo
pesquisador deve ser pequena pois corresponde a probabilidade de um erro (005 ou 001)
O niacutevel criacutetico ou p-valor do teste eacute o menor valor de α para o qual ainda rejeitariacuteamos H0 de
acordo com os dados observados
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3861
CAP 3-b) ndash TH teste tttest(x y = NULL alternative = c(twosided less greater) mu = 0
paired = FALSE varequal = FALSE conflevel = 095 )
Procedimentos de teste de hipoacuteteses com niacutevel de significacircncia α e amostras de tamanho n
UmaAmostra
DuasAmostras
Obs Os testes acima satildeo bilaterais
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3961
CAP 3ndashb) TH exemplo de teste t ndash amostras independentespag233- teste t amostras independente - comparaccedilatildeo log(salaacuterio)
entre os grupos de comeacutercio e de serviccedilo
LogSal=c(1289156912501344145616361573171309060903
0977122011031069128714101496131113371366
1227119114591280115217401649176524101701
1538192419251721154918911534163812071682
120614232010143112651570)
Sal=exp(LogSal)
setor= c(rep(C23) rep(S23))
ttest(Sal[setor==C] Sal[setor==S] varequal=T)
Two Sample t-test
data Sal[setor == C] and Sal[setor == S]
t = -36822 df = 44 p-value = 00006289
alternative hypothesis true difference in means is not equal to 095 percent confidence interval
-23079005 -06751838
sample estimates
mean of x mean of y3786010 5277552
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4061
CAP 3ndashb) TH exemplo de teste t ndash amostra pareadapag237- teste t pareado
P1=c(6315596455545480598065203660986853
8765647785536980827184605572645564)
P2=c(3638306043466455604343523428837155
8238556767443459605968506254473652)
ttest(P1 P2 alt=greater paired = T)
Paired t-test
data P1 and P2
t = 44176 df = 33 p-value = 5072e-05
alternative hypothesis true difference in means is greater than 0
95 percent confidence interval
0716695 Inf
sample estimates
mean of the differences
1161765
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4161
CAP 3ndashb) TH exemplo de teste Quiquadrado chisqtest
pag233- teste Quiquadrado -
tcont=matrix(c(683585251530258 7461761220225) 72)
chisqtest(tcont)
Pearsons Chi-squared test
data tcont- = = - lt -
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4261
CAP 3ndashb) TH exemplo de teste Quiquadrado chisqtestaov(formula data = NULL )
pag244- ANOVA - Comparaccedilatildeo de trecircs raccedilotildees para suinos
A=c(444943514475425134305342453630
322133421040395246294247453959)
B=c(343640545953445432686954414647
6566455739)
C=c(574040364566395025212927283942
21304143294244582849)
aumentoP=c(ABC)
racao=c(rep(A30)rep(B20) rep(C25))
summaryaov(aov(aumentoP ~ racao))
Df Sum Sq Mean Sq F value Pr(gtF)racao 2 15385 7693 56136 0005425
Residuals 72 98666 1370
---
Signif codes 0 lsquorsquo 0001 lsquorsquo 001 lsquorsquo 005 lsquorsquo 01 lsquo rsquo 1
Warning message
In modelmatrixdefault(mt mf contrasts)
variable racao converted to a factor
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4361
ApecircndicesA-1) Apresentaremos aqui algumas figuras
feitas no R na elaboraccedilatildeo do livro
Achamos que o exame desses coacutedigos acompanhado dos resultados podeser um bom aprendizado um exerciacutecio ou talvez uma recordaccedilatildeo do materialaqui exposto
A-2) Resumo de comandosa) Criaccedilatildeo de dados
b) Informaccedilatildeo de uma Variaacutevel
c) Seleccedilatildeo de dados e manipulaccedilatildeo
d) Estatiacutesticas e operaccedilotildees matemaacuteticas
e) Corte e extraccedilatildeo de dados
f) Operaccedilatildeo com Matrizes
g) Graacuteficos (Plotting)
h) Teste de hipoacuteteses
i) Programming
j) Commandos auxiliaries em Graacuteficos
k) Comando par (Graphical parameters)
l) Input and output
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4461
A1) ndash Pag 14 ndash Figura 15
IDADE=c(616961716371726866697267636663636067716360696463667164706366646969646372736871726968687379)
IMC= c(245273281301254301280234268228255228235232203226239243271227237258213243243248219234216214221227227211268278275267286253239258247284235)
par(mfrow=c(12))hist(IDADE breaks=c(6065707580) ylim=c(020) ylab=Nuacutemero de Observaccedilotildees
main= col=grey right = F)hist(IMC breaks=c(200225250275300325)
ylab=Nuacutemero de Observaccedilotildeesmain= col=grey right = F )
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4561
A1) ndash Pag 44 ndash Figura 21
mat=matrix(c(81823913601818608740)32)
rownames(mat)=c(AtivaSedentaacuteriaTotal)colnames(mat)=c(NormalSobrepeso)barplot(t(mat) beside = TRUE space=c(315)
col=gray(c(79))legend = c(NormalSobrepeso) ylim = c(0 95) ylab= - percentagem)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4661
A1) ndash Pag 48 ndash Figura 22
mat= matrix(c(68154510 66214215 66242519 39161711)44byrow=T)
rownames(mat)=c(18 a 21 anos 22 a 25 anos 26 a 30 anos 31 a 40 anos)colnames(mat)=c(CinTeatSMDEx)mat1=mat for (i in 14) mat1[i]lt-mat1[i]100sum(mat1[i]) par(mfrow=c(12) mai=c(1111) mar=c(5 4 2 2) )barplot(matbeside=F ylim=c(0250) legend = c(18 a 21 anos 22 a 25 anos
26 a 30 anos 31 a 40 anos) xlab=Contagem)
barplot(mat1 beside=F xlab=Percentagem)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4761
A1) ndash Pag 52 ndash Figura 25X= c(184114821789235159118762592403190408372147328526471687
09642871437079238215753399242122530314859149806)y =c(01837012540193301620014230140604568022870231400861019960235302186012798991801254018210244160823
0147764068011818941403474539680150133247023685518102146187520214097090257291227
036282905401406510810113849399)plot(x y xlim=c(07) ylim=c(05) pch=16 bty=l xlab=Renda per capita
ylab=Telefonia Fixa per capita)
abline(lsfit(xy))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4861
A1) ndash Pag 109 ndash Figura 45
x=020
y1=dpois(x1) y2=dpois(x3) y3=dpois(x10)names(y1)=x names(y2)=x names(y3)=xpar(mfrow=c(13))plot(y1ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=1)plot(y2ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=3)plot(y3ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=10)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4961
A1) ndash Pag 118 ndash Figura 412
x=seq(010001)
plot(xdexp(x 12) type=l xlim=c(012) ylim=c(01) bty=l ylab=f(x) eF(x))for(i in seq(0 25 001)) segments(i 0 i dexp(i12) col=lightgrey)abline(v=0 h=0)points(xdexp(x 12) type=l lwd=2 bty=l)points(xpexp(x 12) lwd=2 type=l)segments(250 25pexp(2512))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5061
A1) ndash Pag 163 ndash Figura 68
plot(p xlim=c(618) ylim=c(016) type=n bty=l xaxt=n xlab= ylab=
cexaxis=6)for (i in 1015) rect(i-50 i+5 dbinom(i304) col=lightgrey) lty=2)segments(i0idbinom(i304) lty=2)
x=seq(61801) lines(x dnorm(x12sqrt(72)) lwd=2)x=seq(61801) lines(x dnorm(x12sqrt(72)) lwd=2)
axis(1 916 cexaxis=9) ax s seq cexax s=
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5161
A1) ndash Pag 198 ndash Figura 78
x1=seq(-4402)plot(x1dnorm(x1) type=l lwd=3 xlab= ylab= )lines(x1 dt(x11)) lines(x1 dt(x12)) lines(x1 dt(x15))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5261
A2ndashResumo de comandos
a)Criaccedilatildeo de dados
c()funccedilatildeo geneacuterica para combinar argumentos com o formando de um vetor fromto gera uma sequecircnce ldquordquo tem prioridade de operator pe13 + 1 is ldquo234rdquo
seq(fromtoby) gera uma sequecircncia by= especifica incremento
length= especifica um comprimento desejado
rep(xtimes) replicate x onuacutemero times de vezes use each= para repetir cada
elemento de x rep(c(123)2) gera 1 2 3 1 2 3 rep(c(12)each=2) gera 1 1 2 2
matrix(xnrow=ncol=) matrix elementos de x se reciclam caso x
rbind()combina vetores em linhas num estrutura de matrizes de dados
cbind()combina vetores em colunas num estrutura de matrizes de dados
array(xdim=) matriz com dados x especificar dimensotildees como dim=c(342)
elementos de x se reciclam caso x natildeo seja suficientemente grande
factor(xlevels=) codifica um vetor x como um fator gl(nklength=nklabels=1n) gerar niacuteveis (fatores) especificando
o padratildeo de seus niacuteveis k eacute o nuacutemero de niacuteveis e n eacute o nuacutemero de repeticcedilotildees
dataframe() criar um banco de dados Por exemplo
dataframe(v=14ch=c(gBcasad)n=5)
list()criar uma lista de argumentos Por exemplo list(a=c(12)b=hic=3i)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5361
A2ndashResumo de comandos
b) Informaccedilatildeo de uma Variaacutevellength(x) nuacutemero de elementos em x
dim(x) Obter ou definir a dimensatildeo de um objeto dim (x) = c(32)dimnames(x) Obter ou definir os nomes das dimensotildees de um objeto
nrow(x) nuacutemero de linhas
ncol(x) nuacutemero de colunas
c) Seleccedilatildeo de dados e manipulaccedilatildeochoose(n k) calcula a combinaccedilatildeo de elementos escolhidos entre n
resultando n [(n-k) k]
cut(xbreaks) divide x em intervalos (fatores) breaks eacute o nuacutemero de intervalos de
corte ou um vetor com os valores especiacuteficos
table(x) retorna uma tabela com as quantidades dos diferentes valores de x
(tipicamente para variaacuteveis dos tipos inteiros ou fatores)
sample(x size) retira aleatoriamente com e sem reposiccedilatildeo elementos detamanho SIZE do vetor x a opccedilatildeo replace = TRUE permite a retirada com reposiccedilatildeo
proptable(xmargin=) transforma a tabela como tabela de propoccedilatildeo
marginal margin=1 (com relaccedilatildeo as linhas) margin=2 (com relaccedilatildeo as colunas)
sort(x) Classifica os elementos de x em ordem crescente para classificar em ordem
decrescente rev(sort(x))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5461
A2ndashResumo de comandosd) Estatiacutesticas e operaccedilotildees matemaacuteticasmean(x) media dos elementos de x
median(x) mediana dos elementos de x
quantile(xprobs=) quantis de x correspondendo a uma dada probabilidadevar(x) ou cov(x) variacircncia dos elementos de x (calculado com n-1)
se x eacute uma matriz a matriz de covariacircncia eacute calculada
sd(x) desvio padracirco de of x
cor(x) matriz de correlaccedilatildeo de x se x for uma matriz ou (1 se x eacute um vector)
cor(x y) correlaccedilatildeo linear entre X e Y ou matriz de correlaccedilatildeo se eles satildeo matrizes
round(x n) arredonda os elementos de x para n casas decimais sum x soma os e emen os e x
prod(x) multilica os elementos de x
max(x) acha o maacuteximo dos elementos de x
min(x) acha o miacutenimo dos elementos de x
range(x) equivalente a c(min(x)max(x)
cumsum(x) um vetor onde o eacutesimo elemento eacute a soma de x[1] ateacute x[i]cumprod(x) um vetor onde o eacutesimo elemento eacute o produto de x[1] ateacute x[i]
cummin(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
cummax(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
sincostanasinacosatanatan2loglog10exp)
log(x base) calcula o logaritmo de x na base=base
weightedmean(x w) media ponderada de x com peso= w
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5561
A2ndashResumo de comandos
e) Corte e extraccedilatildeo de dadosindexaccedilatildeo de Vetores
x[n] n-eacutesimo elemento do vetor
x[-n] todos menos o n-eacutesimo elemento
x[1n] os primeiros n elemento
x[-(1n)] elementos de n+1 ateacute o final
x[c(432)] elementos especificados
x[y gt 5] todo elementos de onde os valores de y satildeo maiores que 5
x x gt 3 amp x lt 5 todo elementos entre 3 e 5
x[nome] elemento denominado nome
indexaccedilatildeo de Matrizes
x[ij] elemento na linha i coluna j
x[i] linha i
x[j] coluna j
x[c(13)] colunas 1 and 3
x[nome] linha nomeada nome
indexaccedilatildeo de data frames
x[[nome]] coluna chamada nome
x$nome equivalente a coluna chamada nome
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5661
A2ndashResumo de comandos
f) Operaccedilatildeo com Matrizest(x) transposta da matrix x
diag(x) retira a diagonal da matrix x
multiplicaccedilatildeo matricial
solve(ab) resove a equaccedilatildeo a x = b em relaccedilatildeo a x
solve(a) matriz inversa de a
rowSum(x) soma das linhas da matrix x
colSum(x) soma das colunas da matrix x
rowMeans x meacutedia das linhas da matrix x
colMeans(x) id meacutedia das colunas da matrix x
g) Graacuteficos (Plotting)plot(x y) diagrama de disperccedilatildeo plot dos pares (xy) num sistema de eixos
coordenadoshist(x) histogram dasfrequecircncias of x
barplot(x) graacutefico de barras of x usar horiz=T ara barras horizontal
pie(x) graacutefico de setores (pie-chart)
boxplot(x)
qqnorm(x) quantis de x em relaccedilatildeo aos valores esperados de uma dist Normal
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5761
A2ndashResumo de comandosparametros dos commando de Graacutefico
type=p especifica o tipo de plot p pontos l linhas b pontos
ligados por linhas o idecircntico mas as linhas passam sobre os pontos h
linhas verticais s escada (steps) os dados satildeo representados pelas alturasverticais
xlim= ylim= especifica os limites inferiores e superiores dos eixos por exemplocom xlim=c(1 10) ou xlim=range(x)
xlab= ylab= nomeia os eixos o nome deve ser do tipo caracter
main= tiacutetulo principal deve ser do tipo caracter
sub= sub-tiacutetulo (escrito em fonte menor)
podem ser usados como bty(tipo de caixa) lwd (lagura da linha) lty (tipo delinha) pch(tipo de ponto) cex xaxs yaxs xaxtyaxt
h) Teste de hipoacuteteses
ttest()proptest()
chisqtest()
aov(formula) analysis of variance model
anova(fit) analysis of variance (or deviance) tables for one or more
fitted model objects
Use o commando gt test para procurar todos os testes disponiacuteveis
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5861
A2ndashResumo de comandos
i) Programmingfunction( arglist ) expr para definer uma funccedilatildeo
return(value)
if(cond) expr
if(cond) consexpr else altexpr
for(var in seq) expr
while(cond) expr
re eat ex r
break
Usar chaves entre commandos dlimitando o iniacutecio e o fim de um grupo decomandos
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5961
A2ndashResumo de comandos
j) Commandos auxiliaries em Graacuteficospoints(x y) adiciona pontos (a opccedilatildeo type= pode ser usada)
lines(x y) adiciona linhas (a opccedilatildeo type= pode ser usada)text(x y labels ) adiciona texto na coordenada (xy) um uso tiacutepico eacute
plot(x y type=n) text(x ynames)
segments(x0 y0 x1 y1) desenha linhas do ponto (x0 y0) ao (x1 y1)
arrows(x0 y0 x1 y1 angle= 30 code=2) desenha seta do ponto
(x0 y0) ao (x1 y1)
abline(ab) desenha uma reta de inclinaccedilatildeo b e intercepto a
abline(v=x) desenha uma reta vertical em x
abline(lsfit(xy)) desenha uma reta da regressatildeo feita em lsfit(xy)
rect(x1 y1 x2 y2) desenha um retacircngulo que a esquerda inferior tem coordenadas(x1 y1) e o limite da direita superiores (x2 y2)
polygon(x y) desenha um poliacutegono que une os pontos com coordenadas X e Y
legend(x y legend) Acrescenta a lenda no ponto (x y) com os siacutembolos
dada pela legend
title()adiciona um tiacutetulo e opcionalmente um sub-tiacutetulo
axis(side) acrescenta um eixo na parte inferior (side = 1) agrave esquerda (2) na partesuperior (3) ou agrave direita (4)
box()desenhar uma caixa em torno do plot
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6061
A2ndashResumo de comandos
k) Comando par (Graphical parameters)Todos estes comando podem ser definidos a niacutevel global com o par () que
especifica os paracircmetros mas tambeacutem muitos podem ser usados comoparametros dos commando de Graacutefico
mfcol vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em colunas
mfrow vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em linhas(matrix for row)
bty controla o tipo de caixa desenhada ao redor do enredo valores permitidos satildeo
o l 7 c u ou se bt =n a caixa natildeo eacute desenhada
lty controla o tipo de linhas pode ser um inteiro ou string (1 solid 2 dashed 3dotted 4 dotdash 5 longdash 6twodash) ou uma string de ateacuteoito caracteres (entre 0 e 9) que especifica o comprimento em pontos oupixels dos elementos desenhados e os espaccedilos em branco por exemplolty=rdquo44rdquo equivale a lty=2
lwd nuacutemero que controla a largura das linhas default 1pch controla o tipo de siacutembolo pode tambeacutem ser um nuacutemero inteiro entre 1 e 25
ps um inteiro que controla o tamanho em pontos de textos e siacutembolos
pty um caracter que especifica o tipo da regiatildeo s quadrado m maacuteximal
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6161
A2ndashResumo de comandos
l) Input and outputreadtable(file) lecirc um arquivo em formato de tabela e cria um quadro de dados a
partir dele o separador default = eacute espaccedilo em branco header = TRUE ler a
primeira linha como um cabeccedilalho de nomes de coluna asis = TRUE paraevitar aque um vetore de caracteres seja convertido em factores usocommentchar = para evitar seja interpretado como um comentaacuteriouso skip = n para pular n linhas antes da leitura de dados consulte a ajudapara as opccedilotildees de linha de nomeaccedilatildeo o tratamento NA e outros
readcsv(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por viacutergulas
readdelim(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por tabulaccedilotildees
readfwf(filewidthsheader=FALSEsep= asis=FALSE)
ler uma tabela de dados em formato fix de largura m para um dataframe widthseacute um vetor inteiro informando os tamanhos dos campos
sink(file) saiacuteda de todos os comandos para um arquivo ateacute aparecer um comando
sink () que desliga writetable(x file=rownames=Tcolnames=Tsep= ) imprime x apoacutes a
conversatildeo para banco de dados
save(file) guarda os objetos especificados () no formato XDR
load()carregar o conjunto de dados salvos com o comando save
data(x) carrega um conjunto de dados especificado
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2161
Cap 2-b - va e o RO trabalho no R com uma va X estaacute baseado em 4 procedimentos
p probability ndash Gera a probabilidade de um valor de xq quantile ndash Gera o valor x de uma dada probabilidade acumulada pd density ndash Gera o valor da funccedilatildeo densidade num valor x da variaacutevel
Observar que quando a variaacutevel eacute discreta este valor eacute aprobabilidade de x quando a variaacutevel eacute contiacutenua o resultadoeacute a altura da funccedilatildeo densidade de probabilidade
r random ndash Gera n valores do modelo probabiliacutestico em questatildeo
As distribuiccedilotildees que estudaremos estatildeo listadas a seguir depois de cada uma delasentre parecircnteses estaacute o nome no R
(geom) Binomial negativa- Pascal (nbinom)
Entre as contiacutenuas Uniforme (unif ) Exponencial (exp) Normal (norm) t-student (t)quiquadrado (chisq) F (f )
A interligaccedilatildeo dos trecircs primeiros procedimentos pq e d seraacute ilustrada pela distribuiccedilatildeoNormal atraveacutes do graacutefico abaixo
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2261
Cap 2-b - va pnorm e qnormSeja a relaccedilatildeo p = P(Xltx) que aparece na tabela da distribuiccedilatildeo Normal Quiquadrada
t-student e F Para um dado valor de p acha-se um valor de x a procura direta que para aNormal no R corresponderia a pnorm(x 983221 σ) Neste caso devo informar o x e os dois
paracircmetros da distribuiccedilatildeo Normal 983221 e σJaacute a procura inversa seria para um dado valor de x achar um valor de p que para a Normalno R corresponderia a qnorm(p983221σ) Neste outro caso devo informar o valor de p desejado etambeacutem os dois paracircmetros da distribuiccedilatildeo Normal 983221 e σ
Exemplo Seja X a va que corresponde ao peso (em kg) de pessoas de uma certapopulaccedilatildeo com meacutedia 983221=70 Kg e desvio padratildeo σ=8 Kg assim X~ N(983221=70 σ2=82)
Se desejarmosa) P(Xlt80) usaremos no R o comando pnorm(80 70 8) isto eacute x=80 eacute o primeiro paracircmetroenquanto 70 e 8 satildeo paracircmetro especiacuteficos da distribuiccedilatildeo Normal
b) Admita que o peso limite para ser classificado como obeso eacute o valor que corresponde a10 dos mais pesados do populaccedilatildeo Achar este peso limiteO que se pede eacute a funccedilatildeo inversa Dado um valor de p=090 achar um valor de x que deixa90 abaixo dele No R seria qnorm(09 70 8) isto eacute o valor da probabilidade p=09 eacute
o primeiro paracircmetro enquanto 70 e 8 satildeo paracircmetros especiacuteficos da distribuiccedilatildeo NormalSe usarmos a Normal padratildeo z=(x-983221)σ no caso do item a o comando seria pnorm((80-70)8)ou pnorm(125) Repare que neste caso natildeo foi necessaacuterio passar os paracircmetros especiacuteficos daNormal pois 983221=0 e σ =1 coresponde ao default Observaccedilatildeo Sempre que usarmos um p oprimeiro paracircmetro eacute um x e os outros satildeo especiacuteficos da distribuiccedilatildeo em questatildeosempre que usarmos um q o primeiro paracircmetro eacute um p e os outros satildeo especiacuteficosSempre que usarmos um d o primeiro paracircmetro eacute um x
Quando usarmos uma distribuiccedilatildeo discreta o d corresponde aacute probabilidade no ponto x
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2361
Pag 118 ndash Figura 412
x=seq(010001)
plot(xdexp(x 12) type=l xlim=c(012) ylim=c(01) bty=l ylab=f(x) e F(x))
for(i in seq(0 25 001)) segments(i 0 i dexp(i12) col=lightgrey)
abline(v=0 h=0)
points(xdexp(x 12) type=l lwd=2 bty=l)
points(x pexp(x 12) lwd=2 type=l)
segments(250 25pexp(2512))
Cap 2-b - va dexp pexp points segments
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2461
Cap 2-b - va disponiacuteveis no Rrbinom(n size prob) binomialrpois(n lambda) Poissonrgeom(n prob) geometricarhyper(nn m n k) hipergeometricarnbinom(n size prob) binomial negativarunif(n min=0 max=1) uniformerexp(n rate=1) exponentialrnorm(n mean=0 sd=1) Gaussiana (normal)rt(n df) lsquoStudentrsquo (t )rf(n df1 df2) FisherndashSnedecor (F )
rchisq(n df) Quiquadradar amma n sha e scale=1 amma rbeta(n shape1 shape2) betarlnorm(n meanlog=0 sdlog=1) lognormalrcauchy(n location=0 scale=1) Cauchyrweibull(n shape scale=1) Weibullrwilcox(nn m n) Wilcoxonrsquos rank sum statistics
rsignrank(nn n) Wilcoxonrsquos signed rank statisticsrlogis(n location=0 scale=1) logistic
Todas essas distribuiccedilotildees apresentadas por rnome (nome da variaacutevel aleatoacuteria) como vimostrocando a primeira letra e mantendo os paracircmetros especiacuteficos de cada distribuiccedilatildeo(denotados por ) podem ser usadas substituindo a letra ldquor rdquo por
d valor da densidade de probabilidade no ponto x dnome (x )p probabilidade acumulada no ponto x pnome (x )
q quantil correspondente a probabilidade acumulada p dnome (p)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2561
Cap 2-c O Teorema Central do Limite (TCL)O Teorema Central do Limite (abreviadamente TCL) diz respeito ao comportamento da
meacutedia amostral agrave medida que o tamanho n da amostra cresce indefinidamente
Exemplo 31 ndash A distribuiccedilatildeo de renda e o TCLEacute um fato conhecido que a distribuiccedilatildeo da rendapessoal dos habitantes de um paiacutes eacuteusualmente muito desigual ou seja muitosganham pouco e poucos ganham muito Seforem sorteados 200 habitantes desse paiacutes e
com base nas suas rendas mensais
Agora se forem sorteadas 200 amostrascada uma delas contendo 2 habitantesdesse paiacutes e se forem calculadas as 200respectivas meacutedias amostrais a partir delas obteremos o histograma a seguir
Agora cada uma das 200 amostrassorteadas contendo 30 habitantes dessepaiacutes e se forem calculadas as 200 meacutediasamostrais o histograma seria
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2661
Cap 2-c ndash TCL ExemploComo pode ser observado no caso de n = 2 o histograma se aproxima mais de uma curvaNormal do que no caso de n = 1 E no caso de n = 30 a semelhanccedila do histograma com umacurva Normal eacute ainda maior
O Teorema Central do Limite afirma que independentemente de qual seja a
distribuiccedilatildeo original dos Xirsquos a distribuiccedilatildeo de probabilidade de e a
distribuiccedilatildeo Normal com meacutedia micromicromicromicro e variacircncia σσσσ2 n se aproximam cada vez
mais uma da outra agrave medida que n cresce
Portanto mesmo que a distribuiccedilatildeo de probabilidade dos Xirsquos seja desconhecida o Teorema
X n
Central do Limite garante a possibilidade de usarmos o modelo Normal para calcular ainda quede forma aproximada probabilidades relativas agrave meacutedia amostral desde que n sejasuficientemente grande
Exemplo 62 Simulando o efeito do TCL
Para ilustrar o funcionamento do Teorema Central do Limite vamos exibir agora um exemploem que a distribuiccedilatildeo original a partir da qual os dados satildeo gerados eacute uma exponencial modelo
este que daacute origem a uma funccedilatildeo densidade bastante assimeacutetrica (ao contraacuterio do que ocorre
com a curva Normal) A densidade de uma exponencial com paracircmetro eacute dada pela
expressatildeo
No R rexp(n ) simula n valores
λ
0 xλef(x) λx ge= minusλ
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2761
Cap 2-c ndash TCL ExemploA densidade de uma exponencial com paracircmetro eacute dada pela expressatildeo
Gerando dados por simulaccedilatildeo a partir de uma exponencial com λ = 13 para cada um dos
seguintes tamanhos n de amostra 1 2 3 4 5 10 15 e 201 Obtivemos 200 valores da meacutedia amostral 2 Utilizamos esses 200 valores para construir um histograma3 Traccedilamos no mesmo graacutefico uma curva da densidade Normal com E( )=3 e DP( )=3Xn
λ 0 xλef(x) λx ge= minus
Xn n
Os 8 histogramas nos mostram que agrave medida que o tamanho n da amostra cresce
a forma do histograma se aproxima cada vez mais de uma curva Normal
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2861
Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com
simulaccedilotildees - Exponencial
tclexp=function(n N=200 titulo= yl=c(0 4)) iniacutecio da funccedilatildeo ndash tclexpmedias=numeric(N)
for (i in 1N) medias[i]= mean(rexp(n13))
hist(medias xlim=c(-110) ylim=yl freq=F main=titulo)
x=seq(-110 02)
points(x dnorm(x 3 3sqrt(1n) ) type=l lwd=3)
fim da funccedilatildeo
graphicsoff()
par(mfrow=c(33) mai=c(3411))
tclexp(1titulo=n=1)
tclexp(2titulo=n=2)
tclexp(3titulo=n=3)
tclexp(4titulo=n=4)
tclexp(5titulo=n=5)
tclexp(6titulo=n=6)
tclexp(10titulo=n=10yl=c(06))
tclexp(15titulo=n=15yl=c(06))
tclexp(20titulo=n=20yl=c(06))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2961
Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com
simulaccedilotildees - Exponencial
Uma pergunta natural neste ponto serialdquoQuatildeo grande deve ser n para que possamos usar a aproximaccedilatildeo fornecida pelo
TCL com um niacutevel de precisatildeo aceitaacutevelrdquo
A rapidez com que essa convergecircncia se daacute depende de quatildeo distante estaacute a forma
da distribuiccedilatildeo original das Xirsquos de uma curva Normal Em outras palavras se a
distribuiccedilatildeo das Xirsquos jaacute natildeo for muito diferente de uma Normal com um n natildeo muito-
grande (usualmente n ge 30) a aproximaccedilatildeo da distribuiccedilatildeo de por uma Normal
funcionaria adequadamente
No exemplo a seguir vamos apresentar esse fenocircmeno a saber a convergecircncia da
distribuiccedilatildeo de para uma Normal agrave medida que n cresce gerando por simulaccedilatildeo osdados originais a partir de diferentes modelos probabiliacutesticos Em todos os casos a
distribuiccedilatildeo original eacute bem diferente da Normal E(X)=3 e DP(X)=3 No que se refere agrave
Simulaccedilatildeo foi seguida a mesma sequumlecircncia de passos do exemplo anterior
Xn
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3061
Cap 2-c ndash TCL Exemplo
Exponencial
Uniforme
Mistura deNormais
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3161
Como se pode observar
1 No caso da distribuiccedilatildeo uniforme (A) o histograma de jaacute se aproximabastante de uma Normal quando n eacute da ordem de 4
2 Jaacute no caso da distribuiccedilatildeo Exponencial (B) e da mistura de normais
(C) modelos esses que se afastam muito mais de umldquo rdquo
Cap 2-c ndash TCL Exemplo
mostra mais adequada a partir de n em torno de 10
3 No caso do modelo em (C) agrave medida que n cresce tudo se passacomo se houvesse a ldquoerupccedilatildeo de um vulcatildeo dentro do valerdquo
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3261
tclunif=function(nN=100titulo= yl=c(0 4))
medias=numeric(N)for (i in 1N) medias[i]= mean(runif(n 3-3sqrt(3) 3+3sqrt(3)))
hist(medias xlim=c(-610) ylim=yl freq=F main=titulo)
x=seq(-610 02)
points(x dnorm(x 3 3sqrt(1n) ) type=l lwd=3)
medias
Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com
as simulaccedilotildees - Uniforme
grap cso
par(mfrow=c(33) mai=c(3411))
tclunif(1titulo=n=1yl=c(06))
tclunif(2titulo=n=2yl=c(06))
tclunif(3titulo=n=3yl=c(06))
tclunif(4titulo=n=4yl=c(06))tclunif(5titulo=n=5yl=c(06))
tclunif(6titulo=n=6yl=c(06))
tclunif(10titulo=n=10yl=c(06))
tclunif(15titulo=n=15yl=c(06))
tclunif(20titulo=n=20yl=c(06))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3361
X2=c(rnorm(35011) rnorm(15081)) X2 eacute a Populaccedilatildeo de onde retiramos as amostras
br=seq(-2 12 5)
tcl2modas=function(nN=200titulo= yl=c(0 6)) medias=numeric(N)for (i in 1N) medias[i]= mean(sample(X2nrep=T))hist(mediasbreaks=br xlim=c(-212) tcl=-01 ylim=yl xarp=c(-31216)
tck=005 lab=c(5515) freq=F main=titulo)x=seq(-312 02)
Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com
as simulaccedilotildees - Mistura de Normais
points(x dnorm(x med dpsqrt(n) ) type=l lwd=2)
par(mfrow=c(24) mai=c(3011) mar=c(2 2 2 1))
hist(X2 freq=F breaks=seq(-3125) bty=o xlim=c(-212)xarp=c(-31216)tck=005 lab=c(5515) ylim=c(06) main=POPULACcedilAtildeO lwd=2)
tcl2modas(2titulo=n=2)tcl2modas(3titulo=n=3)
tcl2modas(4titulo=n=4)
tcl2modas(5titulo=n=5)
tcl2modas(10titulo=n=10)
tcl2modas(15titulo=n=15)
tcl2modas(25titulo=n=25)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3461
CAP 3-a) Intervalo de ConfianccedilaSeja um estimador pontual do paracircmetro eacute uma variaacutevel aleatoacuteria que varia deamostra para amostra Por isso haacute uma certa dose de incerteza inerente a esse processode estimaccedilatildeo Nosso objetivo agora eacute obter com base nos dados amostrais (da uacutenicaamostra observada) um intervalo ao qual o valor correto do paracircmetro deve ter grandechance de pertencer
bull Detalhando um pouco mais No processo de estimaccedilatildeo por intervalo de um paracircmetro θdevemos determinar um intervalo que contenha o verdadeiro valor do paracircmetro comprobabilidade 1-α onde α eacute um pequeno valor preacute-fixado Este intervalo eacute construiacutedo emgeral em torno do estimador pontual considerando uma margem de erro d de forma aque uma vez fixada a probabilidade 1-α calculemos d tal que P( - d le θ le + d ) = 1 -αChama-se intervalo de confianccedila para θ ao niacutevel 1 - α ao intervalo [ - d + d]
θ $θ
$θ$θ
$θ $θ
$
θ
bull Ou seja o estimador pontual eacute o centro do Intervalo de Confianccedila e o erro absoluto dassociado a define a amplitude desse intervalo O que eacute de fato variaacutevel aleatoacuteria satildeoos extremos do intervalo O paracircmetro tem valor desconhecido natildeo aleatoacuterio (fixo a ser estimado)
Exemplo Intervalo de Confianccedila para a meacutedia populacional com o desvio padratildeo conhecidoO paracircmetro a estimar eacute a meacutedia populacional micro A estimaccedilatildeo seraacute baseada em X1 X2 Xn
uma amostra aleatoacuteria com E(Xi) = micro e var(Xi) = σ2 para todo i = 12 n Queremos que seja
vaacutelida a expressatildeo o que equivale a P [ -d le -micro le d] = 1-α
$θ
X[ ] α1dmicroXP minus=leminus
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3561
bull Lembrando que para n suficientemente grande pelo Teorema Central do Limite a meacutediaamostral segue uma distribuiccedilatildeo que se aproxima da Normal(micromicromicromicro σσσσ2 n) (ou eacute exatamente aNormal(micromicromicromicro σσσσ2 n) no caso em que a distribuiccedilatildeo comum das va Xirsquos jaacute eacute Normal) entatildeo
P [-d le -micromicromicromicro le d] = 1-α rArr 1-α = P [ |Z| le ] Logo d =
bull Faremos uma simulaccedilatildeo para a construccedilatildeo de Intervalos de Confianccedila com 100 amostras dedois tipos de populaccedilatildeo Normal e Exponencial A lista de comandos do R que usamos eacute
ICN = function (N n mu sigma = 3 conf)
plot(0 0 type=n xlim=c(010) ylim=c(0N) bty=l
xlab=Normal ylab=amostras)abline(v=mu)
CAP 3-a) Intervalo de Confianccedila
X
nσ
d
minus
z0 = qnorm(1-((1-conf)2))
sigmaxbarra = sigmasqrt(n)
for (i in 1N)
x = rnorm(n mu sigma)
media = mean(x)
li = media - z0 sigmaxbarrals = media + z0 sigmaxbarra
plotx = c(lils)
ploty = c(ii)
if (li gt mu | ls lt mu) lines(plotxploty col=red)
else lines(plotxploty)
gt ICN(100 25 3 3 95)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3661
CAP 3-a) Intervalo de Confianccedila
ICexp = function (N n lambda conf)
mu=1lambda sigma=1lambda
plot(0 0 type=n xlim=c(010) ylim=c(0N) bty=lxlab=Exponencial ylab=amostras)
abline(v= mu)
z0 = qnorm(1-((1-conf)2))
sigmaxbarra = sigmasqrt(n)
for (i in 1N)
x = rexp(nlambda) me a = mean x
li = media - z0 sigmaxbarra
ls = media + z0 sigmaxbarra
plotx = c(lils)
ploty = c(ii)
if (li gt mu | ls lt mu) lines(plotx ploty col=red)
else lines(plotx ploty)
gt ICexp(100 25 13 95)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3761
CAP 3-b Teste de Hipoacuteteses (TH)O objetivo de um teste de hipoacutetese eacute avaliar a validade de uma afirmaccedilatildeo sobre determinada
caracteriacutestica da populaccedilatildeo usando para isso os dados de uma amostra Essa caracteriacutestica eacute
representada pela va contiacutenua X cujo comportamento probabiliacutestico eacute expresso pela funccedilatildeo dedensidade f com paracircmetro Ө que tem valor desconhecido
Em um teste existem duas hipoacuteteses envolvidas H0 denominada hipoacutetese nula e H1
denominada hipoacutetese alternativa O procedimento de teste de hipoacutetese consiste em estabelecer
um criteacuterio de decisatildeo que leve a Aceitar ou Rejeitar H0 com base nos valores amostrais
A Estatiacutestica de teste eacute uma funccedilatildeo da amostra aleatoacuteria utilizada para definir o criteacuterio de
decisatildeo Estabelecer o criteacuterio de decisatildeo consiste em dividir o conjunto dos valores possiacuteveis
da estatiacutestica de teste em duas partes denominadas Regiatildeo de Aceitaccedilatildeo A e Regiatildeo de
Rejeiccedilatildeo R da hipoacutetese nula
Em um teste de hipoacutetese haacute dois tipos possiacuteveis de erro de decisatildeo
Erro I - Rejeitar H0 quando H0 eacute verdadeira
Erro II - Aceitar H0 quando H0 eacute falsaAs probabilidades de ocorrecircncia dos erros satildeo α = P [ Erro I ] e β = P [ Erro II]
A probabilidade de erro I α eacute o niacutevel de significacircncia do teste cujo valor eacute arbitrado pelo
pesquisador deve ser pequena pois corresponde a probabilidade de um erro (005 ou 001)
O niacutevel criacutetico ou p-valor do teste eacute o menor valor de α para o qual ainda rejeitariacuteamos H0 de
acordo com os dados observados
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3861
CAP 3-b) ndash TH teste tttest(x y = NULL alternative = c(twosided less greater) mu = 0
paired = FALSE varequal = FALSE conflevel = 095 )
Procedimentos de teste de hipoacuteteses com niacutevel de significacircncia α e amostras de tamanho n
UmaAmostra
DuasAmostras
Obs Os testes acima satildeo bilaterais
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3961
CAP 3ndashb) TH exemplo de teste t ndash amostras independentespag233- teste t amostras independente - comparaccedilatildeo log(salaacuterio)
entre os grupos de comeacutercio e de serviccedilo
LogSal=c(1289156912501344145616361573171309060903
0977122011031069128714101496131113371366
1227119114591280115217401649176524101701
1538192419251721154918911534163812071682
120614232010143112651570)
Sal=exp(LogSal)
setor= c(rep(C23) rep(S23))
ttest(Sal[setor==C] Sal[setor==S] varequal=T)
Two Sample t-test
data Sal[setor == C] and Sal[setor == S]
t = -36822 df = 44 p-value = 00006289
alternative hypothesis true difference in means is not equal to 095 percent confidence interval
-23079005 -06751838
sample estimates
mean of x mean of y3786010 5277552
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4061
CAP 3ndashb) TH exemplo de teste t ndash amostra pareadapag237- teste t pareado
P1=c(6315596455545480598065203660986853
8765647785536980827184605572645564)
P2=c(3638306043466455604343523428837155
8238556767443459605968506254473652)
ttest(P1 P2 alt=greater paired = T)
Paired t-test
data P1 and P2
t = 44176 df = 33 p-value = 5072e-05
alternative hypothesis true difference in means is greater than 0
95 percent confidence interval
0716695 Inf
sample estimates
mean of the differences
1161765
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4161
CAP 3ndashb) TH exemplo de teste Quiquadrado chisqtest
pag233- teste Quiquadrado -
tcont=matrix(c(683585251530258 7461761220225) 72)
chisqtest(tcont)
Pearsons Chi-squared test
data tcont- = = - lt -
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4261
CAP 3ndashb) TH exemplo de teste Quiquadrado chisqtestaov(formula data = NULL )
pag244- ANOVA - Comparaccedilatildeo de trecircs raccedilotildees para suinos
A=c(444943514475425134305342453630
322133421040395246294247453959)
B=c(343640545953445432686954414647
6566455739)
C=c(574040364566395025212927283942
21304143294244582849)
aumentoP=c(ABC)
racao=c(rep(A30)rep(B20) rep(C25))
summaryaov(aov(aumentoP ~ racao))
Df Sum Sq Mean Sq F value Pr(gtF)racao 2 15385 7693 56136 0005425
Residuals 72 98666 1370
---
Signif codes 0 lsquorsquo 0001 lsquorsquo 001 lsquorsquo 005 lsquorsquo 01 lsquo rsquo 1
Warning message
In modelmatrixdefault(mt mf contrasts)
variable racao converted to a factor
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4361
ApecircndicesA-1) Apresentaremos aqui algumas figuras
feitas no R na elaboraccedilatildeo do livro
Achamos que o exame desses coacutedigos acompanhado dos resultados podeser um bom aprendizado um exerciacutecio ou talvez uma recordaccedilatildeo do materialaqui exposto
A-2) Resumo de comandosa) Criaccedilatildeo de dados
b) Informaccedilatildeo de uma Variaacutevel
c) Seleccedilatildeo de dados e manipulaccedilatildeo
d) Estatiacutesticas e operaccedilotildees matemaacuteticas
e) Corte e extraccedilatildeo de dados
f) Operaccedilatildeo com Matrizes
g) Graacuteficos (Plotting)
h) Teste de hipoacuteteses
i) Programming
j) Commandos auxiliaries em Graacuteficos
k) Comando par (Graphical parameters)
l) Input and output
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4461
A1) ndash Pag 14 ndash Figura 15
IDADE=c(616961716371726866697267636663636067716360696463667164706366646969646372736871726968687379)
IMC= c(245273281301254301280234268228255228235232203226239243271227237258213243243248219234216214221227227211268278275267286253239258247284235)
par(mfrow=c(12))hist(IDADE breaks=c(6065707580) ylim=c(020) ylab=Nuacutemero de Observaccedilotildees
main= col=grey right = F)hist(IMC breaks=c(200225250275300325)
ylab=Nuacutemero de Observaccedilotildeesmain= col=grey right = F )
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4561
A1) ndash Pag 44 ndash Figura 21
mat=matrix(c(81823913601818608740)32)
rownames(mat)=c(AtivaSedentaacuteriaTotal)colnames(mat)=c(NormalSobrepeso)barplot(t(mat) beside = TRUE space=c(315)
col=gray(c(79))legend = c(NormalSobrepeso) ylim = c(0 95) ylab= - percentagem)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4661
A1) ndash Pag 48 ndash Figura 22
mat= matrix(c(68154510 66214215 66242519 39161711)44byrow=T)
rownames(mat)=c(18 a 21 anos 22 a 25 anos 26 a 30 anos 31 a 40 anos)colnames(mat)=c(CinTeatSMDEx)mat1=mat for (i in 14) mat1[i]lt-mat1[i]100sum(mat1[i]) par(mfrow=c(12) mai=c(1111) mar=c(5 4 2 2) )barplot(matbeside=F ylim=c(0250) legend = c(18 a 21 anos 22 a 25 anos
26 a 30 anos 31 a 40 anos) xlab=Contagem)
barplot(mat1 beside=F xlab=Percentagem)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4761
A1) ndash Pag 52 ndash Figura 25X= c(184114821789235159118762592403190408372147328526471687
09642871437079238215753399242122530314859149806)y =c(01837012540193301620014230140604568022870231400861019960235302186012798991801254018210244160823
0147764068011818941403474539680150133247023685518102146187520214097090257291227
036282905401406510810113849399)plot(x y xlim=c(07) ylim=c(05) pch=16 bty=l xlab=Renda per capita
ylab=Telefonia Fixa per capita)
abline(lsfit(xy))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4861
A1) ndash Pag 109 ndash Figura 45
x=020
y1=dpois(x1) y2=dpois(x3) y3=dpois(x10)names(y1)=x names(y2)=x names(y3)=xpar(mfrow=c(13))plot(y1ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=1)plot(y2ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=3)plot(y3ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=10)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4961
A1) ndash Pag 118 ndash Figura 412
x=seq(010001)
plot(xdexp(x 12) type=l xlim=c(012) ylim=c(01) bty=l ylab=f(x) eF(x))for(i in seq(0 25 001)) segments(i 0 i dexp(i12) col=lightgrey)abline(v=0 h=0)points(xdexp(x 12) type=l lwd=2 bty=l)points(xpexp(x 12) lwd=2 type=l)segments(250 25pexp(2512))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5061
A1) ndash Pag 163 ndash Figura 68
plot(p xlim=c(618) ylim=c(016) type=n bty=l xaxt=n xlab= ylab=
cexaxis=6)for (i in 1015) rect(i-50 i+5 dbinom(i304) col=lightgrey) lty=2)segments(i0idbinom(i304) lty=2)
x=seq(61801) lines(x dnorm(x12sqrt(72)) lwd=2)x=seq(61801) lines(x dnorm(x12sqrt(72)) lwd=2)
axis(1 916 cexaxis=9) ax s seq cexax s=
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5161
A1) ndash Pag 198 ndash Figura 78
x1=seq(-4402)plot(x1dnorm(x1) type=l lwd=3 xlab= ylab= )lines(x1 dt(x11)) lines(x1 dt(x12)) lines(x1 dt(x15))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5261
A2ndashResumo de comandos
a)Criaccedilatildeo de dados
c()funccedilatildeo geneacuterica para combinar argumentos com o formando de um vetor fromto gera uma sequecircnce ldquordquo tem prioridade de operator pe13 + 1 is ldquo234rdquo
seq(fromtoby) gera uma sequecircncia by= especifica incremento
length= especifica um comprimento desejado
rep(xtimes) replicate x onuacutemero times de vezes use each= para repetir cada
elemento de x rep(c(123)2) gera 1 2 3 1 2 3 rep(c(12)each=2) gera 1 1 2 2
matrix(xnrow=ncol=) matrix elementos de x se reciclam caso x
rbind()combina vetores em linhas num estrutura de matrizes de dados
cbind()combina vetores em colunas num estrutura de matrizes de dados
array(xdim=) matriz com dados x especificar dimensotildees como dim=c(342)
elementos de x se reciclam caso x natildeo seja suficientemente grande
factor(xlevels=) codifica um vetor x como um fator gl(nklength=nklabels=1n) gerar niacuteveis (fatores) especificando
o padratildeo de seus niacuteveis k eacute o nuacutemero de niacuteveis e n eacute o nuacutemero de repeticcedilotildees
dataframe() criar um banco de dados Por exemplo
dataframe(v=14ch=c(gBcasad)n=5)
list()criar uma lista de argumentos Por exemplo list(a=c(12)b=hic=3i)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5361
A2ndashResumo de comandos
b) Informaccedilatildeo de uma Variaacutevellength(x) nuacutemero de elementos em x
dim(x) Obter ou definir a dimensatildeo de um objeto dim (x) = c(32)dimnames(x) Obter ou definir os nomes das dimensotildees de um objeto
nrow(x) nuacutemero de linhas
ncol(x) nuacutemero de colunas
c) Seleccedilatildeo de dados e manipulaccedilatildeochoose(n k) calcula a combinaccedilatildeo de elementos escolhidos entre n
resultando n [(n-k) k]
cut(xbreaks) divide x em intervalos (fatores) breaks eacute o nuacutemero de intervalos de
corte ou um vetor com os valores especiacuteficos
table(x) retorna uma tabela com as quantidades dos diferentes valores de x
(tipicamente para variaacuteveis dos tipos inteiros ou fatores)
sample(x size) retira aleatoriamente com e sem reposiccedilatildeo elementos detamanho SIZE do vetor x a opccedilatildeo replace = TRUE permite a retirada com reposiccedilatildeo
proptable(xmargin=) transforma a tabela como tabela de propoccedilatildeo
marginal margin=1 (com relaccedilatildeo as linhas) margin=2 (com relaccedilatildeo as colunas)
sort(x) Classifica os elementos de x em ordem crescente para classificar em ordem
decrescente rev(sort(x))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5461
A2ndashResumo de comandosd) Estatiacutesticas e operaccedilotildees matemaacuteticasmean(x) media dos elementos de x
median(x) mediana dos elementos de x
quantile(xprobs=) quantis de x correspondendo a uma dada probabilidadevar(x) ou cov(x) variacircncia dos elementos de x (calculado com n-1)
se x eacute uma matriz a matriz de covariacircncia eacute calculada
sd(x) desvio padracirco de of x
cor(x) matriz de correlaccedilatildeo de x se x for uma matriz ou (1 se x eacute um vector)
cor(x y) correlaccedilatildeo linear entre X e Y ou matriz de correlaccedilatildeo se eles satildeo matrizes
round(x n) arredonda os elementos de x para n casas decimais sum x soma os e emen os e x
prod(x) multilica os elementos de x
max(x) acha o maacuteximo dos elementos de x
min(x) acha o miacutenimo dos elementos de x
range(x) equivalente a c(min(x)max(x)
cumsum(x) um vetor onde o eacutesimo elemento eacute a soma de x[1] ateacute x[i]cumprod(x) um vetor onde o eacutesimo elemento eacute o produto de x[1] ateacute x[i]
cummin(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
cummax(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
sincostanasinacosatanatan2loglog10exp)
log(x base) calcula o logaritmo de x na base=base
weightedmean(x w) media ponderada de x com peso= w
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5561
A2ndashResumo de comandos
e) Corte e extraccedilatildeo de dadosindexaccedilatildeo de Vetores
x[n] n-eacutesimo elemento do vetor
x[-n] todos menos o n-eacutesimo elemento
x[1n] os primeiros n elemento
x[-(1n)] elementos de n+1 ateacute o final
x[c(432)] elementos especificados
x[y gt 5] todo elementos de onde os valores de y satildeo maiores que 5
x x gt 3 amp x lt 5 todo elementos entre 3 e 5
x[nome] elemento denominado nome
indexaccedilatildeo de Matrizes
x[ij] elemento na linha i coluna j
x[i] linha i
x[j] coluna j
x[c(13)] colunas 1 and 3
x[nome] linha nomeada nome
indexaccedilatildeo de data frames
x[[nome]] coluna chamada nome
x$nome equivalente a coluna chamada nome
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5661
A2ndashResumo de comandos
f) Operaccedilatildeo com Matrizest(x) transposta da matrix x
diag(x) retira a diagonal da matrix x
multiplicaccedilatildeo matricial
solve(ab) resove a equaccedilatildeo a x = b em relaccedilatildeo a x
solve(a) matriz inversa de a
rowSum(x) soma das linhas da matrix x
colSum(x) soma das colunas da matrix x
rowMeans x meacutedia das linhas da matrix x
colMeans(x) id meacutedia das colunas da matrix x
g) Graacuteficos (Plotting)plot(x y) diagrama de disperccedilatildeo plot dos pares (xy) num sistema de eixos
coordenadoshist(x) histogram dasfrequecircncias of x
barplot(x) graacutefico de barras of x usar horiz=T ara barras horizontal
pie(x) graacutefico de setores (pie-chart)
boxplot(x)
qqnorm(x) quantis de x em relaccedilatildeo aos valores esperados de uma dist Normal
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5761
A2ndashResumo de comandosparametros dos commando de Graacutefico
type=p especifica o tipo de plot p pontos l linhas b pontos
ligados por linhas o idecircntico mas as linhas passam sobre os pontos h
linhas verticais s escada (steps) os dados satildeo representados pelas alturasverticais
xlim= ylim= especifica os limites inferiores e superiores dos eixos por exemplocom xlim=c(1 10) ou xlim=range(x)
xlab= ylab= nomeia os eixos o nome deve ser do tipo caracter
main= tiacutetulo principal deve ser do tipo caracter
sub= sub-tiacutetulo (escrito em fonte menor)
podem ser usados como bty(tipo de caixa) lwd (lagura da linha) lty (tipo delinha) pch(tipo de ponto) cex xaxs yaxs xaxtyaxt
h) Teste de hipoacuteteses
ttest()proptest()
chisqtest()
aov(formula) analysis of variance model
anova(fit) analysis of variance (or deviance) tables for one or more
fitted model objects
Use o commando gt test para procurar todos os testes disponiacuteveis
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5861
A2ndashResumo de comandos
i) Programmingfunction( arglist ) expr para definer uma funccedilatildeo
return(value)
if(cond) expr
if(cond) consexpr else altexpr
for(var in seq) expr
while(cond) expr
re eat ex r
break
Usar chaves entre commandos dlimitando o iniacutecio e o fim de um grupo decomandos
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5961
A2ndashResumo de comandos
j) Commandos auxiliaries em Graacuteficospoints(x y) adiciona pontos (a opccedilatildeo type= pode ser usada)
lines(x y) adiciona linhas (a opccedilatildeo type= pode ser usada)text(x y labels ) adiciona texto na coordenada (xy) um uso tiacutepico eacute
plot(x y type=n) text(x ynames)
segments(x0 y0 x1 y1) desenha linhas do ponto (x0 y0) ao (x1 y1)
arrows(x0 y0 x1 y1 angle= 30 code=2) desenha seta do ponto
(x0 y0) ao (x1 y1)
abline(ab) desenha uma reta de inclinaccedilatildeo b e intercepto a
abline(v=x) desenha uma reta vertical em x
abline(lsfit(xy)) desenha uma reta da regressatildeo feita em lsfit(xy)
rect(x1 y1 x2 y2) desenha um retacircngulo que a esquerda inferior tem coordenadas(x1 y1) e o limite da direita superiores (x2 y2)
polygon(x y) desenha um poliacutegono que une os pontos com coordenadas X e Y
legend(x y legend) Acrescenta a lenda no ponto (x y) com os siacutembolos
dada pela legend
title()adiciona um tiacutetulo e opcionalmente um sub-tiacutetulo
axis(side) acrescenta um eixo na parte inferior (side = 1) agrave esquerda (2) na partesuperior (3) ou agrave direita (4)
box()desenhar uma caixa em torno do plot
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6061
A2ndashResumo de comandos
k) Comando par (Graphical parameters)Todos estes comando podem ser definidos a niacutevel global com o par () que
especifica os paracircmetros mas tambeacutem muitos podem ser usados comoparametros dos commando de Graacutefico
mfcol vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em colunas
mfrow vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em linhas(matrix for row)
bty controla o tipo de caixa desenhada ao redor do enredo valores permitidos satildeo
o l 7 c u ou se bt =n a caixa natildeo eacute desenhada
lty controla o tipo de linhas pode ser um inteiro ou string (1 solid 2 dashed 3dotted 4 dotdash 5 longdash 6twodash) ou uma string de ateacuteoito caracteres (entre 0 e 9) que especifica o comprimento em pontos oupixels dos elementos desenhados e os espaccedilos em branco por exemplolty=rdquo44rdquo equivale a lty=2
lwd nuacutemero que controla a largura das linhas default 1pch controla o tipo de siacutembolo pode tambeacutem ser um nuacutemero inteiro entre 1 e 25
ps um inteiro que controla o tamanho em pontos de textos e siacutembolos
pty um caracter que especifica o tipo da regiatildeo s quadrado m maacuteximal
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6161
A2ndashResumo de comandos
l) Input and outputreadtable(file) lecirc um arquivo em formato de tabela e cria um quadro de dados a
partir dele o separador default = eacute espaccedilo em branco header = TRUE ler a
primeira linha como um cabeccedilalho de nomes de coluna asis = TRUE paraevitar aque um vetore de caracteres seja convertido em factores usocommentchar = para evitar seja interpretado como um comentaacuteriouso skip = n para pular n linhas antes da leitura de dados consulte a ajudapara as opccedilotildees de linha de nomeaccedilatildeo o tratamento NA e outros
readcsv(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por viacutergulas
readdelim(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por tabulaccedilotildees
readfwf(filewidthsheader=FALSEsep= asis=FALSE)
ler uma tabela de dados em formato fix de largura m para um dataframe widthseacute um vetor inteiro informando os tamanhos dos campos
sink(file) saiacuteda de todos os comandos para um arquivo ateacute aparecer um comando
sink () que desliga writetable(x file=rownames=Tcolnames=Tsep= ) imprime x apoacutes a
conversatildeo para banco de dados
save(file) guarda os objetos especificados () no formato XDR
load()carregar o conjunto de dados salvos com o comando save
data(x) carrega um conjunto de dados especificado
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2261
Cap 2-b - va pnorm e qnormSeja a relaccedilatildeo p = P(Xltx) que aparece na tabela da distribuiccedilatildeo Normal Quiquadrada
t-student e F Para um dado valor de p acha-se um valor de x a procura direta que para aNormal no R corresponderia a pnorm(x 983221 σ) Neste caso devo informar o x e os dois
paracircmetros da distribuiccedilatildeo Normal 983221 e σJaacute a procura inversa seria para um dado valor de x achar um valor de p que para a Normalno R corresponderia a qnorm(p983221σ) Neste outro caso devo informar o valor de p desejado etambeacutem os dois paracircmetros da distribuiccedilatildeo Normal 983221 e σ
Exemplo Seja X a va que corresponde ao peso (em kg) de pessoas de uma certapopulaccedilatildeo com meacutedia 983221=70 Kg e desvio padratildeo σ=8 Kg assim X~ N(983221=70 σ2=82)
Se desejarmosa) P(Xlt80) usaremos no R o comando pnorm(80 70 8) isto eacute x=80 eacute o primeiro paracircmetroenquanto 70 e 8 satildeo paracircmetro especiacuteficos da distribuiccedilatildeo Normal
b) Admita que o peso limite para ser classificado como obeso eacute o valor que corresponde a10 dos mais pesados do populaccedilatildeo Achar este peso limiteO que se pede eacute a funccedilatildeo inversa Dado um valor de p=090 achar um valor de x que deixa90 abaixo dele No R seria qnorm(09 70 8) isto eacute o valor da probabilidade p=09 eacute
o primeiro paracircmetro enquanto 70 e 8 satildeo paracircmetros especiacuteficos da distribuiccedilatildeo NormalSe usarmos a Normal padratildeo z=(x-983221)σ no caso do item a o comando seria pnorm((80-70)8)ou pnorm(125) Repare que neste caso natildeo foi necessaacuterio passar os paracircmetros especiacuteficos daNormal pois 983221=0 e σ =1 coresponde ao default Observaccedilatildeo Sempre que usarmos um p oprimeiro paracircmetro eacute um x e os outros satildeo especiacuteficos da distribuiccedilatildeo em questatildeosempre que usarmos um q o primeiro paracircmetro eacute um p e os outros satildeo especiacuteficosSempre que usarmos um d o primeiro paracircmetro eacute um x
Quando usarmos uma distribuiccedilatildeo discreta o d corresponde aacute probabilidade no ponto x
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2361
Pag 118 ndash Figura 412
x=seq(010001)
plot(xdexp(x 12) type=l xlim=c(012) ylim=c(01) bty=l ylab=f(x) e F(x))
for(i in seq(0 25 001)) segments(i 0 i dexp(i12) col=lightgrey)
abline(v=0 h=0)
points(xdexp(x 12) type=l lwd=2 bty=l)
points(x pexp(x 12) lwd=2 type=l)
segments(250 25pexp(2512))
Cap 2-b - va dexp pexp points segments
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2461
Cap 2-b - va disponiacuteveis no Rrbinom(n size prob) binomialrpois(n lambda) Poissonrgeom(n prob) geometricarhyper(nn m n k) hipergeometricarnbinom(n size prob) binomial negativarunif(n min=0 max=1) uniformerexp(n rate=1) exponentialrnorm(n mean=0 sd=1) Gaussiana (normal)rt(n df) lsquoStudentrsquo (t )rf(n df1 df2) FisherndashSnedecor (F )
rchisq(n df) Quiquadradar amma n sha e scale=1 amma rbeta(n shape1 shape2) betarlnorm(n meanlog=0 sdlog=1) lognormalrcauchy(n location=0 scale=1) Cauchyrweibull(n shape scale=1) Weibullrwilcox(nn m n) Wilcoxonrsquos rank sum statistics
rsignrank(nn n) Wilcoxonrsquos signed rank statisticsrlogis(n location=0 scale=1) logistic
Todas essas distribuiccedilotildees apresentadas por rnome (nome da variaacutevel aleatoacuteria) como vimostrocando a primeira letra e mantendo os paracircmetros especiacuteficos de cada distribuiccedilatildeo(denotados por ) podem ser usadas substituindo a letra ldquor rdquo por
d valor da densidade de probabilidade no ponto x dnome (x )p probabilidade acumulada no ponto x pnome (x )
q quantil correspondente a probabilidade acumulada p dnome (p)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2561
Cap 2-c O Teorema Central do Limite (TCL)O Teorema Central do Limite (abreviadamente TCL) diz respeito ao comportamento da
meacutedia amostral agrave medida que o tamanho n da amostra cresce indefinidamente
Exemplo 31 ndash A distribuiccedilatildeo de renda e o TCLEacute um fato conhecido que a distribuiccedilatildeo da rendapessoal dos habitantes de um paiacutes eacuteusualmente muito desigual ou seja muitosganham pouco e poucos ganham muito Seforem sorteados 200 habitantes desse paiacutes e
com base nas suas rendas mensais
Agora se forem sorteadas 200 amostrascada uma delas contendo 2 habitantesdesse paiacutes e se forem calculadas as 200respectivas meacutedias amostrais a partir delas obteremos o histograma a seguir
Agora cada uma das 200 amostrassorteadas contendo 30 habitantes dessepaiacutes e se forem calculadas as 200 meacutediasamostrais o histograma seria
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2661
Cap 2-c ndash TCL ExemploComo pode ser observado no caso de n = 2 o histograma se aproxima mais de uma curvaNormal do que no caso de n = 1 E no caso de n = 30 a semelhanccedila do histograma com umacurva Normal eacute ainda maior
O Teorema Central do Limite afirma que independentemente de qual seja a
distribuiccedilatildeo original dos Xirsquos a distribuiccedilatildeo de probabilidade de e a
distribuiccedilatildeo Normal com meacutedia micromicromicromicro e variacircncia σσσσ2 n se aproximam cada vez
mais uma da outra agrave medida que n cresce
Portanto mesmo que a distribuiccedilatildeo de probabilidade dos Xirsquos seja desconhecida o Teorema
X n
Central do Limite garante a possibilidade de usarmos o modelo Normal para calcular ainda quede forma aproximada probabilidades relativas agrave meacutedia amostral desde que n sejasuficientemente grande
Exemplo 62 Simulando o efeito do TCL
Para ilustrar o funcionamento do Teorema Central do Limite vamos exibir agora um exemploem que a distribuiccedilatildeo original a partir da qual os dados satildeo gerados eacute uma exponencial modelo
este que daacute origem a uma funccedilatildeo densidade bastante assimeacutetrica (ao contraacuterio do que ocorre
com a curva Normal) A densidade de uma exponencial com paracircmetro eacute dada pela
expressatildeo
No R rexp(n ) simula n valores
λ
0 xλef(x) λx ge= minusλ
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2761
Cap 2-c ndash TCL ExemploA densidade de uma exponencial com paracircmetro eacute dada pela expressatildeo
Gerando dados por simulaccedilatildeo a partir de uma exponencial com λ = 13 para cada um dos
seguintes tamanhos n de amostra 1 2 3 4 5 10 15 e 201 Obtivemos 200 valores da meacutedia amostral 2 Utilizamos esses 200 valores para construir um histograma3 Traccedilamos no mesmo graacutefico uma curva da densidade Normal com E( )=3 e DP( )=3Xn
λ 0 xλef(x) λx ge= minus
Xn n
Os 8 histogramas nos mostram que agrave medida que o tamanho n da amostra cresce
a forma do histograma se aproxima cada vez mais de uma curva Normal
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2861
Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com
simulaccedilotildees - Exponencial
tclexp=function(n N=200 titulo= yl=c(0 4)) iniacutecio da funccedilatildeo ndash tclexpmedias=numeric(N)
for (i in 1N) medias[i]= mean(rexp(n13))
hist(medias xlim=c(-110) ylim=yl freq=F main=titulo)
x=seq(-110 02)
points(x dnorm(x 3 3sqrt(1n) ) type=l lwd=3)
fim da funccedilatildeo
graphicsoff()
par(mfrow=c(33) mai=c(3411))
tclexp(1titulo=n=1)
tclexp(2titulo=n=2)
tclexp(3titulo=n=3)
tclexp(4titulo=n=4)
tclexp(5titulo=n=5)
tclexp(6titulo=n=6)
tclexp(10titulo=n=10yl=c(06))
tclexp(15titulo=n=15yl=c(06))
tclexp(20titulo=n=20yl=c(06))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2961
Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com
simulaccedilotildees - Exponencial
Uma pergunta natural neste ponto serialdquoQuatildeo grande deve ser n para que possamos usar a aproximaccedilatildeo fornecida pelo
TCL com um niacutevel de precisatildeo aceitaacutevelrdquo
A rapidez com que essa convergecircncia se daacute depende de quatildeo distante estaacute a forma
da distribuiccedilatildeo original das Xirsquos de uma curva Normal Em outras palavras se a
distribuiccedilatildeo das Xirsquos jaacute natildeo for muito diferente de uma Normal com um n natildeo muito-
grande (usualmente n ge 30) a aproximaccedilatildeo da distribuiccedilatildeo de por uma Normal
funcionaria adequadamente
No exemplo a seguir vamos apresentar esse fenocircmeno a saber a convergecircncia da
distribuiccedilatildeo de para uma Normal agrave medida que n cresce gerando por simulaccedilatildeo osdados originais a partir de diferentes modelos probabiliacutesticos Em todos os casos a
distribuiccedilatildeo original eacute bem diferente da Normal E(X)=3 e DP(X)=3 No que se refere agrave
Simulaccedilatildeo foi seguida a mesma sequumlecircncia de passos do exemplo anterior
Xn
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3061
Cap 2-c ndash TCL Exemplo
Exponencial
Uniforme
Mistura deNormais
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3161
Como se pode observar
1 No caso da distribuiccedilatildeo uniforme (A) o histograma de jaacute se aproximabastante de uma Normal quando n eacute da ordem de 4
2 Jaacute no caso da distribuiccedilatildeo Exponencial (B) e da mistura de normais
(C) modelos esses que se afastam muito mais de umldquo rdquo
Cap 2-c ndash TCL Exemplo
mostra mais adequada a partir de n em torno de 10
3 No caso do modelo em (C) agrave medida que n cresce tudo se passacomo se houvesse a ldquoerupccedilatildeo de um vulcatildeo dentro do valerdquo
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3261
tclunif=function(nN=100titulo= yl=c(0 4))
medias=numeric(N)for (i in 1N) medias[i]= mean(runif(n 3-3sqrt(3) 3+3sqrt(3)))
hist(medias xlim=c(-610) ylim=yl freq=F main=titulo)
x=seq(-610 02)
points(x dnorm(x 3 3sqrt(1n) ) type=l lwd=3)
medias
Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com
as simulaccedilotildees - Uniforme
grap cso
par(mfrow=c(33) mai=c(3411))
tclunif(1titulo=n=1yl=c(06))
tclunif(2titulo=n=2yl=c(06))
tclunif(3titulo=n=3yl=c(06))
tclunif(4titulo=n=4yl=c(06))tclunif(5titulo=n=5yl=c(06))
tclunif(6titulo=n=6yl=c(06))
tclunif(10titulo=n=10yl=c(06))
tclunif(15titulo=n=15yl=c(06))
tclunif(20titulo=n=20yl=c(06))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3361
X2=c(rnorm(35011) rnorm(15081)) X2 eacute a Populaccedilatildeo de onde retiramos as amostras
br=seq(-2 12 5)
tcl2modas=function(nN=200titulo= yl=c(0 6)) medias=numeric(N)for (i in 1N) medias[i]= mean(sample(X2nrep=T))hist(mediasbreaks=br xlim=c(-212) tcl=-01 ylim=yl xarp=c(-31216)
tck=005 lab=c(5515) freq=F main=titulo)x=seq(-312 02)
Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com
as simulaccedilotildees - Mistura de Normais
points(x dnorm(x med dpsqrt(n) ) type=l lwd=2)
par(mfrow=c(24) mai=c(3011) mar=c(2 2 2 1))
hist(X2 freq=F breaks=seq(-3125) bty=o xlim=c(-212)xarp=c(-31216)tck=005 lab=c(5515) ylim=c(06) main=POPULACcedilAtildeO lwd=2)
tcl2modas(2titulo=n=2)tcl2modas(3titulo=n=3)
tcl2modas(4titulo=n=4)
tcl2modas(5titulo=n=5)
tcl2modas(10titulo=n=10)
tcl2modas(15titulo=n=15)
tcl2modas(25titulo=n=25)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3461
CAP 3-a) Intervalo de ConfianccedilaSeja um estimador pontual do paracircmetro eacute uma variaacutevel aleatoacuteria que varia deamostra para amostra Por isso haacute uma certa dose de incerteza inerente a esse processode estimaccedilatildeo Nosso objetivo agora eacute obter com base nos dados amostrais (da uacutenicaamostra observada) um intervalo ao qual o valor correto do paracircmetro deve ter grandechance de pertencer
bull Detalhando um pouco mais No processo de estimaccedilatildeo por intervalo de um paracircmetro θdevemos determinar um intervalo que contenha o verdadeiro valor do paracircmetro comprobabilidade 1-α onde α eacute um pequeno valor preacute-fixado Este intervalo eacute construiacutedo emgeral em torno do estimador pontual considerando uma margem de erro d de forma aque uma vez fixada a probabilidade 1-α calculemos d tal que P( - d le θ le + d ) = 1 -αChama-se intervalo de confianccedila para θ ao niacutevel 1 - α ao intervalo [ - d + d]
θ $θ
$θ$θ
$θ $θ
$
θ
bull Ou seja o estimador pontual eacute o centro do Intervalo de Confianccedila e o erro absoluto dassociado a define a amplitude desse intervalo O que eacute de fato variaacutevel aleatoacuteria satildeoos extremos do intervalo O paracircmetro tem valor desconhecido natildeo aleatoacuterio (fixo a ser estimado)
Exemplo Intervalo de Confianccedila para a meacutedia populacional com o desvio padratildeo conhecidoO paracircmetro a estimar eacute a meacutedia populacional micro A estimaccedilatildeo seraacute baseada em X1 X2 Xn
uma amostra aleatoacuteria com E(Xi) = micro e var(Xi) = σ2 para todo i = 12 n Queremos que seja
vaacutelida a expressatildeo o que equivale a P [ -d le -micro le d] = 1-α
$θ
X[ ] α1dmicroXP minus=leminus
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3561
bull Lembrando que para n suficientemente grande pelo Teorema Central do Limite a meacutediaamostral segue uma distribuiccedilatildeo que se aproxima da Normal(micromicromicromicro σσσσ2 n) (ou eacute exatamente aNormal(micromicromicromicro σσσσ2 n) no caso em que a distribuiccedilatildeo comum das va Xirsquos jaacute eacute Normal) entatildeo
P [-d le -micromicromicromicro le d] = 1-α rArr 1-α = P [ |Z| le ] Logo d =
bull Faremos uma simulaccedilatildeo para a construccedilatildeo de Intervalos de Confianccedila com 100 amostras dedois tipos de populaccedilatildeo Normal e Exponencial A lista de comandos do R que usamos eacute
ICN = function (N n mu sigma = 3 conf)
plot(0 0 type=n xlim=c(010) ylim=c(0N) bty=l
xlab=Normal ylab=amostras)abline(v=mu)
CAP 3-a) Intervalo de Confianccedila
X
nσ
d
minus
z0 = qnorm(1-((1-conf)2))
sigmaxbarra = sigmasqrt(n)
for (i in 1N)
x = rnorm(n mu sigma)
media = mean(x)
li = media - z0 sigmaxbarrals = media + z0 sigmaxbarra
plotx = c(lils)
ploty = c(ii)
if (li gt mu | ls lt mu) lines(plotxploty col=red)
else lines(plotxploty)
gt ICN(100 25 3 3 95)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3661
CAP 3-a) Intervalo de Confianccedila
ICexp = function (N n lambda conf)
mu=1lambda sigma=1lambda
plot(0 0 type=n xlim=c(010) ylim=c(0N) bty=lxlab=Exponencial ylab=amostras)
abline(v= mu)
z0 = qnorm(1-((1-conf)2))
sigmaxbarra = sigmasqrt(n)
for (i in 1N)
x = rexp(nlambda) me a = mean x
li = media - z0 sigmaxbarra
ls = media + z0 sigmaxbarra
plotx = c(lils)
ploty = c(ii)
if (li gt mu | ls lt mu) lines(plotx ploty col=red)
else lines(plotx ploty)
gt ICexp(100 25 13 95)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3761
CAP 3-b Teste de Hipoacuteteses (TH)O objetivo de um teste de hipoacutetese eacute avaliar a validade de uma afirmaccedilatildeo sobre determinada
caracteriacutestica da populaccedilatildeo usando para isso os dados de uma amostra Essa caracteriacutestica eacute
representada pela va contiacutenua X cujo comportamento probabiliacutestico eacute expresso pela funccedilatildeo dedensidade f com paracircmetro Ө que tem valor desconhecido
Em um teste existem duas hipoacuteteses envolvidas H0 denominada hipoacutetese nula e H1
denominada hipoacutetese alternativa O procedimento de teste de hipoacutetese consiste em estabelecer
um criteacuterio de decisatildeo que leve a Aceitar ou Rejeitar H0 com base nos valores amostrais
A Estatiacutestica de teste eacute uma funccedilatildeo da amostra aleatoacuteria utilizada para definir o criteacuterio de
decisatildeo Estabelecer o criteacuterio de decisatildeo consiste em dividir o conjunto dos valores possiacuteveis
da estatiacutestica de teste em duas partes denominadas Regiatildeo de Aceitaccedilatildeo A e Regiatildeo de
Rejeiccedilatildeo R da hipoacutetese nula
Em um teste de hipoacutetese haacute dois tipos possiacuteveis de erro de decisatildeo
Erro I - Rejeitar H0 quando H0 eacute verdadeira
Erro II - Aceitar H0 quando H0 eacute falsaAs probabilidades de ocorrecircncia dos erros satildeo α = P [ Erro I ] e β = P [ Erro II]
A probabilidade de erro I α eacute o niacutevel de significacircncia do teste cujo valor eacute arbitrado pelo
pesquisador deve ser pequena pois corresponde a probabilidade de um erro (005 ou 001)
O niacutevel criacutetico ou p-valor do teste eacute o menor valor de α para o qual ainda rejeitariacuteamos H0 de
acordo com os dados observados
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3861
CAP 3-b) ndash TH teste tttest(x y = NULL alternative = c(twosided less greater) mu = 0
paired = FALSE varequal = FALSE conflevel = 095 )
Procedimentos de teste de hipoacuteteses com niacutevel de significacircncia α e amostras de tamanho n
UmaAmostra
DuasAmostras
Obs Os testes acima satildeo bilaterais
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3961
CAP 3ndashb) TH exemplo de teste t ndash amostras independentespag233- teste t amostras independente - comparaccedilatildeo log(salaacuterio)
entre os grupos de comeacutercio e de serviccedilo
LogSal=c(1289156912501344145616361573171309060903
0977122011031069128714101496131113371366
1227119114591280115217401649176524101701
1538192419251721154918911534163812071682
120614232010143112651570)
Sal=exp(LogSal)
setor= c(rep(C23) rep(S23))
ttest(Sal[setor==C] Sal[setor==S] varequal=T)
Two Sample t-test
data Sal[setor == C] and Sal[setor == S]
t = -36822 df = 44 p-value = 00006289
alternative hypothesis true difference in means is not equal to 095 percent confidence interval
-23079005 -06751838
sample estimates
mean of x mean of y3786010 5277552
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4061
CAP 3ndashb) TH exemplo de teste t ndash amostra pareadapag237- teste t pareado
P1=c(6315596455545480598065203660986853
8765647785536980827184605572645564)
P2=c(3638306043466455604343523428837155
8238556767443459605968506254473652)
ttest(P1 P2 alt=greater paired = T)
Paired t-test
data P1 and P2
t = 44176 df = 33 p-value = 5072e-05
alternative hypothesis true difference in means is greater than 0
95 percent confidence interval
0716695 Inf
sample estimates
mean of the differences
1161765
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4161
CAP 3ndashb) TH exemplo de teste Quiquadrado chisqtest
pag233- teste Quiquadrado -
tcont=matrix(c(683585251530258 7461761220225) 72)
chisqtest(tcont)
Pearsons Chi-squared test
data tcont- = = - lt -
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4261
CAP 3ndashb) TH exemplo de teste Quiquadrado chisqtestaov(formula data = NULL )
pag244- ANOVA - Comparaccedilatildeo de trecircs raccedilotildees para suinos
A=c(444943514475425134305342453630
322133421040395246294247453959)
B=c(343640545953445432686954414647
6566455739)
C=c(574040364566395025212927283942
21304143294244582849)
aumentoP=c(ABC)
racao=c(rep(A30)rep(B20) rep(C25))
summaryaov(aov(aumentoP ~ racao))
Df Sum Sq Mean Sq F value Pr(gtF)racao 2 15385 7693 56136 0005425
Residuals 72 98666 1370
---
Signif codes 0 lsquorsquo 0001 lsquorsquo 001 lsquorsquo 005 lsquorsquo 01 lsquo rsquo 1
Warning message
In modelmatrixdefault(mt mf contrasts)
variable racao converted to a factor
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4361
ApecircndicesA-1) Apresentaremos aqui algumas figuras
feitas no R na elaboraccedilatildeo do livro
Achamos que o exame desses coacutedigos acompanhado dos resultados podeser um bom aprendizado um exerciacutecio ou talvez uma recordaccedilatildeo do materialaqui exposto
A-2) Resumo de comandosa) Criaccedilatildeo de dados
b) Informaccedilatildeo de uma Variaacutevel
c) Seleccedilatildeo de dados e manipulaccedilatildeo
d) Estatiacutesticas e operaccedilotildees matemaacuteticas
e) Corte e extraccedilatildeo de dados
f) Operaccedilatildeo com Matrizes
g) Graacuteficos (Plotting)
h) Teste de hipoacuteteses
i) Programming
j) Commandos auxiliaries em Graacuteficos
k) Comando par (Graphical parameters)
l) Input and output
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4461
A1) ndash Pag 14 ndash Figura 15
IDADE=c(616961716371726866697267636663636067716360696463667164706366646969646372736871726968687379)
IMC= c(245273281301254301280234268228255228235232203226239243271227237258213243243248219234216214221227227211268278275267286253239258247284235)
par(mfrow=c(12))hist(IDADE breaks=c(6065707580) ylim=c(020) ylab=Nuacutemero de Observaccedilotildees
main= col=grey right = F)hist(IMC breaks=c(200225250275300325)
ylab=Nuacutemero de Observaccedilotildeesmain= col=grey right = F )
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4561
A1) ndash Pag 44 ndash Figura 21
mat=matrix(c(81823913601818608740)32)
rownames(mat)=c(AtivaSedentaacuteriaTotal)colnames(mat)=c(NormalSobrepeso)barplot(t(mat) beside = TRUE space=c(315)
col=gray(c(79))legend = c(NormalSobrepeso) ylim = c(0 95) ylab= - percentagem)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4661
A1) ndash Pag 48 ndash Figura 22
mat= matrix(c(68154510 66214215 66242519 39161711)44byrow=T)
rownames(mat)=c(18 a 21 anos 22 a 25 anos 26 a 30 anos 31 a 40 anos)colnames(mat)=c(CinTeatSMDEx)mat1=mat for (i in 14) mat1[i]lt-mat1[i]100sum(mat1[i]) par(mfrow=c(12) mai=c(1111) mar=c(5 4 2 2) )barplot(matbeside=F ylim=c(0250) legend = c(18 a 21 anos 22 a 25 anos
26 a 30 anos 31 a 40 anos) xlab=Contagem)
barplot(mat1 beside=F xlab=Percentagem)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4761
A1) ndash Pag 52 ndash Figura 25X= c(184114821789235159118762592403190408372147328526471687
09642871437079238215753399242122530314859149806)y =c(01837012540193301620014230140604568022870231400861019960235302186012798991801254018210244160823
0147764068011818941403474539680150133247023685518102146187520214097090257291227
036282905401406510810113849399)plot(x y xlim=c(07) ylim=c(05) pch=16 bty=l xlab=Renda per capita
ylab=Telefonia Fixa per capita)
abline(lsfit(xy))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4861
A1) ndash Pag 109 ndash Figura 45
x=020
y1=dpois(x1) y2=dpois(x3) y3=dpois(x10)names(y1)=x names(y2)=x names(y3)=xpar(mfrow=c(13))plot(y1ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=1)plot(y2ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=3)plot(y3ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=10)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4961
A1) ndash Pag 118 ndash Figura 412
x=seq(010001)
plot(xdexp(x 12) type=l xlim=c(012) ylim=c(01) bty=l ylab=f(x) eF(x))for(i in seq(0 25 001)) segments(i 0 i dexp(i12) col=lightgrey)abline(v=0 h=0)points(xdexp(x 12) type=l lwd=2 bty=l)points(xpexp(x 12) lwd=2 type=l)segments(250 25pexp(2512))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5061
A1) ndash Pag 163 ndash Figura 68
plot(p xlim=c(618) ylim=c(016) type=n bty=l xaxt=n xlab= ylab=
cexaxis=6)for (i in 1015) rect(i-50 i+5 dbinom(i304) col=lightgrey) lty=2)segments(i0idbinom(i304) lty=2)
x=seq(61801) lines(x dnorm(x12sqrt(72)) lwd=2)x=seq(61801) lines(x dnorm(x12sqrt(72)) lwd=2)
axis(1 916 cexaxis=9) ax s seq cexax s=
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5161
A1) ndash Pag 198 ndash Figura 78
x1=seq(-4402)plot(x1dnorm(x1) type=l lwd=3 xlab= ylab= )lines(x1 dt(x11)) lines(x1 dt(x12)) lines(x1 dt(x15))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5261
A2ndashResumo de comandos
a)Criaccedilatildeo de dados
c()funccedilatildeo geneacuterica para combinar argumentos com o formando de um vetor fromto gera uma sequecircnce ldquordquo tem prioridade de operator pe13 + 1 is ldquo234rdquo
seq(fromtoby) gera uma sequecircncia by= especifica incremento
length= especifica um comprimento desejado
rep(xtimes) replicate x onuacutemero times de vezes use each= para repetir cada
elemento de x rep(c(123)2) gera 1 2 3 1 2 3 rep(c(12)each=2) gera 1 1 2 2
matrix(xnrow=ncol=) matrix elementos de x se reciclam caso x
rbind()combina vetores em linhas num estrutura de matrizes de dados
cbind()combina vetores em colunas num estrutura de matrizes de dados
array(xdim=) matriz com dados x especificar dimensotildees como dim=c(342)
elementos de x se reciclam caso x natildeo seja suficientemente grande
factor(xlevels=) codifica um vetor x como um fator gl(nklength=nklabels=1n) gerar niacuteveis (fatores) especificando
o padratildeo de seus niacuteveis k eacute o nuacutemero de niacuteveis e n eacute o nuacutemero de repeticcedilotildees
dataframe() criar um banco de dados Por exemplo
dataframe(v=14ch=c(gBcasad)n=5)
list()criar uma lista de argumentos Por exemplo list(a=c(12)b=hic=3i)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5361
A2ndashResumo de comandos
b) Informaccedilatildeo de uma Variaacutevellength(x) nuacutemero de elementos em x
dim(x) Obter ou definir a dimensatildeo de um objeto dim (x) = c(32)dimnames(x) Obter ou definir os nomes das dimensotildees de um objeto
nrow(x) nuacutemero de linhas
ncol(x) nuacutemero de colunas
c) Seleccedilatildeo de dados e manipulaccedilatildeochoose(n k) calcula a combinaccedilatildeo de elementos escolhidos entre n
resultando n [(n-k) k]
cut(xbreaks) divide x em intervalos (fatores) breaks eacute o nuacutemero de intervalos de
corte ou um vetor com os valores especiacuteficos
table(x) retorna uma tabela com as quantidades dos diferentes valores de x
(tipicamente para variaacuteveis dos tipos inteiros ou fatores)
sample(x size) retira aleatoriamente com e sem reposiccedilatildeo elementos detamanho SIZE do vetor x a opccedilatildeo replace = TRUE permite a retirada com reposiccedilatildeo
proptable(xmargin=) transforma a tabela como tabela de propoccedilatildeo
marginal margin=1 (com relaccedilatildeo as linhas) margin=2 (com relaccedilatildeo as colunas)
sort(x) Classifica os elementos de x em ordem crescente para classificar em ordem
decrescente rev(sort(x))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5461
A2ndashResumo de comandosd) Estatiacutesticas e operaccedilotildees matemaacuteticasmean(x) media dos elementos de x
median(x) mediana dos elementos de x
quantile(xprobs=) quantis de x correspondendo a uma dada probabilidadevar(x) ou cov(x) variacircncia dos elementos de x (calculado com n-1)
se x eacute uma matriz a matriz de covariacircncia eacute calculada
sd(x) desvio padracirco de of x
cor(x) matriz de correlaccedilatildeo de x se x for uma matriz ou (1 se x eacute um vector)
cor(x y) correlaccedilatildeo linear entre X e Y ou matriz de correlaccedilatildeo se eles satildeo matrizes
round(x n) arredonda os elementos de x para n casas decimais sum x soma os e emen os e x
prod(x) multilica os elementos de x
max(x) acha o maacuteximo dos elementos de x
min(x) acha o miacutenimo dos elementos de x
range(x) equivalente a c(min(x)max(x)
cumsum(x) um vetor onde o eacutesimo elemento eacute a soma de x[1] ateacute x[i]cumprod(x) um vetor onde o eacutesimo elemento eacute o produto de x[1] ateacute x[i]
cummin(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
cummax(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
sincostanasinacosatanatan2loglog10exp)
log(x base) calcula o logaritmo de x na base=base
weightedmean(x w) media ponderada de x com peso= w
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5561
A2ndashResumo de comandos
e) Corte e extraccedilatildeo de dadosindexaccedilatildeo de Vetores
x[n] n-eacutesimo elemento do vetor
x[-n] todos menos o n-eacutesimo elemento
x[1n] os primeiros n elemento
x[-(1n)] elementos de n+1 ateacute o final
x[c(432)] elementos especificados
x[y gt 5] todo elementos de onde os valores de y satildeo maiores que 5
x x gt 3 amp x lt 5 todo elementos entre 3 e 5
x[nome] elemento denominado nome
indexaccedilatildeo de Matrizes
x[ij] elemento na linha i coluna j
x[i] linha i
x[j] coluna j
x[c(13)] colunas 1 and 3
x[nome] linha nomeada nome
indexaccedilatildeo de data frames
x[[nome]] coluna chamada nome
x$nome equivalente a coluna chamada nome
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5661
A2ndashResumo de comandos
f) Operaccedilatildeo com Matrizest(x) transposta da matrix x
diag(x) retira a diagonal da matrix x
multiplicaccedilatildeo matricial
solve(ab) resove a equaccedilatildeo a x = b em relaccedilatildeo a x
solve(a) matriz inversa de a
rowSum(x) soma das linhas da matrix x
colSum(x) soma das colunas da matrix x
rowMeans x meacutedia das linhas da matrix x
colMeans(x) id meacutedia das colunas da matrix x
g) Graacuteficos (Plotting)plot(x y) diagrama de disperccedilatildeo plot dos pares (xy) num sistema de eixos
coordenadoshist(x) histogram dasfrequecircncias of x
barplot(x) graacutefico de barras of x usar horiz=T ara barras horizontal
pie(x) graacutefico de setores (pie-chart)
boxplot(x)
qqnorm(x) quantis de x em relaccedilatildeo aos valores esperados de uma dist Normal
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5761
A2ndashResumo de comandosparametros dos commando de Graacutefico
type=p especifica o tipo de plot p pontos l linhas b pontos
ligados por linhas o idecircntico mas as linhas passam sobre os pontos h
linhas verticais s escada (steps) os dados satildeo representados pelas alturasverticais
xlim= ylim= especifica os limites inferiores e superiores dos eixos por exemplocom xlim=c(1 10) ou xlim=range(x)
xlab= ylab= nomeia os eixos o nome deve ser do tipo caracter
main= tiacutetulo principal deve ser do tipo caracter
sub= sub-tiacutetulo (escrito em fonte menor)
podem ser usados como bty(tipo de caixa) lwd (lagura da linha) lty (tipo delinha) pch(tipo de ponto) cex xaxs yaxs xaxtyaxt
h) Teste de hipoacuteteses
ttest()proptest()
chisqtest()
aov(formula) analysis of variance model
anova(fit) analysis of variance (or deviance) tables for one or more
fitted model objects
Use o commando gt test para procurar todos os testes disponiacuteveis
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5861
A2ndashResumo de comandos
i) Programmingfunction( arglist ) expr para definer uma funccedilatildeo
return(value)
if(cond) expr
if(cond) consexpr else altexpr
for(var in seq) expr
while(cond) expr
re eat ex r
break
Usar chaves entre commandos dlimitando o iniacutecio e o fim de um grupo decomandos
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5961
A2ndashResumo de comandos
j) Commandos auxiliaries em Graacuteficospoints(x y) adiciona pontos (a opccedilatildeo type= pode ser usada)
lines(x y) adiciona linhas (a opccedilatildeo type= pode ser usada)text(x y labels ) adiciona texto na coordenada (xy) um uso tiacutepico eacute
plot(x y type=n) text(x ynames)
segments(x0 y0 x1 y1) desenha linhas do ponto (x0 y0) ao (x1 y1)
arrows(x0 y0 x1 y1 angle= 30 code=2) desenha seta do ponto
(x0 y0) ao (x1 y1)
abline(ab) desenha uma reta de inclinaccedilatildeo b e intercepto a
abline(v=x) desenha uma reta vertical em x
abline(lsfit(xy)) desenha uma reta da regressatildeo feita em lsfit(xy)
rect(x1 y1 x2 y2) desenha um retacircngulo que a esquerda inferior tem coordenadas(x1 y1) e o limite da direita superiores (x2 y2)
polygon(x y) desenha um poliacutegono que une os pontos com coordenadas X e Y
legend(x y legend) Acrescenta a lenda no ponto (x y) com os siacutembolos
dada pela legend
title()adiciona um tiacutetulo e opcionalmente um sub-tiacutetulo
axis(side) acrescenta um eixo na parte inferior (side = 1) agrave esquerda (2) na partesuperior (3) ou agrave direita (4)
box()desenhar uma caixa em torno do plot
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6061
A2ndashResumo de comandos
k) Comando par (Graphical parameters)Todos estes comando podem ser definidos a niacutevel global com o par () que
especifica os paracircmetros mas tambeacutem muitos podem ser usados comoparametros dos commando de Graacutefico
mfcol vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em colunas
mfrow vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em linhas(matrix for row)
bty controla o tipo de caixa desenhada ao redor do enredo valores permitidos satildeo
o l 7 c u ou se bt =n a caixa natildeo eacute desenhada
lty controla o tipo de linhas pode ser um inteiro ou string (1 solid 2 dashed 3dotted 4 dotdash 5 longdash 6twodash) ou uma string de ateacuteoito caracteres (entre 0 e 9) que especifica o comprimento em pontos oupixels dos elementos desenhados e os espaccedilos em branco por exemplolty=rdquo44rdquo equivale a lty=2
lwd nuacutemero que controla a largura das linhas default 1pch controla o tipo de siacutembolo pode tambeacutem ser um nuacutemero inteiro entre 1 e 25
ps um inteiro que controla o tamanho em pontos de textos e siacutembolos
pty um caracter que especifica o tipo da regiatildeo s quadrado m maacuteximal
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6161
A2ndashResumo de comandos
l) Input and outputreadtable(file) lecirc um arquivo em formato de tabela e cria um quadro de dados a
partir dele o separador default = eacute espaccedilo em branco header = TRUE ler a
primeira linha como um cabeccedilalho de nomes de coluna asis = TRUE paraevitar aque um vetore de caracteres seja convertido em factores usocommentchar = para evitar seja interpretado como um comentaacuteriouso skip = n para pular n linhas antes da leitura de dados consulte a ajudapara as opccedilotildees de linha de nomeaccedilatildeo o tratamento NA e outros
readcsv(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por viacutergulas
readdelim(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por tabulaccedilotildees
readfwf(filewidthsheader=FALSEsep= asis=FALSE)
ler uma tabela de dados em formato fix de largura m para um dataframe widthseacute um vetor inteiro informando os tamanhos dos campos
sink(file) saiacuteda de todos os comandos para um arquivo ateacute aparecer um comando
sink () que desliga writetable(x file=rownames=Tcolnames=Tsep= ) imprime x apoacutes a
conversatildeo para banco de dados
save(file) guarda os objetos especificados () no formato XDR
load()carregar o conjunto de dados salvos com o comando save
data(x) carrega um conjunto de dados especificado
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2361
Pag 118 ndash Figura 412
x=seq(010001)
plot(xdexp(x 12) type=l xlim=c(012) ylim=c(01) bty=l ylab=f(x) e F(x))
for(i in seq(0 25 001)) segments(i 0 i dexp(i12) col=lightgrey)
abline(v=0 h=0)
points(xdexp(x 12) type=l lwd=2 bty=l)
points(x pexp(x 12) lwd=2 type=l)
segments(250 25pexp(2512))
Cap 2-b - va dexp pexp points segments
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2461
Cap 2-b - va disponiacuteveis no Rrbinom(n size prob) binomialrpois(n lambda) Poissonrgeom(n prob) geometricarhyper(nn m n k) hipergeometricarnbinom(n size prob) binomial negativarunif(n min=0 max=1) uniformerexp(n rate=1) exponentialrnorm(n mean=0 sd=1) Gaussiana (normal)rt(n df) lsquoStudentrsquo (t )rf(n df1 df2) FisherndashSnedecor (F )
rchisq(n df) Quiquadradar amma n sha e scale=1 amma rbeta(n shape1 shape2) betarlnorm(n meanlog=0 sdlog=1) lognormalrcauchy(n location=0 scale=1) Cauchyrweibull(n shape scale=1) Weibullrwilcox(nn m n) Wilcoxonrsquos rank sum statistics
rsignrank(nn n) Wilcoxonrsquos signed rank statisticsrlogis(n location=0 scale=1) logistic
Todas essas distribuiccedilotildees apresentadas por rnome (nome da variaacutevel aleatoacuteria) como vimostrocando a primeira letra e mantendo os paracircmetros especiacuteficos de cada distribuiccedilatildeo(denotados por ) podem ser usadas substituindo a letra ldquor rdquo por
d valor da densidade de probabilidade no ponto x dnome (x )p probabilidade acumulada no ponto x pnome (x )
q quantil correspondente a probabilidade acumulada p dnome (p)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2561
Cap 2-c O Teorema Central do Limite (TCL)O Teorema Central do Limite (abreviadamente TCL) diz respeito ao comportamento da
meacutedia amostral agrave medida que o tamanho n da amostra cresce indefinidamente
Exemplo 31 ndash A distribuiccedilatildeo de renda e o TCLEacute um fato conhecido que a distribuiccedilatildeo da rendapessoal dos habitantes de um paiacutes eacuteusualmente muito desigual ou seja muitosganham pouco e poucos ganham muito Seforem sorteados 200 habitantes desse paiacutes e
com base nas suas rendas mensais
Agora se forem sorteadas 200 amostrascada uma delas contendo 2 habitantesdesse paiacutes e se forem calculadas as 200respectivas meacutedias amostrais a partir delas obteremos o histograma a seguir
Agora cada uma das 200 amostrassorteadas contendo 30 habitantes dessepaiacutes e se forem calculadas as 200 meacutediasamostrais o histograma seria
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2661
Cap 2-c ndash TCL ExemploComo pode ser observado no caso de n = 2 o histograma se aproxima mais de uma curvaNormal do que no caso de n = 1 E no caso de n = 30 a semelhanccedila do histograma com umacurva Normal eacute ainda maior
O Teorema Central do Limite afirma que independentemente de qual seja a
distribuiccedilatildeo original dos Xirsquos a distribuiccedilatildeo de probabilidade de e a
distribuiccedilatildeo Normal com meacutedia micromicromicromicro e variacircncia σσσσ2 n se aproximam cada vez
mais uma da outra agrave medida que n cresce
Portanto mesmo que a distribuiccedilatildeo de probabilidade dos Xirsquos seja desconhecida o Teorema
X n
Central do Limite garante a possibilidade de usarmos o modelo Normal para calcular ainda quede forma aproximada probabilidades relativas agrave meacutedia amostral desde que n sejasuficientemente grande
Exemplo 62 Simulando o efeito do TCL
Para ilustrar o funcionamento do Teorema Central do Limite vamos exibir agora um exemploem que a distribuiccedilatildeo original a partir da qual os dados satildeo gerados eacute uma exponencial modelo
este que daacute origem a uma funccedilatildeo densidade bastante assimeacutetrica (ao contraacuterio do que ocorre
com a curva Normal) A densidade de uma exponencial com paracircmetro eacute dada pela
expressatildeo
No R rexp(n ) simula n valores
λ
0 xλef(x) λx ge= minusλ
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2761
Cap 2-c ndash TCL ExemploA densidade de uma exponencial com paracircmetro eacute dada pela expressatildeo
Gerando dados por simulaccedilatildeo a partir de uma exponencial com λ = 13 para cada um dos
seguintes tamanhos n de amostra 1 2 3 4 5 10 15 e 201 Obtivemos 200 valores da meacutedia amostral 2 Utilizamos esses 200 valores para construir um histograma3 Traccedilamos no mesmo graacutefico uma curva da densidade Normal com E( )=3 e DP( )=3Xn
λ 0 xλef(x) λx ge= minus
Xn n
Os 8 histogramas nos mostram que agrave medida que o tamanho n da amostra cresce
a forma do histograma se aproxima cada vez mais de uma curva Normal
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2861
Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com
simulaccedilotildees - Exponencial
tclexp=function(n N=200 titulo= yl=c(0 4)) iniacutecio da funccedilatildeo ndash tclexpmedias=numeric(N)
for (i in 1N) medias[i]= mean(rexp(n13))
hist(medias xlim=c(-110) ylim=yl freq=F main=titulo)
x=seq(-110 02)
points(x dnorm(x 3 3sqrt(1n) ) type=l lwd=3)
fim da funccedilatildeo
graphicsoff()
par(mfrow=c(33) mai=c(3411))
tclexp(1titulo=n=1)
tclexp(2titulo=n=2)
tclexp(3titulo=n=3)
tclexp(4titulo=n=4)
tclexp(5titulo=n=5)
tclexp(6titulo=n=6)
tclexp(10titulo=n=10yl=c(06))
tclexp(15titulo=n=15yl=c(06))
tclexp(20titulo=n=20yl=c(06))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2961
Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com
simulaccedilotildees - Exponencial
Uma pergunta natural neste ponto serialdquoQuatildeo grande deve ser n para que possamos usar a aproximaccedilatildeo fornecida pelo
TCL com um niacutevel de precisatildeo aceitaacutevelrdquo
A rapidez com que essa convergecircncia se daacute depende de quatildeo distante estaacute a forma
da distribuiccedilatildeo original das Xirsquos de uma curva Normal Em outras palavras se a
distribuiccedilatildeo das Xirsquos jaacute natildeo for muito diferente de uma Normal com um n natildeo muito-
grande (usualmente n ge 30) a aproximaccedilatildeo da distribuiccedilatildeo de por uma Normal
funcionaria adequadamente
No exemplo a seguir vamos apresentar esse fenocircmeno a saber a convergecircncia da
distribuiccedilatildeo de para uma Normal agrave medida que n cresce gerando por simulaccedilatildeo osdados originais a partir de diferentes modelos probabiliacutesticos Em todos os casos a
distribuiccedilatildeo original eacute bem diferente da Normal E(X)=3 e DP(X)=3 No que se refere agrave
Simulaccedilatildeo foi seguida a mesma sequumlecircncia de passos do exemplo anterior
Xn
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3061
Cap 2-c ndash TCL Exemplo
Exponencial
Uniforme
Mistura deNormais
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3161
Como se pode observar
1 No caso da distribuiccedilatildeo uniforme (A) o histograma de jaacute se aproximabastante de uma Normal quando n eacute da ordem de 4
2 Jaacute no caso da distribuiccedilatildeo Exponencial (B) e da mistura de normais
(C) modelos esses que se afastam muito mais de umldquo rdquo
Cap 2-c ndash TCL Exemplo
mostra mais adequada a partir de n em torno de 10
3 No caso do modelo em (C) agrave medida que n cresce tudo se passacomo se houvesse a ldquoerupccedilatildeo de um vulcatildeo dentro do valerdquo
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3261
tclunif=function(nN=100titulo= yl=c(0 4))
medias=numeric(N)for (i in 1N) medias[i]= mean(runif(n 3-3sqrt(3) 3+3sqrt(3)))
hist(medias xlim=c(-610) ylim=yl freq=F main=titulo)
x=seq(-610 02)
points(x dnorm(x 3 3sqrt(1n) ) type=l lwd=3)
medias
Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com
as simulaccedilotildees - Uniforme
grap cso
par(mfrow=c(33) mai=c(3411))
tclunif(1titulo=n=1yl=c(06))
tclunif(2titulo=n=2yl=c(06))
tclunif(3titulo=n=3yl=c(06))
tclunif(4titulo=n=4yl=c(06))tclunif(5titulo=n=5yl=c(06))
tclunif(6titulo=n=6yl=c(06))
tclunif(10titulo=n=10yl=c(06))
tclunif(15titulo=n=15yl=c(06))
tclunif(20titulo=n=20yl=c(06))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3361
X2=c(rnorm(35011) rnorm(15081)) X2 eacute a Populaccedilatildeo de onde retiramos as amostras
br=seq(-2 12 5)
tcl2modas=function(nN=200titulo= yl=c(0 6)) medias=numeric(N)for (i in 1N) medias[i]= mean(sample(X2nrep=T))hist(mediasbreaks=br xlim=c(-212) tcl=-01 ylim=yl xarp=c(-31216)
tck=005 lab=c(5515) freq=F main=titulo)x=seq(-312 02)
Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com
as simulaccedilotildees - Mistura de Normais
points(x dnorm(x med dpsqrt(n) ) type=l lwd=2)
par(mfrow=c(24) mai=c(3011) mar=c(2 2 2 1))
hist(X2 freq=F breaks=seq(-3125) bty=o xlim=c(-212)xarp=c(-31216)tck=005 lab=c(5515) ylim=c(06) main=POPULACcedilAtildeO lwd=2)
tcl2modas(2titulo=n=2)tcl2modas(3titulo=n=3)
tcl2modas(4titulo=n=4)
tcl2modas(5titulo=n=5)
tcl2modas(10titulo=n=10)
tcl2modas(15titulo=n=15)
tcl2modas(25titulo=n=25)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3461
CAP 3-a) Intervalo de ConfianccedilaSeja um estimador pontual do paracircmetro eacute uma variaacutevel aleatoacuteria que varia deamostra para amostra Por isso haacute uma certa dose de incerteza inerente a esse processode estimaccedilatildeo Nosso objetivo agora eacute obter com base nos dados amostrais (da uacutenicaamostra observada) um intervalo ao qual o valor correto do paracircmetro deve ter grandechance de pertencer
bull Detalhando um pouco mais No processo de estimaccedilatildeo por intervalo de um paracircmetro θdevemos determinar um intervalo que contenha o verdadeiro valor do paracircmetro comprobabilidade 1-α onde α eacute um pequeno valor preacute-fixado Este intervalo eacute construiacutedo emgeral em torno do estimador pontual considerando uma margem de erro d de forma aque uma vez fixada a probabilidade 1-α calculemos d tal que P( - d le θ le + d ) = 1 -αChama-se intervalo de confianccedila para θ ao niacutevel 1 - α ao intervalo [ - d + d]
θ $θ
$θ$θ
$θ $θ
$
θ
bull Ou seja o estimador pontual eacute o centro do Intervalo de Confianccedila e o erro absoluto dassociado a define a amplitude desse intervalo O que eacute de fato variaacutevel aleatoacuteria satildeoos extremos do intervalo O paracircmetro tem valor desconhecido natildeo aleatoacuterio (fixo a ser estimado)
Exemplo Intervalo de Confianccedila para a meacutedia populacional com o desvio padratildeo conhecidoO paracircmetro a estimar eacute a meacutedia populacional micro A estimaccedilatildeo seraacute baseada em X1 X2 Xn
uma amostra aleatoacuteria com E(Xi) = micro e var(Xi) = σ2 para todo i = 12 n Queremos que seja
vaacutelida a expressatildeo o que equivale a P [ -d le -micro le d] = 1-α
$θ
X[ ] α1dmicroXP minus=leminus
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3561
bull Lembrando que para n suficientemente grande pelo Teorema Central do Limite a meacutediaamostral segue uma distribuiccedilatildeo que se aproxima da Normal(micromicromicromicro σσσσ2 n) (ou eacute exatamente aNormal(micromicromicromicro σσσσ2 n) no caso em que a distribuiccedilatildeo comum das va Xirsquos jaacute eacute Normal) entatildeo
P [-d le -micromicromicromicro le d] = 1-α rArr 1-α = P [ |Z| le ] Logo d =
bull Faremos uma simulaccedilatildeo para a construccedilatildeo de Intervalos de Confianccedila com 100 amostras dedois tipos de populaccedilatildeo Normal e Exponencial A lista de comandos do R que usamos eacute
ICN = function (N n mu sigma = 3 conf)
plot(0 0 type=n xlim=c(010) ylim=c(0N) bty=l
xlab=Normal ylab=amostras)abline(v=mu)
CAP 3-a) Intervalo de Confianccedila
X
nσ
d
minus
z0 = qnorm(1-((1-conf)2))
sigmaxbarra = sigmasqrt(n)
for (i in 1N)
x = rnorm(n mu sigma)
media = mean(x)
li = media - z0 sigmaxbarrals = media + z0 sigmaxbarra
plotx = c(lils)
ploty = c(ii)
if (li gt mu | ls lt mu) lines(plotxploty col=red)
else lines(plotxploty)
gt ICN(100 25 3 3 95)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3661
CAP 3-a) Intervalo de Confianccedila
ICexp = function (N n lambda conf)
mu=1lambda sigma=1lambda
plot(0 0 type=n xlim=c(010) ylim=c(0N) bty=lxlab=Exponencial ylab=amostras)
abline(v= mu)
z0 = qnorm(1-((1-conf)2))
sigmaxbarra = sigmasqrt(n)
for (i in 1N)
x = rexp(nlambda) me a = mean x
li = media - z0 sigmaxbarra
ls = media + z0 sigmaxbarra
plotx = c(lils)
ploty = c(ii)
if (li gt mu | ls lt mu) lines(plotx ploty col=red)
else lines(plotx ploty)
gt ICexp(100 25 13 95)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3761
CAP 3-b Teste de Hipoacuteteses (TH)O objetivo de um teste de hipoacutetese eacute avaliar a validade de uma afirmaccedilatildeo sobre determinada
caracteriacutestica da populaccedilatildeo usando para isso os dados de uma amostra Essa caracteriacutestica eacute
representada pela va contiacutenua X cujo comportamento probabiliacutestico eacute expresso pela funccedilatildeo dedensidade f com paracircmetro Ө que tem valor desconhecido
Em um teste existem duas hipoacuteteses envolvidas H0 denominada hipoacutetese nula e H1
denominada hipoacutetese alternativa O procedimento de teste de hipoacutetese consiste em estabelecer
um criteacuterio de decisatildeo que leve a Aceitar ou Rejeitar H0 com base nos valores amostrais
A Estatiacutestica de teste eacute uma funccedilatildeo da amostra aleatoacuteria utilizada para definir o criteacuterio de
decisatildeo Estabelecer o criteacuterio de decisatildeo consiste em dividir o conjunto dos valores possiacuteveis
da estatiacutestica de teste em duas partes denominadas Regiatildeo de Aceitaccedilatildeo A e Regiatildeo de
Rejeiccedilatildeo R da hipoacutetese nula
Em um teste de hipoacutetese haacute dois tipos possiacuteveis de erro de decisatildeo
Erro I - Rejeitar H0 quando H0 eacute verdadeira
Erro II - Aceitar H0 quando H0 eacute falsaAs probabilidades de ocorrecircncia dos erros satildeo α = P [ Erro I ] e β = P [ Erro II]
A probabilidade de erro I α eacute o niacutevel de significacircncia do teste cujo valor eacute arbitrado pelo
pesquisador deve ser pequena pois corresponde a probabilidade de um erro (005 ou 001)
O niacutevel criacutetico ou p-valor do teste eacute o menor valor de α para o qual ainda rejeitariacuteamos H0 de
acordo com os dados observados
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3861
CAP 3-b) ndash TH teste tttest(x y = NULL alternative = c(twosided less greater) mu = 0
paired = FALSE varequal = FALSE conflevel = 095 )
Procedimentos de teste de hipoacuteteses com niacutevel de significacircncia α e amostras de tamanho n
UmaAmostra
DuasAmostras
Obs Os testes acima satildeo bilaterais
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3961
CAP 3ndashb) TH exemplo de teste t ndash amostras independentespag233- teste t amostras independente - comparaccedilatildeo log(salaacuterio)
entre os grupos de comeacutercio e de serviccedilo
LogSal=c(1289156912501344145616361573171309060903
0977122011031069128714101496131113371366
1227119114591280115217401649176524101701
1538192419251721154918911534163812071682
120614232010143112651570)
Sal=exp(LogSal)
setor= c(rep(C23) rep(S23))
ttest(Sal[setor==C] Sal[setor==S] varequal=T)
Two Sample t-test
data Sal[setor == C] and Sal[setor == S]
t = -36822 df = 44 p-value = 00006289
alternative hypothesis true difference in means is not equal to 095 percent confidence interval
-23079005 -06751838
sample estimates
mean of x mean of y3786010 5277552
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4061
CAP 3ndashb) TH exemplo de teste t ndash amostra pareadapag237- teste t pareado
P1=c(6315596455545480598065203660986853
8765647785536980827184605572645564)
P2=c(3638306043466455604343523428837155
8238556767443459605968506254473652)
ttest(P1 P2 alt=greater paired = T)
Paired t-test
data P1 and P2
t = 44176 df = 33 p-value = 5072e-05
alternative hypothesis true difference in means is greater than 0
95 percent confidence interval
0716695 Inf
sample estimates
mean of the differences
1161765
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4161
CAP 3ndashb) TH exemplo de teste Quiquadrado chisqtest
pag233- teste Quiquadrado -
tcont=matrix(c(683585251530258 7461761220225) 72)
chisqtest(tcont)
Pearsons Chi-squared test
data tcont- = = - lt -
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4261
CAP 3ndashb) TH exemplo de teste Quiquadrado chisqtestaov(formula data = NULL )
pag244- ANOVA - Comparaccedilatildeo de trecircs raccedilotildees para suinos
A=c(444943514475425134305342453630
322133421040395246294247453959)
B=c(343640545953445432686954414647
6566455739)
C=c(574040364566395025212927283942
21304143294244582849)
aumentoP=c(ABC)
racao=c(rep(A30)rep(B20) rep(C25))
summaryaov(aov(aumentoP ~ racao))
Df Sum Sq Mean Sq F value Pr(gtF)racao 2 15385 7693 56136 0005425
Residuals 72 98666 1370
---
Signif codes 0 lsquorsquo 0001 lsquorsquo 001 lsquorsquo 005 lsquorsquo 01 lsquo rsquo 1
Warning message
In modelmatrixdefault(mt mf contrasts)
variable racao converted to a factor
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4361
ApecircndicesA-1) Apresentaremos aqui algumas figuras
feitas no R na elaboraccedilatildeo do livro
Achamos que o exame desses coacutedigos acompanhado dos resultados podeser um bom aprendizado um exerciacutecio ou talvez uma recordaccedilatildeo do materialaqui exposto
A-2) Resumo de comandosa) Criaccedilatildeo de dados
b) Informaccedilatildeo de uma Variaacutevel
c) Seleccedilatildeo de dados e manipulaccedilatildeo
d) Estatiacutesticas e operaccedilotildees matemaacuteticas
e) Corte e extraccedilatildeo de dados
f) Operaccedilatildeo com Matrizes
g) Graacuteficos (Plotting)
h) Teste de hipoacuteteses
i) Programming
j) Commandos auxiliaries em Graacuteficos
k) Comando par (Graphical parameters)
l) Input and output
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4461
A1) ndash Pag 14 ndash Figura 15
IDADE=c(616961716371726866697267636663636067716360696463667164706366646969646372736871726968687379)
IMC= c(245273281301254301280234268228255228235232203226239243271227237258213243243248219234216214221227227211268278275267286253239258247284235)
par(mfrow=c(12))hist(IDADE breaks=c(6065707580) ylim=c(020) ylab=Nuacutemero de Observaccedilotildees
main= col=grey right = F)hist(IMC breaks=c(200225250275300325)
ylab=Nuacutemero de Observaccedilotildeesmain= col=grey right = F )
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4561
A1) ndash Pag 44 ndash Figura 21
mat=matrix(c(81823913601818608740)32)
rownames(mat)=c(AtivaSedentaacuteriaTotal)colnames(mat)=c(NormalSobrepeso)barplot(t(mat) beside = TRUE space=c(315)
col=gray(c(79))legend = c(NormalSobrepeso) ylim = c(0 95) ylab= - percentagem)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4661
A1) ndash Pag 48 ndash Figura 22
mat= matrix(c(68154510 66214215 66242519 39161711)44byrow=T)
rownames(mat)=c(18 a 21 anos 22 a 25 anos 26 a 30 anos 31 a 40 anos)colnames(mat)=c(CinTeatSMDEx)mat1=mat for (i in 14) mat1[i]lt-mat1[i]100sum(mat1[i]) par(mfrow=c(12) mai=c(1111) mar=c(5 4 2 2) )barplot(matbeside=F ylim=c(0250) legend = c(18 a 21 anos 22 a 25 anos
26 a 30 anos 31 a 40 anos) xlab=Contagem)
barplot(mat1 beside=F xlab=Percentagem)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4761
A1) ndash Pag 52 ndash Figura 25X= c(184114821789235159118762592403190408372147328526471687
09642871437079238215753399242122530314859149806)y =c(01837012540193301620014230140604568022870231400861019960235302186012798991801254018210244160823
0147764068011818941403474539680150133247023685518102146187520214097090257291227
036282905401406510810113849399)plot(x y xlim=c(07) ylim=c(05) pch=16 bty=l xlab=Renda per capita
ylab=Telefonia Fixa per capita)
abline(lsfit(xy))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4861
A1) ndash Pag 109 ndash Figura 45
x=020
y1=dpois(x1) y2=dpois(x3) y3=dpois(x10)names(y1)=x names(y2)=x names(y3)=xpar(mfrow=c(13))plot(y1ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=1)plot(y2ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=3)plot(y3ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=10)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4961
A1) ndash Pag 118 ndash Figura 412
x=seq(010001)
plot(xdexp(x 12) type=l xlim=c(012) ylim=c(01) bty=l ylab=f(x) eF(x))for(i in seq(0 25 001)) segments(i 0 i dexp(i12) col=lightgrey)abline(v=0 h=0)points(xdexp(x 12) type=l lwd=2 bty=l)points(xpexp(x 12) lwd=2 type=l)segments(250 25pexp(2512))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5061
A1) ndash Pag 163 ndash Figura 68
plot(p xlim=c(618) ylim=c(016) type=n bty=l xaxt=n xlab= ylab=
cexaxis=6)for (i in 1015) rect(i-50 i+5 dbinom(i304) col=lightgrey) lty=2)segments(i0idbinom(i304) lty=2)
x=seq(61801) lines(x dnorm(x12sqrt(72)) lwd=2)x=seq(61801) lines(x dnorm(x12sqrt(72)) lwd=2)
axis(1 916 cexaxis=9) ax s seq cexax s=
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5161
A1) ndash Pag 198 ndash Figura 78
x1=seq(-4402)plot(x1dnorm(x1) type=l lwd=3 xlab= ylab= )lines(x1 dt(x11)) lines(x1 dt(x12)) lines(x1 dt(x15))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5261
A2ndashResumo de comandos
a)Criaccedilatildeo de dados
c()funccedilatildeo geneacuterica para combinar argumentos com o formando de um vetor fromto gera uma sequecircnce ldquordquo tem prioridade de operator pe13 + 1 is ldquo234rdquo
seq(fromtoby) gera uma sequecircncia by= especifica incremento
length= especifica um comprimento desejado
rep(xtimes) replicate x onuacutemero times de vezes use each= para repetir cada
elemento de x rep(c(123)2) gera 1 2 3 1 2 3 rep(c(12)each=2) gera 1 1 2 2
matrix(xnrow=ncol=) matrix elementos de x se reciclam caso x
rbind()combina vetores em linhas num estrutura de matrizes de dados
cbind()combina vetores em colunas num estrutura de matrizes de dados
array(xdim=) matriz com dados x especificar dimensotildees como dim=c(342)
elementos de x se reciclam caso x natildeo seja suficientemente grande
factor(xlevels=) codifica um vetor x como um fator gl(nklength=nklabels=1n) gerar niacuteveis (fatores) especificando
o padratildeo de seus niacuteveis k eacute o nuacutemero de niacuteveis e n eacute o nuacutemero de repeticcedilotildees
dataframe() criar um banco de dados Por exemplo
dataframe(v=14ch=c(gBcasad)n=5)
list()criar uma lista de argumentos Por exemplo list(a=c(12)b=hic=3i)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5361
A2ndashResumo de comandos
b) Informaccedilatildeo de uma Variaacutevellength(x) nuacutemero de elementos em x
dim(x) Obter ou definir a dimensatildeo de um objeto dim (x) = c(32)dimnames(x) Obter ou definir os nomes das dimensotildees de um objeto
nrow(x) nuacutemero de linhas
ncol(x) nuacutemero de colunas
c) Seleccedilatildeo de dados e manipulaccedilatildeochoose(n k) calcula a combinaccedilatildeo de elementos escolhidos entre n
resultando n [(n-k) k]
cut(xbreaks) divide x em intervalos (fatores) breaks eacute o nuacutemero de intervalos de
corte ou um vetor com os valores especiacuteficos
table(x) retorna uma tabela com as quantidades dos diferentes valores de x
(tipicamente para variaacuteveis dos tipos inteiros ou fatores)
sample(x size) retira aleatoriamente com e sem reposiccedilatildeo elementos detamanho SIZE do vetor x a opccedilatildeo replace = TRUE permite a retirada com reposiccedilatildeo
proptable(xmargin=) transforma a tabela como tabela de propoccedilatildeo
marginal margin=1 (com relaccedilatildeo as linhas) margin=2 (com relaccedilatildeo as colunas)
sort(x) Classifica os elementos de x em ordem crescente para classificar em ordem
decrescente rev(sort(x))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5461
A2ndashResumo de comandosd) Estatiacutesticas e operaccedilotildees matemaacuteticasmean(x) media dos elementos de x
median(x) mediana dos elementos de x
quantile(xprobs=) quantis de x correspondendo a uma dada probabilidadevar(x) ou cov(x) variacircncia dos elementos de x (calculado com n-1)
se x eacute uma matriz a matriz de covariacircncia eacute calculada
sd(x) desvio padracirco de of x
cor(x) matriz de correlaccedilatildeo de x se x for uma matriz ou (1 se x eacute um vector)
cor(x y) correlaccedilatildeo linear entre X e Y ou matriz de correlaccedilatildeo se eles satildeo matrizes
round(x n) arredonda os elementos de x para n casas decimais sum x soma os e emen os e x
prod(x) multilica os elementos de x
max(x) acha o maacuteximo dos elementos de x
min(x) acha o miacutenimo dos elementos de x
range(x) equivalente a c(min(x)max(x)
cumsum(x) um vetor onde o eacutesimo elemento eacute a soma de x[1] ateacute x[i]cumprod(x) um vetor onde o eacutesimo elemento eacute o produto de x[1] ateacute x[i]
cummin(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
cummax(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
sincostanasinacosatanatan2loglog10exp)
log(x base) calcula o logaritmo de x na base=base
weightedmean(x w) media ponderada de x com peso= w
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5561
A2ndashResumo de comandos
e) Corte e extraccedilatildeo de dadosindexaccedilatildeo de Vetores
x[n] n-eacutesimo elemento do vetor
x[-n] todos menos o n-eacutesimo elemento
x[1n] os primeiros n elemento
x[-(1n)] elementos de n+1 ateacute o final
x[c(432)] elementos especificados
x[y gt 5] todo elementos de onde os valores de y satildeo maiores que 5
x x gt 3 amp x lt 5 todo elementos entre 3 e 5
x[nome] elemento denominado nome
indexaccedilatildeo de Matrizes
x[ij] elemento na linha i coluna j
x[i] linha i
x[j] coluna j
x[c(13)] colunas 1 and 3
x[nome] linha nomeada nome
indexaccedilatildeo de data frames
x[[nome]] coluna chamada nome
x$nome equivalente a coluna chamada nome
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5661
A2ndashResumo de comandos
f) Operaccedilatildeo com Matrizest(x) transposta da matrix x
diag(x) retira a diagonal da matrix x
multiplicaccedilatildeo matricial
solve(ab) resove a equaccedilatildeo a x = b em relaccedilatildeo a x
solve(a) matriz inversa de a
rowSum(x) soma das linhas da matrix x
colSum(x) soma das colunas da matrix x
rowMeans x meacutedia das linhas da matrix x
colMeans(x) id meacutedia das colunas da matrix x
g) Graacuteficos (Plotting)plot(x y) diagrama de disperccedilatildeo plot dos pares (xy) num sistema de eixos
coordenadoshist(x) histogram dasfrequecircncias of x
barplot(x) graacutefico de barras of x usar horiz=T ara barras horizontal
pie(x) graacutefico de setores (pie-chart)
boxplot(x)
qqnorm(x) quantis de x em relaccedilatildeo aos valores esperados de uma dist Normal
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5761
A2ndashResumo de comandosparametros dos commando de Graacutefico
type=p especifica o tipo de plot p pontos l linhas b pontos
ligados por linhas o idecircntico mas as linhas passam sobre os pontos h
linhas verticais s escada (steps) os dados satildeo representados pelas alturasverticais
xlim= ylim= especifica os limites inferiores e superiores dos eixos por exemplocom xlim=c(1 10) ou xlim=range(x)
xlab= ylab= nomeia os eixos o nome deve ser do tipo caracter
main= tiacutetulo principal deve ser do tipo caracter
sub= sub-tiacutetulo (escrito em fonte menor)
podem ser usados como bty(tipo de caixa) lwd (lagura da linha) lty (tipo delinha) pch(tipo de ponto) cex xaxs yaxs xaxtyaxt
h) Teste de hipoacuteteses
ttest()proptest()
chisqtest()
aov(formula) analysis of variance model
anova(fit) analysis of variance (or deviance) tables for one or more
fitted model objects
Use o commando gt test para procurar todos os testes disponiacuteveis
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5861
A2ndashResumo de comandos
i) Programmingfunction( arglist ) expr para definer uma funccedilatildeo
return(value)
if(cond) expr
if(cond) consexpr else altexpr
for(var in seq) expr
while(cond) expr
re eat ex r
break
Usar chaves entre commandos dlimitando o iniacutecio e o fim de um grupo decomandos
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5961
A2ndashResumo de comandos
j) Commandos auxiliaries em Graacuteficospoints(x y) adiciona pontos (a opccedilatildeo type= pode ser usada)
lines(x y) adiciona linhas (a opccedilatildeo type= pode ser usada)text(x y labels ) adiciona texto na coordenada (xy) um uso tiacutepico eacute
plot(x y type=n) text(x ynames)
segments(x0 y0 x1 y1) desenha linhas do ponto (x0 y0) ao (x1 y1)
arrows(x0 y0 x1 y1 angle= 30 code=2) desenha seta do ponto
(x0 y0) ao (x1 y1)
abline(ab) desenha uma reta de inclinaccedilatildeo b e intercepto a
abline(v=x) desenha uma reta vertical em x
abline(lsfit(xy)) desenha uma reta da regressatildeo feita em lsfit(xy)
rect(x1 y1 x2 y2) desenha um retacircngulo que a esquerda inferior tem coordenadas(x1 y1) e o limite da direita superiores (x2 y2)
polygon(x y) desenha um poliacutegono que une os pontos com coordenadas X e Y
legend(x y legend) Acrescenta a lenda no ponto (x y) com os siacutembolos
dada pela legend
title()adiciona um tiacutetulo e opcionalmente um sub-tiacutetulo
axis(side) acrescenta um eixo na parte inferior (side = 1) agrave esquerda (2) na partesuperior (3) ou agrave direita (4)
box()desenhar uma caixa em torno do plot
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6061
A2ndashResumo de comandos
k) Comando par (Graphical parameters)Todos estes comando podem ser definidos a niacutevel global com o par () que
especifica os paracircmetros mas tambeacutem muitos podem ser usados comoparametros dos commando de Graacutefico
mfcol vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em colunas
mfrow vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em linhas(matrix for row)
bty controla o tipo de caixa desenhada ao redor do enredo valores permitidos satildeo
o l 7 c u ou se bt =n a caixa natildeo eacute desenhada
lty controla o tipo de linhas pode ser um inteiro ou string (1 solid 2 dashed 3dotted 4 dotdash 5 longdash 6twodash) ou uma string de ateacuteoito caracteres (entre 0 e 9) que especifica o comprimento em pontos oupixels dos elementos desenhados e os espaccedilos em branco por exemplolty=rdquo44rdquo equivale a lty=2
lwd nuacutemero que controla a largura das linhas default 1pch controla o tipo de siacutembolo pode tambeacutem ser um nuacutemero inteiro entre 1 e 25
ps um inteiro que controla o tamanho em pontos de textos e siacutembolos
pty um caracter que especifica o tipo da regiatildeo s quadrado m maacuteximal
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6161
A2ndashResumo de comandos
l) Input and outputreadtable(file) lecirc um arquivo em formato de tabela e cria um quadro de dados a
partir dele o separador default = eacute espaccedilo em branco header = TRUE ler a
primeira linha como um cabeccedilalho de nomes de coluna asis = TRUE paraevitar aque um vetore de caracteres seja convertido em factores usocommentchar = para evitar seja interpretado como um comentaacuteriouso skip = n para pular n linhas antes da leitura de dados consulte a ajudapara as opccedilotildees de linha de nomeaccedilatildeo o tratamento NA e outros
readcsv(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por viacutergulas
readdelim(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por tabulaccedilotildees
readfwf(filewidthsheader=FALSEsep= asis=FALSE)
ler uma tabela de dados em formato fix de largura m para um dataframe widthseacute um vetor inteiro informando os tamanhos dos campos
sink(file) saiacuteda de todos os comandos para um arquivo ateacute aparecer um comando
sink () que desliga writetable(x file=rownames=Tcolnames=Tsep= ) imprime x apoacutes a
conversatildeo para banco de dados
save(file) guarda os objetos especificados () no formato XDR
load()carregar o conjunto de dados salvos com o comando save
data(x) carrega um conjunto de dados especificado
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2461
Cap 2-b - va disponiacuteveis no Rrbinom(n size prob) binomialrpois(n lambda) Poissonrgeom(n prob) geometricarhyper(nn m n k) hipergeometricarnbinom(n size prob) binomial negativarunif(n min=0 max=1) uniformerexp(n rate=1) exponentialrnorm(n mean=0 sd=1) Gaussiana (normal)rt(n df) lsquoStudentrsquo (t )rf(n df1 df2) FisherndashSnedecor (F )
rchisq(n df) Quiquadradar amma n sha e scale=1 amma rbeta(n shape1 shape2) betarlnorm(n meanlog=0 sdlog=1) lognormalrcauchy(n location=0 scale=1) Cauchyrweibull(n shape scale=1) Weibullrwilcox(nn m n) Wilcoxonrsquos rank sum statistics
rsignrank(nn n) Wilcoxonrsquos signed rank statisticsrlogis(n location=0 scale=1) logistic
Todas essas distribuiccedilotildees apresentadas por rnome (nome da variaacutevel aleatoacuteria) como vimostrocando a primeira letra e mantendo os paracircmetros especiacuteficos de cada distribuiccedilatildeo(denotados por ) podem ser usadas substituindo a letra ldquor rdquo por
d valor da densidade de probabilidade no ponto x dnome (x )p probabilidade acumulada no ponto x pnome (x )
q quantil correspondente a probabilidade acumulada p dnome (p)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2561
Cap 2-c O Teorema Central do Limite (TCL)O Teorema Central do Limite (abreviadamente TCL) diz respeito ao comportamento da
meacutedia amostral agrave medida que o tamanho n da amostra cresce indefinidamente
Exemplo 31 ndash A distribuiccedilatildeo de renda e o TCLEacute um fato conhecido que a distribuiccedilatildeo da rendapessoal dos habitantes de um paiacutes eacuteusualmente muito desigual ou seja muitosganham pouco e poucos ganham muito Seforem sorteados 200 habitantes desse paiacutes e
com base nas suas rendas mensais
Agora se forem sorteadas 200 amostrascada uma delas contendo 2 habitantesdesse paiacutes e se forem calculadas as 200respectivas meacutedias amostrais a partir delas obteremos o histograma a seguir
Agora cada uma das 200 amostrassorteadas contendo 30 habitantes dessepaiacutes e se forem calculadas as 200 meacutediasamostrais o histograma seria
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2661
Cap 2-c ndash TCL ExemploComo pode ser observado no caso de n = 2 o histograma se aproxima mais de uma curvaNormal do que no caso de n = 1 E no caso de n = 30 a semelhanccedila do histograma com umacurva Normal eacute ainda maior
O Teorema Central do Limite afirma que independentemente de qual seja a
distribuiccedilatildeo original dos Xirsquos a distribuiccedilatildeo de probabilidade de e a
distribuiccedilatildeo Normal com meacutedia micromicromicromicro e variacircncia σσσσ2 n se aproximam cada vez
mais uma da outra agrave medida que n cresce
Portanto mesmo que a distribuiccedilatildeo de probabilidade dos Xirsquos seja desconhecida o Teorema
X n
Central do Limite garante a possibilidade de usarmos o modelo Normal para calcular ainda quede forma aproximada probabilidades relativas agrave meacutedia amostral desde que n sejasuficientemente grande
Exemplo 62 Simulando o efeito do TCL
Para ilustrar o funcionamento do Teorema Central do Limite vamos exibir agora um exemploem que a distribuiccedilatildeo original a partir da qual os dados satildeo gerados eacute uma exponencial modelo
este que daacute origem a uma funccedilatildeo densidade bastante assimeacutetrica (ao contraacuterio do que ocorre
com a curva Normal) A densidade de uma exponencial com paracircmetro eacute dada pela
expressatildeo
No R rexp(n ) simula n valores
λ
0 xλef(x) λx ge= minusλ
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2761
Cap 2-c ndash TCL ExemploA densidade de uma exponencial com paracircmetro eacute dada pela expressatildeo
Gerando dados por simulaccedilatildeo a partir de uma exponencial com λ = 13 para cada um dos
seguintes tamanhos n de amostra 1 2 3 4 5 10 15 e 201 Obtivemos 200 valores da meacutedia amostral 2 Utilizamos esses 200 valores para construir um histograma3 Traccedilamos no mesmo graacutefico uma curva da densidade Normal com E( )=3 e DP( )=3Xn
λ 0 xλef(x) λx ge= minus
Xn n
Os 8 histogramas nos mostram que agrave medida que o tamanho n da amostra cresce
a forma do histograma se aproxima cada vez mais de uma curva Normal
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2861
Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com
simulaccedilotildees - Exponencial
tclexp=function(n N=200 titulo= yl=c(0 4)) iniacutecio da funccedilatildeo ndash tclexpmedias=numeric(N)
for (i in 1N) medias[i]= mean(rexp(n13))
hist(medias xlim=c(-110) ylim=yl freq=F main=titulo)
x=seq(-110 02)
points(x dnorm(x 3 3sqrt(1n) ) type=l lwd=3)
fim da funccedilatildeo
graphicsoff()
par(mfrow=c(33) mai=c(3411))
tclexp(1titulo=n=1)
tclexp(2titulo=n=2)
tclexp(3titulo=n=3)
tclexp(4titulo=n=4)
tclexp(5titulo=n=5)
tclexp(6titulo=n=6)
tclexp(10titulo=n=10yl=c(06))
tclexp(15titulo=n=15yl=c(06))
tclexp(20titulo=n=20yl=c(06))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2961
Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com
simulaccedilotildees - Exponencial
Uma pergunta natural neste ponto serialdquoQuatildeo grande deve ser n para que possamos usar a aproximaccedilatildeo fornecida pelo
TCL com um niacutevel de precisatildeo aceitaacutevelrdquo
A rapidez com que essa convergecircncia se daacute depende de quatildeo distante estaacute a forma
da distribuiccedilatildeo original das Xirsquos de uma curva Normal Em outras palavras se a
distribuiccedilatildeo das Xirsquos jaacute natildeo for muito diferente de uma Normal com um n natildeo muito-
grande (usualmente n ge 30) a aproximaccedilatildeo da distribuiccedilatildeo de por uma Normal
funcionaria adequadamente
No exemplo a seguir vamos apresentar esse fenocircmeno a saber a convergecircncia da
distribuiccedilatildeo de para uma Normal agrave medida que n cresce gerando por simulaccedilatildeo osdados originais a partir de diferentes modelos probabiliacutesticos Em todos os casos a
distribuiccedilatildeo original eacute bem diferente da Normal E(X)=3 e DP(X)=3 No que se refere agrave
Simulaccedilatildeo foi seguida a mesma sequumlecircncia de passos do exemplo anterior
Xn
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3061
Cap 2-c ndash TCL Exemplo
Exponencial
Uniforme
Mistura deNormais
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3161
Como se pode observar
1 No caso da distribuiccedilatildeo uniforme (A) o histograma de jaacute se aproximabastante de uma Normal quando n eacute da ordem de 4
2 Jaacute no caso da distribuiccedilatildeo Exponencial (B) e da mistura de normais
(C) modelos esses que se afastam muito mais de umldquo rdquo
Cap 2-c ndash TCL Exemplo
mostra mais adequada a partir de n em torno de 10
3 No caso do modelo em (C) agrave medida que n cresce tudo se passacomo se houvesse a ldquoerupccedilatildeo de um vulcatildeo dentro do valerdquo
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3261
tclunif=function(nN=100titulo= yl=c(0 4))
medias=numeric(N)for (i in 1N) medias[i]= mean(runif(n 3-3sqrt(3) 3+3sqrt(3)))
hist(medias xlim=c(-610) ylim=yl freq=F main=titulo)
x=seq(-610 02)
points(x dnorm(x 3 3sqrt(1n) ) type=l lwd=3)
medias
Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com
as simulaccedilotildees - Uniforme
grap cso
par(mfrow=c(33) mai=c(3411))
tclunif(1titulo=n=1yl=c(06))
tclunif(2titulo=n=2yl=c(06))
tclunif(3titulo=n=3yl=c(06))
tclunif(4titulo=n=4yl=c(06))tclunif(5titulo=n=5yl=c(06))
tclunif(6titulo=n=6yl=c(06))
tclunif(10titulo=n=10yl=c(06))
tclunif(15titulo=n=15yl=c(06))
tclunif(20titulo=n=20yl=c(06))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3361
X2=c(rnorm(35011) rnorm(15081)) X2 eacute a Populaccedilatildeo de onde retiramos as amostras
br=seq(-2 12 5)
tcl2modas=function(nN=200titulo= yl=c(0 6)) medias=numeric(N)for (i in 1N) medias[i]= mean(sample(X2nrep=T))hist(mediasbreaks=br xlim=c(-212) tcl=-01 ylim=yl xarp=c(-31216)
tck=005 lab=c(5515) freq=F main=titulo)x=seq(-312 02)
Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com
as simulaccedilotildees - Mistura de Normais
points(x dnorm(x med dpsqrt(n) ) type=l lwd=2)
par(mfrow=c(24) mai=c(3011) mar=c(2 2 2 1))
hist(X2 freq=F breaks=seq(-3125) bty=o xlim=c(-212)xarp=c(-31216)tck=005 lab=c(5515) ylim=c(06) main=POPULACcedilAtildeO lwd=2)
tcl2modas(2titulo=n=2)tcl2modas(3titulo=n=3)
tcl2modas(4titulo=n=4)
tcl2modas(5titulo=n=5)
tcl2modas(10titulo=n=10)
tcl2modas(15titulo=n=15)
tcl2modas(25titulo=n=25)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3461
CAP 3-a) Intervalo de ConfianccedilaSeja um estimador pontual do paracircmetro eacute uma variaacutevel aleatoacuteria que varia deamostra para amostra Por isso haacute uma certa dose de incerteza inerente a esse processode estimaccedilatildeo Nosso objetivo agora eacute obter com base nos dados amostrais (da uacutenicaamostra observada) um intervalo ao qual o valor correto do paracircmetro deve ter grandechance de pertencer
bull Detalhando um pouco mais No processo de estimaccedilatildeo por intervalo de um paracircmetro θdevemos determinar um intervalo que contenha o verdadeiro valor do paracircmetro comprobabilidade 1-α onde α eacute um pequeno valor preacute-fixado Este intervalo eacute construiacutedo emgeral em torno do estimador pontual considerando uma margem de erro d de forma aque uma vez fixada a probabilidade 1-α calculemos d tal que P( - d le θ le + d ) = 1 -αChama-se intervalo de confianccedila para θ ao niacutevel 1 - α ao intervalo [ - d + d]
θ $θ
$θ$θ
$θ $θ
$
θ
bull Ou seja o estimador pontual eacute o centro do Intervalo de Confianccedila e o erro absoluto dassociado a define a amplitude desse intervalo O que eacute de fato variaacutevel aleatoacuteria satildeoos extremos do intervalo O paracircmetro tem valor desconhecido natildeo aleatoacuterio (fixo a ser estimado)
Exemplo Intervalo de Confianccedila para a meacutedia populacional com o desvio padratildeo conhecidoO paracircmetro a estimar eacute a meacutedia populacional micro A estimaccedilatildeo seraacute baseada em X1 X2 Xn
uma amostra aleatoacuteria com E(Xi) = micro e var(Xi) = σ2 para todo i = 12 n Queremos que seja
vaacutelida a expressatildeo o que equivale a P [ -d le -micro le d] = 1-α
$θ
X[ ] α1dmicroXP minus=leminus
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3561
bull Lembrando que para n suficientemente grande pelo Teorema Central do Limite a meacutediaamostral segue uma distribuiccedilatildeo que se aproxima da Normal(micromicromicromicro σσσσ2 n) (ou eacute exatamente aNormal(micromicromicromicro σσσσ2 n) no caso em que a distribuiccedilatildeo comum das va Xirsquos jaacute eacute Normal) entatildeo
P [-d le -micromicromicromicro le d] = 1-α rArr 1-α = P [ |Z| le ] Logo d =
bull Faremos uma simulaccedilatildeo para a construccedilatildeo de Intervalos de Confianccedila com 100 amostras dedois tipos de populaccedilatildeo Normal e Exponencial A lista de comandos do R que usamos eacute
ICN = function (N n mu sigma = 3 conf)
plot(0 0 type=n xlim=c(010) ylim=c(0N) bty=l
xlab=Normal ylab=amostras)abline(v=mu)
CAP 3-a) Intervalo de Confianccedila
X
nσ
d
minus
z0 = qnorm(1-((1-conf)2))
sigmaxbarra = sigmasqrt(n)
for (i in 1N)
x = rnorm(n mu sigma)
media = mean(x)
li = media - z0 sigmaxbarrals = media + z0 sigmaxbarra
plotx = c(lils)
ploty = c(ii)
if (li gt mu | ls lt mu) lines(plotxploty col=red)
else lines(plotxploty)
gt ICN(100 25 3 3 95)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3661
CAP 3-a) Intervalo de Confianccedila
ICexp = function (N n lambda conf)
mu=1lambda sigma=1lambda
plot(0 0 type=n xlim=c(010) ylim=c(0N) bty=lxlab=Exponencial ylab=amostras)
abline(v= mu)
z0 = qnorm(1-((1-conf)2))
sigmaxbarra = sigmasqrt(n)
for (i in 1N)
x = rexp(nlambda) me a = mean x
li = media - z0 sigmaxbarra
ls = media + z0 sigmaxbarra
plotx = c(lils)
ploty = c(ii)
if (li gt mu | ls lt mu) lines(plotx ploty col=red)
else lines(plotx ploty)
gt ICexp(100 25 13 95)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3761
CAP 3-b Teste de Hipoacuteteses (TH)O objetivo de um teste de hipoacutetese eacute avaliar a validade de uma afirmaccedilatildeo sobre determinada
caracteriacutestica da populaccedilatildeo usando para isso os dados de uma amostra Essa caracteriacutestica eacute
representada pela va contiacutenua X cujo comportamento probabiliacutestico eacute expresso pela funccedilatildeo dedensidade f com paracircmetro Ө que tem valor desconhecido
Em um teste existem duas hipoacuteteses envolvidas H0 denominada hipoacutetese nula e H1
denominada hipoacutetese alternativa O procedimento de teste de hipoacutetese consiste em estabelecer
um criteacuterio de decisatildeo que leve a Aceitar ou Rejeitar H0 com base nos valores amostrais
A Estatiacutestica de teste eacute uma funccedilatildeo da amostra aleatoacuteria utilizada para definir o criteacuterio de
decisatildeo Estabelecer o criteacuterio de decisatildeo consiste em dividir o conjunto dos valores possiacuteveis
da estatiacutestica de teste em duas partes denominadas Regiatildeo de Aceitaccedilatildeo A e Regiatildeo de
Rejeiccedilatildeo R da hipoacutetese nula
Em um teste de hipoacutetese haacute dois tipos possiacuteveis de erro de decisatildeo
Erro I - Rejeitar H0 quando H0 eacute verdadeira
Erro II - Aceitar H0 quando H0 eacute falsaAs probabilidades de ocorrecircncia dos erros satildeo α = P [ Erro I ] e β = P [ Erro II]
A probabilidade de erro I α eacute o niacutevel de significacircncia do teste cujo valor eacute arbitrado pelo
pesquisador deve ser pequena pois corresponde a probabilidade de um erro (005 ou 001)
O niacutevel criacutetico ou p-valor do teste eacute o menor valor de α para o qual ainda rejeitariacuteamos H0 de
acordo com os dados observados
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3861
CAP 3-b) ndash TH teste tttest(x y = NULL alternative = c(twosided less greater) mu = 0
paired = FALSE varequal = FALSE conflevel = 095 )
Procedimentos de teste de hipoacuteteses com niacutevel de significacircncia α e amostras de tamanho n
UmaAmostra
DuasAmostras
Obs Os testes acima satildeo bilaterais
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3961
CAP 3ndashb) TH exemplo de teste t ndash amostras independentespag233- teste t amostras independente - comparaccedilatildeo log(salaacuterio)
entre os grupos de comeacutercio e de serviccedilo
LogSal=c(1289156912501344145616361573171309060903
0977122011031069128714101496131113371366
1227119114591280115217401649176524101701
1538192419251721154918911534163812071682
120614232010143112651570)
Sal=exp(LogSal)
setor= c(rep(C23) rep(S23))
ttest(Sal[setor==C] Sal[setor==S] varequal=T)
Two Sample t-test
data Sal[setor == C] and Sal[setor == S]
t = -36822 df = 44 p-value = 00006289
alternative hypothesis true difference in means is not equal to 095 percent confidence interval
-23079005 -06751838
sample estimates
mean of x mean of y3786010 5277552
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4061
CAP 3ndashb) TH exemplo de teste t ndash amostra pareadapag237- teste t pareado
P1=c(6315596455545480598065203660986853
8765647785536980827184605572645564)
P2=c(3638306043466455604343523428837155
8238556767443459605968506254473652)
ttest(P1 P2 alt=greater paired = T)
Paired t-test
data P1 and P2
t = 44176 df = 33 p-value = 5072e-05
alternative hypothesis true difference in means is greater than 0
95 percent confidence interval
0716695 Inf
sample estimates
mean of the differences
1161765
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4161
CAP 3ndashb) TH exemplo de teste Quiquadrado chisqtest
pag233- teste Quiquadrado -
tcont=matrix(c(683585251530258 7461761220225) 72)
chisqtest(tcont)
Pearsons Chi-squared test
data tcont- = = - lt -
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4261
CAP 3ndashb) TH exemplo de teste Quiquadrado chisqtestaov(formula data = NULL )
pag244- ANOVA - Comparaccedilatildeo de trecircs raccedilotildees para suinos
A=c(444943514475425134305342453630
322133421040395246294247453959)
B=c(343640545953445432686954414647
6566455739)
C=c(574040364566395025212927283942
21304143294244582849)
aumentoP=c(ABC)
racao=c(rep(A30)rep(B20) rep(C25))
summaryaov(aov(aumentoP ~ racao))
Df Sum Sq Mean Sq F value Pr(gtF)racao 2 15385 7693 56136 0005425
Residuals 72 98666 1370
---
Signif codes 0 lsquorsquo 0001 lsquorsquo 001 lsquorsquo 005 lsquorsquo 01 lsquo rsquo 1
Warning message
In modelmatrixdefault(mt mf contrasts)
variable racao converted to a factor
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4361
ApecircndicesA-1) Apresentaremos aqui algumas figuras
feitas no R na elaboraccedilatildeo do livro
Achamos que o exame desses coacutedigos acompanhado dos resultados podeser um bom aprendizado um exerciacutecio ou talvez uma recordaccedilatildeo do materialaqui exposto
A-2) Resumo de comandosa) Criaccedilatildeo de dados
b) Informaccedilatildeo de uma Variaacutevel
c) Seleccedilatildeo de dados e manipulaccedilatildeo
d) Estatiacutesticas e operaccedilotildees matemaacuteticas
e) Corte e extraccedilatildeo de dados
f) Operaccedilatildeo com Matrizes
g) Graacuteficos (Plotting)
h) Teste de hipoacuteteses
i) Programming
j) Commandos auxiliaries em Graacuteficos
k) Comando par (Graphical parameters)
l) Input and output
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4461
A1) ndash Pag 14 ndash Figura 15
IDADE=c(616961716371726866697267636663636067716360696463667164706366646969646372736871726968687379)
IMC= c(245273281301254301280234268228255228235232203226239243271227237258213243243248219234216214221227227211268278275267286253239258247284235)
par(mfrow=c(12))hist(IDADE breaks=c(6065707580) ylim=c(020) ylab=Nuacutemero de Observaccedilotildees
main= col=grey right = F)hist(IMC breaks=c(200225250275300325)
ylab=Nuacutemero de Observaccedilotildeesmain= col=grey right = F )
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4561
A1) ndash Pag 44 ndash Figura 21
mat=matrix(c(81823913601818608740)32)
rownames(mat)=c(AtivaSedentaacuteriaTotal)colnames(mat)=c(NormalSobrepeso)barplot(t(mat) beside = TRUE space=c(315)
col=gray(c(79))legend = c(NormalSobrepeso) ylim = c(0 95) ylab= - percentagem)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4661
A1) ndash Pag 48 ndash Figura 22
mat= matrix(c(68154510 66214215 66242519 39161711)44byrow=T)
rownames(mat)=c(18 a 21 anos 22 a 25 anos 26 a 30 anos 31 a 40 anos)colnames(mat)=c(CinTeatSMDEx)mat1=mat for (i in 14) mat1[i]lt-mat1[i]100sum(mat1[i]) par(mfrow=c(12) mai=c(1111) mar=c(5 4 2 2) )barplot(matbeside=F ylim=c(0250) legend = c(18 a 21 anos 22 a 25 anos
26 a 30 anos 31 a 40 anos) xlab=Contagem)
barplot(mat1 beside=F xlab=Percentagem)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4761
A1) ndash Pag 52 ndash Figura 25X= c(184114821789235159118762592403190408372147328526471687
09642871437079238215753399242122530314859149806)y =c(01837012540193301620014230140604568022870231400861019960235302186012798991801254018210244160823
0147764068011818941403474539680150133247023685518102146187520214097090257291227
036282905401406510810113849399)plot(x y xlim=c(07) ylim=c(05) pch=16 bty=l xlab=Renda per capita
ylab=Telefonia Fixa per capita)
abline(lsfit(xy))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4861
A1) ndash Pag 109 ndash Figura 45
x=020
y1=dpois(x1) y2=dpois(x3) y3=dpois(x10)names(y1)=x names(y2)=x names(y3)=xpar(mfrow=c(13))plot(y1ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=1)plot(y2ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=3)plot(y3ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=10)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4961
A1) ndash Pag 118 ndash Figura 412
x=seq(010001)
plot(xdexp(x 12) type=l xlim=c(012) ylim=c(01) bty=l ylab=f(x) eF(x))for(i in seq(0 25 001)) segments(i 0 i dexp(i12) col=lightgrey)abline(v=0 h=0)points(xdexp(x 12) type=l lwd=2 bty=l)points(xpexp(x 12) lwd=2 type=l)segments(250 25pexp(2512))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5061
A1) ndash Pag 163 ndash Figura 68
plot(p xlim=c(618) ylim=c(016) type=n bty=l xaxt=n xlab= ylab=
cexaxis=6)for (i in 1015) rect(i-50 i+5 dbinom(i304) col=lightgrey) lty=2)segments(i0idbinom(i304) lty=2)
x=seq(61801) lines(x dnorm(x12sqrt(72)) lwd=2)x=seq(61801) lines(x dnorm(x12sqrt(72)) lwd=2)
axis(1 916 cexaxis=9) ax s seq cexax s=
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5161
A1) ndash Pag 198 ndash Figura 78
x1=seq(-4402)plot(x1dnorm(x1) type=l lwd=3 xlab= ylab= )lines(x1 dt(x11)) lines(x1 dt(x12)) lines(x1 dt(x15))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5261
A2ndashResumo de comandos
a)Criaccedilatildeo de dados
c()funccedilatildeo geneacuterica para combinar argumentos com o formando de um vetor fromto gera uma sequecircnce ldquordquo tem prioridade de operator pe13 + 1 is ldquo234rdquo
seq(fromtoby) gera uma sequecircncia by= especifica incremento
length= especifica um comprimento desejado
rep(xtimes) replicate x onuacutemero times de vezes use each= para repetir cada
elemento de x rep(c(123)2) gera 1 2 3 1 2 3 rep(c(12)each=2) gera 1 1 2 2
matrix(xnrow=ncol=) matrix elementos de x se reciclam caso x
rbind()combina vetores em linhas num estrutura de matrizes de dados
cbind()combina vetores em colunas num estrutura de matrizes de dados
array(xdim=) matriz com dados x especificar dimensotildees como dim=c(342)
elementos de x se reciclam caso x natildeo seja suficientemente grande
factor(xlevels=) codifica um vetor x como um fator gl(nklength=nklabels=1n) gerar niacuteveis (fatores) especificando
o padratildeo de seus niacuteveis k eacute o nuacutemero de niacuteveis e n eacute o nuacutemero de repeticcedilotildees
dataframe() criar um banco de dados Por exemplo
dataframe(v=14ch=c(gBcasad)n=5)
list()criar uma lista de argumentos Por exemplo list(a=c(12)b=hic=3i)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5361
A2ndashResumo de comandos
b) Informaccedilatildeo de uma Variaacutevellength(x) nuacutemero de elementos em x
dim(x) Obter ou definir a dimensatildeo de um objeto dim (x) = c(32)dimnames(x) Obter ou definir os nomes das dimensotildees de um objeto
nrow(x) nuacutemero de linhas
ncol(x) nuacutemero de colunas
c) Seleccedilatildeo de dados e manipulaccedilatildeochoose(n k) calcula a combinaccedilatildeo de elementos escolhidos entre n
resultando n [(n-k) k]
cut(xbreaks) divide x em intervalos (fatores) breaks eacute o nuacutemero de intervalos de
corte ou um vetor com os valores especiacuteficos
table(x) retorna uma tabela com as quantidades dos diferentes valores de x
(tipicamente para variaacuteveis dos tipos inteiros ou fatores)
sample(x size) retira aleatoriamente com e sem reposiccedilatildeo elementos detamanho SIZE do vetor x a opccedilatildeo replace = TRUE permite a retirada com reposiccedilatildeo
proptable(xmargin=) transforma a tabela como tabela de propoccedilatildeo
marginal margin=1 (com relaccedilatildeo as linhas) margin=2 (com relaccedilatildeo as colunas)
sort(x) Classifica os elementos de x em ordem crescente para classificar em ordem
decrescente rev(sort(x))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5461
A2ndashResumo de comandosd) Estatiacutesticas e operaccedilotildees matemaacuteticasmean(x) media dos elementos de x
median(x) mediana dos elementos de x
quantile(xprobs=) quantis de x correspondendo a uma dada probabilidadevar(x) ou cov(x) variacircncia dos elementos de x (calculado com n-1)
se x eacute uma matriz a matriz de covariacircncia eacute calculada
sd(x) desvio padracirco de of x
cor(x) matriz de correlaccedilatildeo de x se x for uma matriz ou (1 se x eacute um vector)
cor(x y) correlaccedilatildeo linear entre X e Y ou matriz de correlaccedilatildeo se eles satildeo matrizes
round(x n) arredonda os elementos de x para n casas decimais sum x soma os e emen os e x
prod(x) multilica os elementos de x
max(x) acha o maacuteximo dos elementos de x
min(x) acha o miacutenimo dos elementos de x
range(x) equivalente a c(min(x)max(x)
cumsum(x) um vetor onde o eacutesimo elemento eacute a soma de x[1] ateacute x[i]cumprod(x) um vetor onde o eacutesimo elemento eacute o produto de x[1] ateacute x[i]
cummin(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
cummax(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
sincostanasinacosatanatan2loglog10exp)
log(x base) calcula o logaritmo de x na base=base
weightedmean(x w) media ponderada de x com peso= w
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5561
A2ndashResumo de comandos
e) Corte e extraccedilatildeo de dadosindexaccedilatildeo de Vetores
x[n] n-eacutesimo elemento do vetor
x[-n] todos menos o n-eacutesimo elemento
x[1n] os primeiros n elemento
x[-(1n)] elementos de n+1 ateacute o final
x[c(432)] elementos especificados
x[y gt 5] todo elementos de onde os valores de y satildeo maiores que 5
x x gt 3 amp x lt 5 todo elementos entre 3 e 5
x[nome] elemento denominado nome
indexaccedilatildeo de Matrizes
x[ij] elemento na linha i coluna j
x[i] linha i
x[j] coluna j
x[c(13)] colunas 1 and 3
x[nome] linha nomeada nome
indexaccedilatildeo de data frames
x[[nome]] coluna chamada nome
x$nome equivalente a coluna chamada nome
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5661
A2ndashResumo de comandos
f) Operaccedilatildeo com Matrizest(x) transposta da matrix x
diag(x) retira a diagonal da matrix x
multiplicaccedilatildeo matricial
solve(ab) resove a equaccedilatildeo a x = b em relaccedilatildeo a x
solve(a) matriz inversa de a
rowSum(x) soma das linhas da matrix x
colSum(x) soma das colunas da matrix x
rowMeans x meacutedia das linhas da matrix x
colMeans(x) id meacutedia das colunas da matrix x
g) Graacuteficos (Plotting)plot(x y) diagrama de disperccedilatildeo plot dos pares (xy) num sistema de eixos
coordenadoshist(x) histogram dasfrequecircncias of x
barplot(x) graacutefico de barras of x usar horiz=T ara barras horizontal
pie(x) graacutefico de setores (pie-chart)
boxplot(x)
qqnorm(x) quantis de x em relaccedilatildeo aos valores esperados de uma dist Normal
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5761
A2ndashResumo de comandosparametros dos commando de Graacutefico
type=p especifica o tipo de plot p pontos l linhas b pontos
ligados por linhas o idecircntico mas as linhas passam sobre os pontos h
linhas verticais s escada (steps) os dados satildeo representados pelas alturasverticais
xlim= ylim= especifica os limites inferiores e superiores dos eixos por exemplocom xlim=c(1 10) ou xlim=range(x)
xlab= ylab= nomeia os eixos o nome deve ser do tipo caracter
main= tiacutetulo principal deve ser do tipo caracter
sub= sub-tiacutetulo (escrito em fonte menor)
podem ser usados como bty(tipo de caixa) lwd (lagura da linha) lty (tipo delinha) pch(tipo de ponto) cex xaxs yaxs xaxtyaxt
h) Teste de hipoacuteteses
ttest()proptest()
chisqtest()
aov(formula) analysis of variance model
anova(fit) analysis of variance (or deviance) tables for one or more
fitted model objects
Use o commando gt test para procurar todos os testes disponiacuteveis
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5861
A2ndashResumo de comandos
i) Programmingfunction( arglist ) expr para definer uma funccedilatildeo
return(value)
if(cond) expr
if(cond) consexpr else altexpr
for(var in seq) expr
while(cond) expr
re eat ex r
break
Usar chaves entre commandos dlimitando o iniacutecio e o fim de um grupo decomandos
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5961
A2ndashResumo de comandos
j) Commandos auxiliaries em Graacuteficospoints(x y) adiciona pontos (a opccedilatildeo type= pode ser usada)
lines(x y) adiciona linhas (a opccedilatildeo type= pode ser usada)text(x y labels ) adiciona texto na coordenada (xy) um uso tiacutepico eacute
plot(x y type=n) text(x ynames)
segments(x0 y0 x1 y1) desenha linhas do ponto (x0 y0) ao (x1 y1)
arrows(x0 y0 x1 y1 angle= 30 code=2) desenha seta do ponto
(x0 y0) ao (x1 y1)
abline(ab) desenha uma reta de inclinaccedilatildeo b e intercepto a
abline(v=x) desenha uma reta vertical em x
abline(lsfit(xy)) desenha uma reta da regressatildeo feita em lsfit(xy)
rect(x1 y1 x2 y2) desenha um retacircngulo que a esquerda inferior tem coordenadas(x1 y1) e o limite da direita superiores (x2 y2)
polygon(x y) desenha um poliacutegono que une os pontos com coordenadas X e Y
legend(x y legend) Acrescenta a lenda no ponto (x y) com os siacutembolos
dada pela legend
title()adiciona um tiacutetulo e opcionalmente um sub-tiacutetulo
axis(side) acrescenta um eixo na parte inferior (side = 1) agrave esquerda (2) na partesuperior (3) ou agrave direita (4)
box()desenhar uma caixa em torno do plot
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6061
A2ndashResumo de comandos
k) Comando par (Graphical parameters)Todos estes comando podem ser definidos a niacutevel global com o par () que
especifica os paracircmetros mas tambeacutem muitos podem ser usados comoparametros dos commando de Graacutefico
mfcol vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em colunas
mfrow vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em linhas(matrix for row)
bty controla o tipo de caixa desenhada ao redor do enredo valores permitidos satildeo
o l 7 c u ou se bt =n a caixa natildeo eacute desenhada
lty controla o tipo de linhas pode ser um inteiro ou string (1 solid 2 dashed 3dotted 4 dotdash 5 longdash 6twodash) ou uma string de ateacuteoito caracteres (entre 0 e 9) que especifica o comprimento em pontos oupixels dos elementos desenhados e os espaccedilos em branco por exemplolty=rdquo44rdquo equivale a lty=2
lwd nuacutemero que controla a largura das linhas default 1pch controla o tipo de siacutembolo pode tambeacutem ser um nuacutemero inteiro entre 1 e 25
ps um inteiro que controla o tamanho em pontos de textos e siacutembolos
pty um caracter que especifica o tipo da regiatildeo s quadrado m maacuteximal
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6161
A2ndashResumo de comandos
l) Input and outputreadtable(file) lecirc um arquivo em formato de tabela e cria um quadro de dados a
partir dele o separador default = eacute espaccedilo em branco header = TRUE ler a
primeira linha como um cabeccedilalho de nomes de coluna asis = TRUE paraevitar aque um vetore de caracteres seja convertido em factores usocommentchar = para evitar seja interpretado como um comentaacuteriouso skip = n para pular n linhas antes da leitura de dados consulte a ajudapara as opccedilotildees de linha de nomeaccedilatildeo o tratamento NA e outros
readcsv(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por viacutergulas
readdelim(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por tabulaccedilotildees
readfwf(filewidthsheader=FALSEsep= asis=FALSE)
ler uma tabela de dados em formato fix de largura m para um dataframe widthseacute um vetor inteiro informando os tamanhos dos campos
sink(file) saiacuteda de todos os comandos para um arquivo ateacute aparecer um comando
sink () que desliga writetable(x file=rownames=Tcolnames=Tsep= ) imprime x apoacutes a
conversatildeo para banco de dados
save(file) guarda os objetos especificados () no formato XDR
load()carregar o conjunto de dados salvos com o comando save
data(x) carrega um conjunto de dados especificado
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2561
Cap 2-c O Teorema Central do Limite (TCL)O Teorema Central do Limite (abreviadamente TCL) diz respeito ao comportamento da
meacutedia amostral agrave medida que o tamanho n da amostra cresce indefinidamente
Exemplo 31 ndash A distribuiccedilatildeo de renda e o TCLEacute um fato conhecido que a distribuiccedilatildeo da rendapessoal dos habitantes de um paiacutes eacuteusualmente muito desigual ou seja muitosganham pouco e poucos ganham muito Seforem sorteados 200 habitantes desse paiacutes e
com base nas suas rendas mensais
Agora se forem sorteadas 200 amostrascada uma delas contendo 2 habitantesdesse paiacutes e se forem calculadas as 200respectivas meacutedias amostrais a partir delas obteremos o histograma a seguir
Agora cada uma das 200 amostrassorteadas contendo 30 habitantes dessepaiacutes e se forem calculadas as 200 meacutediasamostrais o histograma seria
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2661
Cap 2-c ndash TCL ExemploComo pode ser observado no caso de n = 2 o histograma se aproxima mais de uma curvaNormal do que no caso de n = 1 E no caso de n = 30 a semelhanccedila do histograma com umacurva Normal eacute ainda maior
O Teorema Central do Limite afirma que independentemente de qual seja a
distribuiccedilatildeo original dos Xirsquos a distribuiccedilatildeo de probabilidade de e a
distribuiccedilatildeo Normal com meacutedia micromicromicromicro e variacircncia σσσσ2 n se aproximam cada vez
mais uma da outra agrave medida que n cresce
Portanto mesmo que a distribuiccedilatildeo de probabilidade dos Xirsquos seja desconhecida o Teorema
X n
Central do Limite garante a possibilidade de usarmos o modelo Normal para calcular ainda quede forma aproximada probabilidades relativas agrave meacutedia amostral desde que n sejasuficientemente grande
Exemplo 62 Simulando o efeito do TCL
Para ilustrar o funcionamento do Teorema Central do Limite vamos exibir agora um exemploem que a distribuiccedilatildeo original a partir da qual os dados satildeo gerados eacute uma exponencial modelo
este que daacute origem a uma funccedilatildeo densidade bastante assimeacutetrica (ao contraacuterio do que ocorre
com a curva Normal) A densidade de uma exponencial com paracircmetro eacute dada pela
expressatildeo
No R rexp(n ) simula n valores
λ
0 xλef(x) λx ge= minusλ
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2761
Cap 2-c ndash TCL ExemploA densidade de uma exponencial com paracircmetro eacute dada pela expressatildeo
Gerando dados por simulaccedilatildeo a partir de uma exponencial com λ = 13 para cada um dos
seguintes tamanhos n de amostra 1 2 3 4 5 10 15 e 201 Obtivemos 200 valores da meacutedia amostral 2 Utilizamos esses 200 valores para construir um histograma3 Traccedilamos no mesmo graacutefico uma curva da densidade Normal com E( )=3 e DP( )=3Xn
λ 0 xλef(x) λx ge= minus
Xn n
Os 8 histogramas nos mostram que agrave medida que o tamanho n da amostra cresce
a forma do histograma se aproxima cada vez mais de uma curva Normal
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2861
Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com
simulaccedilotildees - Exponencial
tclexp=function(n N=200 titulo= yl=c(0 4)) iniacutecio da funccedilatildeo ndash tclexpmedias=numeric(N)
for (i in 1N) medias[i]= mean(rexp(n13))
hist(medias xlim=c(-110) ylim=yl freq=F main=titulo)
x=seq(-110 02)
points(x dnorm(x 3 3sqrt(1n) ) type=l lwd=3)
fim da funccedilatildeo
graphicsoff()
par(mfrow=c(33) mai=c(3411))
tclexp(1titulo=n=1)
tclexp(2titulo=n=2)
tclexp(3titulo=n=3)
tclexp(4titulo=n=4)
tclexp(5titulo=n=5)
tclexp(6titulo=n=6)
tclexp(10titulo=n=10yl=c(06))
tclexp(15titulo=n=15yl=c(06))
tclexp(20titulo=n=20yl=c(06))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2961
Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com
simulaccedilotildees - Exponencial
Uma pergunta natural neste ponto serialdquoQuatildeo grande deve ser n para que possamos usar a aproximaccedilatildeo fornecida pelo
TCL com um niacutevel de precisatildeo aceitaacutevelrdquo
A rapidez com que essa convergecircncia se daacute depende de quatildeo distante estaacute a forma
da distribuiccedilatildeo original das Xirsquos de uma curva Normal Em outras palavras se a
distribuiccedilatildeo das Xirsquos jaacute natildeo for muito diferente de uma Normal com um n natildeo muito-
grande (usualmente n ge 30) a aproximaccedilatildeo da distribuiccedilatildeo de por uma Normal
funcionaria adequadamente
No exemplo a seguir vamos apresentar esse fenocircmeno a saber a convergecircncia da
distribuiccedilatildeo de para uma Normal agrave medida que n cresce gerando por simulaccedilatildeo osdados originais a partir de diferentes modelos probabiliacutesticos Em todos os casos a
distribuiccedilatildeo original eacute bem diferente da Normal E(X)=3 e DP(X)=3 No que se refere agrave
Simulaccedilatildeo foi seguida a mesma sequumlecircncia de passos do exemplo anterior
Xn
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3061
Cap 2-c ndash TCL Exemplo
Exponencial
Uniforme
Mistura deNormais
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3161
Como se pode observar
1 No caso da distribuiccedilatildeo uniforme (A) o histograma de jaacute se aproximabastante de uma Normal quando n eacute da ordem de 4
2 Jaacute no caso da distribuiccedilatildeo Exponencial (B) e da mistura de normais
(C) modelos esses que se afastam muito mais de umldquo rdquo
Cap 2-c ndash TCL Exemplo
mostra mais adequada a partir de n em torno de 10
3 No caso do modelo em (C) agrave medida que n cresce tudo se passacomo se houvesse a ldquoerupccedilatildeo de um vulcatildeo dentro do valerdquo
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3261
tclunif=function(nN=100titulo= yl=c(0 4))
medias=numeric(N)for (i in 1N) medias[i]= mean(runif(n 3-3sqrt(3) 3+3sqrt(3)))
hist(medias xlim=c(-610) ylim=yl freq=F main=titulo)
x=seq(-610 02)
points(x dnorm(x 3 3sqrt(1n) ) type=l lwd=3)
medias
Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com
as simulaccedilotildees - Uniforme
grap cso
par(mfrow=c(33) mai=c(3411))
tclunif(1titulo=n=1yl=c(06))
tclunif(2titulo=n=2yl=c(06))
tclunif(3titulo=n=3yl=c(06))
tclunif(4titulo=n=4yl=c(06))tclunif(5titulo=n=5yl=c(06))
tclunif(6titulo=n=6yl=c(06))
tclunif(10titulo=n=10yl=c(06))
tclunif(15titulo=n=15yl=c(06))
tclunif(20titulo=n=20yl=c(06))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3361
X2=c(rnorm(35011) rnorm(15081)) X2 eacute a Populaccedilatildeo de onde retiramos as amostras
br=seq(-2 12 5)
tcl2modas=function(nN=200titulo= yl=c(0 6)) medias=numeric(N)for (i in 1N) medias[i]= mean(sample(X2nrep=T))hist(mediasbreaks=br xlim=c(-212) tcl=-01 ylim=yl xarp=c(-31216)
tck=005 lab=c(5515) freq=F main=titulo)x=seq(-312 02)
Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com
as simulaccedilotildees - Mistura de Normais
points(x dnorm(x med dpsqrt(n) ) type=l lwd=2)
par(mfrow=c(24) mai=c(3011) mar=c(2 2 2 1))
hist(X2 freq=F breaks=seq(-3125) bty=o xlim=c(-212)xarp=c(-31216)tck=005 lab=c(5515) ylim=c(06) main=POPULACcedilAtildeO lwd=2)
tcl2modas(2titulo=n=2)tcl2modas(3titulo=n=3)
tcl2modas(4titulo=n=4)
tcl2modas(5titulo=n=5)
tcl2modas(10titulo=n=10)
tcl2modas(15titulo=n=15)
tcl2modas(25titulo=n=25)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3461
CAP 3-a) Intervalo de ConfianccedilaSeja um estimador pontual do paracircmetro eacute uma variaacutevel aleatoacuteria que varia deamostra para amostra Por isso haacute uma certa dose de incerteza inerente a esse processode estimaccedilatildeo Nosso objetivo agora eacute obter com base nos dados amostrais (da uacutenicaamostra observada) um intervalo ao qual o valor correto do paracircmetro deve ter grandechance de pertencer
bull Detalhando um pouco mais No processo de estimaccedilatildeo por intervalo de um paracircmetro θdevemos determinar um intervalo que contenha o verdadeiro valor do paracircmetro comprobabilidade 1-α onde α eacute um pequeno valor preacute-fixado Este intervalo eacute construiacutedo emgeral em torno do estimador pontual considerando uma margem de erro d de forma aque uma vez fixada a probabilidade 1-α calculemos d tal que P( - d le θ le + d ) = 1 -αChama-se intervalo de confianccedila para θ ao niacutevel 1 - α ao intervalo [ - d + d]
θ $θ
$θ$θ
$θ $θ
$
θ
bull Ou seja o estimador pontual eacute o centro do Intervalo de Confianccedila e o erro absoluto dassociado a define a amplitude desse intervalo O que eacute de fato variaacutevel aleatoacuteria satildeoos extremos do intervalo O paracircmetro tem valor desconhecido natildeo aleatoacuterio (fixo a ser estimado)
Exemplo Intervalo de Confianccedila para a meacutedia populacional com o desvio padratildeo conhecidoO paracircmetro a estimar eacute a meacutedia populacional micro A estimaccedilatildeo seraacute baseada em X1 X2 Xn
uma amostra aleatoacuteria com E(Xi) = micro e var(Xi) = σ2 para todo i = 12 n Queremos que seja
vaacutelida a expressatildeo o que equivale a P [ -d le -micro le d] = 1-α
$θ
X[ ] α1dmicroXP minus=leminus
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3561
bull Lembrando que para n suficientemente grande pelo Teorema Central do Limite a meacutediaamostral segue uma distribuiccedilatildeo que se aproxima da Normal(micromicromicromicro σσσσ2 n) (ou eacute exatamente aNormal(micromicromicromicro σσσσ2 n) no caso em que a distribuiccedilatildeo comum das va Xirsquos jaacute eacute Normal) entatildeo
P [-d le -micromicromicromicro le d] = 1-α rArr 1-α = P [ |Z| le ] Logo d =
bull Faremos uma simulaccedilatildeo para a construccedilatildeo de Intervalos de Confianccedila com 100 amostras dedois tipos de populaccedilatildeo Normal e Exponencial A lista de comandos do R que usamos eacute
ICN = function (N n mu sigma = 3 conf)
plot(0 0 type=n xlim=c(010) ylim=c(0N) bty=l
xlab=Normal ylab=amostras)abline(v=mu)
CAP 3-a) Intervalo de Confianccedila
X
nσ
d
minus
z0 = qnorm(1-((1-conf)2))
sigmaxbarra = sigmasqrt(n)
for (i in 1N)
x = rnorm(n mu sigma)
media = mean(x)
li = media - z0 sigmaxbarrals = media + z0 sigmaxbarra
plotx = c(lils)
ploty = c(ii)
if (li gt mu | ls lt mu) lines(plotxploty col=red)
else lines(plotxploty)
gt ICN(100 25 3 3 95)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3661
CAP 3-a) Intervalo de Confianccedila
ICexp = function (N n lambda conf)
mu=1lambda sigma=1lambda
plot(0 0 type=n xlim=c(010) ylim=c(0N) bty=lxlab=Exponencial ylab=amostras)
abline(v= mu)
z0 = qnorm(1-((1-conf)2))
sigmaxbarra = sigmasqrt(n)
for (i in 1N)
x = rexp(nlambda) me a = mean x
li = media - z0 sigmaxbarra
ls = media + z0 sigmaxbarra
plotx = c(lils)
ploty = c(ii)
if (li gt mu | ls lt mu) lines(plotx ploty col=red)
else lines(plotx ploty)
gt ICexp(100 25 13 95)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3761
CAP 3-b Teste de Hipoacuteteses (TH)O objetivo de um teste de hipoacutetese eacute avaliar a validade de uma afirmaccedilatildeo sobre determinada
caracteriacutestica da populaccedilatildeo usando para isso os dados de uma amostra Essa caracteriacutestica eacute
representada pela va contiacutenua X cujo comportamento probabiliacutestico eacute expresso pela funccedilatildeo dedensidade f com paracircmetro Ө que tem valor desconhecido
Em um teste existem duas hipoacuteteses envolvidas H0 denominada hipoacutetese nula e H1
denominada hipoacutetese alternativa O procedimento de teste de hipoacutetese consiste em estabelecer
um criteacuterio de decisatildeo que leve a Aceitar ou Rejeitar H0 com base nos valores amostrais
A Estatiacutestica de teste eacute uma funccedilatildeo da amostra aleatoacuteria utilizada para definir o criteacuterio de
decisatildeo Estabelecer o criteacuterio de decisatildeo consiste em dividir o conjunto dos valores possiacuteveis
da estatiacutestica de teste em duas partes denominadas Regiatildeo de Aceitaccedilatildeo A e Regiatildeo de
Rejeiccedilatildeo R da hipoacutetese nula
Em um teste de hipoacutetese haacute dois tipos possiacuteveis de erro de decisatildeo
Erro I - Rejeitar H0 quando H0 eacute verdadeira
Erro II - Aceitar H0 quando H0 eacute falsaAs probabilidades de ocorrecircncia dos erros satildeo α = P [ Erro I ] e β = P [ Erro II]
A probabilidade de erro I α eacute o niacutevel de significacircncia do teste cujo valor eacute arbitrado pelo
pesquisador deve ser pequena pois corresponde a probabilidade de um erro (005 ou 001)
O niacutevel criacutetico ou p-valor do teste eacute o menor valor de α para o qual ainda rejeitariacuteamos H0 de
acordo com os dados observados
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3861
CAP 3-b) ndash TH teste tttest(x y = NULL alternative = c(twosided less greater) mu = 0
paired = FALSE varequal = FALSE conflevel = 095 )
Procedimentos de teste de hipoacuteteses com niacutevel de significacircncia α e amostras de tamanho n
UmaAmostra
DuasAmostras
Obs Os testes acima satildeo bilaterais
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3961
CAP 3ndashb) TH exemplo de teste t ndash amostras independentespag233- teste t amostras independente - comparaccedilatildeo log(salaacuterio)
entre os grupos de comeacutercio e de serviccedilo
LogSal=c(1289156912501344145616361573171309060903
0977122011031069128714101496131113371366
1227119114591280115217401649176524101701
1538192419251721154918911534163812071682
120614232010143112651570)
Sal=exp(LogSal)
setor= c(rep(C23) rep(S23))
ttest(Sal[setor==C] Sal[setor==S] varequal=T)
Two Sample t-test
data Sal[setor == C] and Sal[setor == S]
t = -36822 df = 44 p-value = 00006289
alternative hypothesis true difference in means is not equal to 095 percent confidence interval
-23079005 -06751838
sample estimates
mean of x mean of y3786010 5277552
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4061
CAP 3ndashb) TH exemplo de teste t ndash amostra pareadapag237- teste t pareado
P1=c(6315596455545480598065203660986853
8765647785536980827184605572645564)
P2=c(3638306043466455604343523428837155
8238556767443459605968506254473652)
ttest(P1 P2 alt=greater paired = T)
Paired t-test
data P1 and P2
t = 44176 df = 33 p-value = 5072e-05
alternative hypothesis true difference in means is greater than 0
95 percent confidence interval
0716695 Inf
sample estimates
mean of the differences
1161765
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4161
CAP 3ndashb) TH exemplo de teste Quiquadrado chisqtest
pag233- teste Quiquadrado -
tcont=matrix(c(683585251530258 7461761220225) 72)
chisqtest(tcont)
Pearsons Chi-squared test
data tcont- = = - lt -
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4261
CAP 3ndashb) TH exemplo de teste Quiquadrado chisqtestaov(formula data = NULL )
pag244- ANOVA - Comparaccedilatildeo de trecircs raccedilotildees para suinos
A=c(444943514475425134305342453630
322133421040395246294247453959)
B=c(343640545953445432686954414647
6566455739)
C=c(574040364566395025212927283942
21304143294244582849)
aumentoP=c(ABC)
racao=c(rep(A30)rep(B20) rep(C25))
summaryaov(aov(aumentoP ~ racao))
Df Sum Sq Mean Sq F value Pr(gtF)racao 2 15385 7693 56136 0005425
Residuals 72 98666 1370
---
Signif codes 0 lsquorsquo 0001 lsquorsquo 001 lsquorsquo 005 lsquorsquo 01 lsquo rsquo 1
Warning message
In modelmatrixdefault(mt mf contrasts)
variable racao converted to a factor
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4361
ApecircndicesA-1) Apresentaremos aqui algumas figuras
feitas no R na elaboraccedilatildeo do livro
Achamos que o exame desses coacutedigos acompanhado dos resultados podeser um bom aprendizado um exerciacutecio ou talvez uma recordaccedilatildeo do materialaqui exposto
A-2) Resumo de comandosa) Criaccedilatildeo de dados
b) Informaccedilatildeo de uma Variaacutevel
c) Seleccedilatildeo de dados e manipulaccedilatildeo
d) Estatiacutesticas e operaccedilotildees matemaacuteticas
e) Corte e extraccedilatildeo de dados
f) Operaccedilatildeo com Matrizes
g) Graacuteficos (Plotting)
h) Teste de hipoacuteteses
i) Programming
j) Commandos auxiliaries em Graacuteficos
k) Comando par (Graphical parameters)
l) Input and output
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4461
A1) ndash Pag 14 ndash Figura 15
IDADE=c(616961716371726866697267636663636067716360696463667164706366646969646372736871726968687379)
IMC= c(245273281301254301280234268228255228235232203226239243271227237258213243243248219234216214221227227211268278275267286253239258247284235)
par(mfrow=c(12))hist(IDADE breaks=c(6065707580) ylim=c(020) ylab=Nuacutemero de Observaccedilotildees
main= col=grey right = F)hist(IMC breaks=c(200225250275300325)
ylab=Nuacutemero de Observaccedilotildeesmain= col=grey right = F )
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4561
A1) ndash Pag 44 ndash Figura 21
mat=matrix(c(81823913601818608740)32)
rownames(mat)=c(AtivaSedentaacuteriaTotal)colnames(mat)=c(NormalSobrepeso)barplot(t(mat) beside = TRUE space=c(315)
col=gray(c(79))legend = c(NormalSobrepeso) ylim = c(0 95) ylab= - percentagem)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4661
A1) ndash Pag 48 ndash Figura 22
mat= matrix(c(68154510 66214215 66242519 39161711)44byrow=T)
rownames(mat)=c(18 a 21 anos 22 a 25 anos 26 a 30 anos 31 a 40 anos)colnames(mat)=c(CinTeatSMDEx)mat1=mat for (i in 14) mat1[i]lt-mat1[i]100sum(mat1[i]) par(mfrow=c(12) mai=c(1111) mar=c(5 4 2 2) )barplot(matbeside=F ylim=c(0250) legend = c(18 a 21 anos 22 a 25 anos
26 a 30 anos 31 a 40 anos) xlab=Contagem)
barplot(mat1 beside=F xlab=Percentagem)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4761
A1) ndash Pag 52 ndash Figura 25X= c(184114821789235159118762592403190408372147328526471687
09642871437079238215753399242122530314859149806)y =c(01837012540193301620014230140604568022870231400861019960235302186012798991801254018210244160823
0147764068011818941403474539680150133247023685518102146187520214097090257291227
036282905401406510810113849399)plot(x y xlim=c(07) ylim=c(05) pch=16 bty=l xlab=Renda per capita
ylab=Telefonia Fixa per capita)
abline(lsfit(xy))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4861
A1) ndash Pag 109 ndash Figura 45
x=020
y1=dpois(x1) y2=dpois(x3) y3=dpois(x10)names(y1)=x names(y2)=x names(y3)=xpar(mfrow=c(13))plot(y1ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=1)plot(y2ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=3)plot(y3ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=10)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4961
A1) ndash Pag 118 ndash Figura 412
x=seq(010001)
plot(xdexp(x 12) type=l xlim=c(012) ylim=c(01) bty=l ylab=f(x) eF(x))for(i in seq(0 25 001)) segments(i 0 i dexp(i12) col=lightgrey)abline(v=0 h=0)points(xdexp(x 12) type=l lwd=2 bty=l)points(xpexp(x 12) lwd=2 type=l)segments(250 25pexp(2512))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5061
A1) ndash Pag 163 ndash Figura 68
plot(p xlim=c(618) ylim=c(016) type=n bty=l xaxt=n xlab= ylab=
cexaxis=6)for (i in 1015) rect(i-50 i+5 dbinom(i304) col=lightgrey) lty=2)segments(i0idbinom(i304) lty=2)
x=seq(61801) lines(x dnorm(x12sqrt(72)) lwd=2)x=seq(61801) lines(x dnorm(x12sqrt(72)) lwd=2)
axis(1 916 cexaxis=9) ax s seq cexax s=
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5161
A1) ndash Pag 198 ndash Figura 78
x1=seq(-4402)plot(x1dnorm(x1) type=l lwd=3 xlab= ylab= )lines(x1 dt(x11)) lines(x1 dt(x12)) lines(x1 dt(x15))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5261
A2ndashResumo de comandos
a)Criaccedilatildeo de dados
c()funccedilatildeo geneacuterica para combinar argumentos com o formando de um vetor fromto gera uma sequecircnce ldquordquo tem prioridade de operator pe13 + 1 is ldquo234rdquo
seq(fromtoby) gera uma sequecircncia by= especifica incremento
length= especifica um comprimento desejado
rep(xtimes) replicate x onuacutemero times de vezes use each= para repetir cada
elemento de x rep(c(123)2) gera 1 2 3 1 2 3 rep(c(12)each=2) gera 1 1 2 2
matrix(xnrow=ncol=) matrix elementos de x se reciclam caso x
rbind()combina vetores em linhas num estrutura de matrizes de dados
cbind()combina vetores em colunas num estrutura de matrizes de dados
array(xdim=) matriz com dados x especificar dimensotildees como dim=c(342)
elementos de x se reciclam caso x natildeo seja suficientemente grande
factor(xlevels=) codifica um vetor x como um fator gl(nklength=nklabels=1n) gerar niacuteveis (fatores) especificando
o padratildeo de seus niacuteveis k eacute o nuacutemero de niacuteveis e n eacute o nuacutemero de repeticcedilotildees
dataframe() criar um banco de dados Por exemplo
dataframe(v=14ch=c(gBcasad)n=5)
list()criar uma lista de argumentos Por exemplo list(a=c(12)b=hic=3i)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5361
A2ndashResumo de comandos
b) Informaccedilatildeo de uma Variaacutevellength(x) nuacutemero de elementos em x
dim(x) Obter ou definir a dimensatildeo de um objeto dim (x) = c(32)dimnames(x) Obter ou definir os nomes das dimensotildees de um objeto
nrow(x) nuacutemero de linhas
ncol(x) nuacutemero de colunas
c) Seleccedilatildeo de dados e manipulaccedilatildeochoose(n k) calcula a combinaccedilatildeo de elementos escolhidos entre n
resultando n [(n-k) k]
cut(xbreaks) divide x em intervalos (fatores) breaks eacute o nuacutemero de intervalos de
corte ou um vetor com os valores especiacuteficos
table(x) retorna uma tabela com as quantidades dos diferentes valores de x
(tipicamente para variaacuteveis dos tipos inteiros ou fatores)
sample(x size) retira aleatoriamente com e sem reposiccedilatildeo elementos detamanho SIZE do vetor x a opccedilatildeo replace = TRUE permite a retirada com reposiccedilatildeo
proptable(xmargin=) transforma a tabela como tabela de propoccedilatildeo
marginal margin=1 (com relaccedilatildeo as linhas) margin=2 (com relaccedilatildeo as colunas)
sort(x) Classifica os elementos de x em ordem crescente para classificar em ordem
decrescente rev(sort(x))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5461
A2ndashResumo de comandosd) Estatiacutesticas e operaccedilotildees matemaacuteticasmean(x) media dos elementos de x
median(x) mediana dos elementos de x
quantile(xprobs=) quantis de x correspondendo a uma dada probabilidadevar(x) ou cov(x) variacircncia dos elementos de x (calculado com n-1)
se x eacute uma matriz a matriz de covariacircncia eacute calculada
sd(x) desvio padracirco de of x
cor(x) matriz de correlaccedilatildeo de x se x for uma matriz ou (1 se x eacute um vector)
cor(x y) correlaccedilatildeo linear entre X e Y ou matriz de correlaccedilatildeo se eles satildeo matrizes
round(x n) arredonda os elementos de x para n casas decimais sum x soma os e emen os e x
prod(x) multilica os elementos de x
max(x) acha o maacuteximo dos elementos de x
min(x) acha o miacutenimo dos elementos de x
range(x) equivalente a c(min(x)max(x)
cumsum(x) um vetor onde o eacutesimo elemento eacute a soma de x[1] ateacute x[i]cumprod(x) um vetor onde o eacutesimo elemento eacute o produto de x[1] ateacute x[i]
cummin(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
cummax(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
sincostanasinacosatanatan2loglog10exp)
log(x base) calcula o logaritmo de x na base=base
weightedmean(x w) media ponderada de x com peso= w
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5561
A2ndashResumo de comandos
e) Corte e extraccedilatildeo de dadosindexaccedilatildeo de Vetores
x[n] n-eacutesimo elemento do vetor
x[-n] todos menos o n-eacutesimo elemento
x[1n] os primeiros n elemento
x[-(1n)] elementos de n+1 ateacute o final
x[c(432)] elementos especificados
x[y gt 5] todo elementos de onde os valores de y satildeo maiores que 5
x x gt 3 amp x lt 5 todo elementos entre 3 e 5
x[nome] elemento denominado nome
indexaccedilatildeo de Matrizes
x[ij] elemento na linha i coluna j
x[i] linha i
x[j] coluna j
x[c(13)] colunas 1 and 3
x[nome] linha nomeada nome
indexaccedilatildeo de data frames
x[[nome]] coluna chamada nome
x$nome equivalente a coluna chamada nome
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5661
A2ndashResumo de comandos
f) Operaccedilatildeo com Matrizest(x) transposta da matrix x
diag(x) retira a diagonal da matrix x
multiplicaccedilatildeo matricial
solve(ab) resove a equaccedilatildeo a x = b em relaccedilatildeo a x
solve(a) matriz inversa de a
rowSum(x) soma das linhas da matrix x
colSum(x) soma das colunas da matrix x
rowMeans x meacutedia das linhas da matrix x
colMeans(x) id meacutedia das colunas da matrix x
g) Graacuteficos (Plotting)plot(x y) diagrama de disperccedilatildeo plot dos pares (xy) num sistema de eixos
coordenadoshist(x) histogram dasfrequecircncias of x
barplot(x) graacutefico de barras of x usar horiz=T ara barras horizontal
pie(x) graacutefico de setores (pie-chart)
boxplot(x)
qqnorm(x) quantis de x em relaccedilatildeo aos valores esperados de uma dist Normal
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5761
A2ndashResumo de comandosparametros dos commando de Graacutefico
type=p especifica o tipo de plot p pontos l linhas b pontos
ligados por linhas o idecircntico mas as linhas passam sobre os pontos h
linhas verticais s escada (steps) os dados satildeo representados pelas alturasverticais
xlim= ylim= especifica os limites inferiores e superiores dos eixos por exemplocom xlim=c(1 10) ou xlim=range(x)
xlab= ylab= nomeia os eixos o nome deve ser do tipo caracter
main= tiacutetulo principal deve ser do tipo caracter
sub= sub-tiacutetulo (escrito em fonte menor)
podem ser usados como bty(tipo de caixa) lwd (lagura da linha) lty (tipo delinha) pch(tipo de ponto) cex xaxs yaxs xaxtyaxt
h) Teste de hipoacuteteses
ttest()proptest()
chisqtest()
aov(formula) analysis of variance model
anova(fit) analysis of variance (or deviance) tables for one or more
fitted model objects
Use o commando gt test para procurar todos os testes disponiacuteveis
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5861
A2ndashResumo de comandos
i) Programmingfunction( arglist ) expr para definer uma funccedilatildeo
return(value)
if(cond) expr
if(cond) consexpr else altexpr
for(var in seq) expr
while(cond) expr
re eat ex r
break
Usar chaves entre commandos dlimitando o iniacutecio e o fim de um grupo decomandos
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5961
A2ndashResumo de comandos
j) Commandos auxiliaries em Graacuteficospoints(x y) adiciona pontos (a opccedilatildeo type= pode ser usada)
lines(x y) adiciona linhas (a opccedilatildeo type= pode ser usada)text(x y labels ) adiciona texto na coordenada (xy) um uso tiacutepico eacute
plot(x y type=n) text(x ynames)
segments(x0 y0 x1 y1) desenha linhas do ponto (x0 y0) ao (x1 y1)
arrows(x0 y0 x1 y1 angle= 30 code=2) desenha seta do ponto
(x0 y0) ao (x1 y1)
abline(ab) desenha uma reta de inclinaccedilatildeo b e intercepto a
abline(v=x) desenha uma reta vertical em x
abline(lsfit(xy)) desenha uma reta da regressatildeo feita em lsfit(xy)
rect(x1 y1 x2 y2) desenha um retacircngulo que a esquerda inferior tem coordenadas(x1 y1) e o limite da direita superiores (x2 y2)
polygon(x y) desenha um poliacutegono que une os pontos com coordenadas X e Y
legend(x y legend) Acrescenta a lenda no ponto (x y) com os siacutembolos
dada pela legend
title()adiciona um tiacutetulo e opcionalmente um sub-tiacutetulo
axis(side) acrescenta um eixo na parte inferior (side = 1) agrave esquerda (2) na partesuperior (3) ou agrave direita (4)
box()desenhar uma caixa em torno do plot
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6061
A2ndashResumo de comandos
k) Comando par (Graphical parameters)Todos estes comando podem ser definidos a niacutevel global com o par () que
especifica os paracircmetros mas tambeacutem muitos podem ser usados comoparametros dos commando de Graacutefico
mfcol vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em colunas
mfrow vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em linhas(matrix for row)
bty controla o tipo de caixa desenhada ao redor do enredo valores permitidos satildeo
o l 7 c u ou se bt =n a caixa natildeo eacute desenhada
lty controla o tipo de linhas pode ser um inteiro ou string (1 solid 2 dashed 3dotted 4 dotdash 5 longdash 6twodash) ou uma string de ateacuteoito caracteres (entre 0 e 9) que especifica o comprimento em pontos oupixels dos elementos desenhados e os espaccedilos em branco por exemplolty=rdquo44rdquo equivale a lty=2
lwd nuacutemero que controla a largura das linhas default 1pch controla o tipo de siacutembolo pode tambeacutem ser um nuacutemero inteiro entre 1 e 25
ps um inteiro que controla o tamanho em pontos de textos e siacutembolos
pty um caracter que especifica o tipo da regiatildeo s quadrado m maacuteximal
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6161
A2ndashResumo de comandos
l) Input and outputreadtable(file) lecirc um arquivo em formato de tabela e cria um quadro de dados a
partir dele o separador default = eacute espaccedilo em branco header = TRUE ler a
primeira linha como um cabeccedilalho de nomes de coluna asis = TRUE paraevitar aque um vetore de caracteres seja convertido em factores usocommentchar = para evitar seja interpretado como um comentaacuteriouso skip = n para pular n linhas antes da leitura de dados consulte a ajudapara as opccedilotildees de linha de nomeaccedilatildeo o tratamento NA e outros
readcsv(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por viacutergulas
readdelim(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por tabulaccedilotildees
readfwf(filewidthsheader=FALSEsep= asis=FALSE)
ler uma tabela de dados em formato fix de largura m para um dataframe widthseacute um vetor inteiro informando os tamanhos dos campos
sink(file) saiacuteda de todos os comandos para um arquivo ateacute aparecer um comando
sink () que desliga writetable(x file=rownames=Tcolnames=Tsep= ) imprime x apoacutes a
conversatildeo para banco de dados
save(file) guarda os objetos especificados () no formato XDR
load()carregar o conjunto de dados salvos com o comando save
data(x) carrega um conjunto de dados especificado
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2661
Cap 2-c ndash TCL ExemploComo pode ser observado no caso de n = 2 o histograma se aproxima mais de uma curvaNormal do que no caso de n = 1 E no caso de n = 30 a semelhanccedila do histograma com umacurva Normal eacute ainda maior
O Teorema Central do Limite afirma que independentemente de qual seja a
distribuiccedilatildeo original dos Xirsquos a distribuiccedilatildeo de probabilidade de e a
distribuiccedilatildeo Normal com meacutedia micromicromicromicro e variacircncia σσσσ2 n se aproximam cada vez
mais uma da outra agrave medida que n cresce
Portanto mesmo que a distribuiccedilatildeo de probabilidade dos Xirsquos seja desconhecida o Teorema
X n
Central do Limite garante a possibilidade de usarmos o modelo Normal para calcular ainda quede forma aproximada probabilidades relativas agrave meacutedia amostral desde que n sejasuficientemente grande
Exemplo 62 Simulando o efeito do TCL
Para ilustrar o funcionamento do Teorema Central do Limite vamos exibir agora um exemploem que a distribuiccedilatildeo original a partir da qual os dados satildeo gerados eacute uma exponencial modelo
este que daacute origem a uma funccedilatildeo densidade bastante assimeacutetrica (ao contraacuterio do que ocorre
com a curva Normal) A densidade de uma exponencial com paracircmetro eacute dada pela
expressatildeo
No R rexp(n ) simula n valores
λ
0 xλef(x) λx ge= minusλ
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2761
Cap 2-c ndash TCL ExemploA densidade de uma exponencial com paracircmetro eacute dada pela expressatildeo
Gerando dados por simulaccedilatildeo a partir de uma exponencial com λ = 13 para cada um dos
seguintes tamanhos n de amostra 1 2 3 4 5 10 15 e 201 Obtivemos 200 valores da meacutedia amostral 2 Utilizamos esses 200 valores para construir um histograma3 Traccedilamos no mesmo graacutefico uma curva da densidade Normal com E( )=3 e DP( )=3Xn
λ 0 xλef(x) λx ge= minus
Xn n
Os 8 histogramas nos mostram que agrave medida que o tamanho n da amostra cresce
a forma do histograma se aproxima cada vez mais de uma curva Normal
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2861
Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com
simulaccedilotildees - Exponencial
tclexp=function(n N=200 titulo= yl=c(0 4)) iniacutecio da funccedilatildeo ndash tclexpmedias=numeric(N)
for (i in 1N) medias[i]= mean(rexp(n13))
hist(medias xlim=c(-110) ylim=yl freq=F main=titulo)
x=seq(-110 02)
points(x dnorm(x 3 3sqrt(1n) ) type=l lwd=3)
fim da funccedilatildeo
graphicsoff()
par(mfrow=c(33) mai=c(3411))
tclexp(1titulo=n=1)
tclexp(2titulo=n=2)
tclexp(3titulo=n=3)
tclexp(4titulo=n=4)
tclexp(5titulo=n=5)
tclexp(6titulo=n=6)
tclexp(10titulo=n=10yl=c(06))
tclexp(15titulo=n=15yl=c(06))
tclexp(20titulo=n=20yl=c(06))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2961
Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com
simulaccedilotildees - Exponencial
Uma pergunta natural neste ponto serialdquoQuatildeo grande deve ser n para que possamos usar a aproximaccedilatildeo fornecida pelo
TCL com um niacutevel de precisatildeo aceitaacutevelrdquo
A rapidez com que essa convergecircncia se daacute depende de quatildeo distante estaacute a forma
da distribuiccedilatildeo original das Xirsquos de uma curva Normal Em outras palavras se a
distribuiccedilatildeo das Xirsquos jaacute natildeo for muito diferente de uma Normal com um n natildeo muito-
grande (usualmente n ge 30) a aproximaccedilatildeo da distribuiccedilatildeo de por uma Normal
funcionaria adequadamente
No exemplo a seguir vamos apresentar esse fenocircmeno a saber a convergecircncia da
distribuiccedilatildeo de para uma Normal agrave medida que n cresce gerando por simulaccedilatildeo osdados originais a partir de diferentes modelos probabiliacutesticos Em todos os casos a
distribuiccedilatildeo original eacute bem diferente da Normal E(X)=3 e DP(X)=3 No que se refere agrave
Simulaccedilatildeo foi seguida a mesma sequumlecircncia de passos do exemplo anterior
Xn
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3061
Cap 2-c ndash TCL Exemplo
Exponencial
Uniforme
Mistura deNormais
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3161
Como se pode observar
1 No caso da distribuiccedilatildeo uniforme (A) o histograma de jaacute se aproximabastante de uma Normal quando n eacute da ordem de 4
2 Jaacute no caso da distribuiccedilatildeo Exponencial (B) e da mistura de normais
(C) modelos esses que se afastam muito mais de umldquo rdquo
Cap 2-c ndash TCL Exemplo
mostra mais adequada a partir de n em torno de 10
3 No caso do modelo em (C) agrave medida que n cresce tudo se passacomo se houvesse a ldquoerupccedilatildeo de um vulcatildeo dentro do valerdquo
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3261
tclunif=function(nN=100titulo= yl=c(0 4))
medias=numeric(N)for (i in 1N) medias[i]= mean(runif(n 3-3sqrt(3) 3+3sqrt(3)))
hist(medias xlim=c(-610) ylim=yl freq=F main=titulo)
x=seq(-610 02)
points(x dnorm(x 3 3sqrt(1n) ) type=l lwd=3)
medias
Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com
as simulaccedilotildees - Uniforme
grap cso
par(mfrow=c(33) mai=c(3411))
tclunif(1titulo=n=1yl=c(06))
tclunif(2titulo=n=2yl=c(06))
tclunif(3titulo=n=3yl=c(06))
tclunif(4titulo=n=4yl=c(06))tclunif(5titulo=n=5yl=c(06))
tclunif(6titulo=n=6yl=c(06))
tclunif(10titulo=n=10yl=c(06))
tclunif(15titulo=n=15yl=c(06))
tclunif(20titulo=n=20yl=c(06))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3361
X2=c(rnorm(35011) rnorm(15081)) X2 eacute a Populaccedilatildeo de onde retiramos as amostras
br=seq(-2 12 5)
tcl2modas=function(nN=200titulo= yl=c(0 6)) medias=numeric(N)for (i in 1N) medias[i]= mean(sample(X2nrep=T))hist(mediasbreaks=br xlim=c(-212) tcl=-01 ylim=yl xarp=c(-31216)
tck=005 lab=c(5515) freq=F main=titulo)x=seq(-312 02)
Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com
as simulaccedilotildees - Mistura de Normais
points(x dnorm(x med dpsqrt(n) ) type=l lwd=2)
par(mfrow=c(24) mai=c(3011) mar=c(2 2 2 1))
hist(X2 freq=F breaks=seq(-3125) bty=o xlim=c(-212)xarp=c(-31216)tck=005 lab=c(5515) ylim=c(06) main=POPULACcedilAtildeO lwd=2)
tcl2modas(2titulo=n=2)tcl2modas(3titulo=n=3)
tcl2modas(4titulo=n=4)
tcl2modas(5titulo=n=5)
tcl2modas(10titulo=n=10)
tcl2modas(15titulo=n=15)
tcl2modas(25titulo=n=25)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3461
CAP 3-a) Intervalo de ConfianccedilaSeja um estimador pontual do paracircmetro eacute uma variaacutevel aleatoacuteria que varia deamostra para amostra Por isso haacute uma certa dose de incerteza inerente a esse processode estimaccedilatildeo Nosso objetivo agora eacute obter com base nos dados amostrais (da uacutenicaamostra observada) um intervalo ao qual o valor correto do paracircmetro deve ter grandechance de pertencer
bull Detalhando um pouco mais No processo de estimaccedilatildeo por intervalo de um paracircmetro θdevemos determinar um intervalo que contenha o verdadeiro valor do paracircmetro comprobabilidade 1-α onde α eacute um pequeno valor preacute-fixado Este intervalo eacute construiacutedo emgeral em torno do estimador pontual considerando uma margem de erro d de forma aque uma vez fixada a probabilidade 1-α calculemos d tal que P( - d le θ le + d ) = 1 -αChama-se intervalo de confianccedila para θ ao niacutevel 1 - α ao intervalo [ - d + d]
θ $θ
$θ$θ
$θ $θ
$
θ
bull Ou seja o estimador pontual eacute o centro do Intervalo de Confianccedila e o erro absoluto dassociado a define a amplitude desse intervalo O que eacute de fato variaacutevel aleatoacuteria satildeoos extremos do intervalo O paracircmetro tem valor desconhecido natildeo aleatoacuterio (fixo a ser estimado)
Exemplo Intervalo de Confianccedila para a meacutedia populacional com o desvio padratildeo conhecidoO paracircmetro a estimar eacute a meacutedia populacional micro A estimaccedilatildeo seraacute baseada em X1 X2 Xn
uma amostra aleatoacuteria com E(Xi) = micro e var(Xi) = σ2 para todo i = 12 n Queremos que seja
vaacutelida a expressatildeo o que equivale a P [ -d le -micro le d] = 1-α
$θ
X[ ] α1dmicroXP minus=leminus
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3561
bull Lembrando que para n suficientemente grande pelo Teorema Central do Limite a meacutediaamostral segue uma distribuiccedilatildeo que se aproxima da Normal(micromicromicromicro σσσσ2 n) (ou eacute exatamente aNormal(micromicromicromicro σσσσ2 n) no caso em que a distribuiccedilatildeo comum das va Xirsquos jaacute eacute Normal) entatildeo
P [-d le -micromicromicromicro le d] = 1-α rArr 1-α = P [ |Z| le ] Logo d =
bull Faremos uma simulaccedilatildeo para a construccedilatildeo de Intervalos de Confianccedila com 100 amostras dedois tipos de populaccedilatildeo Normal e Exponencial A lista de comandos do R que usamos eacute
ICN = function (N n mu sigma = 3 conf)
plot(0 0 type=n xlim=c(010) ylim=c(0N) bty=l
xlab=Normal ylab=amostras)abline(v=mu)
CAP 3-a) Intervalo de Confianccedila
X
nσ
d
minus
z0 = qnorm(1-((1-conf)2))
sigmaxbarra = sigmasqrt(n)
for (i in 1N)
x = rnorm(n mu sigma)
media = mean(x)
li = media - z0 sigmaxbarrals = media + z0 sigmaxbarra
plotx = c(lils)
ploty = c(ii)
if (li gt mu | ls lt mu) lines(plotxploty col=red)
else lines(plotxploty)
gt ICN(100 25 3 3 95)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3661
CAP 3-a) Intervalo de Confianccedila
ICexp = function (N n lambda conf)
mu=1lambda sigma=1lambda
plot(0 0 type=n xlim=c(010) ylim=c(0N) bty=lxlab=Exponencial ylab=amostras)
abline(v= mu)
z0 = qnorm(1-((1-conf)2))
sigmaxbarra = sigmasqrt(n)
for (i in 1N)
x = rexp(nlambda) me a = mean x
li = media - z0 sigmaxbarra
ls = media + z0 sigmaxbarra
plotx = c(lils)
ploty = c(ii)
if (li gt mu | ls lt mu) lines(plotx ploty col=red)
else lines(plotx ploty)
gt ICexp(100 25 13 95)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3761
CAP 3-b Teste de Hipoacuteteses (TH)O objetivo de um teste de hipoacutetese eacute avaliar a validade de uma afirmaccedilatildeo sobre determinada
caracteriacutestica da populaccedilatildeo usando para isso os dados de uma amostra Essa caracteriacutestica eacute
representada pela va contiacutenua X cujo comportamento probabiliacutestico eacute expresso pela funccedilatildeo dedensidade f com paracircmetro Ө que tem valor desconhecido
Em um teste existem duas hipoacuteteses envolvidas H0 denominada hipoacutetese nula e H1
denominada hipoacutetese alternativa O procedimento de teste de hipoacutetese consiste em estabelecer
um criteacuterio de decisatildeo que leve a Aceitar ou Rejeitar H0 com base nos valores amostrais
A Estatiacutestica de teste eacute uma funccedilatildeo da amostra aleatoacuteria utilizada para definir o criteacuterio de
decisatildeo Estabelecer o criteacuterio de decisatildeo consiste em dividir o conjunto dos valores possiacuteveis
da estatiacutestica de teste em duas partes denominadas Regiatildeo de Aceitaccedilatildeo A e Regiatildeo de
Rejeiccedilatildeo R da hipoacutetese nula
Em um teste de hipoacutetese haacute dois tipos possiacuteveis de erro de decisatildeo
Erro I - Rejeitar H0 quando H0 eacute verdadeira
Erro II - Aceitar H0 quando H0 eacute falsaAs probabilidades de ocorrecircncia dos erros satildeo α = P [ Erro I ] e β = P [ Erro II]
A probabilidade de erro I α eacute o niacutevel de significacircncia do teste cujo valor eacute arbitrado pelo
pesquisador deve ser pequena pois corresponde a probabilidade de um erro (005 ou 001)
O niacutevel criacutetico ou p-valor do teste eacute o menor valor de α para o qual ainda rejeitariacuteamos H0 de
acordo com os dados observados
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3861
CAP 3-b) ndash TH teste tttest(x y = NULL alternative = c(twosided less greater) mu = 0
paired = FALSE varequal = FALSE conflevel = 095 )
Procedimentos de teste de hipoacuteteses com niacutevel de significacircncia α e amostras de tamanho n
UmaAmostra
DuasAmostras
Obs Os testes acima satildeo bilaterais
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3961
CAP 3ndashb) TH exemplo de teste t ndash amostras independentespag233- teste t amostras independente - comparaccedilatildeo log(salaacuterio)
entre os grupos de comeacutercio e de serviccedilo
LogSal=c(1289156912501344145616361573171309060903
0977122011031069128714101496131113371366
1227119114591280115217401649176524101701
1538192419251721154918911534163812071682
120614232010143112651570)
Sal=exp(LogSal)
setor= c(rep(C23) rep(S23))
ttest(Sal[setor==C] Sal[setor==S] varequal=T)
Two Sample t-test
data Sal[setor == C] and Sal[setor == S]
t = -36822 df = 44 p-value = 00006289
alternative hypothesis true difference in means is not equal to 095 percent confidence interval
-23079005 -06751838
sample estimates
mean of x mean of y3786010 5277552
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4061
CAP 3ndashb) TH exemplo de teste t ndash amostra pareadapag237- teste t pareado
P1=c(6315596455545480598065203660986853
8765647785536980827184605572645564)
P2=c(3638306043466455604343523428837155
8238556767443459605968506254473652)
ttest(P1 P2 alt=greater paired = T)
Paired t-test
data P1 and P2
t = 44176 df = 33 p-value = 5072e-05
alternative hypothesis true difference in means is greater than 0
95 percent confidence interval
0716695 Inf
sample estimates
mean of the differences
1161765
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4161
CAP 3ndashb) TH exemplo de teste Quiquadrado chisqtest
pag233- teste Quiquadrado -
tcont=matrix(c(683585251530258 7461761220225) 72)
chisqtest(tcont)
Pearsons Chi-squared test
data tcont- = = - lt -
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4261
CAP 3ndashb) TH exemplo de teste Quiquadrado chisqtestaov(formula data = NULL )
pag244- ANOVA - Comparaccedilatildeo de trecircs raccedilotildees para suinos
A=c(444943514475425134305342453630
322133421040395246294247453959)
B=c(343640545953445432686954414647
6566455739)
C=c(574040364566395025212927283942
21304143294244582849)
aumentoP=c(ABC)
racao=c(rep(A30)rep(B20) rep(C25))
summaryaov(aov(aumentoP ~ racao))
Df Sum Sq Mean Sq F value Pr(gtF)racao 2 15385 7693 56136 0005425
Residuals 72 98666 1370
---
Signif codes 0 lsquorsquo 0001 lsquorsquo 001 lsquorsquo 005 lsquorsquo 01 lsquo rsquo 1
Warning message
In modelmatrixdefault(mt mf contrasts)
variable racao converted to a factor
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4361
ApecircndicesA-1) Apresentaremos aqui algumas figuras
feitas no R na elaboraccedilatildeo do livro
Achamos que o exame desses coacutedigos acompanhado dos resultados podeser um bom aprendizado um exerciacutecio ou talvez uma recordaccedilatildeo do materialaqui exposto
A-2) Resumo de comandosa) Criaccedilatildeo de dados
b) Informaccedilatildeo de uma Variaacutevel
c) Seleccedilatildeo de dados e manipulaccedilatildeo
d) Estatiacutesticas e operaccedilotildees matemaacuteticas
e) Corte e extraccedilatildeo de dados
f) Operaccedilatildeo com Matrizes
g) Graacuteficos (Plotting)
h) Teste de hipoacuteteses
i) Programming
j) Commandos auxiliaries em Graacuteficos
k) Comando par (Graphical parameters)
l) Input and output
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4461
A1) ndash Pag 14 ndash Figura 15
IDADE=c(616961716371726866697267636663636067716360696463667164706366646969646372736871726968687379)
IMC= c(245273281301254301280234268228255228235232203226239243271227237258213243243248219234216214221227227211268278275267286253239258247284235)
par(mfrow=c(12))hist(IDADE breaks=c(6065707580) ylim=c(020) ylab=Nuacutemero de Observaccedilotildees
main= col=grey right = F)hist(IMC breaks=c(200225250275300325)
ylab=Nuacutemero de Observaccedilotildeesmain= col=grey right = F )
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4561
A1) ndash Pag 44 ndash Figura 21
mat=matrix(c(81823913601818608740)32)
rownames(mat)=c(AtivaSedentaacuteriaTotal)colnames(mat)=c(NormalSobrepeso)barplot(t(mat) beside = TRUE space=c(315)
col=gray(c(79))legend = c(NormalSobrepeso) ylim = c(0 95) ylab= - percentagem)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4661
A1) ndash Pag 48 ndash Figura 22
mat= matrix(c(68154510 66214215 66242519 39161711)44byrow=T)
rownames(mat)=c(18 a 21 anos 22 a 25 anos 26 a 30 anos 31 a 40 anos)colnames(mat)=c(CinTeatSMDEx)mat1=mat for (i in 14) mat1[i]lt-mat1[i]100sum(mat1[i]) par(mfrow=c(12) mai=c(1111) mar=c(5 4 2 2) )barplot(matbeside=F ylim=c(0250) legend = c(18 a 21 anos 22 a 25 anos
26 a 30 anos 31 a 40 anos) xlab=Contagem)
barplot(mat1 beside=F xlab=Percentagem)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4761
A1) ndash Pag 52 ndash Figura 25X= c(184114821789235159118762592403190408372147328526471687
09642871437079238215753399242122530314859149806)y =c(01837012540193301620014230140604568022870231400861019960235302186012798991801254018210244160823
0147764068011818941403474539680150133247023685518102146187520214097090257291227
036282905401406510810113849399)plot(x y xlim=c(07) ylim=c(05) pch=16 bty=l xlab=Renda per capita
ylab=Telefonia Fixa per capita)
abline(lsfit(xy))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4861
A1) ndash Pag 109 ndash Figura 45
x=020
y1=dpois(x1) y2=dpois(x3) y3=dpois(x10)names(y1)=x names(y2)=x names(y3)=xpar(mfrow=c(13))plot(y1ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=1)plot(y2ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=3)plot(y3ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=10)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4961
A1) ndash Pag 118 ndash Figura 412
x=seq(010001)
plot(xdexp(x 12) type=l xlim=c(012) ylim=c(01) bty=l ylab=f(x) eF(x))for(i in seq(0 25 001)) segments(i 0 i dexp(i12) col=lightgrey)abline(v=0 h=0)points(xdexp(x 12) type=l lwd=2 bty=l)points(xpexp(x 12) lwd=2 type=l)segments(250 25pexp(2512))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5061
A1) ndash Pag 163 ndash Figura 68
plot(p xlim=c(618) ylim=c(016) type=n bty=l xaxt=n xlab= ylab=
cexaxis=6)for (i in 1015) rect(i-50 i+5 dbinom(i304) col=lightgrey) lty=2)segments(i0idbinom(i304) lty=2)
x=seq(61801) lines(x dnorm(x12sqrt(72)) lwd=2)x=seq(61801) lines(x dnorm(x12sqrt(72)) lwd=2)
axis(1 916 cexaxis=9) ax s seq cexax s=
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5161
A1) ndash Pag 198 ndash Figura 78
x1=seq(-4402)plot(x1dnorm(x1) type=l lwd=3 xlab= ylab= )lines(x1 dt(x11)) lines(x1 dt(x12)) lines(x1 dt(x15))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5261
A2ndashResumo de comandos
a)Criaccedilatildeo de dados
c()funccedilatildeo geneacuterica para combinar argumentos com o formando de um vetor fromto gera uma sequecircnce ldquordquo tem prioridade de operator pe13 + 1 is ldquo234rdquo
seq(fromtoby) gera uma sequecircncia by= especifica incremento
length= especifica um comprimento desejado
rep(xtimes) replicate x onuacutemero times de vezes use each= para repetir cada
elemento de x rep(c(123)2) gera 1 2 3 1 2 3 rep(c(12)each=2) gera 1 1 2 2
matrix(xnrow=ncol=) matrix elementos de x se reciclam caso x
rbind()combina vetores em linhas num estrutura de matrizes de dados
cbind()combina vetores em colunas num estrutura de matrizes de dados
array(xdim=) matriz com dados x especificar dimensotildees como dim=c(342)
elementos de x se reciclam caso x natildeo seja suficientemente grande
factor(xlevels=) codifica um vetor x como um fator gl(nklength=nklabels=1n) gerar niacuteveis (fatores) especificando
o padratildeo de seus niacuteveis k eacute o nuacutemero de niacuteveis e n eacute o nuacutemero de repeticcedilotildees
dataframe() criar um banco de dados Por exemplo
dataframe(v=14ch=c(gBcasad)n=5)
list()criar uma lista de argumentos Por exemplo list(a=c(12)b=hic=3i)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5361
A2ndashResumo de comandos
b) Informaccedilatildeo de uma Variaacutevellength(x) nuacutemero de elementos em x
dim(x) Obter ou definir a dimensatildeo de um objeto dim (x) = c(32)dimnames(x) Obter ou definir os nomes das dimensotildees de um objeto
nrow(x) nuacutemero de linhas
ncol(x) nuacutemero de colunas
c) Seleccedilatildeo de dados e manipulaccedilatildeochoose(n k) calcula a combinaccedilatildeo de elementos escolhidos entre n
resultando n [(n-k) k]
cut(xbreaks) divide x em intervalos (fatores) breaks eacute o nuacutemero de intervalos de
corte ou um vetor com os valores especiacuteficos
table(x) retorna uma tabela com as quantidades dos diferentes valores de x
(tipicamente para variaacuteveis dos tipos inteiros ou fatores)
sample(x size) retira aleatoriamente com e sem reposiccedilatildeo elementos detamanho SIZE do vetor x a opccedilatildeo replace = TRUE permite a retirada com reposiccedilatildeo
proptable(xmargin=) transforma a tabela como tabela de propoccedilatildeo
marginal margin=1 (com relaccedilatildeo as linhas) margin=2 (com relaccedilatildeo as colunas)
sort(x) Classifica os elementos de x em ordem crescente para classificar em ordem
decrescente rev(sort(x))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5461
A2ndashResumo de comandosd) Estatiacutesticas e operaccedilotildees matemaacuteticasmean(x) media dos elementos de x
median(x) mediana dos elementos de x
quantile(xprobs=) quantis de x correspondendo a uma dada probabilidadevar(x) ou cov(x) variacircncia dos elementos de x (calculado com n-1)
se x eacute uma matriz a matriz de covariacircncia eacute calculada
sd(x) desvio padracirco de of x
cor(x) matriz de correlaccedilatildeo de x se x for uma matriz ou (1 se x eacute um vector)
cor(x y) correlaccedilatildeo linear entre X e Y ou matriz de correlaccedilatildeo se eles satildeo matrizes
round(x n) arredonda os elementos de x para n casas decimais sum x soma os e emen os e x
prod(x) multilica os elementos de x
max(x) acha o maacuteximo dos elementos de x
min(x) acha o miacutenimo dos elementos de x
range(x) equivalente a c(min(x)max(x)
cumsum(x) um vetor onde o eacutesimo elemento eacute a soma de x[1] ateacute x[i]cumprod(x) um vetor onde o eacutesimo elemento eacute o produto de x[1] ateacute x[i]
cummin(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
cummax(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
sincostanasinacosatanatan2loglog10exp)
log(x base) calcula o logaritmo de x na base=base
weightedmean(x w) media ponderada de x com peso= w
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5561
A2ndashResumo de comandos
e) Corte e extraccedilatildeo de dadosindexaccedilatildeo de Vetores
x[n] n-eacutesimo elemento do vetor
x[-n] todos menos o n-eacutesimo elemento
x[1n] os primeiros n elemento
x[-(1n)] elementos de n+1 ateacute o final
x[c(432)] elementos especificados
x[y gt 5] todo elementos de onde os valores de y satildeo maiores que 5
x x gt 3 amp x lt 5 todo elementos entre 3 e 5
x[nome] elemento denominado nome
indexaccedilatildeo de Matrizes
x[ij] elemento na linha i coluna j
x[i] linha i
x[j] coluna j
x[c(13)] colunas 1 and 3
x[nome] linha nomeada nome
indexaccedilatildeo de data frames
x[[nome]] coluna chamada nome
x$nome equivalente a coluna chamada nome
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5661
A2ndashResumo de comandos
f) Operaccedilatildeo com Matrizest(x) transposta da matrix x
diag(x) retira a diagonal da matrix x
multiplicaccedilatildeo matricial
solve(ab) resove a equaccedilatildeo a x = b em relaccedilatildeo a x
solve(a) matriz inversa de a
rowSum(x) soma das linhas da matrix x
colSum(x) soma das colunas da matrix x
rowMeans x meacutedia das linhas da matrix x
colMeans(x) id meacutedia das colunas da matrix x
g) Graacuteficos (Plotting)plot(x y) diagrama de disperccedilatildeo plot dos pares (xy) num sistema de eixos
coordenadoshist(x) histogram dasfrequecircncias of x
barplot(x) graacutefico de barras of x usar horiz=T ara barras horizontal
pie(x) graacutefico de setores (pie-chart)
boxplot(x)
qqnorm(x) quantis de x em relaccedilatildeo aos valores esperados de uma dist Normal
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5761
A2ndashResumo de comandosparametros dos commando de Graacutefico
type=p especifica o tipo de plot p pontos l linhas b pontos
ligados por linhas o idecircntico mas as linhas passam sobre os pontos h
linhas verticais s escada (steps) os dados satildeo representados pelas alturasverticais
xlim= ylim= especifica os limites inferiores e superiores dos eixos por exemplocom xlim=c(1 10) ou xlim=range(x)
xlab= ylab= nomeia os eixos o nome deve ser do tipo caracter
main= tiacutetulo principal deve ser do tipo caracter
sub= sub-tiacutetulo (escrito em fonte menor)
podem ser usados como bty(tipo de caixa) lwd (lagura da linha) lty (tipo delinha) pch(tipo de ponto) cex xaxs yaxs xaxtyaxt
h) Teste de hipoacuteteses
ttest()proptest()
chisqtest()
aov(formula) analysis of variance model
anova(fit) analysis of variance (or deviance) tables for one or more
fitted model objects
Use o commando gt test para procurar todos os testes disponiacuteveis
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5861
A2ndashResumo de comandos
i) Programmingfunction( arglist ) expr para definer uma funccedilatildeo
return(value)
if(cond) expr
if(cond) consexpr else altexpr
for(var in seq) expr
while(cond) expr
re eat ex r
break
Usar chaves entre commandos dlimitando o iniacutecio e o fim de um grupo decomandos
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5961
A2ndashResumo de comandos
j) Commandos auxiliaries em Graacuteficospoints(x y) adiciona pontos (a opccedilatildeo type= pode ser usada)
lines(x y) adiciona linhas (a opccedilatildeo type= pode ser usada)text(x y labels ) adiciona texto na coordenada (xy) um uso tiacutepico eacute
plot(x y type=n) text(x ynames)
segments(x0 y0 x1 y1) desenha linhas do ponto (x0 y0) ao (x1 y1)
arrows(x0 y0 x1 y1 angle= 30 code=2) desenha seta do ponto
(x0 y0) ao (x1 y1)
abline(ab) desenha uma reta de inclinaccedilatildeo b e intercepto a
abline(v=x) desenha uma reta vertical em x
abline(lsfit(xy)) desenha uma reta da regressatildeo feita em lsfit(xy)
rect(x1 y1 x2 y2) desenha um retacircngulo que a esquerda inferior tem coordenadas(x1 y1) e o limite da direita superiores (x2 y2)
polygon(x y) desenha um poliacutegono que une os pontos com coordenadas X e Y
legend(x y legend) Acrescenta a lenda no ponto (x y) com os siacutembolos
dada pela legend
title()adiciona um tiacutetulo e opcionalmente um sub-tiacutetulo
axis(side) acrescenta um eixo na parte inferior (side = 1) agrave esquerda (2) na partesuperior (3) ou agrave direita (4)
box()desenhar uma caixa em torno do plot
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6061
A2ndashResumo de comandos
k) Comando par (Graphical parameters)Todos estes comando podem ser definidos a niacutevel global com o par () que
especifica os paracircmetros mas tambeacutem muitos podem ser usados comoparametros dos commando de Graacutefico
mfcol vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em colunas
mfrow vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em linhas(matrix for row)
bty controla o tipo de caixa desenhada ao redor do enredo valores permitidos satildeo
o l 7 c u ou se bt =n a caixa natildeo eacute desenhada
lty controla o tipo de linhas pode ser um inteiro ou string (1 solid 2 dashed 3dotted 4 dotdash 5 longdash 6twodash) ou uma string de ateacuteoito caracteres (entre 0 e 9) que especifica o comprimento em pontos oupixels dos elementos desenhados e os espaccedilos em branco por exemplolty=rdquo44rdquo equivale a lty=2
lwd nuacutemero que controla a largura das linhas default 1pch controla o tipo de siacutembolo pode tambeacutem ser um nuacutemero inteiro entre 1 e 25
ps um inteiro que controla o tamanho em pontos de textos e siacutembolos
pty um caracter que especifica o tipo da regiatildeo s quadrado m maacuteximal
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6161
A2ndashResumo de comandos
l) Input and outputreadtable(file) lecirc um arquivo em formato de tabela e cria um quadro de dados a
partir dele o separador default = eacute espaccedilo em branco header = TRUE ler a
primeira linha como um cabeccedilalho de nomes de coluna asis = TRUE paraevitar aque um vetore de caracteres seja convertido em factores usocommentchar = para evitar seja interpretado como um comentaacuteriouso skip = n para pular n linhas antes da leitura de dados consulte a ajudapara as opccedilotildees de linha de nomeaccedilatildeo o tratamento NA e outros
readcsv(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por viacutergulas
readdelim(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por tabulaccedilotildees
readfwf(filewidthsheader=FALSEsep= asis=FALSE)
ler uma tabela de dados em formato fix de largura m para um dataframe widthseacute um vetor inteiro informando os tamanhos dos campos
sink(file) saiacuteda de todos os comandos para um arquivo ateacute aparecer um comando
sink () que desliga writetable(x file=rownames=Tcolnames=Tsep= ) imprime x apoacutes a
conversatildeo para banco de dados
save(file) guarda os objetos especificados () no formato XDR
load()carregar o conjunto de dados salvos com o comando save
data(x) carrega um conjunto de dados especificado
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2761
Cap 2-c ndash TCL ExemploA densidade de uma exponencial com paracircmetro eacute dada pela expressatildeo
Gerando dados por simulaccedilatildeo a partir de uma exponencial com λ = 13 para cada um dos
seguintes tamanhos n de amostra 1 2 3 4 5 10 15 e 201 Obtivemos 200 valores da meacutedia amostral 2 Utilizamos esses 200 valores para construir um histograma3 Traccedilamos no mesmo graacutefico uma curva da densidade Normal com E( )=3 e DP( )=3Xn
λ 0 xλef(x) λx ge= minus
Xn n
Os 8 histogramas nos mostram que agrave medida que o tamanho n da amostra cresce
a forma do histograma se aproxima cada vez mais de uma curva Normal
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2861
Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com
simulaccedilotildees - Exponencial
tclexp=function(n N=200 titulo= yl=c(0 4)) iniacutecio da funccedilatildeo ndash tclexpmedias=numeric(N)
for (i in 1N) medias[i]= mean(rexp(n13))
hist(medias xlim=c(-110) ylim=yl freq=F main=titulo)
x=seq(-110 02)
points(x dnorm(x 3 3sqrt(1n) ) type=l lwd=3)
fim da funccedilatildeo
graphicsoff()
par(mfrow=c(33) mai=c(3411))
tclexp(1titulo=n=1)
tclexp(2titulo=n=2)
tclexp(3titulo=n=3)
tclexp(4titulo=n=4)
tclexp(5titulo=n=5)
tclexp(6titulo=n=6)
tclexp(10titulo=n=10yl=c(06))
tclexp(15titulo=n=15yl=c(06))
tclexp(20titulo=n=20yl=c(06))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2961
Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com
simulaccedilotildees - Exponencial
Uma pergunta natural neste ponto serialdquoQuatildeo grande deve ser n para que possamos usar a aproximaccedilatildeo fornecida pelo
TCL com um niacutevel de precisatildeo aceitaacutevelrdquo
A rapidez com que essa convergecircncia se daacute depende de quatildeo distante estaacute a forma
da distribuiccedilatildeo original das Xirsquos de uma curva Normal Em outras palavras se a
distribuiccedilatildeo das Xirsquos jaacute natildeo for muito diferente de uma Normal com um n natildeo muito-
grande (usualmente n ge 30) a aproximaccedilatildeo da distribuiccedilatildeo de por uma Normal
funcionaria adequadamente
No exemplo a seguir vamos apresentar esse fenocircmeno a saber a convergecircncia da
distribuiccedilatildeo de para uma Normal agrave medida que n cresce gerando por simulaccedilatildeo osdados originais a partir de diferentes modelos probabiliacutesticos Em todos os casos a
distribuiccedilatildeo original eacute bem diferente da Normal E(X)=3 e DP(X)=3 No que se refere agrave
Simulaccedilatildeo foi seguida a mesma sequumlecircncia de passos do exemplo anterior
Xn
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3061
Cap 2-c ndash TCL Exemplo
Exponencial
Uniforme
Mistura deNormais
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3161
Como se pode observar
1 No caso da distribuiccedilatildeo uniforme (A) o histograma de jaacute se aproximabastante de uma Normal quando n eacute da ordem de 4
2 Jaacute no caso da distribuiccedilatildeo Exponencial (B) e da mistura de normais
(C) modelos esses que se afastam muito mais de umldquo rdquo
Cap 2-c ndash TCL Exemplo
mostra mais adequada a partir de n em torno de 10
3 No caso do modelo em (C) agrave medida que n cresce tudo se passacomo se houvesse a ldquoerupccedilatildeo de um vulcatildeo dentro do valerdquo
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3261
tclunif=function(nN=100titulo= yl=c(0 4))
medias=numeric(N)for (i in 1N) medias[i]= mean(runif(n 3-3sqrt(3) 3+3sqrt(3)))
hist(medias xlim=c(-610) ylim=yl freq=F main=titulo)
x=seq(-610 02)
points(x dnorm(x 3 3sqrt(1n) ) type=l lwd=3)
medias
Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com
as simulaccedilotildees - Uniforme
grap cso
par(mfrow=c(33) mai=c(3411))
tclunif(1titulo=n=1yl=c(06))
tclunif(2titulo=n=2yl=c(06))
tclunif(3titulo=n=3yl=c(06))
tclunif(4titulo=n=4yl=c(06))tclunif(5titulo=n=5yl=c(06))
tclunif(6titulo=n=6yl=c(06))
tclunif(10titulo=n=10yl=c(06))
tclunif(15titulo=n=15yl=c(06))
tclunif(20titulo=n=20yl=c(06))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3361
X2=c(rnorm(35011) rnorm(15081)) X2 eacute a Populaccedilatildeo de onde retiramos as amostras
br=seq(-2 12 5)
tcl2modas=function(nN=200titulo= yl=c(0 6)) medias=numeric(N)for (i in 1N) medias[i]= mean(sample(X2nrep=T))hist(mediasbreaks=br xlim=c(-212) tcl=-01 ylim=yl xarp=c(-31216)
tck=005 lab=c(5515) freq=F main=titulo)x=seq(-312 02)
Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com
as simulaccedilotildees - Mistura de Normais
points(x dnorm(x med dpsqrt(n) ) type=l lwd=2)
par(mfrow=c(24) mai=c(3011) mar=c(2 2 2 1))
hist(X2 freq=F breaks=seq(-3125) bty=o xlim=c(-212)xarp=c(-31216)tck=005 lab=c(5515) ylim=c(06) main=POPULACcedilAtildeO lwd=2)
tcl2modas(2titulo=n=2)tcl2modas(3titulo=n=3)
tcl2modas(4titulo=n=4)
tcl2modas(5titulo=n=5)
tcl2modas(10titulo=n=10)
tcl2modas(15titulo=n=15)
tcl2modas(25titulo=n=25)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3461
CAP 3-a) Intervalo de ConfianccedilaSeja um estimador pontual do paracircmetro eacute uma variaacutevel aleatoacuteria que varia deamostra para amostra Por isso haacute uma certa dose de incerteza inerente a esse processode estimaccedilatildeo Nosso objetivo agora eacute obter com base nos dados amostrais (da uacutenicaamostra observada) um intervalo ao qual o valor correto do paracircmetro deve ter grandechance de pertencer
bull Detalhando um pouco mais No processo de estimaccedilatildeo por intervalo de um paracircmetro θdevemos determinar um intervalo que contenha o verdadeiro valor do paracircmetro comprobabilidade 1-α onde α eacute um pequeno valor preacute-fixado Este intervalo eacute construiacutedo emgeral em torno do estimador pontual considerando uma margem de erro d de forma aque uma vez fixada a probabilidade 1-α calculemos d tal que P( - d le θ le + d ) = 1 -αChama-se intervalo de confianccedila para θ ao niacutevel 1 - α ao intervalo [ - d + d]
θ $θ
$θ$θ
$θ $θ
$
θ
bull Ou seja o estimador pontual eacute o centro do Intervalo de Confianccedila e o erro absoluto dassociado a define a amplitude desse intervalo O que eacute de fato variaacutevel aleatoacuteria satildeoos extremos do intervalo O paracircmetro tem valor desconhecido natildeo aleatoacuterio (fixo a ser estimado)
Exemplo Intervalo de Confianccedila para a meacutedia populacional com o desvio padratildeo conhecidoO paracircmetro a estimar eacute a meacutedia populacional micro A estimaccedilatildeo seraacute baseada em X1 X2 Xn
uma amostra aleatoacuteria com E(Xi) = micro e var(Xi) = σ2 para todo i = 12 n Queremos que seja
vaacutelida a expressatildeo o que equivale a P [ -d le -micro le d] = 1-α
$θ
X[ ] α1dmicroXP minus=leminus
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3561
bull Lembrando que para n suficientemente grande pelo Teorema Central do Limite a meacutediaamostral segue uma distribuiccedilatildeo que se aproxima da Normal(micromicromicromicro σσσσ2 n) (ou eacute exatamente aNormal(micromicromicromicro σσσσ2 n) no caso em que a distribuiccedilatildeo comum das va Xirsquos jaacute eacute Normal) entatildeo
P [-d le -micromicromicromicro le d] = 1-α rArr 1-α = P [ |Z| le ] Logo d =
bull Faremos uma simulaccedilatildeo para a construccedilatildeo de Intervalos de Confianccedila com 100 amostras dedois tipos de populaccedilatildeo Normal e Exponencial A lista de comandos do R que usamos eacute
ICN = function (N n mu sigma = 3 conf)
plot(0 0 type=n xlim=c(010) ylim=c(0N) bty=l
xlab=Normal ylab=amostras)abline(v=mu)
CAP 3-a) Intervalo de Confianccedila
X
nσ
d
minus
z0 = qnorm(1-((1-conf)2))
sigmaxbarra = sigmasqrt(n)
for (i in 1N)
x = rnorm(n mu sigma)
media = mean(x)
li = media - z0 sigmaxbarrals = media + z0 sigmaxbarra
plotx = c(lils)
ploty = c(ii)
if (li gt mu | ls lt mu) lines(plotxploty col=red)
else lines(plotxploty)
gt ICN(100 25 3 3 95)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3661
CAP 3-a) Intervalo de Confianccedila
ICexp = function (N n lambda conf)
mu=1lambda sigma=1lambda
plot(0 0 type=n xlim=c(010) ylim=c(0N) bty=lxlab=Exponencial ylab=amostras)
abline(v= mu)
z0 = qnorm(1-((1-conf)2))
sigmaxbarra = sigmasqrt(n)
for (i in 1N)
x = rexp(nlambda) me a = mean x
li = media - z0 sigmaxbarra
ls = media + z0 sigmaxbarra
plotx = c(lils)
ploty = c(ii)
if (li gt mu | ls lt mu) lines(plotx ploty col=red)
else lines(plotx ploty)
gt ICexp(100 25 13 95)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3761
CAP 3-b Teste de Hipoacuteteses (TH)O objetivo de um teste de hipoacutetese eacute avaliar a validade de uma afirmaccedilatildeo sobre determinada
caracteriacutestica da populaccedilatildeo usando para isso os dados de uma amostra Essa caracteriacutestica eacute
representada pela va contiacutenua X cujo comportamento probabiliacutestico eacute expresso pela funccedilatildeo dedensidade f com paracircmetro Ө que tem valor desconhecido
Em um teste existem duas hipoacuteteses envolvidas H0 denominada hipoacutetese nula e H1
denominada hipoacutetese alternativa O procedimento de teste de hipoacutetese consiste em estabelecer
um criteacuterio de decisatildeo que leve a Aceitar ou Rejeitar H0 com base nos valores amostrais
A Estatiacutestica de teste eacute uma funccedilatildeo da amostra aleatoacuteria utilizada para definir o criteacuterio de
decisatildeo Estabelecer o criteacuterio de decisatildeo consiste em dividir o conjunto dos valores possiacuteveis
da estatiacutestica de teste em duas partes denominadas Regiatildeo de Aceitaccedilatildeo A e Regiatildeo de
Rejeiccedilatildeo R da hipoacutetese nula
Em um teste de hipoacutetese haacute dois tipos possiacuteveis de erro de decisatildeo
Erro I - Rejeitar H0 quando H0 eacute verdadeira
Erro II - Aceitar H0 quando H0 eacute falsaAs probabilidades de ocorrecircncia dos erros satildeo α = P [ Erro I ] e β = P [ Erro II]
A probabilidade de erro I α eacute o niacutevel de significacircncia do teste cujo valor eacute arbitrado pelo
pesquisador deve ser pequena pois corresponde a probabilidade de um erro (005 ou 001)
O niacutevel criacutetico ou p-valor do teste eacute o menor valor de α para o qual ainda rejeitariacuteamos H0 de
acordo com os dados observados
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3861
CAP 3-b) ndash TH teste tttest(x y = NULL alternative = c(twosided less greater) mu = 0
paired = FALSE varequal = FALSE conflevel = 095 )
Procedimentos de teste de hipoacuteteses com niacutevel de significacircncia α e amostras de tamanho n
UmaAmostra
DuasAmostras
Obs Os testes acima satildeo bilaterais
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3961
CAP 3ndashb) TH exemplo de teste t ndash amostras independentespag233- teste t amostras independente - comparaccedilatildeo log(salaacuterio)
entre os grupos de comeacutercio e de serviccedilo
LogSal=c(1289156912501344145616361573171309060903
0977122011031069128714101496131113371366
1227119114591280115217401649176524101701
1538192419251721154918911534163812071682
120614232010143112651570)
Sal=exp(LogSal)
setor= c(rep(C23) rep(S23))
ttest(Sal[setor==C] Sal[setor==S] varequal=T)
Two Sample t-test
data Sal[setor == C] and Sal[setor == S]
t = -36822 df = 44 p-value = 00006289
alternative hypothesis true difference in means is not equal to 095 percent confidence interval
-23079005 -06751838
sample estimates
mean of x mean of y3786010 5277552
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4061
CAP 3ndashb) TH exemplo de teste t ndash amostra pareadapag237- teste t pareado
P1=c(6315596455545480598065203660986853
8765647785536980827184605572645564)
P2=c(3638306043466455604343523428837155
8238556767443459605968506254473652)
ttest(P1 P2 alt=greater paired = T)
Paired t-test
data P1 and P2
t = 44176 df = 33 p-value = 5072e-05
alternative hypothesis true difference in means is greater than 0
95 percent confidence interval
0716695 Inf
sample estimates
mean of the differences
1161765
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4161
CAP 3ndashb) TH exemplo de teste Quiquadrado chisqtest
pag233- teste Quiquadrado -
tcont=matrix(c(683585251530258 7461761220225) 72)
chisqtest(tcont)
Pearsons Chi-squared test
data tcont- = = - lt -
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4261
CAP 3ndashb) TH exemplo de teste Quiquadrado chisqtestaov(formula data = NULL )
pag244- ANOVA - Comparaccedilatildeo de trecircs raccedilotildees para suinos
A=c(444943514475425134305342453630
322133421040395246294247453959)
B=c(343640545953445432686954414647
6566455739)
C=c(574040364566395025212927283942
21304143294244582849)
aumentoP=c(ABC)
racao=c(rep(A30)rep(B20) rep(C25))
summaryaov(aov(aumentoP ~ racao))
Df Sum Sq Mean Sq F value Pr(gtF)racao 2 15385 7693 56136 0005425
Residuals 72 98666 1370
---
Signif codes 0 lsquorsquo 0001 lsquorsquo 001 lsquorsquo 005 lsquorsquo 01 lsquo rsquo 1
Warning message
In modelmatrixdefault(mt mf contrasts)
variable racao converted to a factor
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4361
ApecircndicesA-1) Apresentaremos aqui algumas figuras
feitas no R na elaboraccedilatildeo do livro
Achamos que o exame desses coacutedigos acompanhado dos resultados podeser um bom aprendizado um exerciacutecio ou talvez uma recordaccedilatildeo do materialaqui exposto
A-2) Resumo de comandosa) Criaccedilatildeo de dados
b) Informaccedilatildeo de uma Variaacutevel
c) Seleccedilatildeo de dados e manipulaccedilatildeo
d) Estatiacutesticas e operaccedilotildees matemaacuteticas
e) Corte e extraccedilatildeo de dados
f) Operaccedilatildeo com Matrizes
g) Graacuteficos (Plotting)
h) Teste de hipoacuteteses
i) Programming
j) Commandos auxiliaries em Graacuteficos
k) Comando par (Graphical parameters)
l) Input and output
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4461
A1) ndash Pag 14 ndash Figura 15
IDADE=c(616961716371726866697267636663636067716360696463667164706366646969646372736871726968687379)
IMC= c(245273281301254301280234268228255228235232203226239243271227237258213243243248219234216214221227227211268278275267286253239258247284235)
par(mfrow=c(12))hist(IDADE breaks=c(6065707580) ylim=c(020) ylab=Nuacutemero de Observaccedilotildees
main= col=grey right = F)hist(IMC breaks=c(200225250275300325)
ylab=Nuacutemero de Observaccedilotildeesmain= col=grey right = F )
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4561
A1) ndash Pag 44 ndash Figura 21
mat=matrix(c(81823913601818608740)32)
rownames(mat)=c(AtivaSedentaacuteriaTotal)colnames(mat)=c(NormalSobrepeso)barplot(t(mat) beside = TRUE space=c(315)
col=gray(c(79))legend = c(NormalSobrepeso) ylim = c(0 95) ylab= - percentagem)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4661
A1) ndash Pag 48 ndash Figura 22
mat= matrix(c(68154510 66214215 66242519 39161711)44byrow=T)
rownames(mat)=c(18 a 21 anos 22 a 25 anos 26 a 30 anos 31 a 40 anos)colnames(mat)=c(CinTeatSMDEx)mat1=mat for (i in 14) mat1[i]lt-mat1[i]100sum(mat1[i]) par(mfrow=c(12) mai=c(1111) mar=c(5 4 2 2) )barplot(matbeside=F ylim=c(0250) legend = c(18 a 21 anos 22 a 25 anos
26 a 30 anos 31 a 40 anos) xlab=Contagem)
barplot(mat1 beside=F xlab=Percentagem)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4761
A1) ndash Pag 52 ndash Figura 25X= c(184114821789235159118762592403190408372147328526471687
09642871437079238215753399242122530314859149806)y =c(01837012540193301620014230140604568022870231400861019960235302186012798991801254018210244160823
0147764068011818941403474539680150133247023685518102146187520214097090257291227
036282905401406510810113849399)plot(x y xlim=c(07) ylim=c(05) pch=16 bty=l xlab=Renda per capita
ylab=Telefonia Fixa per capita)
abline(lsfit(xy))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4861
A1) ndash Pag 109 ndash Figura 45
x=020
y1=dpois(x1) y2=dpois(x3) y3=dpois(x10)names(y1)=x names(y2)=x names(y3)=xpar(mfrow=c(13))plot(y1ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=1)plot(y2ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=3)plot(y3ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=10)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4961
A1) ndash Pag 118 ndash Figura 412
x=seq(010001)
plot(xdexp(x 12) type=l xlim=c(012) ylim=c(01) bty=l ylab=f(x) eF(x))for(i in seq(0 25 001)) segments(i 0 i dexp(i12) col=lightgrey)abline(v=0 h=0)points(xdexp(x 12) type=l lwd=2 bty=l)points(xpexp(x 12) lwd=2 type=l)segments(250 25pexp(2512))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5061
A1) ndash Pag 163 ndash Figura 68
plot(p xlim=c(618) ylim=c(016) type=n bty=l xaxt=n xlab= ylab=
cexaxis=6)for (i in 1015) rect(i-50 i+5 dbinom(i304) col=lightgrey) lty=2)segments(i0idbinom(i304) lty=2)
x=seq(61801) lines(x dnorm(x12sqrt(72)) lwd=2)x=seq(61801) lines(x dnorm(x12sqrt(72)) lwd=2)
axis(1 916 cexaxis=9) ax s seq cexax s=
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5161
A1) ndash Pag 198 ndash Figura 78
x1=seq(-4402)plot(x1dnorm(x1) type=l lwd=3 xlab= ylab= )lines(x1 dt(x11)) lines(x1 dt(x12)) lines(x1 dt(x15))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5261
A2ndashResumo de comandos
a)Criaccedilatildeo de dados
c()funccedilatildeo geneacuterica para combinar argumentos com o formando de um vetor fromto gera uma sequecircnce ldquordquo tem prioridade de operator pe13 + 1 is ldquo234rdquo
seq(fromtoby) gera uma sequecircncia by= especifica incremento
length= especifica um comprimento desejado
rep(xtimes) replicate x onuacutemero times de vezes use each= para repetir cada
elemento de x rep(c(123)2) gera 1 2 3 1 2 3 rep(c(12)each=2) gera 1 1 2 2
matrix(xnrow=ncol=) matrix elementos de x se reciclam caso x
rbind()combina vetores em linhas num estrutura de matrizes de dados
cbind()combina vetores em colunas num estrutura de matrizes de dados
array(xdim=) matriz com dados x especificar dimensotildees como dim=c(342)
elementos de x se reciclam caso x natildeo seja suficientemente grande
factor(xlevels=) codifica um vetor x como um fator gl(nklength=nklabels=1n) gerar niacuteveis (fatores) especificando
o padratildeo de seus niacuteveis k eacute o nuacutemero de niacuteveis e n eacute o nuacutemero de repeticcedilotildees
dataframe() criar um banco de dados Por exemplo
dataframe(v=14ch=c(gBcasad)n=5)
list()criar uma lista de argumentos Por exemplo list(a=c(12)b=hic=3i)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5361
A2ndashResumo de comandos
b) Informaccedilatildeo de uma Variaacutevellength(x) nuacutemero de elementos em x
dim(x) Obter ou definir a dimensatildeo de um objeto dim (x) = c(32)dimnames(x) Obter ou definir os nomes das dimensotildees de um objeto
nrow(x) nuacutemero de linhas
ncol(x) nuacutemero de colunas
c) Seleccedilatildeo de dados e manipulaccedilatildeochoose(n k) calcula a combinaccedilatildeo de elementos escolhidos entre n
resultando n [(n-k) k]
cut(xbreaks) divide x em intervalos (fatores) breaks eacute o nuacutemero de intervalos de
corte ou um vetor com os valores especiacuteficos
table(x) retorna uma tabela com as quantidades dos diferentes valores de x
(tipicamente para variaacuteveis dos tipos inteiros ou fatores)
sample(x size) retira aleatoriamente com e sem reposiccedilatildeo elementos detamanho SIZE do vetor x a opccedilatildeo replace = TRUE permite a retirada com reposiccedilatildeo
proptable(xmargin=) transforma a tabela como tabela de propoccedilatildeo
marginal margin=1 (com relaccedilatildeo as linhas) margin=2 (com relaccedilatildeo as colunas)
sort(x) Classifica os elementos de x em ordem crescente para classificar em ordem
decrescente rev(sort(x))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5461
A2ndashResumo de comandosd) Estatiacutesticas e operaccedilotildees matemaacuteticasmean(x) media dos elementos de x
median(x) mediana dos elementos de x
quantile(xprobs=) quantis de x correspondendo a uma dada probabilidadevar(x) ou cov(x) variacircncia dos elementos de x (calculado com n-1)
se x eacute uma matriz a matriz de covariacircncia eacute calculada
sd(x) desvio padracirco de of x
cor(x) matriz de correlaccedilatildeo de x se x for uma matriz ou (1 se x eacute um vector)
cor(x y) correlaccedilatildeo linear entre X e Y ou matriz de correlaccedilatildeo se eles satildeo matrizes
round(x n) arredonda os elementos de x para n casas decimais sum x soma os e emen os e x
prod(x) multilica os elementos de x
max(x) acha o maacuteximo dos elementos de x
min(x) acha o miacutenimo dos elementos de x
range(x) equivalente a c(min(x)max(x)
cumsum(x) um vetor onde o eacutesimo elemento eacute a soma de x[1] ateacute x[i]cumprod(x) um vetor onde o eacutesimo elemento eacute o produto de x[1] ateacute x[i]
cummin(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
cummax(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
sincostanasinacosatanatan2loglog10exp)
log(x base) calcula o logaritmo de x na base=base
weightedmean(x w) media ponderada de x com peso= w
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5561
A2ndashResumo de comandos
e) Corte e extraccedilatildeo de dadosindexaccedilatildeo de Vetores
x[n] n-eacutesimo elemento do vetor
x[-n] todos menos o n-eacutesimo elemento
x[1n] os primeiros n elemento
x[-(1n)] elementos de n+1 ateacute o final
x[c(432)] elementos especificados
x[y gt 5] todo elementos de onde os valores de y satildeo maiores que 5
x x gt 3 amp x lt 5 todo elementos entre 3 e 5
x[nome] elemento denominado nome
indexaccedilatildeo de Matrizes
x[ij] elemento na linha i coluna j
x[i] linha i
x[j] coluna j
x[c(13)] colunas 1 and 3
x[nome] linha nomeada nome
indexaccedilatildeo de data frames
x[[nome]] coluna chamada nome
x$nome equivalente a coluna chamada nome
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5661
A2ndashResumo de comandos
f) Operaccedilatildeo com Matrizest(x) transposta da matrix x
diag(x) retira a diagonal da matrix x
multiplicaccedilatildeo matricial
solve(ab) resove a equaccedilatildeo a x = b em relaccedilatildeo a x
solve(a) matriz inversa de a
rowSum(x) soma das linhas da matrix x
colSum(x) soma das colunas da matrix x
rowMeans x meacutedia das linhas da matrix x
colMeans(x) id meacutedia das colunas da matrix x
g) Graacuteficos (Plotting)plot(x y) diagrama de disperccedilatildeo plot dos pares (xy) num sistema de eixos
coordenadoshist(x) histogram dasfrequecircncias of x
barplot(x) graacutefico de barras of x usar horiz=T ara barras horizontal
pie(x) graacutefico de setores (pie-chart)
boxplot(x)
qqnorm(x) quantis de x em relaccedilatildeo aos valores esperados de uma dist Normal
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5761
A2ndashResumo de comandosparametros dos commando de Graacutefico
type=p especifica o tipo de plot p pontos l linhas b pontos
ligados por linhas o idecircntico mas as linhas passam sobre os pontos h
linhas verticais s escada (steps) os dados satildeo representados pelas alturasverticais
xlim= ylim= especifica os limites inferiores e superiores dos eixos por exemplocom xlim=c(1 10) ou xlim=range(x)
xlab= ylab= nomeia os eixos o nome deve ser do tipo caracter
main= tiacutetulo principal deve ser do tipo caracter
sub= sub-tiacutetulo (escrito em fonte menor)
podem ser usados como bty(tipo de caixa) lwd (lagura da linha) lty (tipo delinha) pch(tipo de ponto) cex xaxs yaxs xaxtyaxt
h) Teste de hipoacuteteses
ttest()proptest()
chisqtest()
aov(formula) analysis of variance model
anova(fit) analysis of variance (or deviance) tables for one or more
fitted model objects
Use o commando gt test para procurar todos os testes disponiacuteveis
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5861
A2ndashResumo de comandos
i) Programmingfunction( arglist ) expr para definer uma funccedilatildeo
return(value)
if(cond) expr
if(cond) consexpr else altexpr
for(var in seq) expr
while(cond) expr
re eat ex r
break
Usar chaves entre commandos dlimitando o iniacutecio e o fim de um grupo decomandos
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5961
A2ndashResumo de comandos
j) Commandos auxiliaries em Graacuteficospoints(x y) adiciona pontos (a opccedilatildeo type= pode ser usada)
lines(x y) adiciona linhas (a opccedilatildeo type= pode ser usada)text(x y labels ) adiciona texto na coordenada (xy) um uso tiacutepico eacute
plot(x y type=n) text(x ynames)
segments(x0 y0 x1 y1) desenha linhas do ponto (x0 y0) ao (x1 y1)
arrows(x0 y0 x1 y1 angle= 30 code=2) desenha seta do ponto
(x0 y0) ao (x1 y1)
abline(ab) desenha uma reta de inclinaccedilatildeo b e intercepto a
abline(v=x) desenha uma reta vertical em x
abline(lsfit(xy)) desenha uma reta da regressatildeo feita em lsfit(xy)
rect(x1 y1 x2 y2) desenha um retacircngulo que a esquerda inferior tem coordenadas(x1 y1) e o limite da direita superiores (x2 y2)
polygon(x y) desenha um poliacutegono que une os pontos com coordenadas X e Y
legend(x y legend) Acrescenta a lenda no ponto (x y) com os siacutembolos
dada pela legend
title()adiciona um tiacutetulo e opcionalmente um sub-tiacutetulo
axis(side) acrescenta um eixo na parte inferior (side = 1) agrave esquerda (2) na partesuperior (3) ou agrave direita (4)
box()desenhar uma caixa em torno do plot
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6061
A2ndashResumo de comandos
k) Comando par (Graphical parameters)Todos estes comando podem ser definidos a niacutevel global com o par () que
especifica os paracircmetros mas tambeacutem muitos podem ser usados comoparametros dos commando de Graacutefico
mfcol vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em colunas
mfrow vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em linhas(matrix for row)
bty controla o tipo de caixa desenhada ao redor do enredo valores permitidos satildeo
o l 7 c u ou se bt =n a caixa natildeo eacute desenhada
lty controla o tipo de linhas pode ser um inteiro ou string (1 solid 2 dashed 3dotted 4 dotdash 5 longdash 6twodash) ou uma string de ateacuteoito caracteres (entre 0 e 9) que especifica o comprimento em pontos oupixels dos elementos desenhados e os espaccedilos em branco por exemplolty=rdquo44rdquo equivale a lty=2
lwd nuacutemero que controla a largura das linhas default 1pch controla o tipo de siacutembolo pode tambeacutem ser um nuacutemero inteiro entre 1 e 25
ps um inteiro que controla o tamanho em pontos de textos e siacutembolos
pty um caracter que especifica o tipo da regiatildeo s quadrado m maacuteximal
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6161
A2ndashResumo de comandos
l) Input and outputreadtable(file) lecirc um arquivo em formato de tabela e cria um quadro de dados a
partir dele o separador default = eacute espaccedilo em branco header = TRUE ler a
primeira linha como um cabeccedilalho de nomes de coluna asis = TRUE paraevitar aque um vetore de caracteres seja convertido em factores usocommentchar = para evitar seja interpretado como um comentaacuteriouso skip = n para pular n linhas antes da leitura de dados consulte a ajudapara as opccedilotildees de linha de nomeaccedilatildeo o tratamento NA e outros
readcsv(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por viacutergulas
readdelim(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por tabulaccedilotildees
readfwf(filewidthsheader=FALSEsep= asis=FALSE)
ler uma tabela de dados em formato fix de largura m para um dataframe widthseacute um vetor inteiro informando os tamanhos dos campos
sink(file) saiacuteda de todos os comandos para um arquivo ateacute aparecer um comando
sink () que desliga writetable(x file=rownames=Tcolnames=Tsep= ) imprime x apoacutes a
conversatildeo para banco de dados
save(file) guarda os objetos especificados () no formato XDR
load()carregar o conjunto de dados salvos com o comando save
data(x) carrega um conjunto de dados especificado
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2861
Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com
simulaccedilotildees - Exponencial
tclexp=function(n N=200 titulo= yl=c(0 4)) iniacutecio da funccedilatildeo ndash tclexpmedias=numeric(N)
for (i in 1N) medias[i]= mean(rexp(n13))
hist(medias xlim=c(-110) ylim=yl freq=F main=titulo)
x=seq(-110 02)
points(x dnorm(x 3 3sqrt(1n) ) type=l lwd=3)
fim da funccedilatildeo
graphicsoff()
par(mfrow=c(33) mai=c(3411))
tclexp(1titulo=n=1)
tclexp(2titulo=n=2)
tclexp(3titulo=n=3)
tclexp(4titulo=n=4)
tclexp(5titulo=n=5)
tclexp(6titulo=n=6)
tclexp(10titulo=n=10yl=c(06))
tclexp(15titulo=n=15yl=c(06))
tclexp(20titulo=n=20yl=c(06))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2961
Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com
simulaccedilotildees - Exponencial
Uma pergunta natural neste ponto serialdquoQuatildeo grande deve ser n para que possamos usar a aproximaccedilatildeo fornecida pelo
TCL com um niacutevel de precisatildeo aceitaacutevelrdquo
A rapidez com que essa convergecircncia se daacute depende de quatildeo distante estaacute a forma
da distribuiccedilatildeo original das Xirsquos de uma curva Normal Em outras palavras se a
distribuiccedilatildeo das Xirsquos jaacute natildeo for muito diferente de uma Normal com um n natildeo muito-
grande (usualmente n ge 30) a aproximaccedilatildeo da distribuiccedilatildeo de por uma Normal
funcionaria adequadamente
No exemplo a seguir vamos apresentar esse fenocircmeno a saber a convergecircncia da
distribuiccedilatildeo de para uma Normal agrave medida que n cresce gerando por simulaccedilatildeo osdados originais a partir de diferentes modelos probabiliacutesticos Em todos os casos a
distribuiccedilatildeo original eacute bem diferente da Normal E(X)=3 e DP(X)=3 No que se refere agrave
Simulaccedilatildeo foi seguida a mesma sequumlecircncia de passos do exemplo anterior
Xn
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3061
Cap 2-c ndash TCL Exemplo
Exponencial
Uniforme
Mistura deNormais
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3161
Como se pode observar
1 No caso da distribuiccedilatildeo uniforme (A) o histograma de jaacute se aproximabastante de uma Normal quando n eacute da ordem de 4
2 Jaacute no caso da distribuiccedilatildeo Exponencial (B) e da mistura de normais
(C) modelos esses que se afastam muito mais de umldquo rdquo
Cap 2-c ndash TCL Exemplo
mostra mais adequada a partir de n em torno de 10
3 No caso do modelo em (C) agrave medida que n cresce tudo se passacomo se houvesse a ldquoerupccedilatildeo de um vulcatildeo dentro do valerdquo
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3261
tclunif=function(nN=100titulo= yl=c(0 4))
medias=numeric(N)for (i in 1N) medias[i]= mean(runif(n 3-3sqrt(3) 3+3sqrt(3)))
hist(medias xlim=c(-610) ylim=yl freq=F main=titulo)
x=seq(-610 02)
points(x dnorm(x 3 3sqrt(1n) ) type=l lwd=3)
medias
Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com
as simulaccedilotildees - Uniforme
grap cso
par(mfrow=c(33) mai=c(3411))
tclunif(1titulo=n=1yl=c(06))
tclunif(2titulo=n=2yl=c(06))
tclunif(3titulo=n=3yl=c(06))
tclunif(4titulo=n=4yl=c(06))tclunif(5titulo=n=5yl=c(06))
tclunif(6titulo=n=6yl=c(06))
tclunif(10titulo=n=10yl=c(06))
tclunif(15titulo=n=15yl=c(06))
tclunif(20titulo=n=20yl=c(06))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3361
X2=c(rnorm(35011) rnorm(15081)) X2 eacute a Populaccedilatildeo de onde retiramos as amostras
br=seq(-2 12 5)
tcl2modas=function(nN=200titulo= yl=c(0 6)) medias=numeric(N)for (i in 1N) medias[i]= mean(sample(X2nrep=T))hist(mediasbreaks=br xlim=c(-212) tcl=-01 ylim=yl xarp=c(-31216)
tck=005 lab=c(5515) freq=F main=titulo)x=seq(-312 02)
Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com
as simulaccedilotildees - Mistura de Normais
points(x dnorm(x med dpsqrt(n) ) type=l lwd=2)
par(mfrow=c(24) mai=c(3011) mar=c(2 2 2 1))
hist(X2 freq=F breaks=seq(-3125) bty=o xlim=c(-212)xarp=c(-31216)tck=005 lab=c(5515) ylim=c(06) main=POPULACcedilAtildeO lwd=2)
tcl2modas(2titulo=n=2)tcl2modas(3titulo=n=3)
tcl2modas(4titulo=n=4)
tcl2modas(5titulo=n=5)
tcl2modas(10titulo=n=10)
tcl2modas(15titulo=n=15)
tcl2modas(25titulo=n=25)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3461
CAP 3-a) Intervalo de ConfianccedilaSeja um estimador pontual do paracircmetro eacute uma variaacutevel aleatoacuteria que varia deamostra para amostra Por isso haacute uma certa dose de incerteza inerente a esse processode estimaccedilatildeo Nosso objetivo agora eacute obter com base nos dados amostrais (da uacutenicaamostra observada) um intervalo ao qual o valor correto do paracircmetro deve ter grandechance de pertencer
bull Detalhando um pouco mais No processo de estimaccedilatildeo por intervalo de um paracircmetro θdevemos determinar um intervalo que contenha o verdadeiro valor do paracircmetro comprobabilidade 1-α onde α eacute um pequeno valor preacute-fixado Este intervalo eacute construiacutedo emgeral em torno do estimador pontual considerando uma margem de erro d de forma aque uma vez fixada a probabilidade 1-α calculemos d tal que P( - d le θ le + d ) = 1 -αChama-se intervalo de confianccedila para θ ao niacutevel 1 - α ao intervalo [ - d + d]
θ $θ
$θ$θ
$θ $θ
$
θ
bull Ou seja o estimador pontual eacute o centro do Intervalo de Confianccedila e o erro absoluto dassociado a define a amplitude desse intervalo O que eacute de fato variaacutevel aleatoacuteria satildeoos extremos do intervalo O paracircmetro tem valor desconhecido natildeo aleatoacuterio (fixo a ser estimado)
Exemplo Intervalo de Confianccedila para a meacutedia populacional com o desvio padratildeo conhecidoO paracircmetro a estimar eacute a meacutedia populacional micro A estimaccedilatildeo seraacute baseada em X1 X2 Xn
uma amostra aleatoacuteria com E(Xi) = micro e var(Xi) = σ2 para todo i = 12 n Queremos que seja
vaacutelida a expressatildeo o que equivale a P [ -d le -micro le d] = 1-α
$θ
X[ ] α1dmicroXP minus=leminus
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3561
bull Lembrando que para n suficientemente grande pelo Teorema Central do Limite a meacutediaamostral segue uma distribuiccedilatildeo que se aproxima da Normal(micromicromicromicro σσσσ2 n) (ou eacute exatamente aNormal(micromicromicromicro σσσσ2 n) no caso em que a distribuiccedilatildeo comum das va Xirsquos jaacute eacute Normal) entatildeo
P [-d le -micromicromicromicro le d] = 1-α rArr 1-α = P [ |Z| le ] Logo d =
bull Faremos uma simulaccedilatildeo para a construccedilatildeo de Intervalos de Confianccedila com 100 amostras dedois tipos de populaccedilatildeo Normal e Exponencial A lista de comandos do R que usamos eacute
ICN = function (N n mu sigma = 3 conf)
plot(0 0 type=n xlim=c(010) ylim=c(0N) bty=l
xlab=Normal ylab=amostras)abline(v=mu)
CAP 3-a) Intervalo de Confianccedila
X
nσ
d
minus
z0 = qnorm(1-((1-conf)2))
sigmaxbarra = sigmasqrt(n)
for (i in 1N)
x = rnorm(n mu sigma)
media = mean(x)
li = media - z0 sigmaxbarrals = media + z0 sigmaxbarra
plotx = c(lils)
ploty = c(ii)
if (li gt mu | ls lt mu) lines(plotxploty col=red)
else lines(plotxploty)
gt ICN(100 25 3 3 95)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3661
CAP 3-a) Intervalo de Confianccedila
ICexp = function (N n lambda conf)
mu=1lambda sigma=1lambda
plot(0 0 type=n xlim=c(010) ylim=c(0N) bty=lxlab=Exponencial ylab=amostras)
abline(v= mu)
z0 = qnorm(1-((1-conf)2))
sigmaxbarra = sigmasqrt(n)
for (i in 1N)
x = rexp(nlambda) me a = mean x
li = media - z0 sigmaxbarra
ls = media + z0 sigmaxbarra
plotx = c(lils)
ploty = c(ii)
if (li gt mu | ls lt mu) lines(plotx ploty col=red)
else lines(plotx ploty)
gt ICexp(100 25 13 95)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3761
CAP 3-b Teste de Hipoacuteteses (TH)O objetivo de um teste de hipoacutetese eacute avaliar a validade de uma afirmaccedilatildeo sobre determinada
caracteriacutestica da populaccedilatildeo usando para isso os dados de uma amostra Essa caracteriacutestica eacute
representada pela va contiacutenua X cujo comportamento probabiliacutestico eacute expresso pela funccedilatildeo dedensidade f com paracircmetro Ө que tem valor desconhecido
Em um teste existem duas hipoacuteteses envolvidas H0 denominada hipoacutetese nula e H1
denominada hipoacutetese alternativa O procedimento de teste de hipoacutetese consiste em estabelecer
um criteacuterio de decisatildeo que leve a Aceitar ou Rejeitar H0 com base nos valores amostrais
A Estatiacutestica de teste eacute uma funccedilatildeo da amostra aleatoacuteria utilizada para definir o criteacuterio de
decisatildeo Estabelecer o criteacuterio de decisatildeo consiste em dividir o conjunto dos valores possiacuteveis
da estatiacutestica de teste em duas partes denominadas Regiatildeo de Aceitaccedilatildeo A e Regiatildeo de
Rejeiccedilatildeo R da hipoacutetese nula
Em um teste de hipoacutetese haacute dois tipos possiacuteveis de erro de decisatildeo
Erro I - Rejeitar H0 quando H0 eacute verdadeira
Erro II - Aceitar H0 quando H0 eacute falsaAs probabilidades de ocorrecircncia dos erros satildeo α = P [ Erro I ] e β = P [ Erro II]
A probabilidade de erro I α eacute o niacutevel de significacircncia do teste cujo valor eacute arbitrado pelo
pesquisador deve ser pequena pois corresponde a probabilidade de um erro (005 ou 001)
O niacutevel criacutetico ou p-valor do teste eacute o menor valor de α para o qual ainda rejeitariacuteamos H0 de
acordo com os dados observados
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3861
CAP 3-b) ndash TH teste tttest(x y = NULL alternative = c(twosided less greater) mu = 0
paired = FALSE varequal = FALSE conflevel = 095 )
Procedimentos de teste de hipoacuteteses com niacutevel de significacircncia α e amostras de tamanho n
UmaAmostra
DuasAmostras
Obs Os testes acima satildeo bilaterais
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3961
CAP 3ndashb) TH exemplo de teste t ndash amostras independentespag233- teste t amostras independente - comparaccedilatildeo log(salaacuterio)
entre os grupos de comeacutercio e de serviccedilo
LogSal=c(1289156912501344145616361573171309060903
0977122011031069128714101496131113371366
1227119114591280115217401649176524101701
1538192419251721154918911534163812071682
120614232010143112651570)
Sal=exp(LogSal)
setor= c(rep(C23) rep(S23))
ttest(Sal[setor==C] Sal[setor==S] varequal=T)
Two Sample t-test
data Sal[setor == C] and Sal[setor == S]
t = -36822 df = 44 p-value = 00006289
alternative hypothesis true difference in means is not equal to 095 percent confidence interval
-23079005 -06751838
sample estimates
mean of x mean of y3786010 5277552
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4061
CAP 3ndashb) TH exemplo de teste t ndash amostra pareadapag237- teste t pareado
P1=c(6315596455545480598065203660986853
8765647785536980827184605572645564)
P2=c(3638306043466455604343523428837155
8238556767443459605968506254473652)
ttest(P1 P2 alt=greater paired = T)
Paired t-test
data P1 and P2
t = 44176 df = 33 p-value = 5072e-05
alternative hypothesis true difference in means is greater than 0
95 percent confidence interval
0716695 Inf
sample estimates
mean of the differences
1161765
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4161
CAP 3ndashb) TH exemplo de teste Quiquadrado chisqtest
pag233- teste Quiquadrado -
tcont=matrix(c(683585251530258 7461761220225) 72)
chisqtest(tcont)
Pearsons Chi-squared test
data tcont- = = - lt -
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4261
CAP 3ndashb) TH exemplo de teste Quiquadrado chisqtestaov(formula data = NULL )
pag244- ANOVA - Comparaccedilatildeo de trecircs raccedilotildees para suinos
A=c(444943514475425134305342453630
322133421040395246294247453959)
B=c(343640545953445432686954414647
6566455739)
C=c(574040364566395025212927283942
21304143294244582849)
aumentoP=c(ABC)
racao=c(rep(A30)rep(B20) rep(C25))
summaryaov(aov(aumentoP ~ racao))
Df Sum Sq Mean Sq F value Pr(gtF)racao 2 15385 7693 56136 0005425
Residuals 72 98666 1370
---
Signif codes 0 lsquorsquo 0001 lsquorsquo 001 lsquorsquo 005 lsquorsquo 01 lsquo rsquo 1
Warning message
In modelmatrixdefault(mt mf contrasts)
variable racao converted to a factor
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4361
ApecircndicesA-1) Apresentaremos aqui algumas figuras
feitas no R na elaboraccedilatildeo do livro
Achamos que o exame desses coacutedigos acompanhado dos resultados podeser um bom aprendizado um exerciacutecio ou talvez uma recordaccedilatildeo do materialaqui exposto
A-2) Resumo de comandosa) Criaccedilatildeo de dados
b) Informaccedilatildeo de uma Variaacutevel
c) Seleccedilatildeo de dados e manipulaccedilatildeo
d) Estatiacutesticas e operaccedilotildees matemaacuteticas
e) Corte e extraccedilatildeo de dados
f) Operaccedilatildeo com Matrizes
g) Graacuteficos (Plotting)
h) Teste de hipoacuteteses
i) Programming
j) Commandos auxiliaries em Graacuteficos
k) Comando par (Graphical parameters)
l) Input and output
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4461
A1) ndash Pag 14 ndash Figura 15
IDADE=c(616961716371726866697267636663636067716360696463667164706366646969646372736871726968687379)
IMC= c(245273281301254301280234268228255228235232203226239243271227237258213243243248219234216214221227227211268278275267286253239258247284235)
par(mfrow=c(12))hist(IDADE breaks=c(6065707580) ylim=c(020) ylab=Nuacutemero de Observaccedilotildees
main= col=grey right = F)hist(IMC breaks=c(200225250275300325)
ylab=Nuacutemero de Observaccedilotildeesmain= col=grey right = F )
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4561
A1) ndash Pag 44 ndash Figura 21
mat=matrix(c(81823913601818608740)32)
rownames(mat)=c(AtivaSedentaacuteriaTotal)colnames(mat)=c(NormalSobrepeso)barplot(t(mat) beside = TRUE space=c(315)
col=gray(c(79))legend = c(NormalSobrepeso) ylim = c(0 95) ylab= - percentagem)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4661
A1) ndash Pag 48 ndash Figura 22
mat= matrix(c(68154510 66214215 66242519 39161711)44byrow=T)
rownames(mat)=c(18 a 21 anos 22 a 25 anos 26 a 30 anos 31 a 40 anos)colnames(mat)=c(CinTeatSMDEx)mat1=mat for (i in 14) mat1[i]lt-mat1[i]100sum(mat1[i]) par(mfrow=c(12) mai=c(1111) mar=c(5 4 2 2) )barplot(matbeside=F ylim=c(0250) legend = c(18 a 21 anos 22 a 25 anos
26 a 30 anos 31 a 40 anos) xlab=Contagem)
barplot(mat1 beside=F xlab=Percentagem)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4761
A1) ndash Pag 52 ndash Figura 25X= c(184114821789235159118762592403190408372147328526471687
09642871437079238215753399242122530314859149806)y =c(01837012540193301620014230140604568022870231400861019960235302186012798991801254018210244160823
0147764068011818941403474539680150133247023685518102146187520214097090257291227
036282905401406510810113849399)plot(x y xlim=c(07) ylim=c(05) pch=16 bty=l xlab=Renda per capita
ylab=Telefonia Fixa per capita)
abline(lsfit(xy))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4861
A1) ndash Pag 109 ndash Figura 45
x=020
y1=dpois(x1) y2=dpois(x3) y3=dpois(x10)names(y1)=x names(y2)=x names(y3)=xpar(mfrow=c(13))plot(y1ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=1)plot(y2ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=3)plot(y3ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=10)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4961
A1) ndash Pag 118 ndash Figura 412
x=seq(010001)
plot(xdexp(x 12) type=l xlim=c(012) ylim=c(01) bty=l ylab=f(x) eF(x))for(i in seq(0 25 001)) segments(i 0 i dexp(i12) col=lightgrey)abline(v=0 h=0)points(xdexp(x 12) type=l lwd=2 bty=l)points(xpexp(x 12) lwd=2 type=l)segments(250 25pexp(2512))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5061
A1) ndash Pag 163 ndash Figura 68
plot(p xlim=c(618) ylim=c(016) type=n bty=l xaxt=n xlab= ylab=
cexaxis=6)for (i in 1015) rect(i-50 i+5 dbinom(i304) col=lightgrey) lty=2)segments(i0idbinom(i304) lty=2)
x=seq(61801) lines(x dnorm(x12sqrt(72)) lwd=2)x=seq(61801) lines(x dnorm(x12sqrt(72)) lwd=2)
axis(1 916 cexaxis=9) ax s seq cexax s=
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5161
A1) ndash Pag 198 ndash Figura 78
x1=seq(-4402)plot(x1dnorm(x1) type=l lwd=3 xlab= ylab= )lines(x1 dt(x11)) lines(x1 dt(x12)) lines(x1 dt(x15))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5261
A2ndashResumo de comandos
a)Criaccedilatildeo de dados
c()funccedilatildeo geneacuterica para combinar argumentos com o formando de um vetor fromto gera uma sequecircnce ldquordquo tem prioridade de operator pe13 + 1 is ldquo234rdquo
seq(fromtoby) gera uma sequecircncia by= especifica incremento
length= especifica um comprimento desejado
rep(xtimes) replicate x onuacutemero times de vezes use each= para repetir cada
elemento de x rep(c(123)2) gera 1 2 3 1 2 3 rep(c(12)each=2) gera 1 1 2 2
matrix(xnrow=ncol=) matrix elementos de x se reciclam caso x
rbind()combina vetores em linhas num estrutura de matrizes de dados
cbind()combina vetores em colunas num estrutura de matrizes de dados
array(xdim=) matriz com dados x especificar dimensotildees como dim=c(342)
elementos de x se reciclam caso x natildeo seja suficientemente grande
factor(xlevels=) codifica um vetor x como um fator gl(nklength=nklabels=1n) gerar niacuteveis (fatores) especificando
o padratildeo de seus niacuteveis k eacute o nuacutemero de niacuteveis e n eacute o nuacutemero de repeticcedilotildees
dataframe() criar um banco de dados Por exemplo
dataframe(v=14ch=c(gBcasad)n=5)
list()criar uma lista de argumentos Por exemplo list(a=c(12)b=hic=3i)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5361
A2ndashResumo de comandos
b) Informaccedilatildeo de uma Variaacutevellength(x) nuacutemero de elementos em x
dim(x) Obter ou definir a dimensatildeo de um objeto dim (x) = c(32)dimnames(x) Obter ou definir os nomes das dimensotildees de um objeto
nrow(x) nuacutemero de linhas
ncol(x) nuacutemero de colunas
c) Seleccedilatildeo de dados e manipulaccedilatildeochoose(n k) calcula a combinaccedilatildeo de elementos escolhidos entre n
resultando n [(n-k) k]
cut(xbreaks) divide x em intervalos (fatores) breaks eacute o nuacutemero de intervalos de
corte ou um vetor com os valores especiacuteficos
table(x) retorna uma tabela com as quantidades dos diferentes valores de x
(tipicamente para variaacuteveis dos tipos inteiros ou fatores)
sample(x size) retira aleatoriamente com e sem reposiccedilatildeo elementos detamanho SIZE do vetor x a opccedilatildeo replace = TRUE permite a retirada com reposiccedilatildeo
proptable(xmargin=) transforma a tabela como tabela de propoccedilatildeo
marginal margin=1 (com relaccedilatildeo as linhas) margin=2 (com relaccedilatildeo as colunas)
sort(x) Classifica os elementos de x em ordem crescente para classificar em ordem
decrescente rev(sort(x))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5461
A2ndashResumo de comandosd) Estatiacutesticas e operaccedilotildees matemaacuteticasmean(x) media dos elementos de x
median(x) mediana dos elementos de x
quantile(xprobs=) quantis de x correspondendo a uma dada probabilidadevar(x) ou cov(x) variacircncia dos elementos de x (calculado com n-1)
se x eacute uma matriz a matriz de covariacircncia eacute calculada
sd(x) desvio padracirco de of x
cor(x) matriz de correlaccedilatildeo de x se x for uma matriz ou (1 se x eacute um vector)
cor(x y) correlaccedilatildeo linear entre X e Y ou matriz de correlaccedilatildeo se eles satildeo matrizes
round(x n) arredonda os elementos de x para n casas decimais sum x soma os e emen os e x
prod(x) multilica os elementos de x
max(x) acha o maacuteximo dos elementos de x
min(x) acha o miacutenimo dos elementos de x
range(x) equivalente a c(min(x)max(x)
cumsum(x) um vetor onde o eacutesimo elemento eacute a soma de x[1] ateacute x[i]cumprod(x) um vetor onde o eacutesimo elemento eacute o produto de x[1] ateacute x[i]
cummin(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
cummax(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
sincostanasinacosatanatan2loglog10exp)
log(x base) calcula o logaritmo de x na base=base
weightedmean(x w) media ponderada de x com peso= w
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5561
A2ndashResumo de comandos
e) Corte e extraccedilatildeo de dadosindexaccedilatildeo de Vetores
x[n] n-eacutesimo elemento do vetor
x[-n] todos menos o n-eacutesimo elemento
x[1n] os primeiros n elemento
x[-(1n)] elementos de n+1 ateacute o final
x[c(432)] elementos especificados
x[y gt 5] todo elementos de onde os valores de y satildeo maiores que 5
x x gt 3 amp x lt 5 todo elementos entre 3 e 5
x[nome] elemento denominado nome
indexaccedilatildeo de Matrizes
x[ij] elemento na linha i coluna j
x[i] linha i
x[j] coluna j
x[c(13)] colunas 1 and 3
x[nome] linha nomeada nome
indexaccedilatildeo de data frames
x[[nome]] coluna chamada nome
x$nome equivalente a coluna chamada nome
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5661
A2ndashResumo de comandos
f) Operaccedilatildeo com Matrizest(x) transposta da matrix x
diag(x) retira a diagonal da matrix x
multiplicaccedilatildeo matricial
solve(ab) resove a equaccedilatildeo a x = b em relaccedilatildeo a x
solve(a) matriz inversa de a
rowSum(x) soma das linhas da matrix x
colSum(x) soma das colunas da matrix x
rowMeans x meacutedia das linhas da matrix x
colMeans(x) id meacutedia das colunas da matrix x
g) Graacuteficos (Plotting)plot(x y) diagrama de disperccedilatildeo plot dos pares (xy) num sistema de eixos
coordenadoshist(x) histogram dasfrequecircncias of x
barplot(x) graacutefico de barras of x usar horiz=T ara barras horizontal
pie(x) graacutefico de setores (pie-chart)
boxplot(x)
qqnorm(x) quantis de x em relaccedilatildeo aos valores esperados de uma dist Normal
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5761
A2ndashResumo de comandosparametros dos commando de Graacutefico
type=p especifica o tipo de plot p pontos l linhas b pontos
ligados por linhas o idecircntico mas as linhas passam sobre os pontos h
linhas verticais s escada (steps) os dados satildeo representados pelas alturasverticais
xlim= ylim= especifica os limites inferiores e superiores dos eixos por exemplocom xlim=c(1 10) ou xlim=range(x)
xlab= ylab= nomeia os eixos o nome deve ser do tipo caracter
main= tiacutetulo principal deve ser do tipo caracter
sub= sub-tiacutetulo (escrito em fonte menor)
podem ser usados como bty(tipo de caixa) lwd (lagura da linha) lty (tipo delinha) pch(tipo de ponto) cex xaxs yaxs xaxtyaxt
h) Teste de hipoacuteteses
ttest()proptest()
chisqtest()
aov(formula) analysis of variance model
anova(fit) analysis of variance (or deviance) tables for one or more
fitted model objects
Use o commando gt test para procurar todos os testes disponiacuteveis
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5861
A2ndashResumo de comandos
i) Programmingfunction( arglist ) expr para definer uma funccedilatildeo
return(value)
if(cond) expr
if(cond) consexpr else altexpr
for(var in seq) expr
while(cond) expr
re eat ex r
break
Usar chaves entre commandos dlimitando o iniacutecio e o fim de um grupo decomandos
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5961
A2ndashResumo de comandos
j) Commandos auxiliaries em Graacuteficospoints(x y) adiciona pontos (a opccedilatildeo type= pode ser usada)
lines(x y) adiciona linhas (a opccedilatildeo type= pode ser usada)text(x y labels ) adiciona texto na coordenada (xy) um uso tiacutepico eacute
plot(x y type=n) text(x ynames)
segments(x0 y0 x1 y1) desenha linhas do ponto (x0 y0) ao (x1 y1)
arrows(x0 y0 x1 y1 angle= 30 code=2) desenha seta do ponto
(x0 y0) ao (x1 y1)
abline(ab) desenha uma reta de inclinaccedilatildeo b e intercepto a
abline(v=x) desenha uma reta vertical em x
abline(lsfit(xy)) desenha uma reta da regressatildeo feita em lsfit(xy)
rect(x1 y1 x2 y2) desenha um retacircngulo que a esquerda inferior tem coordenadas(x1 y1) e o limite da direita superiores (x2 y2)
polygon(x y) desenha um poliacutegono que une os pontos com coordenadas X e Y
legend(x y legend) Acrescenta a lenda no ponto (x y) com os siacutembolos
dada pela legend
title()adiciona um tiacutetulo e opcionalmente um sub-tiacutetulo
axis(side) acrescenta um eixo na parte inferior (side = 1) agrave esquerda (2) na partesuperior (3) ou agrave direita (4)
box()desenhar uma caixa em torno do plot
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6061
A2ndashResumo de comandos
k) Comando par (Graphical parameters)Todos estes comando podem ser definidos a niacutevel global com o par () que
especifica os paracircmetros mas tambeacutem muitos podem ser usados comoparametros dos commando de Graacutefico
mfcol vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em colunas
mfrow vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em linhas(matrix for row)
bty controla o tipo de caixa desenhada ao redor do enredo valores permitidos satildeo
o l 7 c u ou se bt =n a caixa natildeo eacute desenhada
lty controla o tipo de linhas pode ser um inteiro ou string (1 solid 2 dashed 3dotted 4 dotdash 5 longdash 6twodash) ou uma string de ateacuteoito caracteres (entre 0 e 9) que especifica o comprimento em pontos oupixels dos elementos desenhados e os espaccedilos em branco por exemplolty=rdquo44rdquo equivale a lty=2
lwd nuacutemero que controla a largura das linhas default 1pch controla o tipo de siacutembolo pode tambeacutem ser um nuacutemero inteiro entre 1 e 25
ps um inteiro que controla o tamanho em pontos de textos e siacutembolos
pty um caracter que especifica o tipo da regiatildeo s quadrado m maacuteximal
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6161
A2ndashResumo de comandos
l) Input and outputreadtable(file) lecirc um arquivo em formato de tabela e cria um quadro de dados a
partir dele o separador default = eacute espaccedilo em branco header = TRUE ler a
primeira linha como um cabeccedilalho de nomes de coluna asis = TRUE paraevitar aque um vetore de caracteres seja convertido em factores usocommentchar = para evitar seja interpretado como um comentaacuteriouso skip = n para pular n linhas antes da leitura de dados consulte a ajudapara as opccedilotildees de linha de nomeaccedilatildeo o tratamento NA e outros
readcsv(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por viacutergulas
readdelim(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por tabulaccedilotildees
readfwf(filewidthsheader=FALSEsep= asis=FALSE)
ler uma tabela de dados em formato fix de largura m para um dataframe widthseacute um vetor inteiro informando os tamanhos dos campos
sink(file) saiacuteda de todos os comandos para um arquivo ateacute aparecer um comando
sink () que desliga writetable(x file=rownames=Tcolnames=Tsep= ) imprime x apoacutes a
conversatildeo para banco de dados
save(file) guarda os objetos especificados () no formato XDR
load()carregar o conjunto de dados salvos com o comando save
data(x) carrega um conjunto de dados especificado
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 2961
Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com
simulaccedilotildees - Exponencial
Uma pergunta natural neste ponto serialdquoQuatildeo grande deve ser n para que possamos usar a aproximaccedilatildeo fornecida pelo
TCL com um niacutevel de precisatildeo aceitaacutevelrdquo
A rapidez com que essa convergecircncia se daacute depende de quatildeo distante estaacute a forma
da distribuiccedilatildeo original das Xirsquos de uma curva Normal Em outras palavras se a
distribuiccedilatildeo das Xirsquos jaacute natildeo for muito diferente de uma Normal com um n natildeo muito-
grande (usualmente n ge 30) a aproximaccedilatildeo da distribuiccedilatildeo de por uma Normal
funcionaria adequadamente
No exemplo a seguir vamos apresentar esse fenocircmeno a saber a convergecircncia da
distribuiccedilatildeo de para uma Normal agrave medida que n cresce gerando por simulaccedilatildeo osdados originais a partir de diferentes modelos probabiliacutesticos Em todos os casos a
distribuiccedilatildeo original eacute bem diferente da Normal E(X)=3 e DP(X)=3 No que se refere agrave
Simulaccedilatildeo foi seguida a mesma sequumlecircncia de passos do exemplo anterior
Xn
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3061
Cap 2-c ndash TCL Exemplo
Exponencial
Uniforme
Mistura deNormais
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3161
Como se pode observar
1 No caso da distribuiccedilatildeo uniforme (A) o histograma de jaacute se aproximabastante de uma Normal quando n eacute da ordem de 4
2 Jaacute no caso da distribuiccedilatildeo Exponencial (B) e da mistura de normais
(C) modelos esses que se afastam muito mais de umldquo rdquo
Cap 2-c ndash TCL Exemplo
mostra mais adequada a partir de n em torno de 10
3 No caso do modelo em (C) agrave medida que n cresce tudo se passacomo se houvesse a ldquoerupccedilatildeo de um vulcatildeo dentro do valerdquo
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3261
tclunif=function(nN=100titulo= yl=c(0 4))
medias=numeric(N)for (i in 1N) medias[i]= mean(runif(n 3-3sqrt(3) 3+3sqrt(3)))
hist(medias xlim=c(-610) ylim=yl freq=F main=titulo)
x=seq(-610 02)
points(x dnorm(x 3 3sqrt(1n) ) type=l lwd=3)
medias
Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com
as simulaccedilotildees - Uniforme
grap cso
par(mfrow=c(33) mai=c(3411))
tclunif(1titulo=n=1yl=c(06))
tclunif(2titulo=n=2yl=c(06))
tclunif(3titulo=n=3yl=c(06))
tclunif(4titulo=n=4yl=c(06))tclunif(5titulo=n=5yl=c(06))
tclunif(6titulo=n=6yl=c(06))
tclunif(10titulo=n=10yl=c(06))
tclunif(15titulo=n=15yl=c(06))
tclunif(20titulo=n=20yl=c(06))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3361
X2=c(rnorm(35011) rnorm(15081)) X2 eacute a Populaccedilatildeo de onde retiramos as amostras
br=seq(-2 12 5)
tcl2modas=function(nN=200titulo= yl=c(0 6)) medias=numeric(N)for (i in 1N) medias[i]= mean(sample(X2nrep=T))hist(mediasbreaks=br xlim=c(-212) tcl=-01 ylim=yl xarp=c(-31216)
tck=005 lab=c(5515) freq=F main=titulo)x=seq(-312 02)
Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com
as simulaccedilotildees - Mistura de Normais
points(x dnorm(x med dpsqrt(n) ) type=l lwd=2)
par(mfrow=c(24) mai=c(3011) mar=c(2 2 2 1))
hist(X2 freq=F breaks=seq(-3125) bty=o xlim=c(-212)xarp=c(-31216)tck=005 lab=c(5515) ylim=c(06) main=POPULACcedilAtildeO lwd=2)
tcl2modas(2titulo=n=2)tcl2modas(3titulo=n=3)
tcl2modas(4titulo=n=4)
tcl2modas(5titulo=n=5)
tcl2modas(10titulo=n=10)
tcl2modas(15titulo=n=15)
tcl2modas(25titulo=n=25)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3461
CAP 3-a) Intervalo de ConfianccedilaSeja um estimador pontual do paracircmetro eacute uma variaacutevel aleatoacuteria que varia deamostra para amostra Por isso haacute uma certa dose de incerteza inerente a esse processode estimaccedilatildeo Nosso objetivo agora eacute obter com base nos dados amostrais (da uacutenicaamostra observada) um intervalo ao qual o valor correto do paracircmetro deve ter grandechance de pertencer
bull Detalhando um pouco mais No processo de estimaccedilatildeo por intervalo de um paracircmetro θdevemos determinar um intervalo que contenha o verdadeiro valor do paracircmetro comprobabilidade 1-α onde α eacute um pequeno valor preacute-fixado Este intervalo eacute construiacutedo emgeral em torno do estimador pontual considerando uma margem de erro d de forma aque uma vez fixada a probabilidade 1-α calculemos d tal que P( - d le θ le + d ) = 1 -αChama-se intervalo de confianccedila para θ ao niacutevel 1 - α ao intervalo [ - d + d]
θ $θ
$θ$θ
$θ $θ
$
θ
bull Ou seja o estimador pontual eacute o centro do Intervalo de Confianccedila e o erro absoluto dassociado a define a amplitude desse intervalo O que eacute de fato variaacutevel aleatoacuteria satildeoos extremos do intervalo O paracircmetro tem valor desconhecido natildeo aleatoacuterio (fixo a ser estimado)
Exemplo Intervalo de Confianccedila para a meacutedia populacional com o desvio padratildeo conhecidoO paracircmetro a estimar eacute a meacutedia populacional micro A estimaccedilatildeo seraacute baseada em X1 X2 Xn
uma amostra aleatoacuteria com E(Xi) = micro e var(Xi) = σ2 para todo i = 12 n Queremos que seja
vaacutelida a expressatildeo o que equivale a P [ -d le -micro le d] = 1-α
$θ
X[ ] α1dmicroXP minus=leminus
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3561
bull Lembrando que para n suficientemente grande pelo Teorema Central do Limite a meacutediaamostral segue uma distribuiccedilatildeo que se aproxima da Normal(micromicromicromicro σσσσ2 n) (ou eacute exatamente aNormal(micromicromicromicro σσσσ2 n) no caso em que a distribuiccedilatildeo comum das va Xirsquos jaacute eacute Normal) entatildeo
P [-d le -micromicromicromicro le d] = 1-α rArr 1-α = P [ |Z| le ] Logo d =
bull Faremos uma simulaccedilatildeo para a construccedilatildeo de Intervalos de Confianccedila com 100 amostras dedois tipos de populaccedilatildeo Normal e Exponencial A lista de comandos do R que usamos eacute
ICN = function (N n mu sigma = 3 conf)
plot(0 0 type=n xlim=c(010) ylim=c(0N) bty=l
xlab=Normal ylab=amostras)abline(v=mu)
CAP 3-a) Intervalo de Confianccedila
X
nσ
d
minus
z0 = qnorm(1-((1-conf)2))
sigmaxbarra = sigmasqrt(n)
for (i in 1N)
x = rnorm(n mu sigma)
media = mean(x)
li = media - z0 sigmaxbarrals = media + z0 sigmaxbarra
plotx = c(lils)
ploty = c(ii)
if (li gt mu | ls lt mu) lines(plotxploty col=red)
else lines(plotxploty)
gt ICN(100 25 3 3 95)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3661
CAP 3-a) Intervalo de Confianccedila
ICexp = function (N n lambda conf)
mu=1lambda sigma=1lambda
plot(0 0 type=n xlim=c(010) ylim=c(0N) bty=lxlab=Exponencial ylab=amostras)
abline(v= mu)
z0 = qnorm(1-((1-conf)2))
sigmaxbarra = sigmasqrt(n)
for (i in 1N)
x = rexp(nlambda) me a = mean x
li = media - z0 sigmaxbarra
ls = media + z0 sigmaxbarra
plotx = c(lils)
ploty = c(ii)
if (li gt mu | ls lt mu) lines(plotx ploty col=red)
else lines(plotx ploty)
gt ICexp(100 25 13 95)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3761
CAP 3-b Teste de Hipoacuteteses (TH)O objetivo de um teste de hipoacutetese eacute avaliar a validade de uma afirmaccedilatildeo sobre determinada
caracteriacutestica da populaccedilatildeo usando para isso os dados de uma amostra Essa caracteriacutestica eacute
representada pela va contiacutenua X cujo comportamento probabiliacutestico eacute expresso pela funccedilatildeo dedensidade f com paracircmetro Ө que tem valor desconhecido
Em um teste existem duas hipoacuteteses envolvidas H0 denominada hipoacutetese nula e H1
denominada hipoacutetese alternativa O procedimento de teste de hipoacutetese consiste em estabelecer
um criteacuterio de decisatildeo que leve a Aceitar ou Rejeitar H0 com base nos valores amostrais
A Estatiacutestica de teste eacute uma funccedilatildeo da amostra aleatoacuteria utilizada para definir o criteacuterio de
decisatildeo Estabelecer o criteacuterio de decisatildeo consiste em dividir o conjunto dos valores possiacuteveis
da estatiacutestica de teste em duas partes denominadas Regiatildeo de Aceitaccedilatildeo A e Regiatildeo de
Rejeiccedilatildeo R da hipoacutetese nula
Em um teste de hipoacutetese haacute dois tipos possiacuteveis de erro de decisatildeo
Erro I - Rejeitar H0 quando H0 eacute verdadeira
Erro II - Aceitar H0 quando H0 eacute falsaAs probabilidades de ocorrecircncia dos erros satildeo α = P [ Erro I ] e β = P [ Erro II]
A probabilidade de erro I α eacute o niacutevel de significacircncia do teste cujo valor eacute arbitrado pelo
pesquisador deve ser pequena pois corresponde a probabilidade de um erro (005 ou 001)
O niacutevel criacutetico ou p-valor do teste eacute o menor valor de α para o qual ainda rejeitariacuteamos H0 de
acordo com os dados observados
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3861
CAP 3-b) ndash TH teste tttest(x y = NULL alternative = c(twosided less greater) mu = 0
paired = FALSE varequal = FALSE conflevel = 095 )
Procedimentos de teste de hipoacuteteses com niacutevel de significacircncia α e amostras de tamanho n
UmaAmostra
DuasAmostras
Obs Os testes acima satildeo bilaterais
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3961
CAP 3ndashb) TH exemplo de teste t ndash amostras independentespag233- teste t amostras independente - comparaccedilatildeo log(salaacuterio)
entre os grupos de comeacutercio e de serviccedilo
LogSal=c(1289156912501344145616361573171309060903
0977122011031069128714101496131113371366
1227119114591280115217401649176524101701
1538192419251721154918911534163812071682
120614232010143112651570)
Sal=exp(LogSal)
setor= c(rep(C23) rep(S23))
ttest(Sal[setor==C] Sal[setor==S] varequal=T)
Two Sample t-test
data Sal[setor == C] and Sal[setor == S]
t = -36822 df = 44 p-value = 00006289
alternative hypothesis true difference in means is not equal to 095 percent confidence interval
-23079005 -06751838
sample estimates
mean of x mean of y3786010 5277552
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4061
CAP 3ndashb) TH exemplo de teste t ndash amostra pareadapag237- teste t pareado
P1=c(6315596455545480598065203660986853
8765647785536980827184605572645564)
P2=c(3638306043466455604343523428837155
8238556767443459605968506254473652)
ttest(P1 P2 alt=greater paired = T)
Paired t-test
data P1 and P2
t = 44176 df = 33 p-value = 5072e-05
alternative hypothesis true difference in means is greater than 0
95 percent confidence interval
0716695 Inf
sample estimates
mean of the differences
1161765
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4161
CAP 3ndashb) TH exemplo de teste Quiquadrado chisqtest
pag233- teste Quiquadrado -
tcont=matrix(c(683585251530258 7461761220225) 72)
chisqtest(tcont)
Pearsons Chi-squared test
data tcont- = = - lt -
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4261
CAP 3ndashb) TH exemplo de teste Quiquadrado chisqtestaov(formula data = NULL )
pag244- ANOVA - Comparaccedilatildeo de trecircs raccedilotildees para suinos
A=c(444943514475425134305342453630
322133421040395246294247453959)
B=c(343640545953445432686954414647
6566455739)
C=c(574040364566395025212927283942
21304143294244582849)
aumentoP=c(ABC)
racao=c(rep(A30)rep(B20) rep(C25))
summaryaov(aov(aumentoP ~ racao))
Df Sum Sq Mean Sq F value Pr(gtF)racao 2 15385 7693 56136 0005425
Residuals 72 98666 1370
---
Signif codes 0 lsquorsquo 0001 lsquorsquo 001 lsquorsquo 005 lsquorsquo 01 lsquo rsquo 1
Warning message
In modelmatrixdefault(mt mf contrasts)
variable racao converted to a factor
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4361
ApecircndicesA-1) Apresentaremos aqui algumas figuras
feitas no R na elaboraccedilatildeo do livro
Achamos que o exame desses coacutedigos acompanhado dos resultados podeser um bom aprendizado um exerciacutecio ou talvez uma recordaccedilatildeo do materialaqui exposto
A-2) Resumo de comandosa) Criaccedilatildeo de dados
b) Informaccedilatildeo de uma Variaacutevel
c) Seleccedilatildeo de dados e manipulaccedilatildeo
d) Estatiacutesticas e operaccedilotildees matemaacuteticas
e) Corte e extraccedilatildeo de dados
f) Operaccedilatildeo com Matrizes
g) Graacuteficos (Plotting)
h) Teste de hipoacuteteses
i) Programming
j) Commandos auxiliaries em Graacuteficos
k) Comando par (Graphical parameters)
l) Input and output
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4461
A1) ndash Pag 14 ndash Figura 15
IDADE=c(616961716371726866697267636663636067716360696463667164706366646969646372736871726968687379)
IMC= c(245273281301254301280234268228255228235232203226239243271227237258213243243248219234216214221227227211268278275267286253239258247284235)
par(mfrow=c(12))hist(IDADE breaks=c(6065707580) ylim=c(020) ylab=Nuacutemero de Observaccedilotildees
main= col=grey right = F)hist(IMC breaks=c(200225250275300325)
ylab=Nuacutemero de Observaccedilotildeesmain= col=grey right = F )
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4561
A1) ndash Pag 44 ndash Figura 21
mat=matrix(c(81823913601818608740)32)
rownames(mat)=c(AtivaSedentaacuteriaTotal)colnames(mat)=c(NormalSobrepeso)barplot(t(mat) beside = TRUE space=c(315)
col=gray(c(79))legend = c(NormalSobrepeso) ylim = c(0 95) ylab= - percentagem)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4661
A1) ndash Pag 48 ndash Figura 22
mat= matrix(c(68154510 66214215 66242519 39161711)44byrow=T)
rownames(mat)=c(18 a 21 anos 22 a 25 anos 26 a 30 anos 31 a 40 anos)colnames(mat)=c(CinTeatSMDEx)mat1=mat for (i in 14) mat1[i]lt-mat1[i]100sum(mat1[i]) par(mfrow=c(12) mai=c(1111) mar=c(5 4 2 2) )barplot(matbeside=F ylim=c(0250) legend = c(18 a 21 anos 22 a 25 anos
26 a 30 anos 31 a 40 anos) xlab=Contagem)
barplot(mat1 beside=F xlab=Percentagem)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4761
A1) ndash Pag 52 ndash Figura 25X= c(184114821789235159118762592403190408372147328526471687
09642871437079238215753399242122530314859149806)y =c(01837012540193301620014230140604568022870231400861019960235302186012798991801254018210244160823
0147764068011818941403474539680150133247023685518102146187520214097090257291227
036282905401406510810113849399)plot(x y xlim=c(07) ylim=c(05) pch=16 bty=l xlab=Renda per capita
ylab=Telefonia Fixa per capita)
abline(lsfit(xy))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4861
A1) ndash Pag 109 ndash Figura 45
x=020
y1=dpois(x1) y2=dpois(x3) y3=dpois(x10)names(y1)=x names(y2)=x names(y3)=xpar(mfrow=c(13))plot(y1ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=1)plot(y2ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=3)plot(y3ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=10)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4961
A1) ndash Pag 118 ndash Figura 412
x=seq(010001)
plot(xdexp(x 12) type=l xlim=c(012) ylim=c(01) bty=l ylab=f(x) eF(x))for(i in seq(0 25 001)) segments(i 0 i dexp(i12) col=lightgrey)abline(v=0 h=0)points(xdexp(x 12) type=l lwd=2 bty=l)points(xpexp(x 12) lwd=2 type=l)segments(250 25pexp(2512))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5061
A1) ndash Pag 163 ndash Figura 68
plot(p xlim=c(618) ylim=c(016) type=n bty=l xaxt=n xlab= ylab=
cexaxis=6)for (i in 1015) rect(i-50 i+5 dbinom(i304) col=lightgrey) lty=2)segments(i0idbinom(i304) lty=2)
x=seq(61801) lines(x dnorm(x12sqrt(72)) lwd=2)x=seq(61801) lines(x dnorm(x12sqrt(72)) lwd=2)
axis(1 916 cexaxis=9) ax s seq cexax s=
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5161
A1) ndash Pag 198 ndash Figura 78
x1=seq(-4402)plot(x1dnorm(x1) type=l lwd=3 xlab= ylab= )lines(x1 dt(x11)) lines(x1 dt(x12)) lines(x1 dt(x15))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5261
A2ndashResumo de comandos
a)Criaccedilatildeo de dados
c()funccedilatildeo geneacuterica para combinar argumentos com o formando de um vetor fromto gera uma sequecircnce ldquordquo tem prioridade de operator pe13 + 1 is ldquo234rdquo
seq(fromtoby) gera uma sequecircncia by= especifica incremento
length= especifica um comprimento desejado
rep(xtimes) replicate x onuacutemero times de vezes use each= para repetir cada
elemento de x rep(c(123)2) gera 1 2 3 1 2 3 rep(c(12)each=2) gera 1 1 2 2
matrix(xnrow=ncol=) matrix elementos de x se reciclam caso x
rbind()combina vetores em linhas num estrutura de matrizes de dados
cbind()combina vetores em colunas num estrutura de matrizes de dados
array(xdim=) matriz com dados x especificar dimensotildees como dim=c(342)
elementos de x se reciclam caso x natildeo seja suficientemente grande
factor(xlevels=) codifica um vetor x como um fator gl(nklength=nklabels=1n) gerar niacuteveis (fatores) especificando
o padratildeo de seus niacuteveis k eacute o nuacutemero de niacuteveis e n eacute o nuacutemero de repeticcedilotildees
dataframe() criar um banco de dados Por exemplo
dataframe(v=14ch=c(gBcasad)n=5)
list()criar uma lista de argumentos Por exemplo list(a=c(12)b=hic=3i)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5361
A2ndashResumo de comandos
b) Informaccedilatildeo de uma Variaacutevellength(x) nuacutemero de elementos em x
dim(x) Obter ou definir a dimensatildeo de um objeto dim (x) = c(32)dimnames(x) Obter ou definir os nomes das dimensotildees de um objeto
nrow(x) nuacutemero de linhas
ncol(x) nuacutemero de colunas
c) Seleccedilatildeo de dados e manipulaccedilatildeochoose(n k) calcula a combinaccedilatildeo de elementos escolhidos entre n
resultando n [(n-k) k]
cut(xbreaks) divide x em intervalos (fatores) breaks eacute o nuacutemero de intervalos de
corte ou um vetor com os valores especiacuteficos
table(x) retorna uma tabela com as quantidades dos diferentes valores de x
(tipicamente para variaacuteveis dos tipos inteiros ou fatores)
sample(x size) retira aleatoriamente com e sem reposiccedilatildeo elementos detamanho SIZE do vetor x a opccedilatildeo replace = TRUE permite a retirada com reposiccedilatildeo
proptable(xmargin=) transforma a tabela como tabela de propoccedilatildeo
marginal margin=1 (com relaccedilatildeo as linhas) margin=2 (com relaccedilatildeo as colunas)
sort(x) Classifica os elementos de x em ordem crescente para classificar em ordem
decrescente rev(sort(x))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5461
A2ndashResumo de comandosd) Estatiacutesticas e operaccedilotildees matemaacuteticasmean(x) media dos elementos de x
median(x) mediana dos elementos de x
quantile(xprobs=) quantis de x correspondendo a uma dada probabilidadevar(x) ou cov(x) variacircncia dos elementos de x (calculado com n-1)
se x eacute uma matriz a matriz de covariacircncia eacute calculada
sd(x) desvio padracirco de of x
cor(x) matriz de correlaccedilatildeo de x se x for uma matriz ou (1 se x eacute um vector)
cor(x y) correlaccedilatildeo linear entre X e Y ou matriz de correlaccedilatildeo se eles satildeo matrizes
round(x n) arredonda os elementos de x para n casas decimais sum x soma os e emen os e x
prod(x) multilica os elementos de x
max(x) acha o maacuteximo dos elementos de x
min(x) acha o miacutenimo dos elementos de x
range(x) equivalente a c(min(x)max(x)
cumsum(x) um vetor onde o eacutesimo elemento eacute a soma de x[1] ateacute x[i]cumprod(x) um vetor onde o eacutesimo elemento eacute o produto de x[1] ateacute x[i]
cummin(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
cummax(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
sincostanasinacosatanatan2loglog10exp)
log(x base) calcula o logaritmo de x na base=base
weightedmean(x w) media ponderada de x com peso= w
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5561
A2ndashResumo de comandos
e) Corte e extraccedilatildeo de dadosindexaccedilatildeo de Vetores
x[n] n-eacutesimo elemento do vetor
x[-n] todos menos o n-eacutesimo elemento
x[1n] os primeiros n elemento
x[-(1n)] elementos de n+1 ateacute o final
x[c(432)] elementos especificados
x[y gt 5] todo elementos de onde os valores de y satildeo maiores que 5
x x gt 3 amp x lt 5 todo elementos entre 3 e 5
x[nome] elemento denominado nome
indexaccedilatildeo de Matrizes
x[ij] elemento na linha i coluna j
x[i] linha i
x[j] coluna j
x[c(13)] colunas 1 and 3
x[nome] linha nomeada nome
indexaccedilatildeo de data frames
x[[nome]] coluna chamada nome
x$nome equivalente a coluna chamada nome
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5661
A2ndashResumo de comandos
f) Operaccedilatildeo com Matrizest(x) transposta da matrix x
diag(x) retira a diagonal da matrix x
multiplicaccedilatildeo matricial
solve(ab) resove a equaccedilatildeo a x = b em relaccedilatildeo a x
solve(a) matriz inversa de a
rowSum(x) soma das linhas da matrix x
colSum(x) soma das colunas da matrix x
rowMeans x meacutedia das linhas da matrix x
colMeans(x) id meacutedia das colunas da matrix x
g) Graacuteficos (Plotting)plot(x y) diagrama de disperccedilatildeo plot dos pares (xy) num sistema de eixos
coordenadoshist(x) histogram dasfrequecircncias of x
barplot(x) graacutefico de barras of x usar horiz=T ara barras horizontal
pie(x) graacutefico de setores (pie-chart)
boxplot(x)
qqnorm(x) quantis de x em relaccedilatildeo aos valores esperados de uma dist Normal
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5761
A2ndashResumo de comandosparametros dos commando de Graacutefico
type=p especifica o tipo de plot p pontos l linhas b pontos
ligados por linhas o idecircntico mas as linhas passam sobre os pontos h
linhas verticais s escada (steps) os dados satildeo representados pelas alturasverticais
xlim= ylim= especifica os limites inferiores e superiores dos eixos por exemplocom xlim=c(1 10) ou xlim=range(x)
xlab= ylab= nomeia os eixos o nome deve ser do tipo caracter
main= tiacutetulo principal deve ser do tipo caracter
sub= sub-tiacutetulo (escrito em fonte menor)
podem ser usados como bty(tipo de caixa) lwd (lagura da linha) lty (tipo delinha) pch(tipo de ponto) cex xaxs yaxs xaxtyaxt
h) Teste de hipoacuteteses
ttest()proptest()
chisqtest()
aov(formula) analysis of variance model
anova(fit) analysis of variance (or deviance) tables for one or more
fitted model objects
Use o commando gt test para procurar todos os testes disponiacuteveis
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5861
A2ndashResumo de comandos
i) Programmingfunction( arglist ) expr para definer uma funccedilatildeo
return(value)
if(cond) expr
if(cond) consexpr else altexpr
for(var in seq) expr
while(cond) expr
re eat ex r
break
Usar chaves entre commandos dlimitando o iniacutecio e o fim de um grupo decomandos
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5961
A2ndashResumo de comandos
j) Commandos auxiliaries em Graacuteficospoints(x y) adiciona pontos (a opccedilatildeo type= pode ser usada)
lines(x y) adiciona linhas (a opccedilatildeo type= pode ser usada)text(x y labels ) adiciona texto na coordenada (xy) um uso tiacutepico eacute
plot(x y type=n) text(x ynames)
segments(x0 y0 x1 y1) desenha linhas do ponto (x0 y0) ao (x1 y1)
arrows(x0 y0 x1 y1 angle= 30 code=2) desenha seta do ponto
(x0 y0) ao (x1 y1)
abline(ab) desenha uma reta de inclinaccedilatildeo b e intercepto a
abline(v=x) desenha uma reta vertical em x
abline(lsfit(xy)) desenha uma reta da regressatildeo feita em lsfit(xy)
rect(x1 y1 x2 y2) desenha um retacircngulo que a esquerda inferior tem coordenadas(x1 y1) e o limite da direita superiores (x2 y2)
polygon(x y) desenha um poliacutegono que une os pontos com coordenadas X e Y
legend(x y legend) Acrescenta a lenda no ponto (x y) com os siacutembolos
dada pela legend
title()adiciona um tiacutetulo e opcionalmente um sub-tiacutetulo
axis(side) acrescenta um eixo na parte inferior (side = 1) agrave esquerda (2) na partesuperior (3) ou agrave direita (4)
box()desenhar uma caixa em torno do plot
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6061
A2ndashResumo de comandos
k) Comando par (Graphical parameters)Todos estes comando podem ser definidos a niacutevel global com o par () que
especifica os paracircmetros mas tambeacutem muitos podem ser usados comoparametros dos commando de Graacutefico
mfcol vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em colunas
mfrow vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em linhas(matrix for row)
bty controla o tipo de caixa desenhada ao redor do enredo valores permitidos satildeo
o l 7 c u ou se bt =n a caixa natildeo eacute desenhada
lty controla o tipo de linhas pode ser um inteiro ou string (1 solid 2 dashed 3dotted 4 dotdash 5 longdash 6twodash) ou uma string de ateacuteoito caracteres (entre 0 e 9) que especifica o comprimento em pontos oupixels dos elementos desenhados e os espaccedilos em branco por exemplolty=rdquo44rdquo equivale a lty=2
lwd nuacutemero que controla a largura das linhas default 1pch controla o tipo de siacutembolo pode tambeacutem ser um nuacutemero inteiro entre 1 e 25
ps um inteiro que controla o tamanho em pontos de textos e siacutembolos
pty um caracter que especifica o tipo da regiatildeo s quadrado m maacuteximal
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6161
A2ndashResumo de comandos
l) Input and outputreadtable(file) lecirc um arquivo em formato de tabela e cria um quadro de dados a
partir dele o separador default = eacute espaccedilo em branco header = TRUE ler a
primeira linha como um cabeccedilalho de nomes de coluna asis = TRUE paraevitar aque um vetore de caracteres seja convertido em factores usocommentchar = para evitar seja interpretado como um comentaacuteriouso skip = n para pular n linhas antes da leitura de dados consulte a ajudapara as opccedilotildees de linha de nomeaccedilatildeo o tratamento NA e outros
readcsv(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por viacutergulas
readdelim(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por tabulaccedilotildees
readfwf(filewidthsheader=FALSEsep= asis=FALSE)
ler uma tabela de dados em formato fix de largura m para um dataframe widthseacute um vetor inteiro informando os tamanhos dos campos
sink(file) saiacuteda de todos os comandos para um arquivo ateacute aparecer um comando
sink () que desliga writetable(x file=rownames=Tcolnames=Tsep= ) imprime x apoacutes a
conversatildeo para banco de dados
save(file) guarda os objetos especificados () no formato XDR
load()carregar o conjunto de dados salvos com o comando save
data(x) carrega um conjunto de dados especificado
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3061
Cap 2-c ndash TCL Exemplo
Exponencial
Uniforme
Mistura deNormais
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3161
Como se pode observar
1 No caso da distribuiccedilatildeo uniforme (A) o histograma de jaacute se aproximabastante de uma Normal quando n eacute da ordem de 4
2 Jaacute no caso da distribuiccedilatildeo Exponencial (B) e da mistura de normais
(C) modelos esses que se afastam muito mais de umldquo rdquo
Cap 2-c ndash TCL Exemplo
mostra mais adequada a partir de n em torno de 10
3 No caso do modelo em (C) agrave medida que n cresce tudo se passacomo se houvesse a ldquoerupccedilatildeo de um vulcatildeo dentro do valerdquo
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3261
tclunif=function(nN=100titulo= yl=c(0 4))
medias=numeric(N)for (i in 1N) medias[i]= mean(runif(n 3-3sqrt(3) 3+3sqrt(3)))
hist(medias xlim=c(-610) ylim=yl freq=F main=titulo)
x=seq(-610 02)
points(x dnorm(x 3 3sqrt(1n) ) type=l lwd=3)
medias
Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com
as simulaccedilotildees - Uniforme
grap cso
par(mfrow=c(33) mai=c(3411))
tclunif(1titulo=n=1yl=c(06))
tclunif(2titulo=n=2yl=c(06))
tclunif(3titulo=n=3yl=c(06))
tclunif(4titulo=n=4yl=c(06))tclunif(5titulo=n=5yl=c(06))
tclunif(6titulo=n=6yl=c(06))
tclunif(10titulo=n=10yl=c(06))
tclunif(15titulo=n=15yl=c(06))
tclunif(20titulo=n=20yl=c(06))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3361
X2=c(rnorm(35011) rnorm(15081)) X2 eacute a Populaccedilatildeo de onde retiramos as amostras
br=seq(-2 12 5)
tcl2modas=function(nN=200titulo= yl=c(0 6)) medias=numeric(N)for (i in 1N) medias[i]= mean(sample(X2nrep=T))hist(mediasbreaks=br xlim=c(-212) tcl=-01 ylim=yl xarp=c(-31216)
tck=005 lab=c(5515) freq=F main=titulo)x=seq(-312 02)
Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com
as simulaccedilotildees - Mistura de Normais
points(x dnorm(x med dpsqrt(n) ) type=l lwd=2)
par(mfrow=c(24) mai=c(3011) mar=c(2 2 2 1))
hist(X2 freq=F breaks=seq(-3125) bty=o xlim=c(-212)xarp=c(-31216)tck=005 lab=c(5515) ylim=c(06) main=POPULACcedilAtildeO lwd=2)
tcl2modas(2titulo=n=2)tcl2modas(3titulo=n=3)
tcl2modas(4titulo=n=4)
tcl2modas(5titulo=n=5)
tcl2modas(10titulo=n=10)
tcl2modas(15titulo=n=15)
tcl2modas(25titulo=n=25)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3461
CAP 3-a) Intervalo de ConfianccedilaSeja um estimador pontual do paracircmetro eacute uma variaacutevel aleatoacuteria que varia deamostra para amostra Por isso haacute uma certa dose de incerteza inerente a esse processode estimaccedilatildeo Nosso objetivo agora eacute obter com base nos dados amostrais (da uacutenicaamostra observada) um intervalo ao qual o valor correto do paracircmetro deve ter grandechance de pertencer
bull Detalhando um pouco mais No processo de estimaccedilatildeo por intervalo de um paracircmetro θdevemos determinar um intervalo que contenha o verdadeiro valor do paracircmetro comprobabilidade 1-α onde α eacute um pequeno valor preacute-fixado Este intervalo eacute construiacutedo emgeral em torno do estimador pontual considerando uma margem de erro d de forma aque uma vez fixada a probabilidade 1-α calculemos d tal que P( - d le θ le + d ) = 1 -αChama-se intervalo de confianccedila para θ ao niacutevel 1 - α ao intervalo [ - d + d]
θ $θ
$θ$θ
$θ $θ
$
θ
bull Ou seja o estimador pontual eacute o centro do Intervalo de Confianccedila e o erro absoluto dassociado a define a amplitude desse intervalo O que eacute de fato variaacutevel aleatoacuteria satildeoos extremos do intervalo O paracircmetro tem valor desconhecido natildeo aleatoacuterio (fixo a ser estimado)
Exemplo Intervalo de Confianccedila para a meacutedia populacional com o desvio padratildeo conhecidoO paracircmetro a estimar eacute a meacutedia populacional micro A estimaccedilatildeo seraacute baseada em X1 X2 Xn
uma amostra aleatoacuteria com E(Xi) = micro e var(Xi) = σ2 para todo i = 12 n Queremos que seja
vaacutelida a expressatildeo o que equivale a P [ -d le -micro le d] = 1-α
$θ
X[ ] α1dmicroXP minus=leminus
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3561
bull Lembrando que para n suficientemente grande pelo Teorema Central do Limite a meacutediaamostral segue uma distribuiccedilatildeo que se aproxima da Normal(micromicromicromicro σσσσ2 n) (ou eacute exatamente aNormal(micromicromicromicro σσσσ2 n) no caso em que a distribuiccedilatildeo comum das va Xirsquos jaacute eacute Normal) entatildeo
P [-d le -micromicromicromicro le d] = 1-α rArr 1-α = P [ |Z| le ] Logo d =
bull Faremos uma simulaccedilatildeo para a construccedilatildeo de Intervalos de Confianccedila com 100 amostras dedois tipos de populaccedilatildeo Normal e Exponencial A lista de comandos do R que usamos eacute
ICN = function (N n mu sigma = 3 conf)
plot(0 0 type=n xlim=c(010) ylim=c(0N) bty=l
xlab=Normal ylab=amostras)abline(v=mu)
CAP 3-a) Intervalo de Confianccedila
X
nσ
d
minus
z0 = qnorm(1-((1-conf)2))
sigmaxbarra = sigmasqrt(n)
for (i in 1N)
x = rnorm(n mu sigma)
media = mean(x)
li = media - z0 sigmaxbarrals = media + z0 sigmaxbarra
plotx = c(lils)
ploty = c(ii)
if (li gt mu | ls lt mu) lines(plotxploty col=red)
else lines(plotxploty)
gt ICN(100 25 3 3 95)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3661
CAP 3-a) Intervalo de Confianccedila
ICexp = function (N n lambda conf)
mu=1lambda sigma=1lambda
plot(0 0 type=n xlim=c(010) ylim=c(0N) bty=lxlab=Exponencial ylab=amostras)
abline(v= mu)
z0 = qnorm(1-((1-conf)2))
sigmaxbarra = sigmasqrt(n)
for (i in 1N)
x = rexp(nlambda) me a = mean x
li = media - z0 sigmaxbarra
ls = media + z0 sigmaxbarra
plotx = c(lils)
ploty = c(ii)
if (li gt mu | ls lt mu) lines(plotx ploty col=red)
else lines(plotx ploty)
gt ICexp(100 25 13 95)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3761
CAP 3-b Teste de Hipoacuteteses (TH)O objetivo de um teste de hipoacutetese eacute avaliar a validade de uma afirmaccedilatildeo sobre determinada
caracteriacutestica da populaccedilatildeo usando para isso os dados de uma amostra Essa caracteriacutestica eacute
representada pela va contiacutenua X cujo comportamento probabiliacutestico eacute expresso pela funccedilatildeo dedensidade f com paracircmetro Ө que tem valor desconhecido
Em um teste existem duas hipoacuteteses envolvidas H0 denominada hipoacutetese nula e H1
denominada hipoacutetese alternativa O procedimento de teste de hipoacutetese consiste em estabelecer
um criteacuterio de decisatildeo que leve a Aceitar ou Rejeitar H0 com base nos valores amostrais
A Estatiacutestica de teste eacute uma funccedilatildeo da amostra aleatoacuteria utilizada para definir o criteacuterio de
decisatildeo Estabelecer o criteacuterio de decisatildeo consiste em dividir o conjunto dos valores possiacuteveis
da estatiacutestica de teste em duas partes denominadas Regiatildeo de Aceitaccedilatildeo A e Regiatildeo de
Rejeiccedilatildeo R da hipoacutetese nula
Em um teste de hipoacutetese haacute dois tipos possiacuteveis de erro de decisatildeo
Erro I - Rejeitar H0 quando H0 eacute verdadeira
Erro II - Aceitar H0 quando H0 eacute falsaAs probabilidades de ocorrecircncia dos erros satildeo α = P [ Erro I ] e β = P [ Erro II]
A probabilidade de erro I α eacute o niacutevel de significacircncia do teste cujo valor eacute arbitrado pelo
pesquisador deve ser pequena pois corresponde a probabilidade de um erro (005 ou 001)
O niacutevel criacutetico ou p-valor do teste eacute o menor valor de α para o qual ainda rejeitariacuteamos H0 de
acordo com os dados observados
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3861
CAP 3-b) ndash TH teste tttest(x y = NULL alternative = c(twosided less greater) mu = 0
paired = FALSE varequal = FALSE conflevel = 095 )
Procedimentos de teste de hipoacuteteses com niacutevel de significacircncia α e amostras de tamanho n
UmaAmostra
DuasAmostras
Obs Os testes acima satildeo bilaterais
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3961
CAP 3ndashb) TH exemplo de teste t ndash amostras independentespag233- teste t amostras independente - comparaccedilatildeo log(salaacuterio)
entre os grupos de comeacutercio e de serviccedilo
LogSal=c(1289156912501344145616361573171309060903
0977122011031069128714101496131113371366
1227119114591280115217401649176524101701
1538192419251721154918911534163812071682
120614232010143112651570)
Sal=exp(LogSal)
setor= c(rep(C23) rep(S23))
ttest(Sal[setor==C] Sal[setor==S] varequal=T)
Two Sample t-test
data Sal[setor == C] and Sal[setor == S]
t = -36822 df = 44 p-value = 00006289
alternative hypothesis true difference in means is not equal to 095 percent confidence interval
-23079005 -06751838
sample estimates
mean of x mean of y3786010 5277552
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4061
CAP 3ndashb) TH exemplo de teste t ndash amostra pareadapag237- teste t pareado
P1=c(6315596455545480598065203660986853
8765647785536980827184605572645564)
P2=c(3638306043466455604343523428837155
8238556767443459605968506254473652)
ttest(P1 P2 alt=greater paired = T)
Paired t-test
data P1 and P2
t = 44176 df = 33 p-value = 5072e-05
alternative hypothesis true difference in means is greater than 0
95 percent confidence interval
0716695 Inf
sample estimates
mean of the differences
1161765
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4161
CAP 3ndashb) TH exemplo de teste Quiquadrado chisqtest
pag233- teste Quiquadrado -
tcont=matrix(c(683585251530258 7461761220225) 72)
chisqtest(tcont)
Pearsons Chi-squared test
data tcont- = = - lt -
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4261
CAP 3ndashb) TH exemplo de teste Quiquadrado chisqtestaov(formula data = NULL )
pag244- ANOVA - Comparaccedilatildeo de trecircs raccedilotildees para suinos
A=c(444943514475425134305342453630
322133421040395246294247453959)
B=c(343640545953445432686954414647
6566455739)
C=c(574040364566395025212927283942
21304143294244582849)
aumentoP=c(ABC)
racao=c(rep(A30)rep(B20) rep(C25))
summaryaov(aov(aumentoP ~ racao))
Df Sum Sq Mean Sq F value Pr(gtF)racao 2 15385 7693 56136 0005425
Residuals 72 98666 1370
---
Signif codes 0 lsquorsquo 0001 lsquorsquo 001 lsquorsquo 005 lsquorsquo 01 lsquo rsquo 1
Warning message
In modelmatrixdefault(mt mf contrasts)
variable racao converted to a factor
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4361
ApecircndicesA-1) Apresentaremos aqui algumas figuras
feitas no R na elaboraccedilatildeo do livro
Achamos que o exame desses coacutedigos acompanhado dos resultados podeser um bom aprendizado um exerciacutecio ou talvez uma recordaccedilatildeo do materialaqui exposto
A-2) Resumo de comandosa) Criaccedilatildeo de dados
b) Informaccedilatildeo de uma Variaacutevel
c) Seleccedilatildeo de dados e manipulaccedilatildeo
d) Estatiacutesticas e operaccedilotildees matemaacuteticas
e) Corte e extraccedilatildeo de dados
f) Operaccedilatildeo com Matrizes
g) Graacuteficos (Plotting)
h) Teste de hipoacuteteses
i) Programming
j) Commandos auxiliaries em Graacuteficos
k) Comando par (Graphical parameters)
l) Input and output
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4461
A1) ndash Pag 14 ndash Figura 15
IDADE=c(616961716371726866697267636663636067716360696463667164706366646969646372736871726968687379)
IMC= c(245273281301254301280234268228255228235232203226239243271227237258213243243248219234216214221227227211268278275267286253239258247284235)
par(mfrow=c(12))hist(IDADE breaks=c(6065707580) ylim=c(020) ylab=Nuacutemero de Observaccedilotildees
main= col=grey right = F)hist(IMC breaks=c(200225250275300325)
ylab=Nuacutemero de Observaccedilotildeesmain= col=grey right = F )
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4561
A1) ndash Pag 44 ndash Figura 21
mat=matrix(c(81823913601818608740)32)
rownames(mat)=c(AtivaSedentaacuteriaTotal)colnames(mat)=c(NormalSobrepeso)barplot(t(mat) beside = TRUE space=c(315)
col=gray(c(79))legend = c(NormalSobrepeso) ylim = c(0 95) ylab= - percentagem)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4661
A1) ndash Pag 48 ndash Figura 22
mat= matrix(c(68154510 66214215 66242519 39161711)44byrow=T)
rownames(mat)=c(18 a 21 anos 22 a 25 anos 26 a 30 anos 31 a 40 anos)colnames(mat)=c(CinTeatSMDEx)mat1=mat for (i in 14) mat1[i]lt-mat1[i]100sum(mat1[i]) par(mfrow=c(12) mai=c(1111) mar=c(5 4 2 2) )barplot(matbeside=F ylim=c(0250) legend = c(18 a 21 anos 22 a 25 anos
26 a 30 anos 31 a 40 anos) xlab=Contagem)
barplot(mat1 beside=F xlab=Percentagem)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4761
A1) ndash Pag 52 ndash Figura 25X= c(184114821789235159118762592403190408372147328526471687
09642871437079238215753399242122530314859149806)y =c(01837012540193301620014230140604568022870231400861019960235302186012798991801254018210244160823
0147764068011818941403474539680150133247023685518102146187520214097090257291227
036282905401406510810113849399)plot(x y xlim=c(07) ylim=c(05) pch=16 bty=l xlab=Renda per capita
ylab=Telefonia Fixa per capita)
abline(lsfit(xy))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4861
A1) ndash Pag 109 ndash Figura 45
x=020
y1=dpois(x1) y2=dpois(x3) y3=dpois(x10)names(y1)=x names(y2)=x names(y3)=xpar(mfrow=c(13))plot(y1ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=1)plot(y2ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=3)plot(y3ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=10)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4961
A1) ndash Pag 118 ndash Figura 412
x=seq(010001)
plot(xdexp(x 12) type=l xlim=c(012) ylim=c(01) bty=l ylab=f(x) eF(x))for(i in seq(0 25 001)) segments(i 0 i dexp(i12) col=lightgrey)abline(v=0 h=0)points(xdexp(x 12) type=l lwd=2 bty=l)points(xpexp(x 12) lwd=2 type=l)segments(250 25pexp(2512))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5061
A1) ndash Pag 163 ndash Figura 68
plot(p xlim=c(618) ylim=c(016) type=n bty=l xaxt=n xlab= ylab=
cexaxis=6)for (i in 1015) rect(i-50 i+5 dbinom(i304) col=lightgrey) lty=2)segments(i0idbinom(i304) lty=2)
x=seq(61801) lines(x dnorm(x12sqrt(72)) lwd=2)x=seq(61801) lines(x dnorm(x12sqrt(72)) lwd=2)
axis(1 916 cexaxis=9) ax s seq cexax s=
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5161
A1) ndash Pag 198 ndash Figura 78
x1=seq(-4402)plot(x1dnorm(x1) type=l lwd=3 xlab= ylab= )lines(x1 dt(x11)) lines(x1 dt(x12)) lines(x1 dt(x15))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5261
A2ndashResumo de comandos
a)Criaccedilatildeo de dados
c()funccedilatildeo geneacuterica para combinar argumentos com o formando de um vetor fromto gera uma sequecircnce ldquordquo tem prioridade de operator pe13 + 1 is ldquo234rdquo
seq(fromtoby) gera uma sequecircncia by= especifica incremento
length= especifica um comprimento desejado
rep(xtimes) replicate x onuacutemero times de vezes use each= para repetir cada
elemento de x rep(c(123)2) gera 1 2 3 1 2 3 rep(c(12)each=2) gera 1 1 2 2
matrix(xnrow=ncol=) matrix elementos de x se reciclam caso x
rbind()combina vetores em linhas num estrutura de matrizes de dados
cbind()combina vetores em colunas num estrutura de matrizes de dados
array(xdim=) matriz com dados x especificar dimensotildees como dim=c(342)
elementos de x se reciclam caso x natildeo seja suficientemente grande
factor(xlevels=) codifica um vetor x como um fator gl(nklength=nklabels=1n) gerar niacuteveis (fatores) especificando
o padratildeo de seus niacuteveis k eacute o nuacutemero de niacuteveis e n eacute o nuacutemero de repeticcedilotildees
dataframe() criar um banco de dados Por exemplo
dataframe(v=14ch=c(gBcasad)n=5)
list()criar uma lista de argumentos Por exemplo list(a=c(12)b=hic=3i)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5361
A2ndashResumo de comandos
b) Informaccedilatildeo de uma Variaacutevellength(x) nuacutemero de elementos em x
dim(x) Obter ou definir a dimensatildeo de um objeto dim (x) = c(32)dimnames(x) Obter ou definir os nomes das dimensotildees de um objeto
nrow(x) nuacutemero de linhas
ncol(x) nuacutemero de colunas
c) Seleccedilatildeo de dados e manipulaccedilatildeochoose(n k) calcula a combinaccedilatildeo de elementos escolhidos entre n
resultando n [(n-k) k]
cut(xbreaks) divide x em intervalos (fatores) breaks eacute o nuacutemero de intervalos de
corte ou um vetor com os valores especiacuteficos
table(x) retorna uma tabela com as quantidades dos diferentes valores de x
(tipicamente para variaacuteveis dos tipos inteiros ou fatores)
sample(x size) retira aleatoriamente com e sem reposiccedilatildeo elementos detamanho SIZE do vetor x a opccedilatildeo replace = TRUE permite a retirada com reposiccedilatildeo
proptable(xmargin=) transforma a tabela como tabela de propoccedilatildeo
marginal margin=1 (com relaccedilatildeo as linhas) margin=2 (com relaccedilatildeo as colunas)
sort(x) Classifica os elementos de x em ordem crescente para classificar em ordem
decrescente rev(sort(x))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5461
A2ndashResumo de comandosd) Estatiacutesticas e operaccedilotildees matemaacuteticasmean(x) media dos elementos de x
median(x) mediana dos elementos de x
quantile(xprobs=) quantis de x correspondendo a uma dada probabilidadevar(x) ou cov(x) variacircncia dos elementos de x (calculado com n-1)
se x eacute uma matriz a matriz de covariacircncia eacute calculada
sd(x) desvio padracirco de of x
cor(x) matriz de correlaccedilatildeo de x se x for uma matriz ou (1 se x eacute um vector)
cor(x y) correlaccedilatildeo linear entre X e Y ou matriz de correlaccedilatildeo se eles satildeo matrizes
round(x n) arredonda os elementos de x para n casas decimais sum x soma os e emen os e x
prod(x) multilica os elementos de x
max(x) acha o maacuteximo dos elementos de x
min(x) acha o miacutenimo dos elementos de x
range(x) equivalente a c(min(x)max(x)
cumsum(x) um vetor onde o eacutesimo elemento eacute a soma de x[1] ateacute x[i]cumprod(x) um vetor onde o eacutesimo elemento eacute o produto de x[1] ateacute x[i]
cummin(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
cummax(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
sincostanasinacosatanatan2loglog10exp)
log(x base) calcula o logaritmo de x na base=base
weightedmean(x w) media ponderada de x com peso= w
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5561
A2ndashResumo de comandos
e) Corte e extraccedilatildeo de dadosindexaccedilatildeo de Vetores
x[n] n-eacutesimo elemento do vetor
x[-n] todos menos o n-eacutesimo elemento
x[1n] os primeiros n elemento
x[-(1n)] elementos de n+1 ateacute o final
x[c(432)] elementos especificados
x[y gt 5] todo elementos de onde os valores de y satildeo maiores que 5
x x gt 3 amp x lt 5 todo elementos entre 3 e 5
x[nome] elemento denominado nome
indexaccedilatildeo de Matrizes
x[ij] elemento na linha i coluna j
x[i] linha i
x[j] coluna j
x[c(13)] colunas 1 and 3
x[nome] linha nomeada nome
indexaccedilatildeo de data frames
x[[nome]] coluna chamada nome
x$nome equivalente a coluna chamada nome
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5661
A2ndashResumo de comandos
f) Operaccedilatildeo com Matrizest(x) transposta da matrix x
diag(x) retira a diagonal da matrix x
multiplicaccedilatildeo matricial
solve(ab) resove a equaccedilatildeo a x = b em relaccedilatildeo a x
solve(a) matriz inversa de a
rowSum(x) soma das linhas da matrix x
colSum(x) soma das colunas da matrix x
rowMeans x meacutedia das linhas da matrix x
colMeans(x) id meacutedia das colunas da matrix x
g) Graacuteficos (Plotting)plot(x y) diagrama de disperccedilatildeo plot dos pares (xy) num sistema de eixos
coordenadoshist(x) histogram dasfrequecircncias of x
barplot(x) graacutefico de barras of x usar horiz=T ara barras horizontal
pie(x) graacutefico de setores (pie-chart)
boxplot(x)
qqnorm(x) quantis de x em relaccedilatildeo aos valores esperados de uma dist Normal
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5761
A2ndashResumo de comandosparametros dos commando de Graacutefico
type=p especifica o tipo de plot p pontos l linhas b pontos
ligados por linhas o idecircntico mas as linhas passam sobre os pontos h
linhas verticais s escada (steps) os dados satildeo representados pelas alturasverticais
xlim= ylim= especifica os limites inferiores e superiores dos eixos por exemplocom xlim=c(1 10) ou xlim=range(x)
xlab= ylab= nomeia os eixos o nome deve ser do tipo caracter
main= tiacutetulo principal deve ser do tipo caracter
sub= sub-tiacutetulo (escrito em fonte menor)
podem ser usados como bty(tipo de caixa) lwd (lagura da linha) lty (tipo delinha) pch(tipo de ponto) cex xaxs yaxs xaxtyaxt
h) Teste de hipoacuteteses
ttest()proptest()
chisqtest()
aov(formula) analysis of variance model
anova(fit) analysis of variance (or deviance) tables for one or more
fitted model objects
Use o commando gt test para procurar todos os testes disponiacuteveis
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5861
A2ndashResumo de comandos
i) Programmingfunction( arglist ) expr para definer uma funccedilatildeo
return(value)
if(cond) expr
if(cond) consexpr else altexpr
for(var in seq) expr
while(cond) expr
re eat ex r
break
Usar chaves entre commandos dlimitando o iniacutecio e o fim de um grupo decomandos
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5961
A2ndashResumo de comandos
j) Commandos auxiliaries em Graacuteficospoints(x y) adiciona pontos (a opccedilatildeo type= pode ser usada)
lines(x y) adiciona linhas (a opccedilatildeo type= pode ser usada)text(x y labels ) adiciona texto na coordenada (xy) um uso tiacutepico eacute
plot(x y type=n) text(x ynames)
segments(x0 y0 x1 y1) desenha linhas do ponto (x0 y0) ao (x1 y1)
arrows(x0 y0 x1 y1 angle= 30 code=2) desenha seta do ponto
(x0 y0) ao (x1 y1)
abline(ab) desenha uma reta de inclinaccedilatildeo b e intercepto a
abline(v=x) desenha uma reta vertical em x
abline(lsfit(xy)) desenha uma reta da regressatildeo feita em lsfit(xy)
rect(x1 y1 x2 y2) desenha um retacircngulo que a esquerda inferior tem coordenadas(x1 y1) e o limite da direita superiores (x2 y2)
polygon(x y) desenha um poliacutegono que une os pontos com coordenadas X e Y
legend(x y legend) Acrescenta a lenda no ponto (x y) com os siacutembolos
dada pela legend
title()adiciona um tiacutetulo e opcionalmente um sub-tiacutetulo
axis(side) acrescenta um eixo na parte inferior (side = 1) agrave esquerda (2) na partesuperior (3) ou agrave direita (4)
box()desenhar uma caixa em torno do plot
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6061
A2ndashResumo de comandos
k) Comando par (Graphical parameters)Todos estes comando podem ser definidos a niacutevel global com o par () que
especifica os paracircmetros mas tambeacutem muitos podem ser usados comoparametros dos commando de Graacutefico
mfcol vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em colunas
mfrow vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em linhas(matrix for row)
bty controla o tipo de caixa desenhada ao redor do enredo valores permitidos satildeo
o l 7 c u ou se bt =n a caixa natildeo eacute desenhada
lty controla o tipo de linhas pode ser um inteiro ou string (1 solid 2 dashed 3dotted 4 dotdash 5 longdash 6twodash) ou uma string de ateacuteoito caracteres (entre 0 e 9) que especifica o comprimento em pontos oupixels dos elementos desenhados e os espaccedilos em branco por exemplolty=rdquo44rdquo equivale a lty=2
lwd nuacutemero que controla a largura das linhas default 1pch controla o tipo de siacutembolo pode tambeacutem ser um nuacutemero inteiro entre 1 e 25
ps um inteiro que controla o tamanho em pontos de textos e siacutembolos
pty um caracter que especifica o tipo da regiatildeo s quadrado m maacuteximal
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6161
A2ndashResumo de comandos
l) Input and outputreadtable(file) lecirc um arquivo em formato de tabela e cria um quadro de dados a
partir dele o separador default = eacute espaccedilo em branco header = TRUE ler a
primeira linha como um cabeccedilalho de nomes de coluna asis = TRUE paraevitar aque um vetore de caracteres seja convertido em factores usocommentchar = para evitar seja interpretado como um comentaacuteriouso skip = n para pular n linhas antes da leitura de dados consulte a ajudapara as opccedilotildees de linha de nomeaccedilatildeo o tratamento NA e outros
readcsv(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por viacutergulas
readdelim(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por tabulaccedilotildees
readfwf(filewidthsheader=FALSEsep= asis=FALSE)
ler uma tabela de dados em formato fix de largura m para um dataframe widthseacute um vetor inteiro informando os tamanhos dos campos
sink(file) saiacuteda de todos os comandos para um arquivo ateacute aparecer um comando
sink () que desliga writetable(x file=rownames=Tcolnames=Tsep= ) imprime x apoacutes a
conversatildeo para banco de dados
save(file) guarda os objetos especificados () no formato XDR
load()carregar o conjunto de dados salvos com o comando save
data(x) carrega um conjunto de dados especificado
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3161
Como se pode observar
1 No caso da distribuiccedilatildeo uniforme (A) o histograma de jaacute se aproximabastante de uma Normal quando n eacute da ordem de 4
2 Jaacute no caso da distribuiccedilatildeo Exponencial (B) e da mistura de normais
(C) modelos esses que se afastam muito mais de umldquo rdquo
Cap 2-c ndash TCL Exemplo
mostra mais adequada a partir de n em torno de 10
3 No caso do modelo em (C) agrave medida que n cresce tudo se passacomo se houvesse a ldquoerupccedilatildeo de um vulcatildeo dentro do valerdquo
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3261
tclunif=function(nN=100titulo= yl=c(0 4))
medias=numeric(N)for (i in 1N) medias[i]= mean(runif(n 3-3sqrt(3) 3+3sqrt(3)))
hist(medias xlim=c(-610) ylim=yl freq=F main=titulo)
x=seq(-610 02)
points(x dnorm(x 3 3sqrt(1n) ) type=l lwd=3)
medias
Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com
as simulaccedilotildees - Uniforme
grap cso
par(mfrow=c(33) mai=c(3411))
tclunif(1titulo=n=1yl=c(06))
tclunif(2titulo=n=2yl=c(06))
tclunif(3titulo=n=3yl=c(06))
tclunif(4titulo=n=4yl=c(06))tclunif(5titulo=n=5yl=c(06))
tclunif(6titulo=n=6yl=c(06))
tclunif(10titulo=n=10yl=c(06))
tclunif(15titulo=n=15yl=c(06))
tclunif(20titulo=n=20yl=c(06))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3361
X2=c(rnorm(35011) rnorm(15081)) X2 eacute a Populaccedilatildeo de onde retiramos as amostras
br=seq(-2 12 5)
tcl2modas=function(nN=200titulo= yl=c(0 6)) medias=numeric(N)for (i in 1N) medias[i]= mean(sample(X2nrep=T))hist(mediasbreaks=br xlim=c(-212) tcl=-01 ylim=yl xarp=c(-31216)
tck=005 lab=c(5515) freq=F main=titulo)x=seq(-312 02)
Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com
as simulaccedilotildees - Mistura de Normais
points(x dnorm(x med dpsqrt(n) ) type=l lwd=2)
par(mfrow=c(24) mai=c(3011) mar=c(2 2 2 1))
hist(X2 freq=F breaks=seq(-3125) bty=o xlim=c(-212)xarp=c(-31216)tck=005 lab=c(5515) ylim=c(06) main=POPULACcedilAtildeO lwd=2)
tcl2modas(2titulo=n=2)tcl2modas(3titulo=n=3)
tcl2modas(4titulo=n=4)
tcl2modas(5titulo=n=5)
tcl2modas(10titulo=n=10)
tcl2modas(15titulo=n=15)
tcl2modas(25titulo=n=25)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3461
CAP 3-a) Intervalo de ConfianccedilaSeja um estimador pontual do paracircmetro eacute uma variaacutevel aleatoacuteria que varia deamostra para amostra Por isso haacute uma certa dose de incerteza inerente a esse processode estimaccedilatildeo Nosso objetivo agora eacute obter com base nos dados amostrais (da uacutenicaamostra observada) um intervalo ao qual o valor correto do paracircmetro deve ter grandechance de pertencer
bull Detalhando um pouco mais No processo de estimaccedilatildeo por intervalo de um paracircmetro θdevemos determinar um intervalo que contenha o verdadeiro valor do paracircmetro comprobabilidade 1-α onde α eacute um pequeno valor preacute-fixado Este intervalo eacute construiacutedo emgeral em torno do estimador pontual considerando uma margem de erro d de forma aque uma vez fixada a probabilidade 1-α calculemos d tal que P( - d le θ le + d ) = 1 -αChama-se intervalo de confianccedila para θ ao niacutevel 1 - α ao intervalo [ - d + d]
θ $θ
$θ$θ
$θ $θ
$
θ
bull Ou seja o estimador pontual eacute o centro do Intervalo de Confianccedila e o erro absoluto dassociado a define a amplitude desse intervalo O que eacute de fato variaacutevel aleatoacuteria satildeoos extremos do intervalo O paracircmetro tem valor desconhecido natildeo aleatoacuterio (fixo a ser estimado)
Exemplo Intervalo de Confianccedila para a meacutedia populacional com o desvio padratildeo conhecidoO paracircmetro a estimar eacute a meacutedia populacional micro A estimaccedilatildeo seraacute baseada em X1 X2 Xn
uma amostra aleatoacuteria com E(Xi) = micro e var(Xi) = σ2 para todo i = 12 n Queremos que seja
vaacutelida a expressatildeo o que equivale a P [ -d le -micro le d] = 1-α
$θ
X[ ] α1dmicroXP minus=leminus
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3561
bull Lembrando que para n suficientemente grande pelo Teorema Central do Limite a meacutediaamostral segue uma distribuiccedilatildeo que se aproxima da Normal(micromicromicromicro σσσσ2 n) (ou eacute exatamente aNormal(micromicromicromicro σσσσ2 n) no caso em que a distribuiccedilatildeo comum das va Xirsquos jaacute eacute Normal) entatildeo
P [-d le -micromicromicromicro le d] = 1-α rArr 1-α = P [ |Z| le ] Logo d =
bull Faremos uma simulaccedilatildeo para a construccedilatildeo de Intervalos de Confianccedila com 100 amostras dedois tipos de populaccedilatildeo Normal e Exponencial A lista de comandos do R que usamos eacute
ICN = function (N n mu sigma = 3 conf)
plot(0 0 type=n xlim=c(010) ylim=c(0N) bty=l
xlab=Normal ylab=amostras)abline(v=mu)
CAP 3-a) Intervalo de Confianccedila
X
nσ
d
minus
z0 = qnorm(1-((1-conf)2))
sigmaxbarra = sigmasqrt(n)
for (i in 1N)
x = rnorm(n mu sigma)
media = mean(x)
li = media - z0 sigmaxbarrals = media + z0 sigmaxbarra
plotx = c(lils)
ploty = c(ii)
if (li gt mu | ls lt mu) lines(plotxploty col=red)
else lines(plotxploty)
gt ICN(100 25 3 3 95)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3661
CAP 3-a) Intervalo de Confianccedila
ICexp = function (N n lambda conf)
mu=1lambda sigma=1lambda
plot(0 0 type=n xlim=c(010) ylim=c(0N) bty=lxlab=Exponencial ylab=amostras)
abline(v= mu)
z0 = qnorm(1-((1-conf)2))
sigmaxbarra = sigmasqrt(n)
for (i in 1N)
x = rexp(nlambda) me a = mean x
li = media - z0 sigmaxbarra
ls = media + z0 sigmaxbarra
plotx = c(lils)
ploty = c(ii)
if (li gt mu | ls lt mu) lines(plotx ploty col=red)
else lines(plotx ploty)
gt ICexp(100 25 13 95)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3761
CAP 3-b Teste de Hipoacuteteses (TH)O objetivo de um teste de hipoacutetese eacute avaliar a validade de uma afirmaccedilatildeo sobre determinada
caracteriacutestica da populaccedilatildeo usando para isso os dados de uma amostra Essa caracteriacutestica eacute
representada pela va contiacutenua X cujo comportamento probabiliacutestico eacute expresso pela funccedilatildeo dedensidade f com paracircmetro Ө que tem valor desconhecido
Em um teste existem duas hipoacuteteses envolvidas H0 denominada hipoacutetese nula e H1
denominada hipoacutetese alternativa O procedimento de teste de hipoacutetese consiste em estabelecer
um criteacuterio de decisatildeo que leve a Aceitar ou Rejeitar H0 com base nos valores amostrais
A Estatiacutestica de teste eacute uma funccedilatildeo da amostra aleatoacuteria utilizada para definir o criteacuterio de
decisatildeo Estabelecer o criteacuterio de decisatildeo consiste em dividir o conjunto dos valores possiacuteveis
da estatiacutestica de teste em duas partes denominadas Regiatildeo de Aceitaccedilatildeo A e Regiatildeo de
Rejeiccedilatildeo R da hipoacutetese nula
Em um teste de hipoacutetese haacute dois tipos possiacuteveis de erro de decisatildeo
Erro I - Rejeitar H0 quando H0 eacute verdadeira
Erro II - Aceitar H0 quando H0 eacute falsaAs probabilidades de ocorrecircncia dos erros satildeo α = P [ Erro I ] e β = P [ Erro II]
A probabilidade de erro I α eacute o niacutevel de significacircncia do teste cujo valor eacute arbitrado pelo
pesquisador deve ser pequena pois corresponde a probabilidade de um erro (005 ou 001)
O niacutevel criacutetico ou p-valor do teste eacute o menor valor de α para o qual ainda rejeitariacuteamos H0 de
acordo com os dados observados
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3861
CAP 3-b) ndash TH teste tttest(x y = NULL alternative = c(twosided less greater) mu = 0
paired = FALSE varequal = FALSE conflevel = 095 )
Procedimentos de teste de hipoacuteteses com niacutevel de significacircncia α e amostras de tamanho n
UmaAmostra
DuasAmostras
Obs Os testes acima satildeo bilaterais
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3961
CAP 3ndashb) TH exemplo de teste t ndash amostras independentespag233- teste t amostras independente - comparaccedilatildeo log(salaacuterio)
entre os grupos de comeacutercio e de serviccedilo
LogSal=c(1289156912501344145616361573171309060903
0977122011031069128714101496131113371366
1227119114591280115217401649176524101701
1538192419251721154918911534163812071682
120614232010143112651570)
Sal=exp(LogSal)
setor= c(rep(C23) rep(S23))
ttest(Sal[setor==C] Sal[setor==S] varequal=T)
Two Sample t-test
data Sal[setor == C] and Sal[setor == S]
t = -36822 df = 44 p-value = 00006289
alternative hypothesis true difference in means is not equal to 095 percent confidence interval
-23079005 -06751838
sample estimates
mean of x mean of y3786010 5277552
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4061
CAP 3ndashb) TH exemplo de teste t ndash amostra pareadapag237- teste t pareado
P1=c(6315596455545480598065203660986853
8765647785536980827184605572645564)
P2=c(3638306043466455604343523428837155
8238556767443459605968506254473652)
ttest(P1 P2 alt=greater paired = T)
Paired t-test
data P1 and P2
t = 44176 df = 33 p-value = 5072e-05
alternative hypothesis true difference in means is greater than 0
95 percent confidence interval
0716695 Inf
sample estimates
mean of the differences
1161765
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4161
CAP 3ndashb) TH exemplo de teste Quiquadrado chisqtest
pag233- teste Quiquadrado -
tcont=matrix(c(683585251530258 7461761220225) 72)
chisqtest(tcont)
Pearsons Chi-squared test
data tcont- = = - lt -
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4261
CAP 3ndashb) TH exemplo de teste Quiquadrado chisqtestaov(formula data = NULL )
pag244- ANOVA - Comparaccedilatildeo de trecircs raccedilotildees para suinos
A=c(444943514475425134305342453630
322133421040395246294247453959)
B=c(343640545953445432686954414647
6566455739)
C=c(574040364566395025212927283942
21304143294244582849)
aumentoP=c(ABC)
racao=c(rep(A30)rep(B20) rep(C25))
summaryaov(aov(aumentoP ~ racao))
Df Sum Sq Mean Sq F value Pr(gtF)racao 2 15385 7693 56136 0005425
Residuals 72 98666 1370
---
Signif codes 0 lsquorsquo 0001 lsquorsquo 001 lsquorsquo 005 lsquorsquo 01 lsquo rsquo 1
Warning message
In modelmatrixdefault(mt mf contrasts)
variable racao converted to a factor
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4361
ApecircndicesA-1) Apresentaremos aqui algumas figuras
feitas no R na elaboraccedilatildeo do livro
Achamos que o exame desses coacutedigos acompanhado dos resultados podeser um bom aprendizado um exerciacutecio ou talvez uma recordaccedilatildeo do materialaqui exposto
A-2) Resumo de comandosa) Criaccedilatildeo de dados
b) Informaccedilatildeo de uma Variaacutevel
c) Seleccedilatildeo de dados e manipulaccedilatildeo
d) Estatiacutesticas e operaccedilotildees matemaacuteticas
e) Corte e extraccedilatildeo de dados
f) Operaccedilatildeo com Matrizes
g) Graacuteficos (Plotting)
h) Teste de hipoacuteteses
i) Programming
j) Commandos auxiliaries em Graacuteficos
k) Comando par (Graphical parameters)
l) Input and output
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4461
A1) ndash Pag 14 ndash Figura 15
IDADE=c(616961716371726866697267636663636067716360696463667164706366646969646372736871726968687379)
IMC= c(245273281301254301280234268228255228235232203226239243271227237258213243243248219234216214221227227211268278275267286253239258247284235)
par(mfrow=c(12))hist(IDADE breaks=c(6065707580) ylim=c(020) ylab=Nuacutemero de Observaccedilotildees
main= col=grey right = F)hist(IMC breaks=c(200225250275300325)
ylab=Nuacutemero de Observaccedilotildeesmain= col=grey right = F )
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4561
A1) ndash Pag 44 ndash Figura 21
mat=matrix(c(81823913601818608740)32)
rownames(mat)=c(AtivaSedentaacuteriaTotal)colnames(mat)=c(NormalSobrepeso)barplot(t(mat) beside = TRUE space=c(315)
col=gray(c(79))legend = c(NormalSobrepeso) ylim = c(0 95) ylab= - percentagem)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4661
A1) ndash Pag 48 ndash Figura 22
mat= matrix(c(68154510 66214215 66242519 39161711)44byrow=T)
rownames(mat)=c(18 a 21 anos 22 a 25 anos 26 a 30 anos 31 a 40 anos)colnames(mat)=c(CinTeatSMDEx)mat1=mat for (i in 14) mat1[i]lt-mat1[i]100sum(mat1[i]) par(mfrow=c(12) mai=c(1111) mar=c(5 4 2 2) )barplot(matbeside=F ylim=c(0250) legend = c(18 a 21 anos 22 a 25 anos
26 a 30 anos 31 a 40 anos) xlab=Contagem)
barplot(mat1 beside=F xlab=Percentagem)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4761
A1) ndash Pag 52 ndash Figura 25X= c(184114821789235159118762592403190408372147328526471687
09642871437079238215753399242122530314859149806)y =c(01837012540193301620014230140604568022870231400861019960235302186012798991801254018210244160823
0147764068011818941403474539680150133247023685518102146187520214097090257291227
036282905401406510810113849399)plot(x y xlim=c(07) ylim=c(05) pch=16 bty=l xlab=Renda per capita
ylab=Telefonia Fixa per capita)
abline(lsfit(xy))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4861
A1) ndash Pag 109 ndash Figura 45
x=020
y1=dpois(x1) y2=dpois(x3) y3=dpois(x10)names(y1)=x names(y2)=x names(y3)=xpar(mfrow=c(13))plot(y1ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=1)plot(y2ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=3)plot(y3ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=10)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4961
A1) ndash Pag 118 ndash Figura 412
x=seq(010001)
plot(xdexp(x 12) type=l xlim=c(012) ylim=c(01) bty=l ylab=f(x) eF(x))for(i in seq(0 25 001)) segments(i 0 i dexp(i12) col=lightgrey)abline(v=0 h=0)points(xdexp(x 12) type=l lwd=2 bty=l)points(xpexp(x 12) lwd=2 type=l)segments(250 25pexp(2512))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5061
A1) ndash Pag 163 ndash Figura 68
plot(p xlim=c(618) ylim=c(016) type=n bty=l xaxt=n xlab= ylab=
cexaxis=6)for (i in 1015) rect(i-50 i+5 dbinom(i304) col=lightgrey) lty=2)segments(i0idbinom(i304) lty=2)
x=seq(61801) lines(x dnorm(x12sqrt(72)) lwd=2)x=seq(61801) lines(x dnorm(x12sqrt(72)) lwd=2)
axis(1 916 cexaxis=9) ax s seq cexax s=
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5161
A1) ndash Pag 198 ndash Figura 78
x1=seq(-4402)plot(x1dnorm(x1) type=l lwd=3 xlab= ylab= )lines(x1 dt(x11)) lines(x1 dt(x12)) lines(x1 dt(x15))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5261
A2ndashResumo de comandos
a)Criaccedilatildeo de dados
c()funccedilatildeo geneacuterica para combinar argumentos com o formando de um vetor fromto gera uma sequecircnce ldquordquo tem prioridade de operator pe13 + 1 is ldquo234rdquo
seq(fromtoby) gera uma sequecircncia by= especifica incremento
length= especifica um comprimento desejado
rep(xtimes) replicate x onuacutemero times de vezes use each= para repetir cada
elemento de x rep(c(123)2) gera 1 2 3 1 2 3 rep(c(12)each=2) gera 1 1 2 2
matrix(xnrow=ncol=) matrix elementos de x se reciclam caso x
rbind()combina vetores em linhas num estrutura de matrizes de dados
cbind()combina vetores em colunas num estrutura de matrizes de dados
array(xdim=) matriz com dados x especificar dimensotildees como dim=c(342)
elementos de x se reciclam caso x natildeo seja suficientemente grande
factor(xlevels=) codifica um vetor x como um fator gl(nklength=nklabels=1n) gerar niacuteveis (fatores) especificando
o padratildeo de seus niacuteveis k eacute o nuacutemero de niacuteveis e n eacute o nuacutemero de repeticcedilotildees
dataframe() criar um banco de dados Por exemplo
dataframe(v=14ch=c(gBcasad)n=5)
list()criar uma lista de argumentos Por exemplo list(a=c(12)b=hic=3i)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5361
A2ndashResumo de comandos
b) Informaccedilatildeo de uma Variaacutevellength(x) nuacutemero de elementos em x
dim(x) Obter ou definir a dimensatildeo de um objeto dim (x) = c(32)dimnames(x) Obter ou definir os nomes das dimensotildees de um objeto
nrow(x) nuacutemero de linhas
ncol(x) nuacutemero de colunas
c) Seleccedilatildeo de dados e manipulaccedilatildeochoose(n k) calcula a combinaccedilatildeo de elementos escolhidos entre n
resultando n [(n-k) k]
cut(xbreaks) divide x em intervalos (fatores) breaks eacute o nuacutemero de intervalos de
corte ou um vetor com os valores especiacuteficos
table(x) retorna uma tabela com as quantidades dos diferentes valores de x
(tipicamente para variaacuteveis dos tipos inteiros ou fatores)
sample(x size) retira aleatoriamente com e sem reposiccedilatildeo elementos detamanho SIZE do vetor x a opccedilatildeo replace = TRUE permite a retirada com reposiccedilatildeo
proptable(xmargin=) transforma a tabela como tabela de propoccedilatildeo
marginal margin=1 (com relaccedilatildeo as linhas) margin=2 (com relaccedilatildeo as colunas)
sort(x) Classifica os elementos de x em ordem crescente para classificar em ordem
decrescente rev(sort(x))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5461
A2ndashResumo de comandosd) Estatiacutesticas e operaccedilotildees matemaacuteticasmean(x) media dos elementos de x
median(x) mediana dos elementos de x
quantile(xprobs=) quantis de x correspondendo a uma dada probabilidadevar(x) ou cov(x) variacircncia dos elementos de x (calculado com n-1)
se x eacute uma matriz a matriz de covariacircncia eacute calculada
sd(x) desvio padracirco de of x
cor(x) matriz de correlaccedilatildeo de x se x for uma matriz ou (1 se x eacute um vector)
cor(x y) correlaccedilatildeo linear entre X e Y ou matriz de correlaccedilatildeo se eles satildeo matrizes
round(x n) arredonda os elementos de x para n casas decimais sum x soma os e emen os e x
prod(x) multilica os elementos de x
max(x) acha o maacuteximo dos elementos de x
min(x) acha o miacutenimo dos elementos de x
range(x) equivalente a c(min(x)max(x)
cumsum(x) um vetor onde o eacutesimo elemento eacute a soma de x[1] ateacute x[i]cumprod(x) um vetor onde o eacutesimo elemento eacute o produto de x[1] ateacute x[i]
cummin(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
cummax(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
sincostanasinacosatanatan2loglog10exp)
log(x base) calcula o logaritmo de x na base=base
weightedmean(x w) media ponderada de x com peso= w
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5561
A2ndashResumo de comandos
e) Corte e extraccedilatildeo de dadosindexaccedilatildeo de Vetores
x[n] n-eacutesimo elemento do vetor
x[-n] todos menos o n-eacutesimo elemento
x[1n] os primeiros n elemento
x[-(1n)] elementos de n+1 ateacute o final
x[c(432)] elementos especificados
x[y gt 5] todo elementos de onde os valores de y satildeo maiores que 5
x x gt 3 amp x lt 5 todo elementos entre 3 e 5
x[nome] elemento denominado nome
indexaccedilatildeo de Matrizes
x[ij] elemento na linha i coluna j
x[i] linha i
x[j] coluna j
x[c(13)] colunas 1 and 3
x[nome] linha nomeada nome
indexaccedilatildeo de data frames
x[[nome]] coluna chamada nome
x$nome equivalente a coluna chamada nome
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5661
A2ndashResumo de comandos
f) Operaccedilatildeo com Matrizest(x) transposta da matrix x
diag(x) retira a diagonal da matrix x
multiplicaccedilatildeo matricial
solve(ab) resove a equaccedilatildeo a x = b em relaccedilatildeo a x
solve(a) matriz inversa de a
rowSum(x) soma das linhas da matrix x
colSum(x) soma das colunas da matrix x
rowMeans x meacutedia das linhas da matrix x
colMeans(x) id meacutedia das colunas da matrix x
g) Graacuteficos (Plotting)plot(x y) diagrama de disperccedilatildeo plot dos pares (xy) num sistema de eixos
coordenadoshist(x) histogram dasfrequecircncias of x
barplot(x) graacutefico de barras of x usar horiz=T ara barras horizontal
pie(x) graacutefico de setores (pie-chart)
boxplot(x)
qqnorm(x) quantis de x em relaccedilatildeo aos valores esperados de uma dist Normal
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5761
A2ndashResumo de comandosparametros dos commando de Graacutefico
type=p especifica o tipo de plot p pontos l linhas b pontos
ligados por linhas o idecircntico mas as linhas passam sobre os pontos h
linhas verticais s escada (steps) os dados satildeo representados pelas alturasverticais
xlim= ylim= especifica os limites inferiores e superiores dos eixos por exemplocom xlim=c(1 10) ou xlim=range(x)
xlab= ylab= nomeia os eixos o nome deve ser do tipo caracter
main= tiacutetulo principal deve ser do tipo caracter
sub= sub-tiacutetulo (escrito em fonte menor)
podem ser usados como bty(tipo de caixa) lwd (lagura da linha) lty (tipo delinha) pch(tipo de ponto) cex xaxs yaxs xaxtyaxt
h) Teste de hipoacuteteses
ttest()proptest()
chisqtest()
aov(formula) analysis of variance model
anova(fit) analysis of variance (or deviance) tables for one or more
fitted model objects
Use o commando gt test para procurar todos os testes disponiacuteveis
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5861
A2ndashResumo de comandos
i) Programmingfunction( arglist ) expr para definer uma funccedilatildeo
return(value)
if(cond) expr
if(cond) consexpr else altexpr
for(var in seq) expr
while(cond) expr
re eat ex r
break
Usar chaves entre commandos dlimitando o iniacutecio e o fim de um grupo decomandos
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5961
A2ndashResumo de comandos
j) Commandos auxiliaries em Graacuteficospoints(x y) adiciona pontos (a opccedilatildeo type= pode ser usada)
lines(x y) adiciona linhas (a opccedilatildeo type= pode ser usada)text(x y labels ) adiciona texto na coordenada (xy) um uso tiacutepico eacute
plot(x y type=n) text(x ynames)
segments(x0 y0 x1 y1) desenha linhas do ponto (x0 y0) ao (x1 y1)
arrows(x0 y0 x1 y1 angle= 30 code=2) desenha seta do ponto
(x0 y0) ao (x1 y1)
abline(ab) desenha uma reta de inclinaccedilatildeo b e intercepto a
abline(v=x) desenha uma reta vertical em x
abline(lsfit(xy)) desenha uma reta da regressatildeo feita em lsfit(xy)
rect(x1 y1 x2 y2) desenha um retacircngulo que a esquerda inferior tem coordenadas(x1 y1) e o limite da direita superiores (x2 y2)
polygon(x y) desenha um poliacutegono que une os pontos com coordenadas X e Y
legend(x y legend) Acrescenta a lenda no ponto (x y) com os siacutembolos
dada pela legend
title()adiciona um tiacutetulo e opcionalmente um sub-tiacutetulo
axis(side) acrescenta um eixo na parte inferior (side = 1) agrave esquerda (2) na partesuperior (3) ou agrave direita (4)
box()desenhar uma caixa em torno do plot
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6061
A2ndashResumo de comandos
k) Comando par (Graphical parameters)Todos estes comando podem ser definidos a niacutevel global com o par () que
especifica os paracircmetros mas tambeacutem muitos podem ser usados comoparametros dos commando de Graacutefico
mfcol vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em colunas
mfrow vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em linhas(matrix for row)
bty controla o tipo de caixa desenhada ao redor do enredo valores permitidos satildeo
o l 7 c u ou se bt =n a caixa natildeo eacute desenhada
lty controla o tipo de linhas pode ser um inteiro ou string (1 solid 2 dashed 3dotted 4 dotdash 5 longdash 6twodash) ou uma string de ateacuteoito caracteres (entre 0 e 9) que especifica o comprimento em pontos oupixels dos elementos desenhados e os espaccedilos em branco por exemplolty=rdquo44rdquo equivale a lty=2
lwd nuacutemero que controla a largura das linhas default 1pch controla o tipo de siacutembolo pode tambeacutem ser um nuacutemero inteiro entre 1 e 25
ps um inteiro que controla o tamanho em pontos de textos e siacutembolos
pty um caracter que especifica o tipo da regiatildeo s quadrado m maacuteximal
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6161
A2ndashResumo de comandos
l) Input and outputreadtable(file) lecirc um arquivo em formato de tabela e cria um quadro de dados a
partir dele o separador default = eacute espaccedilo em branco header = TRUE ler a
primeira linha como um cabeccedilalho de nomes de coluna asis = TRUE paraevitar aque um vetore de caracteres seja convertido em factores usocommentchar = para evitar seja interpretado como um comentaacuteriouso skip = n para pular n linhas antes da leitura de dados consulte a ajudapara as opccedilotildees de linha de nomeaccedilatildeo o tratamento NA e outros
readcsv(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por viacutergulas
readdelim(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por tabulaccedilotildees
readfwf(filewidthsheader=FALSEsep= asis=FALSE)
ler uma tabela de dados em formato fix de largura m para um dataframe widthseacute um vetor inteiro informando os tamanhos dos campos
sink(file) saiacuteda de todos os comandos para um arquivo ateacute aparecer um comando
sink () que desliga writetable(x file=rownames=Tcolnames=Tsep= ) imprime x apoacutes a
conversatildeo para banco de dados
save(file) guarda os objetos especificados () no formato XDR
load()carregar o conjunto de dados salvos com o comando save
data(x) carrega um conjunto de dados especificado
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3261
tclunif=function(nN=100titulo= yl=c(0 4))
medias=numeric(N)for (i in 1N) medias[i]= mean(runif(n 3-3sqrt(3) 3+3sqrt(3)))
hist(medias xlim=c(-610) ylim=yl freq=F main=titulo)
x=seq(-610 02)
points(x dnorm(x 3 3sqrt(1n) ) type=l lwd=3)
medias
Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com
as simulaccedilotildees - Uniforme
grap cso
par(mfrow=c(33) mai=c(3411))
tclunif(1titulo=n=1yl=c(06))
tclunif(2titulo=n=2yl=c(06))
tclunif(3titulo=n=3yl=c(06))
tclunif(4titulo=n=4yl=c(06))tclunif(5titulo=n=5yl=c(06))
tclunif(6titulo=n=6yl=c(06))
tclunif(10titulo=n=10yl=c(06))
tclunif(15titulo=n=15yl=c(06))
tclunif(20titulo=n=20yl=c(06))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3361
X2=c(rnorm(35011) rnorm(15081)) X2 eacute a Populaccedilatildeo de onde retiramos as amostras
br=seq(-2 12 5)
tcl2modas=function(nN=200titulo= yl=c(0 6)) medias=numeric(N)for (i in 1N) medias[i]= mean(sample(X2nrep=T))hist(mediasbreaks=br xlim=c(-212) tcl=-01 ylim=yl xarp=c(-31216)
tck=005 lab=c(5515) freq=F main=titulo)x=seq(-312 02)
Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com
as simulaccedilotildees - Mistura de Normais
points(x dnorm(x med dpsqrt(n) ) type=l lwd=2)
par(mfrow=c(24) mai=c(3011) mar=c(2 2 2 1))
hist(X2 freq=F breaks=seq(-3125) bty=o xlim=c(-212)xarp=c(-31216)tck=005 lab=c(5515) ylim=c(06) main=POPULACcedilAtildeO lwd=2)
tcl2modas(2titulo=n=2)tcl2modas(3titulo=n=3)
tcl2modas(4titulo=n=4)
tcl2modas(5titulo=n=5)
tcl2modas(10titulo=n=10)
tcl2modas(15titulo=n=15)
tcl2modas(25titulo=n=25)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3461
CAP 3-a) Intervalo de ConfianccedilaSeja um estimador pontual do paracircmetro eacute uma variaacutevel aleatoacuteria que varia deamostra para amostra Por isso haacute uma certa dose de incerteza inerente a esse processode estimaccedilatildeo Nosso objetivo agora eacute obter com base nos dados amostrais (da uacutenicaamostra observada) um intervalo ao qual o valor correto do paracircmetro deve ter grandechance de pertencer
bull Detalhando um pouco mais No processo de estimaccedilatildeo por intervalo de um paracircmetro θdevemos determinar um intervalo que contenha o verdadeiro valor do paracircmetro comprobabilidade 1-α onde α eacute um pequeno valor preacute-fixado Este intervalo eacute construiacutedo emgeral em torno do estimador pontual considerando uma margem de erro d de forma aque uma vez fixada a probabilidade 1-α calculemos d tal que P( - d le θ le + d ) = 1 -αChama-se intervalo de confianccedila para θ ao niacutevel 1 - α ao intervalo [ - d + d]
θ $θ
$θ$θ
$θ $θ
$
θ
bull Ou seja o estimador pontual eacute o centro do Intervalo de Confianccedila e o erro absoluto dassociado a define a amplitude desse intervalo O que eacute de fato variaacutevel aleatoacuteria satildeoos extremos do intervalo O paracircmetro tem valor desconhecido natildeo aleatoacuterio (fixo a ser estimado)
Exemplo Intervalo de Confianccedila para a meacutedia populacional com o desvio padratildeo conhecidoO paracircmetro a estimar eacute a meacutedia populacional micro A estimaccedilatildeo seraacute baseada em X1 X2 Xn
uma amostra aleatoacuteria com E(Xi) = micro e var(Xi) = σ2 para todo i = 12 n Queremos que seja
vaacutelida a expressatildeo o que equivale a P [ -d le -micro le d] = 1-α
$θ
X[ ] α1dmicroXP minus=leminus
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3561
bull Lembrando que para n suficientemente grande pelo Teorema Central do Limite a meacutediaamostral segue uma distribuiccedilatildeo que se aproxima da Normal(micromicromicromicro σσσσ2 n) (ou eacute exatamente aNormal(micromicromicromicro σσσσ2 n) no caso em que a distribuiccedilatildeo comum das va Xirsquos jaacute eacute Normal) entatildeo
P [-d le -micromicromicromicro le d] = 1-α rArr 1-α = P [ |Z| le ] Logo d =
bull Faremos uma simulaccedilatildeo para a construccedilatildeo de Intervalos de Confianccedila com 100 amostras dedois tipos de populaccedilatildeo Normal e Exponencial A lista de comandos do R que usamos eacute
ICN = function (N n mu sigma = 3 conf)
plot(0 0 type=n xlim=c(010) ylim=c(0N) bty=l
xlab=Normal ylab=amostras)abline(v=mu)
CAP 3-a) Intervalo de Confianccedila
X
nσ
d
minus
z0 = qnorm(1-((1-conf)2))
sigmaxbarra = sigmasqrt(n)
for (i in 1N)
x = rnorm(n mu sigma)
media = mean(x)
li = media - z0 sigmaxbarrals = media + z0 sigmaxbarra
plotx = c(lils)
ploty = c(ii)
if (li gt mu | ls lt mu) lines(plotxploty col=red)
else lines(plotxploty)
gt ICN(100 25 3 3 95)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3661
CAP 3-a) Intervalo de Confianccedila
ICexp = function (N n lambda conf)
mu=1lambda sigma=1lambda
plot(0 0 type=n xlim=c(010) ylim=c(0N) bty=lxlab=Exponencial ylab=amostras)
abline(v= mu)
z0 = qnorm(1-((1-conf)2))
sigmaxbarra = sigmasqrt(n)
for (i in 1N)
x = rexp(nlambda) me a = mean x
li = media - z0 sigmaxbarra
ls = media + z0 sigmaxbarra
plotx = c(lils)
ploty = c(ii)
if (li gt mu | ls lt mu) lines(plotx ploty col=red)
else lines(plotx ploty)
gt ICexp(100 25 13 95)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3761
CAP 3-b Teste de Hipoacuteteses (TH)O objetivo de um teste de hipoacutetese eacute avaliar a validade de uma afirmaccedilatildeo sobre determinada
caracteriacutestica da populaccedilatildeo usando para isso os dados de uma amostra Essa caracteriacutestica eacute
representada pela va contiacutenua X cujo comportamento probabiliacutestico eacute expresso pela funccedilatildeo dedensidade f com paracircmetro Ө que tem valor desconhecido
Em um teste existem duas hipoacuteteses envolvidas H0 denominada hipoacutetese nula e H1
denominada hipoacutetese alternativa O procedimento de teste de hipoacutetese consiste em estabelecer
um criteacuterio de decisatildeo que leve a Aceitar ou Rejeitar H0 com base nos valores amostrais
A Estatiacutestica de teste eacute uma funccedilatildeo da amostra aleatoacuteria utilizada para definir o criteacuterio de
decisatildeo Estabelecer o criteacuterio de decisatildeo consiste em dividir o conjunto dos valores possiacuteveis
da estatiacutestica de teste em duas partes denominadas Regiatildeo de Aceitaccedilatildeo A e Regiatildeo de
Rejeiccedilatildeo R da hipoacutetese nula
Em um teste de hipoacutetese haacute dois tipos possiacuteveis de erro de decisatildeo
Erro I - Rejeitar H0 quando H0 eacute verdadeira
Erro II - Aceitar H0 quando H0 eacute falsaAs probabilidades de ocorrecircncia dos erros satildeo α = P [ Erro I ] e β = P [ Erro II]
A probabilidade de erro I α eacute o niacutevel de significacircncia do teste cujo valor eacute arbitrado pelo
pesquisador deve ser pequena pois corresponde a probabilidade de um erro (005 ou 001)
O niacutevel criacutetico ou p-valor do teste eacute o menor valor de α para o qual ainda rejeitariacuteamos H0 de
acordo com os dados observados
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3861
CAP 3-b) ndash TH teste tttest(x y = NULL alternative = c(twosided less greater) mu = 0
paired = FALSE varequal = FALSE conflevel = 095 )
Procedimentos de teste de hipoacuteteses com niacutevel de significacircncia α e amostras de tamanho n
UmaAmostra
DuasAmostras
Obs Os testes acima satildeo bilaterais
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3961
CAP 3ndashb) TH exemplo de teste t ndash amostras independentespag233- teste t amostras independente - comparaccedilatildeo log(salaacuterio)
entre os grupos de comeacutercio e de serviccedilo
LogSal=c(1289156912501344145616361573171309060903
0977122011031069128714101496131113371366
1227119114591280115217401649176524101701
1538192419251721154918911534163812071682
120614232010143112651570)
Sal=exp(LogSal)
setor= c(rep(C23) rep(S23))
ttest(Sal[setor==C] Sal[setor==S] varequal=T)
Two Sample t-test
data Sal[setor == C] and Sal[setor == S]
t = -36822 df = 44 p-value = 00006289
alternative hypothesis true difference in means is not equal to 095 percent confidence interval
-23079005 -06751838
sample estimates
mean of x mean of y3786010 5277552
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4061
CAP 3ndashb) TH exemplo de teste t ndash amostra pareadapag237- teste t pareado
P1=c(6315596455545480598065203660986853
8765647785536980827184605572645564)
P2=c(3638306043466455604343523428837155
8238556767443459605968506254473652)
ttest(P1 P2 alt=greater paired = T)
Paired t-test
data P1 and P2
t = 44176 df = 33 p-value = 5072e-05
alternative hypothesis true difference in means is greater than 0
95 percent confidence interval
0716695 Inf
sample estimates
mean of the differences
1161765
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4161
CAP 3ndashb) TH exemplo de teste Quiquadrado chisqtest
pag233- teste Quiquadrado -
tcont=matrix(c(683585251530258 7461761220225) 72)
chisqtest(tcont)
Pearsons Chi-squared test
data tcont- = = - lt -
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4261
CAP 3ndashb) TH exemplo de teste Quiquadrado chisqtestaov(formula data = NULL )
pag244- ANOVA - Comparaccedilatildeo de trecircs raccedilotildees para suinos
A=c(444943514475425134305342453630
322133421040395246294247453959)
B=c(343640545953445432686954414647
6566455739)
C=c(574040364566395025212927283942
21304143294244582849)
aumentoP=c(ABC)
racao=c(rep(A30)rep(B20) rep(C25))
summaryaov(aov(aumentoP ~ racao))
Df Sum Sq Mean Sq F value Pr(gtF)racao 2 15385 7693 56136 0005425
Residuals 72 98666 1370
---
Signif codes 0 lsquorsquo 0001 lsquorsquo 001 lsquorsquo 005 lsquorsquo 01 lsquo rsquo 1
Warning message
In modelmatrixdefault(mt mf contrasts)
variable racao converted to a factor
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4361
ApecircndicesA-1) Apresentaremos aqui algumas figuras
feitas no R na elaboraccedilatildeo do livro
Achamos que o exame desses coacutedigos acompanhado dos resultados podeser um bom aprendizado um exerciacutecio ou talvez uma recordaccedilatildeo do materialaqui exposto
A-2) Resumo de comandosa) Criaccedilatildeo de dados
b) Informaccedilatildeo de uma Variaacutevel
c) Seleccedilatildeo de dados e manipulaccedilatildeo
d) Estatiacutesticas e operaccedilotildees matemaacuteticas
e) Corte e extraccedilatildeo de dados
f) Operaccedilatildeo com Matrizes
g) Graacuteficos (Plotting)
h) Teste de hipoacuteteses
i) Programming
j) Commandos auxiliaries em Graacuteficos
k) Comando par (Graphical parameters)
l) Input and output
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4461
A1) ndash Pag 14 ndash Figura 15
IDADE=c(616961716371726866697267636663636067716360696463667164706366646969646372736871726968687379)
IMC= c(245273281301254301280234268228255228235232203226239243271227237258213243243248219234216214221227227211268278275267286253239258247284235)
par(mfrow=c(12))hist(IDADE breaks=c(6065707580) ylim=c(020) ylab=Nuacutemero de Observaccedilotildees
main= col=grey right = F)hist(IMC breaks=c(200225250275300325)
ylab=Nuacutemero de Observaccedilotildeesmain= col=grey right = F )
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4561
A1) ndash Pag 44 ndash Figura 21
mat=matrix(c(81823913601818608740)32)
rownames(mat)=c(AtivaSedentaacuteriaTotal)colnames(mat)=c(NormalSobrepeso)barplot(t(mat) beside = TRUE space=c(315)
col=gray(c(79))legend = c(NormalSobrepeso) ylim = c(0 95) ylab= - percentagem)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4661
A1) ndash Pag 48 ndash Figura 22
mat= matrix(c(68154510 66214215 66242519 39161711)44byrow=T)
rownames(mat)=c(18 a 21 anos 22 a 25 anos 26 a 30 anos 31 a 40 anos)colnames(mat)=c(CinTeatSMDEx)mat1=mat for (i in 14) mat1[i]lt-mat1[i]100sum(mat1[i]) par(mfrow=c(12) mai=c(1111) mar=c(5 4 2 2) )barplot(matbeside=F ylim=c(0250) legend = c(18 a 21 anos 22 a 25 anos
26 a 30 anos 31 a 40 anos) xlab=Contagem)
barplot(mat1 beside=F xlab=Percentagem)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4761
A1) ndash Pag 52 ndash Figura 25X= c(184114821789235159118762592403190408372147328526471687
09642871437079238215753399242122530314859149806)y =c(01837012540193301620014230140604568022870231400861019960235302186012798991801254018210244160823
0147764068011818941403474539680150133247023685518102146187520214097090257291227
036282905401406510810113849399)plot(x y xlim=c(07) ylim=c(05) pch=16 bty=l xlab=Renda per capita
ylab=Telefonia Fixa per capita)
abline(lsfit(xy))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4861
A1) ndash Pag 109 ndash Figura 45
x=020
y1=dpois(x1) y2=dpois(x3) y3=dpois(x10)names(y1)=x names(y2)=x names(y3)=xpar(mfrow=c(13))plot(y1ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=1)plot(y2ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=3)plot(y3ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=10)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4961
A1) ndash Pag 118 ndash Figura 412
x=seq(010001)
plot(xdexp(x 12) type=l xlim=c(012) ylim=c(01) bty=l ylab=f(x) eF(x))for(i in seq(0 25 001)) segments(i 0 i dexp(i12) col=lightgrey)abline(v=0 h=0)points(xdexp(x 12) type=l lwd=2 bty=l)points(xpexp(x 12) lwd=2 type=l)segments(250 25pexp(2512))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5061
A1) ndash Pag 163 ndash Figura 68
plot(p xlim=c(618) ylim=c(016) type=n bty=l xaxt=n xlab= ylab=
cexaxis=6)for (i in 1015) rect(i-50 i+5 dbinom(i304) col=lightgrey) lty=2)segments(i0idbinom(i304) lty=2)
x=seq(61801) lines(x dnorm(x12sqrt(72)) lwd=2)x=seq(61801) lines(x dnorm(x12sqrt(72)) lwd=2)
axis(1 916 cexaxis=9) ax s seq cexax s=
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5161
A1) ndash Pag 198 ndash Figura 78
x1=seq(-4402)plot(x1dnorm(x1) type=l lwd=3 xlab= ylab= )lines(x1 dt(x11)) lines(x1 dt(x12)) lines(x1 dt(x15))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5261
A2ndashResumo de comandos
a)Criaccedilatildeo de dados
c()funccedilatildeo geneacuterica para combinar argumentos com o formando de um vetor fromto gera uma sequecircnce ldquordquo tem prioridade de operator pe13 + 1 is ldquo234rdquo
seq(fromtoby) gera uma sequecircncia by= especifica incremento
length= especifica um comprimento desejado
rep(xtimes) replicate x onuacutemero times de vezes use each= para repetir cada
elemento de x rep(c(123)2) gera 1 2 3 1 2 3 rep(c(12)each=2) gera 1 1 2 2
matrix(xnrow=ncol=) matrix elementos de x se reciclam caso x
rbind()combina vetores em linhas num estrutura de matrizes de dados
cbind()combina vetores em colunas num estrutura de matrizes de dados
array(xdim=) matriz com dados x especificar dimensotildees como dim=c(342)
elementos de x se reciclam caso x natildeo seja suficientemente grande
factor(xlevels=) codifica um vetor x como um fator gl(nklength=nklabels=1n) gerar niacuteveis (fatores) especificando
o padratildeo de seus niacuteveis k eacute o nuacutemero de niacuteveis e n eacute o nuacutemero de repeticcedilotildees
dataframe() criar um banco de dados Por exemplo
dataframe(v=14ch=c(gBcasad)n=5)
list()criar uma lista de argumentos Por exemplo list(a=c(12)b=hic=3i)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5361
A2ndashResumo de comandos
b) Informaccedilatildeo de uma Variaacutevellength(x) nuacutemero de elementos em x
dim(x) Obter ou definir a dimensatildeo de um objeto dim (x) = c(32)dimnames(x) Obter ou definir os nomes das dimensotildees de um objeto
nrow(x) nuacutemero de linhas
ncol(x) nuacutemero de colunas
c) Seleccedilatildeo de dados e manipulaccedilatildeochoose(n k) calcula a combinaccedilatildeo de elementos escolhidos entre n
resultando n [(n-k) k]
cut(xbreaks) divide x em intervalos (fatores) breaks eacute o nuacutemero de intervalos de
corte ou um vetor com os valores especiacuteficos
table(x) retorna uma tabela com as quantidades dos diferentes valores de x
(tipicamente para variaacuteveis dos tipos inteiros ou fatores)
sample(x size) retira aleatoriamente com e sem reposiccedilatildeo elementos detamanho SIZE do vetor x a opccedilatildeo replace = TRUE permite a retirada com reposiccedilatildeo
proptable(xmargin=) transforma a tabela como tabela de propoccedilatildeo
marginal margin=1 (com relaccedilatildeo as linhas) margin=2 (com relaccedilatildeo as colunas)
sort(x) Classifica os elementos de x em ordem crescente para classificar em ordem
decrescente rev(sort(x))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5461
A2ndashResumo de comandosd) Estatiacutesticas e operaccedilotildees matemaacuteticasmean(x) media dos elementos de x
median(x) mediana dos elementos de x
quantile(xprobs=) quantis de x correspondendo a uma dada probabilidadevar(x) ou cov(x) variacircncia dos elementos de x (calculado com n-1)
se x eacute uma matriz a matriz de covariacircncia eacute calculada
sd(x) desvio padracirco de of x
cor(x) matriz de correlaccedilatildeo de x se x for uma matriz ou (1 se x eacute um vector)
cor(x y) correlaccedilatildeo linear entre X e Y ou matriz de correlaccedilatildeo se eles satildeo matrizes
round(x n) arredonda os elementos de x para n casas decimais sum x soma os e emen os e x
prod(x) multilica os elementos de x
max(x) acha o maacuteximo dos elementos de x
min(x) acha o miacutenimo dos elementos de x
range(x) equivalente a c(min(x)max(x)
cumsum(x) um vetor onde o eacutesimo elemento eacute a soma de x[1] ateacute x[i]cumprod(x) um vetor onde o eacutesimo elemento eacute o produto de x[1] ateacute x[i]
cummin(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
cummax(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
sincostanasinacosatanatan2loglog10exp)
log(x base) calcula o logaritmo de x na base=base
weightedmean(x w) media ponderada de x com peso= w
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5561
A2ndashResumo de comandos
e) Corte e extraccedilatildeo de dadosindexaccedilatildeo de Vetores
x[n] n-eacutesimo elemento do vetor
x[-n] todos menos o n-eacutesimo elemento
x[1n] os primeiros n elemento
x[-(1n)] elementos de n+1 ateacute o final
x[c(432)] elementos especificados
x[y gt 5] todo elementos de onde os valores de y satildeo maiores que 5
x x gt 3 amp x lt 5 todo elementos entre 3 e 5
x[nome] elemento denominado nome
indexaccedilatildeo de Matrizes
x[ij] elemento na linha i coluna j
x[i] linha i
x[j] coluna j
x[c(13)] colunas 1 and 3
x[nome] linha nomeada nome
indexaccedilatildeo de data frames
x[[nome]] coluna chamada nome
x$nome equivalente a coluna chamada nome
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5661
A2ndashResumo de comandos
f) Operaccedilatildeo com Matrizest(x) transposta da matrix x
diag(x) retira a diagonal da matrix x
multiplicaccedilatildeo matricial
solve(ab) resove a equaccedilatildeo a x = b em relaccedilatildeo a x
solve(a) matriz inversa de a
rowSum(x) soma das linhas da matrix x
colSum(x) soma das colunas da matrix x
rowMeans x meacutedia das linhas da matrix x
colMeans(x) id meacutedia das colunas da matrix x
g) Graacuteficos (Plotting)plot(x y) diagrama de disperccedilatildeo plot dos pares (xy) num sistema de eixos
coordenadoshist(x) histogram dasfrequecircncias of x
barplot(x) graacutefico de barras of x usar horiz=T ara barras horizontal
pie(x) graacutefico de setores (pie-chart)
boxplot(x)
qqnorm(x) quantis de x em relaccedilatildeo aos valores esperados de uma dist Normal
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5761
A2ndashResumo de comandosparametros dos commando de Graacutefico
type=p especifica o tipo de plot p pontos l linhas b pontos
ligados por linhas o idecircntico mas as linhas passam sobre os pontos h
linhas verticais s escada (steps) os dados satildeo representados pelas alturasverticais
xlim= ylim= especifica os limites inferiores e superiores dos eixos por exemplocom xlim=c(1 10) ou xlim=range(x)
xlab= ylab= nomeia os eixos o nome deve ser do tipo caracter
main= tiacutetulo principal deve ser do tipo caracter
sub= sub-tiacutetulo (escrito em fonte menor)
podem ser usados como bty(tipo de caixa) lwd (lagura da linha) lty (tipo delinha) pch(tipo de ponto) cex xaxs yaxs xaxtyaxt
h) Teste de hipoacuteteses
ttest()proptest()
chisqtest()
aov(formula) analysis of variance model
anova(fit) analysis of variance (or deviance) tables for one or more
fitted model objects
Use o commando gt test para procurar todos os testes disponiacuteveis
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5861
A2ndashResumo de comandos
i) Programmingfunction( arglist ) expr para definer uma funccedilatildeo
return(value)
if(cond) expr
if(cond) consexpr else altexpr
for(var in seq) expr
while(cond) expr
re eat ex r
break
Usar chaves entre commandos dlimitando o iniacutecio e o fim de um grupo decomandos
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5961
A2ndashResumo de comandos
j) Commandos auxiliaries em Graacuteficospoints(x y) adiciona pontos (a opccedilatildeo type= pode ser usada)
lines(x y) adiciona linhas (a opccedilatildeo type= pode ser usada)text(x y labels ) adiciona texto na coordenada (xy) um uso tiacutepico eacute
plot(x y type=n) text(x ynames)
segments(x0 y0 x1 y1) desenha linhas do ponto (x0 y0) ao (x1 y1)
arrows(x0 y0 x1 y1 angle= 30 code=2) desenha seta do ponto
(x0 y0) ao (x1 y1)
abline(ab) desenha uma reta de inclinaccedilatildeo b e intercepto a
abline(v=x) desenha uma reta vertical em x
abline(lsfit(xy)) desenha uma reta da regressatildeo feita em lsfit(xy)
rect(x1 y1 x2 y2) desenha um retacircngulo que a esquerda inferior tem coordenadas(x1 y1) e o limite da direita superiores (x2 y2)
polygon(x y) desenha um poliacutegono que une os pontos com coordenadas X e Y
legend(x y legend) Acrescenta a lenda no ponto (x y) com os siacutembolos
dada pela legend
title()adiciona um tiacutetulo e opcionalmente um sub-tiacutetulo
axis(side) acrescenta um eixo na parte inferior (side = 1) agrave esquerda (2) na partesuperior (3) ou agrave direita (4)
box()desenhar uma caixa em torno do plot
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6061
A2ndashResumo de comandos
k) Comando par (Graphical parameters)Todos estes comando podem ser definidos a niacutevel global com o par () que
especifica os paracircmetros mas tambeacutem muitos podem ser usados comoparametros dos commando de Graacutefico
mfcol vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em colunas
mfrow vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em linhas(matrix for row)
bty controla o tipo de caixa desenhada ao redor do enredo valores permitidos satildeo
o l 7 c u ou se bt =n a caixa natildeo eacute desenhada
lty controla o tipo de linhas pode ser um inteiro ou string (1 solid 2 dashed 3dotted 4 dotdash 5 longdash 6twodash) ou uma string de ateacuteoito caracteres (entre 0 e 9) que especifica o comprimento em pontos oupixels dos elementos desenhados e os espaccedilos em branco por exemplolty=rdquo44rdquo equivale a lty=2
lwd nuacutemero que controla a largura das linhas default 1pch controla o tipo de siacutembolo pode tambeacutem ser um nuacutemero inteiro entre 1 e 25
ps um inteiro que controla o tamanho em pontos de textos e siacutembolos
pty um caracter que especifica o tipo da regiatildeo s quadrado m maacuteximal
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6161
A2ndashResumo de comandos
l) Input and outputreadtable(file) lecirc um arquivo em formato de tabela e cria um quadro de dados a
partir dele o separador default = eacute espaccedilo em branco header = TRUE ler a
primeira linha como um cabeccedilalho de nomes de coluna asis = TRUE paraevitar aque um vetore de caracteres seja convertido em factores usocommentchar = para evitar seja interpretado como um comentaacuteriouso skip = n para pular n linhas antes da leitura de dados consulte a ajudapara as opccedilotildees de linha de nomeaccedilatildeo o tratamento NA e outros
readcsv(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por viacutergulas
readdelim(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por tabulaccedilotildees
readfwf(filewidthsheader=FALSEsep= asis=FALSE)
ler uma tabela de dados em formato fix de largura m para um dataframe widthseacute um vetor inteiro informando os tamanhos dos campos
sink(file) saiacuteda de todos os comandos para um arquivo ateacute aparecer um comando
sink () que desliga writetable(x file=rownames=Tcolnames=Tsep= ) imprime x apoacutes a
conversatildeo para banco de dados
save(file) guarda os objetos especificados () no formato XDR
load()carregar o conjunto de dados salvos com o comando save
data(x) carrega um conjunto de dados especificado
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3361
X2=c(rnorm(35011) rnorm(15081)) X2 eacute a Populaccedilatildeo de onde retiramos as amostras
br=seq(-2 12 5)
tcl2modas=function(nN=200titulo= yl=c(0 6)) medias=numeric(N)for (i in 1N) medias[i]= mean(sample(X2nrep=T))hist(mediasbreaks=br xlim=c(-212) tcl=-01 ylim=yl xarp=c(-31216)
tck=005 lab=c(5515) freq=F main=titulo)x=seq(-312 02)
Cap 2-c ndash TCL Coacutedigos no R para elaboraccedilatildeo da figura com
as simulaccedilotildees - Mistura de Normais
points(x dnorm(x med dpsqrt(n) ) type=l lwd=2)
par(mfrow=c(24) mai=c(3011) mar=c(2 2 2 1))
hist(X2 freq=F breaks=seq(-3125) bty=o xlim=c(-212)xarp=c(-31216)tck=005 lab=c(5515) ylim=c(06) main=POPULACcedilAtildeO lwd=2)
tcl2modas(2titulo=n=2)tcl2modas(3titulo=n=3)
tcl2modas(4titulo=n=4)
tcl2modas(5titulo=n=5)
tcl2modas(10titulo=n=10)
tcl2modas(15titulo=n=15)
tcl2modas(25titulo=n=25)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3461
CAP 3-a) Intervalo de ConfianccedilaSeja um estimador pontual do paracircmetro eacute uma variaacutevel aleatoacuteria que varia deamostra para amostra Por isso haacute uma certa dose de incerteza inerente a esse processode estimaccedilatildeo Nosso objetivo agora eacute obter com base nos dados amostrais (da uacutenicaamostra observada) um intervalo ao qual o valor correto do paracircmetro deve ter grandechance de pertencer
bull Detalhando um pouco mais No processo de estimaccedilatildeo por intervalo de um paracircmetro θdevemos determinar um intervalo que contenha o verdadeiro valor do paracircmetro comprobabilidade 1-α onde α eacute um pequeno valor preacute-fixado Este intervalo eacute construiacutedo emgeral em torno do estimador pontual considerando uma margem de erro d de forma aque uma vez fixada a probabilidade 1-α calculemos d tal que P( - d le θ le + d ) = 1 -αChama-se intervalo de confianccedila para θ ao niacutevel 1 - α ao intervalo [ - d + d]
θ $θ
$θ$θ
$θ $θ
$
θ
bull Ou seja o estimador pontual eacute o centro do Intervalo de Confianccedila e o erro absoluto dassociado a define a amplitude desse intervalo O que eacute de fato variaacutevel aleatoacuteria satildeoos extremos do intervalo O paracircmetro tem valor desconhecido natildeo aleatoacuterio (fixo a ser estimado)
Exemplo Intervalo de Confianccedila para a meacutedia populacional com o desvio padratildeo conhecidoO paracircmetro a estimar eacute a meacutedia populacional micro A estimaccedilatildeo seraacute baseada em X1 X2 Xn
uma amostra aleatoacuteria com E(Xi) = micro e var(Xi) = σ2 para todo i = 12 n Queremos que seja
vaacutelida a expressatildeo o que equivale a P [ -d le -micro le d] = 1-α
$θ
X[ ] α1dmicroXP minus=leminus
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3561
bull Lembrando que para n suficientemente grande pelo Teorema Central do Limite a meacutediaamostral segue uma distribuiccedilatildeo que se aproxima da Normal(micromicromicromicro σσσσ2 n) (ou eacute exatamente aNormal(micromicromicromicro σσσσ2 n) no caso em que a distribuiccedilatildeo comum das va Xirsquos jaacute eacute Normal) entatildeo
P [-d le -micromicromicromicro le d] = 1-α rArr 1-α = P [ |Z| le ] Logo d =
bull Faremos uma simulaccedilatildeo para a construccedilatildeo de Intervalos de Confianccedila com 100 amostras dedois tipos de populaccedilatildeo Normal e Exponencial A lista de comandos do R que usamos eacute
ICN = function (N n mu sigma = 3 conf)
plot(0 0 type=n xlim=c(010) ylim=c(0N) bty=l
xlab=Normal ylab=amostras)abline(v=mu)
CAP 3-a) Intervalo de Confianccedila
X
nσ
d
minus
z0 = qnorm(1-((1-conf)2))
sigmaxbarra = sigmasqrt(n)
for (i in 1N)
x = rnorm(n mu sigma)
media = mean(x)
li = media - z0 sigmaxbarrals = media + z0 sigmaxbarra
plotx = c(lils)
ploty = c(ii)
if (li gt mu | ls lt mu) lines(plotxploty col=red)
else lines(plotxploty)
gt ICN(100 25 3 3 95)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3661
CAP 3-a) Intervalo de Confianccedila
ICexp = function (N n lambda conf)
mu=1lambda sigma=1lambda
plot(0 0 type=n xlim=c(010) ylim=c(0N) bty=lxlab=Exponencial ylab=amostras)
abline(v= mu)
z0 = qnorm(1-((1-conf)2))
sigmaxbarra = sigmasqrt(n)
for (i in 1N)
x = rexp(nlambda) me a = mean x
li = media - z0 sigmaxbarra
ls = media + z0 sigmaxbarra
plotx = c(lils)
ploty = c(ii)
if (li gt mu | ls lt mu) lines(plotx ploty col=red)
else lines(plotx ploty)
gt ICexp(100 25 13 95)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3761
CAP 3-b Teste de Hipoacuteteses (TH)O objetivo de um teste de hipoacutetese eacute avaliar a validade de uma afirmaccedilatildeo sobre determinada
caracteriacutestica da populaccedilatildeo usando para isso os dados de uma amostra Essa caracteriacutestica eacute
representada pela va contiacutenua X cujo comportamento probabiliacutestico eacute expresso pela funccedilatildeo dedensidade f com paracircmetro Ө que tem valor desconhecido
Em um teste existem duas hipoacuteteses envolvidas H0 denominada hipoacutetese nula e H1
denominada hipoacutetese alternativa O procedimento de teste de hipoacutetese consiste em estabelecer
um criteacuterio de decisatildeo que leve a Aceitar ou Rejeitar H0 com base nos valores amostrais
A Estatiacutestica de teste eacute uma funccedilatildeo da amostra aleatoacuteria utilizada para definir o criteacuterio de
decisatildeo Estabelecer o criteacuterio de decisatildeo consiste em dividir o conjunto dos valores possiacuteveis
da estatiacutestica de teste em duas partes denominadas Regiatildeo de Aceitaccedilatildeo A e Regiatildeo de
Rejeiccedilatildeo R da hipoacutetese nula
Em um teste de hipoacutetese haacute dois tipos possiacuteveis de erro de decisatildeo
Erro I - Rejeitar H0 quando H0 eacute verdadeira
Erro II - Aceitar H0 quando H0 eacute falsaAs probabilidades de ocorrecircncia dos erros satildeo α = P [ Erro I ] e β = P [ Erro II]
A probabilidade de erro I α eacute o niacutevel de significacircncia do teste cujo valor eacute arbitrado pelo
pesquisador deve ser pequena pois corresponde a probabilidade de um erro (005 ou 001)
O niacutevel criacutetico ou p-valor do teste eacute o menor valor de α para o qual ainda rejeitariacuteamos H0 de
acordo com os dados observados
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3861
CAP 3-b) ndash TH teste tttest(x y = NULL alternative = c(twosided less greater) mu = 0
paired = FALSE varequal = FALSE conflevel = 095 )
Procedimentos de teste de hipoacuteteses com niacutevel de significacircncia α e amostras de tamanho n
UmaAmostra
DuasAmostras
Obs Os testes acima satildeo bilaterais
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3961
CAP 3ndashb) TH exemplo de teste t ndash amostras independentespag233- teste t amostras independente - comparaccedilatildeo log(salaacuterio)
entre os grupos de comeacutercio e de serviccedilo
LogSal=c(1289156912501344145616361573171309060903
0977122011031069128714101496131113371366
1227119114591280115217401649176524101701
1538192419251721154918911534163812071682
120614232010143112651570)
Sal=exp(LogSal)
setor= c(rep(C23) rep(S23))
ttest(Sal[setor==C] Sal[setor==S] varequal=T)
Two Sample t-test
data Sal[setor == C] and Sal[setor == S]
t = -36822 df = 44 p-value = 00006289
alternative hypothesis true difference in means is not equal to 095 percent confidence interval
-23079005 -06751838
sample estimates
mean of x mean of y3786010 5277552
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4061
CAP 3ndashb) TH exemplo de teste t ndash amostra pareadapag237- teste t pareado
P1=c(6315596455545480598065203660986853
8765647785536980827184605572645564)
P2=c(3638306043466455604343523428837155
8238556767443459605968506254473652)
ttest(P1 P2 alt=greater paired = T)
Paired t-test
data P1 and P2
t = 44176 df = 33 p-value = 5072e-05
alternative hypothesis true difference in means is greater than 0
95 percent confidence interval
0716695 Inf
sample estimates
mean of the differences
1161765
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4161
CAP 3ndashb) TH exemplo de teste Quiquadrado chisqtest
pag233- teste Quiquadrado -
tcont=matrix(c(683585251530258 7461761220225) 72)
chisqtest(tcont)
Pearsons Chi-squared test
data tcont- = = - lt -
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4261
CAP 3ndashb) TH exemplo de teste Quiquadrado chisqtestaov(formula data = NULL )
pag244- ANOVA - Comparaccedilatildeo de trecircs raccedilotildees para suinos
A=c(444943514475425134305342453630
322133421040395246294247453959)
B=c(343640545953445432686954414647
6566455739)
C=c(574040364566395025212927283942
21304143294244582849)
aumentoP=c(ABC)
racao=c(rep(A30)rep(B20) rep(C25))
summaryaov(aov(aumentoP ~ racao))
Df Sum Sq Mean Sq F value Pr(gtF)racao 2 15385 7693 56136 0005425
Residuals 72 98666 1370
---
Signif codes 0 lsquorsquo 0001 lsquorsquo 001 lsquorsquo 005 lsquorsquo 01 lsquo rsquo 1
Warning message
In modelmatrixdefault(mt mf contrasts)
variable racao converted to a factor
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4361
ApecircndicesA-1) Apresentaremos aqui algumas figuras
feitas no R na elaboraccedilatildeo do livro
Achamos que o exame desses coacutedigos acompanhado dos resultados podeser um bom aprendizado um exerciacutecio ou talvez uma recordaccedilatildeo do materialaqui exposto
A-2) Resumo de comandosa) Criaccedilatildeo de dados
b) Informaccedilatildeo de uma Variaacutevel
c) Seleccedilatildeo de dados e manipulaccedilatildeo
d) Estatiacutesticas e operaccedilotildees matemaacuteticas
e) Corte e extraccedilatildeo de dados
f) Operaccedilatildeo com Matrizes
g) Graacuteficos (Plotting)
h) Teste de hipoacuteteses
i) Programming
j) Commandos auxiliaries em Graacuteficos
k) Comando par (Graphical parameters)
l) Input and output
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4461
A1) ndash Pag 14 ndash Figura 15
IDADE=c(616961716371726866697267636663636067716360696463667164706366646969646372736871726968687379)
IMC= c(245273281301254301280234268228255228235232203226239243271227237258213243243248219234216214221227227211268278275267286253239258247284235)
par(mfrow=c(12))hist(IDADE breaks=c(6065707580) ylim=c(020) ylab=Nuacutemero de Observaccedilotildees
main= col=grey right = F)hist(IMC breaks=c(200225250275300325)
ylab=Nuacutemero de Observaccedilotildeesmain= col=grey right = F )
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4561
A1) ndash Pag 44 ndash Figura 21
mat=matrix(c(81823913601818608740)32)
rownames(mat)=c(AtivaSedentaacuteriaTotal)colnames(mat)=c(NormalSobrepeso)barplot(t(mat) beside = TRUE space=c(315)
col=gray(c(79))legend = c(NormalSobrepeso) ylim = c(0 95) ylab= - percentagem)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4661
A1) ndash Pag 48 ndash Figura 22
mat= matrix(c(68154510 66214215 66242519 39161711)44byrow=T)
rownames(mat)=c(18 a 21 anos 22 a 25 anos 26 a 30 anos 31 a 40 anos)colnames(mat)=c(CinTeatSMDEx)mat1=mat for (i in 14) mat1[i]lt-mat1[i]100sum(mat1[i]) par(mfrow=c(12) mai=c(1111) mar=c(5 4 2 2) )barplot(matbeside=F ylim=c(0250) legend = c(18 a 21 anos 22 a 25 anos
26 a 30 anos 31 a 40 anos) xlab=Contagem)
barplot(mat1 beside=F xlab=Percentagem)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4761
A1) ndash Pag 52 ndash Figura 25X= c(184114821789235159118762592403190408372147328526471687
09642871437079238215753399242122530314859149806)y =c(01837012540193301620014230140604568022870231400861019960235302186012798991801254018210244160823
0147764068011818941403474539680150133247023685518102146187520214097090257291227
036282905401406510810113849399)plot(x y xlim=c(07) ylim=c(05) pch=16 bty=l xlab=Renda per capita
ylab=Telefonia Fixa per capita)
abline(lsfit(xy))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4861
A1) ndash Pag 109 ndash Figura 45
x=020
y1=dpois(x1) y2=dpois(x3) y3=dpois(x10)names(y1)=x names(y2)=x names(y3)=xpar(mfrow=c(13))plot(y1ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=1)plot(y2ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=3)plot(y3ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=10)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4961
A1) ndash Pag 118 ndash Figura 412
x=seq(010001)
plot(xdexp(x 12) type=l xlim=c(012) ylim=c(01) bty=l ylab=f(x) eF(x))for(i in seq(0 25 001)) segments(i 0 i dexp(i12) col=lightgrey)abline(v=0 h=0)points(xdexp(x 12) type=l lwd=2 bty=l)points(xpexp(x 12) lwd=2 type=l)segments(250 25pexp(2512))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5061
A1) ndash Pag 163 ndash Figura 68
plot(p xlim=c(618) ylim=c(016) type=n bty=l xaxt=n xlab= ylab=
cexaxis=6)for (i in 1015) rect(i-50 i+5 dbinom(i304) col=lightgrey) lty=2)segments(i0idbinom(i304) lty=2)
x=seq(61801) lines(x dnorm(x12sqrt(72)) lwd=2)x=seq(61801) lines(x dnorm(x12sqrt(72)) lwd=2)
axis(1 916 cexaxis=9) ax s seq cexax s=
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5161
A1) ndash Pag 198 ndash Figura 78
x1=seq(-4402)plot(x1dnorm(x1) type=l lwd=3 xlab= ylab= )lines(x1 dt(x11)) lines(x1 dt(x12)) lines(x1 dt(x15))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5261
A2ndashResumo de comandos
a)Criaccedilatildeo de dados
c()funccedilatildeo geneacuterica para combinar argumentos com o formando de um vetor fromto gera uma sequecircnce ldquordquo tem prioridade de operator pe13 + 1 is ldquo234rdquo
seq(fromtoby) gera uma sequecircncia by= especifica incremento
length= especifica um comprimento desejado
rep(xtimes) replicate x onuacutemero times de vezes use each= para repetir cada
elemento de x rep(c(123)2) gera 1 2 3 1 2 3 rep(c(12)each=2) gera 1 1 2 2
matrix(xnrow=ncol=) matrix elementos de x se reciclam caso x
rbind()combina vetores em linhas num estrutura de matrizes de dados
cbind()combina vetores em colunas num estrutura de matrizes de dados
array(xdim=) matriz com dados x especificar dimensotildees como dim=c(342)
elementos de x se reciclam caso x natildeo seja suficientemente grande
factor(xlevels=) codifica um vetor x como um fator gl(nklength=nklabels=1n) gerar niacuteveis (fatores) especificando
o padratildeo de seus niacuteveis k eacute o nuacutemero de niacuteveis e n eacute o nuacutemero de repeticcedilotildees
dataframe() criar um banco de dados Por exemplo
dataframe(v=14ch=c(gBcasad)n=5)
list()criar uma lista de argumentos Por exemplo list(a=c(12)b=hic=3i)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5361
A2ndashResumo de comandos
b) Informaccedilatildeo de uma Variaacutevellength(x) nuacutemero de elementos em x
dim(x) Obter ou definir a dimensatildeo de um objeto dim (x) = c(32)dimnames(x) Obter ou definir os nomes das dimensotildees de um objeto
nrow(x) nuacutemero de linhas
ncol(x) nuacutemero de colunas
c) Seleccedilatildeo de dados e manipulaccedilatildeochoose(n k) calcula a combinaccedilatildeo de elementos escolhidos entre n
resultando n [(n-k) k]
cut(xbreaks) divide x em intervalos (fatores) breaks eacute o nuacutemero de intervalos de
corte ou um vetor com os valores especiacuteficos
table(x) retorna uma tabela com as quantidades dos diferentes valores de x
(tipicamente para variaacuteveis dos tipos inteiros ou fatores)
sample(x size) retira aleatoriamente com e sem reposiccedilatildeo elementos detamanho SIZE do vetor x a opccedilatildeo replace = TRUE permite a retirada com reposiccedilatildeo
proptable(xmargin=) transforma a tabela como tabela de propoccedilatildeo
marginal margin=1 (com relaccedilatildeo as linhas) margin=2 (com relaccedilatildeo as colunas)
sort(x) Classifica os elementos de x em ordem crescente para classificar em ordem
decrescente rev(sort(x))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5461
A2ndashResumo de comandosd) Estatiacutesticas e operaccedilotildees matemaacuteticasmean(x) media dos elementos de x
median(x) mediana dos elementos de x
quantile(xprobs=) quantis de x correspondendo a uma dada probabilidadevar(x) ou cov(x) variacircncia dos elementos de x (calculado com n-1)
se x eacute uma matriz a matriz de covariacircncia eacute calculada
sd(x) desvio padracirco de of x
cor(x) matriz de correlaccedilatildeo de x se x for uma matriz ou (1 se x eacute um vector)
cor(x y) correlaccedilatildeo linear entre X e Y ou matriz de correlaccedilatildeo se eles satildeo matrizes
round(x n) arredonda os elementos de x para n casas decimais sum x soma os e emen os e x
prod(x) multilica os elementos de x
max(x) acha o maacuteximo dos elementos de x
min(x) acha o miacutenimo dos elementos de x
range(x) equivalente a c(min(x)max(x)
cumsum(x) um vetor onde o eacutesimo elemento eacute a soma de x[1] ateacute x[i]cumprod(x) um vetor onde o eacutesimo elemento eacute o produto de x[1] ateacute x[i]
cummin(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
cummax(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
sincostanasinacosatanatan2loglog10exp)
log(x base) calcula o logaritmo de x na base=base
weightedmean(x w) media ponderada de x com peso= w
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5561
A2ndashResumo de comandos
e) Corte e extraccedilatildeo de dadosindexaccedilatildeo de Vetores
x[n] n-eacutesimo elemento do vetor
x[-n] todos menos o n-eacutesimo elemento
x[1n] os primeiros n elemento
x[-(1n)] elementos de n+1 ateacute o final
x[c(432)] elementos especificados
x[y gt 5] todo elementos de onde os valores de y satildeo maiores que 5
x x gt 3 amp x lt 5 todo elementos entre 3 e 5
x[nome] elemento denominado nome
indexaccedilatildeo de Matrizes
x[ij] elemento na linha i coluna j
x[i] linha i
x[j] coluna j
x[c(13)] colunas 1 and 3
x[nome] linha nomeada nome
indexaccedilatildeo de data frames
x[[nome]] coluna chamada nome
x$nome equivalente a coluna chamada nome
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5661
A2ndashResumo de comandos
f) Operaccedilatildeo com Matrizest(x) transposta da matrix x
diag(x) retira a diagonal da matrix x
multiplicaccedilatildeo matricial
solve(ab) resove a equaccedilatildeo a x = b em relaccedilatildeo a x
solve(a) matriz inversa de a
rowSum(x) soma das linhas da matrix x
colSum(x) soma das colunas da matrix x
rowMeans x meacutedia das linhas da matrix x
colMeans(x) id meacutedia das colunas da matrix x
g) Graacuteficos (Plotting)plot(x y) diagrama de disperccedilatildeo plot dos pares (xy) num sistema de eixos
coordenadoshist(x) histogram dasfrequecircncias of x
barplot(x) graacutefico de barras of x usar horiz=T ara barras horizontal
pie(x) graacutefico de setores (pie-chart)
boxplot(x)
qqnorm(x) quantis de x em relaccedilatildeo aos valores esperados de uma dist Normal
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5761
A2ndashResumo de comandosparametros dos commando de Graacutefico
type=p especifica o tipo de plot p pontos l linhas b pontos
ligados por linhas o idecircntico mas as linhas passam sobre os pontos h
linhas verticais s escada (steps) os dados satildeo representados pelas alturasverticais
xlim= ylim= especifica os limites inferiores e superiores dos eixos por exemplocom xlim=c(1 10) ou xlim=range(x)
xlab= ylab= nomeia os eixos o nome deve ser do tipo caracter
main= tiacutetulo principal deve ser do tipo caracter
sub= sub-tiacutetulo (escrito em fonte menor)
podem ser usados como bty(tipo de caixa) lwd (lagura da linha) lty (tipo delinha) pch(tipo de ponto) cex xaxs yaxs xaxtyaxt
h) Teste de hipoacuteteses
ttest()proptest()
chisqtest()
aov(formula) analysis of variance model
anova(fit) analysis of variance (or deviance) tables for one or more
fitted model objects
Use o commando gt test para procurar todos os testes disponiacuteveis
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5861
A2ndashResumo de comandos
i) Programmingfunction( arglist ) expr para definer uma funccedilatildeo
return(value)
if(cond) expr
if(cond) consexpr else altexpr
for(var in seq) expr
while(cond) expr
re eat ex r
break
Usar chaves entre commandos dlimitando o iniacutecio e o fim de um grupo decomandos
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5961
A2ndashResumo de comandos
j) Commandos auxiliaries em Graacuteficospoints(x y) adiciona pontos (a opccedilatildeo type= pode ser usada)
lines(x y) adiciona linhas (a opccedilatildeo type= pode ser usada)text(x y labels ) adiciona texto na coordenada (xy) um uso tiacutepico eacute
plot(x y type=n) text(x ynames)
segments(x0 y0 x1 y1) desenha linhas do ponto (x0 y0) ao (x1 y1)
arrows(x0 y0 x1 y1 angle= 30 code=2) desenha seta do ponto
(x0 y0) ao (x1 y1)
abline(ab) desenha uma reta de inclinaccedilatildeo b e intercepto a
abline(v=x) desenha uma reta vertical em x
abline(lsfit(xy)) desenha uma reta da regressatildeo feita em lsfit(xy)
rect(x1 y1 x2 y2) desenha um retacircngulo que a esquerda inferior tem coordenadas(x1 y1) e o limite da direita superiores (x2 y2)
polygon(x y) desenha um poliacutegono que une os pontos com coordenadas X e Y
legend(x y legend) Acrescenta a lenda no ponto (x y) com os siacutembolos
dada pela legend
title()adiciona um tiacutetulo e opcionalmente um sub-tiacutetulo
axis(side) acrescenta um eixo na parte inferior (side = 1) agrave esquerda (2) na partesuperior (3) ou agrave direita (4)
box()desenhar uma caixa em torno do plot
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6061
A2ndashResumo de comandos
k) Comando par (Graphical parameters)Todos estes comando podem ser definidos a niacutevel global com o par () que
especifica os paracircmetros mas tambeacutem muitos podem ser usados comoparametros dos commando de Graacutefico
mfcol vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em colunas
mfrow vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em linhas(matrix for row)
bty controla o tipo de caixa desenhada ao redor do enredo valores permitidos satildeo
o l 7 c u ou se bt =n a caixa natildeo eacute desenhada
lty controla o tipo de linhas pode ser um inteiro ou string (1 solid 2 dashed 3dotted 4 dotdash 5 longdash 6twodash) ou uma string de ateacuteoito caracteres (entre 0 e 9) que especifica o comprimento em pontos oupixels dos elementos desenhados e os espaccedilos em branco por exemplolty=rdquo44rdquo equivale a lty=2
lwd nuacutemero que controla a largura das linhas default 1pch controla o tipo de siacutembolo pode tambeacutem ser um nuacutemero inteiro entre 1 e 25
ps um inteiro que controla o tamanho em pontos de textos e siacutembolos
pty um caracter que especifica o tipo da regiatildeo s quadrado m maacuteximal
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6161
A2ndashResumo de comandos
l) Input and outputreadtable(file) lecirc um arquivo em formato de tabela e cria um quadro de dados a
partir dele o separador default = eacute espaccedilo em branco header = TRUE ler a
primeira linha como um cabeccedilalho de nomes de coluna asis = TRUE paraevitar aque um vetore de caracteres seja convertido em factores usocommentchar = para evitar seja interpretado como um comentaacuteriouso skip = n para pular n linhas antes da leitura de dados consulte a ajudapara as opccedilotildees de linha de nomeaccedilatildeo o tratamento NA e outros
readcsv(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por viacutergulas
readdelim(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por tabulaccedilotildees
readfwf(filewidthsheader=FALSEsep= asis=FALSE)
ler uma tabela de dados em formato fix de largura m para um dataframe widthseacute um vetor inteiro informando os tamanhos dos campos
sink(file) saiacuteda de todos os comandos para um arquivo ateacute aparecer um comando
sink () que desliga writetable(x file=rownames=Tcolnames=Tsep= ) imprime x apoacutes a
conversatildeo para banco de dados
save(file) guarda os objetos especificados () no formato XDR
load()carregar o conjunto de dados salvos com o comando save
data(x) carrega um conjunto de dados especificado
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3461
CAP 3-a) Intervalo de ConfianccedilaSeja um estimador pontual do paracircmetro eacute uma variaacutevel aleatoacuteria que varia deamostra para amostra Por isso haacute uma certa dose de incerteza inerente a esse processode estimaccedilatildeo Nosso objetivo agora eacute obter com base nos dados amostrais (da uacutenicaamostra observada) um intervalo ao qual o valor correto do paracircmetro deve ter grandechance de pertencer
bull Detalhando um pouco mais No processo de estimaccedilatildeo por intervalo de um paracircmetro θdevemos determinar um intervalo que contenha o verdadeiro valor do paracircmetro comprobabilidade 1-α onde α eacute um pequeno valor preacute-fixado Este intervalo eacute construiacutedo emgeral em torno do estimador pontual considerando uma margem de erro d de forma aque uma vez fixada a probabilidade 1-α calculemos d tal que P( - d le θ le + d ) = 1 -αChama-se intervalo de confianccedila para θ ao niacutevel 1 - α ao intervalo [ - d + d]
θ $θ
$θ$θ
$θ $θ
$
θ
bull Ou seja o estimador pontual eacute o centro do Intervalo de Confianccedila e o erro absoluto dassociado a define a amplitude desse intervalo O que eacute de fato variaacutevel aleatoacuteria satildeoos extremos do intervalo O paracircmetro tem valor desconhecido natildeo aleatoacuterio (fixo a ser estimado)
Exemplo Intervalo de Confianccedila para a meacutedia populacional com o desvio padratildeo conhecidoO paracircmetro a estimar eacute a meacutedia populacional micro A estimaccedilatildeo seraacute baseada em X1 X2 Xn
uma amostra aleatoacuteria com E(Xi) = micro e var(Xi) = σ2 para todo i = 12 n Queremos que seja
vaacutelida a expressatildeo o que equivale a P [ -d le -micro le d] = 1-α
$θ
X[ ] α1dmicroXP minus=leminus
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3561
bull Lembrando que para n suficientemente grande pelo Teorema Central do Limite a meacutediaamostral segue uma distribuiccedilatildeo que se aproxima da Normal(micromicromicromicro σσσσ2 n) (ou eacute exatamente aNormal(micromicromicromicro σσσσ2 n) no caso em que a distribuiccedilatildeo comum das va Xirsquos jaacute eacute Normal) entatildeo
P [-d le -micromicromicromicro le d] = 1-α rArr 1-α = P [ |Z| le ] Logo d =
bull Faremos uma simulaccedilatildeo para a construccedilatildeo de Intervalos de Confianccedila com 100 amostras dedois tipos de populaccedilatildeo Normal e Exponencial A lista de comandos do R que usamos eacute
ICN = function (N n mu sigma = 3 conf)
plot(0 0 type=n xlim=c(010) ylim=c(0N) bty=l
xlab=Normal ylab=amostras)abline(v=mu)
CAP 3-a) Intervalo de Confianccedila
X
nσ
d
minus
z0 = qnorm(1-((1-conf)2))
sigmaxbarra = sigmasqrt(n)
for (i in 1N)
x = rnorm(n mu sigma)
media = mean(x)
li = media - z0 sigmaxbarrals = media + z0 sigmaxbarra
plotx = c(lils)
ploty = c(ii)
if (li gt mu | ls lt mu) lines(plotxploty col=red)
else lines(plotxploty)
gt ICN(100 25 3 3 95)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3661
CAP 3-a) Intervalo de Confianccedila
ICexp = function (N n lambda conf)
mu=1lambda sigma=1lambda
plot(0 0 type=n xlim=c(010) ylim=c(0N) bty=lxlab=Exponencial ylab=amostras)
abline(v= mu)
z0 = qnorm(1-((1-conf)2))
sigmaxbarra = sigmasqrt(n)
for (i in 1N)
x = rexp(nlambda) me a = mean x
li = media - z0 sigmaxbarra
ls = media + z0 sigmaxbarra
plotx = c(lils)
ploty = c(ii)
if (li gt mu | ls lt mu) lines(plotx ploty col=red)
else lines(plotx ploty)
gt ICexp(100 25 13 95)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3761
CAP 3-b Teste de Hipoacuteteses (TH)O objetivo de um teste de hipoacutetese eacute avaliar a validade de uma afirmaccedilatildeo sobre determinada
caracteriacutestica da populaccedilatildeo usando para isso os dados de uma amostra Essa caracteriacutestica eacute
representada pela va contiacutenua X cujo comportamento probabiliacutestico eacute expresso pela funccedilatildeo dedensidade f com paracircmetro Ө que tem valor desconhecido
Em um teste existem duas hipoacuteteses envolvidas H0 denominada hipoacutetese nula e H1
denominada hipoacutetese alternativa O procedimento de teste de hipoacutetese consiste em estabelecer
um criteacuterio de decisatildeo que leve a Aceitar ou Rejeitar H0 com base nos valores amostrais
A Estatiacutestica de teste eacute uma funccedilatildeo da amostra aleatoacuteria utilizada para definir o criteacuterio de
decisatildeo Estabelecer o criteacuterio de decisatildeo consiste em dividir o conjunto dos valores possiacuteveis
da estatiacutestica de teste em duas partes denominadas Regiatildeo de Aceitaccedilatildeo A e Regiatildeo de
Rejeiccedilatildeo R da hipoacutetese nula
Em um teste de hipoacutetese haacute dois tipos possiacuteveis de erro de decisatildeo
Erro I - Rejeitar H0 quando H0 eacute verdadeira
Erro II - Aceitar H0 quando H0 eacute falsaAs probabilidades de ocorrecircncia dos erros satildeo α = P [ Erro I ] e β = P [ Erro II]
A probabilidade de erro I α eacute o niacutevel de significacircncia do teste cujo valor eacute arbitrado pelo
pesquisador deve ser pequena pois corresponde a probabilidade de um erro (005 ou 001)
O niacutevel criacutetico ou p-valor do teste eacute o menor valor de α para o qual ainda rejeitariacuteamos H0 de
acordo com os dados observados
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3861
CAP 3-b) ndash TH teste tttest(x y = NULL alternative = c(twosided less greater) mu = 0
paired = FALSE varequal = FALSE conflevel = 095 )
Procedimentos de teste de hipoacuteteses com niacutevel de significacircncia α e amostras de tamanho n
UmaAmostra
DuasAmostras
Obs Os testes acima satildeo bilaterais
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3961
CAP 3ndashb) TH exemplo de teste t ndash amostras independentespag233- teste t amostras independente - comparaccedilatildeo log(salaacuterio)
entre os grupos de comeacutercio e de serviccedilo
LogSal=c(1289156912501344145616361573171309060903
0977122011031069128714101496131113371366
1227119114591280115217401649176524101701
1538192419251721154918911534163812071682
120614232010143112651570)
Sal=exp(LogSal)
setor= c(rep(C23) rep(S23))
ttest(Sal[setor==C] Sal[setor==S] varequal=T)
Two Sample t-test
data Sal[setor == C] and Sal[setor == S]
t = -36822 df = 44 p-value = 00006289
alternative hypothesis true difference in means is not equal to 095 percent confidence interval
-23079005 -06751838
sample estimates
mean of x mean of y3786010 5277552
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4061
CAP 3ndashb) TH exemplo de teste t ndash amostra pareadapag237- teste t pareado
P1=c(6315596455545480598065203660986853
8765647785536980827184605572645564)
P2=c(3638306043466455604343523428837155
8238556767443459605968506254473652)
ttest(P1 P2 alt=greater paired = T)
Paired t-test
data P1 and P2
t = 44176 df = 33 p-value = 5072e-05
alternative hypothesis true difference in means is greater than 0
95 percent confidence interval
0716695 Inf
sample estimates
mean of the differences
1161765
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4161
CAP 3ndashb) TH exemplo de teste Quiquadrado chisqtest
pag233- teste Quiquadrado -
tcont=matrix(c(683585251530258 7461761220225) 72)
chisqtest(tcont)
Pearsons Chi-squared test
data tcont- = = - lt -
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4261
CAP 3ndashb) TH exemplo de teste Quiquadrado chisqtestaov(formula data = NULL )
pag244- ANOVA - Comparaccedilatildeo de trecircs raccedilotildees para suinos
A=c(444943514475425134305342453630
322133421040395246294247453959)
B=c(343640545953445432686954414647
6566455739)
C=c(574040364566395025212927283942
21304143294244582849)
aumentoP=c(ABC)
racao=c(rep(A30)rep(B20) rep(C25))
summaryaov(aov(aumentoP ~ racao))
Df Sum Sq Mean Sq F value Pr(gtF)racao 2 15385 7693 56136 0005425
Residuals 72 98666 1370
---
Signif codes 0 lsquorsquo 0001 lsquorsquo 001 lsquorsquo 005 lsquorsquo 01 lsquo rsquo 1
Warning message
In modelmatrixdefault(mt mf contrasts)
variable racao converted to a factor
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4361
ApecircndicesA-1) Apresentaremos aqui algumas figuras
feitas no R na elaboraccedilatildeo do livro
Achamos que o exame desses coacutedigos acompanhado dos resultados podeser um bom aprendizado um exerciacutecio ou talvez uma recordaccedilatildeo do materialaqui exposto
A-2) Resumo de comandosa) Criaccedilatildeo de dados
b) Informaccedilatildeo de uma Variaacutevel
c) Seleccedilatildeo de dados e manipulaccedilatildeo
d) Estatiacutesticas e operaccedilotildees matemaacuteticas
e) Corte e extraccedilatildeo de dados
f) Operaccedilatildeo com Matrizes
g) Graacuteficos (Plotting)
h) Teste de hipoacuteteses
i) Programming
j) Commandos auxiliaries em Graacuteficos
k) Comando par (Graphical parameters)
l) Input and output
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4461
A1) ndash Pag 14 ndash Figura 15
IDADE=c(616961716371726866697267636663636067716360696463667164706366646969646372736871726968687379)
IMC= c(245273281301254301280234268228255228235232203226239243271227237258213243243248219234216214221227227211268278275267286253239258247284235)
par(mfrow=c(12))hist(IDADE breaks=c(6065707580) ylim=c(020) ylab=Nuacutemero de Observaccedilotildees
main= col=grey right = F)hist(IMC breaks=c(200225250275300325)
ylab=Nuacutemero de Observaccedilotildeesmain= col=grey right = F )
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4561
A1) ndash Pag 44 ndash Figura 21
mat=matrix(c(81823913601818608740)32)
rownames(mat)=c(AtivaSedentaacuteriaTotal)colnames(mat)=c(NormalSobrepeso)barplot(t(mat) beside = TRUE space=c(315)
col=gray(c(79))legend = c(NormalSobrepeso) ylim = c(0 95) ylab= - percentagem)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4661
A1) ndash Pag 48 ndash Figura 22
mat= matrix(c(68154510 66214215 66242519 39161711)44byrow=T)
rownames(mat)=c(18 a 21 anos 22 a 25 anos 26 a 30 anos 31 a 40 anos)colnames(mat)=c(CinTeatSMDEx)mat1=mat for (i in 14) mat1[i]lt-mat1[i]100sum(mat1[i]) par(mfrow=c(12) mai=c(1111) mar=c(5 4 2 2) )barplot(matbeside=F ylim=c(0250) legend = c(18 a 21 anos 22 a 25 anos
26 a 30 anos 31 a 40 anos) xlab=Contagem)
barplot(mat1 beside=F xlab=Percentagem)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4761
A1) ndash Pag 52 ndash Figura 25X= c(184114821789235159118762592403190408372147328526471687
09642871437079238215753399242122530314859149806)y =c(01837012540193301620014230140604568022870231400861019960235302186012798991801254018210244160823
0147764068011818941403474539680150133247023685518102146187520214097090257291227
036282905401406510810113849399)plot(x y xlim=c(07) ylim=c(05) pch=16 bty=l xlab=Renda per capita
ylab=Telefonia Fixa per capita)
abline(lsfit(xy))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4861
A1) ndash Pag 109 ndash Figura 45
x=020
y1=dpois(x1) y2=dpois(x3) y3=dpois(x10)names(y1)=x names(y2)=x names(y3)=xpar(mfrow=c(13))plot(y1ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=1)plot(y2ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=3)plot(y3ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=10)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4961
A1) ndash Pag 118 ndash Figura 412
x=seq(010001)
plot(xdexp(x 12) type=l xlim=c(012) ylim=c(01) bty=l ylab=f(x) eF(x))for(i in seq(0 25 001)) segments(i 0 i dexp(i12) col=lightgrey)abline(v=0 h=0)points(xdexp(x 12) type=l lwd=2 bty=l)points(xpexp(x 12) lwd=2 type=l)segments(250 25pexp(2512))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5061
A1) ndash Pag 163 ndash Figura 68
plot(p xlim=c(618) ylim=c(016) type=n bty=l xaxt=n xlab= ylab=
cexaxis=6)for (i in 1015) rect(i-50 i+5 dbinom(i304) col=lightgrey) lty=2)segments(i0idbinom(i304) lty=2)
x=seq(61801) lines(x dnorm(x12sqrt(72)) lwd=2)x=seq(61801) lines(x dnorm(x12sqrt(72)) lwd=2)
axis(1 916 cexaxis=9) ax s seq cexax s=
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5161
A1) ndash Pag 198 ndash Figura 78
x1=seq(-4402)plot(x1dnorm(x1) type=l lwd=3 xlab= ylab= )lines(x1 dt(x11)) lines(x1 dt(x12)) lines(x1 dt(x15))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5261
A2ndashResumo de comandos
a)Criaccedilatildeo de dados
c()funccedilatildeo geneacuterica para combinar argumentos com o formando de um vetor fromto gera uma sequecircnce ldquordquo tem prioridade de operator pe13 + 1 is ldquo234rdquo
seq(fromtoby) gera uma sequecircncia by= especifica incremento
length= especifica um comprimento desejado
rep(xtimes) replicate x onuacutemero times de vezes use each= para repetir cada
elemento de x rep(c(123)2) gera 1 2 3 1 2 3 rep(c(12)each=2) gera 1 1 2 2
matrix(xnrow=ncol=) matrix elementos de x se reciclam caso x
rbind()combina vetores em linhas num estrutura de matrizes de dados
cbind()combina vetores em colunas num estrutura de matrizes de dados
array(xdim=) matriz com dados x especificar dimensotildees como dim=c(342)
elementos de x se reciclam caso x natildeo seja suficientemente grande
factor(xlevels=) codifica um vetor x como um fator gl(nklength=nklabels=1n) gerar niacuteveis (fatores) especificando
o padratildeo de seus niacuteveis k eacute o nuacutemero de niacuteveis e n eacute o nuacutemero de repeticcedilotildees
dataframe() criar um banco de dados Por exemplo
dataframe(v=14ch=c(gBcasad)n=5)
list()criar uma lista de argumentos Por exemplo list(a=c(12)b=hic=3i)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5361
A2ndashResumo de comandos
b) Informaccedilatildeo de uma Variaacutevellength(x) nuacutemero de elementos em x
dim(x) Obter ou definir a dimensatildeo de um objeto dim (x) = c(32)dimnames(x) Obter ou definir os nomes das dimensotildees de um objeto
nrow(x) nuacutemero de linhas
ncol(x) nuacutemero de colunas
c) Seleccedilatildeo de dados e manipulaccedilatildeochoose(n k) calcula a combinaccedilatildeo de elementos escolhidos entre n
resultando n [(n-k) k]
cut(xbreaks) divide x em intervalos (fatores) breaks eacute o nuacutemero de intervalos de
corte ou um vetor com os valores especiacuteficos
table(x) retorna uma tabela com as quantidades dos diferentes valores de x
(tipicamente para variaacuteveis dos tipos inteiros ou fatores)
sample(x size) retira aleatoriamente com e sem reposiccedilatildeo elementos detamanho SIZE do vetor x a opccedilatildeo replace = TRUE permite a retirada com reposiccedilatildeo
proptable(xmargin=) transforma a tabela como tabela de propoccedilatildeo
marginal margin=1 (com relaccedilatildeo as linhas) margin=2 (com relaccedilatildeo as colunas)
sort(x) Classifica os elementos de x em ordem crescente para classificar em ordem
decrescente rev(sort(x))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5461
A2ndashResumo de comandosd) Estatiacutesticas e operaccedilotildees matemaacuteticasmean(x) media dos elementos de x
median(x) mediana dos elementos de x
quantile(xprobs=) quantis de x correspondendo a uma dada probabilidadevar(x) ou cov(x) variacircncia dos elementos de x (calculado com n-1)
se x eacute uma matriz a matriz de covariacircncia eacute calculada
sd(x) desvio padracirco de of x
cor(x) matriz de correlaccedilatildeo de x se x for uma matriz ou (1 se x eacute um vector)
cor(x y) correlaccedilatildeo linear entre X e Y ou matriz de correlaccedilatildeo se eles satildeo matrizes
round(x n) arredonda os elementos de x para n casas decimais sum x soma os e emen os e x
prod(x) multilica os elementos de x
max(x) acha o maacuteximo dos elementos de x
min(x) acha o miacutenimo dos elementos de x
range(x) equivalente a c(min(x)max(x)
cumsum(x) um vetor onde o eacutesimo elemento eacute a soma de x[1] ateacute x[i]cumprod(x) um vetor onde o eacutesimo elemento eacute o produto de x[1] ateacute x[i]
cummin(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
cummax(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
sincostanasinacosatanatan2loglog10exp)
log(x base) calcula o logaritmo de x na base=base
weightedmean(x w) media ponderada de x com peso= w
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5561
A2ndashResumo de comandos
e) Corte e extraccedilatildeo de dadosindexaccedilatildeo de Vetores
x[n] n-eacutesimo elemento do vetor
x[-n] todos menos o n-eacutesimo elemento
x[1n] os primeiros n elemento
x[-(1n)] elementos de n+1 ateacute o final
x[c(432)] elementos especificados
x[y gt 5] todo elementos de onde os valores de y satildeo maiores que 5
x x gt 3 amp x lt 5 todo elementos entre 3 e 5
x[nome] elemento denominado nome
indexaccedilatildeo de Matrizes
x[ij] elemento na linha i coluna j
x[i] linha i
x[j] coluna j
x[c(13)] colunas 1 and 3
x[nome] linha nomeada nome
indexaccedilatildeo de data frames
x[[nome]] coluna chamada nome
x$nome equivalente a coluna chamada nome
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5661
A2ndashResumo de comandos
f) Operaccedilatildeo com Matrizest(x) transposta da matrix x
diag(x) retira a diagonal da matrix x
multiplicaccedilatildeo matricial
solve(ab) resove a equaccedilatildeo a x = b em relaccedilatildeo a x
solve(a) matriz inversa de a
rowSum(x) soma das linhas da matrix x
colSum(x) soma das colunas da matrix x
rowMeans x meacutedia das linhas da matrix x
colMeans(x) id meacutedia das colunas da matrix x
g) Graacuteficos (Plotting)plot(x y) diagrama de disperccedilatildeo plot dos pares (xy) num sistema de eixos
coordenadoshist(x) histogram dasfrequecircncias of x
barplot(x) graacutefico de barras of x usar horiz=T ara barras horizontal
pie(x) graacutefico de setores (pie-chart)
boxplot(x)
qqnorm(x) quantis de x em relaccedilatildeo aos valores esperados de uma dist Normal
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5761
A2ndashResumo de comandosparametros dos commando de Graacutefico
type=p especifica o tipo de plot p pontos l linhas b pontos
ligados por linhas o idecircntico mas as linhas passam sobre os pontos h
linhas verticais s escada (steps) os dados satildeo representados pelas alturasverticais
xlim= ylim= especifica os limites inferiores e superiores dos eixos por exemplocom xlim=c(1 10) ou xlim=range(x)
xlab= ylab= nomeia os eixos o nome deve ser do tipo caracter
main= tiacutetulo principal deve ser do tipo caracter
sub= sub-tiacutetulo (escrito em fonte menor)
podem ser usados como bty(tipo de caixa) lwd (lagura da linha) lty (tipo delinha) pch(tipo de ponto) cex xaxs yaxs xaxtyaxt
h) Teste de hipoacuteteses
ttest()proptest()
chisqtest()
aov(formula) analysis of variance model
anova(fit) analysis of variance (or deviance) tables for one or more
fitted model objects
Use o commando gt test para procurar todos os testes disponiacuteveis
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5861
A2ndashResumo de comandos
i) Programmingfunction( arglist ) expr para definer uma funccedilatildeo
return(value)
if(cond) expr
if(cond) consexpr else altexpr
for(var in seq) expr
while(cond) expr
re eat ex r
break
Usar chaves entre commandos dlimitando o iniacutecio e o fim de um grupo decomandos
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5961
A2ndashResumo de comandos
j) Commandos auxiliaries em Graacuteficospoints(x y) adiciona pontos (a opccedilatildeo type= pode ser usada)
lines(x y) adiciona linhas (a opccedilatildeo type= pode ser usada)text(x y labels ) adiciona texto na coordenada (xy) um uso tiacutepico eacute
plot(x y type=n) text(x ynames)
segments(x0 y0 x1 y1) desenha linhas do ponto (x0 y0) ao (x1 y1)
arrows(x0 y0 x1 y1 angle= 30 code=2) desenha seta do ponto
(x0 y0) ao (x1 y1)
abline(ab) desenha uma reta de inclinaccedilatildeo b e intercepto a
abline(v=x) desenha uma reta vertical em x
abline(lsfit(xy)) desenha uma reta da regressatildeo feita em lsfit(xy)
rect(x1 y1 x2 y2) desenha um retacircngulo que a esquerda inferior tem coordenadas(x1 y1) e o limite da direita superiores (x2 y2)
polygon(x y) desenha um poliacutegono que une os pontos com coordenadas X e Y
legend(x y legend) Acrescenta a lenda no ponto (x y) com os siacutembolos
dada pela legend
title()adiciona um tiacutetulo e opcionalmente um sub-tiacutetulo
axis(side) acrescenta um eixo na parte inferior (side = 1) agrave esquerda (2) na partesuperior (3) ou agrave direita (4)
box()desenhar uma caixa em torno do plot
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6061
A2ndashResumo de comandos
k) Comando par (Graphical parameters)Todos estes comando podem ser definidos a niacutevel global com o par () que
especifica os paracircmetros mas tambeacutem muitos podem ser usados comoparametros dos commando de Graacutefico
mfcol vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em colunas
mfrow vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em linhas(matrix for row)
bty controla o tipo de caixa desenhada ao redor do enredo valores permitidos satildeo
o l 7 c u ou se bt =n a caixa natildeo eacute desenhada
lty controla o tipo de linhas pode ser um inteiro ou string (1 solid 2 dashed 3dotted 4 dotdash 5 longdash 6twodash) ou uma string de ateacuteoito caracteres (entre 0 e 9) que especifica o comprimento em pontos oupixels dos elementos desenhados e os espaccedilos em branco por exemplolty=rdquo44rdquo equivale a lty=2
lwd nuacutemero que controla a largura das linhas default 1pch controla o tipo de siacutembolo pode tambeacutem ser um nuacutemero inteiro entre 1 e 25
ps um inteiro que controla o tamanho em pontos de textos e siacutembolos
pty um caracter que especifica o tipo da regiatildeo s quadrado m maacuteximal
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6161
A2ndashResumo de comandos
l) Input and outputreadtable(file) lecirc um arquivo em formato de tabela e cria um quadro de dados a
partir dele o separador default = eacute espaccedilo em branco header = TRUE ler a
primeira linha como um cabeccedilalho de nomes de coluna asis = TRUE paraevitar aque um vetore de caracteres seja convertido em factores usocommentchar = para evitar seja interpretado como um comentaacuteriouso skip = n para pular n linhas antes da leitura de dados consulte a ajudapara as opccedilotildees de linha de nomeaccedilatildeo o tratamento NA e outros
readcsv(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por viacutergulas
readdelim(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por tabulaccedilotildees
readfwf(filewidthsheader=FALSEsep= asis=FALSE)
ler uma tabela de dados em formato fix de largura m para um dataframe widthseacute um vetor inteiro informando os tamanhos dos campos
sink(file) saiacuteda de todos os comandos para um arquivo ateacute aparecer um comando
sink () que desliga writetable(x file=rownames=Tcolnames=Tsep= ) imprime x apoacutes a
conversatildeo para banco de dados
save(file) guarda os objetos especificados () no formato XDR
load()carregar o conjunto de dados salvos com o comando save
data(x) carrega um conjunto de dados especificado
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3561
bull Lembrando que para n suficientemente grande pelo Teorema Central do Limite a meacutediaamostral segue uma distribuiccedilatildeo que se aproxima da Normal(micromicromicromicro σσσσ2 n) (ou eacute exatamente aNormal(micromicromicromicro σσσσ2 n) no caso em que a distribuiccedilatildeo comum das va Xirsquos jaacute eacute Normal) entatildeo
P [-d le -micromicromicromicro le d] = 1-α rArr 1-α = P [ |Z| le ] Logo d =
bull Faremos uma simulaccedilatildeo para a construccedilatildeo de Intervalos de Confianccedila com 100 amostras dedois tipos de populaccedilatildeo Normal e Exponencial A lista de comandos do R que usamos eacute
ICN = function (N n mu sigma = 3 conf)
plot(0 0 type=n xlim=c(010) ylim=c(0N) bty=l
xlab=Normal ylab=amostras)abline(v=mu)
CAP 3-a) Intervalo de Confianccedila
X
nσ
d
minus
z0 = qnorm(1-((1-conf)2))
sigmaxbarra = sigmasqrt(n)
for (i in 1N)
x = rnorm(n mu sigma)
media = mean(x)
li = media - z0 sigmaxbarrals = media + z0 sigmaxbarra
plotx = c(lils)
ploty = c(ii)
if (li gt mu | ls lt mu) lines(plotxploty col=red)
else lines(plotxploty)
gt ICN(100 25 3 3 95)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3661
CAP 3-a) Intervalo de Confianccedila
ICexp = function (N n lambda conf)
mu=1lambda sigma=1lambda
plot(0 0 type=n xlim=c(010) ylim=c(0N) bty=lxlab=Exponencial ylab=amostras)
abline(v= mu)
z0 = qnorm(1-((1-conf)2))
sigmaxbarra = sigmasqrt(n)
for (i in 1N)
x = rexp(nlambda) me a = mean x
li = media - z0 sigmaxbarra
ls = media + z0 sigmaxbarra
plotx = c(lils)
ploty = c(ii)
if (li gt mu | ls lt mu) lines(plotx ploty col=red)
else lines(plotx ploty)
gt ICexp(100 25 13 95)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3761
CAP 3-b Teste de Hipoacuteteses (TH)O objetivo de um teste de hipoacutetese eacute avaliar a validade de uma afirmaccedilatildeo sobre determinada
caracteriacutestica da populaccedilatildeo usando para isso os dados de uma amostra Essa caracteriacutestica eacute
representada pela va contiacutenua X cujo comportamento probabiliacutestico eacute expresso pela funccedilatildeo dedensidade f com paracircmetro Ө que tem valor desconhecido
Em um teste existem duas hipoacuteteses envolvidas H0 denominada hipoacutetese nula e H1
denominada hipoacutetese alternativa O procedimento de teste de hipoacutetese consiste em estabelecer
um criteacuterio de decisatildeo que leve a Aceitar ou Rejeitar H0 com base nos valores amostrais
A Estatiacutestica de teste eacute uma funccedilatildeo da amostra aleatoacuteria utilizada para definir o criteacuterio de
decisatildeo Estabelecer o criteacuterio de decisatildeo consiste em dividir o conjunto dos valores possiacuteveis
da estatiacutestica de teste em duas partes denominadas Regiatildeo de Aceitaccedilatildeo A e Regiatildeo de
Rejeiccedilatildeo R da hipoacutetese nula
Em um teste de hipoacutetese haacute dois tipos possiacuteveis de erro de decisatildeo
Erro I - Rejeitar H0 quando H0 eacute verdadeira
Erro II - Aceitar H0 quando H0 eacute falsaAs probabilidades de ocorrecircncia dos erros satildeo α = P [ Erro I ] e β = P [ Erro II]
A probabilidade de erro I α eacute o niacutevel de significacircncia do teste cujo valor eacute arbitrado pelo
pesquisador deve ser pequena pois corresponde a probabilidade de um erro (005 ou 001)
O niacutevel criacutetico ou p-valor do teste eacute o menor valor de α para o qual ainda rejeitariacuteamos H0 de
acordo com os dados observados
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3861
CAP 3-b) ndash TH teste tttest(x y = NULL alternative = c(twosided less greater) mu = 0
paired = FALSE varequal = FALSE conflevel = 095 )
Procedimentos de teste de hipoacuteteses com niacutevel de significacircncia α e amostras de tamanho n
UmaAmostra
DuasAmostras
Obs Os testes acima satildeo bilaterais
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3961
CAP 3ndashb) TH exemplo de teste t ndash amostras independentespag233- teste t amostras independente - comparaccedilatildeo log(salaacuterio)
entre os grupos de comeacutercio e de serviccedilo
LogSal=c(1289156912501344145616361573171309060903
0977122011031069128714101496131113371366
1227119114591280115217401649176524101701
1538192419251721154918911534163812071682
120614232010143112651570)
Sal=exp(LogSal)
setor= c(rep(C23) rep(S23))
ttest(Sal[setor==C] Sal[setor==S] varequal=T)
Two Sample t-test
data Sal[setor == C] and Sal[setor == S]
t = -36822 df = 44 p-value = 00006289
alternative hypothesis true difference in means is not equal to 095 percent confidence interval
-23079005 -06751838
sample estimates
mean of x mean of y3786010 5277552
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4061
CAP 3ndashb) TH exemplo de teste t ndash amostra pareadapag237- teste t pareado
P1=c(6315596455545480598065203660986853
8765647785536980827184605572645564)
P2=c(3638306043466455604343523428837155
8238556767443459605968506254473652)
ttest(P1 P2 alt=greater paired = T)
Paired t-test
data P1 and P2
t = 44176 df = 33 p-value = 5072e-05
alternative hypothesis true difference in means is greater than 0
95 percent confidence interval
0716695 Inf
sample estimates
mean of the differences
1161765
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4161
CAP 3ndashb) TH exemplo de teste Quiquadrado chisqtest
pag233- teste Quiquadrado -
tcont=matrix(c(683585251530258 7461761220225) 72)
chisqtest(tcont)
Pearsons Chi-squared test
data tcont- = = - lt -
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4261
CAP 3ndashb) TH exemplo de teste Quiquadrado chisqtestaov(formula data = NULL )
pag244- ANOVA - Comparaccedilatildeo de trecircs raccedilotildees para suinos
A=c(444943514475425134305342453630
322133421040395246294247453959)
B=c(343640545953445432686954414647
6566455739)
C=c(574040364566395025212927283942
21304143294244582849)
aumentoP=c(ABC)
racao=c(rep(A30)rep(B20) rep(C25))
summaryaov(aov(aumentoP ~ racao))
Df Sum Sq Mean Sq F value Pr(gtF)racao 2 15385 7693 56136 0005425
Residuals 72 98666 1370
---
Signif codes 0 lsquorsquo 0001 lsquorsquo 001 lsquorsquo 005 lsquorsquo 01 lsquo rsquo 1
Warning message
In modelmatrixdefault(mt mf contrasts)
variable racao converted to a factor
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4361
ApecircndicesA-1) Apresentaremos aqui algumas figuras
feitas no R na elaboraccedilatildeo do livro
Achamos que o exame desses coacutedigos acompanhado dos resultados podeser um bom aprendizado um exerciacutecio ou talvez uma recordaccedilatildeo do materialaqui exposto
A-2) Resumo de comandosa) Criaccedilatildeo de dados
b) Informaccedilatildeo de uma Variaacutevel
c) Seleccedilatildeo de dados e manipulaccedilatildeo
d) Estatiacutesticas e operaccedilotildees matemaacuteticas
e) Corte e extraccedilatildeo de dados
f) Operaccedilatildeo com Matrizes
g) Graacuteficos (Plotting)
h) Teste de hipoacuteteses
i) Programming
j) Commandos auxiliaries em Graacuteficos
k) Comando par (Graphical parameters)
l) Input and output
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4461
A1) ndash Pag 14 ndash Figura 15
IDADE=c(616961716371726866697267636663636067716360696463667164706366646969646372736871726968687379)
IMC= c(245273281301254301280234268228255228235232203226239243271227237258213243243248219234216214221227227211268278275267286253239258247284235)
par(mfrow=c(12))hist(IDADE breaks=c(6065707580) ylim=c(020) ylab=Nuacutemero de Observaccedilotildees
main= col=grey right = F)hist(IMC breaks=c(200225250275300325)
ylab=Nuacutemero de Observaccedilotildeesmain= col=grey right = F )
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4561
A1) ndash Pag 44 ndash Figura 21
mat=matrix(c(81823913601818608740)32)
rownames(mat)=c(AtivaSedentaacuteriaTotal)colnames(mat)=c(NormalSobrepeso)barplot(t(mat) beside = TRUE space=c(315)
col=gray(c(79))legend = c(NormalSobrepeso) ylim = c(0 95) ylab= - percentagem)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4661
A1) ndash Pag 48 ndash Figura 22
mat= matrix(c(68154510 66214215 66242519 39161711)44byrow=T)
rownames(mat)=c(18 a 21 anos 22 a 25 anos 26 a 30 anos 31 a 40 anos)colnames(mat)=c(CinTeatSMDEx)mat1=mat for (i in 14) mat1[i]lt-mat1[i]100sum(mat1[i]) par(mfrow=c(12) mai=c(1111) mar=c(5 4 2 2) )barplot(matbeside=F ylim=c(0250) legend = c(18 a 21 anos 22 a 25 anos
26 a 30 anos 31 a 40 anos) xlab=Contagem)
barplot(mat1 beside=F xlab=Percentagem)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4761
A1) ndash Pag 52 ndash Figura 25X= c(184114821789235159118762592403190408372147328526471687
09642871437079238215753399242122530314859149806)y =c(01837012540193301620014230140604568022870231400861019960235302186012798991801254018210244160823
0147764068011818941403474539680150133247023685518102146187520214097090257291227
036282905401406510810113849399)plot(x y xlim=c(07) ylim=c(05) pch=16 bty=l xlab=Renda per capita
ylab=Telefonia Fixa per capita)
abline(lsfit(xy))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4861
A1) ndash Pag 109 ndash Figura 45
x=020
y1=dpois(x1) y2=dpois(x3) y3=dpois(x10)names(y1)=x names(y2)=x names(y3)=xpar(mfrow=c(13))plot(y1ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=1)plot(y2ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=3)plot(y3ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=10)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4961
A1) ndash Pag 118 ndash Figura 412
x=seq(010001)
plot(xdexp(x 12) type=l xlim=c(012) ylim=c(01) bty=l ylab=f(x) eF(x))for(i in seq(0 25 001)) segments(i 0 i dexp(i12) col=lightgrey)abline(v=0 h=0)points(xdexp(x 12) type=l lwd=2 bty=l)points(xpexp(x 12) lwd=2 type=l)segments(250 25pexp(2512))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5061
A1) ndash Pag 163 ndash Figura 68
plot(p xlim=c(618) ylim=c(016) type=n bty=l xaxt=n xlab= ylab=
cexaxis=6)for (i in 1015) rect(i-50 i+5 dbinom(i304) col=lightgrey) lty=2)segments(i0idbinom(i304) lty=2)
x=seq(61801) lines(x dnorm(x12sqrt(72)) lwd=2)x=seq(61801) lines(x dnorm(x12sqrt(72)) lwd=2)
axis(1 916 cexaxis=9) ax s seq cexax s=
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5161
A1) ndash Pag 198 ndash Figura 78
x1=seq(-4402)plot(x1dnorm(x1) type=l lwd=3 xlab= ylab= )lines(x1 dt(x11)) lines(x1 dt(x12)) lines(x1 dt(x15))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5261
A2ndashResumo de comandos
a)Criaccedilatildeo de dados
c()funccedilatildeo geneacuterica para combinar argumentos com o formando de um vetor fromto gera uma sequecircnce ldquordquo tem prioridade de operator pe13 + 1 is ldquo234rdquo
seq(fromtoby) gera uma sequecircncia by= especifica incremento
length= especifica um comprimento desejado
rep(xtimes) replicate x onuacutemero times de vezes use each= para repetir cada
elemento de x rep(c(123)2) gera 1 2 3 1 2 3 rep(c(12)each=2) gera 1 1 2 2
matrix(xnrow=ncol=) matrix elementos de x se reciclam caso x
rbind()combina vetores em linhas num estrutura de matrizes de dados
cbind()combina vetores em colunas num estrutura de matrizes de dados
array(xdim=) matriz com dados x especificar dimensotildees como dim=c(342)
elementos de x se reciclam caso x natildeo seja suficientemente grande
factor(xlevels=) codifica um vetor x como um fator gl(nklength=nklabels=1n) gerar niacuteveis (fatores) especificando
o padratildeo de seus niacuteveis k eacute o nuacutemero de niacuteveis e n eacute o nuacutemero de repeticcedilotildees
dataframe() criar um banco de dados Por exemplo
dataframe(v=14ch=c(gBcasad)n=5)
list()criar uma lista de argumentos Por exemplo list(a=c(12)b=hic=3i)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5361
A2ndashResumo de comandos
b) Informaccedilatildeo de uma Variaacutevellength(x) nuacutemero de elementos em x
dim(x) Obter ou definir a dimensatildeo de um objeto dim (x) = c(32)dimnames(x) Obter ou definir os nomes das dimensotildees de um objeto
nrow(x) nuacutemero de linhas
ncol(x) nuacutemero de colunas
c) Seleccedilatildeo de dados e manipulaccedilatildeochoose(n k) calcula a combinaccedilatildeo de elementos escolhidos entre n
resultando n [(n-k) k]
cut(xbreaks) divide x em intervalos (fatores) breaks eacute o nuacutemero de intervalos de
corte ou um vetor com os valores especiacuteficos
table(x) retorna uma tabela com as quantidades dos diferentes valores de x
(tipicamente para variaacuteveis dos tipos inteiros ou fatores)
sample(x size) retira aleatoriamente com e sem reposiccedilatildeo elementos detamanho SIZE do vetor x a opccedilatildeo replace = TRUE permite a retirada com reposiccedilatildeo
proptable(xmargin=) transforma a tabela como tabela de propoccedilatildeo
marginal margin=1 (com relaccedilatildeo as linhas) margin=2 (com relaccedilatildeo as colunas)
sort(x) Classifica os elementos de x em ordem crescente para classificar em ordem
decrescente rev(sort(x))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5461
A2ndashResumo de comandosd) Estatiacutesticas e operaccedilotildees matemaacuteticasmean(x) media dos elementos de x
median(x) mediana dos elementos de x
quantile(xprobs=) quantis de x correspondendo a uma dada probabilidadevar(x) ou cov(x) variacircncia dos elementos de x (calculado com n-1)
se x eacute uma matriz a matriz de covariacircncia eacute calculada
sd(x) desvio padracirco de of x
cor(x) matriz de correlaccedilatildeo de x se x for uma matriz ou (1 se x eacute um vector)
cor(x y) correlaccedilatildeo linear entre X e Y ou matriz de correlaccedilatildeo se eles satildeo matrizes
round(x n) arredonda os elementos de x para n casas decimais sum x soma os e emen os e x
prod(x) multilica os elementos de x
max(x) acha o maacuteximo dos elementos de x
min(x) acha o miacutenimo dos elementos de x
range(x) equivalente a c(min(x)max(x)
cumsum(x) um vetor onde o eacutesimo elemento eacute a soma de x[1] ateacute x[i]cumprod(x) um vetor onde o eacutesimo elemento eacute o produto de x[1] ateacute x[i]
cummin(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
cummax(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
sincostanasinacosatanatan2loglog10exp)
log(x base) calcula o logaritmo de x na base=base
weightedmean(x w) media ponderada de x com peso= w
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5561
A2ndashResumo de comandos
e) Corte e extraccedilatildeo de dadosindexaccedilatildeo de Vetores
x[n] n-eacutesimo elemento do vetor
x[-n] todos menos o n-eacutesimo elemento
x[1n] os primeiros n elemento
x[-(1n)] elementos de n+1 ateacute o final
x[c(432)] elementos especificados
x[y gt 5] todo elementos de onde os valores de y satildeo maiores que 5
x x gt 3 amp x lt 5 todo elementos entre 3 e 5
x[nome] elemento denominado nome
indexaccedilatildeo de Matrizes
x[ij] elemento na linha i coluna j
x[i] linha i
x[j] coluna j
x[c(13)] colunas 1 and 3
x[nome] linha nomeada nome
indexaccedilatildeo de data frames
x[[nome]] coluna chamada nome
x$nome equivalente a coluna chamada nome
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5661
A2ndashResumo de comandos
f) Operaccedilatildeo com Matrizest(x) transposta da matrix x
diag(x) retira a diagonal da matrix x
multiplicaccedilatildeo matricial
solve(ab) resove a equaccedilatildeo a x = b em relaccedilatildeo a x
solve(a) matriz inversa de a
rowSum(x) soma das linhas da matrix x
colSum(x) soma das colunas da matrix x
rowMeans x meacutedia das linhas da matrix x
colMeans(x) id meacutedia das colunas da matrix x
g) Graacuteficos (Plotting)plot(x y) diagrama de disperccedilatildeo plot dos pares (xy) num sistema de eixos
coordenadoshist(x) histogram dasfrequecircncias of x
barplot(x) graacutefico de barras of x usar horiz=T ara barras horizontal
pie(x) graacutefico de setores (pie-chart)
boxplot(x)
qqnorm(x) quantis de x em relaccedilatildeo aos valores esperados de uma dist Normal
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5761
A2ndashResumo de comandosparametros dos commando de Graacutefico
type=p especifica o tipo de plot p pontos l linhas b pontos
ligados por linhas o idecircntico mas as linhas passam sobre os pontos h
linhas verticais s escada (steps) os dados satildeo representados pelas alturasverticais
xlim= ylim= especifica os limites inferiores e superiores dos eixos por exemplocom xlim=c(1 10) ou xlim=range(x)
xlab= ylab= nomeia os eixos o nome deve ser do tipo caracter
main= tiacutetulo principal deve ser do tipo caracter
sub= sub-tiacutetulo (escrito em fonte menor)
podem ser usados como bty(tipo de caixa) lwd (lagura da linha) lty (tipo delinha) pch(tipo de ponto) cex xaxs yaxs xaxtyaxt
h) Teste de hipoacuteteses
ttest()proptest()
chisqtest()
aov(formula) analysis of variance model
anova(fit) analysis of variance (or deviance) tables for one or more
fitted model objects
Use o commando gt test para procurar todos os testes disponiacuteveis
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5861
A2ndashResumo de comandos
i) Programmingfunction( arglist ) expr para definer uma funccedilatildeo
return(value)
if(cond) expr
if(cond) consexpr else altexpr
for(var in seq) expr
while(cond) expr
re eat ex r
break
Usar chaves entre commandos dlimitando o iniacutecio e o fim de um grupo decomandos
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5961
A2ndashResumo de comandos
j) Commandos auxiliaries em Graacuteficospoints(x y) adiciona pontos (a opccedilatildeo type= pode ser usada)
lines(x y) adiciona linhas (a opccedilatildeo type= pode ser usada)text(x y labels ) adiciona texto na coordenada (xy) um uso tiacutepico eacute
plot(x y type=n) text(x ynames)
segments(x0 y0 x1 y1) desenha linhas do ponto (x0 y0) ao (x1 y1)
arrows(x0 y0 x1 y1 angle= 30 code=2) desenha seta do ponto
(x0 y0) ao (x1 y1)
abline(ab) desenha uma reta de inclinaccedilatildeo b e intercepto a
abline(v=x) desenha uma reta vertical em x
abline(lsfit(xy)) desenha uma reta da regressatildeo feita em lsfit(xy)
rect(x1 y1 x2 y2) desenha um retacircngulo que a esquerda inferior tem coordenadas(x1 y1) e o limite da direita superiores (x2 y2)
polygon(x y) desenha um poliacutegono que une os pontos com coordenadas X e Y
legend(x y legend) Acrescenta a lenda no ponto (x y) com os siacutembolos
dada pela legend
title()adiciona um tiacutetulo e opcionalmente um sub-tiacutetulo
axis(side) acrescenta um eixo na parte inferior (side = 1) agrave esquerda (2) na partesuperior (3) ou agrave direita (4)
box()desenhar uma caixa em torno do plot
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6061
A2ndashResumo de comandos
k) Comando par (Graphical parameters)Todos estes comando podem ser definidos a niacutevel global com o par () que
especifica os paracircmetros mas tambeacutem muitos podem ser usados comoparametros dos commando de Graacutefico
mfcol vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em colunas
mfrow vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em linhas(matrix for row)
bty controla o tipo de caixa desenhada ao redor do enredo valores permitidos satildeo
o l 7 c u ou se bt =n a caixa natildeo eacute desenhada
lty controla o tipo de linhas pode ser um inteiro ou string (1 solid 2 dashed 3dotted 4 dotdash 5 longdash 6twodash) ou uma string de ateacuteoito caracteres (entre 0 e 9) que especifica o comprimento em pontos oupixels dos elementos desenhados e os espaccedilos em branco por exemplolty=rdquo44rdquo equivale a lty=2
lwd nuacutemero que controla a largura das linhas default 1pch controla o tipo de siacutembolo pode tambeacutem ser um nuacutemero inteiro entre 1 e 25
ps um inteiro que controla o tamanho em pontos de textos e siacutembolos
pty um caracter que especifica o tipo da regiatildeo s quadrado m maacuteximal
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6161
A2ndashResumo de comandos
l) Input and outputreadtable(file) lecirc um arquivo em formato de tabela e cria um quadro de dados a
partir dele o separador default = eacute espaccedilo em branco header = TRUE ler a
primeira linha como um cabeccedilalho de nomes de coluna asis = TRUE paraevitar aque um vetore de caracteres seja convertido em factores usocommentchar = para evitar seja interpretado como um comentaacuteriouso skip = n para pular n linhas antes da leitura de dados consulte a ajudapara as opccedilotildees de linha de nomeaccedilatildeo o tratamento NA e outros
readcsv(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por viacutergulas
readdelim(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por tabulaccedilotildees
readfwf(filewidthsheader=FALSEsep= asis=FALSE)
ler uma tabela de dados em formato fix de largura m para um dataframe widthseacute um vetor inteiro informando os tamanhos dos campos
sink(file) saiacuteda de todos os comandos para um arquivo ateacute aparecer um comando
sink () que desliga writetable(x file=rownames=Tcolnames=Tsep= ) imprime x apoacutes a
conversatildeo para banco de dados
save(file) guarda os objetos especificados () no formato XDR
load()carregar o conjunto de dados salvos com o comando save
data(x) carrega um conjunto de dados especificado
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3661
CAP 3-a) Intervalo de Confianccedila
ICexp = function (N n lambda conf)
mu=1lambda sigma=1lambda
plot(0 0 type=n xlim=c(010) ylim=c(0N) bty=lxlab=Exponencial ylab=amostras)
abline(v= mu)
z0 = qnorm(1-((1-conf)2))
sigmaxbarra = sigmasqrt(n)
for (i in 1N)
x = rexp(nlambda) me a = mean x
li = media - z0 sigmaxbarra
ls = media + z0 sigmaxbarra
plotx = c(lils)
ploty = c(ii)
if (li gt mu | ls lt mu) lines(plotx ploty col=red)
else lines(plotx ploty)
gt ICexp(100 25 13 95)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3761
CAP 3-b Teste de Hipoacuteteses (TH)O objetivo de um teste de hipoacutetese eacute avaliar a validade de uma afirmaccedilatildeo sobre determinada
caracteriacutestica da populaccedilatildeo usando para isso os dados de uma amostra Essa caracteriacutestica eacute
representada pela va contiacutenua X cujo comportamento probabiliacutestico eacute expresso pela funccedilatildeo dedensidade f com paracircmetro Ө que tem valor desconhecido
Em um teste existem duas hipoacuteteses envolvidas H0 denominada hipoacutetese nula e H1
denominada hipoacutetese alternativa O procedimento de teste de hipoacutetese consiste em estabelecer
um criteacuterio de decisatildeo que leve a Aceitar ou Rejeitar H0 com base nos valores amostrais
A Estatiacutestica de teste eacute uma funccedilatildeo da amostra aleatoacuteria utilizada para definir o criteacuterio de
decisatildeo Estabelecer o criteacuterio de decisatildeo consiste em dividir o conjunto dos valores possiacuteveis
da estatiacutestica de teste em duas partes denominadas Regiatildeo de Aceitaccedilatildeo A e Regiatildeo de
Rejeiccedilatildeo R da hipoacutetese nula
Em um teste de hipoacutetese haacute dois tipos possiacuteveis de erro de decisatildeo
Erro I - Rejeitar H0 quando H0 eacute verdadeira
Erro II - Aceitar H0 quando H0 eacute falsaAs probabilidades de ocorrecircncia dos erros satildeo α = P [ Erro I ] e β = P [ Erro II]
A probabilidade de erro I α eacute o niacutevel de significacircncia do teste cujo valor eacute arbitrado pelo
pesquisador deve ser pequena pois corresponde a probabilidade de um erro (005 ou 001)
O niacutevel criacutetico ou p-valor do teste eacute o menor valor de α para o qual ainda rejeitariacuteamos H0 de
acordo com os dados observados
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3861
CAP 3-b) ndash TH teste tttest(x y = NULL alternative = c(twosided less greater) mu = 0
paired = FALSE varequal = FALSE conflevel = 095 )
Procedimentos de teste de hipoacuteteses com niacutevel de significacircncia α e amostras de tamanho n
UmaAmostra
DuasAmostras
Obs Os testes acima satildeo bilaterais
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3961
CAP 3ndashb) TH exemplo de teste t ndash amostras independentespag233- teste t amostras independente - comparaccedilatildeo log(salaacuterio)
entre os grupos de comeacutercio e de serviccedilo
LogSal=c(1289156912501344145616361573171309060903
0977122011031069128714101496131113371366
1227119114591280115217401649176524101701
1538192419251721154918911534163812071682
120614232010143112651570)
Sal=exp(LogSal)
setor= c(rep(C23) rep(S23))
ttest(Sal[setor==C] Sal[setor==S] varequal=T)
Two Sample t-test
data Sal[setor == C] and Sal[setor == S]
t = -36822 df = 44 p-value = 00006289
alternative hypothesis true difference in means is not equal to 095 percent confidence interval
-23079005 -06751838
sample estimates
mean of x mean of y3786010 5277552
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4061
CAP 3ndashb) TH exemplo de teste t ndash amostra pareadapag237- teste t pareado
P1=c(6315596455545480598065203660986853
8765647785536980827184605572645564)
P2=c(3638306043466455604343523428837155
8238556767443459605968506254473652)
ttest(P1 P2 alt=greater paired = T)
Paired t-test
data P1 and P2
t = 44176 df = 33 p-value = 5072e-05
alternative hypothesis true difference in means is greater than 0
95 percent confidence interval
0716695 Inf
sample estimates
mean of the differences
1161765
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4161
CAP 3ndashb) TH exemplo de teste Quiquadrado chisqtest
pag233- teste Quiquadrado -
tcont=matrix(c(683585251530258 7461761220225) 72)
chisqtest(tcont)
Pearsons Chi-squared test
data tcont- = = - lt -
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4261
CAP 3ndashb) TH exemplo de teste Quiquadrado chisqtestaov(formula data = NULL )
pag244- ANOVA - Comparaccedilatildeo de trecircs raccedilotildees para suinos
A=c(444943514475425134305342453630
322133421040395246294247453959)
B=c(343640545953445432686954414647
6566455739)
C=c(574040364566395025212927283942
21304143294244582849)
aumentoP=c(ABC)
racao=c(rep(A30)rep(B20) rep(C25))
summaryaov(aov(aumentoP ~ racao))
Df Sum Sq Mean Sq F value Pr(gtF)racao 2 15385 7693 56136 0005425
Residuals 72 98666 1370
---
Signif codes 0 lsquorsquo 0001 lsquorsquo 001 lsquorsquo 005 lsquorsquo 01 lsquo rsquo 1
Warning message
In modelmatrixdefault(mt mf contrasts)
variable racao converted to a factor
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4361
ApecircndicesA-1) Apresentaremos aqui algumas figuras
feitas no R na elaboraccedilatildeo do livro
Achamos que o exame desses coacutedigos acompanhado dos resultados podeser um bom aprendizado um exerciacutecio ou talvez uma recordaccedilatildeo do materialaqui exposto
A-2) Resumo de comandosa) Criaccedilatildeo de dados
b) Informaccedilatildeo de uma Variaacutevel
c) Seleccedilatildeo de dados e manipulaccedilatildeo
d) Estatiacutesticas e operaccedilotildees matemaacuteticas
e) Corte e extraccedilatildeo de dados
f) Operaccedilatildeo com Matrizes
g) Graacuteficos (Plotting)
h) Teste de hipoacuteteses
i) Programming
j) Commandos auxiliaries em Graacuteficos
k) Comando par (Graphical parameters)
l) Input and output
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4461
A1) ndash Pag 14 ndash Figura 15
IDADE=c(616961716371726866697267636663636067716360696463667164706366646969646372736871726968687379)
IMC= c(245273281301254301280234268228255228235232203226239243271227237258213243243248219234216214221227227211268278275267286253239258247284235)
par(mfrow=c(12))hist(IDADE breaks=c(6065707580) ylim=c(020) ylab=Nuacutemero de Observaccedilotildees
main= col=grey right = F)hist(IMC breaks=c(200225250275300325)
ylab=Nuacutemero de Observaccedilotildeesmain= col=grey right = F )
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4561
A1) ndash Pag 44 ndash Figura 21
mat=matrix(c(81823913601818608740)32)
rownames(mat)=c(AtivaSedentaacuteriaTotal)colnames(mat)=c(NormalSobrepeso)barplot(t(mat) beside = TRUE space=c(315)
col=gray(c(79))legend = c(NormalSobrepeso) ylim = c(0 95) ylab= - percentagem)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4661
A1) ndash Pag 48 ndash Figura 22
mat= matrix(c(68154510 66214215 66242519 39161711)44byrow=T)
rownames(mat)=c(18 a 21 anos 22 a 25 anos 26 a 30 anos 31 a 40 anos)colnames(mat)=c(CinTeatSMDEx)mat1=mat for (i in 14) mat1[i]lt-mat1[i]100sum(mat1[i]) par(mfrow=c(12) mai=c(1111) mar=c(5 4 2 2) )barplot(matbeside=F ylim=c(0250) legend = c(18 a 21 anos 22 a 25 anos
26 a 30 anos 31 a 40 anos) xlab=Contagem)
barplot(mat1 beside=F xlab=Percentagem)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4761
A1) ndash Pag 52 ndash Figura 25X= c(184114821789235159118762592403190408372147328526471687
09642871437079238215753399242122530314859149806)y =c(01837012540193301620014230140604568022870231400861019960235302186012798991801254018210244160823
0147764068011818941403474539680150133247023685518102146187520214097090257291227
036282905401406510810113849399)plot(x y xlim=c(07) ylim=c(05) pch=16 bty=l xlab=Renda per capita
ylab=Telefonia Fixa per capita)
abline(lsfit(xy))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4861
A1) ndash Pag 109 ndash Figura 45
x=020
y1=dpois(x1) y2=dpois(x3) y3=dpois(x10)names(y1)=x names(y2)=x names(y3)=xpar(mfrow=c(13))plot(y1ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=1)plot(y2ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=3)plot(y3ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=10)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4961
A1) ndash Pag 118 ndash Figura 412
x=seq(010001)
plot(xdexp(x 12) type=l xlim=c(012) ylim=c(01) bty=l ylab=f(x) eF(x))for(i in seq(0 25 001)) segments(i 0 i dexp(i12) col=lightgrey)abline(v=0 h=0)points(xdexp(x 12) type=l lwd=2 bty=l)points(xpexp(x 12) lwd=2 type=l)segments(250 25pexp(2512))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5061
A1) ndash Pag 163 ndash Figura 68
plot(p xlim=c(618) ylim=c(016) type=n bty=l xaxt=n xlab= ylab=
cexaxis=6)for (i in 1015) rect(i-50 i+5 dbinom(i304) col=lightgrey) lty=2)segments(i0idbinom(i304) lty=2)
x=seq(61801) lines(x dnorm(x12sqrt(72)) lwd=2)x=seq(61801) lines(x dnorm(x12sqrt(72)) lwd=2)
axis(1 916 cexaxis=9) ax s seq cexax s=
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5161
A1) ndash Pag 198 ndash Figura 78
x1=seq(-4402)plot(x1dnorm(x1) type=l lwd=3 xlab= ylab= )lines(x1 dt(x11)) lines(x1 dt(x12)) lines(x1 dt(x15))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5261
A2ndashResumo de comandos
a)Criaccedilatildeo de dados
c()funccedilatildeo geneacuterica para combinar argumentos com o formando de um vetor fromto gera uma sequecircnce ldquordquo tem prioridade de operator pe13 + 1 is ldquo234rdquo
seq(fromtoby) gera uma sequecircncia by= especifica incremento
length= especifica um comprimento desejado
rep(xtimes) replicate x onuacutemero times de vezes use each= para repetir cada
elemento de x rep(c(123)2) gera 1 2 3 1 2 3 rep(c(12)each=2) gera 1 1 2 2
matrix(xnrow=ncol=) matrix elementos de x se reciclam caso x
rbind()combina vetores em linhas num estrutura de matrizes de dados
cbind()combina vetores em colunas num estrutura de matrizes de dados
array(xdim=) matriz com dados x especificar dimensotildees como dim=c(342)
elementos de x se reciclam caso x natildeo seja suficientemente grande
factor(xlevels=) codifica um vetor x como um fator gl(nklength=nklabels=1n) gerar niacuteveis (fatores) especificando
o padratildeo de seus niacuteveis k eacute o nuacutemero de niacuteveis e n eacute o nuacutemero de repeticcedilotildees
dataframe() criar um banco de dados Por exemplo
dataframe(v=14ch=c(gBcasad)n=5)
list()criar uma lista de argumentos Por exemplo list(a=c(12)b=hic=3i)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5361
A2ndashResumo de comandos
b) Informaccedilatildeo de uma Variaacutevellength(x) nuacutemero de elementos em x
dim(x) Obter ou definir a dimensatildeo de um objeto dim (x) = c(32)dimnames(x) Obter ou definir os nomes das dimensotildees de um objeto
nrow(x) nuacutemero de linhas
ncol(x) nuacutemero de colunas
c) Seleccedilatildeo de dados e manipulaccedilatildeochoose(n k) calcula a combinaccedilatildeo de elementos escolhidos entre n
resultando n [(n-k) k]
cut(xbreaks) divide x em intervalos (fatores) breaks eacute o nuacutemero de intervalos de
corte ou um vetor com os valores especiacuteficos
table(x) retorna uma tabela com as quantidades dos diferentes valores de x
(tipicamente para variaacuteveis dos tipos inteiros ou fatores)
sample(x size) retira aleatoriamente com e sem reposiccedilatildeo elementos detamanho SIZE do vetor x a opccedilatildeo replace = TRUE permite a retirada com reposiccedilatildeo
proptable(xmargin=) transforma a tabela como tabela de propoccedilatildeo
marginal margin=1 (com relaccedilatildeo as linhas) margin=2 (com relaccedilatildeo as colunas)
sort(x) Classifica os elementos de x em ordem crescente para classificar em ordem
decrescente rev(sort(x))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5461
A2ndashResumo de comandosd) Estatiacutesticas e operaccedilotildees matemaacuteticasmean(x) media dos elementos de x
median(x) mediana dos elementos de x
quantile(xprobs=) quantis de x correspondendo a uma dada probabilidadevar(x) ou cov(x) variacircncia dos elementos de x (calculado com n-1)
se x eacute uma matriz a matriz de covariacircncia eacute calculada
sd(x) desvio padracirco de of x
cor(x) matriz de correlaccedilatildeo de x se x for uma matriz ou (1 se x eacute um vector)
cor(x y) correlaccedilatildeo linear entre X e Y ou matriz de correlaccedilatildeo se eles satildeo matrizes
round(x n) arredonda os elementos de x para n casas decimais sum x soma os e emen os e x
prod(x) multilica os elementos de x
max(x) acha o maacuteximo dos elementos de x
min(x) acha o miacutenimo dos elementos de x
range(x) equivalente a c(min(x)max(x)
cumsum(x) um vetor onde o eacutesimo elemento eacute a soma de x[1] ateacute x[i]cumprod(x) um vetor onde o eacutesimo elemento eacute o produto de x[1] ateacute x[i]
cummin(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
cummax(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
sincostanasinacosatanatan2loglog10exp)
log(x base) calcula o logaritmo de x na base=base
weightedmean(x w) media ponderada de x com peso= w
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5561
A2ndashResumo de comandos
e) Corte e extraccedilatildeo de dadosindexaccedilatildeo de Vetores
x[n] n-eacutesimo elemento do vetor
x[-n] todos menos o n-eacutesimo elemento
x[1n] os primeiros n elemento
x[-(1n)] elementos de n+1 ateacute o final
x[c(432)] elementos especificados
x[y gt 5] todo elementos de onde os valores de y satildeo maiores que 5
x x gt 3 amp x lt 5 todo elementos entre 3 e 5
x[nome] elemento denominado nome
indexaccedilatildeo de Matrizes
x[ij] elemento na linha i coluna j
x[i] linha i
x[j] coluna j
x[c(13)] colunas 1 and 3
x[nome] linha nomeada nome
indexaccedilatildeo de data frames
x[[nome]] coluna chamada nome
x$nome equivalente a coluna chamada nome
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5661
A2ndashResumo de comandos
f) Operaccedilatildeo com Matrizest(x) transposta da matrix x
diag(x) retira a diagonal da matrix x
multiplicaccedilatildeo matricial
solve(ab) resove a equaccedilatildeo a x = b em relaccedilatildeo a x
solve(a) matriz inversa de a
rowSum(x) soma das linhas da matrix x
colSum(x) soma das colunas da matrix x
rowMeans x meacutedia das linhas da matrix x
colMeans(x) id meacutedia das colunas da matrix x
g) Graacuteficos (Plotting)plot(x y) diagrama de disperccedilatildeo plot dos pares (xy) num sistema de eixos
coordenadoshist(x) histogram dasfrequecircncias of x
barplot(x) graacutefico de barras of x usar horiz=T ara barras horizontal
pie(x) graacutefico de setores (pie-chart)
boxplot(x)
qqnorm(x) quantis de x em relaccedilatildeo aos valores esperados de uma dist Normal
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5761
A2ndashResumo de comandosparametros dos commando de Graacutefico
type=p especifica o tipo de plot p pontos l linhas b pontos
ligados por linhas o idecircntico mas as linhas passam sobre os pontos h
linhas verticais s escada (steps) os dados satildeo representados pelas alturasverticais
xlim= ylim= especifica os limites inferiores e superiores dos eixos por exemplocom xlim=c(1 10) ou xlim=range(x)
xlab= ylab= nomeia os eixos o nome deve ser do tipo caracter
main= tiacutetulo principal deve ser do tipo caracter
sub= sub-tiacutetulo (escrito em fonte menor)
podem ser usados como bty(tipo de caixa) lwd (lagura da linha) lty (tipo delinha) pch(tipo de ponto) cex xaxs yaxs xaxtyaxt
h) Teste de hipoacuteteses
ttest()proptest()
chisqtest()
aov(formula) analysis of variance model
anova(fit) analysis of variance (or deviance) tables for one or more
fitted model objects
Use o commando gt test para procurar todos os testes disponiacuteveis
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5861
A2ndashResumo de comandos
i) Programmingfunction( arglist ) expr para definer uma funccedilatildeo
return(value)
if(cond) expr
if(cond) consexpr else altexpr
for(var in seq) expr
while(cond) expr
re eat ex r
break
Usar chaves entre commandos dlimitando o iniacutecio e o fim de um grupo decomandos
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5961
A2ndashResumo de comandos
j) Commandos auxiliaries em Graacuteficospoints(x y) adiciona pontos (a opccedilatildeo type= pode ser usada)
lines(x y) adiciona linhas (a opccedilatildeo type= pode ser usada)text(x y labels ) adiciona texto na coordenada (xy) um uso tiacutepico eacute
plot(x y type=n) text(x ynames)
segments(x0 y0 x1 y1) desenha linhas do ponto (x0 y0) ao (x1 y1)
arrows(x0 y0 x1 y1 angle= 30 code=2) desenha seta do ponto
(x0 y0) ao (x1 y1)
abline(ab) desenha uma reta de inclinaccedilatildeo b e intercepto a
abline(v=x) desenha uma reta vertical em x
abline(lsfit(xy)) desenha uma reta da regressatildeo feita em lsfit(xy)
rect(x1 y1 x2 y2) desenha um retacircngulo que a esquerda inferior tem coordenadas(x1 y1) e o limite da direita superiores (x2 y2)
polygon(x y) desenha um poliacutegono que une os pontos com coordenadas X e Y
legend(x y legend) Acrescenta a lenda no ponto (x y) com os siacutembolos
dada pela legend
title()adiciona um tiacutetulo e opcionalmente um sub-tiacutetulo
axis(side) acrescenta um eixo na parte inferior (side = 1) agrave esquerda (2) na partesuperior (3) ou agrave direita (4)
box()desenhar uma caixa em torno do plot
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6061
A2ndashResumo de comandos
k) Comando par (Graphical parameters)Todos estes comando podem ser definidos a niacutevel global com o par () que
especifica os paracircmetros mas tambeacutem muitos podem ser usados comoparametros dos commando de Graacutefico
mfcol vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em colunas
mfrow vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em linhas(matrix for row)
bty controla o tipo de caixa desenhada ao redor do enredo valores permitidos satildeo
o l 7 c u ou se bt =n a caixa natildeo eacute desenhada
lty controla o tipo de linhas pode ser um inteiro ou string (1 solid 2 dashed 3dotted 4 dotdash 5 longdash 6twodash) ou uma string de ateacuteoito caracteres (entre 0 e 9) que especifica o comprimento em pontos oupixels dos elementos desenhados e os espaccedilos em branco por exemplolty=rdquo44rdquo equivale a lty=2
lwd nuacutemero que controla a largura das linhas default 1pch controla o tipo de siacutembolo pode tambeacutem ser um nuacutemero inteiro entre 1 e 25
ps um inteiro que controla o tamanho em pontos de textos e siacutembolos
pty um caracter que especifica o tipo da regiatildeo s quadrado m maacuteximal
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6161
A2ndashResumo de comandos
l) Input and outputreadtable(file) lecirc um arquivo em formato de tabela e cria um quadro de dados a
partir dele o separador default = eacute espaccedilo em branco header = TRUE ler a
primeira linha como um cabeccedilalho de nomes de coluna asis = TRUE paraevitar aque um vetore de caracteres seja convertido em factores usocommentchar = para evitar seja interpretado como um comentaacuteriouso skip = n para pular n linhas antes da leitura de dados consulte a ajudapara as opccedilotildees de linha de nomeaccedilatildeo o tratamento NA e outros
readcsv(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por viacutergulas
readdelim(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por tabulaccedilotildees
readfwf(filewidthsheader=FALSEsep= asis=FALSE)
ler uma tabela de dados em formato fix de largura m para um dataframe widthseacute um vetor inteiro informando os tamanhos dos campos
sink(file) saiacuteda de todos os comandos para um arquivo ateacute aparecer um comando
sink () que desliga writetable(x file=rownames=Tcolnames=Tsep= ) imprime x apoacutes a
conversatildeo para banco de dados
save(file) guarda os objetos especificados () no formato XDR
load()carregar o conjunto de dados salvos com o comando save
data(x) carrega um conjunto de dados especificado
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3761
CAP 3-b Teste de Hipoacuteteses (TH)O objetivo de um teste de hipoacutetese eacute avaliar a validade de uma afirmaccedilatildeo sobre determinada
caracteriacutestica da populaccedilatildeo usando para isso os dados de uma amostra Essa caracteriacutestica eacute
representada pela va contiacutenua X cujo comportamento probabiliacutestico eacute expresso pela funccedilatildeo dedensidade f com paracircmetro Ө que tem valor desconhecido
Em um teste existem duas hipoacuteteses envolvidas H0 denominada hipoacutetese nula e H1
denominada hipoacutetese alternativa O procedimento de teste de hipoacutetese consiste em estabelecer
um criteacuterio de decisatildeo que leve a Aceitar ou Rejeitar H0 com base nos valores amostrais
A Estatiacutestica de teste eacute uma funccedilatildeo da amostra aleatoacuteria utilizada para definir o criteacuterio de
decisatildeo Estabelecer o criteacuterio de decisatildeo consiste em dividir o conjunto dos valores possiacuteveis
da estatiacutestica de teste em duas partes denominadas Regiatildeo de Aceitaccedilatildeo A e Regiatildeo de
Rejeiccedilatildeo R da hipoacutetese nula
Em um teste de hipoacutetese haacute dois tipos possiacuteveis de erro de decisatildeo
Erro I - Rejeitar H0 quando H0 eacute verdadeira
Erro II - Aceitar H0 quando H0 eacute falsaAs probabilidades de ocorrecircncia dos erros satildeo α = P [ Erro I ] e β = P [ Erro II]
A probabilidade de erro I α eacute o niacutevel de significacircncia do teste cujo valor eacute arbitrado pelo
pesquisador deve ser pequena pois corresponde a probabilidade de um erro (005 ou 001)
O niacutevel criacutetico ou p-valor do teste eacute o menor valor de α para o qual ainda rejeitariacuteamos H0 de
acordo com os dados observados
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3861
CAP 3-b) ndash TH teste tttest(x y = NULL alternative = c(twosided less greater) mu = 0
paired = FALSE varequal = FALSE conflevel = 095 )
Procedimentos de teste de hipoacuteteses com niacutevel de significacircncia α e amostras de tamanho n
UmaAmostra
DuasAmostras
Obs Os testes acima satildeo bilaterais
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3961
CAP 3ndashb) TH exemplo de teste t ndash amostras independentespag233- teste t amostras independente - comparaccedilatildeo log(salaacuterio)
entre os grupos de comeacutercio e de serviccedilo
LogSal=c(1289156912501344145616361573171309060903
0977122011031069128714101496131113371366
1227119114591280115217401649176524101701
1538192419251721154918911534163812071682
120614232010143112651570)
Sal=exp(LogSal)
setor= c(rep(C23) rep(S23))
ttest(Sal[setor==C] Sal[setor==S] varequal=T)
Two Sample t-test
data Sal[setor == C] and Sal[setor == S]
t = -36822 df = 44 p-value = 00006289
alternative hypothesis true difference in means is not equal to 095 percent confidence interval
-23079005 -06751838
sample estimates
mean of x mean of y3786010 5277552
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4061
CAP 3ndashb) TH exemplo de teste t ndash amostra pareadapag237- teste t pareado
P1=c(6315596455545480598065203660986853
8765647785536980827184605572645564)
P2=c(3638306043466455604343523428837155
8238556767443459605968506254473652)
ttest(P1 P2 alt=greater paired = T)
Paired t-test
data P1 and P2
t = 44176 df = 33 p-value = 5072e-05
alternative hypothesis true difference in means is greater than 0
95 percent confidence interval
0716695 Inf
sample estimates
mean of the differences
1161765
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4161
CAP 3ndashb) TH exemplo de teste Quiquadrado chisqtest
pag233- teste Quiquadrado -
tcont=matrix(c(683585251530258 7461761220225) 72)
chisqtest(tcont)
Pearsons Chi-squared test
data tcont- = = - lt -
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4261
CAP 3ndashb) TH exemplo de teste Quiquadrado chisqtestaov(formula data = NULL )
pag244- ANOVA - Comparaccedilatildeo de trecircs raccedilotildees para suinos
A=c(444943514475425134305342453630
322133421040395246294247453959)
B=c(343640545953445432686954414647
6566455739)
C=c(574040364566395025212927283942
21304143294244582849)
aumentoP=c(ABC)
racao=c(rep(A30)rep(B20) rep(C25))
summaryaov(aov(aumentoP ~ racao))
Df Sum Sq Mean Sq F value Pr(gtF)racao 2 15385 7693 56136 0005425
Residuals 72 98666 1370
---
Signif codes 0 lsquorsquo 0001 lsquorsquo 001 lsquorsquo 005 lsquorsquo 01 lsquo rsquo 1
Warning message
In modelmatrixdefault(mt mf contrasts)
variable racao converted to a factor
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4361
ApecircndicesA-1) Apresentaremos aqui algumas figuras
feitas no R na elaboraccedilatildeo do livro
Achamos que o exame desses coacutedigos acompanhado dos resultados podeser um bom aprendizado um exerciacutecio ou talvez uma recordaccedilatildeo do materialaqui exposto
A-2) Resumo de comandosa) Criaccedilatildeo de dados
b) Informaccedilatildeo de uma Variaacutevel
c) Seleccedilatildeo de dados e manipulaccedilatildeo
d) Estatiacutesticas e operaccedilotildees matemaacuteticas
e) Corte e extraccedilatildeo de dados
f) Operaccedilatildeo com Matrizes
g) Graacuteficos (Plotting)
h) Teste de hipoacuteteses
i) Programming
j) Commandos auxiliaries em Graacuteficos
k) Comando par (Graphical parameters)
l) Input and output
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4461
A1) ndash Pag 14 ndash Figura 15
IDADE=c(616961716371726866697267636663636067716360696463667164706366646969646372736871726968687379)
IMC= c(245273281301254301280234268228255228235232203226239243271227237258213243243248219234216214221227227211268278275267286253239258247284235)
par(mfrow=c(12))hist(IDADE breaks=c(6065707580) ylim=c(020) ylab=Nuacutemero de Observaccedilotildees
main= col=grey right = F)hist(IMC breaks=c(200225250275300325)
ylab=Nuacutemero de Observaccedilotildeesmain= col=grey right = F )
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4561
A1) ndash Pag 44 ndash Figura 21
mat=matrix(c(81823913601818608740)32)
rownames(mat)=c(AtivaSedentaacuteriaTotal)colnames(mat)=c(NormalSobrepeso)barplot(t(mat) beside = TRUE space=c(315)
col=gray(c(79))legend = c(NormalSobrepeso) ylim = c(0 95) ylab= - percentagem)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4661
A1) ndash Pag 48 ndash Figura 22
mat= matrix(c(68154510 66214215 66242519 39161711)44byrow=T)
rownames(mat)=c(18 a 21 anos 22 a 25 anos 26 a 30 anos 31 a 40 anos)colnames(mat)=c(CinTeatSMDEx)mat1=mat for (i in 14) mat1[i]lt-mat1[i]100sum(mat1[i]) par(mfrow=c(12) mai=c(1111) mar=c(5 4 2 2) )barplot(matbeside=F ylim=c(0250) legend = c(18 a 21 anos 22 a 25 anos
26 a 30 anos 31 a 40 anos) xlab=Contagem)
barplot(mat1 beside=F xlab=Percentagem)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4761
A1) ndash Pag 52 ndash Figura 25X= c(184114821789235159118762592403190408372147328526471687
09642871437079238215753399242122530314859149806)y =c(01837012540193301620014230140604568022870231400861019960235302186012798991801254018210244160823
0147764068011818941403474539680150133247023685518102146187520214097090257291227
036282905401406510810113849399)plot(x y xlim=c(07) ylim=c(05) pch=16 bty=l xlab=Renda per capita
ylab=Telefonia Fixa per capita)
abline(lsfit(xy))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4861
A1) ndash Pag 109 ndash Figura 45
x=020
y1=dpois(x1) y2=dpois(x3) y3=dpois(x10)names(y1)=x names(y2)=x names(y3)=xpar(mfrow=c(13))plot(y1ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=1)plot(y2ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=3)plot(y3ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=10)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4961
A1) ndash Pag 118 ndash Figura 412
x=seq(010001)
plot(xdexp(x 12) type=l xlim=c(012) ylim=c(01) bty=l ylab=f(x) eF(x))for(i in seq(0 25 001)) segments(i 0 i dexp(i12) col=lightgrey)abline(v=0 h=0)points(xdexp(x 12) type=l lwd=2 bty=l)points(xpexp(x 12) lwd=2 type=l)segments(250 25pexp(2512))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5061
A1) ndash Pag 163 ndash Figura 68
plot(p xlim=c(618) ylim=c(016) type=n bty=l xaxt=n xlab= ylab=
cexaxis=6)for (i in 1015) rect(i-50 i+5 dbinom(i304) col=lightgrey) lty=2)segments(i0idbinom(i304) lty=2)
x=seq(61801) lines(x dnorm(x12sqrt(72)) lwd=2)x=seq(61801) lines(x dnorm(x12sqrt(72)) lwd=2)
axis(1 916 cexaxis=9) ax s seq cexax s=
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5161
A1) ndash Pag 198 ndash Figura 78
x1=seq(-4402)plot(x1dnorm(x1) type=l lwd=3 xlab= ylab= )lines(x1 dt(x11)) lines(x1 dt(x12)) lines(x1 dt(x15))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5261
A2ndashResumo de comandos
a)Criaccedilatildeo de dados
c()funccedilatildeo geneacuterica para combinar argumentos com o formando de um vetor fromto gera uma sequecircnce ldquordquo tem prioridade de operator pe13 + 1 is ldquo234rdquo
seq(fromtoby) gera uma sequecircncia by= especifica incremento
length= especifica um comprimento desejado
rep(xtimes) replicate x onuacutemero times de vezes use each= para repetir cada
elemento de x rep(c(123)2) gera 1 2 3 1 2 3 rep(c(12)each=2) gera 1 1 2 2
matrix(xnrow=ncol=) matrix elementos de x se reciclam caso x
rbind()combina vetores em linhas num estrutura de matrizes de dados
cbind()combina vetores em colunas num estrutura de matrizes de dados
array(xdim=) matriz com dados x especificar dimensotildees como dim=c(342)
elementos de x se reciclam caso x natildeo seja suficientemente grande
factor(xlevels=) codifica um vetor x como um fator gl(nklength=nklabels=1n) gerar niacuteveis (fatores) especificando
o padratildeo de seus niacuteveis k eacute o nuacutemero de niacuteveis e n eacute o nuacutemero de repeticcedilotildees
dataframe() criar um banco de dados Por exemplo
dataframe(v=14ch=c(gBcasad)n=5)
list()criar uma lista de argumentos Por exemplo list(a=c(12)b=hic=3i)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5361
A2ndashResumo de comandos
b) Informaccedilatildeo de uma Variaacutevellength(x) nuacutemero de elementos em x
dim(x) Obter ou definir a dimensatildeo de um objeto dim (x) = c(32)dimnames(x) Obter ou definir os nomes das dimensotildees de um objeto
nrow(x) nuacutemero de linhas
ncol(x) nuacutemero de colunas
c) Seleccedilatildeo de dados e manipulaccedilatildeochoose(n k) calcula a combinaccedilatildeo de elementos escolhidos entre n
resultando n [(n-k) k]
cut(xbreaks) divide x em intervalos (fatores) breaks eacute o nuacutemero de intervalos de
corte ou um vetor com os valores especiacuteficos
table(x) retorna uma tabela com as quantidades dos diferentes valores de x
(tipicamente para variaacuteveis dos tipos inteiros ou fatores)
sample(x size) retira aleatoriamente com e sem reposiccedilatildeo elementos detamanho SIZE do vetor x a opccedilatildeo replace = TRUE permite a retirada com reposiccedilatildeo
proptable(xmargin=) transforma a tabela como tabela de propoccedilatildeo
marginal margin=1 (com relaccedilatildeo as linhas) margin=2 (com relaccedilatildeo as colunas)
sort(x) Classifica os elementos de x em ordem crescente para classificar em ordem
decrescente rev(sort(x))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5461
A2ndashResumo de comandosd) Estatiacutesticas e operaccedilotildees matemaacuteticasmean(x) media dos elementos de x
median(x) mediana dos elementos de x
quantile(xprobs=) quantis de x correspondendo a uma dada probabilidadevar(x) ou cov(x) variacircncia dos elementos de x (calculado com n-1)
se x eacute uma matriz a matriz de covariacircncia eacute calculada
sd(x) desvio padracirco de of x
cor(x) matriz de correlaccedilatildeo de x se x for uma matriz ou (1 se x eacute um vector)
cor(x y) correlaccedilatildeo linear entre X e Y ou matriz de correlaccedilatildeo se eles satildeo matrizes
round(x n) arredonda os elementos de x para n casas decimais sum x soma os e emen os e x
prod(x) multilica os elementos de x
max(x) acha o maacuteximo dos elementos de x
min(x) acha o miacutenimo dos elementos de x
range(x) equivalente a c(min(x)max(x)
cumsum(x) um vetor onde o eacutesimo elemento eacute a soma de x[1] ateacute x[i]cumprod(x) um vetor onde o eacutesimo elemento eacute o produto de x[1] ateacute x[i]
cummin(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
cummax(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
sincostanasinacosatanatan2loglog10exp)
log(x base) calcula o logaritmo de x na base=base
weightedmean(x w) media ponderada de x com peso= w
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5561
A2ndashResumo de comandos
e) Corte e extraccedilatildeo de dadosindexaccedilatildeo de Vetores
x[n] n-eacutesimo elemento do vetor
x[-n] todos menos o n-eacutesimo elemento
x[1n] os primeiros n elemento
x[-(1n)] elementos de n+1 ateacute o final
x[c(432)] elementos especificados
x[y gt 5] todo elementos de onde os valores de y satildeo maiores que 5
x x gt 3 amp x lt 5 todo elementos entre 3 e 5
x[nome] elemento denominado nome
indexaccedilatildeo de Matrizes
x[ij] elemento na linha i coluna j
x[i] linha i
x[j] coluna j
x[c(13)] colunas 1 and 3
x[nome] linha nomeada nome
indexaccedilatildeo de data frames
x[[nome]] coluna chamada nome
x$nome equivalente a coluna chamada nome
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5661
A2ndashResumo de comandos
f) Operaccedilatildeo com Matrizest(x) transposta da matrix x
diag(x) retira a diagonal da matrix x
multiplicaccedilatildeo matricial
solve(ab) resove a equaccedilatildeo a x = b em relaccedilatildeo a x
solve(a) matriz inversa de a
rowSum(x) soma das linhas da matrix x
colSum(x) soma das colunas da matrix x
rowMeans x meacutedia das linhas da matrix x
colMeans(x) id meacutedia das colunas da matrix x
g) Graacuteficos (Plotting)plot(x y) diagrama de disperccedilatildeo plot dos pares (xy) num sistema de eixos
coordenadoshist(x) histogram dasfrequecircncias of x
barplot(x) graacutefico de barras of x usar horiz=T ara barras horizontal
pie(x) graacutefico de setores (pie-chart)
boxplot(x)
qqnorm(x) quantis de x em relaccedilatildeo aos valores esperados de uma dist Normal
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5761
A2ndashResumo de comandosparametros dos commando de Graacutefico
type=p especifica o tipo de plot p pontos l linhas b pontos
ligados por linhas o idecircntico mas as linhas passam sobre os pontos h
linhas verticais s escada (steps) os dados satildeo representados pelas alturasverticais
xlim= ylim= especifica os limites inferiores e superiores dos eixos por exemplocom xlim=c(1 10) ou xlim=range(x)
xlab= ylab= nomeia os eixos o nome deve ser do tipo caracter
main= tiacutetulo principal deve ser do tipo caracter
sub= sub-tiacutetulo (escrito em fonte menor)
podem ser usados como bty(tipo de caixa) lwd (lagura da linha) lty (tipo delinha) pch(tipo de ponto) cex xaxs yaxs xaxtyaxt
h) Teste de hipoacuteteses
ttest()proptest()
chisqtest()
aov(formula) analysis of variance model
anova(fit) analysis of variance (or deviance) tables for one or more
fitted model objects
Use o commando gt test para procurar todos os testes disponiacuteveis
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5861
A2ndashResumo de comandos
i) Programmingfunction( arglist ) expr para definer uma funccedilatildeo
return(value)
if(cond) expr
if(cond) consexpr else altexpr
for(var in seq) expr
while(cond) expr
re eat ex r
break
Usar chaves entre commandos dlimitando o iniacutecio e o fim de um grupo decomandos
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5961
A2ndashResumo de comandos
j) Commandos auxiliaries em Graacuteficospoints(x y) adiciona pontos (a opccedilatildeo type= pode ser usada)
lines(x y) adiciona linhas (a opccedilatildeo type= pode ser usada)text(x y labels ) adiciona texto na coordenada (xy) um uso tiacutepico eacute
plot(x y type=n) text(x ynames)
segments(x0 y0 x1 y1) desenha linhas do ponto (x0 y0) ao (x1 y1)
arrows(x0 y0 x1 y1 angle= 30 code=2) desenha seta do ponto
(x0 y0) ao (x1 y1)
abline(ab) desenha uma reta de inclinaccedilatildeo b e intercepto a
abline(v=x) desenha uma reta vertical em x
abline(lsfit(xy)) desenha uma reta da regressatildeo feita em lsfit(xy)
rect(x1 y1 x2 y2) desenha um retacircngulo que a esquerda inferior tem coordenadas(x1 y1) e o limite da direita superiores (x2 y2)
polygon(x y) desenha um poliacutegono que une os pontos com coordenadas X e Y
legend(x y legend) Acrescenta a lenda no ponto (x y) com os siacutembolos
dada pela legend
title()adiciona um tiacutetulo e opcionalmente um sub-tiacutetulo
axis(side) acrescenta um eixo na parte inferior (side = 1) agrave esquerda (2) na partesuperior (3) ou agrave direita (4)
box()desenhar uma caixa em torno do plot
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6061
A2ndashResumo de comandos
k) Comando par (Graphical parameters)Todos estes comando podem ser definidos a niacutevel global com o par () que
especifica os paracircmetros mas tambeacutem muitos podem ser usados comoparametros dos commando de Graacutefico
mfcol vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em colunas
mfrow vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em linhas(matrix for row)
bty controla o tipo de caixa desenhada ao redor do enredo valores permitidos satildeo
o l 7 c u ou se bt =n a caixa natildeo eacute desenhada
lty controla o tipo de linhas pode ser um inteiro ou string (1 solid 2 dashed 3dotted 4 dotdash 5 longdash 6twodash) ou uma string de ateacuteoito caracteres (entre 0 e 9) que especifica o comprimento em pontos oupixels dos elementos desenhados e os espaccedilos em branco por exemplolty=rdquo44rdquo equivale a lty=2
lwd nuacutemero que controla a largura das linhas default 1pch controla o tipo de siacutembolo pode tambeacutem ser um nuacutemero inteiro entre 1 e 25
ps um inteiro que controla o tamanho em pontos de textos e siacutembolos
pty um caracter que especifica o tipo da regiatildeo s quadrado m maacuteximal
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6161
A2ndashResumo de comandos
l) Input and outputreadtable(file) lecirc um arquivo em formato de tabela e cria um quadro de dados a
partir dele o separador default = eacute espaccedilo em branco header = TRUE ler a
primeira linha como um cabeccedilalho de nomes de coluna asis = TRUE paraevitar aque um vetore de caracteres seja convertido em factores usocommentchar = para evitar seja interpretado como um comentaacuteriouso skip = n para pular n linhas antes da leitura de dados consulte a ajudapara as opccedilotildees de linha de nomeaccedilatildeo o tratamento NA e outros
readcsv(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por viacutergulas
readdelim(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por tabulaccedilotildees
readfwf(filewidthsheader=FALSEsep= asis=FALSE)
ler uma tabela de dados em formato fix de largura m para um dataframe widthseacute um vetor inteiro informando os tamanhos dos campos
sink(file) saiacuteda de todos os comandos para um arquivo ateacute aparecer um comando
sink () que desliga writetable(x file=rownames=Tcolnames=Tsep= ) imprime x apoacutes a
conversatildeo para banco de dados
save(file) guarda os objetos especificados () no formato XDR
load()carregar o conjunto de dados salvos com o comando save
data(x) carrega um conjunto de dados especificado
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3861
CAP 3-b) ndash TH teste tttest(x y = NULL alternative = c(twosided less greater) mu = 0
paired = FALSE varequal = FALSE conflevel = 095 )
Procedimentos de teste de hipoacuteteses com niacutevel de significacircncia α e amostras de tamanho n
UmaAmostra
DuasAmostras
Obs Os testes acima satildeo bilaterais
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3961
CAP 3ndashb) TH exemplo de teste t ndash amostras independentespag233- teste t amostras independente - comparaccedilatildeo log(salaacuterio)
entre os grupos de comeacutercio e de serviccedilo
LogSal=c(1289156912501344145616361573171309060903
0977122011031069128714101496131113371366
1227119114591280115217401649176524101701
1538192419251721154918911534163812071682
120614232010143112651570)
Sal=exp(LogSal)
setor= c(rep(C23) rep(S23))
ttest(Sal[setor==C] Sal[setor==S] varequal=T)
Two Sample t-test
data Sal[setor == C] and Sal[setor == S]
t = -36822 df = 44 p-value = 00006289
alternative hypothesis true difference in means is not equal to 095 percent confidence interval
-23079005 -06751838
sample estimates
mean of x mean of y3786010 5277552
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4061
CAP 3ndashb) TH exemplo de teste t ndash amostra pareadapag237- teste t pareado
P1=c(6315596455545480598065203660986853
8765647785536980827184605572645564)
P2=c(3638306043466455604343523428837155
8238556767443459605968506254473652)
ttest(P1 P2 alt=greater paired = T)
Paired t-test
data P1 and P2
t = 44176 df = 33 p-value = 5072e-05
alternative hypothesis true difference in means is greater than 0
95 percent confidence interval
0716695 Inf
sample estimates
mean of the differences
1161765
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4161
CAP 3ndashb) TH exemplo de teste Quiquadrado chisqtest
pag233- teste Quiquadrado -
tcont=matrix(c(683585251530258 7461761220225) 72)
chisqtest(tcont)
Pearsons Chi-squared test
data tcont- = = - lt -
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4261
CAP 3ndashb) TH exemplo de teste Quiquadrado chisqtestaov(formula data = NULL )
pag244- ANOVA - Comparaccedilatildeo de trecircs raccedilotildees para suinos
A=c(444943514475425134305342453630
322133421040395246294247453959)
B=c(343640545953445432686954414647
6566455739)
C=c(574040364566395025212927283942
21304143294244582849)
aumentoP=c(ABC)
racao=c(rep(A30)rep(B20) rep(C25))
summaryaov(aov(aumentoP ~ racao))
Df Sum Sq Mean Sq F value Pr(gtF)racao 2 15385 7693 56136 0005425
Residuals 72 98666 1370
---
Signif codes 0 lsquorsquo 0001 lsquorsquo 001 lsquorsquo 005 lsquorsquo 01 lsquo rsquo 1
Warning message
In modelmatrixdefault(mt mf contrasts)
variable racao converted to a factor
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4361
ApecircndicesA-1) Apresentaremos aqui algumas figuras
feitas no R na elaboraccedilatildeo do livro
Achamos que o exame desses coacutedigos acompanhado dos resultados podeser um bom aprendizado um exerciacutecio ou talvez uma recordaccedilatildeo do materialaqui exposto
A-2) Resumo de comandosa) Criaccedilatildeo de dados
b) Informaccedilatildeo de uma Variaacutevel
c) Seleccedilatildeo de dados e manipulaccedilatildeo
d) Estatiacutesticas e operaccedilotildees matemaacuteticas
e) Corte e extraccedilatildeo de dados
f) Operaccedilatildeo com Matrizes
g) Graacuteficos (Plotting)
h) Teste de hipoacuteteses
i) Programming
j) Commandos auxiliaries em Graacuteficos
k) Comando par (Graphical parameters)
l) Input and output
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4461
A1) ndash Pag 14 ndash Figura 15
IDADE=c(616961716371726866697267636663636067716360696463667164706366646969646372736871726968687379)
IMC= c(245273281301254301280234268228255228235232203226239243271227237258213243243248219234216214221227227211268278275267286253239258247284235)
par(mfrow=c(12))hist(IDADE breaks=c(6065707580) ylim=c(020) ylab=Nuacutemero de Observaccedilotildees
main= col=grey right = F)hist(IMC breaks=c(200225250275300325)
ylab=Nuacutemero de Observaccedilotildeesmain= col=grey right = F )
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4561
A1) ndash Pag 44 ndash Figura 21
mat=matrix(c(81823913601818608740)32)
rownames(mat)=c(AtivaSedentaacuteriaTotal)colnames(mat)=c(NormalSobrepeso)barplot(t(mat) beside = TRUE space=c(315)
col=gray(c(79))legend = c(NormalSobrepeso) ylim = c(0 95) ylab= - percentagem)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4661
A1) ndash Pag 48 ndash Figura 22
mat= matrix(c(68154510 66214215 66242519 39161711)44byrow=T)
rownames(mat)=c(18 a 21 anos 22 a 25 anos 26 a 30 anos 31 a 40 anos)colnames(mat)=c(CinTeatSMDEx)mat1=mat for (i in 14) mat1[i]lt-mat1[i]100sum(mat1[i]) par(mfrow=c(12) mai=c(1111) mar=c(5 4 2 2) )barplot(matbeside=F ylim=c(0250) legend = c(18 a 21 anos 22 a 25 anos
26 a 30 anos 31 a 40 anos) xlab=Contagem)
barplot(mat1 beside=F xlab=Percentagem)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4761
A1) ndash Pag 52 ndash Figura 25X= c(184114821789235159118762592403190408372147328526471687
09642871437079238215753399242122530314859149806)y =c(01837012540193301620014230140604568022870231400861019960235302186012798991801254018210244160823
0147764068011818941403474539680150133247023685518102146187520214097090257291227
036282905401406510810113849399)plot(x y xlim=c(07) ylim=c(05) pch=16 bty=l xlab=Renda per capita
ylab=Telefonia Fixa per capita)
abline(lsfit(xy))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4861
A1) ndash Pag 109 ndash Figura 45
x=020
y1=dpois(x1) y2=dpois(x3) y3=dpois(x10)names(y1)=x names(y2)=x names(y3)=xpar(mfrow=c(13))plot(y1ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=1)plot(y2ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=3)plot(y3ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=10)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4961
A1) ndash Pag 118 ndash Figura 412
x=seq(010001)
plot(xdexp(x 12) type=l xlim=c(012) ylim=c(01) bty=l ylab=f(x) eF(x))for(i in seq(0 25 001)) segments(i 0 i dexp(i12) col=lightgrey)abline(v=0 h=0)points(xdexp(x 12) type=l lwd=2 bty=l)points(xpexp(x 12) lwd=2 type=l)segments(250 25pexp(2512))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5061
A1) ndash Pag 163 ndash Figura 68
plot(p xlim=c(618) ylim=c(016) type=n bty=l xaxt=n xlab= ylab=
cexaxis=6)for (i in 1015) rect(i-50 i+5 dbinom(i304) col=lightgrey) lty=2)segments(i0idbinom(i304) lty=2)
x=seq(61801) lines(x dnorm(x12sqrt(72)) lwd=2)x=seq(61801) lines(x dnorm(x12sqrt(72)) lwd=2)
axis(1 916 cexaxis=9) ax s seq cexax s=
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5161
A1) ndash Pag 198 ndash Figura 78
x1=seq(-4402)plot(x1dnorm(x1) type=l lwd=3 xlab= ylab= )lines(x1 dt(x11)) lines(x1 dt(x12)) lines(x1 dt(x15))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5261
A2ndashResumo de comandos
a)Criaccedilatildeo de dados
c()funccedilatildeo geneacuterica para combinar argumentos com o formando de um vetor fromto gera uma sequecircnce ldquordquo tem prioridade de operator pe13 + 1 is ldquo234rdquo
seq(fromtoby) gera uma sequecircncia by= especifica incremento
length= especifica um comprimento desejado
rep(xtimes) replicate x onuacutemero times de vezes use each= para repetir cada
elemento de x rep(c(123)2) gera 1 2 3 1 2 3 rep(c(12)each=2) gera 1 1 2 2
matrix(xnrow=ncol=) matrix elementos de x se reciclam caso x
rbind()combina vetores em linhas num estrutura de matrizes de dados
cbind()combina vetores em colunas num estrutura de matrizes de dados
array(xdim=) matriz com dados x especificar dimensotildees como dim=c(342)
elementos de x se reciclam caso x natildeo seja suficientemente grande
factor(xlevels=) codifica um vetor x como um fator gl(nklength=nklabels=1n) gerar niacuteveis (fatores) especificando
o padratildeo de seus niacuteveis k eacute o nuacutemero de niacuteveis e n eacute o nuacutemero de repeticcedilotildees
dataframe() criar um banco de dados Por exemplo
dataframe(v=14ch=c(gBcasad)n=5)
list()criar uma lista de argumentos Por exemplo list(a=c(12)b=hic=3i)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5361
A2ndashResumo de comandos
b) Informaccedilatildeo de uma Variaacutevellength(x) nuacutemero de elementos em x
dim(x) Obter ou definir a dimensatildeo de um objeto dim (x) = c(32)dimnames(x) Obter ou definir os nomes das dimensotildees de um objeto
nrow(x) nuacutemero de linhas
ncol(x) nuacutemero de colunas
c) Seleccedilatildeo de dados e manipulaccedilatildeochoose(n k) calcula a combinaccedilatildeo de elementos escolhidos entre n
resultando n [(n-k) k]
cut(xbreaks) divide x em intervalos (fatores) breaks eacute o nuacutemero de intervalos de
corte ou um vetor com os valores especiacuteficos
table(x) retorna uma tabela com as quantidades dos diferentes valores de x
(tipicamente para variaacuteveis dos tipos inteiros ou fatores)
sample(x size) retira aleatoriamente com e sem reposiccedilatildeo elementos detamanho SIZE do vetor x a opccedilatildeo replace = TRUE permite a retirada com reposiccedilatildeo
proptable(xmargin=) transforma a tabela como tabela de propoccedilatildeo
marginal margin=1 (com relaccedilatildeo as linhas) margin=2 (com relaccedilatildeo as colunas)
sort(x) Classifica os elementos de x em ordem crescente para classificar em ordem
decrescente rev(sort(x))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5461
A2ndashResumo de comandosd) Estatiacutesticas e operaccedilotildees matemaacuteticasmean(x) media dos elementos de x
median(x) mediana dos elementos de x
quantile(xprobs=) quantis de x correspondendo a uma dada probabilidadevar(x) ou cov(x) variacircncia dos elementos de x (calculado com n-1)
se x eacute uma matriz a matriz de covariacircncia eacute calculada
sd(x) desvio padracirco de of x
cor(x) matriz de correlaccedilatildeo de x se x for uma matriz ou (1 se x eacute um vector)
cor(x y) correlaccedilatildeo linear entre X e Y ou matriz de correlaccedilatildeo se eles satildeo matrizes
round(x n) arredonda os elementos de x para n casas decimais sum x soma os e emen os e x
prod(x) multilica os elementos de x
max(x) acha o maacuteximo dos elementos de x
min(x) acha o miacutenimo dos elementos de x
range(x) equivalente a c(min(x)max(x)
cumsum(x) um vetor onde o eacutesimo elemento eacute a soma de x[1] ateacute x[i]cumprod(x) um vetor onde o eacutesimo elemento eacute o produto de x[1] ateacute x[i]
cummin(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
cummax(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
sincostanasinacosatanatan2loglog10exp)
log(x base) calcula o logaritmo de x na base=base
weightedmean(x w) media ponderada de x com peso= w
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5561
A2ndashResumo de comandos
e) Corte e extraccedilatildeo de dadosindexaccedilatildeo de Vetores
x[n] n-eacutesimo elemento do vetor
x[-n] todos menos o n-eacutesimo elemento
x[1n] os primeiros n elemento
x[-(1n)] elementos de n+1 ateacute o final
x[c(432)] elementos especificados
x[y gt 5] todo elementos de onde os valores de y satildeo maiores que 5
x x gt 3 amp x lt 5 todo elementos entre 3 e 5
x[nome] elemento denominado nome
indexaccedilatildeo de Matrizes
x[ij] elemento na linha i coluna j
x[i] linha i
x[j] coluna j
x[c(13)] colunas 1 and 3
x[nome] linha nomeada nome
indexaccedilatildeo de data frames
x[[nome]] coluna chamada nome
x$nome equivalente a coluna chamada nome
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5661
A2ndashResumo de comandos
f) Operaccedilatildeo com Matrizest(x) transposta da matrix x
diag(x) retira a diagonal da matrix x
multiplicaccedilatildeo matricial
solve(ab) resove a equaccedilatildeo a x = b em relaccedilatildeo a x
solve(a) matriz inversa de a
rowSum(x) soma das linhas da matrix x
colSum(x) soma das colunas da matrix x
rowMeans x meacutedia das linhas da matrix x
colMeans(x) id meacutedia das colunas da matrix x
g) Graacuteficos (Plotting)plot(x y) diagrama de disperccedilatildeo plot dos pares (xy) num sistema de eixos
coordenadoshist(x) histogram dasfrequecircncias of x
barplot(x) graacutefico de barras of x usar horiz=T ara barras horizontal
pie(x) graacutefico de setores (pie-chart)
boxplot(x)
qqnorm(x) quantis de x em relaccedilatildeo aos valores esperados de uma dist Normal
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5761
A2ndashResumo de comandosparametros dos commando de Graacutefico
type=p especifica o tipo de plot p pontos l linhas b pontos
ligados por linhas o idecircntico mas as linhas passam sobre os pontos h
linhas verticais s escada (steps) os dados satildeo representados pelas alturasverticais
xlim= ylim= especifica os limites inferiores e superiores dos eixos por exemplocom xlim=c(1 10) ou xlim=range(x)
xlab= ylab= nomeia os eixos o nome deve ser do tipo caracter
main= tiacutetulo principal deve ser do tipo caracter
sub= sub-tiacutetulo (escrito em fonte menor)
podem ser usados como bty(tipo de caixa) lwd (lagura da linha) lty (tipo delinha) pch(tipo de ponto) cex xaxs yaxs xaxtyaxt
h) Teste de hipoacuteteses
ttest()proptest()
chisqtest()
aov(formula) analysis of variance model
anova(fit) analysis of variance (or deviance) tables for one or more
fitted model objects
Use o commando gt test para procurar todos os testes disponiacuteveis
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5861
A2ndashResumo de comandos
i) Programmingfunction( arglist ) expr para definer uma funccedilatildeo
return(value)
if(cond) expr
if(cond) consexpr else altexpr
for(var in seq) expr
while(cond) expr
re eat ex r
break
Usar chaves entre commandos dlimitando o iniacutecio e o fim de um grupo decomandos
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5961
A2ndashResumo de comandos
j) Commandos auxiliaries em Graacuteficospoints(x y) adiciona pontos (a opccedilatildeo type= pode ser usada)
lines(x y) adiciona linhas (a opccedilatildeo type= pode ser usada)text(x y labels ) adiciona texto na coordenada (xy) um uso tiacutepico eacute
plot(x y type=n) text(x ynames)
segments(x0 y0 x1 y1) desenha linhas do ponto (x0 y0) ao (x1 y1)
arrows(x0 y0 x1 y1 angle= 30 code=2) desenha seta do ponto
(x0 y0) ao (x1 y1)
abline(ab) desenha uma reta de inclinaccedilatildeo b e intercepto a
abline(v=x) desenha uma reta vertical em x
abline(lsfit(xy)) desenha uma reta da regressatildeo feita em lsfit(xy)
rect(x1 y1 x2 y2) desenha um retacircngulo que a esquerda inferior tem coordenadas(x1 y1) e o limite da direita superiores (x2 y2)
polygon(x y) desenha um poliacutegono que une os pontos com coordenadas X e Y
legend(x y legend) Acrescenta a lenda no ponto (x y) com os siacutembolos
dada pela legend
title()adiciona um tiacutetulo e opcionalmente um sub-tiacutetulo
axis(side) acrescenta um eixo na parte inferior (side = 1) agrave esquerda (2) na partesuperior (3) ou agrave direita (4)
box()desenhar uma caixa em torno do plot
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6061
A2ndashResumo de comandos
k) Comando par (Graphical parameters)Todos estes comando podem ser definidos a niacutevel global com o par () que
especifica os paracircmetros mas tambeacutem muitos podem ser usados comoparametros dos commando de Graacutefico
mfcol vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em colunas
mfrow vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em linhas(matrix for row)
bty controla o tipo de caixa desenhada ao redor do enredo valores permitidos satildeo
o l 7 c u ou se bt =n a caixa natildeo eacute desenhada
lty controla o tipo de linhas pode ser um inteiro ou string (1 solid 2 dashed 3dotted 4 dotdash 5 longdash 6twodash) ou uma string de ateacuteoito caracteres (entre 0 e 9) que especifica o comprimento em pontos oupixels dos elementos desenhados e os espaccedilos em branco por exemplolty=rdquo44rdquo equivale a lty=2
lwd nuacutemero que controla a largura das linhas default 1pch controla o tipo de siacutembolo pode tambeacutem ser um nuacutemero inteiro entre 1 e 25
ps um inteiro que controla o tamanho em pontos de textos e siacutembolos
pty um caracter que especifica o tipo da regiatildeo s quadrado m maacuteximal
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6161
A2ndashResumo de comandos
l) Input and outputreadtable(file) lecirc um arquivo em formato de tabela e cria um quadro de dados a
partir dele o separador default = eacute espaccedilo em branco header = TRUE ler a
primeira linha como um cabeccedilalho de nomes de coluna asis = TRUE paraevitar aque um vetore de caracteres seja convertido em factores usocommentchar = para evitar seja interpretado como um comentaacuteriouso skip = n para pular n linhas antes da leitura de dados consulte a ajudapara as opccedilotildees de linha de nomeaccedilatildeo o tratamento NA e outros
readcsv(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por viacutergulas
readdelim(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por tabulaccedilotildees
readfwf(filewidthsheader=FALSEsep= asis=FALSE)
ler uma tabela de dados em formato fix de largura m para um dataframe widthseacute um vetor inteiro informando os tamanhos dos campos
sink(file) saiacuteda de todos os comandos para um arquivo ateacute aparecer um comando
sink () que desliga writetable(x file=rownames=Tcolnames=Tsep= ) imprime x apoacutes a
conversatildeo para banco de dados
save(file) guarda os objetos especificados () no formato XDR
load()carregar o conjunto de dados salvos com o comando save
data(x) carrega um conjunto de dados especificado
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 3961
CAP 3ndashb) TH exemplo de teste t ndash amostras independentespag233- teste t amostras independente - comparaccedilatildeo log(salaacuterio)
entre os grupos de comeacutercio e de serviccedilo
LogSal=c(1289156912501344145616361573171309060903
0977122011031069128714101496131113371366
1227119114591280115217401649176524101701
1538192419251721154918911534163812071682
120614232010143112651570)
Sal=exp(LogSal)
setor= c(rep(C23) rep(S23))
ttest(Sal[setor==C] Sal[setor==S] varequal=T)
Two Sample t-test
data Sal[setor == C] and Sal[setor == S]
t = -36822 df = 44 p-value = 00006289
alternative hypothesis true difference in means is not equal to 095 percent confidence interval
-23079005 -06751838
sample estimates
mean of x mean of y3786010 5277552
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4061
CAP 3ndashb) TH exemplo de teste t ndash amostra pareadapag237- teste t pareado
P1=c(6315596455545480598065203660986853
8765647785536980827184605572645564)
P2=c(3638306043466455604343523428837155
8238556767443459605968506254473652)
ttest(P1 P2 alt=greater paired = T)
Paired t-test
data P1 and P2
t = 44176 df = 33 p-value = 5072e-05
alternative hypothesis true difference in means is greater than 0
95 percent confidence interval
0716695 Inf
sample estimates
mean of the differences
1161765
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4161
CAP 3ndashb) TH exemplo de teste Quiquadrado chisqtest
pag233- teste Quiquadrado -
tcont=matrix(c(683585251530258 7461761220225) 72)
chisqtest(tcont)
Pearsons Chi-squared test
data tcont- = = - lt -
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4261
CAP 3ndashb) TH exemplo de teste Quiquadrado chisqtestaov(formula data = NULL )
pag244- ANOVA - Comparaccedilatildeo de trecircs raccedilotildees para suinos
A=c(444943514475425134305342453630
322133421040395246294247453959)
B=c(343640545953445432686954414647
6566455739)
C=c(574040364566395025212927283942
21304143294244582849)
aumentoP=c(ABC)
racao=c(rep(A30)rep(B20) rep(C25))
summaryaov(aov(aumentoP ~ racao))
Df Sum Sq Mean Sq F value Pr(gtF)racao 2 15385 7693 56136 0005425
Residuals 72 98666 1370
---
Signif codes 0 lsquorsquo 0001 lsquorsquo 001 lsquorsquo 005 lsquorsquo 01 lsquo rsquo 1
Warning message
In modelmatrixdefault(mt mf contrasts)
variable racao converted to a factor
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4361
ApecircndicesA-1) Apresentaremos aqui algumas figuras
feitas no R na elaboraccedilatildeo do livro
Achamos que o exame desses coacutedigos acompanhado dos resultados podeser um bom aprendizado um exerciacutecio ou talvez uma recordaccedilatildeo do materialaqui exposto
A-2) Resumo de comandosa) Criaccedilatildeo de dados
b) Informaccedilatildeo de uma Variaacutevel
c) Seleccedilatildeo de dados e manipulaccedilatildeo
d) Estatiacutesticas e operaccedilotildees matemaacuteticas
e) Corte e extraccedilatildeo de dados
f) Operaccedilatildeo com Matrizes
g) Graacuteficos (Plotting)
h) Teste de hipoacuteteses
i) Programming
j) Commandos auxiliaries em Graacuteficos
k) Comando par (Graphical parameters)
l) Input and output
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4461
A1) ndash Pag 14 ndash Figura 15
IDADE=c(616961716371726866697267636663636067716360696463667164706366646969646372736871726968687379)
IMC= c(245273281301254301280234268228255228235232203226239243271227237258213243243248219234216214221227227211268278275267286253239258247284235)
par(mfrow=c(12))hist(IDADE breaks=c(6065707580) ylim=c(020) ylab=Nuacutemero de Observaccedilotildees
main= col=grey right = F)hist(IMC breaks=c(200225250275300325)
ylab=Nuacutemero de Observaccedilotildeesmain= col=grey right = F )
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4561
A1) ndash Pag 44 ndash Figura 21
mat=matrix(c(81823913601818608740)32)
rownames(mat)=c(AtivaSedentaacuteriaTotal)colnames(mat)=c(NormalSobrepeso)barplot(t(mat) beside = TRUE space=c(315)
col=gray(c(79))legend = c(NormalSobrepeso) ylim = c(0 95) ylab= - percentagem)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4661
A1) ndash Pag 48 ndash Figura 22
mat= matrix(c(68154510 66214215 66242519 39161711)44byrow=T)
rownames(mat)=c(18 a 21 anos 22 a 25 anos 26 a 30 anos 31 a 40 anos)colnames(mat)=c(CinTeatSMDEx)mat1=mat for (i in 14) mat1[i]lt-mat1[i]100sum(mat1[i]) par(mfrow=c(12) mai=c(1111) mar=c(5 4 2 2) )barplot(matbeside=F ylim=c(0250) legend = c(18 a 21 anos 22 a 25 anos
26 a 30 anos 31 a 40 anos) xlab=Contagem)
barplot(mat1 beside=F xlab=Percentagem)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4761
A1) ndash Pag 52 ndash Figura 25X= c(184114821789235159118762592403190408372147328526471687
09642871437079238215753399242122530314859149806)y =c(01837012540193301620014230140604568022870231400861019960235302186012798991801254018210244160823
0147764068011818941403474539680150133247023685518102146187520214097090257291227
036282905401406510810113849399)plot(x y xlim=c(07) ylim=c(05) pch=16 bty=l xlab=Renda per capita
ylab=Telefonia Fixa per capita)
abline(lsfit(xy))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4861
A1) ndash Pag 109 ndash Figura 45
x=020
y1=dpois(x1) y2=dpois(x3) y3=dpois(x10)names(y1)=x names(y2)=x names(y3)=xpar(mfrow=c(13))plot(y1ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=1)plot(y2ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=3)plot(y3ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=10)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4961
A1) ndash Pag 118 ndash Figura 412
x=seq(010001)
plot(xdexp(x 12) type=l xlim=c(012) ylim=c(01) bty=l ylab=f(x) eF(x))for(i in seq(0 25 001)) segments(i 0 i dexp(i12) col=lightgrey)abline(v=0 h=0)points(xdexp(x 12) type=l lwd=2 bty=l)points(xpexp(x 12) lwd=2 type=l)segments(250 25pexp(2512))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5061
A1) ndash Pag 163 ndash Figura 68
plot(p xlim=c(618) ylim=c(016) type=n bty=l xaxt=n xlab= ylab=
cexaxis=6)for (i in 1015) rect(i-50 i+5 dbinom(i304) col=lightgrey) lty=2)segments(i0idbinom(i304) lty=2)
x=seq(61801) lines(x dnorm(x12sqrt(72)) lwd=2)x=seq(61801) lines(x dnorm(x12sqrt(72)) lwd=2)
axis(1 916 cexaxis=9) ax s seq cexax s=
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5161
A1) ndash Pag 198 ndash Figura 78
x1=seq(-4402)plot(x1dnorm(x1) type=l lwd=3 xlab= ylab= )lines(x1 dt(x11)) lines(x1 dt(x12)) lines(x1 dt(x15))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5261
A2ndashResumo de comandos
a)Criaccedilatildeo de dados
c()funccedilatildeo geneacuterica para combinar argumentos com o formando de um vetor fromto gera uma sequecircnce ldquordquo tem prioridade de operator pe13 + 1 is ldquo234rdquo
seq(fromtoby) gera uma sequecircncia by= especifica incremento
length= especifica um comprimento desejado
rep(xtimes) replicate x onuacutemero times de vezes use each= para repetir cada
elemento de x rep(c(123)2) gera 1 2 3 1 2 3 rep(c(12)each=2) gera 1 1 2 2
matrix(xnrow=ncol=) matrix elementos de x se reciclam caso x
rbind()combina vetores em linhas num estrutura de matrizes de dados
cbind()combina vetores em colunas num estrutura de matrizes de dados
array(xdim=) matriz com dados x especificar dimensotildees como dim=c(342)
elementos de x se reciclam caso x natildeo seja suficientemente grande
factor(xlevels=) codifica um vetor x como um fator gl(nklength=nklabels=1n) gerar niacuteveis (fatores) especificando
o padratildeo de seus niacuteveis k eacute o nuacutemero de niacuteveis e n eacute o nuacutemero de repeticcedilotildees
dataframe() criar um banco de dados Por exemplo
dataframe(v=14ch=c(gBcasad)n=5)
list()criar uma lista de argumentos Por exemplo list(a=c(12)b=hic=3i)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5361
A2ndashResumo de comandos
b) Informaccedilatildeo de uma Variaacutevellength(x) nuacutemero de elementos em x
dim(x) Obter ou definir a dimensatildeo de um objeto dim (x) = c(32)dimnames(x) Obter ou definir os nomes das dimensotildees de um objeto
nrow(x) nuacutemero de linhas
ncol(x) nuacutemero de colunas
c) Seleccedilatildeo de dados e manipulaccedilatildeochoose(n k) calcula a combinaccedilatildeo de elementos escolhidos entre n
resultando n [(n-k) k]
cut(xbreaks) divide x em intervalos (fatores) breaks eacute o nuacutemero de intervalos de
corte ou um vetor com os valores especiacuteficos
table(x) retorna uma tabela com as quantidades dos diferentes valores de x
(tipicamente para variaacuteveis dos tipos inteiros ou fatores)
sample(x size) retira aleatoriamente com e sem reposiccedilatildeo elementos detamanho SIZE do vetor x a opccedilatildeo replace = TRUE permite a retirada com reposiccedilatildeo
proptable(xmargin=) transforma a tabela como tabela de propoccedilatildeo
marginal margin=1 (com relaccedilatildeo as linhas) margin=2 (com relaccedilatildeo as colunas)
sort(x) Classifica os elementos de x em ordem crescente para classificar em ordem
decrescente rev(sort(x))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5461
A2ndashResumo de comandosd) Estatiacutesticas e operaccedilotildees matemaacuteticasmean(x) media dos elementos de x
median(x) mediana dos elementos de x
quantile(xprobs=) quantis de x correspondendo a uma dada probabilidadevar(x) ou cov(x) variacircncia dos elementos de x (calculado com n-1)
se x eacute uma matriz a matriz de covariacircncia eacute calculada
sd(x) desvio padracirco de of x
cor(x) matriz de correlaccedilatildeo de x se x for uma matriz ou (1 se x eacute um vector)
cor(x y) correlaccedilatildeo linear entre X e Y ou matriz de correlaccedilatildeo se eles satildeo matrizes
round(x n) arredonda os elementos de x para n casas decimais sum x soma os e emen os e x
prod(x) multilica os elementos de x
max(x) acha o maacuteximo dos elementos de x
min(x) acha o miacutenimo dos elementos de x
range(x) equivalente a c(min(x)max(x)
cumsum(x) um vetor onde o eacutesimo elemento eacute a soma de x[1] ateacute x[i]cumprod(x) um vetor onde o eacutesimo elemento eacute o produto de x[1] ateacute x[i]
cummin(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
cummax(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
sincostanasinacosatanatan2loglog10exp)
log(x base) calcula o logaritmo de x na base=base
weightedmean(x w) media ponderada de x com peso= w
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5561
A2ndashResumo de comandos
e) Corte e extraccedilatildeo de dadosindexaccedilatildeo de Vetores
x[n] n-eacutesimo elemento do vetor
x[-n] todos menos o n-eacutesimo elemento
x[1n] os primeiros n elemento
x[-(1n)] elementos de n+1 ateacute o final
x[c(432)] elementos especificados
x[y gt 5] todo elementos de onde os valores de y satildeo maiores que 5
x x gt 3 amp x lt 5 todo elementos entre 3 e 5
x[nome] elemento denominado nome
indexaccedilatildeo de Matrizes
x[ij] elemento na linha i coluna j
x[i] linha i
x[j] coluna j
x[c(13)] colunas 1 and 3
x[nome] linha nomeada nome
indexaccedilatildeo de data frames
x[[nome]] coluna chamada nome
x$nome equivalente a coluna chamada nome
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5661
A2ndashResumo de comandos
f) Operaccedilatildeo com Matrizest(x) transposta da matrix x
diag(x) retira a diagonal da matrix x
multiplicaccedilatildeo matricial
solve(ab) resove a equaccedilatildeo a x = b em relaccedilatildeo a x
solve(a) matriz inversa de a
rowSum(x) soma das linhas da matrix x
colSum(x) soma das colunas da matrix x
rowMeans x meacutedia das linhas da matrix x
colMeans(x) id meacutedia das colunas da matrix x
g) Graacuteficos (Plotting)plot(x y) diagrama de disperccedilatildeo plot dos pares (xy) num sistema de eixos
coordenadoshist(x) histogram dasfrequecircncias of x
barplot(x) graacutefico de barras of x usar horiz=T ara barras horizontal
pie(x) graacutefico de setores (pie-chart)
boxplot(x)
qqnorm(x) quantis de x em relaccedilatildeo aos valores esperados de uma dist Normal
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5761
A2ndashResumo de comandosparametros dos commando de Graacutefico
type=p especifica o tipo de plot p pontos l linhas b pontos
ligados por linhas o idecircntico mas as linhas passam sobre os pontos h
linhas verticais s escada (steps) os dados satildeo representados pelas alturasverticais
xlim= ylim= especifica os limites inferiores e superiores dos eixos por exemplocom xlim=c(1 10) ou xlim=range(x)
xlab= ylab= nomeia os eixos o nome deve ser do tipo caracter
main= tiacutetulo principal deve ser do tipo caracter
sub= sub-tiacutetulo (escrito em fonte menor)
podem ser usados como bty(tipo de caixa) lwd (lagura da linha) lty (tipo delinha) pch(tipo de ponto) cex xaxs yaxs xaxtyaxt
h) Teste de hipoacuteteses
ttest()proptest()
chisqtest()
aov(formula) analysis of variance model
anova(fit) analysis of variance (or deviance) tables for one or more
fitted model objects
Use o commando gt test para procurar todos os testes disponiacuteveis
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5861
A2ndashResumo de comandos
i) Programmingfunction( arglist ) expr para definer uma funccedilatildeo
return(value)
if(cond) expr
if(cond) consexpr else altexpr
for(var in seq) expr
while(cond) expr
re eat ex r
break
Usar chaves entre commandos dlimitando o iniacutecio e o fim de um grupo decomandos
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5961
A2ndashResumo de comandos
j) Commandos auxiliaries em Graacuteficospoints(x y) adiciona pontos (a opccedilatildeo type= pode ser usada)
lines(x y) adiciona linhas (a opccedilatildeo type= pode ser usada)text(x y labels ) adiciona texto na coordenada (xy) um uso tiacutepico eacute
plot(x y type=n) text(x ynames)
segments(x0 y0 x1 y1) desenha linhas do ponto (x0 y0) ao (x1 y1)
arrows(x0 y0 x1 y1 angle= 30 code=2) desenha seta do ponto
(x0 y0) ao (x1 y1)
abline(ab) desenha uma reta de inclinaccedilatildeo b e intercepto a
abline(v=x) desenha uma reta vertical em x
abline(lsfit(xy)) desenha uma reta da regressatildeo feita em lsfit(xy)
rect(x1 y1 x2 y2) desenha um retacircngulo que a esquerda inferior tem coordenadas(x1 y1) e o limite da direita superiores (x2 y2)
polygon(x y) desenha um poliacutegono que une os pontos com coordenadas X e Y
legend(x y legend) Acrescenta a lenda no ponto (x y) com os siacutembolos
dada pela legend
title()adiciona um tiacutetulo e opcionalmente um sub-tiacutetulo
axis(side) acrescenta um eixo na parte inferior (side = 1) agrave esquerda (2) na partesuperior (3) ou agrave direita (4)
box()desenhar uma caixa em torno do plot
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6061
A2ndashResumo de comandos
k) Comando par (Graphical parameters)Todos estes comando podem ser definidos a niacutevel global com o par () que
especifica os paracircmetros mas tambeacutem muitos podem ser usados comoparametros dos commando de Graacutefico
mfcol vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em colunas
mfrow vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em linhas(matrix for row)
bty controla o tipo de caixa desenhada ao redor do enredo valores permitidos satildeo
o l 7 c u ou se bt =n a caixa natildeo eacute desenhada
lty controla o tipo de linhas pode ser um inteiro ou string (1 solid 2 dashed 3dotted 4 dotdash 5 longdash 6twodash) ou uma string de ateacuteoito caracteres (entre 0 e 9) que especifica o comprimento em pontos oupixels dos elementos desenhados e os espaccedilos em branco por exemplolty=rdquo44rdquo equivale a lty=2
lwd nuacutemero que controla a largura das linhas default 1pch controla o tipo de siacutembolo pode tambeacutem ser um nuacutemero inteiro entre 1 e 25
ps um inteiro que controla o tamanho em pontos de textos e siacutembolos
pty um caracter que especifica o tipo da regiatildeo s quadrado m maacuteximal
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6161
A2ndashResumo de comandos
l) Input and outputreadtable(file) lecirc um arquivo em formato de tabela e cria um quadro de dados a
partir dele o separador default = eacute espaccedilo em branco header = TRUE ler a
primeira linha como um cabeccedilalho de nomes de coluna asis = TRUE paraevitar aque um vetore de caracteres seja convertido em factores usocommentchar = para evitar seja interpretado como um comentaacuteriouso skip = n para pular n linhas antes da leitura de dados consulte a ajudapara as opccedilotildees de linha de nomeaccedilatildeo o tratamento NA e outros
readcsv(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por viacutergulas
readdelim(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por tabulaccedilotildees
readfwf(filewidthsheader=FALSEsep= asis=FALSE)
ler uma tabela de dados em formato fix de largura m para um dataframe widthseacute um vetor inteiro informando os tamanhos dos campos
sink(file) saiacuteda de todos os comandos para um arquivo ateacute aparecer um comando
sink () que desliga writetable(x file=rownames=Tcolnames=Tsep= ) imprime x apoacutes a
conversatildeo para banco de dados
save(file) guarda os objetos especificados () no formato XDR
load()carregar o conjunto de dados salvos com o comando save
data(x) carrega um conjunto de dados especificado
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4061
CAP 3ndashb) TH exemplo de teste t ndash amostra pareadapag237- teste t pareado
P1=c(6315596455545480598065203660986853
8765647785536980827184605572645564)
P2=c(3638306043466455604343523428837155
8238556767443459605968506254473652)
ttest(P1 P2 alt=greater paired = T)
Paired t-test
data P1 and P2
t = 44176 df = 33 p-value = 5072e-05
alternative hypothesis true difference in means is greater than 0
95 percent confidence interval
0716695 Inf
sample estimates
mean of the differences
1161765
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4161
CAP 3ndashb) TH exemplo de teste Quiquadrado chisqtest
pag233- teste Quiquadrado -
tcont=matrix(c(683585251530258 7461761220225) 72)
chisqtest(tcont)
Pearsons Chi-squared test
data tcont- = = - lt -
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4261
CAP 3ndashb) TH exemplo de teste Quiquadrado chisqtestaov(formula data = NULL )
pag244- ANOVA - Comparaccedilatildeo de trecircs raccedilotildees para suinos
A=c(444943514475425134305342453630
322133421040395246294247453959)
B=c(343640545953445432686954414647
6566455739)
C=c(574040364566395025212927283942
21304143294244582849)
aumentoP=c(ABC)
racao=c(rep(A30)rep(B20) rep(C25))
summaryaov(aov(aumentoP ~ racao))
Df Sum Sq Mean Sq F value Pr(gtF)racao 2 15385 7693 56136 0005425
Residuals 72 98666 1370
---
Signif codes 0 lsquorsquo 0001 lsquorsquo 001 lsquorsquo 005 lsquorsquo 01 lsquo rsquo 1
Warning message
In modelmatrixdefault(mt mf contrasts)
variable racao converted to a factor
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4361
ApecircndicesA-1) Apresentaremos aqui algumas figuras
feitas no R na elaboraccedilatildeo do livro
Achamos que o exame desses coacutedigos acompanhado dos resultados podeser um bom aprendizado um exerciacutecio ou talvez uma recordaccedilatildeo do materialaqui exposto
A-2) Resumo de comandosa) Criaccedilatildeo de dados
b) Informaccedilatildeo de uma Variaacutevel
c) Seleccedilatildeo de dados e manipulaccedilatildeo
d) Estatiacutesticas e operaccedilotildees matemaacuteticas
e) Corte e extraccedilatildeo de dados
f) Operaccedilatildeo com Matrizes
g) Graacuteficos (Plotting)
h) Teste de hipoacuteteses
i) Programming
j) Commandos auxiliaries em Graacuteficos
k) Comando par (Graphical parameters)
l) Input and output
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4461
A1) ndash Pag 14 ndash Figura 15
IDADE=c(616961716371726866697267636663636067716360696463667164706366646969646372736871726968687379)
IMC= c(245273281301254301280234268228255228235232203226239243271227237258213243243248219234216214221227227211268278275267286253239258247284235)
par(mfrow=c(12))hist(IDADE breaks=c(6065707580) ylim=c(020) ylab=Nuacutemero de Observaccedilotildees
main= col=grey right = F)hist(IMC breaks=c(200225250275300325)
ylab=Nuacutemero de Observaccedilotildeesmain= col=grey right = F )
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4561
A1) ndash Pag 44 ndash Figura 21
mat=matrix(c(81823913601818608740)32)
rownames(mat)=c(AtivaSedentaacuteriaTotal)colnames(mat)=c(NormalSobrepeso)barplot(t(mat) beside = TRUE space=c(315)
col=gray(c(79))legend = c(NormalSobrepeso) ylim = c(0 95) ylab= - percentagem)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4661
A1) ndash Pag 48 ndash Figura 22
mat= matrix(c(68154510 66214215 66242519 39161711)44byrow=T)
rownames(mat)=c(18 a 21 anos 22 a 25 anos 26 a 30 anos 31 a 40 anos)colnames(mat)=c(CinTeatSMDEx)mat1=mat for (i in 14) mat1[i]lt-mat1[i]100sum(mat1[i]) par(mfrow=c(12) mai=c(1111) mar=c(5 4 2 2) )barplot(matbeside=F ylim=c(0250) legend = c(18 a 21 anos 22 a 25 anos
26 a 30 anos 31 a 40 anos) xlab=Contagem)
barplot(mat1 beside=F xlab=Percentagem)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4761
A1) ndash Pag 52 ndash Figura 25X= c(184114821789235159118762592403190408372147328526471687
09642871437079238215753399242122530314859149806)y =c(01837012540193301620014230140604568022870231400861019960235302186012798991801254018210244160823
0147764068011818941403474539680150133247023685518102146187520214097090257291227
036282905401406510810113849399)plot(x y xlim=c(07) ylim=c(05) pch=16 bty=l xlab=Renda per capita
ylab=Telefonia Fixa per capita)
abline(lsfit(xy))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4861
A1) ndash Pag 109 ndash Figura 45
x=020
y1=dpois(x1) y2=dpois(x3) y3=dpois(x10)names(y1)=x names(y2)=x names(y3)=xpar(mfrow=c(13))plot(y1ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=1)plot(y2ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=3)plot(y3ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=10)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4961
A1) ndash Pag 118 ndash Figura 412
x=seq(010001)
plot(xdexp(x 12) type=l xlim=c(012) ylim=c(01) bty=l ylab=f(x) eF(x))for(i in seq(0 25 001)) segments(i 0 i dexp(i12) col=lightgrey)abline(v=0 h=0)points(xdexp(x 12) type=l lwd=2 bty=l)points(xpexp(x 12) lwd=2 type=l)segments(250 25pexp(2512))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5061
A1) ndash Pag 163 ndash Figura 68
plot(p xlim=c(618) ylim=c(016) type=n bty=l xaxt=n xlab= ylab=
cexaxis=6)for (i in 1015) rect(i-50 i+5 dbinom(i304) col=lightgrey) lty=2)segments(i0idbinom(i304) lty=2)
x=seq(61801) lines(x dnorm(x12sqrt(72)) lwd=2)x=seq(61801) lines(x dnorm(x12sqrt(72)) lwd=2)
axis(1 916 cexaxis=9) ax s seq cexax s=
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5161
A1) ndash Pag 198 ndash Figura 78
x1=seq(-4402)plot(x1dnorm(x1) type=l lwd=3 xlab= ylab= )lines(x1 dt(x11)) lines(x1 dt(x12)) lines(x1 dt(x15))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5261
A2ndashResumo de comandos
a)Criaccedilatildeo de dados
c()funccedilatildeo geneacuterica para combinar argumentos com o formando de um vetor fromto gera uma sequecircnce ldquordquo tem prioridade de operator pe13 + 1 is ldquo234rdquo
seq(fromtoby) gera uma sequecircncia by= especifica incremento
length= especifica um comprimento desejado
rep(xtimes) replicate x onuacutemero times de vezes use each= para repetir cada
elemento de x rep(c(123)2) gera 1 2 3 1 2 3 rep(c(12)each=2) gera 1 1 2 2
matrix(xnrow=ncol=) matrix elementos de x se reciclam caso x
rbind()combina vetores em linhas num estrutura de matrizes de dados
cbind()combina vetores em colunas num estrutura de matrizes de dados
array(xdim=) matriz com dados x especificar dimensotildees como dim=c(342)
elementos de x se reciclam caso x natildeo seja suficientemente grande
factor(xlevels=) codifica um vetor x como um fator gl(nklength=nklabels=1n) gerar niacuteveis (fatores) especificando
o padratildeo de seus niacuteveis k eacute o nuacutemero de niacuteveis e n eacute o nuacutemero de repeticcedilotildees
dataframe() criar um banco de dados Por exemplo
dataframe(v=14ch=c(gBcasad)n=5)
list()criar uma lista de argumentos Por exemplo list(a=c(12)b=hic=3i)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5361
A2ndashResumo de comandos
b) Informaccedilatildeo de uma Variaacutevellength(x) nuacutemero de elementos em x
dim(x) Obter ou definir a dimensatildeo de um objeto dim (x) = c(32)dimnames(x) Obter ou definir os nomes das dimensotildees de um objeto
nrow(x) nuacutemero de linhas
ncol(x) nuacutemero de colunas
c) Seleccedilatildeo de dados e manipulaccedilatildeochoose(n k) calcula a combinaccedilatildeo de elementos escolhidos entre n
resultando n [(n-k) k]
cut(xbreaks) divide x em intervalos (fatores) breaks eacute o nuacutemero de intervalos de
corte ou um vetor com os valores especiacuteficos
table(x) retorna uma tabela com as quantidades dos diferentes valores de x
(tipicamente para variaacuteveis dos tipos inteiros ou fatores)
sample(x size) retira aleatoriamente com e sem reposiccedilatildeo elementos detamanho SIZE do vetor x a opccedilatildeo replace = TRUE permite a retirada com reposiccedilatildeo
proptable(xmargin=) transforma a tabela como tabela de propoccedilatildeo
marginal margin=1 (com relaccedilatildeo as linhas) margin=2 (com relaccedilatildeo as colunas)
sort(x) Classifica os elementos de x em ordem crescente para classificar em ordem
decrescente rev(sort(x))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5461
A2ndashResumo de comandosd) Estatiacutesticas e operaccedilotildees matemaacuteticasmean(x) media dos elementos de x
median(x) mediana dos elementos de x
quantile(xprobs=) quantis de x correspondendo a uma dada probabilidadevar(x) ou cov(x) variacircncia dos elementos de x (calculado com n-1)
se x eacute uma matriz a matriz de covariacircncia eacute calculada
sd(x) desvio padracirco de of x
cor(x) matriz de correlaccedilatildeo de x se x for uma matriz ou (1 se x eacute um vector)
cor(x y) correlaccedilatildeo linear entre X e Y ou matriz de correlaccedilatildeo se eles satildeo matrizes
round(x n) arredonda os elementos de x para n casas decimais sum x soma os e emen os e x
prod(x) multilica os elementos de x
max(x) acha o maacuteximo dos elementos de x
min(x) acha o miacutenimo dos elementos de x
range(x) equivalente a c(min(x)max(x)
cumsum(x) um vetor onde o eacutesimo elemento eacute a soma de x[1] ateacute x[i]cumprod(x) um vetor onde o eacutesimo elemento eacute o produto de x[1] ateacute x[i]
cummin(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
cummax(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
sincostanasinacosatanatan2loglog10exp)
log(x base) calcula o logaritmo de x na base=base
weightedmean(x w) media ponderada de x com peso= w
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5561
A2ndashResumo de comandos
e) Corte e extraccedilatildeo de dadosindexaccedilatildeo de Vetores
x[n] n-eacutesimo elemento do vetor
x[-n] todos menos o n-eacutesimo elemento
x[1n] os primeiros n elemento
x[-(1n)] elementos de n+1 ateacute o final
x[c(432)] elementos especificados
x[y gt 5] todo elementos de onde os valores de y satildeo maiores que 5
x x gt 3 amp x lt 5 todo elementos entre 3 e 5
x[nome] elemento denominado nome
indexaccedilatildeo de Matrizes
x[ij] elemento na linha i coluna j
x[i] linha i
x[j] coluna j
x[c(13)] colunas 1 and 3
x[nome] linha nomeada nome
indexaccedilatildeo de data frames
x[[nome]] coluna chamada nome
x$nome equivalente a coluna chamada nome
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5661
A2ndashResumo de comandos
f) Operaccedilatildeo com Matrizest(x) transposta da matrix x
diag(x) retira a diagonal da matrix x
multiplicaccedilatildeo matricial
solve(ab) resove a equaccedilatildeo a x = b em relaccedilatildeo a x
solve(a) matriz inversa de a
rowSum(x) soma das linhas da matrix x
colSum(x) soma das colunas da matrix x
rowMeans x meacutedia das linhas da matrix x
colMeans(x) id meacutedia das colunas da matrix x
g) Graacuteficos (Plotting)plot(x y) diagrama de disperccedilatildeo plot dos pares (xy) num sistema de eixos
coordenadoshist(x) histogram dasfrequecircncias of x
barplot(x) graacutefico de barras of x usar horiz=T ara barras horizontal
pie(x) graacutefico de setores (pie-chart)
boxplot(x)
qqnorm(x) quantis de x em relaccedilatildeo aos valores esperados de uma dist Normal
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5761
A2ndashResumo de comandosparametros dos commando de Graacutefico
type=p especifica o tipo de plot p pontos l linhas b pontos
ligados por linhas o idecircntico mas as linhas passam sobre os pontos h
linhas verticais s escada (steps) os dados satildeo representados pelas alturasverticais
xlim= ylim= especifica os limites inferiores e superiores dos eixos por exemplocom xlim=c(1 10) ou xlim=range(x)
xlab= ylab= nomeia os eixos o nome deve ser do tipo caracter
main= tiacutetulo principal deve ser do tipo caracter
sub= sub-tiacutetulo (escrito em fonte menor)
podem ser usados como bty(tipo de caixa) lwd (lagura da linha) lty (tipo delinha) pch(tipo de ponto) cex xaxs yaxs xaxtyaxt
h) Teste de hipoacuteteses
ttest()proptest()
chisqtest()
aov(formula) analysis of variance model
anova(fit) analysis of variance (or deviance) tables for one or more
fitted model objects
Use o commando gt test para procurar todos os testes disponiacuteveis
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5861
A2ndashResumo de comandos
i) Programmingfunction( arglist ) expr para definer uma funccedilatildeo
return(value)
if(cond) expr
if(cond) consexpr else altexpr
for(var in seq) expr
while(cond) expr
re eat ex r
break
Usar chaves entre commandos dlimitando o iniacutecio e o fim de um grupo decomandos
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5961
A2ndashResumo de comandos
j) Commandos auxiliaries em Graacuteficospoints(x y) adiciona pontos (a opccedilatildeo type= pode ser usada)
lines(x y) adiciona linhas (a opccedilatildeo type= pode ser usada)text(x y labels ) adiciona texto na coordenada (xy) um uso tiacutepico eacute
plot(x y type=n) text(x ynames)
segments(x0 y0 x1 y1) desenha linhas do ponto (x0 y0) ao (x1 y1)
arrows(x0 y0 x1 y1 angle= 30 code=2) desenha seta do ponto
(x0 y0) ao (x1 y1)
abline(ab) desenha uma reta de inclinaccedilatildeo b e intercepto a
abline(v=x) desenha uma reta vertical em x
abline(lsfit(xy)) desenha uma reta da regressatildeo feita em lsfit(xy)
rect(x1 y1 x2 y2) desenha um retacircngulo que a esquerda inferior tem coordenadas(x1 y1) e o limite da direita superiores (x2 y2)
polygon(x y) desenha um poliacutegono que une os pontos com coordenadas X e Y
legend(x y legend) Acrescenta a lenda no ponto (x y) com os siacutembolos
dada pela legend
title()adiciona um tiacutetulo e opcionalmente um sub-tiacutetulo
axis(side) acrescenta um eixo na parte inferior (side = 1) agrave esquerda (2) na partesuperior (3) ou agrave direita (4)
box()desenhar uma caixa em torno do plot
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6061
A2ndashResumo de comandos
k) Comando par (Graphical parameters)Todos estes comando podem ser definidos a niacutevel global com o par () que
especifica os paracircmetros mas tambeacutem muitos podem ser usados comoparametros dos commando de Graacutefico
mfcol vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em colunas
mfrow vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em linhas(matrix for row)
bty controla o tipo de caixa desenhada ao redor do enredo valores permitidos satildeo
o l 7 c u ou se bt =n a caixa natildeo eacute desenhada
lty controla o tipo de linhas pode ser um inteiro ou string (1 solid 2 dashed 3dotted 4 dotdash 5 longdash 6twodash) ou uma string de ateacuteoito caracteres (entre 0 e 9) que especifica o comprimento em pontos oupixels dos elementos desenhados e os espaccedilos em branco por exemplolty=rdquo44rdquo equivale a lty=2
lwd nuacutemero que controla a largura das linhas default 1pch controla o tipo de siacutembolo pode tambeacutem ser um nuacutemero inteiro entre 1 e 25
ps um inteiro que controla o tamanho em pontos de textos e siacutembolos
pty um caracter que especifica o tipo da regiatildeo s quadrado m maacuteximal
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6161
A2ndashResumo de comandos
l) Input and outputreadtable(file) lecirc um arquivo em formato de tabela e cria um quadro de dados a
partir dele o separador default = eacute espaccedilo em branco header = TRUE ler a
primeira linha como um cabeccedilalho de nomes de coluna asis = TRUE paraevitar aque um vetore de caracteres seja convertido em factores usocommentchar = para evitar seja interpretado como um comentaacuteriouso skip = n para pular n linhas antes da leitura de dados consulte a ajudapara as opccedilotildees de linha de nomeaccedilatildeo o tratamento NA e outros
readcsv(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por viacutergulas
readdelim(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por tabulaccedilotildees
readfwf(filewidthsheader=FALSEsep= asis=FALSE)
ler uma tabela de dados em formato fix de largura m para um dataframe widthseacute um vetor inteiro informando os tamanhos dos campos
sink(file) saiacuteda de todos os comandos para um arquivo ateacute aparecer um comando
sink () que desliga writetable(x file=rownames=Tcolnames=Tsep= ) imprime x apoacutes a
conversatildeo para banco de dados
save(file) guarda os objetos especificados () no formato XDR
load()carregar o conjunto de dados salvos com o comando save
data(x) carrega um conjunto de dados especificado
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4161
CAP 3ndashb) TH exemplo de teste Quiquadrado chisqtest
pag233- teste Quiquadrado -
tcont=matrix(c(683585251530258 7461761220225) 72)
chisqtest(tcont)
Pearsons Chi-squared test
data tcont- = = - lt -
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4261
CAP 3ndashb) TH exemplo de teste Quiquadrado chisqtestaov(formula data = NULL )
pag244- ANOVA - Comparaccedilatildeo de trecircs raccedilotildees para suinos
A=c(444943514475425134305342453630
322133421040395246294247453959)
B=c(343640545953445432686954414647
6566455739)
C=c(574040364566395025212927283942
21304143294244582849)
aumentoP=c(ABC)
racao=c(rep(A30)rep(B20) rep(C25))
summaryaov(aov(aumentoP ~ racao))
Df Sum Sq Mean Sq F value Pr(gtF)racao 2 15385 7693 56136 0005425
Residuals 72 98666 1370
---
Signif codes 0 lsquorsquo 0001 lsquorsquo 001 lsquorsquo 005 lsquorsquo 01 lsquo rsquo 1
Warning message
In modelmatrixdefault(mt mf contrasts)
variable racao converted to a factor
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4361
ApecircndicesA-1) Apresentaremos aqui algumas figuras
feitas no R na elaboraccedilatildeo do livro
Achamos que o exame desses coacutedigos acompanhado dos resultados podeser um bom aprendizado um exerciacutecio ou talvez uma recordaccedilatildeo do materialaqui exposto
A-2) Resumo de comandosa) Criaccedilatildeo de dados
b) Informaccedilatildeo de uma Variaacutevel
c) Seleccedilatildeo de dados e manipulaccedilatildeo
d) Estatiacutesticas e operaccedilotildees matemaacuteticas
e) Corte e extraccedilatildeo de dados
f) Operaccedilatildeo com Matrizes
g) Graacuteficos (Plotting)
h) Teste de hipoacuteteses
i) Programming
j) Commandos auxiliaries em Graacuteficos
k) Comando par (Graphical parameters)
l) Input and output
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4461
A1) ndash Pag 14 ndash Figura 15
IDADE=c(616961716371726866697267636663636067716360696463667164706366646969646372736871726968687379)
IMC= c(245273281301254301280234268228255228235232203226239243271227237258213243243248219234216214221227227211268278275267286253239258247284235)
par(mfrow=c(12))hist(IDADE breaks=c(6065707580) ylim=c(020) ylab=Nuacutemero de Observaccedilotildees
main= col=grey right = F)hist(IMC breaks=c(200225250275300325)
ylab=Nuacutemero de Observaccedilotildeesmain= col=grey right = F )
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4561
A1) ndash Pag 44 ndash Figura 21
mat=matrix(c(81823913601818608740)32)
rownames(mat)=c(AtivaSedentaacuteriaTotal)colnames(mat)=c(NormalSobrepeso)barplot(t(mat) beside = TRUE space=c(315)
col=gray(c(79))legend = c(NormalSobrepeso) ylim = c(0 95) ylab= - percentagem)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4661
A1) ndash Pag 48 ndash Figura 22
mat= matrix(c(68154510 66214215 66242519 39161711)44byrow=T)
rownames(mat)=c(18 a 21 anos 22 a 25 anos 26 a 30 anos 31 a 40 anos)colnames(mat)=c(CinTeatSMDEx)mat1=mat for (i in 14) mat1[i]lt-mat1[i]100sum(mat1[i]) par(mfrow=c(12) mai=c(1111) mar=c(5 4 2 2) )barplot(matbeside=F ylim=c(0250) legend = c(18 a 21 anos 22 a 25 anos
26 a 30 anos 31 a 40 anos) xlab=Contagem)
barplot(mat1 beside=F xlab=Percentagem)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4761
A1) ndash Pag 52 ndash Figura 25X= c(184114821789235159118762592403190408372147328526471687
09642871437079238215753399242122530314859149806)y =c(01837012540193301620014230140604568022870231400861019960235302186012798991801254018210244160823
0147764068011818941403474539680150133247023685518102146187520214097090257291227
036282905401406510810113849399)plot(x y xlim=c(07) ylim=c(05) pch=16 bty=l xlab=Renda per capita
ylab=Telefonia Fixa per capita)
abline(lsfit(xy))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4861
A1) ndash Pag 109 ndash Figura 45
x=020
y1=dpois(x1) y2=dpois(x3) y3=dpois(x10)names(y1)=x names(y2)=x names(y3)=xpar(mfrow=c(13))plot(y1ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=1)plot(y2ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=3)plot(y3ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=10)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4961
A1) ndash Pag 118 ndash Figura 412
x=seq(010001)
plot(xdexp(x 12) type=l xlim=c(012) ylim=c(01) bty=l ylab=f(x) eF(x))for(i in seq(0 25 001)) segments(i 0 i dexp(i12) col=lightgrey)abline(v=0 h=0)points(xdexp(x 12) type=l lwd=2 bty=l)points(xpexp(x 12) lwd=2 type=l)segments(250 25pexp(2512))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5061
A1) ndash Pag 163 ndash Figura 68
plot(p xlim=c(618) ylim=c(016) type=n bty=l xaxt=n xlab= ylab=
cexaxis=6)for (i in 1015) rect(i-50 i+5 dbinom(i304) col=lightgrey) lty=2)segments(i0idbinom(i304) lty=2)
x=seq(61801) lines(x dnorm(x12sqrt(72)) lwd=2)x=seq(61801) lines(x dnorm(x12sqrt(72)) lwd=2)
axis(1 916 cexaxis=9) ax s seq cexax s=
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5161
A1) ndash Pag 198 ndash Figura 78
x1=seq(-4402)plot(x1dnorm(x1) type=l lwd=3 xlab= ylab= )lines(x1 dt(x11)) lines(x1 dt(x12)) lines(x1 dt(x15))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5261
A2ndashResumo de comandos
a)Criaccedilatildeo de dados
c()funccedilatildeo geneacuterica para combinar argumentos com o formando de um vetor fromto gera uma sequecircnce ldquordquo tem prioridade de operator pe13 + 1 is ldquo234rdquo
seq(fromtoby) gera uma sequecircncia by= especifica incremento
length= especifica um comprimento desejado
rep(xtimes) replicate x onuacutemero times de vezes use each= para repetir cada
elemento de x rep(c(123)2) gera 1 2 3 1 2 3 rep(c(12)each=2) gera 1 1 2 2
matrix(xnrow=ncol=) matrix elementos de x se reciclam caso x
rbind()combina vetores em linhas num estrutura de matrizes de dados
cbind()combina vetores em colunas num estrutura de matrizes de dados
array(xdim=) matriz com dados x especificar dimensotildees como dim=c(342)
elementos de x se reciclam caso x natildeo seja suficientemente grande
factor(xlevels=) codifica um vetor x como um fator gl(nklength=nklabels=1n) gerar niacuteveis (fatores) especificando
o padratildeo de seus niacuteveis k eacute o nuacutemero de niacuteveis e n eacute o nuacutemero de repeticcedilotildees
dataframe() criar um banco de dados Por exemplo
dataframe(v=14ch=c(gBcasad)n=5)
list()criar uma lista de argumentos Por exemplo list(a=c(12)b=hic=3i)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5361
A2ndashResumo de comandos
b) Informaccedilatildeo de uma Variaacutevellength(x) nuacutemero de elementos em x
dim(x) Obter ou definir a dimensatildeo de um objeto dim (x) = c(32)dimnames(x) Obter ou definir os nomes das dimensotildees de um objeto
nrow(x) nuacutemero de linhas
ncol(x) nuacutemero de colunas
c) Seleccedilatildeo de dados e manipulaccedilatildeochoose(n k) calcula a combinaccedilatildeo de elementos escolhidos entre n
resultando n [(n-k) k]
cut(xbreaks) divide x em intervalos (fatores) breaks eacute o nuacutemero de intervalos de
corte ou um vetor com os valores especiacuteficos
table(x) retorna uma tabela com as quantidades dos diferentes valores de x
(tipicamente para variaacuteveis dos tipos inteiros ou fatores)
sample(x size) retira aleatoriamente com e sem reposiccedilatildeo elementos detamanho SIZE do vetor x a opccedilatildeo replace = TRUE permite a retirada com reposiccedilatildeo
proptable(xmargin=) transforma a tabela como tabela de propoccedilatildeo
marginal margin=1 (com relaccedilatildeo as linhas) margin=2 (com relaccedilatildeo as colunas)
sort(x) Classifica os elementos de x em ordem crescente para classificar em ordem
decrescente rev(sort(x))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5461
A2ndashResumo de comandosd) Estatiacutesticas e operaccedilotildees matemaacuteticasmean(x) media dos elementos de x
median(x) mediana dos elementos de x
quantile(xprobs=) quantis de x correspondendo a uma dada probabilidadevar(x) ou cov(x) variacircncia dos elementos de x (calculado com n-1)
se x eacute uma matriz a matriz de covariacircncia eacute calculada
sd(x) desvio padracirco de of x
cor(x) matriz de correlaccedilatildeo de x se x for uma matriz ou (1 se x eacute um vector)
cor(x y) correlaccedilatildeo linear entre X e Y ou matriz de correlaccedilatildeo se eles satildeo matrizes
round(x n) arredonda os elementos de x para n casas decimais sum x soma os e emen os e x
prod(x) multilica os elementos de x
max(x) acha o maacuteximo dos elementos de x
min(x) acha o miacutenimo dos elementos de x
range(x) equivalente a c(min(x)max(x)
cumsum(x) um vetor onde o eacutesimo elemento eacute a soma de x[1] ateacute x[i]cumprod(x) um vetor onde o eacutesimo elemento eacute o produto de x[1] ateacute x[i]
cummin(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
cummax(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
sincostanasinacosatanatan2loglog10exp)
log(x base) calcula o logaritmo de x na base=base
weightedmean(x w) media ponderada de x com peso= w
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5561
A2ndashResumo de comandos
e) Corte e extraccedilatildeo de dadosindexaccedilatildeo de Vetores
x[n] n-eacutesimo elemento do vetor
x[-n] todos menos o n-eacutesimo elemento
x[1n] os primeiros n elemento
x[-(1n)] elementos de n+1 ateacute o final
x[c(432)] elementos especificados
x[y gt 5] todo elementos de onde os valores de y satildeo maiores que 5
x x gt 3 amp x lt 5 todo elementos entre 3 e 5
x[nome] elemento denominado nome
indexaccedilatildeo de Matrizes
x[ij] elemento na linha i coluna j
x[i] linha i
x[j] coluna j
x[c(13)] colunas 1 and 3
x[nome] linha nomeada nome
indexaccedilatildeo de data frames
x[[nome]] coluna chamada nome
x$nome equivalente a coluna chamada nome
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5661
A2ndashResumo de comandos
f) Operaccedilatildeo com Matrizest(x) transposta da matrix x
diag(x) retira a diagonal da matrix x
multiplicaccedilatildeo matricial
solve(ab) resove a equaccedilatildeo a x = b em relaccedilatildeo a x
solve(a) matriz inversa de a
rowSum(x) soma das linhas da matrix x
colSum(x) soma das colunas da matrix x
rowMeans x meacutedia das linhas da matrix x
colMeans(x) id meacutedia das colunas da matrix x
g) Graacuteficos (Plotting)plot(x y) diagrama de disperccedilatildeo plot dos pares (xy) num sistema de eixos
coordenadoshist(x) histogram dasfrequecircncias of x
barplot(x) graacutefico de barras of x usar horiz=T ara barras horizontal
pie(x) graacutefico de setores (pie-chart)
boxplot(x)
qqnorm(x) quantis de x em relaccedilatildeo aos valores esperados de uma dist Normal
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5761
A2ndashResumo de comandosparametros dos commando de Graacutefico
type=p especifica o tipo de plot p pontos l linhas b pontos
ligados por linhas o idecircntico mas as linhas passam sobre os pontos h
linhas verticais s escada (steps) os dados satildeo representados pelas alturasverticais
xlim= ylim= especifica os limites inferiores e superiores dos eixos por exemplocom xlim=c(1 10) ou xlim=range(x)
xlab= ylab= nomeia os eixos o nome deve ser do tipo caracter
main= tiacutetulo principal deve ser do tipo caracter
sub= sub-tiacutetulo (escrito em fonte menor)
podem ser usados como bty(tipo de caixa) lwd (lagura da linha) lty (tipo delinha) pch(tipo de ponto) cex xaxs yaxs xaxtyaxt
h) Teste de hipoacuteteses
ttest()proptest()
chisqtest()
aov(formula) analysis of variance model
anova(fit) analysis of variance (or deviance) tables for one or more
fitted model objects
Use o commando gt test para procurar todos os testes disponiacuteveis
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5861
A2ndashResumo de comandos
i) Programmingfunction( arglist ) expr para definer uma funccedilatildeo
return(value)
if(cond) expr
if(cond) consexpr else altexpr
for(var in seq) expr
while(cond) expr
re eat ex r
break
Usar chaves entre commandos dlimitando o iniacutecio e o fim de um grupo decomandos
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5961
A2ndashResumo de comandos
j) Commandos auxiliaries em Graacuteficospoints(x y) adiciona pontos (a opccedilatildeo type= pode ser usada)
lines(x y) adiciona linhas (a opccedilatildeo type= pode ser usada)text(x y labels ) adiciona texto na coordenada (xy) um uso tiacutepico eacute
plot(x y type=n) text(x ynames)
segments(x0 y0 x1 y1) desenha linhas do ponto (x0 y0) ao (x1 y1)
arrows(x0 y0 x1 y1 angle= 30 code=2) desenha seta do ponto
(x0 y0) ao (x1 y1)
abline(ab) desenha uma reta de inclinaccedilatildeo b e intercepto a
abline(v=x) desenha uma reta vertical em x
abline(lsfit(xy)) desenha uma reta da regressatildeo feita em lsfit(xy)
rect(x1 y1 x2 y2) desenha um retacircngulo que a esquerda inferior tem coordenadas(x1 y1) e o limite da direita superiores (x2 y2)
polygon(x y) desenha um poliacutegono que une os pontos com coordenadas X e Y
legend(x y legend) Acrescenta a lenda no ponto (x y) com os siacutembolos
dada pela legend
title()adiciona um tiacutetulo e opcionalmente um sub-tiacutetulo
axis(side) acrescenta um eixo na parte inferior (side = 1) agrave esquerda (2) na partesuperior (3) ou agrave direita (4)
box()desenhar uma caixa em torno do plot
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6061
A2ndashResumo de comandos
k) Comando par (Graphical parameters)Todos estes comando podem ser definidos a niacutevel global com o par () que
especifica os paracircmetros mas tambeacutem muitos podem ser usados comoparametros dos commando de Graacutefico
mfcol vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em colunas
mfrow vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em linhas(matrix for row)
bty controla o tipo de caixa desenhada ao redor do enredo valores permitidos satildeo
o l 7 c u ou se bt =n a caixa natildeo eacute desenhada
lty controla o tipo de linhas pode ser um inteiro ou string (1 solid 2 dashed 3dotted 4 dotdash 5 longdash 6twodash) ou uma string de ateacuteoito caracteres (entre 0 e 9) que especifica o comprimento em pontos oupixels dos elementos desenhados e os espaccedilos em branco por exemplolty=rdquo44rdquo equivale a lty=2
lwd nuacutemero que controla a largura das linhas default 1pch controla o tipo de siacutembolo pode tambeacutem ser um nuacutemero inteiro entre 1 e 25
ps um inteiro que controla o tamanho em pontos de textos e siacutembolos
pty um caracter que especifica o tipo da regiatildeo s quadrado m maacuteximal
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6161
A2ndashResumo de comandos
l) Input and outputreadtable(file) lecirc um arquivo em formato de tabela e cria um quadro de dados a
partir dele o separador default = eacute espaccedilo em branco header = TRUE ler a
primeira linha como um cabeccedilalho de nomes de coluna asis = TRUE paraevitar aque um vetore de caracteres seja convertido em factores usocommentchar = para evitar seja interpretado como um comentaacuteriouso skip = n para pular n linhas antes da leitura de dados consulte a ajudapara as opccedilotildees de linha de nomeaccedilatildeo o tratamento NA e outros
readcsv(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por viacutergulas
readdelim(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por tabulaccedilotildees
readfwf(filewidthsheader=FALSEsep= asis=FALSE)
ler uma tabela de dados em formato fix de largura m para um dataframe widthseacute um vetor inteiro informando os tamanhos dos campos
sink(file) saiacuteda de todos os comandos para um arquivo ateacute aparecer um comando
sink () que desliga writetable(x file=rownames=Tcolnames=Tsep= ) imprime x apoacutes a
conversatildeo para banco de dados
save(file) guarda os objetos especificados () no formato XDR
load()carregar o conjunto de dados salvos com o comando save
data(x) carrega um conjunto de dados especificado
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4261
CAP 3ndashb) TH exemplo de teste Quiquadrado chisqtestaov(formula data = NULL )
pag244- ANOVA - Comparaccedilatildeo de trecircs raccedilotildees para suinos
A=c(444943514475425134305342453630
322133421040395246294247453959)
B=c(343640545953445432686954414647
6566455739)
C=c(574040364566395025212927283942
21304143294244582849)
aumentoP=c(ABC)
racao=c(rep(A30)rep(B20) rep(C25))
summaryaov(aov(aumentoP ~ racao))
Df Sum Sq Mean Sq F value Pr(gtF)racao 2 15385 7693 56136 0005425
Residuals 72 98666 1370
---
Signif codes 0 lsquorsquo 0001 lsquorsquo 001 lsquorsquo 005 lsquorsquo 01 lsquo rsquo 1
Warning message
In modelmatrixdefault(mt mf contrasts)
variable racao converted to a factor
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4361
ApecircndicesA-1) Apresentaremos aqui algumas figuras
feitas no R na elaboraccedilatildeo do livro
Achamos que o exame desses coacutedigos acompanhado dos resultados podeser um bom aprendizado um exerciacutecio ou talvez uma recordaccedilatildeo do materialaqui exposto
A-2) Resumo de comandosa) Criaccedilatildeo de dados
b) Informaccedilatildeo de uma Variaacutevel
c) Seleccedilatildeo de dados e manipulaccedilatildeo
d) Estatiacutesticas e operaccedilotildees matemaacuteticas
e) Corte e extraccedilatildeo de dados
f) Operaccedilatildeo com Matrizes
g) Graacuteficos (Plotting)
h) Teste de hipoacuteteses
i) Programming
j) Commandos auxiliaries em Graacuteficos
k) Comando par (Graphical parameters)
l) Input and output
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4461
A1) ndash Pag 14 ndash Figura 15
IDADE=c(616961716371726866697267636663636067716360696463667164706366646969646372736871726968687379)
IMC= c(245273281301254301280234268228255228235232203226239243271227237258213243243248219234216214221227227211268278275267286253239258247284235)
par(mfrow=c(12))hist(IDADE breaks=c(6065707580) ylim=c(020) ylab=Nuacutemero de Observaccedilotildees
main= col=grey right = F)hist(IMC breaks=c(200225250275300325)
ylab=Nuacutemero de Observaccedilotildeesmain= col=grey right = F )
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4561
A1) ndash Pag 44 ndash Figura 21
mat=matrix(c(81823913601818608740)32)
rownames(mat)=c(AtivaSedentaacuteriaTotal)colnames(mat)=c(NormalSobrepeso)barplot(t(mat) beside = TRUE space=c(315)
col=gray(c(79))legend = c(NormalSobrepeso) ylim = c(0 95) ylab= - percentagem)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4661
A1) ndash Pag 48 ndash Figura 22
mat= matrix(c(68154510 66214215 66242519 39161711)44byrow=T)
rownames(mat)=c(18 a 21 anos 22 a 25 anos 26 a 30 anos 31 a 40 anos)colnames(mat)=c(CinTeatSMDEx)mat1=mat for (i in 14) mat1[i]lt-mat1[i]100sum(mat1[i]) par(mfrow=c(12) mai=c(1111) mar=c(5 4 2 2) )barplot(matbeside=F ylim=c(0250) legend = c(18 a 21 anos 22 a 25 anos
26 a 30 anos 31 a 40 anos) xlab=Contagem)
barplot(mat1 beside=F xlab=Percentagem)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4761
A1) ndash Pag 52 ndash Figura 25X= c(184114821789235159118762592403190408372147328526471687
09642871437079238215753399242122530314859149806)y =c(01837012540193301620014230140604568022870231400861019960235302186012798991801254018210244160823
0147764068011818941403474539680150133247023685518102146187520214097090257291227
036282905401406510810113849399)plot(x y xlim=c(07) ylim=c(05) pch=16 bty=l xlab=Renda per capita
ylab=Telefonia Fixa per capita)
abline(lsfit(xy))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4861
A1) ndash Pag 109 ndash Figura 45
x=020
y1=dpois(x1) y2=dpois(x3) y3=dpois(x10)names(y1)=x names(y2)=x names(y3)=xpar(mfrow=c(13))plot(y1ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=1)plot(y2ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=3)plot(y3ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=10)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4961
A1) ndash Pag 118 ndash Figura 412
x=seq(010001)
plot(xdexp(x 12) type=l xlim=c(012) ylim=c(01) bty=l ylab=f(x) eF(x))for(i in seq(0 25 001)) segments(i 0 i dexp(i12) col=lightgrey)abline(v=0 h=0)points(xdexp(x 12) type=l lwd=2 bty=l)points(xpexp(x 12) lwd=2 type=l)segments(250 25pexp(2512))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5061
A1) ndash Pag 163 ndash Figura 68
plot(p xlim=c(618) ylim=c(016) type=n bty=l xaxt=n xlab= ylab=
cexaxis=6)for (i in 1015) rect(i-50 i+5 dbinom(i304) col=lightgrey) lty=2)segments(i0idbinom(i304) lty=2)
x=seq(61801) lines(x dnorm(x12sqrt(72)) lwd=2)x=seq(61801) lines(x dnorm(x12sqrt(72)) lwd=2)
axis(1 916 cexaxis=9) ax s seq cexax s=
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5161
A1) ndash Pag 198 ndash Figura 78
x1=seq(-4402)plot(x1dnorm(x1) type=l lwd=3 xlab= ylab= )lines(x1 dt(x11)) lines(x1 dt(x12)) lines(x1 dt(x15))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5261
A2ndashResumo de comandos
a)Criaccedilatildeo de dados
c()funccedilatildeo geneacuterica para combinar argumentos com o formando de um vetor fromto gera uma sequecircnce ldquordquo tem prioridade de operator pe13 + 1 is ldquo234rdquo
seq(fromtoby) gera uma sequecircncia by= especifica incremento
length= especifica um comprimento desejado
rep(xtimes) replicate x onuacutemero times de vezes use each= para repetir cada
elemento de x rep(c(123)2) gera 1 2 3 1 2 3 rep(c(12)each=2) gera 1 1 2 2
matrix(xnrow=ncol=) matrix elementos de x se reciclam caso x
rbind()combina vetores em linhas num estrutura de matrizes de dados
cbind()combina vetores em colunas num estrutura de matrizes de dados
array(xdim=) matriz com dados x especificar dimensotildees como dim=c(342)
elementos de x se reciclam caso x natildeo seja suficientemente grande
factor(xlevels=) codifica um vetor x como um fator gl(nklength=nklabels=1n) gerar niacuteveis (fatores) especificando
o padratildeo de seus niacuteveis k eacute o nuacutemero de niacuteveis e n eacute o nuacutemero de repeticcedilotildees
dataframe() criar um banco de dados Por exemplo
dataframe(v=14ch=c(gBcasad)n=5)
list()criar uma lista de argumentos Por exemplo list(a=c(12)b=hic=3i)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5361
A2ndashResumo de comandos
b) Informaccedilatildeo de uma Variaacutevellength(x) nuacutemero de elementos em x
dim(x) Obter ou definir a dimensatildeo de um objeto dim (x) = c(32)dimnames(x) Obter ou definir os nomes das dimensotildees de um objeto
nrow(x) nuacutemero de linhas
ncol(x) nuacutemero de colunas
c) Seleccedilatildeo de dados e manipulaccedilatildeochoose(n k) calcula a combinaccedilatildeo de elementos escolhidos entre n
resultando n [(n-k) k]
cut(xbreaks) divide x em intervalos (fatores) breaks eacute o nuacutemero de intervalos de
corte ou um vetor com os valores especiacuteficos
table(x) retorna uma tabela com as quantidades dos diferentes valores de x
(tipicamente para variaacuteveis dos tipos inteiros ou fatores)
sample(x size) retira aleatoriamente com e sem reposiccedilatildeo elementos detamanho SIZE do vetor x a opccedilatildeo replace = TRUE permite a retirada com reposiccedilatildeo
proptable(xmargin=) transforma a tabela como tabela de propoccedilatildeo
marginal margin=1 (com relaccedilatildeo as linhas) margin=2 (com relaccedilatildeo as colunas)
sort(x) Classifica os elementos de x em ordem crescente para classificar em ordem
decrescente rev(sort(x))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5461
A2ndashResumo de comandosd) Estatiacutesticas e operaccedilotildees matemaacuteticasmean(x) media dos elementos de x
median(x) mediana dos elementos de x
quantile(xprobs=) quantis de x correspondendo a uma dada probabilidadevar(x) ou cov(x) variacircncia dos elementos de x (calculado com n-1)
se x eacute uma matriz a matriz de covariacircncia eacute calculada
sd(x) desvio padracirco de of x
cor(x) matriz de correlaccedilatildeo de x se x for uma matriz ou (1 se x eacute um vector)
cor(x y) correlaccedilatildeo linear entre X e Y ou matriz de correlaccedilatildeo se eles satildeo matrizes
round(x n) arredonda os elementos de x para n casas decimais sum x soma os e emen os e x
prod(x) multilica os elementos de x
max(x) acha o maacuteximo dos elementos de x
min(x) acha o miacutenimo dos elementos de x
range(x) equivalente a c(min(x)max(x)
cumsum(x) um vetor onde o eacutesimo elemento eacute a soma de x[1] ateacute x[i]cumprod(x) um vetor onde o eacutesimo elemento eacute o produto de x[1] ateacute x[i]
cummin(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
cummax(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
sincostanasinacosatanatan2loglog10exp)
log(x base) calcula o logaritmo de x na base=base
weightedmean(x w) media ponderada de x com peso= w
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5561
A2ndashResumo de comandos
e) Corte e extraccedilatildeo de dadosindexaccedilatildeo de Vetores
x[n] n-eacutesimo elemento do vetor
x[-n] todos menos o n-eacutesimo elemento
x[1n] os primeiros n elemento
x[-(1n)] elementos de n+1 ateacute o final
x[c(432)] elementos especificados
x[y gt 5] todo elementos de onde os valores de y satildeo maiores que 5
x x gt 3 amp x lt 5 todo elementos entre 3 e 5
x[nome] elemento denominado nome
indexaccedilatildeo de Matrizes
x[ij] elemento na linha i coluna j
x[i] linha i
x[j] coluna j
x[c(13)] colunas 1 and 3
x[nome] linha nomeada nome
indexaccedilatildeo de data frames
x[[nome]] coluna chamada nome
x$nome equivalente a coluna chamada nome
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5661
A2ndashResumo de comandos
f) Operaccedilatildeo com Matrizest(x) transposta da matrix x
diag(x) retira a diagonal da matrix x
multiplicaccedilatildeo matricial
solve(ab) resove a equaccedilatildeo a x = b em relaccedilatildeo a x
solve(a) matriz inversa de a
rowSum(x) soma das linhas da matrix x
colSum(x) soma das colunas da matrix x
rowMeans x meacutedia das linhas da matrix x
colMeans(x) id meacutedia das colunas da matrix x
g) Graacuteficos (Plotting)plot(x y) diagrama de disperccedilatildeo plot dos pares (xy) num sistema de eixos
coordenadoshist(x) histogram dasfrequecircncias of x
barplot(x) graacutefico de barras of x usar horiz=T ara barras horizontal
pie(x) graacutefico de setores (pie-chart)
boxplot(x)
qqnorm(x) quantis de x em relaccedilatildeo aos valores esperados de uma dist Normal
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5761
A2ndashResumo de comandosparametros dos commando de Graacutefico
type=p especifica o tipo de plot p pontos l linhas b pontos
ligados por linhas o idecircntico mas as linhas passam sobre os pontos h
linhas verticais s escada (steps) os dados satildeo representados pelas alturasverticais
xlim= ylim= especifica os limites inferiores e superiores dos eixos por exemplocom xlim=c(1 10) ou xlim=range(x)
xlab= ylab= nomeia os eixos o nome deve ser do tipo caracter
main= tiacutetulo principal deve ser do tipo caracter
sub= sub-tiacutetulo (escrito em fonte menor)
podem ser usados como bty(tipo de caixa) lwd (lagura da linha) lty (tipo delinha) pch(tipo de ponto) cex xaxs yaxs xaxtyaxt
h) Teste de hipoacuteteses
ttest()proptest()
chisqtest()
aov(formula) analysis of variance model
anova(fit) analysis of variance (or deviance) tables for one or more
fitted model objects
Use o commando gt test para procurar todos os testes disponiacuteveis
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5861
A2ndashResumo de comandos
i) Programmingfunction( arglist ) expr para definer uma funccedilatildeo
return(value)
if(cond) expr
if(cond) consexpr else altexpr
for(var in seq) expr
while(cond) expr
re eat ex r
break
Usar chaves entre commandos dlimitando o iniacutecio e o fim de um grupo decomandos
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5961
A2ndashResumo de comandos
j) Commandos auxiliaries em Graacuteficospoints(x y) adiciona pontos (a opccedilatildeo type= pode ser usada)
lines(x y) adiciona linhas (a opccedilatildeo type= pode ser usada)text(x y labels ) adiciona texto na coordenada (xy) um uso tiacutepico eacute
plot(x y type=n) text(x ynames)
segments(x0 y0 x1 y1) desenha linhas do ponto (x0 y0) ao (x1 y1)
arrows(x0 y0 x1 y1 angle= 30 code=2) desenha seta do ponto
(x0 y0) ao (x1 y1)
abline(ab) desenha uma reta de inclinaccedilatildeo b e intercepto a
abline(v=x) desenha uma reta vertical em x
abline(lsfit(xy)) desenha uma reta da regressatildeo feita em lsfit(xy)
rect(x1 y1 x2 y2) desenha um retacircngulo que a esquerda inferior tem coordenadas(x1 y1) e o limite da direita superiores (x2 y2)
polygon(x y) desenha um poliacutegono que une os pontos com coordenadas X e Y
legend(x y legend) Acrescenta a lenda no ponto (x y) com os siacutembolos
dada pela legend
title()adiciona um tiacutetulo e opcionalmente um sub-tiacutetulo
axis(side) acrescenta um eixo na parte inferior (side = 1) agrave esquerda (2) na partesuperior (3) ou agrave direita (4)
box()desenhar uma caixa em torno do plot
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6061
A2ndashResumo de comandos
k) Comando par (Graphical parameters)Todos estes comando podem ser definidos a niacutevel global com o par () que
especifica os paracircmetros mas tambeacutem muitos podem ser usados comoparametros dos commando de Graacutefico
mfcol vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em colunas
mfrow vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em linhas(matrix for row)
bty controla o tipo de caixa desenhada ao redor do enredo valores permitidos satildeo
o l 7 c u ou se bt =n a caixa natildeo eacute desenhada
lty controla o tipo de linhas pode ser um inteiro ou string (1 solid 2 dashed 3dotted 4 dotdash 5 longdash 6twodash) ou uma string de ateacuteoito caracteres (entre 0 e 9) que especifica o comprimento em pontos oupixels dos elementos desenhados e os espaccedilos em branco por exemplolty=rdquo44rdquo equivale a lty=2
lwd nuacutemero que controla a largura das linhas default 1pch controla o tipo de siacutembolo pode tambeacutem ser um nuacutemero inteiro entre 1 e 25
ps um inteiro que controla o tamanho em pontos de textos e siacutembolos
pty um caracter que especifica o tipo da regiatildeo s quadrado m maacuteximal
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6161
A2ndashResumo de comandos
l) Input and outputreadtable(file) lecirc um arquivo em formato de tabela e cria um quadro de dados a
partir dele o separador default = eacute espaccedilo em branco header = TRUE ler a
primeira linha como um cabeccedilalho de nomes de coluna asis = TRUE paraevitar aque um vetore de caracteres seja convertido em factores usocommentchar = para evitar seja interpretado como um comentaacuteriouso skip = n para pular n linhas antes da leitura de dados consulte a ajudapara as opccedilotildees de linha de nomeaccedilatildeo o tratamento NA e outros
readcsv(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por viacutergulas
readdelim(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por tabulaccedilotildees
readfwf(filewidthsheader=FALSEsep= asis=FALSE)
ler uma tabela de dados em formato fix de largura m para um dataframe widthseacute um vetor inteiro informando os tamanhos dos campos
sink(file) saiacuteda de todos os comandos para um arquivo ateacute aparecer um comando
sink () que desliga writetable(x file=rownames=Tcolnames=Tsep= ) imprime x apoacutes a
conversatildeo para banco de dados
save(file) guarda os objetos especificados () no formato XDR
load()carregar o conjunto de dados salvos com o comando save
data(x) carrega um conjunto de dados especificado
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4361
ApecircndicesA-1) Apresentaremos aqui algumas figuras
feitas no R na elaboraccedilatildeo do livro
Achamos que o exame desses coacutedigos acompanhado dos resultados podeser um bom aprendizado um exerciacutecio ou talvez uma recordaccedilatildeo do materialaqui exposto
A-2) Resumo de comandosa) Criaccedilatildeo de dados
b) Informaccedilatildeo de uma Variaacutevel
c) Seleccedilatildeo de dados e manipulaccedilatildeo
d) Estatiacutesticas e operaccedilotildees matemaacuteticas
e) Corte e extraccedilatildeo de dados
f) Operaccedilatildeo com Matrizes
g) Graacuteficos (Plotting)
h) Teste de hipoacuteteses
i) Programming
j) Commandos auxiliaries em Graacuteficos
k) Comando par (Graphical parameters)
l) Input and output
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4461
A1) ndash Pag 14 ndash Figura 15
IDADE=c(616961716371726866697267636663636067716360696463667164706366646969646372736871726968687379)
IMC= c(245273281301254301280234268228255228235232203226239243271227237258213243243248219234216214221227227211268278275267286253239258247284235)
par(mfrow=c(12))hist(IDADE breaks=c(6065707580) ylim=c(020) ylab=Nuacutemero de Observaccedilotildees
main= col=grey right = F)hist(IMC breaks=c(200225250275300325)
ylab=Nuacutemero de Observaccedilotildeesmain= col=grey right = F )
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4561
A1) ndash Pag 44 ndash Figura 21
mat=matrix(c(81823913601818608740)32)
rownames(mat)=c(AtivaSedentaacuteriaTotal)colnames(mat)=c(NormalSobrepeso)barplot(t(mat) beside = TRUE space=c(315)
col=gray(c(79))legend = c(NormalSobrepeso) ylim = c(0 95) ylab= - percentagem)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4661
A1) ndash Pag 48 ndash Figura 22
mat= matrix(c(68154510 66214215 66242519 39161711)44byrow=T)
rownames(mat)=c(18 a 21 anos 22 a 25 anos 26 a 30 anos 31 a 40 anos)colnames(mat)=c(CinTeatSMDEx)mat1=mat for (i in 14) mat1[i]lt-mat1[i]100sum(mat1[i]) par(mfrow=c(12) mai=c(1111) mar=c(5 4 2 2) )barplot(matbeside=F ylim=c(0250) legend = c(18 a 21 anos 22 a 25 anos
26 a 30 anos 31 a 40 anos) xlab=Contagem)
barplot(mat1 beside=F xlab=Percentagem)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4761
A1) ndash Pag 52 ndash Figura 25X= c(184114821789235159118762592403190408372147328526471687
09642871437079238215753399242122530314859149806)y =c(01837012540193301620014230140604568022870231400861019960235302186012798991801254018210244160823
0147764068011818941403474539680150133247023685518102146187520214097090257291227
036282905401406510810113849399)plot(x y xlim=c(07) ylim=c(05) pch=16 bty=l xlab=Renda per capita
ylab=Telefonia Fixa per capita)
abline(lsfit(xy))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4861
A1) ndash Pag 109 ndash Figura 45
x=020
y1=dpois(x1) y2=dpois(x3) y3=dpois(x10)names(y1)=x names(y2)=x names(y3)=xpar(mfrow=c(13))plot(y1ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=1)plot(y2ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=3)plot(y3ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=10)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4961
A1) ndash Pag 118 ndash Figura 412
x=seq(010001)
plot(xdexp(x 12) type=l xlim=c(012) ylim=c(01) bty=l ylab=f(x) eF(x))for(i in seq(0 25 001)) segments(i 0 i dexp(i12) col=lightgrey)abline(v=0 h=0)points(xdexp(x 12) type=l lwd=2 bty=l)points(xpexp(x 12) lwd=2 type=l)segments(250 25pexp(2512))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5061
A1) ndash Pag 163 ndash Figura 68
plot(p xlim=c(618) ylim=c(016) type=n bty=l xaxt=n xlab= ylab=
cexaxis=6)for (i in 1015) rect(i-50 i+5 dbinom(i304) col=lightgrey) lty=2)segments(i0idbinom(i304) lty=2)
x=seq(61801) lines(x dnorm(x12sqrt(72)) lwd=2)x=seq(61801) lines(x dnorm(x12sqrt(72)) lwd=2)
axis(1 916 cexaxis=9) ax s seq cexax s=
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5161
A1) ndash Pag 198 ndash Figura 78
x1=seq(-4402)plot(x1dnorm(x1) type=l lwd=3 xlab= ylab= )lines(x1 dt(x11)) lines(x1 dt(x12)) lines(x1 dt(x15))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5261
A2ndashResumo de comandos
a)Criaccedilatildeo de dados
c()funccedilatildeo geneacuterica para combinar argumentos com o formando de um vetor fromto gera uma sequecircnce ldquordquo tem prioridade de operator pe13 + 1 is ldquo234rdquo
seq(fromtoby) gera uma sequecircncia by= especifica incremento
length= especifica um comprimento desejado
rep(xtimes) replicate x onuacutemero times de vezes use each= para repetir cada
elemento de x rep(c(123)2) gera 1 2 3 1 2 3 rep(c(12)each=2) gera 1 1 2 2
matrix(xnrow=ncol=) matrix elementos de x se reciclam caso x
rbind()combina vetores em linhas num estrutura de matrizes de dados
cbind()combina vetores em colunas num estrutura de matrizes de dados
array(xdim=) matriz com dados x especificar dimensotildees como dim=c(342)
elementos de x se reciclam caso x natildeo seja suficientemente grande
factor(xlevels=) codifica um vetor x como um fator gl(nklength=nklabels=1n) gerar niacuteveis (fatores) especificando
o padratildeo de seus niacuteveis k eacute o nuacutemero de niacuteveis e n eacute o nuacutemero de repeticcedilotildees
dataframe() criar um banco de dados Por exemplo
dataframe(v=14ch=c(gBcasad)n=5)
list()criar uma lista de argumentos Por exemplo list(a=c(12)b=hic=3i)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5361
A2ndashResumo de comandos
b) Informaccedilatildeo de uma Variaacutevellength(x) nuacutemero de elementos em x
dim(x) Obter ou definir a dimensatildeo de um objeto dim (x) = c(32)dimnames(x) Obter ou definir os nomes das dimensotildees de um objeto
nrow(x) nuacutemero de linhas
ncol(x) nuacutemero de colunas
c) Seleccedilatildeo de dados e manipulaccedilatildeochoose(n k) calcula a combinaccedilatildeo de elementos escolhidos entre n
resultando n [(n-k) k]
cut(xbreaks) divide x em intervalos (fatores) breaks eacute o nuacutemero de intervalos de
corte ou um vetor com os valores especiacuteficos
table(x) retorna uma tabela com as quantidades dos diferentes valores de x
(tipicamente para variaacuteveis dos tipos inteiros ou fatores)
sample(x size) retira aleatoriamente com e sem reposiccedilatildeo elementos detamanho SIZE do vetor x a opccedilatildeo replace = TRUE permite a retirada com reposiccedilatildeo
proptable(xmargin=) transforma a tabela como tabela de propoccedilatildeo
marginal margin=1 (com relaccedilatildeo as linhas) margin=2 (com relaccedilatildeo as colunas)
sort(x) Classifica os elementos de x em ordem crescente para classificar em ordem
decrescente rev(sort(x))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5461
A2ndashResumo de comandosd) Estatiacutesticas e operaccedilotildees matemaacuteticasmean(x) media dos elementos de x
median(x) mediana dos elementos de x
quantile(xprobs=) quantis de x correspondendo a uma dada probabilidadevar(x) ou cov(x) variacircncia dos elementos de x (calculado com n-1)
se x eacute uma matriz a matriz de covariacircncia eacute calculada
sd(x) desvio padracirco de of x
cor(x) matriz de correlaccedilatildeo de x se x for uma matriz ou (1 se x eacute um vector)
cor(x y) correlaccedilatildeo linear entre X e Y ou matriz de correlaccedilatildeo se eles satildeo matrizes
round(x n) arredonda os elementos de x para n casas decimais sum x soma os e emen os e x
prod(x) multilica os elementos de x
max(x) acha o maacuteximo dos elementos de x
min(x) acha o miacutenimo dos elementos de x
range(x) equivalente a c(min(x)max(x)
cumsum(x) um vetor onde o eacutesimo elemento eacute a soma de x[1] ateacute x[i]cumprod(x) um vetor onde o eacutesimo elemento eacute o produto de x[1] ateacute x[i]
cummin(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
cummax(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
sincostanasinacosatanatan2loglog10exp)
log(x base) calcula o logaritmo de x na base=base
weightedmean(x w) media ponderada de x com peso= w
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5561
A2ndashResumo de comandos
e) Corte e extraccedilatildeo de dadosindexaccedilatildeo de Vetores
x[n] n-eacutesimo elemento do vetor
x[-n] todos menos o n-eacutesimo elemento
x[1n] os primeiros n elemento
x[-(1n)] elementos de n+1 ateacute o final
x[c(432)] elementos especificados
x[y gt 5] todo elementos de onde os valores de y satildeo maiores que 5
x x gt 3 amp x lt 5 todo elementos entre 3 e 5
x[nome] elemento denominado nome
indexaccedilatildeo de Matrizes
x[ij] elemento na linha i coluna j
x[i] linha i
x[j] coluna j
x[c(13)] colunas 1 and 3
x[nome] linha nomeada nome
indexaccedilatildeo de data frames
x[[nome]] coluna chamada nome
x$nome equivalente a coluna chamada nome
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5661
A2ndashResumo de comandos
f) Operaccedilatildeo com Matrizest(x) transposta da matrix x
diag(x) retira a diagonal da matrix x
multiplicaccedilatildeo matricial
solve(ab) resove a equaccedilatildeo a x = b em relaccedilatildeo a x
solve(a) matriz inversa de a
rowSum(x) soma das linhas da matrix x
colSum(x) soma das colunas da matrix x
rowMeans x meacutedia das linhas da matrix x
colMeans(x) id meacutedia das colunas da matrix x
g) Graacuteficos (Plotting)plot(x y) diagrama de disperccedilatildeo plot dos pares (xy) num sistema de eixos
coordenadoshist(x) histogram dasfrequecircncias of x
barplot(x) graacutefico de barras of x usar horiz=T ara barras horizontal
pie(x) graacutefico de setores (pie-chart)
boxplot(x)
qqnorm(x) quantis de x em relaccedilatildeo aos valores esperados de uma dist Normal
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5761
A2ndashResumo de comandosparametros dos commando de Graacutefico
type=p especifica o tipo de plot p pontos l linhas b pontos
ligados por linhas o idecircntico mas as linhas passam sobre os pontos h
linhas verticais s escada (steps) os dados satildeo representados pelas alturasverticais
xlim= ylim= especifica os limites inferiores e superiores dos eixos por exemplocom xlim=c(1 10) ou xlim=range(x)
xlab= ylab= nomeia os eixos o nome deve ser do tipo caracter
main= tiacutetulo principal deve ser do tipo caracter
sub= sub-tiacutetulo (escrito em fonte menor)
podem ser usados como bty(tipo de caixa) lwd (lagura da linha) lty (tipo delinha) pch(tipo de ponto) cex xaxs yaxs xaxtyaxt
h) Teste de hipoacuteteses
ttest()proptest()
chisqtest()
aov(formula) analysis of variance model
anova(fit) analysis of variance (or deviance) tables for one or more
fitted model objects
Use o commando gt test para procurar todos os testes disponiacuteveis
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5861
A2ndashResumo de comandos
i) Programmingfunction( arglist ) expr para definer uma funccedilatildeo
return(value)
if(cond) expr
if(cond) consexpr else altexpr
for(var in seq) expr
while(cond) expr
re eat ex r
break
Usar chaves entre commandos dlimitando o iniacutecio e o fim de um grupo decomandos
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5961
A2ndashResumo de comandos
j) Commandos auxiliaries em Graacuteficospoints(x y) adiciona pontos (a opccedilatildeo type= pode ser usada)
lines(x y) adiciona linhas (a opccedilatildeo type= pode ser usada)text(x y labels ) adiciona texto na coordenada (xy) um uso tiacutepico eacute
plot(x y type=n) text(x ynames)
segments(x0 y0 x1 y1) desenha linhas do ponto (x0 y0) ao (x1 y1)
arrows(x0 y0 x1 y1 angle= 30 code=2) desenha seta do ponto
(x0 y0) ao (x1 y1)
abline(ab) desenha uma reta de inclinaccedilatildeo b e intercepto a
abline(v=x) desenha uma reta vertical em x
abline(lsfit(xy)) desenha uma reta da regressatildeo feita em lsfit(xy)
rect(x1 y1 x2 y2) desenha um retacircngulo que a esquerda inferior tem coordenadas(x1 y1) e o limite da direita superiores (x2 y2)
polygon(x y) desenha um poliacutegono que une os pontos com coordenadas X e Y
legend(x y legend) Acrescenta a lenda no ponto (x y) com os siacutembolos
dada pela legend
title()adiciona um tiacutetulo e opcionalmente um sub-tiacutetulo
axis(side) acrescenta um eixo na parte inferior (side = 1) agrave esquerda (2) na partesuperior (3) ou agrave direita (4)
box()desenhar uma caixa em torno do plot
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6061
A2ndashResumo de comandos
k) Comando par (Graphical parameters)Todos estes comando podem ser definidos a niacutevel global com o par () que
especifica os paracircmetros mas tambeacutem muitos podem ser usados comoparametros dos commando de Graacutefico
mfcol vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em colunas
mfrow vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em linhas(matrix for row)
bty controla o tipo de caixa desenhada ao redor do enredo valores permitidos satildeo
o l 7 c u ou se bt =n a caixa natildeo eacute desenhada
lty controla o tipo de linhas pode ser um inteiro ou string (1 solid 2 dashed 3dotted 4 dotdash 5 longdash 6twodash) ou uma string de ateacuteoito caracteres (entre 0 e 9) que especifica o comprimento em pontos oupixels dos elementos desenhados e os espaccedilos em branco por exemplolty=rdquo44rdquo equivale a lty=2
lwd nuacutemero que controla a largura das linhas default 1pch controla o tipo de siacutembolo pode tambeacutem ser um nuacutemero inteiro entre 1 e 25
ps um inteiro que controla o tamanho em pontos de textos e siacutembolos
pty um caracter que especifica o tipo da regiatildeo s quadrado m maacuteximal
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6161
A2ndashResumo de comandos
l) Input and outputreadtable(file) lecirc um arquivo em formato de tabela e cria um quadro de dados a
partir dele o separador default = eacute espaccedilo em branco header = TRUE ler a
primeira linha como um cabeccedilalho de nomes de coluna asis = TRUE paraevitar aque um vetore de caracteres seja convertido em factores usocommentchar = para evitar seja interpretado como um comentaacuteriouso skip = n para pular n linhas antes da leitura de dados consulte a ajudapara as opccedilotildees de linha de nomeaccedilatildeo o tratamento NA e outros
readcsv(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por viacutergulas
readdelim(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por tabulaccedilotildees
readfwf(filewidthsheader=FALSEsep= asis=FALSE)
ler uma tabela de dados em formato fix de largura m para um dataframe widthseacute um vetor inteiro informando os tamanhos dos campos
sink(file) saiacuteda de todos os comandos para um arquivo ateacute aparecer um comando
sink () que desliga writetable(x file=rownames=Tcolnames=Tsep= ) imprime x apoacutes a
conversatildeo para banco de dados
save(file) guarda os objetos especificados () no formato XDR
load()carregar o conjunto de dados salvos com o comando save
data(x) carrega um conjunto de dados especificado
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4461
A1) ndash Pag 14 ndash Figura 15
IDADE=c(616961716371726866697267636663636067716360696463667164706366646969646372736871726968687379)
IMC= c(245273281301254301280234268228255228235232203226239243271227237258213243243248219234216214221227227211268278275267286253239258247284235)
par(mfrow=c(12))hist(IDADE breaks=c(6065707580) ylim=c(020) ylab=Nuacutemero de Observaccedilotildees
main= col=grey right = F)hist(IMC breaks=c(200225250275300325)
ylab=Nuacutemero de Observaccedilotildeesmain= col=grey right = F )
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4561
A1) ndash Pag 44 ndash Figura 21
mat=matrix(c(81823913601818608740)32)
rownames(mat)=c(AtivaSedentaacuteriaTotal)colnames(mat)=c(NormalSobrepeso)barplot(t(mat) beside = TRUE space=c(315)
col=gray(c(79))legend = c(NormalSobrepeso) ylim = c(0 95) ylab= - percentagem)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4661
A1) ndash Pag 48 ndash Figura 22
mat= matrix(c(68154510 66214215 66242519 39161711)44byrow=T)
rownames(mat)=c(18 a 21 anos 22 a 25 anos 26 a 30 anos 31 a 40 anos)colnames(mat)=c(CinTeatSMDEx)mat1=mat for (i in 14) mat1[i]lt-mat1[i]100sum(mat1[i]) par(mfrow=c(12) mai=c(1111) mar=c(5 4 2 2) )barplot(matbeside=F ylim=c(0250) legend = c(18 a 21 anos 22 a 25 anos
26 a 30 anos 31 a 40 anos) xlab=Contagem)
barplot(mat1 beside=F xlab=Percentagem)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4761
A1) ndash Pag 52 ndash Figura 25X= c(184114821789235159118762592403190408372147328526471687
09642871437079238215753399242122530314859149806)y =c(01837012540193301620014230140604568022870231400861019960235302186012798991801254018210244160823
0147764068011818941403474539680150133247023685518102146187520214097090257291227
036282905401406510810113849399)plot(x y xlim=c(07) ylim=c(05) pch=16 bty=l xlab=Renda per capita
ylab=Telefonia Fixa per capita)
abline(lsfit(xy))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4861
A1) ndash Pag 109 ndash Figura 45
x=020
y1=dpois(x1) y2=dpois(x3) y3=dpois(x10)names(y1)=x names(y2)=x names(y3)=xpar(mfrow=c(13))plot(y1ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=1)plot(y2ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=3)plot(y3ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=10)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4961
A1) ndash Pag 118 ndash Figura 412
x=seq(010001)
plot(xdexp(x 12) type=l xlim=c(012) ylim=c(01) bty=l ylab=f(x) eF(x))for(i in seq(0 25 001)) segments(i 0 i dexp(i12) col=lightgrey)abline(v=0 h=0)points(xdexp(x 12) type=l lwd=2 bty=l)points(xpexp(x 12) lwd=2 type=l)segments(250 25pexp(2512))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5061
A1) ndash Pag 163 ndash Figura 68
plot(p xlim=c(618) ylim=c(016) type=n bty=l xaxt=n xlab= ylab=
cexaxis=6)for (i in 1015) rect(i-50 i+5 dbinom(i304) col=lightgrey) lty=2)segments(i0idbinom(i304) lty=2)
x=seq(61801) lines(x dnorm(x12sqrt(72)) lwd=2)x=seq(61801) lines(x dnorm(x12sqrt(72)) lwd=2)
axis(1 916 cexaxis=9) ax s seq cexax s=
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5161
A1) ndash Pag 198 ndash Figura 78
x1=seq(-4402)plot(x1dnorm(x1) type=l lwd=3 xlab= ylab= )lines(x1 dt(x11)) lines(x1 dt(x12)) lines(x1 dt(x15))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5261
A2ndashResumo de comandos
a)Criaccedilatildeo de dados
c()funccedilatildeo geneacuterica para combinar argumentos com o formando de um vetor fromto gera uma sequecircnce ldquordquo tem prioridade de operator pe13 + 1 is ldquo234rdquo
seq(fromtoby) gera uma sequecircncia by= especifica incremento
length= especifica um comprimento desejado
rep(xtimes) replicate x onuacutemero times de vezes use each= para repetir cada
elemento de x rep(c(123)2) gera 1 2 3 1 2 3 rep(c(12)each=2) gera 1 1 2 2
matrix(xnrow=ncol=) matrix elementos de x se reciclam caso x
rbind()combina vetores em linhas num estrutura de matrizes de dados
cbind()combina vetores em colunas num estrutura de matrizes de dados
array(xdim=) matriz com dados x especificar dimensotildees como dim=c(342)
elementos de x se reciclam caso x natildeo seja suficientemente grande
factor(xlevels=) codifica um vetor x como um fator gl(nklength=nklabels=1n) gerar niacuteveis (fatores) especificando
o padratildeo de seus niacuteveis k eacute o nuacutemero de niacuteveis e n eacute o nuacutemero de repeticcedilotildees
dataframe() criar um banco de dados Por exemplo
dataframe(v=14ch=c(gBcasad)n=5)
list()criar uma lista de argumentos Por exemplo list(a=c(12)b=hic=3i)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5361
A2ndashResumo de comandos
b) Informaccedilatildeo de uma Variaacutevellength(x) nuacutemero de elementos em x
dim(x) Obter ou definir a dimensatildeo de um objeto dim (x) = c(32)dimnames(x) Obter ou definir os nomes das dimensotildees de um objeto
nrow(x) nuacutemero de linhas
ncol(x) nuacutemero de colunas
c) Seleccedilatildeo de dados e manipulaccedilatildeochoose(n k) calcula a combinaccedilatildeo de elementos escolhidos entre n
resultando n [(n-k) k]
cut(xbreaks) divide x em intervalos (fatores) breaks eacute o nuacutemero de intervalos de
corte ou um vetor com os valores especiacuteficos
table(x) retorna uma tabela com as quantidades dos diferentes valores de x
(tipicamente para variaacuteveis dos tipos inteiros ou fatores)
sample(x size) retira aleatoriamente com e sem reposiccedilatildeo elementos detamanho SIZE do vetor x a opccedilatildeo replace = TRUE permite a retirada com reposiccedilatildeo
proptable(xmargin=) transforma a tabela como tabela de propoccedilatildeo
marginal margin=1 (com relaccedilatildeo as linhas) margin=2 (com relaccedilatildeo as colunas)
sort(x) Classifica os elementos de x em ordem crescente para classificar em ordem
decrescente rev(sort(x))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5461
A2ndashResumo de comandosd) Estatiacutesticas e operaccedilotildees matemaacuteticasmean(x) media dos elementos de x
median(x) mediana dos elementos de x
quantile(xprobs=) quantis de x correspondendo a uma dada probabilidadevar(x) ou cov(x) variacircncia dos elementos de x (calculado com n-1)
se x eacute uma matriz a matriz de covariacircncia eacute calculada
sd(x) desvio padracirco de of x
cor(x) matriz de correlaccedilatildeo de x se x for uma matriz ou (1 se x eacute um vector)
cor(x y) correlaccedilatildeo linear entre X e Y ou matriz de correlaccedilatildeo se eles satildeo matrizes
round(x n) arredonda os elementos de x para n casas decimais sum x soma os e emen os e x
prod(x) multilica os elementos de x
max(x) acha o maacuteximo dos elementos de x
min(x) acha o miacutenimo dos elementos de x
range(x) equivalente a c(min(x)max(x)
cumsum(x) um vetor onde o eacutesimo elemento eacute a soma de x[1] ateacute x[i]cumprod(x) um vetor onde o eacutesimo elemento eacute o produto de x[1] ateacute x[i]
cummin(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
cummax(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
sincostanasinacosatanatan2loglog10exp)
log(x base) calcula o logaritmo de x na base=base
weightedmean(x w) media ponderada de x com peso= w
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5561
A2ndashResumo de comandos
e) Corte e extraccedilatildeo de dadosindexaccedilatildeo de Vetores
x[n] n-eacutesimo elemento do vetor
x[-n] todos menos o n-eacutesimo elemento
x[1n] os primeiros n elemento
x[-(1n)] elementos de n+1 ateacute o final
x[c(432)] elementos especificados
x[y gt 5] todo elementos de onde os valores de y satildeo maiores que 5
x x gt 3 amp x lt 5 todo elementos entre 3 e 5
x[nome] elemento denominado nome
indexaccedilatildeo de Matrizes
x[ij] elemento na linha i coluna j
x[i] linha i
x[j] coluna j
x[c(13)] colunas 1 and 3
x[nome] linha nomeada nome
indexaccedilatildeo de data frames
x[[nome]] coluna chamada nome
x$nome equivalente a coluna chamada nome
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5661
A2ndashResumo de comandos
f) Operaccedilatildeo com Matrizest(x) transposta da matrix x
diag(x) retira a diagonal da matrix x
multiplicaccedilatildeo matricial
solve(ab) resove a equaccedilatildeo a x = b em relaccedilatildeo a x
solve(a) matriz inversa de a
rowSum(x) soma das linhas da matrix x
colSum(x) soma das colunas da matrix x
rowMeans x meacutedia das linhas da matrix x
colMeans(x) id meacutedia das colunas da matrix x
g) Graacuteficos (Plotting)plot(x y) diagrama de disperccedilatildeo plot dos pares (xy) num sistema de eixos
coordenadoshist(x) histogram dasfrequecircncias of x
barplot(x) graacutefico de barras of x usar horiz=T ara barras horizontal
pie(x) graacutefico de setores (pie-chart)
boxplot(x)
qqnorm(x) quantis de x em relaccedilatildeo aos valores esperados de uma dist Normal
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5761
A2ndashResumo de comandosparametros dos commando de Graacutefico
type=p especifica o tipo de plot p pontos l linhas b pontos
ligados por linhas o idecircntico mas as linhas passam sobre os pontos h
linhas verticais s escada (steps) os dados satildeo representados pelas alturasverticais
xlim= ylim= especifica os limites inferiores e superiores dos eixos por exemplocom xlim=c(1 10) ou xlim=range(x)
xlab= ylab= nomeia os eixos o nome deve ser do tipo caracter
main= tiacutetulo principal deve ser do tipo caracter
sub= sub-tiacutetulo (escrito em fonte menor)
podem ser usados como bty(tipo de caixa) lwd (lagura da linha) lty (tipo delinha) pch(tipo de ponto) cex xaxs yaxs xaxtyaxt
h) Teste de hipoacuteteses
ttest()proptest()
chisqtest()
aov(formula) analysis of variance model
anova(fit) analysis of variance (or deviance) tables for one or more
fitted model objects
Use o commando gt test para procurar todos os testes disponiacuteveis
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5861
A2ndashResumo de comandos
i) Programmingfunction( arglist ) expr para definer uma funccedilatildeo
return(value)
if(cond) expr
if(cond) consexpr else altexpr
for(var in seq) expr
while(cond) expr
re eat ex r
break
Usar chaves entre commandos dlimitando o iniacutecio e o fim de um grupo decomandos
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5961
A2ndashResumo de comandos
j) Commandos auxiliaries em Graacuteficospoints(x y) adiciona pontos (a opccedilatildeo type= pode ser usada)
lines(x y) adiciona linhas (a opccedilatildeo type= pode ser usada)text(x y labels ) adiciona texto na coordenada (xy) um uso tiacutepico eacute
plot(x y type=n) text(x ynames)
segments(x0 y0 x1 y1) desenha linhas do ponto (x0 y0) ao (x1 y1)
arrows(x0 y0 x1 y1 angle= 30 code=2) desenha seta do ponto
(x0 y0) ao (x1 y1)
abline(ab) desenha uma reta de inclinaccedilatildeo b e intercepto a
abline(v=x) desenha uma reta vertical em x
abline(lsfit(xy)) desenha uma reta da regressatildeo feita em lsfit(xy)
rect(x1 y1 x2 y2) desenha um retacircngulo que a esquerda inferior tem coordenadas(x1 y1) e o limite da direita superiores (x2 y2)
polygon(x y) desenha um poliacutegono que une os pontos com coordenadas X e Y
legend(x y legend) Acrescenta a lenda no ponto (x y) com os siacutembolos
dada pela legend
title()adiciona um tiacutetulo e opcionalmente um sub-tiacutetulo
axis(side) acrescenta um eixo na parte inferior (side = 1) agrave esquerda (2) na partesuperior (3) ou agrave direita (4)
box()desenhar uma caixa em torno do plot
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6061
A2ndashResumo de comandos
k) Comando par (Graphical parameters)Todos estes comando podem ser definidos a niacutevel global com o par () que
especifica os paracircmetros mas tambeacutem muitos podem ser usados comoparametros dos commando de Graacutefico
mfcol vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em colunas
mfrow vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em linhas(matrix for row)
bty controla o tipo de caixa desenhada ao redor do enredo valores permitidos satildeo
o l 7 c u ou se bt =n a caixa natildeo eacute desenhada
lty controla o tipo de linhas pode ser um inteiro ou string (1 solid 2 dashed 3dotted 4 dotdash 5 longdash 6twodash) ou uma string de ateacuteoito caracteres (entre 0 e 9) que especifica o comprimento em pontos oupixels dos elementos desenhados e os espaccedilos em branco por exemplolty=rdquo44rdquo equivale a lty=2
lwd nuacutemero que controla a largura das linhas default 1pch controla o tipo de siacutembolo pode tambeacutem ser um nuacutemero inteiro entre 1 e 25
ps um inteiro que controla o tamanho em pontos de textos e siacutembolos
pty um caracter que especifica o tipo da regiatildeo s quadrado m maacuteximal
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6161
A2ndashResumo de comandos
l) Input and outputreadtable(file) lecirc um arquivo em formato de tabela e cria um quadro de dados a
partir dele o separador default = eacute espaccedilo em branco header = TRUE ler a
primeira linha como um cabeccedilalho de nomes de coluna asis = TRUE paraevitar aque um vetore de caracteres seja convertido em factores usocommentchar = para evitar seja interpretado como um comentaacuteriouso skip = n para pular n linhas antes da leitura de dados consulte a ajudapara as opccedilotildees de linha de nomeaccedilatildeo o tratamento NA e outros
readcsv(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por viacutergulas
readdelim(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por tabulaccedilotildees
readfwf(filewidthsheader=FALSEsep= asis=FALSE)
ler uma tabela de dados em formato fix de largura m para um dataframe widthseacute um vetor inteiro informando os tamanhos dos campos
sink(file) saiacuteda de todos os comandos para um arquivo ateacute aparecer um comando
sink () que desliga writetable(x file=rownames=Tcolnames=Tsep= ) imprime x apoacutes a
conversatildeo para banco de dados
save(file) guarda os objetos especificados () no formato XDR
load()carregar o conjunto de dados salvos com o comando save
data(x) carrega um conjunto de dados especificado
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4561
A1) ndash Pag 44 ndash Figura 21
mat=matrix(c(81823913601818608740)32)
rownames(mat)=c(AtivaSedentaacuteriaTotal)colnames(mat)=c(NormalSobrepeso)barplot(t(mat) beside = TRUE space=c(315)
col=gray(c(79))legend = c(NormalSobrepeso) ylim = c(0 95) ylab= - percentagem)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4661
A1) ndash Pag 48 ndash Figura 22
mat= matrix(c(68154510 66214215 66242519 39161711)44byrow=T)
rownames(mat)=c(18 a 21 anos 22 a 25 anos 26 a 30 anos 31 a 40 anos)colnames(mat)=c(CinTeatSMDEx)mat1=mat for (i in 14) mat1[i]lt-mat1[i]100sum(mat1[i]) par(mfrow=c(12) mai=c(1111) mar=c(5 4 2 2) )barplot(matbeside=F ylim=c(0250) legend = c(18 a 21 anos 22 a 25 anos
26 a 30 anos 31 a 40 anos) xlab=Contagem)
barplot(mat1 beside=F xlab=Percentagem)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4761
A1) ndash Pag 52 ndash Figura 25X= c(184114821789235159118762592403190408372147328526471687
09642871437079238215753399242122530314859149806)y =c(01837012540193301620014230140604568022870231400861019960235302186012798991801254018210244160823
0147764068011818941403474539680150133247023685518102146187520214097090257291227
036282905401406510810113849399)plot(x y xlim=c(07) ylim=c(05) pch=16 bty=l xlab=Renda per capita
ylab=Telefonia Fixa per capita)
abline(lsfit(xy))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4861
A1) ndash Pag 109 ndash Figura 45
x=020
y1=dpois(x1) y2=dpois(x3) y3=dpois(x10)names(y1)=x names(y2)=x names(y3)=xpar(mfrow=c(13))plot(y1ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=1)plot(y2ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=3)plot(y3ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=10)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4961
A1) ndash Pag 118 ndash Figura 412
x=seq(010001)
plot(xdexp(x 12) type=l xlim=c(012) ylim=c(01) bty=l ylab=f(x) eF(x))for(i in seq(0 25 001)) segments(i 0 i dexp(i12) col=lightgrey)abline(v=0 h=0)points(xdexp(x 12) type=l lwd=2 bty=l)points(xpexp(x 12) lwd=2 type=l)segments(250 25pexp(2512))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5061
A1) ndash Pag 163 ndash Figura 68
plot(p xlim=c(618) ylim=c(016) type=n bty=l xaxt=n xlab= ylab=
cexaxis=6)for (i in 1015) rect(i-50 i+5 dbinom(i304) col=lightgrey) lty=2)segments(i0idbinom(i304) lty=2)
x=seq(61801) lines(x dnorm(x12sqrt(72)) lwd=2)x=seq(61801) lines(x dnorm(x12sqrt(72)) lwd=2)
axis(1 916 cexaxis=9) ax s seq cexax s=
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5161
A1) ndash Pag 198 ndash Figura 78
x1=seq(-4402)plot(x1dnorm(x1) type=l lwd=3 xlab= ylab= )lines(x1 dt(x11)) lines(x1 dt(x12)) lines(x1 dt(x15))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5261
A2ndashResumo de comandos
a)Criaccedilatildeo de dados
c()funccedilatildeo geneacuterica para combinar argumentos com o formando de um vetor fromto gera uma sequecircnce ldquordquo tem prioridade de operator pe13 + 1 is ldquo234rdquo
seq(fromtoby) gera uma sequecircncia by= especifica incremento
length= especifica um comprimento desejado
rep(xtimes) replicate x onuacutemero times de vezes use each= para repetir cada
elemento de x rep(c(123)2) gera 1 2 3 1 2 3 rep(c(12)each=2) gera 1 1 2 2
matrix(xnrow=ncol=) matrix elementos de x se reciclam caso x
rbind()combina vetores em linhas num estrutura de matrizes de dados
cbind()combina vetores em colunas num estrutura de matrizes de dados
array(xdim=) matriz com dados x especificar dimensotildees como dim=c(342)
elementos de x se reciclam caso x natildeo seja suficientemente grande
factor(xlevels=) codifica um vetor x como um fator gl(nklength=nklabels=1n) gerar niacuteveis (fatores) especificando
o padratildeo de seus niacuteveis k eacute o nuacutemero de niacuteveis e n eacute o nuacutemero de repeticcedilotildees
dataframe() criar um banco de dados Por exemplo
dataframe(v=14ch=c(gBcasad)n=5)
list()criar uma lista de argumentos Por exemplo list(a=c(12)b=hic=3i)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5361
A2ndashResumo de comandos
b) Informaccedilatildeo de uma Variaacutevellength(x) nuacutemero de elementos em x
dim(x) Obter ou definir a dimensatildeo de um objeto dim (x) = c(32)dimnames(x) Obter ou definir os nomes das dimensotildees de um objeto
nrow(x) nuacutemero de linhas
ncol(x) nuacutemero de colunas
c) Seleccedilatildeo de dados e manipulaccedilatildeochoose(n k) calcula a combinaccedilatildeo de elementos escolhidos entre n
resultando n [(n-k) k]
cut(xbreaks) divide x em intervalos (fatores) breaks eacute o nuacutemero de intervalos de
corte ou um vetor com os valores especiacuteficos
table(x) retorna uma tabela com as quantidades dos diferentes valores de x
(tipicamente para variaacuteveis dos tipos inteiros ou fatores)
sample(x size) retira aleatoriamente com e sem reposiccedilatildeo elementos detamanho SIZE do vetor x a opccedilatildeo replace = TRUE permite a retirada com reposiccedilatildeo
proptable(xmargin=) transforma a tabela como tabela de propoccedilatildeo
marginal margin=1 (com relaccedilatildeo as linhas) margin=2 (com relaccedilatildeo as colunas)
sort(x) Classifica os elementos de x em ordem crescente para classificar em ordem
decrescente rev(sort(x))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5461
A2ndashResumo de comandosd) Estatiacutesticas e operaccedilotildees matemaacuteticasmean(x) media dos elementos de x
median(x) mediana dos elementos de x
quantile(xprobs=) quantis de x correspondendo a uma dada probabilidadevar(x) ou cov(x) variacircncia dos elementos de x (calculado com n-1)
se x eacute uma matriz a matriz de covariacircncia eacute calculada
sd(x) desvio padracirco de of x
cor(x) matriz de correlaccedilatildeo de x se x for uma matriz ou (1 se x eacute um vector)
cor(x y) correlaccedilatildeo linear entre X e Y ou matriz de correlaccedilatildeo se eles satildeo matrizes
round(x n) arredonda os elementos de x para n casas decimais sum x soma os e emen os e x
prod(x) multilica os elementos de x
max(x) acha o maacuteximo dos elementos de x
min(x) acha o miacutenimo dos elementos de x
range(x) equivalente a c(min(x)max(x)
cumsum(x) um vetor onde o eacutesimo elemento eacute a soma de x[1] ateacute x[i]cumprod(x) um vetor onde o eacutesimo elemento eacute o produto de x[1] ateacute x[i]
cummin(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
cummax(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
sincostanasinacosatanatan2loglog10exp)
log(x base) calcula o logaritmo de x na base=base
weightedmean(x w) media ponderada de x com peso= w
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5561
A2ndashResumo de comandos
e) Corte e extraccedilatildeo de dadosindexaccedilatildeo de Vetores
x[n] n-eacutesimo elemento do vetor
x[-n] todos menos o n-eacutesimo elemento
x[1n] os primeiros n elemento
x[-(1n)] elementos de n+1 ateacute o final
x[c(432)] elementos especificados
x[y gt 5] todo elementos de onde os valores de y satildeo maiores que 5
x x gt 3 amp x lt 5 todo elementos entre 3 e 5
x[nome] elemento denominado nome
indexaccedilatildeo de Matrizes
x[ij] elemento na linha i coluna j
x[i] linha i
x[j] coluna j
x[c(13)] colunas 1 and 3
x[nome] linha nomeada nome
indexaccedilatildeo de data frames
x[[nome]] coluna chamada nome
x$nome equivalente a coluna chamada nome
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5661
A2ndashResumo de comandos
f) Operaccedilatildeo com Matrizest(x) transposta da matrix x
diag(x) retira a diagonal da matrix x
multiplicaccedilatildeo matricial
solve(ab) resove a equaccedilatildeo a x = b em relaccedilatildeo a x
solve(a) matriz inversa de a
rowSum(x) soma das linhas da matrix x
colSum(x) soma das colunas da matrix x
rowMeans x meacutedia das linhas da matrix x
colMeans(x) id meacutedia das colunas da matrix x
g) Graacuteficos (Plotting)plot(x y) diagrama de disperccedilatildeo plot dos pares (xy) num sistema de eixos
coordenadoshist(x) histogram dasfrequecircncias of x
barplot(x) graacutefico de barras of x usar horiz=T ara barras horizontal
pie(x) graacutefico de setores (pie-chart)
boxplot(x)
qqnorm(x) quantis de x em relaccedilatildeo aos valores esperados de uma dist Normal
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5761
A2ndashResumo de comandosparametros dos commando de Graacutefico
type=p especifica o tipo de plot p pontos l linhas b pontos
ligados por linhas o idecircntico mas as linhas passam sobre os pontos h
linhas verticais s escada (steps) os dados satildeo representados pelas alturasverticais
xlim= ylim= especifica os limites inferiores e superiores dos eixos por exemplocom xlim=c(1 10) ou xlim=range(x)
xlab= ylab= nomeia os eixos o nome deve ser do tipo caracter
main= tiacutetulo principal deve ser do tipo caracter
sub= sub-tiacutetulo (escrito em fonte menor)
podem ser usados como bty(tipo de caixa) lwd (lagura da linha) lty (tipo delinha) pch(tipo de ponto) cex xaxs yaxs xaxtyaxt
h) Teste de hipoacuteteses
ttest()proptest()
chisqtest()
aov(formula) analysis of variance model
anova(fit) analysis of variance (or deviance) tables for one or more
fitted model objects
Use o commando gt test para procurar todos os testes disponiacuteveis
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5861
A2ndashResumo de comandos
i) Programmingfunction( arglist ) expr para definer uma funccedilatildeo
return(value)
if(cond) expr
if(cond) consexpr else altexpr
for(var in seq) expr
while(cond) expr
re eat ex r
break
Usar chaves entre commandos dlimitando o iniacutecio e o fim de um grupo decomandos
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5961
A2ndashResumo de comandos
j) Commandos auxiliaries em Graacuteficospoints(x y) adiciona pontos (a opccedilatildeo type= pode ser usada)
lines(x y) adiciona linhas (a opccedilatildeo type= pode ser usada)text(x y labels ) adiciona texto na coordenada (xy) um uso tiacutepico eacute
plot(x y type=n) text(x ynames)
segments(x0 y0 x1 y1) desenha linhas do ponto (x0 y0) ao (x1 y1)
arrows(x0 y0 x1 y1 angle= 30 code=2) desenha seta do ponto
(x0 y0) ao (x1 y1)
abline(ab) desenha uma reta de inclinaccedilatildeo b e intercepto a
abline(v=x) desenha uma reta vertical em x
abline(lsfit(xy)) desenha uma reta da regressatildeo feita em lsfit(xy)
rect(x1 y1 x2 y2) desenha um retacircngulo que a esquerda inferior tem coordenadas(x1 y1) e o limite da direita superiores (x2 y2)
polygon(x y) desenha um poliacutegono que une os pontos com coordenadas X e Y
legend(x y legend) Acrescenta a lenda no ponto (x y) com os siacutembolos
dada pela legend
title()adiciona um tiacutetulo e opcionalmente um sub-tiacutetulo
axis(side) acrescenta um eixo na parte inferior (side = 1) agrave esquerda (2) na partesuperior (3) ou agrave direita (4)
box()desenhar uma caixa em torno do plot
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6061
A2ndashResumo de comandos
k) Comando par (Graphical parameters)Todos estes comando podem ser definidos a niacutevel global com o par () que
especifica os paracircmetros mas tambeacutem muitos podem ser usados comoparametros dos commando de Graacutefico
mfcol vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em colunas
mfrow vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em linhas(matrix for row)
bty controla o tipo de caixa desenhada ao redor do enredo valores permitidos satildeo
o l 7 c u ou se bt =n a caixa natildeo eacute desenhada
lty controla o tipo de linhas pode ser um inteiro ou string (1 solid 2 dashed 3dotted 4 dotdash 5 longdash 6twodash) ou uma string de ateacuteoito caracteres (entre 0 e 9) que especifica o comprimento em pontos oupixels dos elementos desenhados e os espaccedilos em branco por exemplolty=rdquo44rdquo equivale a lty=2
lwd nuacutemero que controla a largura das linhas default 1pch controla o tipo de siacutembolo pode tambeacutem ser um nuacutemero inteiro entre 1 e 25
ps um inteiro que controla o tamanho em pontos de textos e siacutembolos
pty um caracter que especifica o tipo da regiatildeo s quadrado m maacuteximal
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6161
A2ndashResumo de comandos
l) Input and outputreadtable(file) lecirc um arquivo em formato de tabela e cria um quadro de dados a
partir dele o separador default = eacute espaccedilo em branco header = TRUE ler a
primeira linha como um cabeccedilalho de nomes de coluna asis = TRUE paraevitar aque um vetore de caracteres seja convertido em factores usocommentchar = para evitar seja interpretado como um comentaacuteriouso skip = n para pular n linhas antes da leitura de dados consulte a ajudapara as opccedilotildees de linha de nomeaccedilatildeo o tratamento NA e outros
readcsv(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por viacutergulas
readdelim(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por tabulaccedilotildees
readfwf(filewidthsheader=FALSEsep= asis=FALSE)
ler uma tabela de dados em formato fix de largura m para um dataframe widthseacute um vetor inteiro informando os tamanhos dos campos
sink(file) saiacuteda de todos os comandos para um arquivo ateacute aparecer um comando
sink () que desliga writetable(x file=rownames=Tcolnames=Tsep= ) imprime x apoacutes a
conversatildeo para banco de dados
save(file) guarda os objetos especificados () no formato XDR
load()carregar o conjunto de dados salvos com o comando save
data(x) carrega um conjunto de dados especificado
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4661
A1) ndash Pag 48 ndash Figura 22
mat= matrix(c(68154510 66214215 66242519 39161711)44byrow=T)
rownames(mat)=c(18 a 21 anos 22 a 25 anos 26 a 30 anos 31 a 40 anos)colnames(mat)=c(CinTeatSMDEx)mat1=mat for (i in 14) mat1[i]lt-mat1[i]100sum(mat1[i]) par(mfrow=c(12) mai=c(1111) mar=c(5 4 2 2) )barplot(matbeside=F ylim=c(0250) legend = c(18 a 21 anos 22 a 25 anos
26 a 30 anos 31 a 40 anos) xlab=Contagem)
barplot(mat1 beside=F xlab=Percentagem)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4761
A1) ndash Pag 52 ndash Figura 25X= c(184114821789235159118762592403190408372147328526471687
09642871437079238215753399242122530314859149806)y =c(01837012540193301620014230140604568022870231400861019960235302186012798991801254018210244160823
0147764068011818941403474539680150133247023685518102146187520214097090257291227
036282905401406510810113849399)plot(x y xlim=c(07) ylim=c(05) pch=16 bty=l xlab=Renda per capita
ylab=Telefonia Fixa per capita)
abline(lsfit(xy))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4861
A1) ndash Pag 109 ndash Figura 45
x=020
y1=dpois(x1) y2=dpois(x3) y3=dpois(x10)names(y1)=x names(y2)=x names(y3)=xpar(mfrow=c(13))plot(y1ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=1)plot(y2ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=3)plot(y3ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=10)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4961
A1) ndash Pag 118 ndash Figura 412
x=seq(010001)
plot(xdexp(x 12) type=l xlim=c(012) ylim=c(01) bty=l ylab=f(x) eF(x))for(i in seq(0 25 001)) segments(i 0 i dexp(i12) col=lightgrey)abline(v=0 h=0)points(xdexp(x 12) type=l lwd=2 bty=l)points(xpexp(x 12) lwd=2 type=l)segments(250 25pexp(2512))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5061
A1) ndash Pag 163 ndash Figura 68
plot(p xlim=c(618) ylim=c(016) type=n bty=l xaxt=n xlab= ylab=
cexaxis=6)for (i in 1015) rect(i-50 i+5 dbinom(i304) col=lightgrey) lty=2)segments(i0idbinom(i304) lty=2)
x=seq(61801) lines(x dnorm(x12sqrt(72)) lwd=2)x=seq(61801) lines(x dnorm(x12sqrt(72)) lwd=2)
axis(1 916 cexaxis=9) ax s seq cexax s=
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5161
A1) ndash Pag 198 ndash Figura 78
x1=seq(-4402)plot(x1dnorm(x1) type=l lwd=3 xlab= ylab= )lines(x1 dt(x11)) lines(x1 dt(x12)) lines(x1 dt(x15))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5261
A2ndashResumo de comandos
a)Criaccedilatildeo de dados
c()funccedilatildeo geneacuterica para combinar argumentos com o formando de um vetor fromto gera uma sequecircnce ldquordquo tem prioridade de operator pe13 + 1 is ldquo234rdquo
seq(fromtoby) gera uma sequecircncia by= especifica incremento
length= especifica um comprimento desejado
rep(xtimes) replicate x onuacutemero times de vezes use each= para repetir cada
elemento de x rep(c(123)2) gera 1 2 3 1 2 3 rep(c(12)each=2) gera 1 1 2 2
matrix(xnrow=ncol=) matrix elementos de x se reciclam caso x
rbind()combina vetores em linhas num estrutura de matrizes de dados
cbind()combina vetores em colunas num estrutura de matrizes de dados
array(xdim=) matriz com dados x especificar dimensotildees como dim=c(342)
elementos de x se reciclam caso x natildeo seja suficientemente grande
factor(xlevels=) codifica um vetor x como um fator gl(nklength=nklabels=1n) gerar niacuteveis (fatores) especificando
o padratildeo de seus niacuteveis k eacute o nuacutemero de niacuteveis e n eacute o nuacutemero de repeticcedilotildees
dataframe() criar um banco de dados Por exemplo
dataframe(v=14ch=c(gBcasad)n=5)
list()criar uma lista de argumentos Por exemplo list(a=c(12)b=hic=3i)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5361
A2ndashResumo de comandos
b) Informaccedilatildeo de uma Variaacutevellength(x) nuacutemero de elementos em x
dim(x) Obter ou definir a dimensatildeo de um objeto dim (x) = c(32)dimnames(x) Obter ou definir os nomes das dimensotildees de um objeto
nrow(x) nuacutemero de linhas
ncol(x) nuacutemero de colunas
c) Seleccedilatildeo de dados e manipulaccedilatildeochoose(n k) calcula a combinaccedilatildeo de elementos escolhidos entre n
resultando n [(n-k) k]
cut(xbreaks) divide x em intervalos (fatores) breaks eacute o nuacutemero de intervalos de
corte ou um vetor com os valores especiacuteficos
table(x) retorna uma tabela com as quantidades dos diferentes valores de x
(tipicamente para variaacuteveis dos tipos inteiros ou fatores)
sample(x size) retira aleatoriamente com e sem reposiccedilatildeo elementos detamanho SIZE do vetor x a opccedilatildeo replace = TRUE permite a retirada com reposiccedilatildeo
proptable(xmargin=) transforma a tabela como tabela de propoccedilatildeo
marginal margin=1 (com relaccedilatildeo as linhas) margin=2 (com relaccedilatildeo as colunas)
sort(x) Classifica os elementos de x em ordem crescente para classificar em ordem
decrescente rev(sort(x))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5461
A2ndashResumo de comandosd) Estatiacutesticas e operaccedilotildees matemaacuteticasmean(x) media dos elementos de x
median(x) mediana dos elementos de x
quantile(xprobs=) quantis de x correspondendo a uma dada probabilidadevar(x) ou cov(x) variacircncia dos elementos de x (calculado com n-1)
se x eacute uma matriz a matriz de covariacircncia eacute calculada
sd(x) desvio padracirco de of x
cor(x) matriz de correlaccedilatildeo de x se x for uma matriz ou (1 se x eacute um vector)
cor(x y) correlaccedilatildeo linear entre X e Y ou matriz de correlaccedilatildeo se eles satildeo matrizes
round(x n) arredonda os elementos de x para n casas decimais sum x soma os e emen os e x
prod(x) multilica os elementos de x
max(x) acha o maacuteximo dos elementos de x
min(x) acha o miacutenimo dos elementos de x
range(x) equivalente a c(min(x)max(x)
cumsum(x) um vetor onde o eacutesimo elemento eacute a soma de x[1] ateacute x[i]cumprod(x) um vetor onde o eacutesimo elemento eacute o produto de x[1] ateacute x[i]
cummin(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
cummax(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
sincostanasinacosatanatan2loglog10exp)
log(x base) calcula o logaritmo de x na base=base
weightedmean(x w) media ponderada de x com peso= w
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5561
A2ndashResumo de comandos
e) Corte e extraccedilatildeo de dadosindexaccedilatildeo de Vetores
x[n] n-eacutesimo elemento do vetor
x[-n] todos menos o n-eacutesimo elemento
x[1n] os primeiros n elemento
x[-(1n)] elementos de n+1 ateacute o final
x[c(432)] elementos especificados
x[y gt 5] todo elementos de onde os valores de y satildeo maiores que 5
x x gt 3 amp x lt 5 todo elementos entre 3 e 5
x[nome] elemento denominado nome
indexaccedilatildeo de Matrizes
x[ij] elemento na linha i coluna j
x[i] linha i
x[j] coluna j
x[c(13)] colunas 1 and 3
x[nome] linha nomeada nome
indexaccedilatildeo de data frames
x[[nome]] coluna chamada nome
x$nome equivalente a coluna chamada nome
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5661
A2ndashResumo de comandos
f) Operaccedilatildeo com Matrizest(x) transposta da matrix x
diag(x) retira a diagonal da matrix x
multiplicaccedilatildeo matricial
solve(ab) resove a equaccedilatildeo a x = b em relaccedilatildeo a x
solve(a) matriz inversa de a
rowSum(x) soma das linhas da matrix x
colSum(x) soma das colunas da matrix x
rowMeans x meacutedia das linhas da matrix x
colMeans(x) id meacutedia das colunas da matrix x
g) Graacuteficos (Plotting)plot(x y) diagrama de disperccedilatildeo plot dos pares (xy) num sistema de eixos
coordenadoshist(x) histogram dasfrequecircncias of x
barplot(x) graacutefico de barras of x usar horiz=T ara barras horizontal
pie(x) graacutefico de setores (pie-chart)
boxplot(x)
qqnorm(x) quantis de x em relaccedilatildeo aos valores esperados de uma dist Normal
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5761
A2ndashResumo de comandosparametros dos commando de Graacutefico
type=p especifica o tipo de plot p pontos l linhas b pontos
ligados por linhas o idecircntico mas as linhas passam sobre os pontos h
linhas verticais s escada (steps) os dados satildeo representados pelas alturasverticais
xlim= ylim= especifica os limites inferiores e superiores dos eixos por exemplocom xlim=c(1 10) ou xlim=range(x)
xlab= ylab= nomeia os eixos o nome deve ser do tipo caracter
main= tiacutetulo principal deve ser do tipo caracter
sub= sub-tiacutetulo (escrito em fonte menor)
podem ser usados como bty(tipo de caixa) lwd (lagura da linha) lty (tipo delinha) pch(tipo de ponto) cex xaxs yaxs xaxtyaxt
h) Teste de hipoacuteteses
ttest()proptest()
chisqtest()
aov(formula) analysis of variance model
anova(fit) analysis of variance (or deviance) tables for one or more
fitted model objects
Use o commando gt test para procurar todos os testes disponiacuteveis
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5861
A2ndashResumo de comandos
i) Programmingfunction( arglist ) expr para definer uma funccedilatildeo
return(value)
if(cond) expr
if(cond) consexpr else altexpr
for(var in seq) expr
while(cond) expr
re eat ex r
break
Usar chaves entre commandos dlimitando o iniacutecio e o fim de um grupo decomandos
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5961
A2ndashResumo de comandos
j) Commandos auxiliaries em Graacuteficospoints(x y) adiciona pontos (a opccedilatildeo type= pode ser usada)
lines(x y) adiciona linhas (a opccedilatildeo type= pode ser usada)text(x y labels ) adiciona texto na coordenada (xy) um uso tiacutepico eacute
plot(x y type=n) text(x ynames)
segments(x0 y0 x1 y1) desenha linhas do ponto (x0 y0) ao (x1 y1)
arrows(x0 y0 x1 y1 angle= 30 code=2) desenha seta do ponto
(x0 y0) ao (x1 y1)
abline(ab) desenha uma reta de inclinaccedilatildeo b e intercepto a
abline(v=x) desenha uma reta vertical em x
abline(lsfit(xy)) desenha uma reta da regressatildeo feita em lsfit(xy)
rect(x1 y1 x2 y2) desenha um retacircngulo que a esquerda inferior tem coordenadas(x1 y1) e o limite da direita superiores (x2 y2)
polygon(x y) desenha um poliacutegono que une os pontos com coordenadas X e Y
legend(x y legend) Acrescenta a lenda no ponto (x y) com os siacutembolos
dada pela legend
title()adiciona um tiacutetulo e opcionalmente um sub-tiacutetulo
axis(side) acrescenta um eixo na parte inferior (side = 1) agrave esquerda (2) na partesuperior (3) ou agrave direita (4)
box()desenhar uma caixa em torno do plot
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6061
A2ndashResumo de comandos
k) Comando par (Graphical parameters)Todos estes comando podem ser definidos a niacutevel global com o par () que
especifica os paracircmetros mas tambeacutem muitos podem ser usados comoparametros dos commando de Graacutefico
mfcol vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em colunas
mfrow vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em linhas(matrix for row)
bty controla o tipo de caixa desenhada ao redor do enredo valores permitidos satildeo
o l 7 c u ou se bt =n a caixa natildeo eacute desenhada
lty controla o tipo de linhas pode ser um inteiro ou string (1 solid 2 dashed 3dotted 4 dotdash 5 longdash 6twodash) ou uma string de ateacuteoito caracteres (entre 0 e 9) que especifica o comprimento em pontos oupixels dos elementos desenhados e os espaccedilos em branco por exemplolty=rdquo44rdquo equivale a lty=2
lwd nuacutemero que controla a largura das linhas default 1pch controla o tipo de siacutembolo pode tambeacutem ser um nuacutemero inteiro entre 1 e 25
ps um inteiro que controla o tamanho em pontos de textos e siacutembolos
pty um caracter que especifica o tipo da regiatildeo s quadrado m maacuteximal
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6161
A2ndashResumo de comandos
l) Input and outputreadtable(file) lecirc um arquivo em formato de tabela e cria um quadro de dados a
partir dele o separador default = eacute espaccedilo em branco header = TRUE ler a
primeira linha como um cabeccedilalho de nomes de coluna asis = TRUE paraevitar aque um vetore de caracteres seja convertido em factores usocommentchar = para evitar seja interpretado como um comentaacuteriouso skip = n para pular n linhas antes da leitura de dados consulte a ajudapara as opccedilotildees de linha de nomeaccedilatildeo o tratamento NA e outros
readcsv(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por viacutergulas
readdelim(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por tabulaccedilotildees
readfwf(filewidthsheader=FALSEsep= asis=FALSE)
ler uma tabela de dados em formato fix de largura m para um dataframe widthseacute um vetor inteiro informando os tamanhos dos campos
sink(file) saiacuteda de todos os comandos para um arquivo ateacute aparecer um comando
sink () que desliga writetable(x file=rownames=Tcolnames=Tsep= ) imprime x apoacutes a
conversatildeo para banco de dados
save(file) guarda os objetos especificados () no formato XDR
load()carregar o conjunto de dados salvos com o comando save
data(x) carrega um conjunto de dados especificado
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4761
A1) ndash Pag 52 ndash Figura 25X= c(184114821789235159118762592403190408372147328526471687
09642871437079238215753399242122530314859149806)y =c(01837012540193301620014230140604568022870231400861019960235302186012798991801254018210244160823
0147764068011818941403474539680150133247023685518102146187520214097090257291227
036282905401406510810113849399)plot(x y xlim=c(07) ylim=c(05) pch=16 bty=l xlab=Renda per capita
ylab=Telefonia Fixa per capita)
abline(lsfit(xy))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4861
A1) ndash Pag 109 ndash Figura 45
x=020
y1=dpois(x1) y2=dpois(x3) y3=dpois(x10)names(y1)=x names(y2)=x names(y3)=xpar(mfrow=c(13))plot(y1ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=1)plot(y2ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=3)plot(y3ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=10)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4961
A1) ndash Pag 118 ndash Figura 412
x=seq(010001)
plot(xdexp(x 12) type=l xlim=c(012) ylim=c(01) bty=l ylab=f(x) eF(x))for(i in seq(0 25 001)) segments(i 0 i dexp(i12) col=lightgrey)abline(v=0 h=0)points(xdexp(x 12) type=l lwd=2 bty=l)points(xpexp(x 12) lwd=2 type=l)segments(250 25pexp(2512))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5061
A1) ndash Pag 163 ndash Figura 68
plot(p xlim=c(618) ylim=c(016) type=n bty=l xaxt=n xlab= ylab=
cexaxis=6)for (i in 1015) rect(i-50 i+5 dbinom(i304) col=lightgrey) lty=2)segments(i0idbinom(i304) lty=2)
x=seq(61801) lines(x dnorm(x12sqrt(72)) lwd=2)x=seq(61801) lines(x dnorm(x12sqrt(72)) lwd=2)
axis(1 916 cexaxis=9) ax s seq cexax s=
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5161
A1) ndash Pag 198 ndash Figura 78
x1=seq(-4402)plot(x1dnorm(x1) type=l lwd=3 xlab= ylab= )lines(x1 dt(x11)) lines(x1 dt(x12)) lines(x1 dt(x15))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5261
A2ndashResumo de comandos
a)Criaccedilatildeo de dados
c()funccedilatildeo geneacuterica para combinar argumentos com o formando de um vetor fromto gera uma sequecircnce ldquordquo tem prioridade de operator pe13 + 1 is ldquo234rdquo
seq(fromtoby) gera uma sequecircncia by= especifica incremento
length= especifica um comprimento desejado
rep(xtimes) replicate x onuacutemero times de vezes use each= para repetir cada
elemento de x rep(c(123)2) gera 1 2 3 1 2 3 rep(c(12)each=2) gera 1 1 2 2
matrix(xnrow=ncol=) matrix elementos de x se reciclam caso x
rbind()combina vetores em linhas num estrutura de matrizes de dados
cbind()combina vetores em colunas num estrutura de matrizes de dados
array(xdim=) matriz com dados x especificar dimensotildees como dim=c(342)
elementos de x se reciclam caso x natildeo seja suficientemente grande
factor(xlevels=) codifica um vetor x como um fator gl(nklength=nklabels=1n) gerar niacuteveis (fatores) especificando
o padratildeo de seus niacuteveis k eacute o nuacutemero de niacuteveis e n eacute o nuacutemero de repeticcedilotildees
dataframe() criar um banco de dados Por exemplo
dataframe(v=14ch=c(gBcasad)n=5)
list()criar uma lista de argumentos Por exemplo list(a=c(12)b=hic=3i)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5361
A2ndashResumo de comandos
b) Informaccedilatildeo de uma Variaacutevellength(x) nuacutemero de elementos em x
dim(x) Obter ou definir a dimensatildeo de um objeto dim (x) = c(32)dimnames(x) Obter ou definir os nomes das dimensotildees de um objeto
nrow(x) nuacutemero de linhas
ncol(x) nuacutemero de colunas
c) Seleccedilatildeo de dados e manipulaccedilatildeochoose(n k) calcula a combinaccedilatildeo de elementos escolhidos entre n
resultando n [(n-k) k]
cut(xbreaks) divide x em intervalos (fatores) breaks eacute o nuacutemero de intervalos de
corte ou um vetor com os valores especiacuteficos
table(x) retorna uma tabela com as quantidades dos diferentes valores de x
(tipicamente para variaacuteveis dos tipos inteiros ou fatores)
sample(x size) retira aleatoriamente com e sem reposiccedilatildeo elementos detamanho SIZE do vetor x a opccedilatildeo replace = TRUE permite a retirada com reposiccedilatildeo
proptable(xmargin=) transforma a tabela como tabela de propoccedilatildeo
marginal margin=1 (com relaccedilatildeo as linhas) margin=2 (com relaccedilatildeo as colunas)
sort(x) Classifica os elementos de x em ordem crescente para classificar em ordem
decrescente rev(sort(x))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5461
A2ndashResumo de comandosd) Estatiacutesticas e operaccedilotildees matemaacuteticasmean(x) media dos elementos de x
median(x) mediana dos elementos de x
quantile(xprobs=) quantis de x correspondendo a uma dada probabilidadevar(x) ou cov(x) variacircncia dos elementos de x (calculado com n-1)
se x eacute uma matriz a matriz de covariacircncia eacute calculada
sd(x) desvio padracirco de of x
cor(x) matriz de correlaccedilatildeo de x se x for uma matriz ou (1 se x eacute um vector)
cor(x y) correlaccedilatildeo linear entre X e Y ou matriz de correlaccedilatildeo se eles satildeo matrizes
round(x n) arredonda os elementos de x para n casas decimais sum x soma os e emen os e x
prod(x) multilica os elementos de x
max(x) acha o maacuteximo dos elementos de x
min(x) acha o miacutenimo dos elementos de x
range(x) equivalente a c(min(x)max(x)
cumsum(x) um vetor onde o eacutesimo elemento eacute a soma de x[1] ateacute x[i]cumprod(x) um vetor onde o eacutesimo elemento eacute o produto de x[1] ateacute x[i]
cummin(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
cummax(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
sincostanasinacosatanatan2loglog10exp)
log(x base) calcula o logaritmo de x na base=base
weightedmean(x w) media ponderada de x com peso= w
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5561
A2ndashResumo de comandos
e) Corte e extraccedilatildeo de dadosindexaccedilatildeo de Vetores
x[n] n-eacutesimo elemento do vetor
x[-n] todos menos o n-eacutesimo elemento
x[1n] os primeiros n elemento
x[-(1n)] elementos de n+1 ateacute o final
x[c(432)] elementos especificados
x[y gt 5] todo elementos de onde os valores de y satildeo maiores que 5
x x gt 3 amp x lt 5 todo elementos entre 3 e 5
x[nome] elemento denominado nome
indexaccedilatildeo de Matrizes
x[ij] elemento na linha i coluna j
x[i] linha i
x[j] coluna j
x[c(13)] colunas 1 and 3
x[nome] linha nomeada nome
indexaccedilatildeo de data frames
x[[nome]] coluna chamada nome
x$nome equivalente a coluna chamada nome
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5661
A2ndashResumo de comandos
f) Operaccedilatildeo com Matrizest(x) transposta da matrix x
diag(x) retira a diagonal da matrix x
multiplicaccedilatildeo matricial
solve(ab) resove a equaccedilatildeo a x = b em relaccedilatildeo a x
solve(a) matriz inversa de a
rowSum(x) soma das linhas da matrix x
colSum(x) soma das colunas da matrix x
rowMeans x meacutedia das linhas da matrix x
colMeans(x) id meacutedia das colunas da matrix x
g) Graacuteficos (Plotting)plot(x y) diagrama de disperccedilatildeo plot dos pares (xy) num sistema de eixos
coordenadoshist(x) histogram dasfrequecircncias of x
barplot(x) graacutefico de barras of x usar horiz=T ara barras horizontal
pie(x) graacutefico de setores (pie-chart)
boxplot(x)
qqnorm(x) quantis de x em relaccedilatildeo aos valores esperados de uma dist Normal
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5761
A2ndashResumo de comandosparametros dos commando de Graacutefico
type=p especifica o tipo de plot p pontos l linhas b pontos
ligados por linhas o idecircntico mas as linhas passam sobre os pontos h
linhas verticais s escada (steps) os dados satildeo representados pelas alturasverticais
xlim= ylim= especifica os limites inferiores e superiores dos eixos por exemplocom xlim=c(1 10) ou xlim=range(x)
xlab= ylab= nomeia os eixos o nome deve ser do tipo caracter
main= tiacutetulo principal deve ser do tipo caracter
sub= sub-tiacutetulo (escrito em fonte menor)
podem ser usados como bty(tipo de caixa) lwd (lagura da linha) lty (tipo delinha) pch(tipo de ponto) cex xaxs yaxs xaxtyaxt
h) Teste de hipoacuteteses
ttest()proptest()
chisqtest()
aov(formula) analysis of variance model
anova(fit) analysis of variance (or deviance) tables for one or more
fitted model objects
Use o commando gt test para procurar todos os testes disponiacuteveis
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5861
A2ndashResumo de comandos
i) Programmingfunction( arglist ) expr para definer uma funccedilatildeo
return(value)
if(cond) expr
if(cond) consexpr else altexpr
for(var in seq) expr
while(cond) expr
re eat ex r
break
Usar chaves entre commandos dlimitando o iniacutecio e o fim de um grupo decomandos
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5961
A2ndashResumo de comandos
j) Commandos auxiliaries em Graacuteficospoints(x y) adiciona pontos (a opccedilatildeo type= pode ser usada)
lines(x y) adiciona linhas (a opccedilatildeo type= pode ser usada)text(x y labels ) adiciona texto na coordenada (xy) um uso tiacutepico eacute
plot(x y type=n) text(x ynames)
segments(x0 y0 x1 y1) desenha linhas do ponto (x0 y0) ao (x1 y1)
arrows(x0 y0 x1 y1 angle= 30 code=2) desenha seta do ponto
(x0 y0) ao (x1 y1)
abline(ab) desenha uma reta de inclinaccedilatildeo b e intercepto a
abline(v=x) desenha uma reta vertical em x
abline(lsfit(xy)) desenha uma reta da regressatildeo feita em lsfit(xy)
rect(x1 y1 x2 y2) desenha um retacircngulo que a esquerda inferior tem coordenadas(x1 y1) e o limite da direita superiores (x2 y2)
polygon(x y) desenha um poliacutegono que une os pontos com coordenadas X e Y
legend(x y legend) Acrescenta a lenda no ponto (x y) com os siacutembolos
dada pela legend
title()adiciona um tiacutetulo e opcionalmente um sub-tiacutetulo
axis(side) acrescenta um eixo na parte inferior (side = 1) agrave esquerda (2) na partesuperior (3) ou agrave direita (4)
box()desenhar uma caixa em torno do plot
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6061
A2ndashResumo de comandos
k) Comando par (Graphical parameters)Todos estes comando podem ser definidos a niacutevel global com o par () que
especifica os paracircmetros mas tambeacutem muitos podem ser usados comoparametros dos commando de Graacutefico
mfcol vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em colunas
mfrow vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em linhas(matrix for row)
bty controla o tipo de caixa desenhada ao redor do enredo valores permitidos satildeo
o l 7 c u ou se bt =n a caixa natildeo eacute desenhada
lty controla o tipo de linhas pode ser um inteiro ou string (1 solid 2 dashed 3dotted 4 dotdash 5 longdash 6twodash) ou uma string de ateacuteoito caracteres (entre 0 e 9) que especifica o comprimento em pontos oupixels dos elementos desenhados e os espaccedilos em branco por exemplolty=rdquo44rdquo equivale a lty=2
lwd nuacutemero que controla a largura das linhas default 1pch controla o tipo de siacutembolo pode tambeacutem ser um nuacutemero inteiro entre 1 e 25
ps um inteiro que controla o tamanho em pontos de textos e siacutembolos
pty um caracter que especifica o tipo da regiatildeo s quadrado m maacuteximal
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6161
A2ndashResumo de comandos
l) Input and outputreadtable(file) lecirc um arquivo em formato de tabela e cria um quadro de dados a
partir dele o separador default = eacute espaccedilo em branco header = TRUE ler a
primeira linha como um cabeccedilalho de nomes de coluna asis = TRUE paraevitar aque um vetore de caracteres seja convertido em factores usocommentchar = para evitar seja interpretado como um comentaacuteriouso skip = n para pular n linhas antes da leitura de dados consulte a ajudapara as opccedilotildees de linha de nomeaccedilatildeo o tratamento NA e outros
readcsv(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por viacutergulas
readdelim(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por tabulaccedilotildees
readfwf(filewidthsheader=FALSEsep= asis=FALSE)
ler uma tabela de dados em formato fix de largura m para um dataframe widthseacute um vetor inteiro informando os tamanhos dos campos
sink(file) saiacuteda de todos os comandos para um arquivo ateacute aparecer um comando
sink () que desliga writetable(x file=rownames=Tcolnames=Tsep= ) imprime x apoacutes a
conversatildeo para banco de dados
save(file) guarda os objetos especificados () no formato XDR
load()carregar o conjunto de dados salvos com o comando save
data(x) carrega um conjunto de dados especificado
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4861
A1) ndash Pag 109 ndash Figura 45
x=020
y1=dpois(x1) y2=dpois(x3) y3=dpois(x10)names(y1)=x names(y2)=x names(y3)=xpar(mfrow=c(13))plot(y1ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=1)plot(y2ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=3)plot(y3ylim=c(04) type=h xlim=c(020) lwd=2 bty=l main=λt=10)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4961
A1) ndash Pag 118 ndash Figura 412
x=seq(010001)
plot(xdexp(x 12) type=l xlim=c(012) ylim=c(01) bty=l ylab=f(x) eF(x))for(i in seq(0 25 001)) segments(i 0 i dexp(i12) col=lightgrey)abline(v=0 h=0)points(xdexp(x 12) type=l lwd=2 bty=l)points(xpexp(x 12) lwd=2 type=l)segments(250 25pexp(2512))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5061
A1) ndash Pag 163 ndash Figura 68
plot(p xlim=c(618) ylim=c(016) type=n bty=l xaxt=n xlab= ylab=
cexaxis=6)for (i in 1015) rect(i-50 i+5 dbinom(i304) col=lightgrey) lty=2)segments(i0idbinom(i304) lty=2)
x=seq(61801) lines(x dnorm(x12sqrt(72)) lwd=2)x=seq(61801) lines(x dnorm(x12sqrt(72)) lwd=2)
axis(1 916 cexaxis=9) ax s seq cexax s=
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5161
A1) ndash Pag 198 ndash Figura 78
x1=seq(-4402)plot(x1dnorm(x1) type=l lwd=3 xlab= ylab= )lines(x1 dt(x11)) lines(x1 dt(x12)) lines(x1 dt(x15))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5261
A2ndashResumo de comandos
a)Criaccedilatildeo de dados
c()funccedilatildeo geneacuterica para combinar argumentos com o formando de um vetor fromto gera uma sequecircnce ldquordquo tem prioridade de operator pe13 + 1 is ldquo234rdquo
seq(fromtoby) gera uma sequecircncia by= especifica incremento
length= especifica um comprimento desejado
rep(xtimes) replicate x onuacutemero times de vezes use each= para repetir cada
elemento de x rep(c(123)2) gera 1 2 3 1 2 3 rep(c(12)each=2) gera 1 1 2 2
matrix(xnrow=ncol=) matrix elementos de x se reciclam caso x
rbind()combina vetores em linhas num estrutura de matrizes de dados
cbind()combina vetores em colunas num estrutura de matrizes de dados
array(xdim=) matriz com dados x especificar dimensotildees como dim=c(342)
elementos de x se reciclam caso x natildeo seja suficientemente grande
factor(xlevels=) codifica um vetor x como um fator gl(nklength=nklabels=1n) gerar niacuteveis (fatores) especificando
o padratildeo de seus niacuteveis k eacute o nuacutemero de niacuteveis e n eacute o nuacutemero de repeticcedilotildees
dataframe() criar um banco de dados Por exemplo
dataframe(v=14ch=c(gBcasad)n=5)
list()criar uma lista de argumentos Por exemplo list(a=c(12)b=hic=3i)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5361
A2ndashResumo de comandos
b) Informaccedilatildeo de uma Variaacutevellength(x) nuacutemero de elementos em x
dim(x) Obter ou definir a dimensatildeo de um objeto dim (x) = c(32)dimnames(x) Obter ou definir os nomes das dimensotildees de um objeto
nrow(x) nuacutemero de linhas
ncol(x) nuacutemero de colunas
c) Seleccedilatildeo de dados e manipulaccedilatildeochoose(n k) calcula a combinaccedilatildeo de elementos escolhidos entre n
resultando n [(n-k) k]
cut(xbreaks) divide x em intervalos (fatores) breaks eacute o nuacutemero de intervalos de
corte ou um vetor com os valores especiacuteficos
table(x) retorna uma tabela com as quantidades dos diferentes valores de x
(tipicamente para variaacuteveis dos tipos inteiros ou fatores)
sample(x size) retira aleatoriamente com e sem reposiccedilatildeo elementos detamanho SIZE do vetor x a opccedilatildeo replace = TRUE permite a retirada com reposiccedilatildeo
proptable(xmargin=) transforma a tabela como tabela de propoccedilatildeo
marginal margin=1 (com relaccedilatildeo as linhas) margin=2 (com relaccedilatildeo as colunas)
sort(x) Classifica os elementos de x em ordem crescente para classificar em ordem
decrescente rev(sort(x))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5461
A2ndashResumo de comandosd) Estatiacutesticas e operaccedilotildees matemaacuteticasmean(x) media dos elementos de x
median(x) mediana dos elementos de x
quantile(xprobs=) quantis de x correspondendo a uma dada probabilidadevar(x) ou cov(x) variacircncia dos elementos de x (calculado com n-1)
se x eacute uma matriz a matriz de covariacircncia eacute calculada
sd(x) desvio padracirco de of x
cor(x) matriz de correlaccedilatildeo de x se x for uma matriz ou (1 se x eacute um vector)
cor(x y) correlaccedilatildeo linear entre X e Y ou matriz de correlaccedilatildeo se eles satildeo matrizes
round(x n) arredonda os elementos de x para n casas decimais sum x soma os e emen os e x
prod(x) multilica os elementos de x
max(x) acha o maacuteximo dos elementos de x
min(x) acha o miacutenimo dos elementos de x
range(x) equivalente a c(min(x)max(x)
cumsum(x) um vetor onde o eacutesimo elemento eacute a soma de x[1] ateacute x[i]cumprod(x) um vetor onde o eacutesimo elemento eacute o produto de x[1] ateacute x[i]
cummin(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
cummax(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
sincostanasinacosatanatan2loglog10exp)
log(x base) calcula o logaritmo de x na base=base
weightedmean(x w) media ponderada de x com peso= w
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5561
A2ndashResumo de comandos
e) Corte e extraccedilatildeo de dadosindexaccedilatildeo de Vetores
x[n] n-eacutesimo elemento do vetor
x[-n] todos menos o n-eacutesimo elemento
x[1n] os primeiros n elemento
x[-(1n)] elementos de n+1 ateacute o final
x[c(432)] elementos especificados
x[y gt 5] todo elementos de onde os valores de y satildeo maiores que 5
x x gt 3 amp x lt 5 todo elementos entre 3 e 5
x[nome] elemento denominado nome
indexaccedilatildeo de Matrizes
x[ij] elemento na linha i coluna j
x[i] linha i
x[j] coluna j
x[c(13)] colunas 1 and 3
x[nome] linha nomeada nome
indexaccedilatildeo de data frames
x[[nome]] coluna chamada nome
x$nome equivalente a coluna chamada nome
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5661
A2ndashResumo de comandos
f) Operaccedilatildeo com Matrizest(x) transposta da matrix x
diag(x) retira a diagonal da matrix x
multiplicaccedilatildeo matricial
solve(ab) resove a equaccedilatildeo a x = b em relaccedilatildeo a x
solve(a) matriz inversa de a
rowSum(x) soma das linhas da matrix x
colSum(x) soma das colunas da matrix x
rowMeans x meacutedia das linhas da matrix x
colMeans(x) id meacutedia das colunas da matrix x
g) Graacuteficos (Plotting)plot(x y) diagrama de disperccedilatildeo plot dos pares (xy) num sistema de eixos
coordenadoshist(x) histogram dasfrequecircncias of x
barplot(x) graacutefico de barras of x usar horiz=T ara barras horizontal
pie(x) graacutefico de setores (pie-chart)
boxplot(x)
qqnorm(x) quantis de x em relaccedilatildeo aos valores esperados de uma dist Normal
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5761
A2ndashResumo de comandosparametros dos commando de Graacutefico
type=p especifica o tipo de plot p pontos l linhas b pontos
ligados por linhas o idecircntico mas as linhas passam sobre os pontos h
linhas verticais s escada (steps) os dados satildeo representados pelas alturasverticais
xlim= ylim= especifica os limites inferiores e superiores dos eixos por exemplocom xlim=c(1 10) ou xlim=range(x)
xlab= ylab= nomeia os eixos o nome deve ser do tipo caracter
main= tiacutetulo principal deve ser do tipo caracter
sub= sub-tiacutetulo (escrito em fonte menor)
podem ser usados como bty(tipo de caixa) lwd (lagura da linha) lty (tipo delinha) pch(tipo de ponto) cex xaxs yaxs xaxtyaxt
h) Teste de hipoacuteteses
ttest()proptest()
chisqtest()
aov(formula) analysis of variance model
anova(fit) analysis of variance (or deviance) tables for one or more
fitted model objects
Use o commando gt test para procurar todos os testes disponiacuteveis
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5861
A2ndashResumo de comandos
i) Programmingfunction( arglist ) expr para definer uma funccedilatildeo
return(value)
if(cond) expr
if(cond) consexpr else altexpr
for(var in seq) expr
while(cond) expr
re eat ex r
break
Usar chaves entre commandos dlimitando o iniacutecio e o fim de um grupo decomandos
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5961
A2ndashResumo de comandos
j) Commandos auxiliaries em Graacuteficospoints(x y) adiciona pontos (a opccedilatildeo type= pode ser usada)
lines(x y) adiciona linhas (a opccedilatildeo type= pode ser usada)text(x y labels ) adiciona texto na coordenada (xy) um uso tiacutepico eacute
plot(x y type=n) text(x ynames)
segments(x0 y0 x1 y1) desenha linhas do ponto (x0 y0) ao (x1 y1)
arrows(x0 y0 x1 y1 angle= 30 code=2) desenha seta do ponto
(x0 y0) ao (x1 y1)
abline(ab) desenha uma reta de inclinaccedilatildeo b e intercepto a
abline(v=x) desenha uma reta vertical em x
abline(lsfit(xy)) desenha uma reta da regressatildeo feita em lsfit(xy)
rect(x1 y1 x2 y2) desenha um retacircngulo que a esquerda inferior tem coordenadas(x1 y1) e o limite da direita superiores (x2 y2)
polygon(x y) desenha um poliacutegono que une os pontos com coordenadas X e Y
legend(x y legend) Acrescenta a lenda no ponto (x y) com os siacutembolos
dada pela legend
title()adiciona um tiacutetulo e opcionalmente um sub-tiacutetulo
axis(side) acrescenta um eixo na parte inferior (side = 1) agrave esquerda (2) na partesuperior (3) ou agrave direita (4)
box()desenhar uma caixa em torno do plot
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6061
A2ndashResumo de comandos
k) Comando par (Graphical parameters)Todos estes comando podem ser definidos a niacutevel global com o par () que
especifica os paracircmetros mas tambeacutem muitos podem ser usados comoparametros dos commando de Graacutefico
mfcol vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em colunas
mfrow vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em linhas(matrix for row)
bty controla o tipo de caixa desenhada ao redor do enredo valores permitidos satildeo
o l 7 c u ou se bt =n a caixa natildeo eacute desenhada
lty controla o tipo de linhas pode ser um inteiro ou string (1 solid 2 dashed 3dotted 4 dotdash 5 longdash 6twodash) ou uma string de ateacuteoito caracteres (entre 0 e 9) que especifica o comprimento em pontos oupixels dos elementos desenhados e os espaccedilos em branco por exemplolty=rdquo44rdquo equivale a lty=2
lwd nuacutemero que controla a largura das linhas default 1pch controla o tipo de siacutembolo pode tambeacutem ser um nuacutemero inteiro entre 1 e 25
ps um inteiro que controla o tamanho em pontos de textos e siacutembolos
pty um caracter que especifica o tipo da regiatildeo s quadrado m maacuteximal
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6161
A2ndashResumo de comandos
l) Input and outputreadtable(file) lecirc um arquivo em formato de tabela e cria um quadro de dados a
partir dele o separador default = eacute espaccedilo em branco header = TRUE ler a
primeira linha como um cabeccedilalho de nomes de coluna asis = TRUE paraevitar aque um vetore de caracteres seja convertido em factores usocommentchar = para evitar seja interpretado como um comentaacuteriouso skip = n para pular n linhas antes da leitura de dados consulte a ajudapara as opccedilotildees de linha de nomeaccedilatildeo o tratamento NA e outros
readcsv(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por viacutergulas
readdelim(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por tabulaccedilotildees
readfwf(filewidthsheader=FALSEsep= asis=FALSE)
ler uma tabela de dados em formato fix de largura m para um dataframe widthseacute um vetor inteiro informando os tamanhos dos campos
sink(file) saiacuteda de todos os comandos para um arquivo ateacute aparecer um comando
sink () que desliga writetable(x file=rownames=Tcolnames=Tsep= ) imprime x apoacutes a
conversatildeo para banco de dados
save(file) guarda os objetos especificados () no formato XDR
load()carregar o conjunto de dados salvos com o comando save
data(x) carrega um conjunto de dados especificado
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 4961
A1) ndash Pag 118 ndash Figura 412
x=seq(010001)
plot(xdexp(x 12) type=l xlim=c(012) ylim=c(01) bty=l ylab=f(x) eF(x))for(i in seq(0 25 001)) segments(i 0 i dexp(i12) col=lightgrey)abline(v=0 h=0)points(xdexp(x 12) type=l lwd=2 bty=l)points(xpexp(x 12) lwd=2 type=l)segments(250 25pexp(2512))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5061
A1) ndash Pag 163 ndash Figura 68
plot(p xlim=c(618) ylim=c(016) type=n bty=l xaxt=n xlab= ylab=
cexaxis=6)for (i in 1015) rect(i-50 i+5 dbinom(i304) col=lightgrey) lty=2)segments(i0idbinom(i304) lty=2)
x=seq(61801) lines(x dnorm(x12sqrt(72)) lwd=2)x=seq(61801) lines(x dnorm(x12sqrt(72)) lwd=2)
axis(1 916 cexaxis=9) ax s seq cexax s=
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5161
A1) ndash Pag 198 ndash Figura 78
x1=seq(-4402)plot(x1dnorm(x1) type=l lwd=3 xlab= ylab= )lines(x1 dt(x11)) lines(x1 dt(x12)) lines(x1 dt(x15))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5261
A2ndashResumo de comandos
a)Criaccedilatildeo de dados
c()funccedilatildeo geneacuterica para combinar argumentos com o formando de um vetor fromto gera uma sequecircnce ldquordquo tem prioridade de operator pe13 + 1 is ldquo234rdquo
seq(fromtoby) gera uma sequecircncia by= especifica incremento
length= especifica um comprimento desejado
rep(xtimes) replicate x onuacutemero times de vezes use each= para repetir cada
elemento de x rep(c(123)2) gera 1 2 3 1 2 3 rep(c(12)each=2) gera 1 1 2 2
matrix(xnrow=ncol=) matrix elementos de x se reciclam caso x
rbind()combina vetores em linhas num estrutura de matrizes de dados
cbind()combina vetores em colunas num estrutura de matrizes de dados
array(xdim=) matriz com dados x especificar dimensotildees como dim=c(342)
elementos de x se reciclam caso x natildeo seja suficientemente grande
factor(xlevels=) codifica um vetor x como um fator gl(nklength=nklabels=1n) gerar niacuteveis (fatores) especificando
o padratildeo de seus niacuteveis k eacute o nuacutemero de niacuteveis e n eacute o nuacutemero de repeticcedilotildees
dataframe() criar um banco de dados Por exemplo
dataframe(v=14ch=c(gBcasad)n=5)
list()criar uma lista de argumentos Por exemplo list(a=c(12)b=hic=3i)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5361
A2ndashResumo de comandos
b) Informaccedilatildeo de uma Variaacutevellength(x) nuacutemero de elementos em x
dim(x) Obter ou definir a dimensatildeo de um objeto dim (x) = c(32)dimnames(x) Obter ou definir os nomes das dimensotildees de um objeto
nrow(x) nuacutemero de linhas
ncol(x) nuacutemero de colunas
c) Seleccedilatildeo de dados e manipulaccedilatildeochoose(n k) calcula a combinaccedilatildeo de elementos escolhidos entre n
resultando n [(n-k) k]
cut(xbreaks) divide x em intervalos (fatores) breaks eacute o nuacutemero de intervalos de
corte ou um vetor com os valores especiacuteficos
table(x) retorna uma tabela com as quantidades dos diferentes valores de x
(tipicamente para variaacuteveis dos tipos inteiros ou fatores)
sample(x size) retira aleatoriamente com e sem reposiccedilatildeo elementos detamanho SIZE do vetor x a opccedilatildeo replace = TRUE permite a retirada com reposiccedilatildeo
proptable(xmargin=) transforma a tabela como tabela de propoccedilatildeo
marginal margin=1 (com relaccedilatildeo as linhas) margin=2 (com relaccedilatildeo as colunas)
sort(x) Classifica os elementos de x em ordem crescente para classificar em ordem
decrescente rev(sort(x))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5461
A2ndashResumo de comandosd) Estatiacutesticas e operaccedilotildees matemaacuteticasmean(x) media dos elementos de x
median(x) mediana dos elementos de x
quantile(xprobs=) quantis de x correspondendo a uma dada probabilidadevar(x) ou cov(x) variacircncia dos elementos de x (calculado com n-1)
se x eacute uma matriz a matriz de covariacircncia eacute calculada
sd(x) desvio padracirco de of x
cor(x) matriz de correlaccedilatildeo de x se x for uma matriz ou (1 se x eacute um vector)
cor(x y) correlaccedilatildeo linear entre X e Y ou matriz de correlaccedilatildeo se eles satildeo matrizes
round(x n) arredonda os elementos de x para n casas decimais sum x soma os e emen os e x
prod(x) multilica os elementos de x
max(x) acha o maacuteximo dos elementos de x
min(x) acha o miacutenimo dos elementos de x
range(x) equivalente a c(min(x)max(x)
cumsum(x) um vetor onde o eacutesimo elemento eacute a soma de x[1] ateacute x[i]cumprod(x) um vetor onde o eacutesimo elemento eacute o produto de x[1] ateacute x[i]
cummin(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
cummax(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
sincostanasinacosatanatan2loglog10exp)
log(x base) calcula o logaritmo de x na base=base
weightedmean(x w) media ponderada de x com peso= w
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5561
A2ndashResumo de comandos
e) Corte e extraccedilatildeo de dadosindexaccedilatildeo de Vetores
x[n] n-eacutesimo elemento do vetor
x[-n] todos menos o n-eacutesimo elemento
x[1n] os primeiros n elemento
x[-(1n)] elementos de n+1 ateacute o final
x[c(432)] elementos especificados
x[y gt 5] todo elementos de onde os valores de y satildeo maiores que 5
x x gt 3 amp x lt 5 todo elementos entre 3 e 5
x[nome] elemento denominado nome
indexaccedilatildeo de Matrizes
x[ij] elemento na linha i coluna j
x[i] linha i
x[j] coluna j
x[c(13)] colunas 1 and 3
x[nome] linha nomeada nome
indexaccedilatildeo de data frames
x[[nome]] coluna chamada nome
x$nome equivalente a coluna chamada nome
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5661
A2ndashResumo de comandos
f) Operaccedilatildeo com Matrizest(x) transposta da matrix x
diag(x) retira a diagonal da matrix x
multiplicaccedilatildeo matricial
solve(ab) resove a equaccedilatildeo a x = b em relaccedilatildeo a x
solve(a) matriz inversa de a
rowSum(x) soma das linhas da matrix x
colSum(x) soma das colunas da matrix x
rowMeans x meacutedia das linhas da matrix x
colMeans(x) id meacutedia das colunas da matrix x
g) Graacuteficos (Plotting)plot(x y) diagrama de disperccedilatildeo plot dos pares (xy) num sistema de eixos
coordenadoshist(x) histogram dasfrequecircncias of x
barplot(x) graacutefico de barras of x usar horiz=T ara barras horizontal
pie(x) graacutefico de setores (pie-chart)
boxplot(x)
qqnorm(x) quantis de x em relaccedilatildeo aos valores esperados de uma dist Normal
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5761
A2ndashResumo de comandosparametros dos commando de Graacutefico
type=p especifica o tipo de plot p pontos l linhas b pontos
ligados por linhas o idecircntico mas as linhas passam sobre os pontos h
linhas verticais s escada (steps) os dados satildeo representados pelas alturasverticais
xlim= ylim= especifica os limites inferiores e superiores dos eixos por exemplocom xlim=c(1 10) ou xlim=range(x)
xlab= ylab= nomeia os eixos o nome deve ser do tipo caracter
main= tiacutetulo principal deve ser do tipo caracter
sub= sub-tiacutetulo (escrito em fonte menor)
podem ser usados como bty(tipo de caixa) lwd (lagura da linha) lty (tipo delinha) pch(tipo de ponto) cex xaxs yaxs xaxtyaxt
h) Teste de hipoacuteteses
ttest()proptest()
chisqtest()
aov(formula) analysis of variance model
anova(fit) analysis of variance (or deviance) tables for one or more
fitted model objects
Use o commando gt test para procurar todos os testes disponiacuteveis
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5861
A2ndashResumo de comandos
i) Programmingfunction( arglist ) expr para definer uma funccedilatildeo
return(value)
if(cond) expr
if(cond) consexpr else altexpr
for(var in seq) expr
while(cond) expr
re eat ex r
break
Usar chaves entre commandos dlimitando o iniacutecio e o fim de um grupo decomandos
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5961
A2ndashResumo de comandos
j) Commandos auxiliaries em Graacuteficospoints(x y) adiciona pontos (a opccedilatildeo type= pode ser usada)
lines(x y) adiciona linhas (a opccedilatildeo type= pode ser usada)text(x y labels ) adiciona texto na coordenada (xy) um uso tiacutepico eacute
plot(x y type=n) text(x ynames)
segments(x0 y0 x1 y1) desenha linhas do ponto (x0 y0) ao (x1 y1)
arrows(x0 y0 x1 y1 angle= 30 code=2) desenha seta do ponto
(x0 y0) ao (x1 y1)
abline(ab) desenha uma reta de inclinaccedilatildeo b e intercepto a
abline(v=x) desenha uma reta vertical em x
abline(lsfit(xy)) desenha uma reta da regressatildeo feita em lsfit(xy)
rect(x1 y1 x2 y2) desenha um retacircngulo que a esquerda inferior tem coordenadas(x1 y1) e o limite da direita superiores (x2 y2)
polygon(x y) desenha um poliacutegono que une os pontos com coordenadas X e Y
legend(x y legend) Acrescenta a lenda no ponto (x y) com os siacutembolos
dada pela legend
title()adiciona um tiacutetulo e opcionalmente um sub-tiacutetulo
axis(side) acrescenta um eixo na parte inferior (side = 1) agrave esquerda (2) na partesuperior (3) ou agrave direita (4)
box()desenhar uma caixa em torno do plot
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6061
A2ndashResumo de comandos
k) Comando par (Graphical parameters)Todos estes comando podem ser definidos a niacutevel global com o par () que
especifica os paracircmetros mas tambeacutem muitos podem ser usados comoparametros dos commando de Graacutefico
mfcol vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em colunas
mfrow vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em linhas(matrix for row)
bty controla o tipo de caixa desenhada ao redor do enredo valores permitidos satildeo
o l 7 c u ou se bt =n a caixa natildeo eacute desenhada
lty controla o tipo de linhas pode ser um inteiro ou string (1 solid 2 dashed 3dotted 4 dotdash 5 longdash 6twodash) ou uma string de ateacuteoito caracteres (entre 0 e 9) que especifica o comprimento em pontos oupixels dos elementos desenhados e os espaccedilos em branco por exemplolty=rdquo44rdquo equivale a lty=2
lwd nuacutemero que controla a largura das linhas default 1pch controla o tipo de siacutembolo pode tambeacutem ser um nuacutemero inteiro entre 1 e 25
ps um inteiro que controla o tamanho em pontos de textos e siacutembolos
pty um caracter que especifica o tipo da regiatildeo s quadrado m maacuteximal
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6161
A2ndashResumo de comandos
l) Input and outputreadtable(file) lecirc um arquivo em formato de tabela e cria um quadro de dados a
partir dele o separador default = eacute espaccedilo em branco header = TRUE ler a
primeira linha como um cabeccedilalho de nomes de coluna asis = TRUE paraevitar aque um vetore de caracteres seja convertido em factores usocommentchar = para evitar seja interpretado como um comentaacuteriouso skip = n para pular n linhas antes da leitura de dados consulte a ajudapara as opccedilotildees de linha de nomeaccedilatildeo o tratamento NA e outros
readcsv(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por viacutergulas
readdelim(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por tabulaccedilotildees
readfwf(filewidthsheader=FALSEsep= asis=FALSE)
ler uma tabela de dados em formato fix de largura m para um dataframe widthseacute um vetor inteiro informando os tamanhos dos campos
sink(file) saiacuteda de todos os comandos para um arquivo ateacute aparecer um comando
sink () que desliga writetable(x file=rownames=Tcolnames=Tsep= ) imprime x apoacutes a
conversatildeo para banco de dados
save(file) guarda os objetos especificados () no formato XDR
load()carregar o conjunto de dados salvos com o comando save
data(x) carrega um conjunto de dados especificado
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5061
A1) ndash Pag 163 ndash Figura 68
plot(p xlim=c(618) ylim=c(016) type=n bty=l xaxt=n xlab= ylab=
cexaxis=6)for (i in 1015) rect(i-50 i+5 dbinom(i304) col=lightgrey) lty=2)segments(i0idbinom(i304) lty=2)
x=seq(61801) lines(x dnorm(x12sqrt(72)) lwd=2)x=seq(61801) lines(x dnorm(x12sqrt(72)) lwd=2)
axis(1 916 cexaxis=9) ax s seq cexax s=
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5161
A1) ndash Pag 198 ndash Figura 78
x1=seq(-4402)plot(x1dnorm(x1) type=l lwd=3 xlab= ylab= )lines(x1 dt(x11)) lines(x1 dt(x12)) lines(x1 dt(x15))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5261
A2ndashResumo de comandos
a)Criaccedilatildeo de dados
c()funccedilatildeo geneacuterica para combinar argumentos com o formando de um vetor fromto gera uma sequecircnce ldquordquo tem prioridade de operator pe13 + 1 is ldquo234rdquo
seq(fromtoby) gera uma sequecircncia by= especifica incremento
length= especifica um comprimento desejado
rep(xtimes) replicate x onuacutemero times de vezes use each= para repetir cada
elemento de x rep(c(123)2) gera 1 2 3 1 2 3 rep(c(12)each=2) gera 1 1 2 2
matrix(xnrow=ncol=) matrix elementos de x se reciclam caso x
rbind()combina vetores em linhas num estrutura de matrizes de dados
cbind()combina vetores em colunas num estrutura de matrizes de dados
array(xdim=) matriz com dados x especificar dimensotildees como dim=c(342)
elementos de x se reciclam caso x natildeo seja suficientemente grande
factor(xlevels=) codifica um vetor x como um fator gl(nklength=nklabels=1n) gerar niacuteveis (fatores) especificando
o padratildeo de seus niacuteveis k eacute o nuacutemero de niacuteveis e n eacute o nuacutemero de repeticcedilotildees
dataframe() criar um banco de dados Por exemplo
dataframe(v=14ch=c(gBcasad)n=5)
list()criar uma lista de argumentos Por exemplo list(a=c(12)b=hic=3i)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5361
A2ndashResumo de comandos
b) Informaccedilatildeo de uma Variaacutevellength(x) nuacutemero de elementos em x
dim(x) Obter ou definir a dimensatildeo de um objeto dim (x) = c(32)dimnames(x) Obter ou definir os nomes das dimensotildees de um objeto
nrow(x) nuacutemero de linhas
ncol(x) nuacutemero de colunas
c) Seleccedilatildeo de dados e manipulaccedilatildeochoose(n k) calcula a combinaccedilatildeo de elementos escolhidos entre n
resultando n [(n-k) k]
cut(xbreaks) divide x em intervalos (fatores) breaks eacute o nuacutemero de intervalos de
corte ou um vetor com os valores especiacuteficos
table(x) retorna uma tabela com as quantidades dos diferentes valores de x
(tipicamente para variaacuteveis dos tipos inteiros ou fatores)
sample(x size) retira aleatoriamente com e sem reposiccedilatildeo elementos detamanho SIZE do vetor x a opccedilatildeo replace = TRUE permite a retirada com reposiccedilatildeo
proptable(xmargin=) transforma a tabela como tabela de propoccedilatildeo
marginal margin=1 (com relaccedilatildeo as linhas) margin=2 (com relaccedilatildeo as colunas)
sort(x) Classifica os elementos de x em ordem crescente para classificar em ordem
decrescente rev(sort(x))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5461
A2ndashResumo de comandosd) Estatiacutesticas e operaccedilotildees matemaacuteticasmean(x) media dos elementos de x
median(x) mediana dos elementos de x
quantile(xprobs=) quantis de x correspondendo a uma dada probabilidadevar(x) ou cov(x) variacircncia dos elementos de x (calculado com n-1)
se x eacute uma matriz a matriz de covariacircncia eacute calculada
sd(x) desvio padracirco de of x
cor(x) matriz de correlaccedilatildeo de x se x for uma matriz ou (1 se x eacute um vector)
cor(x y) correlaccedilatildeo linear entre X e Y ou matriz de correlaccedilatildeo se eles satildeo matrizes
round(x n) arredonda os elementos de x para n casas decimais sum x soma os e emen os e x
prod(x) multilica os elementos de x
max(x) acha o maacuteximo dos elementos de x
min(x) acha o miacutenimo dos elementos de x
range(x) equivalente a c(min(x)max(x)
cumsum(x) um vetor onde o eacutesimo elemento eacute a soma de x[1] ateacute x[i]cumprod(x) um vetor onde o eacutesimo elemento eacute o produto de x[1] ateacute x[i]
cummin(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
cummax(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
sincostanasinacosatanatan2loglog10exp)
log(x base) calcula o logaritmo de x na base=base
weightedmean(x w) media ponderada de x com peso= w
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5561
A2ndashResumo de comandos
e) Corte e extraccedilatildeo de dadosindexaccedilatildeo de Vetores
x[n] n-eacutesimo elemento do vetor
x[-n] todos menos o n-eacutesimo elemento
x[1n] os primeiros n elemento
x[-(1n)] elementos de n+1 ateacute o final
x[c(432)] elementos especificados
x[y gt 5] todo elementos de onde os valores de y satildeo maiores que 5
x x gt 3 amp x lt 5 todo elementos entre 3 e 5
x[nome] elemento denominado nome
indexaccedilatildeo de Matrizes
x[ij] elemento na linha i coluna j
x[i] linha i
x[j] coluna j
x[c(13)] colunas 1 and 3
x[nome] linha nomeada nome
indexaccedilatildeo de data frames
x[[nome]] coluna chamada nome
x$nome equivalente a coluna chamada nome
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5661
A2ndashResumo de comandos
f) Operaccedilatildeo com Matrizest(x) transposta da matrix x
diag(x) retira a diagonal da matrix x
multiplicaccedilatildeo matricial
solve(ab) resove a equaccedilatildeo a x = b em relaccedilatildeo a x
solve(a) matriz inversa de a
rowSum(x) soma das linhas da matrix x
colSum(x) soma das colunas da matrix x
rowMeans x meacutedia das linhas da matrix x
colMeans(x) id meacutedia das colunas da matrix x
g) Graacuteficos (Plotting)plot(x y) diagrama de disperccedilatildeo plot dos pares (xy) num sistema de eixos
coordenadoshist(x) histogram dasfrequecircncias of x
barplot(x) graacutefico de barras of x usar horiz=T ara barras horizontal
pie(x) graacutefico de setores (pie-chart)
boxplot(x)
qqnorm(x) quantis de x em relaccedilatildeo aos valores esperados de uma dist Normal
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5761
A2ndashResumo de comandosparametros dos commando de Graacutefico
type=p especifica o tipo de plot p pontos l linhas b pontos
ligados por linhas o idecircntico mas as linhas passam sobre os pontos h
linhas verticais s escada (steps) os dados satildeo representados pelas alturasverticais
xlim= ylim= especifica os limites inferiores e superiores dos eixos por exemplocom xlim=c(1 10) ou xlim=range(x)
xlab= ylab= nomeia os eixos o nome deve ser do tipo caracter
main= tiacutetulo principal deve ser do tipo caracter
sub= sub-tiacutetulo (escrito em fonte menor)
podem ser usados como bty(tipo de caixa) lwd (lagura da linha) lty (tipo delinha) pch(tipo de ponto) cex xaxs yaxs xaxtyaxt
h) Teste de hipoacuteteses
ttest()proptest()
chisqtest()
aov(formula) analysis of variance model
anova(fit) analysis of variance (or deviance) tables for one or more
fitted model objects
Use o commando gt test para procurar todos os testes disponiacuteveis
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5861
A2ndashResumo de comandos
i) Programmingfunction( arglist ) expr para definer uma funccedilatildeo
return(value)
if(cond) expr
if(cond) consexpr else altexpr
for(var in seq) expr
while(cond) expr
re eat ex r
break
Usar chaves entre commandos dlimitando o iniacutecio e o fim de um grupo decomandos
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5961
A2ndashResumo de comandos
j) Commandos auxiliaries em Graacuteficospoints(x y) adiciona pontos (a opccedilatildeo type= pode ser usada)
lines(x y) adiciona linhas (a opccedilatildeo type= pode ser usada)text(x y labels ) adiciona texto na coordenada (xy) um uso tiacutepico eacute
plot(x y type=n) text(x ynames)
segments(x0 y0 x1 y1) desenha linhas do ponto (x0 y0) ao (x1 y1)
arrows(x0 y0 x1 y1 angle= 30 code=2) desenha seta do ponto
(x0 y0) ao (x1 y1)
abline(ab) desenha uma reta de inclinaccedilatildeo b e intercepto a
abline(v=x) desenha uma reta vertical em x
abline(lsfit(xy)) desenha uma reta da regressatildeo feita em lsfit(xy)
rect(x1 y1 x2 y2) desenha um retacircngulo que a esquerda inferior tem coordenadas(x1 y1) e o limite da direita superiores (x2 y2)
polygon(x y) desenha um poliacutegono que une os pontos com coordenadas X e Y
legend(x y legend) Acrescenta a lenda no ponto (x y) com os siacutembolos
dada pela legend
title()adiciona um tiacutetulo e opcionalmente um sub-tiacutetulo
axis(side) acrescenta um eixo na parte inferior (side = 1) agrave esquerda (2) na partesuperior (3) ou agrave direita (4)
box()desenhar uma caixa em torno do plot
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6061
A2ndashResumo de comandos
k) Comando par (Graphical parameters)Todos estes comando podem ser definidos a niacutevel global com o par () que
especifica os paracircmetros mas tambeacutem muitos podem ser usados comoparametros dos commando de Graacutefico
mfcol vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em colunas
mfrow vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em linhas(matrix for row)
bty controla o tipo de caixa desenhada ao redor do enredo valores permitidos satildeo
o l 7 c u ou se bt =n a caixa natildeo eacute desenhada
lty controla o tipo de linhas pode ser um inteiro ou string (1 solid 2 dashed 3dotted 4 dotdash 5 longdash 6twodash) ou uma string de ateacuteoito caracteres (entre 0 e 9) que especifica o comprimento em pontos oupixels dos elementos desenhados e os espaccedilos em branco por exemplolty=rdquo44rdquo equivale a lty=2
lwd nuacutemero que controla a largura das linhas default 1pch controla o tipo de siacutembolo pode tambeacutem ser um nuacutemero inteiro entre 1 e 25
ps um inteiro que controla o tamanho em pontos de textos e siacutembolos
pty um caracter que especifica o tipo da regiatildeo s quadrado m maacuteximal
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6161
A2ndashResumo de comandos
l) Input and outputreadtable(file) lecirc um arquivo em formato de tabela e cria um quadro de dados a
partir dele o separador default = eacute espaccedilo em branco header = TRUE ler a
primeira linha como um cabeccedilalho de nomes de coluna asis = TRUE paraevitar aque um vetore de caracteres seja convertido em factores usocommentchar = para evitar seja interpretado como um comentaacuteriouso skip = n para pular n linhas antes da leitura de dados consulte a ajudapara as opccedilotildees de linha de nomeaccedilatildeo o tratamento NA e outros
readcsv(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por viacutergulas
readdelim(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por tabulaccedilotildees
readfwf(filewidthsheader=FALSEsep= asis=FALSE)
ler uma tabela de dados em formato fix de largura m para um dataframe widthseacute um vetor inteiro informando os tamanhos dos campos
sink(file) saiacuteda de todos os comandos para um arquivo ateacute aparecer um comando
sink () que desliga writetable(x file=rownames=Tcolnames=Tsep= ) imprime x apoacutes a
conversatildeo para banco de dados
save(file) guarda os objetos especificados () no formato XDR
load()carregar o conjunto de dados salvos com o comando save
data(x) carrega um conjunto de dados especificado
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5161
A1) ndash Pag 198 ndash Figura 78
x1=seq(-4402)plot(x1dnorm(x1) type=l lwd=3 xlab= ylab= )lines(x1 dt(x11)) lines(x1 dt(x12)) lines(x1 dt(x15))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5261
A2ndashResumo de comandos
a)Criaccedilatildeo de dados
c()funccedilatildeo geneacuterica para combinar argumentos com o formando de um vetor fromto gera uma sequecircnce ldquordquo tem prioridade de operator pe13 + 1 is ldquo234rdquo
seq(fromtoby) gera uma sequecircncia by= especifica incremento
length= especifica um comprimento desejado
rep(xtimes) replicate x onuacutemero times de vezes use each= para repetir cada
elemento de x rep(c(123)2) gera 1 2 3 1 2 3 rep(c(12)each=2) gera 1 1 2 2
matrix(xnrow=ncol=) matrix elementos de x se reciclam caso x
rbind()combina vetores em linhas num estrutura de matrizes de dados
cbind()combina vetores em colunas num estrutura de matrizes de dados
array(xdim=) matriz com dados x especificar dimensotildees como dim=c(342)
elementos de x se reciclam caso x natildeo seja suficientemente grande
factor(xlevels=) codifica um vetor x como um fator gl(nklength=nklabels=1n) gerar niacuteveis (fatores) especificando
o padratildeo de seus niacuteveis k eacute o nuacutemero de niacuteveis e n eacute o nuacutemero de repeticcedilotildees
dataframe() criar um banco de dados Por exemplo
dataframe(v=14ch=c(gBcasad)n=5)
list()criar uma lista de argumentos Por exemplo list(a=c(12)b=hic=3i)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5361
A2ndashResumo de comandos
b) Informaccedilatildeo de uma Variaacutevellength(x) nuacutemero de elementos em x
dim(x) Obter ou definir a dimensatildeo de um objeto dim (x) = c(32)dimnames(x) Obter ou definir os nomes das dimensotildees de um objeto
nrow(x) nuacutemero de linhas
ncol(x) nuacutemero de colunas
c) Seleccedilatildeo de dados e manipulaccedilatildeochoose(n k) calcula a combinaccedilatildeo de elementos escolhidos entre n
resultando n [(n-k) k]
cut(xbreaks) divide x em intervalos (fatores) breaks eacute o nuacutemero de intervalos de
corte ou um vetor com os valores especiacuteficos
table(x) retorna uma tabela com as quantidades dos diferentes valores de x
(tipicamente para variaacuteveis dos tipos inteiros ou fatores)
sample(x size) retira aleatoriamente com e sem reposiccedilatildeo elementos detamanho SIZE do vetor x a opccedilatildeo replace = TRUE permite a retirada com reposiccedilatildeo
proptable(xmargin=) transforma a tabela como tabela de propoccedilatildeo
marginal margin=1 (com relaccedilatildeo as linhas) margin=2 (com relaccedilatildeo as colunas)
sort(x) Classifica os elementos de x em ordem crescente para classificar em ordem
decrescente rev(sort(x))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5461
A2ndashResumo de comandosd) Estatiacutesticas e operaccedilotildees matemaacuteticasmean(x) media dos elementos de x
median(x) mediana dos elementos de x
quantile(xprobs=) quantis de x correspondendo a uma dada probabilidadevar(x) ou cov(x) variacircncia dos elementos de x (calculado com n-1)
se x eacute uma matriz a matriz de covariacircncia eacute calculada
sd(x) desvio padracirco de of x
cor(x) matriz de correlaccedilatildeo de x se x for uma matriz ou (1 se x eacute um vector)
cor(x y) correlaccedilatildeo linear entre X e Y ou matriz de correlaccedilatildeo se eles satildeo matrizes
round(x n) arredonda os elementos de x para n casas decimais sum x soma os e emen os e x
prod(x) multilica os elementos de x
max(x) acha o maacuteximo dos elementos de x
min(x) acha o miacutenimo dos elementos de x
range(x) equivalente a c(min(x)max(x)
cumsum(x) um vetor onde o eacutesimo elemento eacute a soma de x[1] ateacute x[i]cumprod(x) um vetor onde o eacutesimo elemento eacute o produto de x[1] ateacute x[i]
cummin(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
cummax(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
sincostanasinacosatanatan2loglog10exp)
log(x base) calcula o logaritmo de x na base=base
weightedmean(x w) media ponderada de x com peso= w
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5561
A2ndashResumo de comandos
e) Corte e extraccedilatildeo de dadosindexaccedilatildeo de Vetores
x[n] n-eacutesimo elemento do vetor
x[-n] todos menos o n-eacutesimo elemento
x[1n] os primeiros n elemento
x[-(1n)] elementos de n+1 ateacute o final
x[c(432)] elementos especificados
x[y gt 5] todo elementos de onde os valores de y satildeo maiores que 5
x x gt 3 amp x lt 5 todo elementos entre 3 e 5
x[nome] elemento denominado nome
indexaccedilatildeo de Matrizes
x[ij] elemento na linha i coluna j
x[i] linha i
x[j] coluna j
x[c(13)] colunas 1 and 3
x[nome] linha nomeada nome
indexaccedilatildeo de data frames
x[[nome]] coluna chamada nome
x$nome equivalente a coluna chamada nome
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5661
A2ndashResumo de comandos
f) Operaccedilatildeo com Matrizest(x) transposta da matrix x
diag(x) retira a diagonal da matrix x
multiplicaccedilatildeo matricial
solve(ab) resove a equaccedilatildeo a x = b em relaccedilatildeo a x
solve(a) matriz inversa de a
rowSum(x) soma das linhas da matrix x
colSum(x) soma das colunas da matrix x
rowMeans x meacutedia das linhas da matrix x
colMeans(x) id meacutedia das colunas da matrix x
g) Graacuteficos (Plotting)plot(x y) diagrama de disperccedilatildeo plot dos pares (xy) num sistema de eixos
coordenadoshist(x) histogram dasfrequecircncias of x
barplot(x) graacutefico de barras of x usar horiz=T ara barras horizontal
pie(x) graacutefico de setores (pie-chart)
boxplot(x)
qqnorm(x) quantis de x em relaccedilatildeo aos valores esperados de uma dist Normal
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5761
A2ndashResumo de comandosparametros dos commando de Graacutefico
type=p especifica o tipo de plot p pontos l linhas b pontos
ligados por linhas o idecircntico mas as linhas passam sobre os pontos h
linhas verticais s escada (steps) os dados satildeo representados pelas alturasverticais
xlim= ylim= especifica os limites inferiores e superiores dos eixos por exemplocom xlim=c(1 10) ou xlim=range(x)
xlab= ylab= nomeia os eixos o nome deve ser do tipo caracter
main= tiacutetulo principal deve ser do tipo caracter
sub= sub-tiacutetulo (escrito em fonte menor)
podem ser usados como bty(tipo de caixa) lwd (lagura da linha) lty (tipo delinha) pch(tipo de ponto) cex xaxs yaxs xaxtyaxt
h) Teste de hipoacuteteses
ttest()proptest()
chisqtest()
aov(formula) analysis of variance model
anova(fit) analysis of variance (or deviance) tables for one or more
fitted model objects
Use o commando gt test para procurar todos os testes disponiacuteveis
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5861
A2ndashResumo de comandos
i) Programmingfunction( arglist ) expr para definer uma funccedilatildeo
return(value)
if(cond) expr
if(cond) consexpr else altexpr
for(var in seq) expr
while(cond) expr
re eat ex r
break
Usar chaves entre commandos dlimitando o iniacutecio e o fim de um grupo decomandos
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5961
A2ndashResumo de comandos
j) Commandos auxiliaries em Graacuteficospoints(x y) adiciona pontos (a opccedilatildeo type= pode ser usada)
lines(x y) adiciona linhas (a opccedilatildeo type= pode ser usada)text(x y labels ) adiciona texto na coordenada (xy) um uso tiacutepico eacute
plot(x y type=n) text(x ynames)
segments(x0 y0 x1 y1) desenha linhas do ponto (x0 y0) ao (x1 y1)
arrows(x0 y0 x1 y1 angle= 30 code=2) desenha seta do ponto
(x0 y0) ao (x1 y1)
abline(ab) desenha uma reta de inclinaccedilatildeo b e intercepto a
abline(v=x) desenha uma reta vertical em x
abline(lsfit(xy)) desenha uma reta da regressatildeo feita em lsfit(xy)
rect(x1 y1 x2 y2) desenha um retacircngulo que a esquerda inferior tem coordenadas(x1 y1) e o limite da direita superiores (x2 y2)
polygon(x y) desenha um poliacutegono que une os pontos com coordenadas X e Y
legend(x y legend) Acrescenta a lenda no ponto (x y) com os siacutembolos
dada pela legend
title()adiciona um tiacutetulo e opcionalmente um sub-tiacutetulo
axis(side) acrescenta um eixo na parte inferior (side = 1) agrave esquerda (2) na partesuperior (3) ou agrave direita (4)
box()desenhar uma caixa em torno do plot
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6061
A2ndashResumo de comandos
k) Comando par (Graphical parameters)Todos estes comando podem ser definidos a niacutevel global com o par () que
especifica os paracircmetros mas tambeacutem muitos podem ser usados comoparametros dos commando de Graacutefico
mfcol vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em colunas
mfrow vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em linhas(matrix for row)
bty controla o tipo de caixa desenhada ao redor do enredo valores permitidos satildeo
o l 7 c u ou se bt =n a caixa natildeo eacute desenhada
lty controla o tipo de linhas pode ser um inteiro ou string (1 solid 2 dashed 3dotted 4 dotdash 5 longdash 6twodash) ou uma string de ateacuteoito caracteres (entre 0 e 9) que especifica o comprimento em pontos oupixels dos elementos desenhados e os espaccedilos em branco por exemplolty=rdquo44rdquo equivale a lty=2
lwd nuacutemero que controla a largura das linhas default 1pch controla o tipo de siacutembolo pode tambeacutem ser um nuacutemero inteiro entre 1 e 25
ps um inteiro que controla o tamanho em pontos de textos e siacutembolos
pty um caracter que especifica o tipo da regiatildeo s quadrado m maacuteximal
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6161
A2ndashResumo de comandos
l) Input and outputreadtable(file) lecirc um arquivo em formato de tabela e cria um quadro de dados a
partir dele o separador default = eacute espaccedilo em branco header = TRUE ler a
primeira linha como um cabeccedilalho de nomes de coluna asis = TRUE paraevitar aque um vetore de caracteres seja convertido em factores usocommentchar = para evitar seja interpretado como um comentaacuteriouso skip = n para pular n linhas antes da leitura de dados consulte a ajudapara as opccedilotildees de linha de nomeaccedilatildeo o tratamento NA e outros
readcsv(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por viacutergulas
readdelim(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por tabulaccedilotildees
readfwf(filewidthsheader=FALSEsep= asis=FALSE)
ler uma tabela de dados em formato fix de largura m para um dataframe widthseacute um vetor inteiro informando os tamanhos dos campos
sink(file) saiacuteda de todos os comandos para um arquivo ateacute aparecer um comando
sink () que desliga writetable(x file=rownames=Tcolnames=Tsep= ) imprime x apoacutes a
conversatildeo para banco de dados
save(file) guarda os objetos especificados () no formato XDR
load()carregar o conjunto de dados salvos com o comando save
data(x) carrega um conjunto de dados especificado
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5261
A2ndashResumo de comandos
a)Criaccedilatildeo de dados
c()funccedilatildeo geneacuterica para combinar argumentos com o formando de um vetor fromto gera uma sequecircnce ldquordquo tem prioridade de operator pe13 + 1 is ldquo234rdquo
seq(fromtoby) gera uma sequecircncia by= especifica incremento
length= especifica um comprimento desejado
rep(xtimes) replicate x onuacutemero times de vezes use each= para repetir cada
elemento de x rep(c(123)2) gera 1 2 3 1 2 3 rep(c(12)each=2) gera 1 1 2 2
matrix(xnrow=ncol=) matrix elementos de x se reciclam caso x
rbind()combina vetores em linhas num estrutura de matrizes de dados
cbind()combina vetores em colunas num estrutura de matrizes de dados
array(xdim=) matriz com dados x especificar dimensotildees como dim=c(342)
elementos de x se reciclam caso x natildeo seja suficientemente grande
factor(xlevels=) codifica um vetor x como um fator gl(nklength=nklabels=1n) gerar niacuteveis (fatores) especificando
o padratildeo de seus niacuteveis k eacute o nuacutemero de niacuteveis e n eacute o nuacutemero de repeticcedilotildees
dataframe() criar um banco de dados Por exemplo
dataframe(v=14ch=c(gBcasad)n=5)
list()criar uma lista de argumentos Por exemplo list(a=c(12)b=hic=3i)
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5361
A2ndashResumo de comandos
b) Informaccedilatildeo de uma Variaacutevellength(x) nuacutemero de elementos em x
dim(x) Obter ou definir a dimensatildeo de um objeto dim (x) = c(32)dimnames(x) Obter ou definir os nomes das dimensotildees de um objeto
nrow(x) nuacutemero de linhas
ncol(x) nuacutemero de colunas
c) Seleccedilatildeo de dados e manipulaccedilatildeochoose(n k) calcula a combinaccedilatildeo de elementos escolhidos entre n
resultando n [(n-k) k]
cut(xbreaks) divide x em intervalos (fatores) breaks eacute o nuacutemero de intervalos de
corte ou um vetor com os valores especiacuteficos
table(x) retorna uma tabela com as quantidades dos diferentes valores de x
(tipicamente para variaacuteveis dos tipos inteiros ou fatores)
sample(x size) retira aleatoriamente com e sem reposiccedilatildeo elementos detamanho SIZE do vetor x a opccedilatildeo replace = TRUE permite a retirada com reposiccedilatildeo
proptable(xmargin=) transforma a tabela como tabela de propoccedilatildeo
marginal margin=1 (com relaccedilatildeo as linhas) margin=2 (com relaccedilatildeo as colunas)
sort(x) Classifica os elementos de x em ordem crescente para classificar em ordem
decrescente rev(sort(x))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5461
A2ndashResumo de comandosd) Estatiacutesticas e operaccedilotildees matemaacuteticasmean(x) media dos elementos de x
median(x) mediana dos elementos de x
quantile(xprobs=) quantis de x correspondendo a uma dada probabilidadevar(x) ou cov(x) variacircncia dos elementos de x (calculado com n-1)
se x eacute uma matriz a matriz de covariacircncia eacute calculada
sd(x) desvio padracirco de of x
cor(x) matriz de correlaccedilatildeo de x se x for uma matriz ou (1 se x eacute um vector)
cor(x y) correlaccedilatildeo linear entre X e Y ou matriz de correlaccedilatildeo se eles satildeo matrizes
round(x n) arredonda os elementos de x para n casas decimais sum x soma os e emen os e x
prod(x) multilica os elementos de x
max(x) acha o maacuteximo dos elementos de x
min(x) acha o miacutenimo dos elementos de x
range(x) equivalente a c(min(x)max(x)
cumsum(x) um vetor onde o eacutesimo elemento eacute a soma de x[1] ateacute x[i]cumprod(x) um vetor onde o eacutesimo elemento eacute o produto de x[1] ateacute x[i]
cummin(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
cummax(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
sincostanasinacosatanatan2loglog10exp)
log(x base) calcula o logaritmo de x na base=base
weightedmean(x w) media ponderada de x com peso= w
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5561
A2ndashResumo de comandos
e) Corte e extraccedilatildeo de dadosindexaccedilatildeo de Vetores
x[n] n-eacutesimo elemento do vetor
x[-n] todos menos o n-eacutesimo elemento
x[1n] os primeiros n elemento
x[-(1n)] elementos de n+1 ateacute o final
x[c(432)] elementos especificados
x[y gt 5] todo elementos de onde os valores de y satildeo maiores que 5
x x gt 3 amp x lt 5 todo elementos entre 3 e 5
x[nome] elemento denominado nome
indexaccedilatildeo de Matrizes
x[ij] elemento na linha i coluna j
x[i] linha i
x[j] coluna j
x[c(13)] colunas 1 and 3
x[nome] linha nomeada nome
indexaccedilatildeo de data frames
x[[nome]] coluna chamada nome
x$nome equivalente a coluna chamada nome
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5661
A2ndashResumo de comandos
f) Operaccedilatildeo com Matrizest(x) transposta da matrix x
diag(x) retira a diagonal da matrix x
multiplicaccedilatildeo matricial
solve(ab) resove a equaccedilatildeo a x = b em relaccedilatildeo a x
solve(a) matriz inversa de a
rowSum(x) soma das linhas da matrix x
colSum(x) soma das colunas da matrix x
rowMeans x meacutedia das linhas da matrix x
colMeans(x) id meacutedia das colunas da matrix x
g) Graacuteficos (Plotting)plot(x y) diagrama de disperccedilatildeo plot dos pares (xy) num sistema de eixos
coordenadoshist(x) histogram dasfrequecircncias of x
barplot(x) graacutefico de barras of x usar horiz=T ara barras horizontal
pie(x) graacutefico de setores (pie-chart)
boxplot(x)
qqnorm(x) quantis de x em relaccedilatildeo aos valores esperados de uma dist Normal
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5761
A2ndashResumo de comandosparametros dos commando de Graacutefico
type=p especifica o tipo de plot p pontos l linhas b pontos
ligados por linhas o idecircntico mas as linhas passam sobre os pontos h
linhas verticais s escada (steps) os dados satildeo representados pelas alturasverticais
xlim= ylim= especifica os limites inferiores e superiores dos eixos por exemplocom xlim=c(1 10) ou xlim=range(x)
xlab= ylab= nomeia os eixos o nome deve ser do tipo caracter
main= tiacutetulo principal deve ser do tipo caracter
sub= sub-tiacutetulo (escrito em fonte menor)
podem ser usados como bty(tipo de caixa) lwd (lagura da linha) lty (tipo delinha) pch(tipo de ponto) cex xaxs yaxs xaxtyaxt
h) Teste de hipoacuteteses
ttest()proptest()
chisqtest()
aov(formula) analysis of variance model
anova(fit) analysis of variance (or deviance) tables for one or more
fitted model objects
Use o commando gt test para procurar todos os testes disponiacuteveis
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5861
A2ndashResumo de comandos
i) Programmingfunction( arglist ) expr para definer uma funccedilatildeo
return(value)
if(cond) expr
if(cond) consexpr else altexpr
for(var in seq) expr
while(cond) expr
re eat ex r
break
Usar chaves entre commandos dlimitando o iniacutecio e o fim de um grupo decomandos
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5961
A2ndashResumo de comandos
j) Commandos auxiliaries em Graacuteficospoints(x y) adiciona pontos (a opccedilatildeo type= pode ser usada)
lines(x y) adiciona linhas (a opccedilatildeo type= pode ser usada)text(x y labels ) adiciona texto na coordenada (xy) um uso tiacutepico eacute
plot(x y type=n) text(x ynames)
segments(x0 y0 x1 y1) desenha linhas do ponto (x0 y0) ao (x1 y1)
arrows(x0 y0 x1 y1 angle= 30 code=2) desenha seta do ponto
(x0 y0) ao (x1 y1)
abline(ab) desenha uma reta de inclinaccedilatildeo b e intercepto a
abline(v=x) desenha uma reta vertical em x
abline(lsfit(xy)) desenha uma reta da regressatildeo feita em lsfit(xy)
rect(x1 y1 x2 y2) desenha um retacircngulo que a esquerda inferior tem coordenadas(x1 y1) e o limite da direita superiores (x2 y2)
polygon(x y) desenha um poliacutegono que une os pontos com coordenadas X e Y
legend(x y legend) Acrescenta a lenda no ponto (x y) com os siacutembolos
dada pela legend
title()adiciona um tiacutetulo e opcionalmente um sub-tiacutetulo
axis(side) acrescenta um eixo na parte inferior (side = 1) agrave esquerda (2) na partesuperior (3) ou agrave direita (4)
box()desenhar uma caixa em torno do plot
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6061
A2ndashResumo de comandos
k) Comando par (Graphical parameters)Todos estes comando podem ser definidos a niacutevel global com o par () que
especifica os paracircmetros mas tambeacutem muitos podem ser usados comoparametros dos commando de Graacutefico
mfcol vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em colunas
mfrow vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em linhas(matrix for row)
bty controla o tipo de caixa desenhada ao redor do enredo valores permitidos satildeo
o l 7 c u ou se bt =n a caixa natildeo eacute desenhada
lty controla o tipo de linhas pode ser um inteiro ou string (1 solid 2 dashed 3dotted 4 dotdash 5 longdash 6twodash) ou uma string de ateacuteoito caracteres (entre 0 e 9) que especifica o comprimento em pontos oupixels dos elementos desenhados e os espaccedilos em branco por exemplolty=rdquo44rdquo equivale a lty=2
lwd nuacutemero que controla a largura das linhas default 1pch controla o tipo de siacutembolo pode tambeacutem ser um nuacutemero inteiro entre 1 e 25
ps um inteiro que controla o tamanho em pontos de textos e siacutembolos
pty um caracter que especifica o tipo da regiatildeo s quadrado m maacuteximal
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6161
A2ndashResumo de comandos
l) Input and outputreadtable(file) lecirc um arquivo em formato de tabela e cria um quadro de dados a
partir dele o separador default = eacute espaccedilo em branco header = TRUE ler a
primeira linha como um cabeccedilalho de nomes de coluna asis = TRUE paraevitar aque um vetore de caracteres seja convertido em factores usocommentchar = para evitar seja interpretado como um comentaacuteriouso skip = n para pular n linhas antes da leitura de dados consulte a ajudapara as opccedilotildees de linha de nomeaccedilatildeo o tratamento NA e outros
readcsv(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por viacutergulas
readdelim(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por tabulaccedilotildees
readfwf(filewidthsheader=FALSEsep= asis=FALSE)
ler uma tabela de dados em formato fix de largura m para um dataframe widthseacute um vetor inteiro informando os tamanhos dos campos
sink(file) saiacuteda de todos os comandos para um arquivo ateacute aparecer um comando
sink () que desliga writetable(x file=rownames=Tcolnames=Tsep= ) imprime x apoacutes a
conversatildeo para banco de dados
save(file) guarda os objetos especificados () no formato XDR
load()carregar o conjunto de dados salvos com o comando save
data(x) carrega um conjunto de dados especificado
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5361
A2ndashResumo de comandos
b) Informaccedilatildeo de uma Variaacutevellength(x) nuacutemero de elementos em x
dim(x) Obter ou definir a dimensatildeo de um objeto dim (x) = c(32)dimnames(x) Obter ou definir os nomes das dimensotildees de um objeto
nrow(x) nuacutemero de linhas
ncol(x) nuacutemero de colunas
c) Seleccedilatildeo de dados e manipulaccedilatildeochoose(n k) calcula a combinaccedilatildeo de elementos escolhidos entre n
resultando n [(n-k) k]
cut(xbreaks) divide x em intervalos (fatores) breaks eacute o nuacutemero de intervalos de
corte ou um vetor com os valores especiacuteficos
table(x) retorna uma tabela com as quantidades dos diferentes valores de x
(tipicamente para variaacuteveis dos tipos inteiros ou fatores)
sample(x size) retira aleatoriamente com e sem reposiccedilatildeo elementos detamanho SIZE do vetor x a opccedilatildeo replace = TRUE permite a retirada com reposiccedilatildeo
proptable(xmargin=) transforma a tabela como tabela de propoccedilatildeo
marginal margin=1 (com relaccedilatildeo as linhas) margin=2 (com relaccedilatildeo as colunas)
sort(x) Classifica os elementos de x em ordem crescente para classificar em ordem
decrescente rev(sort(x))
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5461
A2ndashResumo de comandosd) Estatiacutesticas e operaccedilotildees matemaacuteticasmean(x) media dos elementos de x
median(x) mediana dos elementos de x
quantile(xprobs=) quantis de x correspondendo a uma dada probabilidadevar(x) ou cov(x) variacircncia dos elementos de x (calculado com n-1)
se x eacute uma matriz a matriz de covariacircncia eacute calculada
sd(x) desvio padracirco de of x
cor(x) matriz de correlaccedilatildeo de x se x for uma matriz ou (1 se x eacute um vector)
cor(x y) correlaccedilatildeo linear entre X e Y ou matriz de correlaccedilatildeo se eles satildeo matrizes
round(x n) arredonda os elementos de x para n casas decimais sum x soma os e emen os e x
prod(x) multilica os elementos de x
max(x) acha o maacuteximo dos elementos de x
min(x) acha o miacutenimo dos elementos de x
range(x) equivalente a c(min(x)max(x)
cumsum(x) um vetor onde o eacutesimo elemento eacute a soma de x[1] ateacute x[i]cumprod(x) um vetor onde o eacutesimo elemento eacute o produto de x[1] ateacute x[i]
cummin(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
cummax(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
sincostanasinacosatanatan2loglog10exp)
log(x base) calcula o logaritmo de x na base=base
weightedmean(x w) media ponderada de x com peso= w
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5561
A2ndashResumo de comandos
e) Corte e extraccedilatildeo de dadosindexaccedilatildeo de Vetores
x[n] n-eacutesimo elemento do vetor
x[-n] todos menos o n-eacutesimo elemento
x[1n] os primeiros n elemento
x[-(1n)] elementos de n+1 ateacute o final
x[c(432)] elementos especificados
x[y gt 5] todo elementos de onde os valores de y satildeo maiores que 5
x x gt 3 amp x lt 5 todo elementos entre 3 e 5
x[nome] elemento denominado nome
indexaccedilatildeo de Matrizes
x[ij] elemento na linha i coluna j
x[i] linha i
x[j] coluna j
x[c(13)] colunas 1 and 3
x[nome] linha nomeada nome
indexaccedilatildeo de data frames
x[[nome]] coluna chamada nome
x$nome equivalente a coluna chamada nome
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5661
A2ndashResumo de comandos
f) Operaccedilatildeo com Matrizest(x) transposta da matrix x
diag(x) retira a diagonal da matrix x
multiplicaccedilatildeo matricial
solve(ab) resove a equaccedilatildeo a x = b em relaccedilatildeo a x
solve(a) matriz inversa de a
rowSum(x) soma das linhas da matrix x
colSum(x) soma das colunas da matrix x
rowMeans x meacutedia das linhas da matrix x
colMeans(x) id meacutedia das colunas da matrix x
g) Graacuteficos (Plotting)plot(x y) diagrama de disperccedilatildeo plot dos pares (xy) num sistema de eixos
coordenadoshist(x) histogram dasfrequecircncias of x
barplot(x) graacutefico de barras of x usar horiz=T ara barras horizontal
pie(x) graacutefico de setores (pie-chart)
boxplot(x)
qqnorm(x) quantis de x em relaccedilatildeo aos valores esperados de uma dist Normal
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5761
A2ndashResumo de comandosparametros dos commando de Graacutefico
type=p especifica o tipo de plot p pontos l linhas b pontos
ligados por linhas o idecircntico mas as linhas passam sobre os pontos h
linhas verticais s escada (steps) os dados satildeo representados pelas alturasverticais
xlim= ylim= especifica os limites inferiores e superiores dos eixos por exemplocom xlim=c(1 10) ou xlim=range(x)
xlab= ylab= nomeia os eixos o nome deve ser do tipo caracter
main= tiacutetulo principal deve ser do tipo caracter
sub= sub-tiacutetulo (escrito em fonte menor)
podem ser usados como bty(tipo de caixa) lwd (lagura da linha) lty (tipo delinha) pch(tipo de ponto) cex xaxs yaxs xaxtyaxt
h) Teste de hipoacuteteses
ttest()proptest()
chisqtest()
aov(formula) analysis of variance model
anova(fit) analysis of variance (or deviance) tables for one or more
fitted model objects
Use o commando gt test para procurar todos os testes disponiacuteveis
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5861
A2ndashResumo de comandos
i) Programmingfunction( arglist ) expr para definer uma funccedilatildeo
return(value)
if(cond) expr
if(cond) consexpr else altexpr
for(var in seq) expr
while(cond) expr
re eat ex r
break
Usar chaves entre commandos dlimitando o iniacutecio e o fim de um grupo decomandos
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5961
A2ndashResumo de comandos
j) Commandos auxiliaries em Graacuteficospoints(x y) adiciona pontos (a opccedilatildeo type= pode ser usada)
lines(x y) adiciona linhas (a opccedilatildeo type= pode ser usada)text(x y labels ) adiciona texto na coordenada (xy) um uso tiacutepico eacute
plot(x y type=n) text(x ynames)
segments(x0 y0 x1 y1) desenha linhas do ponto (x0 y0) ao (x1 y1)
arrows(x0 y0 x1 y1 angle= 30 code=2) desenha seta do ponto
(x0 y0) ao (x1 y1)
abline(ab) desenha uma reta de inclinaccedilatildeo b e intercepto a
abline(v=x) desenha uma reta vertical em x
abline(lsfit(xy)) desenha uma reta da regressatildeo feita em lsfit(xy)
rect(x1 y1 x2 y2) desenha um retacircngulo que a esquerda inferior tem coordenadas(x1 y1) e o limite da direita superiores (x2 y2)
polygon(x y) desenha um poliacutegono que une os pontos com coordenadas X e Y
legend(x y legend) Acrescenta a lenda no ponto (x y) com os siacutembolos
dada pela legend
title()adiciona um tiacutetulo e opcionalmente um sub-tiacutetulo
axis(side) acrescenta um eixo na parte inferior (side = 1) agrave esquerda (2) na partesuperior (3) ou agrave direita (4)
box()desenhar uma caixa em torno do plot
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6061
A2ndashResumo de comandos
k) Comando par (Graphical parameters)Todos estes comando podem ser definidos a niacutevel global com o par () que
especifica os paracircmetros mas tambeacutem muitos podem ser usados comoparametros dos commando de Graacutefico
mfcol vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em colunas
mfrow vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em linhas(matrix for row)
bty controla o tipo de caixa desenhada ao redor do enredo valores permitidos satildeo
o l 7 c u ou se bt =n a caixa natildeo eacute desenhada
lty controla o tipo de linhas pode ser um inteiro ou string (1 solid 2 dashed 3dotted 4 dotdash 5 longdash 6twodash) ou uma string de ateacuteoito caracteres (entre 0 e 9) que especifica o comprimento em pontos oupixels dos elementos desenhados e os espaccedilos em branco por exemplolty=rdquo44rdquo equivale a lty=2
lwd nuacutemero que controla a largura das linhas default 1pch controla o tipo de siacutembolo pode tambeacutem ser um nuacutemero inteiro entre 1 e 25
ps um inteiro que controla o tamanho em pontos de textos e siacutembolos
pty um caracter que especifica o tipo da regiatildeo s quadrado m maacuteximal
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6161
A2ndashResumo de comandos
l) Input and outputreadtable(file) lecirc um arquivo em formato de tabela e cria um quadro de dados a
partir dele o separador default = eacute espaccedilo em branco header = TRUE ler a
primeira linha como um cabeccedilalho de nomes de coluna asis = TRUE paraevitar aque um vetore de caracteres seja convertido em factores usocommentchar = para evitar seja interpretado como um comentaacuteriouso skip = n para pular n linhas antes da leitura de dados consulte a ajudapara as opccedilotildees de linha de nomeaccedilatildeo o tratamento NA e outros
readcsv(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por viacutergulas
readdelim(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por tabulaccedilotildees
readfwf(filewidthsheader=FALSEsep= asis=FALSE)
ler uma tabela de dados em formato fix de largura m para um dataframe widthseacute um vetor inteiro informando os tamanhos dos campos
sink(file) saiacuteda de todos os comandos para um arquivo ateacute aparecer um comando
sink () que desliga writetable(x file=rownames=Tcolnames=Tsep= ) imprime x apoacutes a
conversatildeo para banco de dados
save(file) guarda os objetos especificados () no formato XDR
load()carregar o conjunto de dados salvos com o comando save
data(x) carrega um conjunto de dados especificado
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5461
A2ndashResumo de comandosd) Estatiacutesticas e operaccedilotildees matemaacuteticasmean(x) media dos elementos de x
median(x) mediana dos elementos de x
quantile(xprobs=) quantis de x correspondendo a uma dada probabilidadevar(x) ou cov(x) variacircncia dos elementos de x (calculado com n-1)
se x eacute uma matriz a matriz de covariacircncia eacute calculada
sd(x) desvio padracirco de of x
cor(x) matriz de correlaccedilatildeo de x se x for uma matriz ou (1 se x eacute um vector)
cor(x y) correlaccedilatildeo linear entre X e Y ou matriz de correlaccedilatildeo se eles satildeo matrizes
round(x n) arredonda os elementos de x para n casas decimais sum x soma os e emen os e x
prod(x) multilica os elementos de x
max(x) acha o maacuteximo dos elementos de x
min(x) acha o miacutenimo dos elementos de x
range(x) equivalente a c(min(x)max(x)
cumsum(x) um vetor onde o eacutesimo elemento eacute a soma de x[1] ateacute x[i]cumprod(x) um vetor onde o eacutesimo elemento eacute o produto de x[1] ateacute x[i]
cummin(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
cummax(x) um vetor onde o eacutesimo elemento eacute o miacutenimo de x[1] ateacute x[i]
sincostanasinacosatanatan2loglog10exp)
log(x base) calcula o logaritmo de x na base=base
weightedmean(x w) media ponderada de x com peso= w
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5561
A2ndashResumo de comandos
e) Corte e extraccedilatildeo de dadosindexaccedilatildeo de Vetores
x[n] n-eacutesimo elemento do vetor
x[-n] todos menos o n-eacutesimo elemento
x[1n] os primeiros n elemento
x[-(1n)] elementos de n+1 ateacute o final
x[c(432)] elementos especificados
x[y gt 5] todo elementos de onde os valores de y satildeo maiores que 5
x x gt 3 amp x lt 5 todo elementos entre 3 e 5
x[nome] elemento denominado nome
indexaccedilatildeo de Matrizes
x[ij] elemento na linha i coluna j
x[i] linha i
x[j] coluna j
x[c(13)] colunas 1 and 3
x[nome] linha nomeada nome
indexaccedilatildeo de data frames
x[[nome]] coluna chamada nome
x$nome equivalente a coluna chamada nome
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5661
A2ndashResumo de comandos
f) Operaccedilatildeo com Matrizest(x) transposta da matrix x
diag(x) retira a diagonal da matrix x
multiplicaccedilatildeo matricial
solve(ab) resove a equaccedilatildeo a x = b em relaccedilatildeo a x
solve(a) matriz inversa de a
rowSum(x) soma das linhas da matrix x
colSum(x) soma das colunas da matrix x
rowMeans x meacutedia das linhas da matrix x
colMeans(x) id meacutedia das colunas da matrix x
g) Graacuteficos (Plotting)plot(x y) diagrama de disperccedilatildeo plot dos pares (xy) num sistema de eixos
coordenadoshist(x) histogram dasfrequecircncias of x
barplot(x) graacutefico de barras of x usar horiz=T ara barras horizontal
pie(x) graacutefico de setores (pie-chart)
boxplot(x)
qqnorm(x) quantis de x em relaccedilatildeo aos valores esperados de uma dist Normal
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5761
A2ndashResumo de comandosparametros dos commando de Graacutefico
type=p especifica o tipo de plot p pontos l linhas b pontos
ligados por linhas o idecircntico mas as linhas passam sobre os pontos h
linhas verticais s escada (steps) os dados satildeo representados pelas alturasverticais
xlim= ylim= especifica os limites inferiores e superiores dos eixos por exemplocom xlim=c(1 10) ou xlim=range(x)
xlab= ylab= nomeia os eixos o nome deve ser do tipo caracter
main= tiacutetulo principal deve ser do tipo caracter
sub= sub-tiacutetulo (escrito em fonte menor)
podem ser usados como bty(tipo de caixa) lwd (lagura da linha) lty (tipo delinha) pch(tipo de ponto) cex xaxs yaxs xaxtyaxt
h) Teste de hipoacuteteses
ttest()proptest()
chisqtest()
aov(formula) analysis of variance model
anova(fit) analysis of variance (or deviance) tables for one or more
fitted model objects
Use o commando gt test para procurar todos os testes disponiacuteveis
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5861
A2ndashResumo de comandos
i) Programmingfunction( arglist ) expr para definer uma funccedilatildeo
return(value)
if(cond) expr
if(cond) consexpr else altexpr
for(var in seq) expr
while(cond) expr
re eat ex r
break
Usar chaves entre commandos dlimitando o iniacutecio e o fim de um grupo decomandos
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5961
A2ndashResumo de comandos
j) Commandos auxiliaries em Graacuteficospoints(x y) adiciona pontos (a opccedilatildeo type= pode ser usada)
lines(x y) adiciona linhas (a opccedilatildeo type= pode ser usada)text(x y labels ) adiciona texto na coordenada (xy) um uso tiacutepico eacute
plot(x y type=n) text(x ynames)
segments(x0 y0 x1 y1) desenha linhas do ponto (x0 y0) ao (x1 y1)
arrows(x0 y0 x1 y1 angle= 30 code=2) desenha seta do ponto
(x0 y0) ao (x1 y1)
abline(ab) desenha uma reta de inclinaccedilatildeo b e intercepto a
abline(v=x) desenha uma reta vertical em x
abline(lsfit(xy)) desenha uma reta da regressatildeo feita em lsfit(xy)
rect(x1 y1 x2 y2) desenha um retacircngulo que a esquerda inferior tem coordenadas(x1 y1) e o limite da direita superiores (x2 y2)
polygon(x y) desenha um poliacutegono que une os pontos com coordenadas X e Y
legend(x y legend) Acrescenta a lenda no ponto (x y) com os siacutembolos
dada pela legend
title()adiciona um tiacutetulo e opcionalmente um sub-tiacutetulo
axis(side) acrescenta um eixo na parte inferior (side = 1) agrave esquerda (2) na partesuperior (3) ou agrave direita (4)
box()desenhar uma caixa em torno do plot
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6061
A2ndashResumo de comandos
k) Comando par (Graphical parameters)Todos estes comando podem ser definidos a niacutevel global com o par () que
especifica os paracircmetros mas tambeacutem muitos podem ser usados comoparametros dos commando de Graacutefico
mfcol vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em colunas
mfrow vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em linhas(matrix for row)
bty controla o tipo de caixa desenhada ao redor do enredo valores permitidos satildeo
o l 7 c u ou se bt =n a caixa natildeo eacute desenhada
lty controla o tipo de linhas pode ser um inteiro ou string (1 solid 2 dashed 3dotted 4 dotdash 5 longdash 6twodash) ou uma string de ateacuteoito caracteres (entre 0 e 9) que especifica o comprimento em pontos oupixels dos elementos desenhados e os espaccedilos em branco por exemplolty=rdquo44rdquo equivale a lty=2
lwd nuacutemero que controla a largura das linhas default 1pch controla o tipo de siacutembolo pode tambeacutem ser um nuacutemero inteiro entre 1 e 25
ps um inteiro que controla o tamanho em pontos de textos e siacutembolos
pty um caracter que especifica o tipo da regiatildeo s quadrado m maacuteximal
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6161
A2ndashResumo de comandos
l) Input and outputreadtable(file) lecirc um arquivo em formato de tabela e cria um quadro de dados a
partir dele o separador default = eacute espaccedilo em branco header = TRUE ler a
primeira linha como um cabeccedilalho de nomes de coluna asis = TRUE paraevitar aque um vetore de caracteres seja convertido em factores usocommentchar = para evitar seja interpretado como um comentaacuteriouso skip = n para pular n linhas antes da leitura de dados consulte a ajudapara as opccedilotildees de linha de nomeaccedilatildeo o tratamento NA e outros
readcsv(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por viacutergulas
readdelim(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por tabulaccedilotildees
readfwf(filewidthsheader=FALSEsep= asis=FALSE)
ler uma tabela de dados em formato fix de largura m para um dataframe widthseacute um vetor inteiro informando os tamanhos dos campos
sink(file) saiacuteda de todos os comandos para um arquivo ateacute aparecer um comando
sink () que desliga writetable(x file=rownames=Tcolnames=Tsep= ) imprime x apoacutes a
conversatildeo para banco de dados
save(file) guarda os objetos especificados () no formato XDR
load()carregar o conjunto de dados salvos com o comando save
data(x) carrega um conjunto de dados especificado
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5561
A2ndashResumo de comandos
e) Corte e extraccedilatildeo de dadosindexaccedilatildeo de Vetores
x[n] n-eacutesimo elemento do vetor
x[-n] todos menos o n-eacutesimo elemento
x[1n] os primeiros n elemento
x[-(1n)] elementos de n+1 ateacute o final
x[c(432)] elementos especificados
x[y gt 5] todo elementos de onde os valores de y satildeo maiores que 5
x x gt 3 amp x lt 5 todo elementos entre 3 e 5
x[nome] elemento denominado nome
indexaccedilatildeo de Matrizes
x[ij] elemento na linha i coluna j
x[i] linha i
x[j] coluna j
x[c(13)] colunas 1 and 3
x[nome] linha nomeada nome
indexaccedilatildeo de data frames
x[[nome]] coluna chamada nome
x$nome equivalente a coluna chamada nome
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5661
A2ndashResumo de comandos
f) Operaccedilatildeo com Matrizest(x) transposta da matrix x
diag(x) retira a diagonal da matrix x
multiplicaccedilatildeo matricial
solve(ab) resove a equaccedilatildeo a x = b em relaccedilatildeo a x
solve(a) matriz inversa de a
rowSum(x) soma das linhas da matrix x
colSum(x) soma das colunas da matrix x
rowMeans x meacutedia das linhas da matrix x
colMeans(x) id meacutedia das colunas da matrix x
g) Graacuteficos (Plotting)plot(x y) diagrama de disperccedilatildeo plot dos pares (xy) num sistema de eixos
coordenadoshist(x) histogram dasfrequecircncias of x
barplot(x) graacutefico de barras of x usar horiz=T ara barras horizontal
pie(x) graacutefico de setores (pie-chart)
boxplot(x)
qqnorm(x) quantis de x em relaccedilatildeo aos valores esperados de uma dist Normal
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5761
A2ndashResumo de comandosparametros dos commando de Graacutefico
type=p especifica o tipo de plot p pontos l linhas b pontos
ligados por linhas o idecircntico mas as linhas passam sobre os pontos h
linhas verticais s escada (steps) os dados satildeo representados pelas alturasverticais
xlim= ylim= especifica os limites inferiores e superiores dos eixos por exemplocom xlim=c(1 10) ou xlim=range(x)
xlab= ylab= nomeia os eixos o nome deve ser do tipo caracter
main= tiacutetulo principal deve ser do tipo caracter
sub= sub-tiacutetulo (escrito em fonte menor)
podem ser usados como bty(tipo de caixa) lwd (lagura da linha) lty (tipo delinha) pch(tipo de ponto) cex xaxs yaxs xaxtyaxt
h) Teste de hipoacuteteses
ttest()proptest()
chisqtest()
aov(formula) analysis of variance model
anova(fit) analysis of variance (or deviance) tables for one or more
fitted model objects
Use o commando gt test para procurar todos os testes disponiacuteveis
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5861
A2ndashResumo de comandos
i) Programmingfunction( arglist ) expr para definer uma funccedilatildeo
return(value)
if(cond) expr
if(cond) consexpr else altexpr
for(var in seq) expr
while(cond) expr
re eat ex r
break
Usar chaves entre commandos dlimitando o iniacutecio e o fim de um grupo decomandos
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5961
A2ndashResumo de comandos
j) Commandos auxiliaries em Graacuteficospoints(x y) adiciona pontos (a opccedilatildeo type= pode ser usada)
lines(x y) adiciona linhas (a opccedilatildeo type= pode ser usada)text(x y labels ) adiciona texto na coordenada (xy) um uso tiacutepico eacute
plot(x y type=n) text(x ynames)
segments(x0 y0 x1 y1) desenha linhas do ponto (x0 y0) ao (x1 y1)
arrows(x0 y0 x1 y1 angle= 30 code=2) desenha seta do ponto
(x0 y0) ao (x1 y1)
abline(ab) desenha uma reta de inclinaccedilatildeo b e intercepto a
abline(v=x) desenha uma reta vertical em x
abline(lsfit(xy)) desenha uma reta da regressatildeo feita em lsfit(xy)
rect(x1 y1 x2 y2) desenha um retacircngulo que a esquerda inferior tem coordenadas(x1 y1) e o limite da direita superiores (x2 y2)
polygon(x y) desenha um poliacutegono que une os pontos com coordenadas X e Y
legend(x y legend) Acrescenta a lenda no ponto (x y) com os siacutembolos
dada pela legend
title()adiciona um tiacutetulo e opcionalmente um sub-tiacutetulo
axis(side) acrescenta um eixo na parte inferior (side = 1) agrave esquerda (2) na partesuperior (3) ou agrave direita (4)
box()desenhar uma caixa em torno do plot
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6061
A2ndashResumo de comandos
k) Comando par (Graphical parameters)Todos estes comando podem ser definidos a niacutevel global com o par () que
especifica os paracircmetros mas tambeacutem muitos podem ser usados comoparametros dos commando de Graacutefico
mfcol vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em colunas
mfrow vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em linhas(matrix for row)
bty controla o tipo de caixa desenhada ao redor do enredo valores permitidos satildeo
o l 7 c u ou se bt =n a caixa natildeo eacute desenhada
lty controla o tipo de linhas pode ser um inteiro ou string (1 solid 2 dashed 3dotted 4 dotdash 5 longdash 6twodash) ou uma string de ateacuteoito caracteres (entre 0 e 9) que especifica o comprimento em pontos oupixels dos elementos desenhados e os espaccedilos em branco por exemplolty=rdquo44rdquo equivale a lty=2
lwd nuacutemero que controla a largura das linhas default 1pch controla o tipo de siacutembolo pode tambeacutem ser um nuacutemero inteiro entre 1 e 25
ps um inteiro que controla o tamanho em pontos de textos e siacutembolos
pty um caracter que especifica o tipo da regiatildeo s quadrado m maacuteximal
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6161
A2ndashResumo de comandos
l) Input and outputreadtable(file) lecirc um arquivo em formato de tabela e cria um quadro de dados a
partir dele o separador default = eacute espaccedilo em branco header = TRUE ler a
primeira linha como um cabeccedilalho de nomes de coluna asis = TRUE paraevitar aque um vetore de caracteres seja convertido em factores usocommentchar = para evitar seja interpretado como um comentaacuteriouso skip = n para pular n linhas antes da leitura de dados consulte a ajudapara as opccedilotildees de linha de nomeaccedilatildeo o tratamento NA e outros
readcsv(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por viacutergulas
readdelim(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por tabulaccedilotildees
readfwf(filewidthsheader=FALSEsep= asis=FALSE)
ler uma tabela de dados em formato fix de largura m para um dataframe widthseacute um vetor inteiro informando os tamanhos dos campos
sink(file) saiacuteda de todos os comandos para um arquivo ateacute aparecer um comando
sink () que desliga writetable(x file=rownames=Tcolnames=Tsep= ) imprime x apoacutes a
conversatildeo para banco de dados
save(file) guarda os objetos especificados () no formato XDR
load()carregar o conjunto de dados salvos com o comando save
data(x) carrega um conjunto de dados especificado
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5661
A2ndashResumo de comandos
f) Operaccedilatildeo com Matrizest(x) transposta da matrix x
diag(x) retira a diagonal da matrix x
multiplicaccedilatildeo matricial
solve(ab) resove a equaccedilatildeo a x = b em relaccedilatildeo a x
solve(a) matriz inversa de a
rowSum(x) soma das linhas da matrix x
colSum(x) soma das colunas da matrix x
rowMeans x meacutedia das linhas da matrix x
colMeans(x) id meacutedia das colunas da matrix x
g) Graacuteficos (Plotting)plot(x y) diagrama de disperccedilatildeo plot dos pares (xy) num sistema de eixos
coordenadoshist(x) histogram dasfrequecircncias of x
barplot(x) graacutefico de barras of x usar horiz=T ara barras horizontal
pie(x) graacutefico de setores (pie-chart)
boxplot(x)
qqnorm(x) quantis de x em relaccedilatildeo aos valores esperados de uma dist Normal
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5761
A2ndashResumo de comandosparametros dos commando de Graacutefico
type=p especifica o tipo de plot p pontos l linhas b pontos
ligados por linhas o idecircntico mas as linhas passam sobre os pontos h
linhas verticais s escada (steps) os dados satildeo representados pelas alturasverticais
xlim= ylim= especifica os limites inferiores e superiores dos eixos por exemplocom xlim=c(1 10) ou xlim=range(x)
xlab= ylab= nomeia os eixos o nome deve ser do tipo caracter
main= tiacutetulo principal deve ser do tipo caracter
sub= sub-tiacutetulo (escrito em fonte menor)
podem ser usados como bty(tipo de caixa) lwd (lagura da linha) lty (tipo delinha) pch(tipo de ponto) cex xaxs yaxs xaxtyaxt
h) Teste de hipoacuteteses
ttest()proptest()
chisqtest()
aov(formula) analysis of variance model
anova(fit) analysis of variance (or deviance) tables for one or more
fitted model objects
Use o commando gt test para procurar todos os testes disponiacuteveis
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5861
A2ndashResumo de comandos
i) Programmingfunction( arglist ) expr para definer uma funccedilatildeo
return(value)
if(cond) expr
if(cond) consexpr else altexpr
for(var in seq) expr
while(cond) expr
re eat ex r
break
Usar chaves entre commandos dlimitando o iniacutecio e o fim de um grupo decomandos
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5961
A2ndashResumo de comandos
j) Commandos auxiliaries em Graacuteficospoints(x y) adiciona pontos (a opccedilatildeo type= pode ser usada)
lines(x y) adiciona linhas (a opccedilatildeo type= pode ser usada)text(x y labels ) adiciona texto na coordenada (xy) um uso tiacutepico eacute
plot(x y type=n) text(x ynames)
segments(x0 y0 x1 y1) desenha linhas do ponto (x0 y0) ao (x1 y1)
arrows(x0 y0 x1 y1 angle= 30 code=2) desenha seta do ponto
(x0 y0) ao (x1 y1)
abline(ab) desenha uma reta de inclinaccedilatildeo b e intercepto a
abline(v=x) desenha uma reta vertical em x
abline(lsfit(xy)) desenha uma reta da regressatildeo feita em lsfit(xy)
rect(x1 y1 x2 y2) desenha um retacircngulo que a esquerda inferior tem coordenadas(x1 y1) e o limite da direita superiores (x2 y2)
polygon(x y) desenha um poliacutegono que une os pontos com coordenadas X e Y
legend(x y legend) Acrescenta a lenda no ponto (x y) com os siacutembolos
dada pela legend
title()adiciona um tiacutetulo e opcionalmente um sub-tiacutetulo
axis(side) acrescenta um eixo na parte inferior (side = 1) agrave esquerda (2) na partesuperior (3) ou agrave direita (4)
box()desenhar uma caixa em torno do plot
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6061
A2ndashResumo de comandos
k) Comando par (Graphical parameters)Todos estes comando podem ser definidos a niacutevel global com o par () que
especifica os paracircmetros mas tambeacutem muitos podem ser usados comoparametros dos commando de Graacutefico
mfcol vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em colunas
mfrow vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em linhas(matrix for row)
bty controla o tipo de caixa desenhada ao redor do enredo valores permitidos satildeo
o l 7 c u ou se bt =n a caixa natildeo eacute desenhada
lty controla o tipo de linhas pode ser um inteiro ou string (1 solid 2 dashed 3dotted 4 dotdash 5 longdash 6twodash) ou uma string de ateacuteoito caracteres (entre 0 e 9) que especifica o comprimento em pontos oupixels dos elementos desenhados e os espaccedilos em branco por exemplolty=rdquo44rdquo equivale a lty=2
lwd nuacutemero que controla a largura das linhas default 1pch controla o tipo de siacutembolo pode tambeacutem ser um nuacutemero inteiro entre 1 e 25
ps um inteiro que controla o tamanho em pontos de textos e siacutembolos
pty um caracter que especifica o tipo da regiatildeo s quadrado m maacuteximal
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6161
A2ndashResumo de comandos
l) Input and outputreadtable(file) lecirc um arquivo em formato de tabela e cria um quadro de dados a
partir dele o separador default = eacute espaccedilo em branco header = TRUE ler a
primeira linha como um cabeccedilalho de nomes de coluna asis = TRUE paraevitar aque um vetore de caracteres seja convertido em factores usocommentchar = para evitar seja interpretado como um comentaacuteriouso skip = n para pular n linhas antes da leitura de dados consulte a ajudapara as opccedilotildees de linha de nomeaccedilatildeo o tratamento NA e outros
readcsv(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por viacutergulas
readdelim(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por tabulaccedilotildees
readfwf(filewidthsheader=FALSEsep= asis=FALSE)
ler uma tabela de dados em formato fix de largura m para um dataframe widthseacute um vetor inteiro informando os tamanhos dos campos
sink(file) saiacuteda de todos os comandos para um arquivo ateacute aparecer um comando
sink () que desliga writetable(x file=rownames=Tcolnames=Tsep= ) imprime x apoacutes a
conversatildeo para banco de dados
save(file) guarda os objetos especificados () no formato XDR
load()carregar o conjunto de dados salvos com o comando save
data(x) carrega um conjunto de dados especificado
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5761
A2ndashResumo de comandosparametros dos commando de Graacutefico
type=p especifica o tipo de plot p pontos l linhas b pontos
ligados por linhas o idecircntico mas as linhas passam sobre os pontos h
linhas verticais s escada (steps) os dados satildeo representados pelas alturasverticais
xlim= ylim= especifica os limites inferiores e superiores dos eixos por exemplocom xlim=c(1 10) ou xlim=range(x)
xlab= ylab= nomeia os eixos o nome deve ser do tipo caracter
main= tiacutetulo principal deve ser do tipo caracter
sub= sub-tiacutetulo (escrito em fonte menor)
podem ser usados como bty(tipo de caixa) lwd (lagura da linha) lty (tipo delinha) pch(tipo de ponto) cex xaxs yaxs xaxtyaxt
h) Teste de hipoacuteteses
ttest()proptest()
chisqtest()
aov(formula) analysis of variance model
anova(fit) analysis of variance (or deviance) tables for one or more
fitted model objects
Use o commando gt test para procurar todos os testes disponiacuteveis
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5861
A2ndashResumo de comandos
i) Programmingfunction( arglist ) expr para definer uma funccedilatildeo
return(value)
if(cond) expr
if(cond) consexpr else altexpr
for(var in seq) expr
while(cond) expr
re eat ex r
break
Usar chaves entre commandos dlimitando o iniacutecio e o fim de um grupo decomandos
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5961
A2ndashResumo de comandos
j) Commandos auxiliaries em Graacuteficospoints(x y) adiciona pontos (a opccedilatildeo type= pode ser usada)
lines(x y) adiciona linhas (a opccedilatildeo type= pode ser usada)text(x y labels ) adiciona texto na coordenada (xy) um uso tiacutepico eacute
plot(x y type=n) text(x ynames)
segments(x0 y0 x1 y1) desenha linhas do ponto (x0 y0) ao (x1 y1)
arrows(x0 y0 x1 y1 angle= 30 code=2) desenha seta do ponto
(x0 y0) ao (x1 y1)
abline(ab) desenha uma reta de inclinaccedilatildeo b e intercepto a
abline(v=x) desenha uma reta vertical em x
abline(lsfit(xy)) desenha uma reta da regressatildeo feita em lsfit(xy)
rect(x1 y1 x2 y2) desenha um retacircngulo que a esquerda inferior tem coordenadas(x1 y1) e o limite da direita superiores (x2 y2)
polygon(x y) desenha um poliacutegono que une os pontos com coordenadas X e Y
legend(x y legend) Acrescenta a lenda no ponto (x y) com os siacutembolos
dada pela legend
title()adiciona um tiacutetulo e opcionalmente um sub-tiacutetulo
axis(side) acrescenta um eixo na parte inferior (side = 1) agrave esquerda (2) na partesuperior (3) ou agrave direita (4)
box()desenhar uma caixa em torno do plot
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6061
A2ndashResumo de comandos
k) Comando par (Graphical parameters)Todos estes comando podem ser definidos a niacutevel global com o par () que
especifica os paracircmetros mas tambeacutem muitos podem ser usados comoparametros dos commando de Graacutefico
mfcol vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em colunas
mfrow vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em linhas(matrix for row)
bty controla o tipo de caixa desenhada ao redor do enredo valores permitidos satildeo
o l 7 c u ou se bt =n a caixa natildeo eacute desenhada
lty controla o tipo de linhas pode ser um inteiro ou string (1 solid 2 dashed 3dotted 4 dotdash 5 longdash 6twodash) ou uma string de ateacuteoito caracteres (entre 0 e 9) que especifica o comprimento em pontos oupixels dos elementos desenhados e os espaccedilos em branco por exemplolty=rdquo44rdquo equivale a lty=2
lwd nuacutemero que controla a largura das linhas default 1pch controla o tipo de siacutembolo pode tambeacutem ser um nuacutemero inteiro entre 1 e 25
ps um inteiro que controla o tamanho em pontos de textos e siacutembolos
pty um caracter que especifica o tipo da regiatildeo s quadrado m maacuteximal
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6161
A2ndashResumo de comandos
l) Input and outputreadtable(file) lecirc um arquivo em formato de tabela e cria um quadro de dados a
partir dele o separador default = eacute espaccedilo em branco header = TRUE ler a
primeira linha como um cabeccedilalho de nomes de coluna asis = TRUE paraevitar aque um vetore de caracteres seja convertido em factores usocommentchar = para evitar seja interpretado como um comentaacuteriouso skip = n para pular n linhas antes da leitura de dados consulte a ajudapara as opccedilotildees de linha de nomeaccedilatildeo o tratamento NA e outros
readcsv(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por viacutergulas
readdelim(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por tabulaccedilotildees
readfwf(filewidthsheader=FALSEsep= asis=FALSE)
ler uma tabela de dados em formato fix de largura m para um dataframe widthseacute um vetor inteiro informando os tamanhos dos campos
sink(file) saiacuteda de todos os comandos para um arquivo ateacute aparecer um comando
sink () que desliga writetable(x file=rownames=Tcolnames=Tsep= ) imprime x apoacutes a
conversatildeo para banco de dados
save(file) guarda os objetos especificados () no formato XDR
load()carregar o conjunto de dados salvos com o comando save
data(x) carrega um conjunto de dados especificado
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5861
A2ndashResumo de comandos
i) Programmingfunction( arglist ) expr para definer uma funccedilatildeo
return(value)
if(cond) expr
if(cond) consexpr else altexpr
for(var in seq) expr
while(cond) expr
re eat ex r
break
Usar chaves entre commandos dlimitando o iniacutecio e o fim de um grupo decomandos
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5961
A2ndashResumo de comandos
j) Commandos auxiliaries em Graacuteficospoints(x y) adiciona pontos (a opccedilatildeo type= pode ser usada)
lines(x y) adiciona linhas (a opccedilatildeo type= pode ser usada)text(x y labels ) adiciona texto na coordenada (xy) um uso tiacutepico eacute
plot(x y type=n) text(x ynames)
segments(x0 y0 x1 y1) desenha linhas do ponto (x0 y0) ao (x1 y1)
arrows(x0 y0 x1 y1 angle= 30 code=2) desenha seta do ponto
(x0 y0) ao (x1 y1)
abline(ab) desenha uma reta de inclinaccedilatildeo b e intercepto a
abline(v=x) desenha uma reta vertical em x
abline(lsfit(xy)) desenha uma reta da regressatildeo feita em lsfit(xy)
rect(x1 y1 x2 y2) desenha um retacircngulo que a esquerda inferior tem coordenadas(x1 y1) e o limite da direita superiores (x2 y2)
polygon(x y) desenha um poliacutegono que une os pontos com coordenadas X e Y
legend(x y legend) Acrescenta a lenda no ponto (x y) com os siacutembolos
dada pela legend
title()adiciona um tiacutetulo e opcionalmente um sub-tiacutetulo
axis(side) acrescenta um eixo na parte inferior (side = 1) agrave esquerda (2) na partesuperior (3) ou agrave direita (4)
box()desenhar uma caixa em torno do plot
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6061
A2ndashResumo de comandos
k) Comando par (Graphical parameters)Todos estes comando podem ser definidos a niacutevel global com o par () que
especifica os paracircmetros mas tambeacutem muitos podem ser usados comoparametros dos commando de Graacutefico
mfcol vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em colunas
mfrow vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em linhas(matrix for row)
bty controla o tipo de caixa desenhada ao redor do enredo valores permitidos satildeo
o l 7 c u ou se bt =n a caixa natildeo eacute desenhada
lty controla o tipo de linhas pode ser um inteiro ou string (1 solid 2 dashed 3dotted 4 dotdash 5 longdash 6twodash) ou uma string de ateacuteoito caracteres (entre 0 e 9) que especifica o comprimento em pontos oupixels dos elementos desenhados e os espaccedilos em branco por exemplolty=rdquo44rdquo equivale a lty=2
lwd nuacutemero que controla a largura das linhas default 1pch controla o tipo de siacutembolo pode tambeacutem ser um nuacutemero inteiro entre 1 e 25
ps um inteiro que controla o tamanho em pontos de textos e siacutembolos
pty um caracter que especifica o tipo da regiatildeo s quadrado m maacuteximal
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6161
A2ndashResumo de comandos
l) Input and outputreadtable(file) lecirc um arquivo em formato de tabela e cria um quadro de dados a
partir dele o separador default = eacute espaccedilo em branco header = TRUE ler a
primeira linha como um cabeccedilalho de nomes de coluna asis = TRUE paraevitar aque um vetore de caracteres seja convertido em factores usocommentchar = para evitar seja interpretado como um comentaacuteriouso skip = n para pular n linhas antes da leitura de dados consulte a ajudapara as opccedilotildees de linha de nomeaccedilatildeo o tratamento NA e outros
readcsv(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por viacutergulas
readdelim(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por tabulaccedilotildees
readfwf(filewidthsheader=FALSEsep= asis=FALSE)
ler uma tabela de dados em formato fix de largura m para um dataframe widthseacute um vetor inteiro informando os tamanhos dos campos
sink(file) saiacuteda de todos os comandos para um arquivo ateacute aparecer um comando
sink () que desliga writetable(x file=rownames=Tcolnames=Tsep= ) imprime x apoacutes a
conversatildeo para banco de dados
save(file) guarda os objetos especificados () no formato XDR
load()carregar o conjunto de dados salvos com o comando save
data(x) carrega um conjunto de dados especificado
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 5961
A2ndashResumo de comandos
j) Commandos auxiliaries em Graacuteficospoints(x y) adiciona pontos (a opccedilatildeo type= pode ser usada)
lines(x y) adiciona linhas (a opccedilatildeo type= pode ser usada)text(x y labels ) adiciona texto na coordenada (xy) um uso tiacutepico eacute
plot(x y type=n) text(x ynames)
segments(x0 y0 x1 y1) desenha linhas do ponto (x0 y0) ao (x1 y1)
arrows(x0 y0 x1 y1 angle= 30 code=2) desenha seta do ponto
(x0 y0) ao (x1 y1)
abline(ab) desenha uma reta de inclinaccedilatildeo b e intercepto a
abline(v=x) desenha uma reta vertical em x
abline(lsfit(xy)) desenha uma reta da regressatildeo feita em lsfit(xy)
rect(x1 y1 x2 y2) desenha um retacircngulo que a esquerda inferior tem coordenadas(x1 y1) e o limite da direita superiores (x2 y2)
polygon(x y) desenha um poliacutegono que une os pontos com coordenadas X e Y
legend(x y legend) Acrescenta a lenda no ponto (x y) com os siacutembolos
dada pela legend
title()adiciona um tiacutetulo e opcionalmente um sub-tiacutetulo
axis(side) acrescenta um eixo na parte inferior (side = 1) agrave esquerda (2) na partesuperior (3) ou agrave direita (4)
box()desenhar uma caixa em torno do plot
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6061
A2ndashResumo de comandos
k) Comando par (Graphical parameters)Todos estes comando podem ser definidos a niacutevel global com o par () que
especifica os paracircmetros mas tambeacutem muitos podem ser usados comoparametros dos commando de Graacutefico
mfcol vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em colunas
mfrow vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em linhas(matrix for row)
bty controla o tipo de caixa desenhada ao redor do enredo valores permitidos satildeo
o l 7 c u ou se bt =n a caixa natildeo eacute desenhada
lty controla o tipo de linhas pode ser um inteiro ou string (1 solid 2 dashed 3dotted 4 dotdash 5 longdash 6twodash) ou uma string de ateacuteoito caracteres (entre 0 e 9) que especifica o comprimento em pontos oupixels dos elementos desenhados e os espaccedilos em branco por exemplolty=rdquo44rdquo equivale a lty=2
lwd nuacutemero que controla a largura das linhas default 1pch controla o tipo de siacutembolo pode tambeacutem ser um nuacutemero inteiro entre 1 e 25
ps um inteiro que controla o tamanho em pontos de textos e siacutembolos
pty um caracter que especifica o tipo da regiatildeo s quadrado m maacuteximal
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6161
A2ndashResumo de comandos
l) Input and outputreadtable(file) lecirc um arquivo em formato de tabela e cria um quadro de dados a
partir dele o separador default = eacute espaccedilo em branco header = TRUE ler a
primeira linha como um cabeccedilalho de nomes de coluna asis = TRUE paraevitar aque um vetore de caracteres seja convertido em factores usocommentchar = para evitar seja interpretado como um comentaacuteriouso skip = n para pular n linhas antes da leitura de dados consulte a ajudapara as opccedilotildees de linha de nomeaccedilatildeo o tratamento NA e outros
readcsv(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por viacutergulas
readdelim(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por tabulaccedilotildees
readfwf(filewidthsheader=FALSEsep= asis=FALSE)
ler uma tabela de dados em formato fix de largura m para um dataframe widthseacute um vetor inteiro informando os tamanhos dos campos
sink(file) saiacuteda de todos os comandos para um arquivo ateacute aparecer um comando
sink () que desliga writetable(x file=rownames=Tcolnames=Tsep= ) imprime x apoacutes a
conversatildeo para banco de dados
save(file) guarda os objetos especificados () no formato XDR
load()carregar o conjunto de dados salvos com o comando save
data(x) carrega um conjunto de dados especificado
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6061
A2ndashResumo de comandos
k) Comando par (Graphical parameters)Todos estes comando podem ser definidos a niacutevel global com o par () que
especifica os paracircmetros mas tambeacutem muitos podem ser usados comoparametros dos commando de Graacutefico
mfcol vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em colunas
mfrow vetor da forma c(nr nc) que reparte a janela graacutefica como uma matriz de nclinhas e nr colunas os plotacutes satildeo entatildeo elaborado em linhas(matrix for row)
bty controla o tipo de caixa desenhada ao redor do enredo valores permitidos satildeo
o l 7 c u ou se bt =n a caixa natildeo eacute desenhada
lty controla o tipo de linhas pode ser um inteiro ou string (1 solid 2 dashed 3dotted 4 dotdash 5 longdash 6twodash) ou uma string de ateacuteoito caracteres (entre 0 e 9) que especifica o comprimento em pontos oupixels dos elementos desenhados e os espaccedilos em branco por exemplolty=rdquo44rdquo equivale a lty=2
lwd nuacutemero que controla a largura das linhas default 1pch controla o tipo de siacutembolo pode tambeacutem ser um nuacutemero inteiro entre 1 e 25
ps um inteiro que controla o tamanho em pontos de textos e siacutembolos
pty um caracter que especifica o tipo da regiatildeo s quadrado m maacuteximal
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6161
A2ndashResumo de comandos
l) Input and outputreadtable(file) lecirc um arquivo em formato de tabela e cria um quadro de dados a
partir dele o separador default = eacute espaccedilo em branco header = TRUE ler a
primeira linha como um cabeccedilalho de nomes de coluna asis = TRUE paraevitar aque um vetore de caracteres seja convertido em factores usocommentchar = para evitar seja interpretado como um comentaacuteriouso skip = n para pular n linhas antes da leitura de dados consulte a ajudapara as opccedilotildees de linha de nomeaccedilatildeo o tratamento NA e outros
readcsv(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por viacutergulas
readdelim(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por tabulaccedilotildees
readfwf(filewidthsheader=FALSEsep= asis=FALSE)
ler uma tabela de dados em formato fix de largura m para um dataframe widthseacute um vetor inteiro informando os tamanhos dos campos
sink(file) saiacuteda de todos os comandos para um arquivo ateacute aparecer um comando
sink () que desliga writetable(x file=rownames=Tcolnames=Tsep= ) imprime x apoacutes a
conversatildeo para banco de dados
save(file) guarda os objetos especificados () no formato XDR
load()carregar o conjunto de dados salvos com o comando save
data(x) carrega um conjunto de dados especificado
7232019 Minicurso R SBPO 2010
httpslidepdfcomreaderfullminicurso-r-sbpo-2010 6161
A2ndashResumo de comandos
l) Input and outputreadtable(file) lecirc um arquivo em formato de tabela e cria um quadro de dados a
partir dele o separador default = eacute espaccedilo em branco header = TRUE ler a
primeira linha como um cabeccedilalho de nomes de coluna asis = TRUE paraevitar aque um vetore de caracteres seja convertido em factores usocommentchar = para evitar seja interpretado como um comentaacuteriouso skip = n para pular n linhas antes da leitura de dados consulte a ajudapara as opccedilotildees de linha de nomeaccedilatildeo o tratamento NA e outros
readcsv(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por viacutergulas
readdelim(filenameheader=TRUE) idecircntico mas com os padrotildees estabelecidospara ler arquivos delimitados por tabulaccedilotildees
readfwf(filewidthsheader=FALSEsep= asis=FALSE)
ler uma tabela de dados em formato fix de largura m para um dataframe widthseacute um vetor inteiro informando os tamanhos dos campos
sink(file) saiacuteda de todos os comandos para um arquivo ateacute aparecer um comando
sink () que desliga writetable(x file=rownames=Tcolnames=Tsep= ) imprime x apoacutes a
conversatildeo para banco de dados
save(file) guarda os objetos especificados () no formato XDR
load()carregar o conjunto de dados salvos com o comando save
data(x) carrega um conjunto de dados especificado