alguns comandos no r. aula 1 minicurso
Post on 06-Jul-2018
226 Views
Preview:
TRANSCRIPT
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 143
Alguns comandos no R Aula 1 minicurso
10 de outubro de 2013
I congreso Internacional de Estadıstica Trujillo-Peru 2013
ResumoMuitos programas de computador auxiliam as analises de dados
de pesquisas e estas analises recaem em pacotes estatısticos que no mer-cado sao pagos ou alugados com licencas que expiram ou se renovamperiodicamente No entanto a plataforma R supera estes impassesproporcionando um programa livre (o seu codigo fonte esta disponıvelpara alteracao pelo usuario) e gratuito (sem custo monetario) usandoa linguagem de programacao S do SPLUS Este programa e confiavelpela qualidade dos seus resultados e pela estabilidade em ambientescomo Linux e Windows Atualmente o R disponibiliza mais de 1000pacotes para serem instaladas na sua biblioteca porem cada area uti-liza funcoes especıficas por exemplo em econometria podemos esta
interessados inicialmente nos pacotes ldquolmtestrdquo ldquoquantregrdquo ldquoKernS-moothrdquo ldquocarrdquo ldquostrucchangerdquo ldquoAERrdquo alem do pacote padrao ldquostatsrdquoPara series temporais podemos acrescentar os pacotes ldquotseriesrdquo ldquofo-recastrdquo ldquofracdiffrdquo ldquoTSA rdquo ldquovarsrdquo todos estes pacotes podem ser fa-cilmente baixados (download) via internet alem disso os seus tutoriaisestao disponıveis no formato htlm pdf como alternativa use a a juda(help) do R
1
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 243
1 INICIANDO O R
1 Iniciando o R
Para instalar o R temos que estar conectados a internet e baixar dire-tamente da pagina httpwwwr-projectorg Se estamos usando a pla-taforma Windows baixar o R para Windows atualmente a versao e 301disponıvel desde 25092013
Figura 1 Visualizacao na inicializacao do R
Quando instalamos o R uma lista de pacotes padrao ja estao nabiblioteca os quais sao visualizados com a funcao search()
gt search()
[1] GlobalEnv packagestats packagegraphics
[4] packagegrDevices packageutils packagedatasets
[7] packagemethods Autoloads packagebase
Castaneda Daniel F N 2013 2
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 343
11 Dados permanentes e removendo objetos 1 INICIANDO O R
Para instalar pacotes do R uma lista completa esta disponıvel com o
comando
installpackages()
11 Dados permanentes e removendo objetos
Durante uma sessao no R objetos sao criados e guardados por nomespara verificar estes objetos usamos o comando ou funcao
objects( ) ou gtls( )
[1] a1 a2 aa acei
[5] ads aju aju1 ajuste
[9] ajuste1 ajuste2 ajustehw ara
Para remover objetos antigos ou sem uso utilizamos o comando rm()
rm(a1 a2 aa acei ads aju)
Para detectar os pacotes na biblioteca local
library()
Para instalar o pacote urca disponıvel na biblioteca
installpackages(urca)
Um pacote instalado tem que ser chamado no R para realizar a tarefaPara chamar o pacote urca ja instalado
library(urca)
Para verificar os pacotes na biblioteca externa
updatepackages()
Para ver a lista de pacotes instalados na biblioteca local
installedpackages()
Castaneda Daniel F N 2013 3
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 443
12 Manipulac˜ ao de numeros e vetores 1 INICIANDO O R
12 Manipulacao de numeros e vetores
Para declarar numeros exemplo v =983131
10983133
realizamos o seguinte co-mando
v=10
v
[1] 10
Alertamos que no R o sımbolo lt minus e equivalente ao sımbolo =Considere o seguinte vetor com os numeros 1 3 34 6 99 3 com o nomeq =
9831311 3 34 6 99 3
983133 usamos
q=c(13346993)
Comandos de operacoes algebraicas sao usados com os sinais conven-cionais sendo + para soma - para a diferenca para multiplicacao e para divisaoAssim para inverter q podemos usar
1q
[1] 10000000 03333333 029411765 01666667 00101010 03333333
No R podemos utilizar comando logicos como verdadeiro ou falso paraos valores de q maiores do que 3 assim
qgt3
[1] FALSE FALSE TRUE TRUE TRUE FALSE
para restringir valores de q maiores do que 3
q[qgt3]
[1] 34 6 99
Podemos converter numeros em caracteres ou dıgitos assim
z2=c(09) equivalente a z2=09
digit=ascharacter(z2)
digit
[1] 0 1 2 3 4 5 6 7 8 9
Para retornar dıgitos em numeros com o seguinte comando
d=asinteger(digit)
d
[1] 0 1 2 3 4 5 6 7 8 9
Castaneda Daniel F N 2013 4
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 543
12 Manipulac˜ ao de numeros e vetores 1 INICIANDO O R
Para preparar uma variavel para ingressar seus valores por exemplo
e=numeric()
e[3]=17
Onde o terceiro elemento e 17 e os dois primeiros ainda nao definidos
e
[1] NA NA 17
Podemos ainda declarar os outros elementos de e
Para Construir um vetor qualitativo sendo na ordem 10 homens e 5
mulheres usamos a funcao rep()
w=c(rep(homem10) rep(mulher5))
w
[1] homem homem homem homem homem homem homem
[8] homem homem homem mulher mulher mulher mulher
[15] mulher
Considere o tamanho do calcado no pe de cada individuo em w
pe=c(404239414440424144403535373637)
Podemos identificar a distribuicao de frequencias de w e pe da seguinteforma
table(wpe)
pe
w 35 36 37 39 40 41 42 44
homem 0 0 0 1 3 2 2 2
mulher 2 1 2 0 0 0 0 0
Para construir graficos para as tabelas usamos as funcoes
plot(table(wpe) main=Frequenciasxlab=sexoylab=n umero)
barplot(table(wpe) main=Frequencias ylab=casosxlab=pe)legend(topleft legend=c(mulherhomem) col=c(81)lty=c(11))
Seus respectivo graficos sao
Castaneda Daniel F N 2013 5
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 643
13 Func˜ oes matematicas 1 INICIANDO O R
Frequecircncias
sexo
n uacute m e r o
homem mulher
3 5
3 6
3 7
3 9
4 0
4 1
4 2
4 4
35 36 37 39 40 41 42 44
Frequecircncias
peacute
c a s o s
0 0
0
5
1 0
1 5
2 0
2
5
3 0
mulherhomem
Figura 2 Descricao do calcado por sexo
13 Funcoes matematicas
Para utilizar as funcoes matematicas usamos os comandos
gt history() comandos usados previamente
gt length(x) numero de elementos do vetor ou lista x
gt log(x) log na base e de x
gt exp(x) antilogaritmo de x
gt log(xn) log na base n de x
gt log10(x) log na base 10 de x
gt sqrt(x) raiz quadrada de x
gt factorial(x) factorial de x(x)gt choose(nx) combinatoria n(x(n-x))
gt gamma(x) x (x-1) x inteiro
gt floor(x) menor inteiro de x
gt trunc(x) escolha do menor inteiro
gt abs(x) valor absoluto de x
gt cos(x) cosseno de x
gt sin(x) seno de x
gt tan(x) tangente de x
gt acos(x) inversa cosseno
gt asin(x) inversa seno
gt atan(x) inversa tangentegt acosh(x) inversa cosseno hiperbolica
gt asinh(x) inversa seno hiperbolica
gt atanh(x) inversa tangente hiperbolica
gt round(x digits=2) aproximac~ao a duas casas decimais
gt signif(x digits=6) x com notac~ao cientıfica de 6 dıgitos
Castaneda Daniel F N 2013 6
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 743
14 Func˜ oes estatısticas 1 INICIANDO O R
14 Funcoes estatısticas
gt max(x) valor maximo de x
gt min(x) valor mınimo de x
gt sum(x) soma total dos valores de x
gt mean(x) media aritmetica de x
gt median(x) mediana de x
gt range(x) vetor de mınimo e maximo de x
gt summary(x) resumo de estatısticas de locac~ao de x
gt var(x) variancia de x
gt cor(xy) correlac~a o d e x e y
gt sort(x) ordena em forma crescente os elementos de x
gt rank(x) vector de filas em xgt order(x) valores originais de x
gt quantile(x) vetor contendo os quartis de x
gt cumsum(x) vetor contendo a suma total elemento a elemento
gt cumprod(x) vetor contendo o produto elemento a elemento
gt cummax(x) vetor n~ao decrescente de x substituindo valores
gt cummin(x) vetor n~ao crescente de x substitui os valores
pelo mınimo
gt pmax(xyz) vetor contendo o vetor maior entre x y ou z e
substituindo o maximo em cada posic~ao
gt pmin(xyz) vetor contendo o vetor maior entre x y ou z
e substituindo o mınimo em cada posic~aogt colMeans(x) calcula a media por colunas na matriz x
gt colSums(x) calcula os totais por coluna na matriz x
gt rowMeans(x) calcula a media por linhas na matriz x
gt rowSums(x) calcula os totais por linhas na matriz x
15 Cores
O R disponibiliza cores usando a funcao palette() com 8 cores outrafuncao e colours() e que tambem podem ser identificados por um numero
ja especificado por exemplo
teta=(120)092plot(tetasin(teta) col=red pch=16cex=2) ou
plot(tetasin(teta) col=2 pch=16cex=2)
Onde cex representa o caracter de expansao da bolinha (quanto maior onumero maior a bolinha) Para incrementar varias cores no mesmo graficopodemos realizar o seguinte comando
Castaneda Daniel F N 2013 7
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 843
16 Fatores ordenados e desordenados 1 INICIANDO O R
plot(tetasin(teta) col=120 pch=16cex=2)
Para modificar a bolinha apenas modificamos pch
plot(tetasin(teta) col=120 pch=+cex=2)
Cores podem tambem ser incrementadas fora do corpo do grafico
plot(tetasin(teta) main=seno colmain=4 col=120 pch=+cex=2)
Outras alteracoes de cores podem ser construıdas com
colmain cor para o tıtulo do grafico
colaxis cor para os numeros dos eixos
collab cor para os tıtulos dos eixoscolsub cor para o subtıtulo do grafico
A fonte pode ser alterada da seguinte maneira
fontmain fonte para o tıtulo do grafico
fontaxis fonte para os numeros dos eixos
fontlab fonte para os tıtulos dos eixos
fontsub fonte para o subtıtulo do grafico
Onde 1 e texto normal 2 preto 3 italico 4 preto italico para simbolofonte A orientacao dos numeros pode ser alterada com o comando las= onde 1 horizontal a x 2 perpendicular a x 3 perpendicular a ambos eixos)
16 Fatores ordenados e desordenados
exemplo
estados=c(PEALSEBAPBBAPBALSEBAPB
+ SE BASEBA)
estadosf=factor(estados)
estadosf
[1] PE AL SE BA PB BA PB AL SE BA PB SE BA SE BA
Levels AL BA PB PE SE
levels(estadosf)[1] AL BA PB PE SE
salarios=c(604959564948565960696658475868)
A funcao tapply e usada para reordenar vetores calculando uma carac-terıstica dos nıveis no exemplo suponha que os salarios medio e o desviopadrao por cada trabalhador por dia nos estados seja dado a seguir
Castaneda Daniel F N 2013 8
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 943
17 Vetores e Matrizes 1 INICIANDO O R
mestados=tapply(salariosestadosfmean) media
mestados
AL BA PB PE SE
5400 5760 5700 6000 5875
destados=tapply(salariosestadosfsd) desvio padr~ao
destados
AL BA PB PE SE
70710678 105498815 85440037 NA 09574271
Construımos a funcao do coeficiente de variacao de duas formas distintase incluımos no comando tapply
cv=function(x) sd(x)100mean(x)cvestados=tapply(salariosestadosfcv)
cvestados
AL BA PB PE SE
13094570 18315767 14989480 NA 1629663
cv=function(x) sqrt(var(x))100mean(x)
cvestados=tapply(salariosestadosfcv)
cvestados
AL BA PB PE SE
13094570 18315767 14989480 NA 1629663
17 Vetores e Matrizes
Um vetor pode ser considerado como a entrada de uma colecao de dadossendo estes numericos ou nao R facilita a manipulacao e construcao de veto-res e matrizes Considere a construcao de 30 numeros aleatorios Uniformesem duas matrizes de 3 linhas por 5 colunas
z=runif(30)
dim(z)=c(352)
z
1
[1] [2] [3] [4] [5]
[1] 09500783 09262226 005847740 034257312 03718370
[2] 08591887 07057183 020592054 003569694 06709746
[3] 06806468 06270572 001570158 021650180 05170189
Castaneda Daniel F N 2013 9
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1043
18 Indexando matrizes 1 INICIANDO O R
2
[1] [2] [3] [4] [5]
[1] 03539723 05918548 037104534 02148440 04169542
[2] 08895178 05751237 069399721 03808024 03872492
[3] 08036340 07065130 003400331 01593949 02306890
18 Indexando matrizes
x=array(120dim=c(45))
x
[1] [2] [3] [4] [5]
[1] 1 5 9 13 17[2] 2 6 10 14 18
[3] 3 7 11 15 19
[4] 4 8 12 16 20
i=array(c(1331)dim=c(32))
i
[1] [2]
[1] 1 3
[2] 2 2
[3] 3 1
gt x[i][ 1 ] 9 6 3
x[13]=9 x[22]=6 x[31]=3
O ındice i indica os valores da matriz x a serem extraıdos temos
x[i]=0 Substituımos x[i] por zero
x
[1] [2] [3] [4] [5]
[1] 1 5 0 13 17
[2] 2 0 10 14 18[3] 0 7 11 15 19
[4] 4 8 12 16 20
Construindo uma matriz 3 times 3 com elementos de 1 ao 9
c=matrix(c(19)33)
Castaneda Daniel F N 2013 10
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1143
19 Sequencias 1 INICIANDO O R
c
[1] [2] [3]
[1] 1 4 7
[2] 2 5 8
[3] 3 6 9
19 Sequencias
Sequencias sao construıdas ingressando o primeiro elemento o ultimoelemento e o espacamento
b=seq(1014 by=5)
b[1] 100 105 110 115 120 125 130 135 140
a=seq(19)
ab=ab multiplicando vetores
ab
[1]
[1] 570
ab=outer(ab)
ab
[1] [2] [3] [4] [5] [6] [7] [8] [9]
[1] 10 105 11 115 12 125 13 135 14
[2] 20 210 22 230 24 250 26 270 28[3] 30 315 33 345 36 375 39 405 42
[4] 40 420 44 460 48 500 52 540 56
[5] 50 525 55 575 60 625 65 675 70
[6] 60 630 66 690 72 750 78 810 84
[7] 70 735 77 805 84 875 91 945 98
[8] 80 840 88 920 96 1000 104 1080 112
[9] 90 945 99 1035 108 1125 117 1215 126
ab=at(b)
ab
[1] [2] [3] [4] [5] [6] [7] [8] [9][1] 10 105 11 115 12 125 13 135 14
[2] 20 210 22 230 24 250 26 270 28
[3] 30 315 33 345 36 375 39 405 42
[4] 40 420 44 460 48 500 52 540 56
[5] 50 525 55 575 60 625 65 675 70
Castaneda Daniel F N 2013 11
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1243
110 Multiplicando matrizes 1 INICIANDO O R
[6] 60 630 66 690 72 750 78 810 84
[7] 70 735 77 805 84 875 91 945 98
[8] 80 840 88 920 96 1000 104 1080 112
[9] 90 945 99 1035 108 1125 117 1215 126
d=outer(0909)
d
[1] [2] [3] [4] [5] [6] [7] [8] [9] [10]
[1] 0 0 0 0 0 0 0 0 0 0
[2] 0 1 2 3 4 5 6 7 8 9
[3] 0 2 4 6 8 10 12 14 16 18
[4] 0 3 6 9 12 15 18 21 24 27
[5] 0 4 8 12 16 20 24 28 32 36
[6] 0 5 10 15 20 25 30 35 40 45
[7] 0 6 12 18 24 30 36 42 48 54
[8] 0 7 14 21 28 35 42 49 56 63
[9] 0 8 16 24 32 40 48 56 64 72
[10] 0 9 18 27 36 45 54 63 72 81
110 Multiplicando matrizes
Para a construcao de matrizes o preenchimentos das celulas ou casas e
feita coluna a coluna como padrao exemplo
a= matrix(c(19)33)
a
[1] [2] [3]
[1] 1 4 7
[2] 2 5 8
[3] 3 6 9
podemos construir esta mesma matriz preenchendo as casas linha por linhada seguinte forma
at=matrix(c(19)33byrow=T)
at
[1] [2] [3]
[1] 1 2 3
[2] 4 5 6
[3] 7 8 9
Castaneda Daniel F N 2013 12
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1343
111 Invers˜ ao de matrizes 1 INICIANDO O R
Uma alternativa seria usar a funcao aperm()
b= aperm(ac(21))
b
[1] [2] [3]
[1] 1 2 3
[2] 4 5 6
[3] 7 8 9
ab multiplicac~ao elemento a elemento
[1] [2] [3]
[1] 1 8 21[2] 8 25 48
[3] 21 48 81
ab multiplicac~ao das matrizes a e b
[1] [2] [3]
[1] 66 78 90
[2] 78 93 108
[3] 90 108 126
crossprod(ab) produto da transposta de a por b
[1] [2] [3]
[1] 30 36 42
[2] 66 81 96
[3] 102 126 150
t(a)b
[1] [2] [3]
[1] 30 36 42
[2] 66 81 96
[3] 102 126 150
111 Inversao de matrizes
c=matrix(c(324572159)33)
d=matrix(c(223582858)33)
c
Castaneda Daniel F N 2013 13
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1443
112 Comandos cbind() e rbind() 1 INICIANDO O R
[1] [2] [3]
[1] 3 5 1
[2] 2 7 5
[3] 4 2 9
gt solve(c)
[1] [2] [3]
[1] 036551724 -029655172 012413793
[2] 001379310 015862069 -008965517
[3] -016551724 009655172 007586207
solve(cd) inverte a matriz c e multiplica por d
[1] [2] [3]
[1] 051034483 -029655172 24344828
[2] 007586207 115862069 01862069
[3] 008965517 009655172 -02344828
gt solve(c)d forma alternativa
[1] [2] [3]
[1] 051034483 -029655172 24344828
[2] 007586207 115862069 01862069
[3] 008965517 009655172 -02344828
112 Comandos cbind() e rbind()
E possıvel formar novas matrizes com as ja existentes usando a funcaocbind() e rbind() a primeira construı matrizes em colunas a segunda emlinhas
cbind(cd)
[1] [2] [3] [4] [5] [6]
[1] 3 5 1 2 5 8
[2] 2 7 5 2 8 5
[3] 4 2 9 3 2 8
rbind(cd)[1] [2] [3]
[1] 3 5 1
[2] 2 7 5
[3] 4 2 9
[4] 2 5 8
Castaneda Daniel F N 2013 14
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1543
113 Autovalores e autovetores 1 INICIANDO O R
[5] 2 8 5
[6] 3 2 8
cbind(1c)
[1] [2] [3] [4]
[1] 1 3 5 1
[2] 1 2 7 5
[3] 1 4 2 9
rbind(1d)
[1] [2] [3]
[1] 1 1 1
[2] 2 5 8
[3] 2 8 5
[4] 3 2 8
113 Autovalores e autovetores
ev=eigen(c) calcula autovalores e autovetores
ev
$values
[1] 13265694+0000000i 2867153+1646172i 2867153-1646172i
$vectors[1] [2] [3]
[1] 03799264+0i 07884141+00000000i 07884141+00000000i
[2] 06480231+0i 00745376+03051027i 00745376-03051027i
[3] 06600924+0i -04774265-02276482i -04774265+02276482
det(c)
[1] 145
det(d)
[1] -57
114 Data frame ou construtor de dados
Suponha um conjunto de dados com tres variaveis sexo (1=homem0=mulher) peso em quilogramas e salario em reais por dia de 12 indivıduosPara calcular a media o resumo de estatısticas descritivas e um grafico (plot)
Castaneda Daniel F N 2013 15
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1643
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1743
116 Func˜ ao readtable() 1 INICIANDO O R
attach(ind)
peso
[1] 67 60 62 69 54 59 57 67 60 65 59 55
salario
[1] 59 40 45 65 55 45 48 67 65 68 62 45
sex
[1] 1 0 0 1 0 0 0 1 1 1 1 0
detach(ind)
salario
Erro objeto rsquosalariorsquo n~ao encontrado
A funcao attach e detach pode ser usada no somente em arquivo dedados dos pacotes do R se nao tambem para listas e data frame
116 Funcao readtable()
Um amplo conjunto de arquivos com diferentes extensoes pode ser lidopor esta funcao
1161 Arquivos com extensao txt
Considere as seguintes variaveis x1 idade dos funcionarios x2 sexo
(1 homem 0 mulher) x3 anos de experiencia na funcao x4 estado civilx5 numero de filhos x6 nota de 0 minus 10 de um teste de avaliacao deconhecimento na sua area x7 teste psicotecnico de 0 a 50 x8 satisfacaocom a vida pessoal estes dados em bloco de notas com extensao txt obtidosde Mingoti 2005 Ver dados na integra no apendice
funcao=readtable(functxtheader=T)
funcao
grupo idade sexo ecivil nfilhos aexper tpsico tconhec satisf
1 0 24 1 1 0 2 77 360 1
2 0 29 1 1 0 4 79 360 13 0 38 1 0 1 6 86 408 0
107 0 24 1 1 0 2 73 360 0
108 0 27 1 0 0 3 74 360 1
109 1 42 1 0 2 14 99 440 1
Castaneda Daniel F N 2013 17
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1843
117 Script com extens˜ ao R 1 INICIANDO O R
Considere os dados de consumo de agua de uma residencia durante
o perıodo de 1205 a 0411 Com as seguintes variaveis valor em reaisconsumo em m3 dias de consumo e construindo o imovel (1sim 2nao)Dados proprios do autor Ver dados na integra no apendice
ca=readtable(consumoagua2txtheader=T) disponıvel em meus documentos
ca
dado valor consumo diasconsumo Construindo
1 1 1476 11 30 0
2 2 1347 10 31 0
64 64 3439 14 31 1
65 65 2221 11 32 0
Observacao use o comando choose() para escolher um conjunto dedados de um diretorio especifico no computador podemos usar
datalt-readtable(filechoose()header=T)
117 Script com extensao R
Exemplo com extensao R lida por readtable com dados do proprio R
exemplo=readtable(filechoose()header=T) dadosrR em aula 3exemplo
dado valor
1 1 115
2 2 117
3 3 118
4 4 119
5 5 127
118 Funcao scan()
A funcao scan tambem pode incluir elementos no R
scan()
1 12
2 13
3 14
Castaneda Daniel F N 2013 18
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1943
119 Func˜ ao sample 1 INICIANDO O R
4 15
5
Read 4 items
[1] 12 13 14 15
Use a funcao scan() para ingressar dados diretamente na plataforma R
119 Funcao sample
Usa-se para escolher aleatoriamente uma amostra de um conjunto deobservacoes ou uma base de dados Como exemplo considere uma amostrade 8 observacoes dos primeiros 20 do banco de dados de consumo de agua
(ca)setseed(10)
ca20=ca[sample(1208)]
ca20
dado valor consumo diasconsumo Construindo
11 11 3153 16 31 1
6 6 1347 10 32 0
8 8 1347 10 30 0
12 12 3755 18 32 1
2 2 1347 10 31 0
4 4 5275 22 33 1
15 15 3755 18 32 0
14 14 1648 11 30 0
120 Rcmdr
Para importar dados do SPSS STATISTICA MINITAB EXCEL TXTetc podemos usar o pacote livre Rcmdr ja disponıvel na biblioteca
library(Rcmdr)
este pacote trabalha via janelas para maior comodidade
121 Dados disponıveis no R
R possuı mais de 100 conjunto de dados alocados no pacote dataset quepodem ser chamados diretamente ( sem extensao) com a funcao data
data()
Castaneda Daniel F N 2013 19
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2043
122 Modificando e editando dados 1 INICIANDO O R
No R pode-se acessar a conjunto de dados de outros pacotes disponıveis
na sua biblioteca Se por acaso esta instalado o pacote lmtest o conjuntode dados ativo neste pacote pode ser chamado da seguinte maneira
data(package=lmtest)
122 Modificando e editando dados
Considere o conjunto de dados anterior Para modificar este conjuntosera disponibilizado uma tela de editor de dados a seguir
xnovo=edit(wagespackage=lmtest)
Para editar um conjunto de dados novo podemos usar a funcao edit daseguinte forma
xn=edit(dataframe())
123 Exportando dados do R para o Excel
Para exportar uma coluna de dados por exemplo o valor pago no con-sumo de agua executamos no R
writeClipboard(ascharacter(valor))
Na tela do Excel usar o comando colar Suponha que esta interessadoem exportar o conjunto de dados ca consumo de agua numa residenciadisponıveis no R para transferir este conjunto de dados use o seguintecomando
writetable(caclipboardsep=tcolnames=NA)
Na tela do Excel faca Ctrl+V ou um click em colar
124 Funcoes apply tapply sapply e lapply
A funcao apply calcula medidas estatısticas por linhas ou por colunas
e a funcao sapply calcula apenas por coluna A diferenca da funcao applyda funcao tapply e que esta ultima calcula medidas estatısticas por estratosConsidere os dados de consumo de agua de uma residencia
apply(ca2mean)
dado valor consumo diasconsumo Construindo
330000000 255690769 126153846 307076923 02615385
Castaneda Daniel F N 2013 20
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2143
125 Distribuic˜ oes de probabilidade 1 INICIANDO O R
tapply(valorConstruindomean)
0 1
2115271 3803882
sapply(camean)
dado valor consumo diasconsumo Construindo
330000000 255690769 126153846 307076923 02615385
lapply(camean) verificar
125 Distribuicoes de probabilidade
R proporciona uma serie de funcoes para variaveis aleatorias estatısticasconhecidas dentro destas funcoes temos distribuicao aleatorizacao proba-
bilidade e quantidadeDistribuicao nome no R argumentos adicionaisbeta beta shape1shap2npcbinomial binom sizeprobcauchy cauchy locationscalechi-quadrado chisq dfnpcexponencial exp rateF f df1df2npcgamma gamma shapescalegeometric geom probhypergeometric hyper mnk
log-normal lnorm meanlogsdloglogistic logis locationscalenegativa binomial nbinom sizeprobnormal norm meansdpoisson pois lambdat-student t dfncpuniforme unif minmaxweibull weibull shapescalewilcoxon wilcoxon mn
Nomes iniciando com ldquodrdquocalculara a densidade da funcao ldquoprdquoparacalcular a probabilidade ou funcao acumulada ldquoqrdquopara o valor quantılico eldquorrdquopara simulacao de numeros aleatoriosExemplos
rpois(105) 10 numeros aleatorios da dist poisson com parametro 5
[1] 3 2 3 1 8 6 1 3 2 3
Castaneda Daniel F N 2013 21
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2243
126 Algoritmos de programac˜ ao no R 1 INICIANDO O R
rnorm(5) 5 numeros aleatorios da normal padr~ao
[1] 004659011 -005019082 -128753167 115411245 -137573809
qt(09550) valor quantilico da t com 50 gl
[1] 1675905
qchisq(0951) valor da qui-quadrado
com 95 de confianc a e 1 g l
[1] 3841459
dpois(45) densidade da dist poisson x=4 parametro=5
[1] 01754674
ppois(45) P(xlt=4) parametro=5
[1] 04404933
126 Algoritmos de programacao no R
R e uma linguagem de programacao orientada a objetos que alem de ana-lisar dados tem sua propria programacao aqui usaremos esta programacaopara analises de estatısticas e econometria Para maiores detalhes podemospesquisar em Venables and Ripley (2000 e 2002) Voce pode estender afuncionalidade do R criando novas funcoes ou programando por exemplo
medianamediarazao lt- function(x)
return(median(x)mean(x))
setseed(20)
z = rexp(10000)
medianamediarazao(z)
[1] 06925193
Construindo a mediana
mediana=function(x)
oddeven=length(x)2
if (oddeven == 0) (sort(x)[length(x)2]+sort(x)[1+ length(x)2])2
else sort(x)[ceiling(length(x)2)]
Construindo a media geometrica
mediageometrica = function (x) exp(mean(log(x)))
Construindo a media harmonica
Castaneda Daniel F N 2013 22
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2343
126 Algoritmos de programac˜ ao no R 1 INICIANDO O R
mediaharmonica=function (x) 1mean(1x)
Um algoritmo que envolva as medidas de tendencia central
medidascentrais = function(y medida)
switch(medida
media = mean(y)
mgeometrica = exp(mean(log(y)))
mharmonica = 1mean(1y)
mediana = median(y)
stop(Medida n~ao inclusa))
medidascentrais(ymedia)
Gerando uma distribuicao uniforme para o lancamento de um dado
ndado=function(x) return(round(runif(x)6+05))
hist(ndado(100000)
Com o comando sample podemos realizar este mesmo experimento daseguinte maneira
gerando=sample(16 100000 replace=TRUE)
hist(gerando)
Considere o seguinte objeto c
c=c(122715365)
Para determinar que classe de objeto e o vetor c podemos identificarusando os seguintes comandos
ischaracter(c)
[1] FALSE
isnumeric(c)
[1] TRUE
A este objeto c podemos a signar nome a cada valor definido da seguinteforma
names(c)=c(abcdef)
c
a b c d e f
10 22 70 150 30 65
Castaneda Daniel F N 2013 23
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2443
127 Lacos no R 1 INICIANDO O R
Podemos associar uma comparacao logica com o vetor c da seguinte
forma
cgt3
a b c d e f
FALSE FALSE TRUE TRUE FALSE TRUE
Quando estamos diante de uma matriz podemos definir os nomes dascolunas com colnames() e os nomes das linhas com rownames() veja oexemplo
d=matrix(c(223582858)33)
colnames(d)=c(c1c2c3)
rownames(d)=c(1o2o3o)
d
c1 c2 c3
1o 2 5 8
2o 2 8 5
3o 3 2 8
A matriz d e entendida como um conjunto de dados que podem serassociados as linhas e as colunas Para determinar se ha associacao entrelinhas e colunas o teste utilizado pode se o qui-quadrado com a funcaochisqtest()
127 Lacos no R
Em algumas situacoes variaveis contınuas podem ser transformadas em variaveisordinais ou dummy para realizar estas operacoes o R proporciona varioslacos como else if ou ifelseExemplo para construir variaveis binarias considere o consumo de aguaonde consumo menor ou igual a 10 m3 e zero e acima de 10 m3 e 1 Ovalor de consumo sendo zero se o valor e menor ou igual a 20 reais e 1 casocontrario
consumoc=numeric(length(consumo))
for(i in 1length(consumo))if (consumo[i]lt=10) consumoc[i]=0
else consumoc[i]=1
valorc=numeric(length(valor))
for(i in 1length(valor))if (valor[i]lt=20) valorc[i]=0 else valorc[i]=1
Castaneda Daniel F N 2013 24
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2543
128 A func˜ ao cut() 1 INICIANDO O R
Nota Podemos construir os lacos considerando a condicao como texto
exemplo consumoc[i]=rdquo[0minus 10]rdquo Comando alternativo de construcao
consumoc2=ifelse(consumolt=10[0-10]Acima de 10)
valorc2=ifelse(valorlt=20[0-20]Acima de 20)
limitacao deste laco e que utilizado apenas para duas condicoes Para lacoscom mais de duas condicoes podemos usar os seguintes comandos
valorc3=numeric(length(valor))
for(i in 1length(valor))if (valor[i]lt20) valorc3[i]=[0-20)
else if (valor[i]lt30)
valorc3[i]=[20-30) else valorc3[i]=[30 a +
table(valorc3)
128 A funcao cut()
Alguma funcoes usam lacos para criar novas variaveis categoricas no exem-plo de valor pago em reais pelo consumo de agua podemos construir cate-gorias por quartis de 25 50 75 1 da seguinte maneira
q=cut(valorquantile(valor) includelowest=T)
table(q)
q
[135165] (165222] (222327] (327693]
17 16 16 16
Outras formas podem ser usando intervalos a criterio pessoal no exemplo aseguir consideramos com valor mınimo 13 e valor maximo 70 com amplitudedo intervalo de 19 e com classes fechadas no mınimo e aberto no maximo
valr=cut(valmseq(137019)right=Fincludeupper=T)
table(valr)
valr
[1332) [3251) [5170)
48 15 2
129 Criando funcoes Teste que compara duas medias
Como exemplo implementamos a estatıstica de comparacao de duasamostras independentes
Castaneda Daniel F N 2013 25
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2643
130 Coeficiente de regressao 1 INICIANDO O R
testeduas lt- function(y1 y2)
+ n1 lt- length(y1) n2 lt- length(y2)
+ yb1 lt- mean(y1) yb2 lt- mean(y2)
+ s1 lt- var(y1) s2 lt- var(y2)
+ s lt- ((n1-1)s1 + (n2-1)s2)(n1+n2-2)
+ tst lt- (yb1 - yb2)sqrt(s(1n1 + 1n2))
+ tst
+
x=runif(20)
y=rnorm(20)
testeduas(xy)
[1] 2874636
Uma forma alternativa e usando a funcao ttest()
ttest(xy)
Welch Two Sample t-test
data x and y
t = 28746 df = 21784 p-value = 0008858
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
01846283 11429380sample estimates
mean of x mean of y
05539270 -01098562
130 Coeficiente de regressao
Implementando o calculo da tangente (inclinacao) do coeficiente no mo-delo de regressao linear simples
mq1lt- function(X y)
+ X lt- qr(X)
+ qrcoef(X y)+
mq1(xy)
[1] -008755885
Castaneda Daniel F N 2013 26
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2743
131 Teste Qui- Quadrado 1 INICIANDO O R
131 Teste Qui- Quadrado
Util para associar linhas e colunas considere os dados em d com as se-guintes hipotesesH0 nao ha associacao entre linhas e colunasHa ha associacao entre linhas e colunas
chisqtest(d)
Pearsonrsquos Chi-squared test
data d
X-squared = 46497 df = 4 p-value = 03252
Warning message
In chisqtest(d) Aproximac~ao Qui-quadrado pode estar incorreta
Para um nıvel α = 0 05 de significancia podemos afirmar que nao haevidencias para afirmar que a associacao entre linhas e colunas (linhas ecolunas sao independentes) Um outro exemplo do uso da distribuicao Qui-quadrado e verificar se um conjunto de dados provem de uma determinadadistribuicao teorica
chisqtest(c)
Chi-squared test for given probabilities
data c
X-squared = 22549 df = 5 p-value = 00004116
Pelo p-value podemos afirmar que a 0 05 de significancia nao ha evi-dencias para afirmar que a distribuicao dos numeros em c sejam uniformesPara implementar este teste de associacao no exemplo de consumo de aguaconsiderando a classificacao mediante lacos (ver lacos no R) entre consumoce valorc temos
table(consumocvalorc)
valorc
consumoc 0 1
0 24 0
Castaneda Daniel F N 2013 27
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2843
132 Teste t - student 1 INICIANDO O R
1 3 38
chisqtest(consumocvalorc)$expected
chisqtest(consumocvalorc)$observed
chisqtest(consumocvalorc)
Pearsonrsquos Chi-squared test with Yatesrsquo continuity correction
data consumoc and valorc
X-squared = 498015 df = 1 p-value = 1701e-12
barplot(table(consumocvalorc) beside=T)
Concluimos que ha associacao entre consumo de agua e o valor pago em
reais
132 Teste t - student
O teste mais usado pelos estatısticos e util para comparar medias deduas amostras tanto independente como emparelhadasExemplo considere as exportacoes mensais (FOB-US) do Brasil durante osanos de 2009 minus 2010 Apos digitacao das observacoes temos
exp2009
[1] 9781920 9586406 11809225 12321617 11984585 14467785 14141930
[8] 13840850 13863222 14081686 12652892 14462624
exp2010[1] 1130507 1219724 1572750 1516121 1770250 1709391 1767292 1923625
[9] 1883279 1838042 1768733 2091814
H0 A medias anuais das exportacoes durante 2009 e 2010 e a mesmaHa CC
ttest(exp2009exp2010paired = FALSE)
Welch Two Sample t-test
data exp2009 and exp2010
t = -42813 df = 18202 p-value = 00004394
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-6075666 -2077757
sample estimates
mean of x mean of y
Castaneda Daniel F N 2013 28
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2943
133 Teste F 1 INICIANDO O R
1274956 1682627
Conclusao nao ha evidencias para aceitar que a media das exportacoesde 2009 e 2010 e a mesma
Quando um conjunto de dados e dado em formato de matriz (dataframe)podemos realizar o teste t de uma coluna em funcao da outra por exemplono consumo de agua queremos testar a hipotese nula H0 o valor de con-sumo de agua e o mesmo construindo ou nao versus a hipotese alternativaHa Caso contrario
attach(ca)
ttest(valor~Construindo)
Welch Two Sample t-test
data valor by Construindo
t = -58383 df = 21731 p-value = 7465e-06
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-2288867 -1088356
sample estimates
mean in group 0 mean in group 1
2115271 3803882
Concluımos que nao ha evidencias para aceitar que o valor de consumode agua e o mesmo quando estamos construindo ( p minus valor lt 005)
Exemplos adicionais podem ser comparando entre as variaveis clas-sificadas (ver secao de lacos) da seguinte forma
ttest(valor~consumoc)
ttest(consumo~valorc)
boxplot(consumo~valorc2 main=Consumo e valor pago em Reais)
boxplot(consumo~valorc3 main=Consumo e valor pago em Reais)
133 Teste F
Para determinar se ha a mesma variabilidade no valor de consumoquando estamos ou nao construindo utilizamos o teste F A hipotese nulae H0 O valor de consumo de agua tem a mesma variabilidade quandoconstruımos que quando nao construımos No R temos
Castaneda Daniel F N 2013 29
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3043
133 Teste F 1 INICIANDO O R
vartest(valor~Construindo)
F test to compare two variances
data valor by Construindo
F = 04834 num df = 47 denom df = 16 p-value = 005478
alternative hypothesis true ratio of variances is not equal to 1
95 percent confidence interval
0194815 1014916
sample estimates
ratio of variances
04834048
Concluımos que nao ha evidencias para rejeitar a hipotese nula por tanto
a variabilidade no valor de consumo e o mesmoO correspondente grafico (Box-plot) e apresentado a seguir
boxplot(valor~Construindo col=8 names=c(n~ao construc~ao construc~ao))
natildeo construccedilatildeo construccedilatildeo
2 0
3 0
4 0
5 0
6 0
7 0
Figura 4 Valor pago em reais no consumo de agua
Em alguns casos ha necessidade de identificar se a variabilidade dasexportacoes e a mesma comparando 2009 e 2010H0 As exportacoes de 2009 e 2010 tem a mesma variabilidade (dados men-sais coletados do site httpwwwipeadatagov)Ha CC
Castaneda Daniel F N 2013 30
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3143
134 Graficos 1 INICIANDO O R
vartest(exp2009exp2010)
F test to compare two variances
data exp2009 and exp2010
F = 03728 num df = 11 denom df = 11 p-value = 01166
alternative hypothesis true ratio of variances is not equal to 1
95 percent confidence interval
01073346 12951624
sample estimates
ratio of variances
03728482
Conclusao Nao houve mudancas na variabilidade das exportacoes de
2009 e 2010
134 Graficos
Considere os dados mensais das exportacoes do Brasil (FOB) durante2009 e 2010 para realizar um grafico de box-plot fazemos
boxplot(exp2009exp2010 main=exportac~oes do Brasil
names=c(20092010))
2009 2010
1 0 0 0 0
1 2 0 0 0
1 4 0 0 0
1 6 0 0 0
1 8 0 0 0
2 0
0 0 0
exportaccedilotildees do Brasil
Figura 5 Exportacoes FOB em dolares
Para o grafico da funcao acumulativa das exportacoes
plot(ecdf(exp2010) dopoint=FALSE verticals=TRUE
lty=3 xlim=c(1000023000))
lines(ecdf(exp2009) dopoint=FALSE verticals=TRUE
col=2)
Castaneda Daniel F N 2013 31
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3243
134 Graficos 1 INICIANDO O R
1 00 00 1 20 00 1 40 00 1 60 00 1 80 00 2 00 00 2 20 00
0 0
0 2
0 4
0 6
0 8
1 0
ecdf(exp2010)
x
F n ( x )
Figura 6 Funcao acumulada das exportacoes 2009-2010
Considere as exportacoes do Brasil um histograma e Q-Q plot sera
hist(exp main=Exportac~oes FOB-US col=8)
qqnorm(exp xlim=c(-55)ylim=c(-100021000))
qqline(exp)
Exportaccedilotildees FOBminusUS$
exp
F r e q u e n c y
0 5000 10000 15000 20000
0
5 0
1 0 0
1 5 0
minus4 minus2 0 2 4
0
5 0 0 0
1 0 0 0 0
1 5 0 0 0
2 0 0 0 0
Normal QminusQ Plot
Theoretical Quantiles
S a m p l e Q u a n t i l e s
Figura 7 Graficos das Exportacoes no Brasil 2001-2010
Para ativar alguns graficos pacotes sao necessarios exemplo
library(MASS)
Castaneda Daniel F N 2013 32
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3343
134 Graficos 1 INICIANDO O R
par(mfrow=c(21))
z = rnorm(500000)
hist(z prob=T)
curve(dnorm(x)add=T)
histscott(z prob=T)
Histogram of z
z
D e n s i t y
minus4 minus2 0 2 4
0 0
0 2
Histogram of x
z
D e n s i t y
minus4 minus2 0 2 4
0 0
0 2
0 4
Figura 8 Histograma de numeros aleatorios normais
boxcox(dist~speed data=cars) transformac~ao Box-Cox
minus2 minus1 0 1 2
minus 4 0 0
minus 3 5 0
minus 3 0 0
minus 2 5 0
λ
l o g minus
L i k e l i h o o d
95
Figura 9 Valor otimo na transformacao Box-Cox
Castaneda Daniel F N 2013 33
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3443
135 Tabelas 1 INICIANDO O R
Para ter um alcance maior sobre a capacidade grafica do R podemos
usar as seguintes funcoes
demo(graphics)
demo(image)
demo(persp)
demo(recursion)
demo(plotmath)
demo(package = packages(allavailable = TRUE))
135 Tabelas
Algumas tabelas estatısticas podem ser construıdas com a funcao table()estado=c(PBPEALSEBAMGESRJPBPEAL
SEBAMGESRJPBPEALSEBAMGESRJ
PBPEALSEBAMGESRJ)
estadof=factor(estado)
estadof
[1] PB PE AL SE BA MG ES RJ PB PE AL SE BA MG ES RJ PB PE AL SE BA
[22] MG ES RJ PB PE AL SE BA MG ES RJ
Levels AL BA ES MG PB PE RJ SE
setseed(10)
salarios=c(round(runif(32)100))
salarios
[1] 51 31 43 69 9 23 27 27 62 43 65 57 11 60 36 43 5 26 40 84 86 62 78 36 41
[26] 71 84 24 77 36 54 9
salariom=tapply(salariosestadofmean)
salariom
AL BA ES MG PB PE RJ SE
5800 4575 4875 4525 3975 4275 2875 5850
salariof=factor(cut(salariosbreaks=0+15(07)))
salariof
[1] (4560] (3045] (3045] (6075] (015] (1530] (1530] (1530] (6075]
[10] (3045] (6075] (4560] (015] (4560] (3045] (3045] (015] (1530]
[19] (3045] (7590] (7590] (6075] (7590] (3045] (3045] (6075] (7590]
[28] (1530] (7590] (3045] (4560] (015]
Levels (015] (1530] (3045] (4560] (6075] (7590]
table(salariofestadof)
estadof
Castaneda Daniel F N 2013 34
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3543
136 Comandos adicionais 2 R E ECONOMETRIA
salariof AL BA ES MG PB PE RJ SE
(015] 0 2 0 0 1 0 1 0
(1530] 0 0 1 1 0 1 1 1
(3045] 2 0 1 1 1 2 2 0
(4560] 0 0 1 1 1 0 0 1
(6075] 1 0 0 1 1 1 0 1
(7590] 1 2 1 0 0 0 0 1
table(salariofestadof)
estadof
salariof AL BA ES MG PB PE RJ SE
(015] 1 1 0 0 1 0 1 2
(1530] 0 0 1 1 0 0 1 1
(3045] 0 0 2 0 0 1 0 0
(4560] 2 0 1 0 0 1 0 0
(6075] 0 1 0 2 3 0 1 0
(7590] 0 1 0 1 0 2 0 1
(90105] 0 1 0 0 0 0 1 0
136 Comandos adicionais
Em situacoes onde a ausencia de informacao ou dados faltantes(missing)as funcoes do R precisam declarar esta ausencia com o comando narm=T
indicando que a informacao apresenta dados faltantes Exemplo
df=c(2NA58NA) O ultimo elemento esta ausente
mean(f) Comando padr~ao para calcular a media
[1] NA
mean(fnarm=T) Comando declarando a ausencia de elementos
[1] 5
2 R e Econometria
Dados economicos precisam de uma atencao matematica para dar fun-
damento a suas teorias Atualmente pelo avanco computacional nao habarreiras para serem aplicadas e torna-se ate divertida se definimos a plata-forma de trabalho computacional A econometria requer de uma abordagemdiferenciada pois faz uso de da teoria economica economia matematica es-tatıstica economica estatıstica matematica e inferencia estatıstica Esta
Castaneda Daniel F N 2013 35
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3643
21 Tipos de Dados 2 R E ECONOMETRIA
disciplina aproxima a Estatıstica da Economia onde a teoria economica for-
mula as hipoteses Por exemplo uma reducao de precos de uma mercadoriadevera aumentar a quantidade demandada dessa mercadoria considerandouma relacao inversa entre preco e quantidade demandada ou a despesa deconsumo per capita depende da renda per capita considerando uma relacaodireta ou seja a medida que a renda aumenta a despesa tende a aumentarOutro exemplo onde consideremos a area microeconomica consumo de aguade uma residencia e o valor pago e natural imaginar que ha uma relacaodireta entre consumo e valor pago pelo consumo Porem precisamos saberqual e quanto e esta forca de relacao por tanto o econometrista forneceesta informacao usando a inferencia estatıstica e a estatıstica economicaAs estimativas de esta relacao fica por conta de estatıstica matematica
Para completar e cerrar este circulo de disciplinas abordadas na Econo-metria precisamos utilizar uma ferramenta de calculo computacional quebrinde estabilidade precisao e rapidez nos seus resultados para superartudo isto utilizaremos o ambiente R A econometria surge como uma disci-plina autonoma em virtude de aglutinar todas estas areas do conhecimentomerecendo um estudo proprio
21 Tipos de Dados
Os tipos de dados sao
1 Dados de corte transversal (cross-section) sao dados de uma ou maisvariaveis coletadas no mesmo ponto do tempo Por exemplo os censosno Brasil sao coletados num instante do tempo No censo variaveisdemograficas sao exploradas como contagem da populacao numerode indivıduos em cada famılia idade dos integrantes da famılia ouvariaveis economicas como renda consumo tipo de moradia (alugadaou propria) etc estes dados sao adquiridas a cada decada pelo IBGE
2 Dados longitudinais ou de series temporais sao caracterizadas porobservacoes ao longo do tempo No Brasil um site que disponibilizadados desta natureza e o IPEADATA
3 Dados de painel e uma mistura de dados de corte transversal e longi-tudinais ou ao longo do tempo estudamos o comportamento de unida-des individuais Por exemplo series mensal do ındice de precos serieanuais do produto interno bruto (PIB) ou serie anual da balanca co-mercial dos municıpios do Brasil considerando cada municıpio comounidades individuais
Castaneda Daniel F N 2013 36
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3743
22 Metodologia 2 R E ECONOMETRIA
22 Metodologia
Os passos da metodologia econometrica tradicional ou classica se iniciadesde a formulacao da hipotese ate as conclusoes em geral sao
221 Hipotese
Como referencia usaremos a hipotese nula H 0 a qual nulifica qualquerdiferenca e a hipoteses alternativa H a aquela que contradiz total ou par-cialmente a hipotese nula Exemplo
1 H 0 nao existe uma relacao entre consumo de agua e valor pago pela
mesma
2 Ha existe uma relacao entre consumo de agua e valor pago pelamesma
A hipotese alternativa pode ser dividida em tres possibilidades no exem-plo do consumo de agua pode ser dividida em existe alguma relacao oua relacao e negativa ou a relacao e positiva A primeira denomina-se dehipotese alternativa com teste bicaudal o segundo de teste unicaudal a es-querda e finalmente o ultimo com teste unicaudal a direita Nosso exemploconsidere H a existe alguma relacao (teste bicaudal)
222 Modelo matematico
Usaremos uma funcao de consumo simples
Y = β 1 + β 2X (11)
A variavel dependente Y valor pago pelo consumo e estimado por Y A variavel independente e X consumo de agua em m3 β 1 representa ovalor pago quando nao ha consumo de agua Nosso interesse e determinara tangente ou a variacao pelo consumo β 2
223 Modelo econometrico do valor pago
O modelo matematico fornece a relacao determinıstica entre valor pagoem reais e consumo de agua porem as relacoes entre as variaveis economicassao em geral inexatas Assim ao longo do tempo no podemos esperar que ovalor pago e o consumo em m3 se situem exatamente numa linha reta isto
Castaneda Daniel F N 2013 37
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3843
22 Metodologia 2 R E ECONOMETRIA
por que alem do consumo outras variaveis afetam o valor pago por exemplo
os dias de consumo o perıodo de reforma da casa ou a inflacao podendoalterar o valor pago pelo consumo
224 Nıvel de significancia
Denominado de α frequentemente usa-se α = 005 em situacoes derisco usa-se α = 001 Em testes bicaudais divide-se α em duas partes elocalizam-se nos extremos da distribuicao de prova Para testes unicaudaislocaliza-se no extremo da distribuicao indicada pela hipotese alternativaNosso exemplo α = 005 e por tanto α2 = 0025
225 Obtencao de Dados
Considere 65 observacoes (mes a mes) do consumo de agua em umaresidencia e o valor pago em reais durante o perıodo de 122005 a 042011Ver dados no apendice A Um plot e apresentado a seguir
10 15 20
2 0
3 0
4 0
5 0
6 0
7 0
Valor pago em reais de consumo de aacutegua
Variaacutevel independenteConsumo em m3
V a r i aacute v e l d e p e n d e n t e V a l o r p a g o
Y = minus12365+3007X
Figura 10 Relacao causal entre consumo e valor pago em reais
Podemos observar visualmente que ha uma relacao positiva entre valorpago e consumo de agua onde a variacao pelo consumo ou variacao dovalor pago (tangente) β 2 cresce positivamente Precisamos verificar se estavariacao β 2 e estatisticamente diferente de zero (significativa)
Castaneda Daniel F N 2013 38
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3943
22 Metodologia 2 R E ECONOMETRIA
226 Estatıstica de prova
Denominada de funcao pivo ou estatıstica de teste No ambito pa-rametrico usa-se as estatısticas t student (amostras pequenas) quando ne grande e indiferente o uso da t student ou normal No exemplo para tes-tar qual a inclinacao da variacao pelo consumo de agua usamos a seguinteestatıstica
t0 =β 2
dp(β 2)asymp tnminus2gl (12)
onde t0 e o valor calculado da estatıstica t β 2 e a estimativa do parametro(variacao pelo consumo) β 2 dp(β 2) e o desvio padrao da estimativa doparametro β 2 o valor t0 segue uma distribuicao t-student com nminus2 graus deliberdade(gl) Os graus de liberdade e calculado diferenciando o tamanhoda amostra com o numero de parametro do modelo (n-p) O valor quantılicotnminus2gl(0025) corresponde a distribuicao t-student com 0025 de significanciacom n minus 2 graus de liberdade e n e o numero total de observacoes Nossoexemplo β 2 = 3007 e dp(β 2) = 013 por tanto t0 = 2313 e comparadocom o valor da tabela da t-student com 63 gl e com α2 = 0025 sendo estevalor igual 19983
227 Tipos de erro
Ocorre o erro tipo I (α) ao se rejeitar a hipotese de nulidade quandodeveria aceita-la Por outro lado quando se aceita a hipotese de nulidadequando deveria rejeita-la comete-se o erro tipo II (β ) Nas duas situacoestomou-se uma decisao errada O interesse e a minimizacao dos erros tipo Ie II que na pratica so e possıvel aumentando-se o tamanho da amostra Porrazoes diversas o aumento do tamanho da amostra muitas vezes torna-se im-praticavel A gravidade do erro tipo I e distinta da do erro tipo II quando seconsegue identificar o erro mais grave a opcao e a minimizacao deste poremquando a probabilidade de ocorrencia de um tipo de erro diminui a do outroaumenta e vice versa Podemos observar este criterio na seguinte tabela
Nao rejeita rejeitaH0 verdadeira Correto (1 minus α) Erro do tipo I (α)H0 falsa Erro do tipo II (β ) Correto (1minus β )
Castaneda Daniel F N 2013 39
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4043
22 Metodologia 2 R E ECONOMETRIA
228 Regra de Decisao
Os pacotes ou plataformas estatısticas apresentam o valor observado dafuncao pivo e o p minus valor (Area de probabilidade esta relacionada comonıvel de significancia) assim a funcao pivo apresenta o valor numerico nafuncao de densidade da Estatıstica exemplo dentro da densidade da normalQuando o pvalor e menor do que α = 005 no caso do teste unicaudal (eα = 0025 no caso bicaudal) concluımos que nao ha evidencia suficiente paraaceitar H0 Caso contrario se o p minus valor for maior que α = 005 podemosconcluir que nao ha evidencia suficiente para rejeitar H0 Nosso exemplot0 = 2313 gt 1998 (1998 e valor da distribuicao t com 63 gl e nıvel designificancia bicaudal de 005) este valor localiza-se na cauda positiva da
distribuicao com 63 graus de liberdade(n minus 2 = 65 minus 2) Por outro lado o pminus valor lt 0025 por tanto nao ha evidencias para aceitar H0 em favor deaceitar que o coeficiente de inclinacao (ou tangente) e positiva No recorrerdo livro usaremos codigos para as medidas do pminusvalor que em geral apareceem todo comando summary() Como consequencia a linha que aparece aseguir sera excluıda das saıdas do R
Signif codes 0 0001 001 005 01 1
sera interpretada da seguinte maneira
bull 0 significancia menor que 0001
bull 0001 significancia menor que 001
bull 001 significancia menor que 005
bull 005 significancia menor que 01
bull 01 significancia menor que 1
229 Conclusoes
Esta parte do teste de hipoteses e explicada em conjunto O Estatıstico eo Economista que sao os profissionais da area em que as observacoes foramcoletadas decidem sobre as providencias futuras No exemplo podemosafirmar que a cada metro cubico a mais de consumo de agua sera pago emmedia 3 reais a mais No momento este valor pago pode parecer alto poremna falta de este liquido elementar este valor pode aumentar e por tantosofrera mudancas
Castaneda Daniel F N 2013 40
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4143
23 Previs˜ oes 2 R E ECONOMETRIA
23 Previsoes
Muitas vezes estamos interessados em determinar o que acontece quandouma quantidade de consumo de agua em m3 e utilizada e qual o valor pagoem reais Por exemplo se nosso interesse e saber quanto sera pago por 20m3
de consumo de agua em uma residencia A conta a realizar eValor pago = minus12365 + 3007 lowast 20 = 47775 reaisA interpretacao deste valor e em media o valor pago em reais por 20m3 deagua consumida e de aproximadamente 478 reais
231 Resıduos
Uma questao fundamental em econometria e identificar o comportamentodos resıduos de um modelo Considere Y o valor real pago e Y valor pagoestimado a partir de um modelo entao este erro e aleatorio e definido por
ϵi = Y i minus Y i (13)
A abordagem mais formal dos erros e feita nos proximos capıtulosUma questao importante e determinar qual o comportamento da estima-tiva destes erros aos quais chamamos de resıduos Para determinar a nor-malidade dos resıduos realizamos o teste de Jarque Bera com a funcao
jarqueberatest() da biblioteca tseries com o seguinte grafico
minus2 minus1 0 1 2
minus 5
0
5
1 0
resiacuteduos do modelo valor= f(consumo)
Theoretical Quantiles
S a m p l e Q u a n t i l e s
Figura 11 Normalidade dos resıduos
Castaneda Daniel F N 2013 41
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4243
24 Exercıcios REFER ENCIAS
24 Exercıcios
1 Por que a econometria precisa ser uma disciplina autonoma
2 Que e econometria
3 Pesquise dados de corte transversal corte longitudinal e de painel
4 Construa uma metodologia econometrica para o consumo familiar emfuncao da renda familiar (linear)
5 No item anterior e possıvel encontrar uma relacao quadratica
6 Quais sao os pressupostos basicos de um modelo de regressao linear
simples
7 Como e chamado o parametro de inclinacao ou tangente num modelode regressao linear simples em econometria
8 Que e o projeto R
9 R e um programa econometrico
Referencias
[1] Albert Jim (2009) Bayesian computation with R Editora SpringerSecond Edition New York USA
[2] Borde Arvind (1992) TEX by example A beginneracutes guide Ed Aca-demic Press Professional United States of America
[3] Carneiro Orlando (1997) Econometria Bacute asica Teoria e Aplicac˜ oes Editora Atlas Segunda Edicao son Paulo
[4] Conover W J (1999) Practical nonparametric statistics 3ed NewYork
[5] Cribari Neto F (2002) C for Econometricians conputational Econo-
mics 14 p135-149
[6] Dalgaard Peter(2008) Introductory Statistics with R Editora SpringerSecond Edition New York USA
[7] Ehlers Ricardo(2007) Analise de series Temporais Universidade Fe-deral do Parana
Castaneda Daniel F N 2013 42
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4343
REFER ENCIAS REFER ENCIAS
[8] Frery Alejandro Cribari-Neto Francisco(2011)Elementos de
Estatıstica conputacional Usando Plataformas de Software Li-vreGratuito Publicacoes Matematicas Editora IMPA
[9] Gujarati Damodar N (2000) Econometria Bacute asica Makron Books Ter-ceira Edicao son Paulo
[10] Knuth DE (1981)The Art of conputer Programming Third EditionVolume 2 Seminumerical Algorithms Addison-Wesley Publishingconpany Massachusetts
[11] Korgi Rodrigo de Castro (2003) El universo LAT E X Editora Facultadde Ciencias Segunda Edicao Bogota
[12] Krawczyk H How to Predict Congruential Generators InJournal of Algorithms V 13 N 4 1992
[13] LrsquoEcuyer P (2001) Software for uniform random number generationdistinguishing the good and the bad In Proceedings of the 2001 WinterSimulation Conference
[14] Maindonald John Braun W John(2010) Data analysis and graphics using R an example-based approach Cambridge University Press NewYork USA
[15] Mingoti(2005)Analise De Dados Atraves De Metodos De Estatistica Multivariada - Uma Abordagem Aplicada Editora UFMG Belo Hori-zonte
Castaneda Daniel F N 2013 43
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 243
1 INICIANDO O R
1 Iniciando o R
Para instalar o R temos que estar conectados a internet e baixar dire-tamente da pagina httpwwwr-projectorg Se estamos usando a pla-taforma Windows baixar o R para Windows atualmente a versao e 301disponıvel desde 25092013
Figura 1 Visualizacao na inicializacao do R
Quando instalamos o R uma lista de pacotes padrao ja estao nabiblioteca os quais sao visualizados com a funcao search()
gt search()
[1] GlobalEnv packagestats packagegraphics
[4] packagegrDevices packageutils packagedatasets
[7] packagemethods Autoloads packagebase
Castaneda Daniel F N 2013 2
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 343
11 Dados permanentes e removendo objetos 1 INICIANDO O R
Para instalar pacotes do R uma lista completa esta disponıvel com o
comando
installpackages()
11 Dados permanentes e removendo objetos
Durante uma sessao no R objetos sao criados e guardados por nomespara verificar estes objetos usamos o comando ou funcao
objects( ) ou gtls( )
[1] a1 a2 aa acei
[5] ads aju aju1 ajuste
[9] ajuste1 ajuste2 ajustehw ara
Para remover objetos antigos ou sem uso utilizamos o comando rm()
rm(a1 a2 aa acei ads aju)
Para detectar os pacotes na biblioteca local
library()
Para instalar o pacote urca disponıvel na biblioteca
installpackages(urca)
Um pacote instalado tem que ser chamado no R para realizar a tarefaPara chamar o pacote urca ja instalado
library(urca)
Para verificar os pacotes na biblioteca externa
updatepackages()
Para ver a lista de pacotes instalados na biblioteca local
installedpackages()
Castaneda Daniel F N 2013 3
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 443
12 Manipulac˜ ao de numeros e vetores 1 INICIANDO O R
12 Manipulacao de numeros e vetores
Para declarar numeros exemplo v =983131
10983133
realizamos o seguinte co-mando
v=10
v
[1] 10
Alertamos que no R o sımbolo lt minus e equivalente ao sımbolo =Considere o seguinte vetor com os numeros 1 3 34 6 99 3 com o nomeq =
9831311 3 34 6 99 3
983133 usamos
q=c(13346993)
Comandos de operacoes algebraicas sao usados com os sinais conven-cionais sendo + para soma - para a diferenca para multiplicacao e para divisaoAssim para inverter q podemos usar
1q
[1] 10000000 03333333 029411765 01666667 00101010 03333333
No R podemos utilizar comando logicos como verdadeiro ou falso paraos valores de q maiores do que 3 assim
qgt3
[1] FALSE FALSE TRUE TRUE TRUE FALSE
para restringir valores de q maiores do que 3
q[qgt3]
[1] 34 6 99
Podemos converter numeros em caracteres ou dıgitos assim
z2=c(09) equivalente a z2=09
digit=ascharacter(z2)
digit
[1] 0 1 2 3 4 5 6 7 8 9
Para retornar dıgitos em numeros com o seguinte comando
d=asinteger(digit)
d
[1] 0 1 2 3 4 5 6 7 8 9
Castaneda Daniel F N 2013 4
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 543
12 Manipulac˜ ao de numeros e vetores 1 INICIANDO O R
Para preparar uma variavel para ingressar seus valores por exemplo
e=numeric()
e[3]=17
Onde o terceiro elemento e 17 e os dois primeiros ainda nao definidos
e
[1] NA NA 17
Podemos ainda declarar os outros elementos de e
Para Construir um vetor qualitativo sendo na ordem 10 homens e 5
mulheres usamos a funcao rep()
w=c(rep(homem10) rep(mulher5))
w
[1] homem homem homem homem homem homem homem
[8] homem homem homem mulher mulher mulher mulher
[15] mulher
Considere o tamanho do calcado no pe de cada individuo em w
pe=c(404239414440424144403535373637)
Podemos identificar a distribuicao de frequencias de w e pe da seguinteforma
table(wpe)
pe
w 35 36 37 39 40 41 42 44
homem 0 0 0 1 3 2 2 2
mulher 2 1 2 0 0 0 0 0
Para construir graficos para as tabelas usamos as funcoes
plot(table(wpe) main=Frequenciasxlab=sexoylab=n umero)
barplot(table(wpe) main=Frequencias ylab=casosxlab=pe)legend(topleft legend=c(mulherhomem) col=c(81)lty=c(11))
Seus respectivo graficos sao
Castaneda Daniel F N 2013 5
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 643
13 Func˜ oes matematicas 1 INICIANDO O R
Frequecircncias
sexo
n uacute m e r o
homem mulher
3 5
3 6
3 7
3 9
4 0
4 1
4 2
4 4
35 36 37 39 40 41 42 44
Frequecircncias
peacute
c a s o s
0 0
0
5
1 0
1 5
2 0
2
5
3 0
mulherhomem
Figura 2 Descricao do calcado por sexo
13 Funcoes matematicas
Para utilizar as funcoes matematicas usamos os comandos
gt history() comandos usados previamente
gt length(x) numero de elementos do vetor ou lista x
gt log(x) log na base e de x
gt exp(x) antilogaritmo de x
gt log(xn) log na base n de x
gt log10(x) log na base 10 de x
gt sqrt(x) raiz quadrada de x
gt factorial(x) factorial de x(x)gt choose(nx) combinatoria n(x(n-x))
gt gamma(x) x (x-1) x inteiro
gt floor(x) menor inteiro de x
gt trunc(x) escolha do menor inteiro
gt abs(x) valor absoluto de x
gt cos(x) cosseno de x
gt sin(x) seno de x
gt tan(x) tangente de x
gt acos(x) inversa cosseno
gt asin(x) inversa seno
gt atan(x) inversa tangentegt acosh(x) inversa cosseno hiperbolica
gt asinh(x) inversa seno hiperbolica
gt atanh(x) inversa tangente hiperbolica
gt round(x digits=2) aproximac~ao a duas casas decimais
gt signif(x digits=6) x com notac~ao cientıfica de 6 dıgitos
Castaneda Daniel F N 2013 6
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 743
14 Func˜ oes estatısticas 1 INICIANDO O R
14 Funcoes estatısticas
gt max(x) valor maximo de x
gt min(x) valor mınimo de x
gt sum(x) soma total dos valores de x
gt mean(x) media aritmetica de x
gt median(x) mediana de x
gt range(x) vetor de mınimo e maximo de x
gt summary(x) resumo de estatısticas de locac~ao de x
gt var(x) variancia de x
gt cor(xy) correlac~a o d e x e y
gt sort(x) ordena em forma crescente os elementos de x
gt rank(x) vector de filas em xgt order(x) valores originais de x
gt quantile(x) vetor contendo os quartis de x
gt cumsum(x) vetor contendo a suma total elemento a elemento
gt cumprod(x) vetor contendo o produto elemento a elemento
gt cummax(x) vetor n~ao decrescente de x substituindo valores
gt cummin(x) vetor n~ao crescente de x substitui os valores
pelo mınimo
gt pmax(xyz) vetor contendo o vetor maior entre x y ou z e
substituindo o maximo em cada posic~ao
gt pmin(xyz) vetor contendo o vetor maior entre x y ou z
e substituindo o mınimo em cada posic~aogt colMeans(x) calcula a media por colunas na matriz x
gt colSums(x) calcula os totais por coluna na matriz x
gt rowMeans(x) calcula a media por linhas na matriz x
gt rowSums(x) calcula os totais por linhas na matriz x
15 Cores
O R disponibiliza cores usando a funcao palette() com 8 cores outrafuncao e colours() e que tambem podem ser identificados por um numero
ja especificado por exemplo
teta=(120)092plot(tetasin(teta) col=red pch=16cex=2) ou
plot(tetasin(teta) col=2 pch=16cex=2)
Onde cex representa o caracter de expansao da bolinha (quanto maior onumero maior a bolinha) Para incrementar varias cores no mesmo graficopodemos realizar o seguinte comando
Castaneda Daniel F N 2013 7
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 843
16 Fatores ordenados e desordenados 1 INICIANDO O R
plot(tetasin(teta) col=120 pch=16cex=2)
Para modificar a bolinha apenas modificamos pch
plot(tetasin(teta) col=120 pch=+cex=2)
Cores podem tambem ser incrementadas fora do corpo do grafico
plot(tetasin(teta) main=seno colmain=4 col=120 pch=+cex=2)
Outras alteracoes de cores podem ser construıdas com
colmain cor para o tıtulo do grafico
colaxis cor para os numeros dos eixos
collab cor para os tıtulos dos eixoscolsub cor para o subtıtulo do grafico
A fonte pode ser alterada da seguinte maneira
fontmain fonte para o tıtulo do grafico
fontaxis fonte para os numeros dos eixos
fontlab fonte para os tıtulos dos eixos
fontsub fonte para o subtıtulo do grafico
Onde 1 e texto normal 2 preto 3 italico 4 preto italico para simbolofonte A orientacao dos numeros pode ser alterada com o comando las= onde 1 horizontal a x 2 perpendicular a x 3 perpendicular a ambos eixos)
16 Fatores ordenados e desordenados
exemplo
estados=c(PEALSEBAPBBAPBALSEBAPB
+ SE BASEBA)
estadosf=factor(estados)
estadosf
[1] PE AL SE BA PB BA PB AL SE BA PB SE BA SE BA
Levels AL BA PB PE SE
levels(estadosf)[1] AL BA PB PE SE
salarios=c(604959564948565960696658475868)
A funcao tapply e usada para reordenar vetores calculando uma carac-terıstica dos nıveis no exemplo suponha que os salarios medio e o desviopadrao por cada trabalhador por dia nos estados seja dado a seguir
Castaneda Daniel F N 2013 8
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 943
17 Vetores e Matrizes 1 INICIANDO O R
mestados=tapply(salariosestadosfmean) media
mestados
AL BA PB PE SE
5400 5760 5700 6000 5875
destados=tapply(salariosestadosfsd) desvio padr~ao
destados
AL BA PB PE SE
70710678 105498815 85440037 NA 09574271
Construımos a funcao do coeficiente de variacao de duas formas distintase incluımos no comando tapply
cv=function(x) sd(x)100mean(x)cvestados=tapply(salariosestadosfcv)
cvestados
AL BA PB PE SE
13094570 18315767 14989480 NA 1629663
cv=function(x) sqrt(var(x))100mean(x)
cvestados=tapply(salariosestadosfcv)
cvestados
AL BA PB PE SE
13094570 18315767 14989480 NA 1629663
17 Vetores e Matrizes
Um vetor pode ser considerado como a entrada de uma colecao de dadossendo estes numericos ou nao R facilita a manipulacao e construcao de veto-res e matrizes Considere a construcao de 30 numeros aleatorios Uniformesem duas matrizes de 3 linhas por 5 colunas
z=runif(30)
dim(z)=c(352)
z
1
[1] [2] [3] [4] [5]
[1] 09500783 09262226 005847740 034257312 03718370
[2] 08591887 07057183 020592054 003569694 06709746
[3] 06806468 06270572 001570158 021650180 05170189
Castaneda Daniel F N 2013 9
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1043
18 Indexando matrizes 1 INICIANDO O R
2
[1] [2] [3] [4] [5]
[1] 03539723 05918548 037104534 02148440 04169542
[2] 08895178 05751237 069399721 03808024 03872492
[3] 08036340 07065130 003400331 01593949 02306890
18 Indexando matrizes
x=array(120dim=c(45))
x
[1] [2] [3] [4] [5]
[1] 1 5 9 13 17[2] 2 6 10 14 18
[3] 3 7 11 15 19
[4] 4 8 12 16 20
i=array(c(1331)dim=c(32))
i
[1] [2]
[1] 1 3
[2] 2 2
[3] 3 1
gt x[i][ 1 ] 9 6 3
x[13]=9 x[22]=6 x[31]=3
O ındice i indica os valores da matriz x a serem extraıdos temos
x[i]=0 Substituımos x[i] por zero
x
[1] [2] [3] [4] [5]
[1] 1 5 0 13 17
[2] 2 0 10 14 18[3] 0 7 11 15 19
[4] 4 8 12 16 20
Construindo uma matriz 3 times 3 com elementos de 1 ao 9
c=matrix(c(19)33)
Castaneda Daniel F N 2013 10
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1143
19 Sequencias 1 INICIANDO O R
c
[1] [2] [3]
[1] 1 4 7
[2] 2 5 8
[3] 3 6 9
19 Sequencias
Sequencias sao construıdas ingressando o primeiro elemento o ultimoelemento e o espacamento
b=seq(1014 by=5)
b[1] 100 105 110 115 120 125 130 135 140
a=seq(19)
ab=ab multiplicando vetores
ab
[1]
[1] 570
ab=outer(ab)
ab
[1] [2] [3] [4] [5] [6] [7] [8] [9]
[1] 10 105 11 115 12 125 13 135 14
[2] 20 210 22 230 24 250 26 270 28[3] 30 315 33 345 36 375 39 405 42
[4] 40 420 44 460 48 500 52 540 56
[5] 50 525 55 575 60 625 65 675 70
[6] 60 630 66 690 72 750 78 810 84
[7] 70 735 77 805 84 875 91 945 98
[8] 80 840 88 920 96 1000 104 1080 112
[9] 90 945 99 1035 108 1125 117 1215 126
ab=at(b)
ab
[1] [2] [3] [4] [5] [6] [7] [8] [9][1] 10 105 11 115 12 125 13 135 14
[2] 20 210 22 230 24 250 26 270 28
[3] 30 315 33 345 36 375 39 405 42
[4] 40 420 44 460 48 500 52 540 56
[5] 50 525 55 575 60 625 65 675 70
Castaneda Daniel F N 2013 11
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1243
110 Multiplicando matrizes 1 INICIANDO O R
[6] 60 630 66 690 72 750 78 810 84
[7] 70 735 77 805 84 875 91 945 98
[8] 80 840 88 920 96 1000 104 1080 112
[9] 90 945 99 1035 108 1125 117 1215 126
d=outer(0909)
d
[1] [2] [3] [4] [5] [6] [7] [8] [9] [10]
[1] 0 0 0 0 0 0 0 0 0 0
[2] 0 1 2 3 4 5 6 7 8 9
[3] 0 2 4 6 8 10 12 14 16 18
[4] 0 3 6 9 12 15 18 21 24 27
[5] 0 4 8 12 16 20 24 28 32 36
[6] 0 5 10 15 20 25 30 35 40 45
[7] 0 6 12 18 24 30 36 42 48 54
[8] 0 7 14 21 28 35 42 49 56 63
[9] 0 8 16 24 32 40 48 56 64 72
[10] 0 9 18 27 36 45 54 63 72 81
110 Multiplicando matrizes
Para a construcao de matrizes o preenchimentos das celulas ou casas e
feita coluna a coluna como padrao exemplo
a= matrix(c(19)33)
a
[1] [2] [3]
[1] 1 4 7
[2] 2 5 8
[3] 3 6 9
podemos construir esta mesma matriz preenchendo as casas linha por linhada seguinte forma
at=matrix(c(19)33byrow=T)
at
[1] [2] [3]
[1] 1 2 3
[2] 4 5 6
[3] 7 8 9
Castaneda Daniel F N 2013 12
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1343
111 Invers˜ ao de matrizes 1 INICIANDO O R
Uma alternativa seria usar a funcao aperm()
b= aperm(ac(21))
b
[1] [2] [3]
[1] 1 2 3
[2] 4 5 6
[3] 7 8 9
ab multiplicac~ao elemento a elemento
[1] [2] [3]
[1] 1 8 21[2] 8 25 48
[3] 21 48 81
ab multiplicac~ao das matrizes a e b
[1] [2] [3]
[1] 66 78 90
[2] 78 93 108
[3] 90 108 126
crossprod(ab) produto da transposta de a por b
[1] [2] [3]
[1] 30 36 42
[2] 66 81 96
[3] 102 126 150
t(a)b
[1] [2] [3]
[1] 30 36 42
[2] 66 81 96
[3] 102 126 150
111 Inversao de matrizes
c=matrix(c(324572159)33)
d=matrix(c(223582858)33)
c
Castaneda Daniel F N 2013 13
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1443
112 Comandos cbind() e rbind() 1 INICIANDO O R
[1] [2] [3]
[1] 3 5 1
[2] 2 7 5
[3] 4 2 9
gt solve(c)
[1] [2] [3]
[1] 036551724 -029655172 012413793
[2] 001379310 015862069 -008965517
[3] -016551724 009655172 007586207
solve(cd) inverte a matriz c e multiplica por d
[1] [2] [3]
[1] 051034483 -029655172 24344828
[2] 007586207 115862069 01862069
[3] 008965517 009655172 -02344828
gt solve(c)d forma alternativa
[1] [2] [3]
[1] 051034483 -029655172 24344828
[2] 007586207 115862069 01862069
[3] 008965517 009655172 -02344828
112 Comandos cbind() e rbind()
E possıvel formar novas matrizes com as ja existentes usando a funcaocbind() e rbind() a primeira construı matrizes em colunas a segunda emlinhas
cbind(cd)
[1] [2] [3] [4] [5] [6]
[1] 3 5 1 2 5 8
[2] 2 7 5 2 8 5
[3] 4 2 9 3 2 8
rbind(cd)[1] [2] [3]
[1] 3 5 1
[2] 2 7 5
[3] 4 2 9
[4] 2 5 8
Castaneda Daniel F N 2013 14
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1543
113 Autovalores e autovetores 1 INICIANDO O R
[5] 2 8 5
[6] 3 2 8
cbind(1c)
[1] [2] [3] [4]
[1] 1 3 5 1
[2] 1 2 7 5
[3] 1 4 2 9
rbind(1d)
[1] [2] [3]
[1] 1 1 1
[2] 2 5 8
[3] 2 8 5
[4] 3 2 8
113 Autovalores e autovetores
ev=eigen(c) calcula autovalores e autovetores
ev
$values
[1] 13265694+0000000i 2867153+1646172i 2867153-1646172i
$vectors[1] [2] [3]
[1] 03799264+0i 07884141+00000000i 07884141+00000000i
[2] 06480231+0i 00745376+03051027i 00745376-03051027i
[3] 06600924+0i -04774265-02276482i -04774265+02276482
det(c)
[1] 145
det(d)
[1] -57
114 Data frame ou construtor de dados
Suponha um conjunto de dados com tres variaveis sexo (1=homem0=mulher) peso em quilogramas e salario em reais por dia de 12 indivıduosPara calcular a media o resumo de estatısticas descritivas e um grafico (plot)
Castaneda Daniel F N 2013 15
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1643
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1743
116 Func˜ ao readtable() 1 INICIANDO O R
attach(ind)
peso
[1] 67 60 62 69 54 59 57 67 60 65 59 55
salario
[1] 59 40 45 65 55 45 48 67 65 68 62 45
sex
[1] 1 0 0 1 0 0 0 1 1 1 1 0
detach(ind)
salario
Erro objeto rsquosalariorsquo n~ao encontrado
A funcao attach e detach pode ser usada no somente em arquivo dedados dos pacotes do R se nao tambem para listas e data frame
116 Funcao readtable()
Um amplo conjunto de arquivos com diferentes extensoes pode ser lidopor esta funcao
1161 Arquivos com extensao txt
Considere as seguintes variaveis x1 idade dos funcionarios x2 sexo
(1 homem 0 mulher) x3 anos de experiencia na funcao x4 estado civilx5 numero de filhos x6 nota de 0 minus 10 de um teste de avaliacao deconhecimento na sua area x7 teste psicotecnico de 0 a 50 x8 satisfacaocom a vida pessoal estes dados em bloco de notas com extensao txt obtidosde Mingoti 2005 Ver dados na integra no apendice
funcao=readtable(functxtheader=T)
funcao
grupo idade sexo ecivil nfilhos aexper tpsico tconhec satisf
1 0 24 1 1 0 2 77 360 1
2 0 29 1 1 0 4 79 360 13 0 38 1 0 1 6 86 408 0
107 0 24 1 1 0 2 73 360 0
108 0 27 1 0 0 3 74 360 1
109 1 42 1 0 2 14 99 440 1
Castaneda Daniel F N 2013 17
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1843
117 Script com extens˜ ao R 1 INICIANDO O R
Considere os dados de consumo de agua de uma residencia durante
o perıodo de 1205 a 0411 Com as seguintes variaveis valor em reaisconsumo em m3 dias de consumo e construindo o imovel (1sim 2nao)Dados proprios do autor Ver dados na integra no apendice
ca=readtable(consumoagua2txtheader=T) disponıvel em meus documentos
ca
dado valor consumo diasconsumo Construindo
1 1 1476 11 30 0
2 2 1347 10 31 0
64 64 3439 14 31 1
65 65 2221 11 32 0
Observacao use o comando choose() para escolher um conjunto dedados de um diretorio especifico no computador podemos usar
datalt-readtable(filechoose()header=T)
117 Script com extensao R
Exemplo com extensao R lida por readtable com dados do proprio R
exemplo=readtable(filechoose()header=T) dadosrR em aula 3exemplo
dado valor
1 1 115
2 2 117
3 3 118
4 4 119
5 5 127
118 Funcao scan()
A funcao scan tambem pode incluir elementos no R
scan()
1 12
2 13
3 14
Castaneda Daniel F N 2013 18
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1943
119 Func˜ ao sample 1 INICIANDO O R
4 15
5
Read 4 items
[1] 12 13 14 15
Use a funcao scan() para ingressar dados diretamente na plataforma R
119 Funcao sample
Usa-se para escolher aleatoriamente uma amostra de um conjunto deobservacoes ou uma base de dados Como exemplo considere uma amostrade 8 observacoes dos primeiros 20 do banco de dados de consumo de agua
(ca)setseed(10)
ca20=ca[sample(1208)]
ca20
dado valor consumo diasconsumo Construindo
11 11 3153 16 31 1
6 6 1347 10 32 0
8 8 1347 10 30 0
12 12 3755 18 32 1
2 2 1347 10 31 0
4 4 5275 22 33 1
15 15 3755 18 32 0
14 14 1648 11 30 0
120 Rcmdr
Para importar dados do SPSS STATISTICA MINITAB EXCEL TXTetc podemos usar o pacote livre Rcmdr ja disponıvel na biblioteca
library(Rcmdr)
este pacote trabalha via janelas para maior comodidade
121 Dados disponıveis no R
R possuı mais de 100 conjunto de dados alocados no pacote dataset quepodem ser chamados diretamente ( sem extensao) com a funcao data
data()
Castaneda Daniel F N 2013 19
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2043
122 Modificando e editando dados 1 INICIANDO O R
No R pode-se acessar a conjunto de dados de outros pacotes disponıveis
na sua biblioteca Se por acaso esta instalado o pacote lmtest o conjuntode dados ativo neste pacote pode ser chamado da seguinte maneira
data(package=lmtest)
122 Modificando e editando dados
Considere o conjunto de dados anterior Para modificar este conjuntosera disponibilizado uma tela de editor de dados a seguir
xnovo=edit(wagespackage=lmtest)
Para editar um conjunto de dados novo podemos usar a funcao edit daseguinte forma
xn=edit(dataframe())
123 Exportando dados do R para o Excel
Para exportar uma coluna de dados por exemplo o valor pago no con-sumo de agua executamos no R
writeClipboard(ascharacter(valor))
Na tela do Excel usar o comando colar Suponha que esta interessadoem exportar o conjunto de dados ca consumo de agua numa residenciadisponıveis no R para transferir este conjunto de dados use o seguintecomando
writetable(caclipboardsep=tcolnames=NA)
Na tela do Excel faca Ctrl+V ou um click em colar
124 Funcoes apply tapply sapply e lapply
A funcao apply calcula medidas estatısticas por linhas ou por colunas
e a funcao sapply calcula apenas por coluna A diferenca da funcao applyda funcao tapply e que esta ultima calcula medidas estatısticas por estratosConsidere os dados de consumo de agua de uma residencia
apply(ca2mean)
dado valor consumo diasconsumo Construindo
330000000 255690769 126153846 307076923 02615385
Castaneda Daniel F N 2013 20
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2143
125 Distribuic˜ oes de probabilidade 1 INICIANDO O R
tapply(valorConstruindomean)
0 1
2115271 3803882
sapply(camean)
dado valor consumo diasconsumo Construindo
330000000 255690769 126153846 307076923 02615385
lapply(camean) verificar
125 Distribuicoes de probabilidade
R proporciona uma serie de funcoes para variaveis aleatorias estatısticasconhecidas dentro destas funcoes temos distribuicao aleatorizacao proba-
bilidade e quantidadeDistribuicao nome no R argumentos adicionaisbeta beta shape1shap2npcbinomial binom sizeprobcauchy cauchy locationscalechi-quadrado chisq dfnpcexponencial exp rateF f df1df2npcgamma gamma shapescalegeometric geom probhypergeometric hyper mnk
log-normal lnorm meanlogsdloglogistic logis locationscalenegativa binomial nbinom sizeprobnormal norm meansdpoisson pois lambdat-student t dfncpuniforme unif minmaxweibull weibull shapescalewilcoxon wilcoxon mn
Nomes iniciando com ldquodrdquocalculara a densidade da funcao ldquoprdquoparacalcular a probabilidade ou funcao acumulada ldquoqrdquopara o valor quantılico eldquorrdquopara simulacao de numeros aleatoriosExemplos
rpois(105) 10 numeros aleatorios da dist poisson com parametro 5
[1] 3 2 3 1 8 6 1 3 2 3
Castaneda Daniel F N 2013 21
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2243
126 Algoritmos de programac˜ ao no R 1 INICIANDO O R
rnorm(5) 5 numeros aleatorios da normal padr~ao
[1] 004659011 -005019082 -128753167 115411245 -137573809
qt(09550) valor quantilico da t com 50 gl
[1] 1675905
qchisq(0951) valor da qui-quadrado
com 95 de confianc a e 1 g l
[1] 3841459
dpois(45) densidade da dist poisson x=4 parametro=5
[1] 01754674
ppois(45) P(xlt=4) parametro=5
[1] 04404933
126 Algoritmos de programacao no R
R e uma linguagem de programacao orientada a objetos que alem de ana-lisar dados tem sua propria programacao aqui usaremos esta programacaopara analises de estatısticas e econometria Para maiores detalhes podemospesquisar em Venables and Ripley (2000 e 2002) Voce pode estender afuncionalidade do R criando novas funcoes ou programando por exemplo
medianamediarazao lt- function(x)
return(median(x)mean(x))
setseed(20)
z = rexp(10000)
medianamediarazao(z)
[1] 06925193
Construindo a mediana
mediana=function(x)
oddeven=length(x)2
if (oddeven == 0) (sort(x)[length(x)2]+sort(x)[1+ length(x)2])2
else sort(x)[ceiling(length(x)2)]
Construindo a media geometrica
mediageometrica = function (x) exp(mean(log(x)))
Construindo a media harmonica
Castaneda Daniel F N 2013 22
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2343
126 Algoritmos de programac˜ ao no R 1 INICIANDO O R
mediaharmonica=function (x) 1mean(1x)
Um algoritmo que envolva as medidas de tendencia central
medidascentrais = function(y medida)
switch(medida
media = mean(y)
mgeometrica = exp(mean(log(y)))
mharmonica = 1mean(1y)
mediana = median(y)
stop(Medida n~ao inclusa))
medidascentrais(ymedia)
Gerando uma distribuicao uniforme para o lancamento de um dado
ndado=function(x) return(round(runif(x)6+05))
hist(ndado(100000)
Com o comando sample podemos realizar este mesmo experimento daseguinte maneira
gerando=sample(16 100000 replace=TRUE)
hist(gerando)
Considere o seguinte objeto c
c=c(122715365)
Para determinar que classe de objeto e o vetor c podemos identificarusando os seguintes comandos
ischaracter(c)
[1] FALSE
isnumeric(c)
[1] TRUE
A este objeto c podemos a signar nome a cada valor definido da seguinteforma
names(c)=c(abcdef)
c
a b c d e f
10 22 70 150 30 65
Castaneda Daniel F N 2013 23
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2443
127 Lacos no R 1 INICIANDO O R
Podemos associar uma comparacao logica com o vetor c da seguinte
forma
cgt3
a b c d e f
FALSE FALSE TRUE TRUE FALSE TRUE
Quando estamos diante de uma matriz podemos definir os nomes dascolunas com colnames() e os nomes das linhas com rownames() veja oexemplo
d=matrix(c(223582858)33)
colnames(d)=c(c1c2c3)
rownames(d)=c(1o2o3o)
d
c1 c2 c3
1o 2 5 8
2o 2 8 5
3o 3 2 8
A matriz d e entendida como um conjunto de dados que podem serassociados as linhas e as colunas Para determinar se ha associacao entrelinhas e colunas o teste utilizado pode se o qui-quadrado com a funcaochisqtest()
127 Lacos no R
Em algumas situacoes variaveis contınuas podem ser transformadas em variaveisordinais ou dummy para realizar estas operacoes o R proporciona varioslacos como else if ou ifelseExemplo para construir variaveis binarias considere o consumo de aguaonde consumo menor ou igual a 10 m3 e zero e acima de 10 m3 e 1 Ovalor de consumo sendo zero se o valor e menor ou igual a 20 reais e 1 casocontrario
consumoc=numeric(length(consumo))
for(i in 1length(consumo))if (consumo[i]lt=10) consumoc[i]=0
else consumoc[i]=1
valorc=numeric(length(valor))
for(i in 1length(valor))if (valor[i]lt=20) valorc[i]=0 else valorc[i]=1
Castaneda Daniel F N 2013 24
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2543
128 A func˜ ao cut() 1 INICIANDO O R
Nota Podemos construir os lacos considerando a condicao como texto
exemplo consumoc[i]=rdquo[0minus 10]rdquo Comando alternativo de construcao
consumoc2=ifelse(consumolt=10[0-10]Acima de 10)
valorc2=ifelse(valorlt=20[0-20]Acima de 20)
limitacao deste laco e que utilizado apenas para duas condicoes Para lacoscom mais de duas condicoes podemos usar os seguintes comandos
valorc3=numeric(length(valor))
for(i in 1length(valor))if (valor[i]lt20) valorc3[i]=[0-20)
else if (valor[i]lt30)
valorc3[i]=[20-30) else valorc3[i]=[30 a +
table(valorc3)
128 A funcao cut()
Alguma funcoes usam lacos para criar novas variaveis categoricas no exem-plo de valor pago em reais pelo consumo de agua podemos construir cate-gorias por quartis de 25 50 75 1 da seguinte maneira
q=cut(valorquantile(valor) includelowest=T)
table(q)
q
[135165] (165222] (222327] (327693]
17 16 16 16
Outras formas podem ser usando intervalos a criterio pessoal no exemplo aseguir consideramos com valor mınimo 13 e valor maximo 70 com amplitudedo intervalo de 19 e com classes fechadas no mınimo e aberto no maximo
valr=cut(valmseq(137019)right=Fincludeupper=T)
table(valr)
valr
[1332) [3251) [5170)
48 15 2
129 Criando funcoes Teste que compara duas medias
Como exemplo implementamos a estatıstica de comparacao de duasamostras independentes
Castaneda Daniel F N 2013 25
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2643
130 Coeficiente de regressao 1 INICIANDO O R
testeduas lt- function(y1 y2)
+ n1 lt- length(y1) n2 lt- length(y2)
+ yb1 lt- mean(y1) yb2 lt- mean(y2)
+ s1 lt- var(y1) s2 lt- var(y2)
+ s lt- ((n1-1)s1 + (n2-1)s2)(n1+n2-2)
+ tst lt- (yb1 - yb2)sqrt(s(1n1 + 1n2))
+ tst
+
x=runif(20)
y=rnorm(20)
testeduas(xy)
[1] 2874636
Uma forma alternativa e usando a funcao ttest()
ttest(xy)
Welch Two Sample t-test
data x and y
t = 28746 df = 21784 p-value = 0008858
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
01846283 11429380sample estimates
mean of x mean of y
05539270 -01098562
130 Coeficiente de regressao
Implementando o calculo da tangente (inclinacao) do coeficiente no mo-delo de regressao linear simples
mq1lt- function(X y)
+ X lt- qr(X)
+ qrcoef(X y)+
mq1(xy)
[1] -008755885
Castaneda Daniel F N 2013 26
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2743
131 Teste Qui- Quadrado 1 INICIANDO O R
131 Teste Qui- Quadrado
Util para associar linhas e colunas considere os dados em d com as se-guintes hipotesesH0 nao ha associacao entre linhas e colunasHa ha associacao entre linhas e colunas
chisqtest(d)
Pearsonrsquos Chi-squared test
data d
X-squared = 46497 df = 4 p-value = 03252
Warning message
In chisqtest(d) Aproximac~ao Qui-quadrado pode estar incorreta
Para um nıvel α = 0 05 de significancia podemos afirmar que nao haevidencias para afirmar que a associacao entre linhas e colunas (linhas ecolunas sao independentes) Um outro exemplo do uso da distribuicao Qui-quadrado e verificar se um conjunto de dados provem de uma determinadadistribuicao teorica
chisqtest(c)
Chi-squared test for given probabilities
data c
X-squared = 22549 df = 5 p-value = 00004116
Pelo p-value podemos afirmar que a 0 05 de significancia nao ha evi-dencias para afirmar que a distribuicao dos numeros em c sejam uniformesPara implementar este teste de associacao no exemplo de consumo de aguaconsiderando a classificacao mediante lacos (ver lacos no R) entre consumoce valorc temos
table(consumocvalorc)
valorc
consumoc 0 1
0 24 0
Castaneda Daniel F N 2013 27
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2843
132 Teste t - student 1 INICIANDO O R
1 3 38
chisqtest(consumocvalorc)$expected
chisqtest(consumocvalorc)$observed
chisqtest(consumocvalorc)
Pearsonrsquos Chi-squared test with Yatesrsquo continuity correction
data consumoc and valorc
X-squared = 498015 df = 1 p-value = 1701e-12
barplot(table(consumocvalorc) beside=T)
Concluimos que ha associacao entre consumo de agua e o valor pago em
reais
132 Teste t - student
O teste mais usado pelos estatısticos e util para comparar medias deduas amostras tanto independente como emparelhadasExemplo considere as exportacoes mensais (FOB-US) do Brasil durante osanos de 2009 minus 2010 Apos digitacao das observacoes temos
exp2009
[1] 9781920 9586406 11809225 12321617 11984585 14467785 14141930
[8] 13840850 13863222 14081686 12652892 14462624
exp2010[1] 1130507 1219724 1572750 1516121 1770250 1709391 1767292 1923625
[9] 1883279 1838042 1768733 2091814
H0 A medias anuais das exportacoes durante 2009 e 2010 e a mesmaHa CC
ttest(exp2009exp2010paired = FALSE)
Welch Two Sample t-test
data exp2009 and exp2010
t = -42813 df = 18202 p-value = 00004394
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-6075666 -2077757
sample estimates
mean of x mean of y
Castaneda Daniel F N 2013 28
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2943
133 Teste F 1 INICIANDO O R
1274956 1682627
Conclusao nao ha evidencias para aceitar que a media das exportacoesde 2009 e 2010 e a mesma
Quando um conjunto de dados e dado em formato de matriz (dataframe)podemos realizar o teste t de uma coluna em funcao da outra por exemplono consumo de agua queremos testar a hipotese nula H0 o valor de con-sumo de agua e o mesmo construindo ou nao versus a hipotese alternativaHa Caso contrario
attach(ca)
ttest(valor~Construindo)
Welch Two Sample t-test
data valor by Construindo
t = -58383 df = 21731 p-value = 7465e-06
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-2288867 -1088356
sample estimates
mean in group 0 mean in group 1
2115271 3803882
Concluımos que nao ha evidencias para aceitar que o valor de consumode agua e o mesmo quando estamos construindo ( p minus valor lt 005)
Exemplos adicionais podem ser comparando entre as variaveis clas-sificadas (ver secao de lacos) da seguinte forma
ttest(valor~consumoc)
ttest(consumo~valorc)
boxplot(consumo~valorc2 main=Consumo e valor pago em Reais)
boxplot(consumo~valorc3 main=Consumo e valor pago em Reais)
133 Teste F
Para determinar se ha a mesma variabilidade no valor de consumoquando estamos ou nao construindo utilizamos o teste F A hipotese nulae H0 O valor de consumo de agua tem a mesma variabilidade quandoconstruımos que quando nao construımos No R temos
Castaneda Daniel F N 2013 29
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3043
133 Teste F 1 INICIANDO O R
vartest(valor~Construindo)
F test to compare two variances
data valor by Construindo
F = 04834 num df = 47 denom df = 16 p-value = 005478
alternative hypothesis true ratio of variances is not equal to 1
95 percent confidence interval
0194815 1014916
sample estimates
ratio of variances
04834048
Concluımos que nao ha evidencias para rejeitar a hipotese nula por tanto
a variabilidade no valor de consumo e o mesmoO correspondente grafico (Box-plot) e apresentado a seguir
boxplot(valor~Construindo col=8 names=c(n~ao construc~ao construc~ao))
natildeo construccedilatildeo construccedilatildeo
2 0
3 0
4 0
5 0
6 0
7 0
Figura 4 Valor pago em reais no consumo de agua
Em alguns casos ha necessidade de identificar se a variabilidade dasexportacoes e a mesma comparando 2009 e 2010H0 As exportacoes de 2009 e 2010 tem a mesma variabilidade (dados men-sais coletados do site httpwwwipeadatagov)Ha CC
Castaneda Daniel F N 2013 30
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3143
134 Graficos 1 INICIANDO O R
vartest(exp2009exp2010)
F test to compare two variances
data exp2009 and exp2010
F = 03728 num df = 11 denom df = 11 p-value = 01166
alternative hypothesis true ratio of variances is not equal to 1
95 percent confidence interval
01073346 12951624
sample estimates
ratio of variances
03728482
Conclusao Nao houve mudancas na variabilidade das exportacoes de
2009 e 2010
134 Graficos
Considere os dados mensais das exportacoes do Brasil (FOB) durante2009 e 2010 para realizar um grafico de box-plot fazemos
boxplot(exp2009exp2010 main=exportac~oes do Brasil
names=c(20092010))
2009 2010
1 0 0 0 0
1 2 0 0 0
1 4 0 0 0
1 6 0 0 0
1 8 0 0 0
2 0
0 0 0
exportaccedilotildees do Brasil
Figura 5 Exportacoes FOB em dolares
Para o grafico da funcao acumulativa das exportacoes
plot(ecdf(exp2010) dopoint=FALSE verticals=TRUE
lty=3 xlim=c(1000023000))
lines(ecdf(exp2009) dopoint=FALSE verticals=TRUE
col=2)
Castaneda Daniel F N 2013 31
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3243
134 Graficos 1 INICIANDO O R
1 00 00 1 20 00 1 40 00 1 60 00 1 80 00 2 00 00 2 20 00
0 0
0 2
0 4
0 6
0 8
1 0
ecdf(exp2010)
x
F n ( x )
Figura 6 Funcao acumulada das exportacoes 2009-2010
Considere as exportacoes do Brasil um histograma e Q-Q plot sera
hist(exp main=Exportac~oes FOB-US col=8)
qqnorm(exp xlim=c(-55)ylim=c(-100021000))
qqline(exp)
Exportaccedilotildees FOBminusUS$
exp
F r e q u e n c y
0 5000 10000 15000 20000
0
5 0
1 0 0
1 5 0
minus4 minus2 0 2 4
0
5 0 0 0
1 0 0 0 0
1 5 0 0 0
2 0 0 0 0
Normal QminusQ Plot
Theoretical Quantiles
S a m p l e Q u a n t i l e s
Figura 7 Graficos das Exportacoes no Brasil 2001-2010
Para ativar alguns graficos pacotes sao necessarios exemplo
library(MASS)
Castaneda Daniel F N 2013 32
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3343
134 Graficos 1 INICIANDO O R
par(mfrow=c(21))
z = rnorm(500000)
hist(z prob=T)
curve(dnorm(x)add=T)
histscott(z prob=T)
Histogram of z
z
D e n s i t y
minus4 minus2 0 2 4
0 0
0 2
Histogram of x
z
D e n s i t y
minus4 minus2 0 2 4
0 0
0 2
0 4
Figura 8 Histograma de numeros aleatorios normais
boxcox(dist~speed data=cars) transformac~ao Box-Cox
minus2 minus1 0 1 2
minus 4 0 0
minus 3 5 0
minus 3 0 0
minus 2 5 0
λ
l o g minus
L i k e l i h o o d
95
Figura 9 Valor otimo na transformacao Box-Cox
Castaneda Daniel F N 2013 33
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3443
135 Tabelas 1 INICIANDO O R
Para ter um alcance maior sobre a capacidade grafica do R podemos
usar as seguintes funcoes
demo(graphics)
demo(image)
demo(persp)
demo(recursion)
demo(plotmath)
demo(package = packages(allavailable = TRUE))
135 Tabelas
Algumas tabelas estatısticas podem ser construıdas com a funcao table()estado=c(PBPEALSEBAMGESRJPBPEAL
SEBAMGESRJPBPEALSEBAMGESRJ
PBPEALSEBAMGESRJ)
estadof=factor(estado)
estadof
[1] PB PE AL SE BA MG ES RJ PB PE AL SE BA MG ES RJ PB PE AL SE BA
[22] MG ES RJ PB PE AL SE BA MG ES RJ
Levels AL BA ES MG PB PE RJ SE
setseed(10)
salarios=c(round(runif(32)100))
salarios
[1] 51 31 43 69 9 23 27 27 62 43 65 57 11 60 36 43 5 26 40 84 86 62 78 36 41
[26] 71 84 24 77 36 54 9
salariom=tapply(salariosestadofmean)
salariom
AL BA ES MG PB PE RJ SE
5800 4575 4875 4525 3975 4275 2875 5850
salariof=factor(cut(salariosbreaks=0+15(07)))
salariof
[1] (4560] (3045] (3045] (6075] (015] (1530] (1530] (1530] (6075]
[10] (3045] (6075] (4560] (015] (4560] (3045] (3045] (015] (1530]
[19] (3045] (7590] (7590] (6075] (7590] (3045] (3045] (6075] (7590]
[28] (1530] (7590] (3045] (4560] (015]
Levels (015] (1530] (3045] (4560] (6075] (7590]
table(salariofestadof)
estadof
Castaneda Daniel F N 2013 34
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3543
136 Comandos adicionais 2 R E ECONOMETRIA
salariof AL BA ES MG PB PE RJ SE
(015] 0 2 0 0 1 0 1 0
(1530] 0 0 1 1 0 1 1 1
(3045] 2 0 1 1 1 2 2 0
(4560] 0 0 1 1 1 0 0 1
(6075] 1 0 0 1 1 1 0 1
(7590] 1 2 1 0 0 0 0 1
table(salariofestadof)
estadof
salariof AL BA ES MG PB PE RJ SE
(015] 1 1 0 0 1 0 1 2
(1530] 0 0 1 1 0 0 1 1
(3045] 0 0 2 0 0 1 0 0
(4560] 2 0 1 0 0 1 0 0
(6075] 0 1 0 2 3 0 1 0
(7590] 0 1 0 1 0 2 0 1
(90105] 0 1 0 0 0 0 1 0
136 Comandos adicionais
Em situacoes onde a ausencia de informacao ou dados faltantes(missing)as funcoes do R precisam declarar esta ausencia com o comando narm=T
indicando que a informacao apresenta dados faltantes Exemplo
df=c(2NA58NA) O ultimo elemento esta ausente
mean(f) Comando padr~ao para calcular a media
[1] NA
mean(fnarm=T) Comando declarando a ausencia de elementos
[1] 5
2 R e Econometria
Dados economicos precisam de uma atencao matematica para dar fun-
damento a suas teorias Atualmente pelo avanco computacional nao habarreiras para serem aplicadas e torna-se ate divertida se definimos a plata-forma de trabalho computacional A econometria requer de uma abordagemdiferenciada pois faz uso de da teoria economica economia matematica es-tatıstica economica estatıstica matematica e inferencia estatıstica Esta
Castaneda Daniel F N 2013 35
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3643
21 Tipos de Dados 2 R E ECONOMETRIA
disciplina aproxima a Estatıstica da Economia onde a teoria economica for-
mula as hipoteses Por exemplo uma reducao de precos de uma mercadoriadevera aumentar a quantidade demandada dessa mercadoria considerandouma relacao inversa entre preco e quantidade demandada ou a despesa deconsumo per capita depende da renda per capita considerando uma relacaodireta ou seja a medida que a renda aumenta a despesa tende a aumentarOutro exemplo onde consideremos a area microeconomica consumo de aguade uma residencia e o valor pago e natural imaginar que ha uma relacaodireta entre consumo e valor pago pelo consumo Porem precisamos saberqual e quanto e esta forca de relacao por tanto o econometrista forneceesta informacao usando a inferencia estatıstica e a estatıstica economicaAs estimativas de esta relacao fica por conta de estatıstica matematica
Para completar e cerrar este circulo de disciplinas abordadas na Econo-metria precisamos utilizar uma ferramenta de calculo computacional quebrinde estabilidade precisao e rapidez nos seus resultados para superartudo isto utilizaremos o ambiente R A econometria surge como uma disci-plina autonoma em virtude de aglutinar todas estas areas do conhecimentomerecendo um estudo proprio
21 Tipos de Dados
Os tipos de dados sao
1 Dados de corte transversal (cross-section) sao dados de uma ou maisvariaveis coletadas no mesmo ponto do tempo Por exemplo os censosno Brasil sao coletados num instante do tempo No censo variaveisdemograficas sao exploradas como contagem da populacao numerode indivıduos em cada famılia idade dos integrantes da famılia ouvariaveis economicas como renda consumo tipo de moradia (alugadaou propria) etc estes dados sao adquiridas a cada decada pelo IBGE
2 Dados longitudinais ou de series temporais sao caracterizadas porobservacoes ao longo do tempo No Brasil um site que disponibilizadados desta natureza e o IPEADATA
3 Dados de painel e uma mistura de dados de corte transversal e longi-tudinais ou ao longo do tempo estudamos o comportamento de unida-des individuais Por exemplo series mensal do ındice de precos serieanuais do produto interno bruto (PIB) ou serie anual da balanca co-mercial dos municıpios do Brasil considerando cada municıpio comounidades individuais
Castaneda Daniel F N 2013 36
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3743
22 Metodologia 2 R E ECONOMETRIA
22 Metodologia
Os passos da metodologia econometrica tradicional ou classica se iniciadesde a formulacao da hipotese ate as conclusoes em geral sao
221 Hipotese
Como referencia usaremos a hipotese nula H 0 a qual nulifica qualquerdiferenca e a hipoteses alternativa H a aquela que contradiz total ou par-cialmente a hipotese nula Exemplo
1 H 0 nao existe uma relacao entre consumo de agua e valor pago pela
mesma
2 Ha existe uma relacao entre consumo de agua e valor pago pelamesma
A hipotese alternativa pode ser dividida em tres possibilidades no exem-plo do consumo de agua pode ser dividida em existe alguma relacao oua relacao e negativa ou a relacao e positiva A primeira denomina-se dehipotese alternativa com teste bicaudal o segundo de teste unicaudal a es-querda e finalmente o ultimo com teste unicaudal a direita Nosso exemploconsidere H a existe alguma relacao (teste bicaudal)
222 Modelo matematico
Usaremos uma funcao de consumo simples
Y = β 1 + β 2X (11)
A variavel dependente Y valor pago pelo consumo e estimado por Y A variavel independente e X consumo de agua em m3 β 1 representa ovalor pago quando nao ha consumo de agua Nosso interesse e determinara tangente ou a variacao pelo consumo β 2
223 Modelo econometrico do valor pago
O modelo matematico fornece a relacao determinıstica entre valor pagoem reais e consumo de agua porem as relacoes entre as variaveis economicassao em geral inexatas Assim ao longo do tempo no podemos esperar que ovalor pago e o consumo em m3 se situem exatamente numa linha reta isto
Castaneda Daniel F N 2013 37
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3843
22 Metodologia 2 R E ECONOMETRIA
por que alem do consumo outras variaveis afetam o valor pago por exemplo
os dias de consumo o perıodo de reforma da casa ou a inflacao podendoalterar o valor pago pelo consumo
224 Nıvel de significancia
Denominado de α frequentemente usa-se α = 005 em situacoes derisco usa-se α = 001 Em testes bicaudais divide-se α em duas partes elocalizam-se nos extremos da distribuicao de prova Para testes unicaudaislocaliza-se no extremo da distribuicao indicada pela hipotese alternativaNosso exemplo α = 005 e por tanto α2 = 0025
225 Obtencao de Dados
Considere 65 observacoes (mes a mes) do consumo de agua em umaresidencia e o valor pago em reais durante o perıodo de 122005 a 042011Ver dados no apendice A Um plot e apresentado a seguir
10 15 20
2 0
3 0
4 0
5 0
6 0
7 0
Valor pago em reais de consumo de aacutegua
Variaacutevel independenteConsumo em m3
V a r i aacute v e l d e p e n d e n t e V a l o r p a g o
Y = minus12365+3007X
Figura 10 Relacao causal entre consumo e valor pago em reais
Podemos observar visualmente que ha uma relacao positiva entre valorpago e consumo de agua onde a variacao pelo consumo ou variacao dovalor pago (tangente) β 2 cresce positivamente Precisamos verificar se estavariacao β 2 e estatisticamente diferente de zero (significativa)
Castaneda Daniel F N 2013 38
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3943
22 Metodologia 2 R E ECONOMETRIA
226 Estatıstica de prova
Denominada de funcao pivo ou estatıstica de teste No ambito pa-rametrico usa-se as estatısticas t student (amostras pequenas) quando ne grande e indiferente o uso da t student ou normal No exemplo para tes-tar qual a inclinacao da variacao pelo consumo de agua usamos a seguinteestatıstica
t0 =β 2
dp(β 2)asymp tnminus2gl (12)
onde t0 e o valor calculado da estatıstica t β 2 e a estimativa do parametro(variacao pelo consumo) β 2 dp(β 2) e o desvio padrao da estimativa doparametro β 2 o valor t0 segue uma distribuicao t-student com nminus2 graus deliberdade(gl) Os graus de liberdade e calculado diferenciando o tamanhoda amostra com o numero de parametro do modelo (n-p) O valor quantılicotnminus2gl(0025) corresponde a distribuicao t-student com 0025 de significanciacom n minus 2 graus de liberdade e n e o numero total de observacoes Nossoexemplo β 2 = 3007 e dp(β 2) = 013 por tanto t0 = 2313 e comparadocom o valor da tabela da t-student com 63 gl e com α2 = 0025 sendo estevalor igual 19983
227 Tipos de erro
Ocorre o erro tipo I (α) ao se rejeitar a hipotese de nulidade quandodeveria aceita-la Por outro lado quando se aceita a hipotese de nulidadequando deveria rejeita-la comete-se o erro tipo II (β ) Nas duas situacoestomou-se uma decisao errada O interesse e a minimizacao dos erros tipo Ie II que na pratica so e possıvel aumentando-se o tamanho da amostra Porrazoes diversas o aumento do tamanho da amostra muitas vezes torna-se im-praticavel A gravidade do erro tipo I e distinta da do erro tipo II quando seconsegue identificar o erro mais grave a opcao e a minimizacao deste poremquando a probabilidade de ocorrencia de um tipo de erro diminui a do outroaumenta e vice versa Podemos observar este criterio na seguinte tabela
Nao rejeita rejeitaH0 verdadeira Correto (1 minus α) Erro do tipo I (α)H0 falsa Erro do tipo II (β ) Correto (1minus β )
Castaneda Daniel F N 2013 39
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4043
22 Metodologia 2 R E ECONOMETRIA
228 Regra de Decisao
Os pacotes ou plataformas estatısticas apresentam o valor observado dafuncao pivo e o p minus valor (Area de probabilidade esta relacionada comonıvel de significancia) assim a funcao pivo apresenta o valor numerico nafuncao de densidade da Estatıstica exemplo dentro da densidade da normalQuando o pvalor e menor do que α = 005 no caso do teste unicaudal (eα = 0025 no caso bicaudal) concluımos que nao ha evidencia suficiente paraaceitar H0 Caso contrario se o p minus valor for maior que α = 005 podemosconcluir que nao ha evidencia suficiente para rejeitar H0 Nosso exemplot0 = 2313 gt 1998 (1998 e valor da distribuicao t com 63 gl e nıvel designificancia bicaudal de 005) este valor localiza-se na cauda positiva da
distribuicao com 63 graus de liberdade(n minus 2 = 65 minus 2) Por outro lado o pminus valor lt 0025 por tanto nao ha evidencias para aceitar H0 em favor deaceitar que o coeficiente de inclinacao (ou tangente) e positiva No recorrerdo livro usaremos codigos para as medidas do pminusvalor que em geral apareceem todo comando summary() Como consequencia a linha que aparece aseguir sera excluıda das saıdas do R
Signif codes 0 0001 001 005 01 1
sera interpretada da seguinte maneira
bull 0 significancia menor que 0001
bull 0001 significancia menor que 001
bull 001 significancia menor que 005
bull 005 significancia menor que 01
bull 01 significancia menor que 1
229 Conclusoes
Esta parte do teste de hipoteses e explicada em conjunto O Estatıstico eo Economista que sao os profissionais da area em que as observacoes foramcoletadas decidem sobre as providencias futuras No exemplo podemosafirmar que a cada metro cubico a mais de consumo de agua sera pago emmedia 3 reais a mais No momento este valor pago pode parecer alto poremna falta de este liquido elementar este valor pode aumentar e por tantosofrera mudancas
Castaneda Daniel F N 2013 40
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4143
23 Previs˜ oes 2 R E ECONOMETRIA
23 Previsoes
Muitas vezes estamos interessados em determinar o que acontece quandouma quantidade de consumo de agua em m3 e utilizada e qual o valor pagoem reais Por exemplo se nosso interesse e saber quanto sera pago por 20m3
de consumo de agua em uma residencia A conta a realizar eValor pago = minus12365 + 3007 lowast 20 = 47775 reaisA interpretacao deste valor e em media o valor pago em reais por 20m3 deagua consumida e de aproximadamente 478 reais
231 Resıduos
Uma questao fundamental em econometria e identificar o comportamentodos resıduos de um modelo Considere Y o valor real pago e Y valor pagoestimado a partir de um modelo entao este erro e aleatorio e definido por
ϵi = Y i minus Y i (13)
A abordagem mais formal dos erros e feita nos proximos capıtulosUma questao importante e determinar qual o comportamento da estima-tiva destes erros aos quais chamamos de resıduos Para determinar a nor-malidade dos resıduos realizamos o teste de Jarque Bera com a funcao
jarqueberatest() da biblioteca tseries com o seguinte grafico
minus2 minus1 0 1 2
minus 5
0
5
1 0
resiacuteduos do modelo valor= f(consumo)
Theoretical Quantiles
S a m p l e Q u a n t i l e s
Figura 11 Normalidade dos resıduos
Castaneda Daniel F N 2013 41
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4243
24 Exercıcios REFER ENCIAS
24 Exercıcios
1 Por que a econometria precisa ser uma disciplina autonoma
2 Que e econometria
3 Pesquise dados de corte transversal corte longitudinal e de painel
4 Construa uma metodologia econometrica para o consumo familiar emfuncao da renda familiar (linear)
5 No item anterior e possıvel encontrar uma relacao quadratica
6 Quais sao os pressupostos basicos de um modelo de regressao linear
simples
7 Como e chamado o parametro de inclinacao ou tangente num modelode regressao linear simples em econometria
8 Que e o projeto R
9 R e um programa econometrico
Referencias
[1] Albert Jim (2009) Bayesian computation with R Editora SpringerSecond Edition New York USA
[2] Borde Arvind (1992) TEX by example A beginneracutes guide Ed Aca-demic Press Professional United States of America
[3] Carneiro Orlando (1997) Econometria Bacute asica Teoria e Aplicac˜ oes Editora Atlas Segunda Edicao son Paulo
[4] Conover W J (1999) Practical nonparametric statistics 3ed NewYork
[5] Cribari Neto F (2002) C for Econometricians conputational Econo-
mics 14 p135-149
[6] Dalgaard Peter(2008) Introductory Statistics with R Editora SpringerSecond Edition New York USA
[7] Ehlers Ricardo(2007) Analise de series Temporais Universidade Fe-deral do Parana
Castaneda Daniel F N 2013 42
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4343
REFER ENCIAS REFER ENCIAS
[8] Frery Alejandro Cribari-Neto Francisco(2011)Elementos de
Estatıstica conputacional Usando Plataformas de Software Li-vreGratuito Publicacoes Matematicas Editora IMPA
[9] Gujarati Damodar N (2000) Econometria Bacute asica Makron Books Ter-ceira Edicao son Paulo
[10] Knuth DE (1981)The Art of conputer Programming Third EditionVolume 2 Seminumerical Algorithms Addison-Wesley Publishingconpany Massachusetts
[11] Korgi Rodrigo de Castro (2003) El universo LAT E X Editora Facultadde Ciencias Segunda Edicao Bogota
[12] Krawczyk H How to Predict Congruential Generators InJournal of Algorithms V 13 N 4 1992
[13] LrsquoEcuyer P (2001) Software for uniform random number generationdistinguishing the good and the bad In Proceedings of the 2001 WinterSimulation Conference
[14] Maindonald John Braun W John(2010) Data analysis and graphics using R an example-based approach Cambridge University Press NewYork USA
[15] Mingoti(2005)Analise De Dados Atraves De Metodos De Estatistica Multivariada - Uma Abordagem Aplicada Editora UFMG Belo Hori-zonte
Castaneda Daniel F N 2013 43
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 343
11 Dados permanentes e removendo objetos 1 INICIANDO O R
Para instalar pacotes do R uma lista completa esta disponıvel com o
comando
installpackages()
11 Dados permanentes e removendo objetos
Durante uma sessao no R objetos sao criados e guardados por nomespara verificar estes objetos usamos o comando ou funcao
objects( ) ou gtls( )
[1] a1 a2 aa acei
[5] ads aju aju1 ajuste
[9] ajuste1 ajuste2 ajustehw ara
Para remover objetos antigos ou sem uso utilizamos o comando rm()
rm(a1 a2 aa acei ads aju)
Para detectar os pacotes na biblioteca local
library()
Para instalar o pacote urca disponıvel na biblioteca
installpackages(urca)
Um pacote instalado tem que ser chamado no R para realizar a tarefaPara chamar o pacote urca ja instalado
library(urca)
Para verificar os pacotes na biblioteca externa
updatepackages()
Para ver a lista de pacotes instalados na biblioteca local
installedpackages()
Castaneda Daniel F N 2013 3
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 443
12 Manipulac˜ ao de numeros e vetores 1 INICIANDO O R
12 Manipulacao de numeros e vetores
Para declarar numeros exemplo v =983131
10983133
realizamos o seguinte co-mando
v=10
v
[1] 10
Alertamos que no R o sımbolo lt minus e equivalente ao sımbolo =Considere o seguinte vetor com os numeros 1 3 34 6 99 3 com o nomeq =
9831311 3 34 6 99 3
983133 usamos
q=c(13346993)
Comandos de operacoes algebraicas sao usados com os sinais conven-cionais sendo + para soma - para a diferenca para multiplicacao e para divisaoAssim para inverter q podemos usar
1q
[1] 10000000 03333333 029411765 01666667 00101010 03333333
No R podemos utilizar comando logicos como verdadeiro ou falso paraos valores de q maiores do que 3 assim
qgt3
[1] FALSE FALSE TRUE TRUE TRUE FALSE
para restringir valores de q maiores do que 3
q[qgt3]
[1] 34 6 99
Podemos converter numeros em caracteres ou dıgitos assim
z2=c(09) equivalente a z2=09
digit=ascharacter(z2)
digit
[1] 0 1 2 3 4 5 6 7 8 9
Para retornar dıgitos em numeros com o seguinte comando
d=asinteger(digit)
d
[1] 0 1 2 3 4 5 6 7 8 9
Castaneda Daniel F N 2013 4
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 543
12 Manipulac˜ ao de numeros e vetores 1 INICIANDO O R
Para preparar uma variavel para ingressar seus valores por exemplo
e=numeric()
e[3]=17
Onde o terceiro elemento e 17 e os dois primeiros ainda nao definidos
e
[1] NA NA 17
Podemos ainda declarar os outros elementos de e
Para Construir um vetor qualitativo sendo na ordem 10 homens e 5
mulheres usamos a funcao rep()
w=c(rep(homem10) rep(mulher5))
w
[1] homem homem homem homem homem homem homem
[8] homem homem homem mulher mulher mulher mulher
[15] mulher
Considere o tamanho do calcado no pe de cada individuo em w
pe=c(404239414440424144403535373637)
Podemos identificar a distribuicao de frequencias de w e pe da seguinteforma
table(wpe)
pe
w 35 36 37 39 40 41 42 44
homem 0 0 0 1 3 2 2 2
mulher 2 1 2 0 0 0 0 0
Para construir graficos para as tabelas usamos as funcoes
plot(table(wpe) main=Frequenciasxlab=sexoylab=n umero)
barplot(table(wpe) main=Frequencias ylab=casosxlab=pe)legend(topleft legend=c(mulherhomem) col=c(81)lty=c(11))
Seus respectivo graficos sao
Castaneda Daniel F N 2013 5
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 643
13 Func˜ oes matematicas 1 INICIANDO O R
Frequecircncias
sexo
n uacute m e r o
homem mulher
3 5
3 6
3 7
3 9
4 0
4 1
4 2
4 4
35 36 37 39 40 41 42 44
Frequecircncias
peacute
c a s o s
0 0
0
5
1 0
1 5
2 0
2
5
3 0
mulherhomem
Figura 2 Descricao do calcado por sexo
13 Funcoes matematicas
Para utilizar as funcoes matematicas usamos os comandos
gt history() comandos usados previamente
gt length(x) numero de elementos do vetor ou lista x
gt log(x) log na base e de x
gt exp(x) antilogaritmo de x
gt log(xn) log na base n de x
gt log10(x) log na base 10 de x
gt sqrt(x) raiz quadrada de x
gt factorial(x) factorial de x(x)gt choose(nx) combinatoria n(x(n-x))
gt gamma(x) x (x-1) x inteiro
gt floor(x) menor inteiro de x
gt trunc(x) escolha do menor inteiro
gt abs(x) valor absoluto de x
gt cos(x) cosseno de x
gt sin(x) seno de x
gt tan(x) tangente de x
gt acos(x) inversa cosseno
gt asin(x) inversa seno
gt atan(x) inversa tangentegt acosh(x) inversa cosseno hiperbolica
gt asinh(x) inversa seno hiperbolica
gt atanh(x) inversa tangente hiperbolica
gt round(x digits=2) aproximac~ao a duas casas decimais
gt signif(x digits=6) x com notac~ao cientıfica de 6 dıgitos
Castaneda Daniel F N 2013 6
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 743
14 Func˜ oes estatısticas 1 INICIANDO O R
14 Funcoes estatısticas
gt max(x) valor maximo de x
gt min(x) valor mınimo de x
gt sum(x) soma total dos valores de x
gt mean(x) media aritmetica de x
gt median(x) mediana de x
gt range(x) vetor de mınimo e maximo de x
gt summary(x) resumo de estatısticas de locac~ao de x
gt var(x) variancia de x
gt cor(xy) correlac~a o d e x e y
gt sort(x) ordena em forma crescente os elementos de x
gt rank(x) vector de filas em xgt order(x) valores originais de x
gt quantile(x) vetor contendo os quartis de x
gt cumsum(x) vetor contendo a suma total elemento a elemento
gt cumprod(x) vetor contendo o produto elemento a elemento
gt cummax(x) vetor n~ao decrescente de x substituindo valores
gt cummin(x) vetor n~ao crescente de x substitui os valores
pelo mınimo
gt pmax(xyz) vetor contendo o vetor maior entre x y ou z e
substituindo o maximo em cada posic~ao
gt pmin(xyz) vetor contendo o vetor maior entre x y ou z
e substituindo o mınimo em cada posic~aogt colMeans(x) calcula a media por colunas na matriz x
gt colSums(x) calcula os totais por coluna na matriz x
gt rowMeans(x) calcula a media por linhas na matriz x
gt rowSums(x) calcula os totais por linhas na matriz x
15 Cores
O R disponibiliza cores usando a funcao palette() com 8 cores outrafuncao e colours() e que tambem podem ser identificados por um numero
ja especificado por exemplo
teta=(120)092plot(tetasin(teta) col=red pch=16cex=2) ou
plot(tetasin(teta) col=2 pch=16cex=2)
Onde cex representa o caracter de expansao da bolinha (quanto maior onumero maior a bolinha) Para incrementar varias cores no mesmo graficopodemos realizar o seguinte comando
Castaneda Daniel F N 2013 7
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 843
16 Fatores ordenados e desordenados 1 INICIANDO O R
plot(tetasin(teta) col=120 pch=16cex=2)
Para modificar a bolinha apenas modificamos pch
plot(tetasin(teta) col=120 pch=+cex=2)
Cores podem tambem ser incrementadas fora do corpo do grafico
plot(tetasin(teta) main=seno colmain=4 col=120 pch=+cex=2)
Outras alteracoes de cores podem ser construıdas com
colmain cor para o tıtulo do grafico
colaxis cor para os numeros dos eixos
collab cor para os tıtulos dos eixoscolsub cor para o subtıtulo do grafico
A fonte pode ser alterada da seguinte maneira
fontmain fonte para o tıtulo do grafico
fontaxis fonte para os numeros dos eixos
fontlab fonte para os tıtulos dos eixos
fontsub fonte para o subtıtulo do grafico
Onde 1 e texto normal 2 preto 3 italico 4 preto italico para simbolofonte A orientacao dos numeros pode ser alterada com o comando las= onde 1 horizontal a x 2 perpendicular a x 3 perpendicular a ambos eixos)
16 Fatores ordenados e desordenados
exemplo
estados=c(PEALSEBAPBBAPBALSEBAPB
+ SE BASEBA)
estadosf=factor(estados)
estadosf
[1] PE AL SE BA PB BA PB AL SE BA PB SE BA SE BA
Levels AL BA PB PE SE
levels(estadosf)[1] AL BA PB PE SE
salarios=c(604959564948565960696658475868)
A funcao tapply e usada para reordenar vetores calculando uma carac-terıstica dos nıveis no exemplo suponha que os salarios medio e o desviopadrao por cada trabalhador por dia nos estados seja dado a seguir
Castaneda Daniel F N 2013 8
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 943
17 Vetores e Matrizes 1 INICIANDO O R
mestados=tapply(salariosestadosfmean) media
mestados
AL BA PB PE SE
5400 5760 5700 6000 5875
destados=tapply(salariosestadosfsd) desvio padr~ao
destados
AL BA PB PE SE
70710678 105498815 85440037 NA 09574271
Construımos a funcao do coeficiente de variacao de duas formas distintase incluımos no comando tapply
cv=function(x) sd(x)100mean(x)cvestados=tapply(salariosestadosfcv)
cvestados
AL BA PB PE SE
13094570 18315767 14989480 NA 1629663
cv=function(x) sqrt(var(x))100mean(x)
cvestados=tapply(salariosestadosfcv)
cvestados
AL BA PB PE SE
13094570 18315767 14989480 NA 1629663
17 Vetores e Matrizes
Um vetor pode ser considerado como a entrada de uma colecao de dadossendo estes numericos ou nao R facilita a manipulacao e construcao de veto-res e matrizes Considere a construcao de 30 numeros aleatorios Uniformesem duas matrizes de 3 linhas por 5 colunas
z=runif(30)
dim(z)=c(352)
z
1
[1] [2] [3] [4] [5]
[1] 09500783 09262226 005847740 034257312 03718370
[2] 08591887 07057183 020592054 003569694 06709746
[3] 06806468 06270572 001570158 021650180 05170189
Castaneda Daniel F N 2013 9
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1043
18 Indexando matrizes 1 INICIANDO O R
2
[1] [2] [3] [4] [5]
[1] 03539723 05918548 037104534 02148440 04169542
[2] 08895178 05751237 069399721 03808024 03872492
[3] 08036340 07065130 003400331 01593949 02306890
18 Indexando matrizes
x=array(120dim=c(45))
x
[1] [2] [3] [4] [5]
[1] 1 5 9 13 17[2] 2 6 10 14 18
[3] 3 7 11 15 19
[4] 4 8 12 16 20
i=array(c(1331)dim=c(32))
i
[1] [2]
[1] 1 3
[2] 2 2
[3] 3 1
gt x[i][ 1 ] 9 6 3
x[13]=9 x[22]=6 x[31]=3
O ındice i indica os valores da matriz x a serem extraıdos temos
x[i]=0 Substituımos x[i] por zero
x
[1] [2] [3] [4] [5]
[1] 1 5 0 13 17
[2] 2 0 10 14 18[3] 0 7 11 15 19
[4] 4 8 12 16 20
Construindo uma matriz 3 times 3 com elementos de 1 ao 9
c=matrix(c(19)33)
Castaneda Daniel F N 2013 10
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1143
19 Sequencias 1 INICIANDO O R
c
[1] [2] [3]
[1] 1 4 7
[2] 2 5 8
[3] 3 6 9
19 Sequencias
Sequencias sao construıdas ingressando o primeiro elemento o ultimoelemento e o espacamento
b=seq(1014 by=5)
b[1] 100 105 110 115 120 125 130 135 140
a=seq(19)
ab=ab multiplicando vetores
ab
[1]
[1] 570
ab=outer(ab)
ab
[1] [2] [3] [4] [5] [6] [7] [8] [9]
[1] 10 105 11 115 12 125 13 135 14
[2] 20 210 22 230 24 250 26 270 28[3] 30 315 33 345 36 375 39 405 42
[4] 40 420 44 460 48 500 52 540 56
[5] 50 525 55 575 60 625 65 675 70
[6] 60 630 66 690 72 750 78 810 84
[7] 70 735 77 805 84 875 91 945 98
[8] 80 840 88 920 96 1000 104 1080 112
[9] 90 945 99 1035 108 1125 117 1215 126
ab=at(b)
ab
[1] [2] [3] [4] [5] [6] [7] [8] [9][1] 10 105 11 115 12 125 13 135 14
[2] 20 210 22 230 24 250 26 270 28
[3] 30 315 33 345 36 375 39 405 42
[4] 40 420 44 460 48 500 52 540 56
[5] 50 525 55 575 60 625 65 675 70
Castaneda Daniel F N 2013 11
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1243
110 Multiplicando matrizes 1 INICIANDO O R
[6] 60 630 66 690 72 750 78 810 84
[7] 70 735 77 805 84 875 91 945 98
[8] 80 840 88 920 96 1000 104 1080 112
[9] 90 945 99 1035 108 1125 117 1215 126
d=outer(0909)
d
[1] [2] [3] [4] [5] [6] [7] [8] [9] [10]
[1] 0 0 0 0 0 0 0 0 0 0
[2] 0 1 2 3 4 5 6 7 8 9
[3] 0 2 4 6 8 10 12 14 16 18
[4] 0 3 6 9 12 15 18 21 24 27
[5] 0 4 8 12 16 20 24 28 32 36
[6] 0 5 10 15 20 25 30 35 40 45
[7] 0 6 12 18 24 30 36 42 48 54
[8] 0 7 14 21 28 35 42 49 56 63
[9] 0 8 16 24 32 40 48 56 64 72
[10] 0 9 18 27 36 45 54 63 72 81
110 Multiplicando matrizes
Para a construcao de matrizes o preenchimentos das celulas ou casas e
feita coluna a coluna como padrao exemplo
a= matrix(c(19)33)
a
[1] [2] [3]
[1] 1 4 7
[2] 2 5 8
[3] 3 6 9
podemos construir esta mesma matriz preenchendo as casas linha por linhada seguinte forma
at=matrix(c(19)33byrow=T)
at
[1] [2] [3]
[1] 1 2 3
[2] 4 5 6
[3] 7 8 9
Castaneda Daniel F N 2013 12
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1343
111 Invers˜ ao de matrizes 1 INICIANDO O R
Uma alternativa seria usar a funcao aperm()
b= aperm(ac(21))
b
[1] [2] [3]
[1] 1 2 3
[2] 4 5 6
[3] 7 8 9
ab multiplicac~ao elemento a elemento
[1] [2] [3]
[1] 1 8 21[2] 8 25 48
[3] 21 48 81
ab multiplicac~ao das matrizes a e b
[1] [2] [3]
[1] 66 78 90
[2] 78 93 108
[3] 90 108 126
crossprod(ab) produto da transposta de a por b
[1] [2] [3]
[1] 30 36 42
[2] 66 81 96
[3] 102 126 150
t(a)b
[1] [2] [3]
[1] 30 36 42
[2] 66 81 96
[3] 102 126 150
111 Inversao de matrizes
c=matrix(c(324572159)33)
d=matrix(c(223582858)33)
c
Castaneda Daniel F N 2013 13
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1443
112 Comandos cbind() e rbind() 1 INICIANDO O R
[1] [2] [3]
[1] 3 5 1
[2] 2 7 5
[3] 4 2 9
gt solve(c)
[1] [2] [3]
[1] 036551724 -029655172 012413793
[2] 001379310 015862069 -008965517
[3] -016551724 009655172 007586207
solve(cd) inverte a matriz c e multiplica por d
[1] [2] [3]
[1] 051034483 -029655172 24344828
[2] 007586207 115862069 01862069
[3] 008965517 009655172 -02344828
gt solve(c)d forma alternativa
[1] [2] [3]
[1] 051034483 -029655172 24344828
[2] 007586207 115862069 01862069
[3] 008965517 009655172 -02344828
112 Comandos cbind() e rbind()
E possıvel formar novas matrizes com as ja existentes usando a funcaocbind() e rbind() a primeira construı matrizes em colunas a segunda emlinhas
cbind(cd)
[1] [2] [3] [4] [5] [6]
[1] 3 5 1 2 5 8
[2] 2 7 5 2 8 5
[3] 4 2 9 3 2 8
rbind(cd)[1] [2] [3]
[1] 3 5 1
[2] 2 7 5
[3] 4 2 9
[4] 2 5 8
Castaneda Daniel F N 2013 14
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1543
113 Autovalores e autovetores 1 INICIANDO O R
[5] 2 8 5
[6] 3 2 8
cbind(1c)
[1] [2] [3] [4]
[1] 1 3 5 1
[2] 1 2 7 5
[3] 1 4 2 9
rbind(1d)
[1] [2] [3]
[1] 1 1 1
[2] 2 5 8
[3] 2 8 5
[4] 3 2 8
113 Autovalores e autovetores
ev=eigen(c) calcula autovalores e autovetores
ev
$values
[1] 13265694+0000000i 2867153+1646172i 2867153-1646172i
$vectors[1] [2] [3]
[1] 03799264+0i 07884141+00000000i 07884141+00000000i
[2] 06480231+0i 00745376+03051027i 00745376-03051027i
[3] 06600924+0i -04774265-02276482i -04774265+02276482
det(c)
[1] 145
det(d)
[1] -57
114 Data frame ou construtor de dados
Suponha um conjunto de dados com tres variaveis sexo (1=homem0=mulher) peso em quilogramas e salario em reais por dia de 12 indivıduosPara calcular a media o resumo de estatısticas descritivas e um grafico (plot)
Castaneda Daniel F N 2013 15
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1643
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1743
116 Func˜ ao readtable() 1 INICIANDO O R
attach(ind)
peso
[1] 67 60 62 69 54 59 57 67 60 65 59 55
salario
[1] 59 40 45 65 55 45 48 67 65 68 62 45
sex
[1] 1 0 0 1 0 0 0 1 1 1 1 0
detach(ind)
salario
Erro objeto rsquosalariorsquo n~ao encontrado
A funcao attach e detach pode ser usada no somente em arquivo dedados dos pacotes do R se nao tambem para listas e data frame
116 Funcao readtable()
Um amplo conjunto de arquivos com diferentes extensoes pode ser lidopor esta funcao
1161 Arquivos com extensao txt
Considere as seguintes variaveis x1 idade dos funcionarios x2 sexo
(1 homem 0 mulher) x3 anos de experiencia na funcao x4 estado civilx5 numero de filhos x6 nota de 0 minus 10 de um teste de avaliacao deconhecimento na sua area x7 teste psicotecnico de 0 a 50 x8 satisfacaocom a vida pessoal estes dados em bloco de notas com extensao txt obtidosde Mingoti 2005 Ver dados na integra no apendice
funcao=readtable(functxtheader=T)
funcao
grupo idade sexo ecivil nfilhos aexper tpsico tconhec satisf
1 0 24 1 1 0 2 77 360 1
2 0 29 1 1 0 4 79 360 13 0 38 1 0 1 6 86 408 0
107 0 24 1 1 0 2 73 360 0
108 0 27 1 0 0 3 74 360 1
109 1 42 1 0 2 14 99 440 1
Castaneda Daniel F N 2013 17
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1843
117 Script com extens˜ ao R 1 INICIANDO O R
Considere os dados de consumo de agua de uma residencia durante
o perıodo de 1205 a 0411 Com as seguintes variaveis valor em reaisconsumo em m3 dias de consumo e construindo o imovel (1sim 2nao)Dados proprios do autor Ver dados na integra no apendice
ca=readtable(consumoagua2txtheader=T) disponıvel em meus documentos
ca
dado valor consumo diasconsumo Construindo
1 1 1476 11 30 0
2 2 1347 10 31 0
64 64 3439 14 31 1
65 65 2221 11 32 0
Observacao use o comando choose() para escolher um conjunto dedados de um diretorio especifico no computador podemos usar
datalt-readtable(filechoose()header=T)
117 Script com extensao R
Exemplo com extensao R lida por readtable com dados do proprio R
exemplo=readtable(filechoose()header=T) dadosrR em aula 3exemplo
dado valor
1 1 115
2 2 117
3 3 118
4 4 119
5 5 127
118 Funcao scan()
A funcao scan tambem pode incluir elementos no R
scan()
1 12
2 13
3 14
Castaneda Daniel F N 2013 18
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1943
119 Func˜ ao sample 1 INICIANDO O R
4 15
5
Read 4 items
[1] 12 13 14 15
Use a funcao scan() para ingressar dados diretamente na plataforma R
119 Funcao sample
Usa-se para escolher aleatoriamente uma amostra de um conjunto deobservacoes ou uma base de dados Como exemplo considere uma amostrade 8 observacoes dos primeiros 20 do banco de dados de consumo de agua
(ca)setseed(10)
ca20=ca[sample(1208)]
ca20
dado valor consumo diasconsumo Construindo
11 11 3153 16 31 1
6 6 1347 10 32 0
8 8 1347 10 30 0
12 12 3755 18 32 1
2 2 1347 10 31 0
4 4 5275 22 33 1
15 15 3755 18 32 0
14 14 1648 11 30 0
120 Rcmdr
Para importar dados do SPSS STATISTICA MINITAB EXCEL TXTetc podemos usar o pacote livre Rcmdr ja disponıvel na biblioteca
library(Rcmdr)
este pacote trabalha via janelas para maior comodidade
121 Dados disponıveis no R
R possuı mais de 100 conjunto de dados alocados no pacote dataset quepodem ser chamados diretamente ( sem extensao) com a funcao data
data()
Castaneda Daniel F N 2013 19
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2043
122 Modificando e editando dados 1 INICIANDO O R
No R pode-se acessar a conjunto de dados de outros pacotes disponıveis
na sua biblioteca Se por acaso esta instalado o pacote lmtest o conjuntode dados ativo neste pacote pode ser chamado da seguinte maneira
data(package=lmtest)
122 Modificando e editando dados
Considere o conjunto de dados anterior Para modificar este conjuntosera disponibilizado uma tela de editor de dados a seguir
xnovo=edit(wagespackage=lmtest)
Para editar um conjunto de dados novo podemos usar a funcao edit daseguinte forma
xn=edit(dataframe())
123 Exportando dados do R para o Excel
Para exportar uma coluna de dados por exemplo o valor pago no con-sumo de agua executamos no R
writeClipboard(ascharacter(valor))
Na tela do Excel usar o comando colar Suponha que esta interessadoem exportar o conjunto de dados ca consumo de agua numa residenciadisponıveis no R para transferir este conjunto de dados use o seguintecomando
writetable(caclipboardsep=tcolnames=NA)
Na tela do Excel faca Ctrl+V ou um click em colar
124 Funcoes apply tapply sapply e lapply
A funcao apply calcula medidas estatısticas por linhas ou por colunas
e a funcao sapply calcula apenas por coluna A diferenca da funcao applyda funcao tapply e que esta ultima calcula medidas estatısticas por estratosConsidere os dados de consumo de agua de uma residencia
apply(ca2mean)
dado valor consumo diasconsumo Construindo
330000000 255690769 126153846 307076923 02615385
Castaneda Daniel F N 2013 20
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2143
125 Distribuic˜ oes de probabilidade 1 INICIANDO O R
tapply(valorConstruindomean)
0 1
2115271 3803882
sapply(camean)
dado valor consumo diasconsumo Construindo
330000000 255690769 126153846 307076923 02615385
lapply(camean) verificar
125 Distribuicoes de probabilidade
R proporciona uma serie de funcoes para variaveis aleatorias estatısticasconhecidas dentro destas funcoes temos distribuicao aleatorizacao proba-
bilidade e quantidadeDistribuicao nome no R argumentos adicionaisbeta beta shape1shap2npcbinomial binom sizeprobcauchy cauchy locationscalechi-quadrado chisq dfnpcexponencial exp rateF f df1df2npcgamma gamma shapescalegeometric geom probhypergeometric hyper mnk
log-normal lnorm meanlogsdloglogistic logis locationscalenegativa binomial nbinom sizeprobnormal norm meansdpoisson pois lambdat-student t dfncpuniforme unif minmaxweibull weibull shapescalewilcoxon wilcoxon mn
Nomes iniciando com ldquodrdquocalculara a densidade da funcao ldquoprdquoparacalcular a probabilidade ou funcao acumulada ldquoqrdquopara o valor quantılico eldquorrdquopara simulacao de numeros aleatoriosExemplos
rpois(105) 10 numeros aleatorios da dist poisson com parametro 5
[1] 3 2 3 1 8 6 1 3 2 3
Castaneda Daniel F N 2013 21
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2243
126 Algoritmos de programac˜ ao no R 1 INICIANDO O R
rnorm(5) 5 numeros aleatorios da normal padr~ao
[1] 004659011 -005019082 -128753167 115411245 -137573809
qt(09550) valor quantilico da t com 50 gl
[1] 1675905
qchisq(0951) valor da qui-quadrado
com 95 de confianc a e 1 g l
[1] 3841459
dpois(45) densidade da dist poisson x=4 parametro=5
[1] 01754674
ppois(45) P(xlt=4) parametro=5
[1] 04404933
126 Algoritmos de programacao no R
R e uma linguagem de programacao orientada a objetos que alem de ana-lisar dados tem sua propria programacao aqui usaremos esta programacaopara analises de estatısticas e econometria Para maiores detalhes podemospesquisar em Venables and Ripley (2000 e 2002) Voce pode estender afuncionalidade do R criando novas funcoes ou programando por exemplo
medianamediarazao lt- function(x)
return(median(x)mean(x))
setseed(20)
z = rexp(10000)
medianamediarazao(z)
[1] 06925193
Construindo a mediana
mediana=function(x)
oddeven=length(x)2
if (oddeven == 0) (sort(x)[length(x)2]+sort(x)[1+ length(x)2])2
else sort(x)[ceiling(length(x)2)]
Construindo a media geometrica
mediageometrica = function (x) exp(mean(log(x)))
Construindo a media harmonica
Castaneda Daniel F N 2013 22
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2343
126 Algoritmos de programac˜ ao no R 1 INICIANDO O R
mediaharmonica=function (x) 1mean(1x)
Um algoritmo que envolva as medidas de tendencia central
medidascentrais = function(y medida)
switch(medida
media = mean(y)
mgeometrica = exp(mean(log(y)))
mharmonica = 1mean(1y)
mediana = median(y)
stop(Medida n~ao inclusa))
medidascentrais(ymedia)
Gerando uma distribuicao uniforme para o lancamento de um dado
ndado=function(x) return(round(runif(x)6+05))
hist(ndado(100000)
Com o comando sample podemos realizar este mesmo experimento daseguinte maneira
gerando=sample(16 100000 replace=TRUE)
hist(gerando)
Considere o seguinte objeto c
c=c(122715365)
Para determinar que classe de objeto e o vetor c podemos identificarusando os seguintes comandos
ischaracter(c)
[1] FALSE
isnumeric(c)
[1] TRUE
A este objeto c podemos a signar nome a cada valor definido da seguinteforma
names(c)=c(abcdef)
c
a b c d e f
10 22 70 150 30 65
Castaneda Daniel F N 2013 23
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2443
127 Lacos no R 1 INICIANDO O R
Podemos associar uma comparacao logica com o vetor c da seguinte
forma
cgt3
a b c d e f
FALSE FALSE TRUE TRUE FALSE TRUE
Quando estamos diante de uma matriz podemos definir os nomes dascolunas com colnames() e os nomes das linhas com rownames() veja oexemplo
d=matrix(c(223582858)33)
colnames(d)=c(c1c2c3)
rownames(d)=c(1o2o3o)
d
c1 c2 c3
1o 2 5 8
2o 2 8 5
3o 3 2 8
A matriz d e entendida como um conjunto de dados que podem serassociados as linhas e as colunas Para determinar se ha associacao entrelinhas e colunas o teste utilizado pode se o qui-quadrado com a funcaochisqtest()
127 Lacos no R
Em algumas situacoes variaveis contınuas podem ser transformadas em variaveisordinais ou dummy para realizar estas operacoes o R proporciona varioslacos como else if ou ifelseExemplo para construir variaveis binarias considere o consumo de aguaonde consumo menor ou igual a 10 m3 e zero e acima de 10 m3 e 1 Ovalor de consumo sendo zero se o valor e menor ou igual a 20 reais e 1 casocontrario
consumoc=numeric(length(consumo))
for(i in 1length(consumo))if (consumo[i]lt=10) consumoc[i]=0
else consumoc[i]=1
valorc=numeric(length(valor))
for(i in 1length(valor))if (valor[i]lt=20) valorc[i]=0 else valorc[i]=1
Castaneda Daniel F N 2013 24
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2543
128 A func˜ ao cut() 1 INICIANDO O R
Nota Podemos construir os lacos considerando a condicao como texto
exemplo consumoc[i]=rdquo[0minus 10]rdquo Comando alternativo de construcao
consumoc2=ifelse(consumolt=10[0-10]Acima de 10)
valorc2=ifelse(valorlt=20[0-20]Acima de 20)
limitacao deste laco e que utilizado apenas para duas condicoes Para lacoscom mais de duas condicoes podemos usar os seguintes comandos
valorc3=numeric(length(valor))
for(i in 1length(valor))if (valor[i]lt20) valorc3[i]=[0-20)
else if (valor[i]lt30)
valorc3[i]=[20-30) else valorc3[i]=[30 a +
table(valorc3)
128 A funcao cut()
Alguma funcoes usam lacos para criar novas variaveis categoricas no exem-plo de valor pago em reais pelo consumo de agua podemos construir cate-gorias por quartis de 25 50 75 1 da seguinte maneira
q=cut(valorquantile(valor) includelowest=T)
table(q)
q
[135165] (165222] (222327] (327693]
17 16 16 16
Outras formas podem ser usando intervalos a criterio pessoal no exemplo aseguir consideramos com valor mınimo 13 e valor maximo 70 com amplitudedo intervalo de 19 e com classes fechadas no mınimo e aberto no maximo
valr=cut(valmseq(137019)right=Fincludeupper=T)
table(valr)
valr
[1332) [3251) [5170)
48 15 2
129 Criando funcoes Teste que compara duas medias
Como exemplo implementamos a estatıstica de comparacao de duasamostras independentes
Castaneda Daniel F N 2013 25
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2643
130 Coeficiente de regressao 1 INICIANDO O R
testeduas lt- function(y1 y2)
+ n1 lt- length(y1) n2 lt- length(y2)
+ yb1 lt- mean(y1) yb2 lt- mean(y2)
+ s1 lt- var(y1) s2 lt- var(y2)
+ s lt- ((n1-1)s1 + (n2-1)s2)(n1+n2-2)
+ tst lt- (yb1 - yb2)sqrt(s(1n1 + 1n2))
+ tst
+
x=runif(20)
y=rnorm(20)
testeduas(xy)
[1] 2874636
Uma forma alternativa e usando a funcao ttest()
ttest(xy)
Welch Two Sample t-test
data x and y
t = 28746 df = 21784 p-value = 0008858
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
01846283 11429380sample estimates
mean of x mean of y
05539270 -01098562
130 Coeficiente de regressao
Implementando o calculo da tangente (inclinacao) do coeficiente no mo-delo de regressao linear simples
mq1lt- function(X y)
+ X lt- qr(X)
+ qrcoef(X y)+
mq1(xy)
[1] -008755885
Castaneda Daniel F N 2013 26
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2743
131 Teste Qui- Quadrado 1 INICIANDO O R
131 Teste Qui- Quadrado
Util para associar linhas e colunas considere os dados em d com as se-guintes hipotesesH0 nao ha associacao entre linhas e colunasHa ha associacao entre linhas e colunas
chisqtest(d)
Pearsonrsquos Chi-squared test
data d
X-squared = 46497 df = 4 p-value = 03252
Warning message
In chisqtest(d) Aproximac~ao Qui-quadrado pode estar incorreta
Para um nıvel α = 0 05 de significancia podemos afirmar que nao haevidencias para afirmar que a associacao entre linhas e colunas (linhas ecolunas sao independentes) Um outro exemplo do uso da distribuicao Qui-quadrado e verificar se um conjunto de dados provem de uma determinadadistribuicao teorica
chisqtest(c)
Chi-squared test for given probabilities
data c
X-squared = 22549 df = 5 p-value = 00004116
Pelo p-value podemos afirmar que a 0 05 de significancia nao ha evi-dencias para afirmar que a distribuicao dos numeros em c sejam uniformesPara implementar este teste de associacao no exemplo de consumo de aguaconsiderando a classificacao mediante lacos (ver lacos no R) entre consumoce valorc temos
table(consumocvalorc)
valorc
consumoc 0 1
0 24 0
Castaneda Daniel F N 2013 27
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2843
132 Teste t - student 1 INICIANDO O R
1 3 38
chisqtest(consumocvalorc)$expected
chisqtest(consumocvalorc)$observed
chisqtest(consumocvalorc)
Pearsonrsquos Chi-squared test with Yatesrsquo continuity correction
data consumoc and valorc
X-squared = 498015 df = 1 p-value = 1701e-12
barplot(table(consumocvalorc) beside=T)
Concluimos que ha associacao entre consumo de agua e o valor pago em
reais
132 Teste t - student
O teste mais usado pelos estatısticos e util para comparar medias deduas amostras tanto independente como emparelhadasExemplo considere as exportacoes mensais (FOB-US) do Brasil durante osanos de 2009 minus 2010 Apos digitacao das observacoes temos
exp2009
[1] 9781920 9586406 11809225 12321617 11984585 14467785 14141930
[8] 13840850 13863222 14081686 12652892 14462624
exp2010[1] 1130507 1219724 1572750 1516121 1770250 1709391 1767292 1923625
[9] 1883279 1838042 1768733 2091814
H0 A medias anuais das exportacoes durante 2009 e 2010 e a mesmaHa CC
ttest(exp2009exp2010paired = FALSE)
Welch Two Sample t-test
data exp2009 and exp2010
t = -42813 df = 18202 p-value = 00004394
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-6075666 -2077757
sample estimates
mean of x mean of y
Castaneda Daniel F N 2013 28
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2943
133 Teste F 1 INICIANDO O R
1274956 1682627
Conclusao nao ha evidencias para aceitar que a media das exportacoesde 2009 e 2010 e a mesma
Quando um conjunto de dados e dado em formato de matriz (dataframe)podemos realizar o teste t de uma coluna em funcao da outra por exemplono consumo de agua queremos testar a hipotese nula H0 o valor de con-sumo de agua e o mesmo construindo ou nao versus a hipotese alternativaHa Caso contrario
attach(ca)
ttest(valor~Construindo)
Welch Two Sample t-test
data valor by Construindo
t = -58383 df = 21731 p-value = 7465e-06
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-2288867 -1088356
sample estimates
mean in group 0 mean in group 1
2115271 3803882
Concluımos que nao ha evidencias para aceitar que o valor de consumode agua e o mesmo quando estamos construindo ( p minus valor lt 005)
Exemplos adicionais podem ser comparando entre as variaveis clas-sificadas (ver secao de lacos) da seguinte forma
ttest(valor~consumoc)
ttest(consumo~valorc)
boxplot(consumo~valorc2 main=Consumo e valor pago em Reais)
boxplot(consumo~valorc3 main=Consumo e valor pago em Reais)
133 Teste F
Para determinar se ha a mesma variabilidade no valor de consumoquando estamos ou nao construindo utilizamos o teste F A hipotese nulae H0 O valor de consumo de agua tem a mesma variabilidade quandoconstruımos que quando nao construımos No R temos
Castaneda Daniel F N 2013 29
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3043
133 Teste F 1 INICIANDO O R
vartest(valor~Construindo)
F test to compare two variances
data valor by Construindo
F = 04834 num df = 47 denom df = 16 p-value = 005478
alternative hypothesis true ratio of variances is not equal to 1
95 percent confidence interval
0194815 1014916
sample estimates
ratio of variances
04834048
Concluımos que nao ha evidencias para rejeitar a hipotese nula por tanto
a variabilidade no valor de consumo e o mesmoO correspondente grafico (Box-plot) e apresentado a seguir
boxplot(valor~Construindo col=8 names=c(n~ao construc~ao construc~ao))
natildeo construccedilatildeo construccedilatildeo
2 0
3 0
4 0
5 0
6 0
7 0
Figura 4 Valor pago em reais no consumo de agua
Em alguns casos ha necessidade de identificar se a variabilidade dasexportacoes e a mesma comparando 2009 e 2010H0 As exportacoes de 2009 e 2010 tem a mesma variabilidade (dados men-sais coletados do site httpwwwipeadatagov)Ha CC
Castaneda Daniel F N 2013 30
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3143
134 Graficos 1 INICIANDO O R
vartest(exp2009exp2010)
F test to compare two variances
data exp2009 and exp2010
F = 03728 num df = 11 denom df = 11 p-value = 01166
alternative hypothesis true ratio of variances is not equal to 1
95 percent confidence interval
01073346 12951624
sample estimates
ratio of variances
03728482
Conclusao Nao houve mudancas na variabilidade das exportacoes de
2009 e 2010
134 Graficos
Considere os dados mensais das exportacoes do Brasil (FOB) durante2009 e 2010 para realizar um grafico de box-plot fazemos
boxplot(exp2009exp2010 main=exportac~oes do Brasil
names=c(20092010))
2009 2010
1 0 0 0 0
1 2 0 0 0
1 4 0 0 0
1 6 0 0 0
1 8 0 0 0
2 0
0 0 0
exportaccedilotildees do Brasil
Figura 5 Exportacoes FOB em dolares
Para o grafico da funcao acumulativa das exportacoes
plot(ecdf(exp2010) dopoint=FALSE verticals=TRUE
lty=3 xlim=c(1000023000))
lines(ecdf(exp2009) dopoint=FALSE verticals=TRUE
col=2)
Castaneda Daniel F N 2013 31
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3243
134 Graficos 1 INICIANDO O R
1 00 00 1 20 00 1 40 00 1 60 00 1 80 00 2 00 00 2 20 00
0 0
0 2
0 4
0 6
0 8
1 0
ecdf(exp2010)
x
F n ( x )
Figura 6 Funcao acumulada das exportacoes 2009-2010
Considere as exportacoes do Brasil um histograma e Q-Q plot sera
hist(exp main=Exportac~oes FOB-US col=8)
qqnorm(exp xlim=c(-55)ylim=c(-100021000))
qqline(exp)
Exportaccedilotildees FOBminusUS$
exp
F r e q u e n c y
0 5000 10000 15000 20000
0
5 0
1 0 0
1 5 0
minus4 minus2 0 2 4
0
5 0 0 0
1 0 0 0 0
1 5 0 0 0
2 0 0 0 0
Normal QminusQ Plot
Theoretical Quantiles
S a m p l e Q u a n t i l e s
Figura 7 Graficos das Exportacoes no Brasil 2001-2010
Para ativar alguns graficos pacotes sao necessarios exemplo
library(MASS)
Castaneda Daniel F N 2013 32
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3343
134 Graficos 1 INICIANDO O R
par(mfrow=c(21))
z = rnorm(500000)
hist(z prob=T)
curve(dnorm(x)add=T)
histscott(z prob=T)
Histogram of z
z
D e n s i t y
minus4 minus2 0 2 4
0 0
0 2
Histogram of x
z
D e n s i t y
minus4 minus2 0 2 4
0 0
0 2
0 4
Figura 8 Histograma de numeros aleatorios normais
boxcox(dist~speed data=cars) transformac~ao Box-Cox
minus2 minus1 0 1 2
minus 4 0 0
minus 3 5 0
minus 3 0 0
minus 2 5 0
λ
l o g minus
L i k e l i h o o d
95
Figura 9 Valor otimo na transformacao Box-Cox
Castaneda Daniel F N 2013 33
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3443
135 Tabelas 1 INICIANDO O R
Para ter um alcance maior sobre a capacidade grafica do R podemos
usar as seguintes funcoes
demo(graphics)
demo(image)
demo(persp)
demo(recursion)
demo(plotmath)
demo(package = packages(allavailable = TRUE))
135 Tabelas
Algumas tabelas estatısticas podem ser construıdas com a funcao table()estado=c(PBPEALSEBAMGESRJPBPEAL
SEBAMGESRJPBPEALSEBAMGESRJ
PBPEALSEBAMGESRJ)
estadof=factor(estado)
estadof
[1] PB PE AL SE BA MG ES RJ PB PE AL SE BA MG ES RJ PB PE AL SE BA
[22] MG ES RJ PB PE AL SE BA MG ES RJ
Levels AL BA ES MG PB PE RJ SE
setseed(10)
salarios=c(round(runif(32)100))
salarios
[1] 51 31 43 69 9 23 27 27 62 43 65 57 11 60 36 43 5 26 40 84 86 62 78 36 41
[26] 71 84 24 77 36 54 9
salariom=tapply(salariosestadofmean)
salariom
AL BA ES MG PB PE RJ SE
5800 4575 4875 4525 3975 4275 2875 5850
salariof=factor(cut(salariosbreaks=0+15(07)))
salariof
[1] (4560] (3045] (3045] (6075] (015] (1530] (1530] (1530] (6075]
[10] (3045] (6075] (4560] (015] (4560] (3045] (3045] (015] (1530]
[19] (3045] (7590] (7590] (6075] (7590] (3045] (3045] (6075] (7590]
[28] (1530] (7590] (3045] (4560] (015]
Levels (015] (1530] (3045] (4560] (6075] (7590]
table(salariofestadof)
estadof
Castaneda Daniel F N 2013 34
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3543
136 Comandos adicionais 2 R E ECONOMETRIA
salariof AL BA ES MG PB PE RJ SE
(015] 0 2 0 0 1 0 1 0
(1530] 0 0 1 1 0 1 1 1
(3045] 2 0 1 1 1 2 2 0
(4560] 0 0 1 1 1 0 0 1
(6075] 1 0 0 1 1 1 0 1
(7590] 1 2 1 0 0 0 0 1
table(salariofestadof)
estadof
salariof AL BA ES MG PB PE RJ SE
(015] 1 1 0 0 1 0 1 2
(1530] 0 0 1 1 0 0 1 1
(3045] 0 0 2 0 0 1 0 0
(4560] 2 0 1 0 0 1 0 0
(6075] 0 1 0 2 3 0 1 0
(7590] 0 1 0 1 0 2 0 1
(90105] 0 1 0 0 0 0 1 0
136 Comandos adicionais
Em situacoes onde a ausencia de informacao ou dados faltantes(missing)as funcoes do R precisam declarar esta ausencia com o comando narm=T
indicando que a informacao apresenta dados faltantes Exemplo
df=c(2NA58NA) O ultimo elemento esta ausente
mean(f) Comando padr~ao para calcular a media
[1] NA
mean(fnarm=T) Comando declarando a ausencia de elementos
[1] 5
2 R e Econometria
Dados economicos precisam de uma atencao matematica para dar fun-
damento a suas teorias Atualmente pelo avanco computacional nao habarreiras para serem aplicadas e torna-se ate divertida se definimos a plata-forma de trabalho computacional A econometria requer de uma abordagemdiferenciada pois faz uso de da teoria economica economia matematica es-tatıstica economica estatıstica matematica e inferencia estatıstica Esta
Castaneda Daniel F N 2013 35
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3643
21 Tipos de Dados 2 R E ECONOMETRIA
disciplina aproxima a Estatıstica da Economia onde a teoria economica for-
mula as hipoteses Por exemplo uma reducao de precos de uma mercadoriadevera aumentar a quantidade demandada dessa mercadoria considerandouma relacao inversa entre preco e quantidade demandada ou a despesa deconsumo per capita depende da renda per capita considerando uma relacaodireta ou seja a medida que a renda aumenta a despesa tende a aumentarOutro exemplo onde consideremos a area microeconomica consumo de aguade uma residencia e o valor pago e natural imaginar que ha uma relacaodireta entre consumo e valor pago pelo consumo Porem precisamos saberqual e quanto e esta forca de relacao por tanto o econometrista forneceesta informacao usando a inferencia estatıstica e a estatıstica economicaAs estimativas de esta relacao fica por conta de estatıstica matematica
Para completar e cerrar este circulo de disciplinas abordadas na Econo-metria precisamos utilizar uma ferramenta de calculo computacional quebrinde estabilidade precisao e rapidez nos seus resultados para superartudo isto utilizaremos o ambiente R A econometria surge como uma disci-plina autonoma em virtude de aglutinar todas estas areas do conhecimentomerecendo um estudo proprio
21 Tipos de Dados
Os tipos de dados sao
1 Dados de corte transversal (cross-section) sao dados de uma ou maisvariaveis coletadas no mesmo ponto do tempo Por exemplo os censosno Brasil sao coletados num instante do tempo No censo variaveisdemograficas sao exploradas como contagem da populacao numerode indivıduos em cada famılia idade dos integrantes da famılia ouvariaveis economicas como renda consumo tipo de moradia (alugadaou propria) etc estes dados sao adquiridas a cada decada pelo IBGE
2 Dados longitudinais ou de series temporais sao caracterizadas porobservacoes ao longo do tempo No Brasil um site que disponibilizadados desta natureza e o IPEADATA
3 Dados de painel e uma mistura de dados de corte transversal e longi-tudinais ou ao longo do tempo estudamos o comportamento de unida-des individuais Por exemplo series mensal do ındice de precos serieanuais do produto interno bruto (PIB) ou serie anual da balanca co-mercial dos municıpios do Brasil considerando cada municıpio comounidades individuais
Castaneda Daniel F N 2013 36
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3743
22 Metodologia 2 R E ECONOMETRIA
22 Metodologia
Os passos da metodologia econometrica tradicional ou classica se iniciadesde a formulacao da hipotese ate as conclusoes em geral sao
221 Hipotese
Como referencia usaremos a hipotese nula H 0 a qual nulifica qualquerdiferenca e a hipoteses alternativa H a aquela que contradiz total ou par-cialmente a hipotese nula Exemplo
1 H 0 nao existe uma relacao entre consumo de agua e valor pago pela
mesma
2 Ha existe uma relacao entre consumo de agua e valor pago pelamesma
A hipotese alternativa pode ser dividida em tres possibilidades no exem-plo do consumo de agua pode ser dividida em existe alguma relacao oua relacao e negativa ou a relacao e positiva A primeira denomina-se dehipotese alternativa com teste bicaudal o segundo de teste unicaudal a es-querda e finalmente o ultimo com teste unicaudal a direita Nosso exemploconsidere H a existe alguma relacao (teste bicaudal)
222 Modelo matematico
Usaremos uma funcao de consumo simples
Y = β 1 + β 2X (11)
A variavel dependente Y valor pago pelo consumo e estimado por Y A variavel independente e X consumo de agua em m3 β 1 representa ovalor pago quando nao ha consumo de agua Nosso interesse e determinara tangente ou a variacao pelo consumo β 2
223 Modelo econometrico do valor pago
O modelo matematico fornece a relacao determinıstica entre valor pagoem reais e consumo de agua porem as relacoes entre as variaveis economicassao em geral inexatas Assim ao longo do tempo no podemos esperar que ovalor pago e o consumo em m3 se situem exatamente numa linha reta isto
Castaneda Daniel F N 2013 37
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3843
22 Metodologia 2 R E ECONOMETRIA
por que alem do consumo outras variaveis afetam o valor pago por exemplo
os dias de consumo o perıodo de reforma da casa ou a inflacao podendoalterar o valor pago pelo consumo
224 Nıvel de significancia
Denominado de α frequentemente usa-se α = 005 em situacoes derisco usa-se α = 001 Em testes bicaudais divide-se α em duas partes elocalizam-se nos extremos da distribuicao de prova Para testes unicaudaislocaliza-se no extremo da distribuicao indicada pela hipotese alternativaNosso exemplo α = 005 e por tanto α2 = 0025
225 Obtencao de Dados
Considere 65 observacoes (mes a mes) do consumo de agua em umaresidencia e o valor pago em reais durante o perıodo de 122005 a 042011Ver dados no apendice A Um plot e apresentado a seguir
10 15 20
2 0
3 0
4 0
5 0
6 0
7 0
Valor pago em reais de consumo de aacutegua
Variaacutevel independenteConsumo em m3
V a r i aacute v e l d e p e n d e n t e V a l o r p a g o
Y = minus12365+3007X
Figura 10 Relacao causal entre consumo e valor pago em reais
Podemos observar visualmente que ha uma relacao positiva entre valorpago e consumo de agua onde a variacao pelo consumo ou variacao dovalor pago (tangente) β 2 cresce positivamente Precisamos verificar se estavariacao β 2 e estatisticamente diferente de zero (significativa)
Castaneda Daniel F N 2013 38
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3943
22 Metodologia 2 R E ECONOMETRIA
226 Estatıstica de prova
Denominada de funcao pivo ou estatıstica de teste No ambito pa-rametrico usa-se as estatısticas t student (amostras pequenas) quando ne grande e indiferente o uso da t student ou normal No exemplo para tes-tar qual a inclinacao da variacao pelo consumo de agua usamos a seguinteestatıstica
t0 =β 2
dp(β 2)asymp tnminus2gl (12)
onde t0 e o valor calculado da estatıstica t β 2 e a estimativa do parametro(variacao pelo consumo) β 2 dp(β 2) e o desvio padrao da estimativa doparametro β 2 o valor t0 segue uma distribuicao t-student com nminus2 graus deliberdade(gl) Os graus de liberdade e calculado diferenciando o tamanhoda amostra com o numero de parametro do modelo (n-p) O valor quantılicotnminus2gl(0025) corresponde a distribuicao t-student com 0025 de significanciacom n minus 2 graus de liberdade e n e o numero total de observacoes Nossoexemplo β 2 = 3007 e dp(β 2) = 013 por tanto t0 = 2313 e comparadocom o valor da tabela da t-student com 63 gl e com α2 = 0025 sendo estevalor igual 19983
227 Tipos de erro
Ocorre o erro tipo I (α) ao se rejeitar a hipotese de nulidade quandodeveria aceita-la Por outro lado quando se aceita a hipotese de nulidadequando deveria rejeita-la comete-se o erro tipo II (β ) Nas duas situacoestomou-se uma decisao errada O interesse e a minimizacao dos erros tipo Ie II que na pratica so e possıvel aumentando-se o tamanho da amostra Porrazoes diversas o aumento do tamanho da amostra muitas vezes torna-se im-praticavel A gravidade do erro tipo I e distinta da do erro tipo II quando seconsegue identificar o erro mais grave a opcao e a minimizacao deste poremquando a probabilidade de ocorrencia de um tipo de erro diminui a do outroaumenta e vice versa Podemos observar este criterio na seguinte tabela
Nao rejeita rejeitaH0 verdadeira Correto (1 minus α) Erro do tipo I (α)H0 falsa Erro do tipo II (β ) Correto (1minus β )
Castaneda Daniel F N 2013 39
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4043
22 Metodologia 2 R E ECONOMETRIA
228 Regra de Decisao
Os pacotes ou plataformas estatısticas apresentam o valor observado dafuncao pivo e o p minus valor (Area de probabilidade esta relacionada comonıvel de significancia) assim a funcao pivo apresenta o valor numerico nafuncao de densidade da Estatıstica exemplo dentro da densidade da normalQuando o pvalor e menor do que α = 005 no caso do teste unicaudal (eα = 0025 no caso bicaudal) concluımos que nao ha evidencia suficiente paraaceitar H0 Caso contrario se o p minus valor for maior que α = 005 podemosconcluir que nao ha evidencia suficiente para rejeitar H0 Nosso exemplot0 = 2313 gt 1998 (1998 e valor da distribuicao t com 63 gl e nıvel designificancia bicaudal de 005) este valor localiza-se na cauda positiva da
distribuicao com 63 graus de liberdade(n minus 2 = 65 minus 2) Por outro lado o pminus valor lt 0025 por tanto nao ha evidencias para aceitar H0 em favor deaceitar que o coeficiente de inclinacao (ou tangente) e positiva No recorrerdo livro usaremos codigos para as medidas do pminusvalor que em geral apareceem todo comando summary() Como consequencia a linha que aparece aseguir sera excluıda das saıdas do R
Signif codes 0 0001 001 005 01 1
sera interpretada da seguinte maneira
bull 0 significancia menor que 0001
bull 0001 significancia menor que 001
bull 001 significancia menor que 005
bull 005 significancia menor que 01
bull 01 significancia menor que 1
229 Conclusoes
Esta parte do teste de hipoteses e explicada em conjunto O Estatıstico eo Economista que sao os profissionais da area em que as observacoes foramcoletadas decidem sobre as providencias futuras No exemplo podemosafirmar que a cada metro cubico a mais de consumo de agua sera pago emmedia 3 reais a mais No momento este valor pago pode parecer alto poremna falta de este liquido elementar este valor pode aumentar e por tantosofrera mudancas
Castaneda Daniel F N 2013 40
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4143
23 Previs˜ oes 2 R E ECONOMETRIA
23 Previsoes
Muitas vezes estamos interessados em determinar o que acontece quandouma quantidade de consumo de agua em m3 e utilizada e qual o valor pagoem reais Por exemplo se nosso interesse e saber quanto sera pago por 20m3
de consumo de agua em uma residencia A conta a realizar eValor pago = minus12365 + 3007 lowast 20 = 47775 reaisA interpretacao deste valor e em media o valor pago em reais por 20m3 deagua consumida e de aproximadamente 478 reais
231 Resıduos
Uma questao fundamental em econometria e identificar o comportamentodos resıduos de um modelo Considere Y o valor real pago e Y valor pagoestimado a partir de um modelo entao este erro e aleatorio e definido por
ϵi = Y i minus Y i (13)
A abordagem mais formal dos erros e feita nos proximos capıtulosUma questao importante e determinar qual o comportamento da estima-tiva destes erros aos quais chamamos de resıduos Para determinar a nor-malidade dos resıduos realizamos o teste de Jarque Bera com a funcao
jarqueberatest() da biblioteca tseries com o seguinte grafico
minus2 minus1 0 1 2
minus 5
0
5
1 0
resiacuteduos do modelo valor= f(consumo)
Theoretical Quantiles
S a m p l e Q u a n t i l e s
Figura 11 Normalidade dos resıduos
Castaneda Daniel F N 2013 41
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4243
24 Exercıcios REFER ENCIAS
24 Exercıcios
1 Por que a econometria precisa ser uma disciplina autonoma
2 Que e econometria
3 Pesquise dados de corte transversal corte longitudinal e de painel
4 Construa uma metodologia econometrica para o consumo familiar emfuncao da renda familiar (linear)
5 No item anterior e possıvel encontrar uma relacao quadratica
6 Quais sao os pressupostos basicos de um modelo de regressao linear
simples
7 Como e chamado o parametro de inclinacao ou tangente num modelode regressao linear simples em econometria
8 Que e o projeto R
9 R e um programa econometrico
Referencias
[1] Albert Jim (2009) Bayesian computation with R Editora SpringerSecond Edition New York USA
[2] Borde Arvind (1992) TEX by example A beginneracutes guide Ed Aca-demic Press Professional United States of America
[3] Carneiro Orlando (1997) Econometria Bacute asica Teoria e Aplicac˜ oes Editora Atlas Segunda Edicao son Paulo
[4] Conover W J (1999) Practical nonparametric statistics 3ed NewYork
[5] Cribari Neto F (2002) C for Econometricians conputational Econo-
mics 14 p135-149
[6] Dalgaard Peter(2008) Introductory Statistics with R Editora SpringerSecond Edition New York USA
[7] Ehlers Ricardo(2007) Analise de series Temporais Universidade Fe-deral do Parana
Castaneda Daniel F N 2013 42
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4343
REFER ENCIAS REFER ENCIAS
[8] Frery Alejandro Cribari-Neto Francisco(2011)Elementos de
Estatıstica conputacional Usando Plataformas de Software Li-vreGratuito Publicacoes Matematicas Editora IMPA
[9] Gujarati Damodar N (2000) Econometria Bacute asica Makron Books Ter-ceira Edicao son Paulo
[10] Knuth DE (1981)The Art of conputer Programming Third EditionVolume 2 Seminumerical Algorithms Addison-Wesley Publishingconpany Massachusetts
[11] Korgi Rodrigo de Castro (2003) El universo LAT E X Editora Facultadde Ciencias Segunda Edicao Bogota
[12] Krawczyk H How to Predict Congruential Generators InJournal of Algorithms V 13 N 4 1992
[13] LrsquoEcuyer P (2001) Software for uniform random number generationdistinguishing the good and the bad In Proceedings of the 2001 WinterSimulation Conference
[14] Maindonald John Braun W John(2010) Data analysis and graphics using R an example-based approach Cambridge University Press NewYork USA
[15] Mingoti(2005)Analise De Dados Atraves De Metodos De Estatistica Multivariada - Uma Abordagem Aplicada Editora UFMG Belo Hori-zonte
Castaneda Daniel F N 2013 43
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 443
12 Manipulac˜ ao de numeros e vetores 1 INICIANDO O R
12 Manipulacao de numeros e vetores
Para declarar numeros exemplo v =983131
10983133
realizamos o seguinte co-mando
v=10
v
[1] 10
Alertamos que no R o sımbolo lt minus e equivalente ao sımbolo =Considere o seguinte vetor com os numeros 1 3 34 6 99 3 com o nomeq =
9831311 3 34 6 99 3
983133 usamos
q=c(13346993)
Comandos de operacoes algebraicas sao usados com os sinais conven-cionais sendo + para soma - para a diferenca para multiplicacao e para divisaoAssim para inverter q podemos usar
1q
[1] 10000000 03333333 029411765 01666667 00101010 03333333
No R podemos utilizar comando logicos como verdadeiro ou falso paraos valores de q maiores do que 3 assim
qgt3
[1] FALSE FALSE TRUE TRUE TRUE FALSE
para restringir valores de q maiores do que 3
q[qgt3]
[1] 34 6 99
Podemos converter numeros em caracteres ou dıgitos assim
z2=c(09) equivalente a z2=09
digit=ascharacter(z2)
digit
[1] 0 1 2 3 4 5 6 7 8 9
Para retornar dıgitos em numeros com o seguinte comando
d=asinteger(digit)
d
[1] 0 1 2 3 4 5 6 7 8 9
Castaneda Daniel F N 2013 4
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 543
12 Manipulac˜ ao de numeros e vetores 1 INICIANDO O R
Para preparar uma variavel para ingressar seus valores por exemplo
e=numeric()
e[3]=17
Onde o terceiro elemento e 17 e os dois primeiros ainda nao definidos
e
[1] NA NA 17
Podemos ainda declarar os outros elementos de e
Para Construir um vetor qualitativo sendo na ordem 10 homens e 5
mulheres usamos a funcao rep()
w=c(rep(homem10) rep(mulher5))
w
[1] homem homem homem homem homem homem homem
[8] homem homem homem mulher mulher mulher mulher
[15] mulher
Considere o tamanho do calcado no pe de cada individuo em w
pe=c(404239414440424144403535373637)
Podemos identificar a distribuicao de frequencias de w e pe da seguinteforma
table(wpe)
pe
w 35 36 37 39 40 41 42 44
homem 0 0 0 1 3 2 2 2
mulher 2 1 2 0 0 0 0 0
Para construir graficos para as tabelas usamos as funcoes
plot(table(wpe) main=Frequenciasxlab=sexoylab=n umero)
barplot(table(wpe) main=Frequencias ylab=casosxlab=pe)legend(topleft legend=c(mulherhomem) col=c(81)lty=c(11))
Seus respectivo graficos sao
Castaneda Daniel F N 2013 5
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 643
13 Func˜ oes matematicas 1 INICIANDO O R
Frequecircncias
sexo
n uacute m e r o
homem mulher
3 5
3 6
3 7
3 9
4 0
4 1
4 2
4 4
35 36 37 39 40 41 42 44
Frequecircncias
peacute
c a s o s
0 0
0
5
1 0
1 5
2 0
2
5
3 0
mulherhomem
Figura 2 Descricao do calcado por sexo
13 Funcoes matematicas
Para utilizar as funcoes matematicas usamos os comandos
gt history() comandos usados previamente
gt length(x) numero de elementos do vetor ou lista x
gt log(x) log na base e de x
gt exp(x) antilogaritmo de x
gt log(xn) log na base n de x
gt log10(x) log na base 10 de x
gt sqrt(x) raiz quadrada de x
gt factorial(x) factorial de x(x)gt choose(nx) combinatoria n(x(n-x))
gt gamma(x) x (x-1) x inteiro
gt floor(x) menor inteiro de x
gt trunc(x) escolha do menor inteiro
gt abs(x) valor absoluto de x
gt cos(x) cosseno de x
gt sin(x) seno de x
gt tan(x) tangente de x
gt acos(x) inversa cosseno
gt asin(x) inversa seno
gt atan(x) inversa tangentegt acosh(x) inversa cosseno hiperbolica
gt asinh(x) inversa seno hiperbolica
gt atanh(x) inversa tangente hiperbolica
gt round(x digits=2) aproximac~ao a duas casas decimais
gt signif(x digits=6) x com notac~ao cientıfica de 6 dıgitos
Castaneda Daniel F N 2013 6
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 743
14 Func˜ oes estatısticas 1 INICIANDO O R
14 Funcoes estatısticas
gt max(x) valor maximo de x
gt min(x) valor mınimo de x
gt sum(x) soma total dos valores de x
gt mean(x) media aritmetica de x
gt median(x) mediana de x
gt range(x) vetor de mınimo e maximo de x
gt summary(x) resumo de estatısticas de locac~ao de x
gt var(x) variancia de x
gt cor(xy) correlac~a o d e x e y
gt sort(x) ordena em forma crescente os elementos de x
gt rank(x) vector de filas em xgt order(x) valores originais de x
gt quantile(x) vetor contendo os quartis de x
gt cumsum(x) vetor contendo a suma total elemento a elemento
gt cumprod(x) vetor contendo o produto elemento a elemento
gt cummax(x) vetor n~ao decrescente de x substituindo valores
gt cummin(x) vetor n~ao crescente de x substitui os valores
pelo mınimo
gt pmax(xyz) vetor contendo o vetor maior entre x y ou z e
substituindo o maximo em cada posic~ao
gt pmin(xyz) vetor contendo o vetor maior entre x y ou z
e substituindo o mınimo em cada posic~aogt colMeans(x) calcula a media por colunas na matriz x
gt colSums(x) calcula os totais por coluna na matriz x
gt rowMeans(x) calcula a media por linhas na matriz x
gt rowSums(x) calcula os totais por linhas na matriz x
15 Cores
O R disponibiliza cores usando a funcao palette() com 8 cores outrafuncao e colours() e que tambem podem ser identificados por um numero
ja especificado por exemplo
teta=(120)092plot(tetasin(teta) col=red pch=16cex=2) ou
plot(tetasin(teta) col=2 pch=16cex=2)
Onde cex representa o caracter de expansao da bolinha (quanto maior onumero maior a bolinha) Para incrementar varias cores no mesmo graficopodemos realizar o seguinte comando
Castaneda Daniel F N 2013 7
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 843
16 Fatores ordenados e desordenados 1 INICIANDO O R
plot(tetasin(teta) col=120 pch=16cex=2)
Para modificar a bolinha apenas modificamos pch
plot(tetasin(teta) col=120 pch=+cex=2)
Cores podem tambem ser incrementadas fora do corpo do grafico
plot(tetasin(teta) main=seno colmain=4 col=120 pch=+cex=2)
Outras alteracoes de cores podem ser construıdas com
colmain cor para o tıtulo do grafico
colaxis cor para os numeros dos eixos
collab cor para os tıtulos dos eixoscolsub cor para o subtıtulo do grafico
A fonte pode ser alterada da seguinte maneira
fontmain fonte para o tıtulo do grafico
fontaxis fonte para os numeros dos eixos
fontlab fonte para os tıtulos dos eixos
fontsub fonte para o subtıtulo do grafico
Onde 1 e texto normal 2 preto 3 italico 4 preto italico para simbolofonte A orientacao dos numeros pode ser alterada com o comando las= onde 1 horizontal a x 2 perpendicular a x 3 perpendicular a ambos eixos)
16 Fatores ordenados e desordenados
exemplo
estados=c(PEALSEBAPBBAPBALSEBAPB
+ SE BASEBA)
estadosf=factor(estados)
estadosf
[1] PE AL SE BA PB BA PB AL SE BA PB SE BA SE BA
Levels AL BA PB PE SE
levels(estadosf)[1] AL BA PB PE SE
salarios=c(604959564948565960696658475868)
A funcao tapply e usada para reordenar vetores calculando uma carac-terıstica dos nıveis no exemplo suponha que os salarios medio e o desviopadrao por cada trabalhador por dia nos estados seja dado a seguir
Castaneda Daniel F N 2013 8
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 943
17 Vetores e Matrizes 1 INICIANDO O R
mestados=tapply(salariosestadosfmean) media
mestados
AL BA PB PE SE
5400 5760 5700 6000 5875
destados=tapply(salariosestadosfsd) desvio padr~ao
destados
AL BA PB PE SE
70710678 105498815 85440037 NA 09574271
Construımos a funcao do coeficiente de variacao de duas formas distintase incluımos no comando tapply
cv=function(x) sd(x)100mean(x)cvestados=tapply(salariosestadosfcv)
cvestados
AL BA PB PE SE
13094570 18315767 14989480 NA 1629663
cv=function(x) sqrt(var(x))100mean(x)
cvestados=tapply(salariosestadosfcv)
cvestados
AL BA PB PE SE
13094570 18315767 14989480 NA 1629663
17 Vetores e Matrizes
Um vetor pode ser considerado como a entrada de uma colecao de dadossendo estes numericos ou nao R facilita a manipulacao e construcao de veto-res e matrizes Considere a construcao de 30 numeros aleatorios Uniformesem duas matrizes de 3 linhas por 5 colunas
z=runif(30)
dim(z)=c(352)
z
1
[1] [2] [3] [4] [5]
[1] 09500783 09262226 005847740 034257312 03718370
[2] 08591887 07057183 020592054 003569694 06709746
[3] 06806468 06270572 001570158 021650180 05170189
Castaneda Daniel F N 2013 9
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1043
18 Indexando matrizes 1 INICIANDO O R
2
[1] [2] [3] [4] [5]
[1] 03539723 05918548 037104534 02148440 04169542
[2] 08895178 05751237 069399721 03808024 03872492
[3] 08036340 07065130 003400331 01593949 02306890
18 Indexando matrizes
x=array(120dim=c(45))
x
[1] [2] [3] [4] [5]
[1] 1 5 9 13 17[2] 2 6 10 14 18
[3] 3 7 11 15 19
[4] 4 8 12 16 20
i=array(c(1331)dim=c(32))
i
[1] [2]
[1] 1 3
[2] 2 2
[3] 3 1
gt x[i][ 1 ] 9 6 3
x[13]=9 x[22]=6 x[31]=3
O ındice i indica os valores da matriz x a serem extraıdos temos
x[i]=0 Substituımos x[i] por zero
x
[1] [2] [3] [4] [5]
[1] 1 5 0 13 17
[2] 2 0 10 14 18[3] 0 7 11 15 19
[4] 4 8 12 16 20
Construindo uma matriz 3 times 3 com elementos de 1 ao 9
c=matrix(c(19)33)
Castaneda Daniel F N 2013 10
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1143
19 Sequencias 1 INICIANDO O R
c
[1] [2] [3]
[1] 1 4 7
[2] 2 5 8
[3] 3 6 9
19 Sequencias
Sequencias sao construıdas ingressando o primeiro elemento o ultimoelemento e o espacamento
b=seq(1014 by=5)
b[1] 100 105 110 115 120 125 130 135 140
a=seq(19)
ab=ab multiplicando vetores
ab
[1]
[1] 570
ab=outer(ab)
ab
[1] [2] [3] [4] [5] [6] [7] [8] [9]
[1] 10 105 11 115 12 125 13 135 14
[2] 20 210 22 230 24 250 26 270 28[3] 30 315 33 345 36 375 39 405 42
[4] 40 420 44 460 48 500 52 540 56
[5] 50 525 55 575 60 625 65 675 70
[6] 60 630 66 690 72 750 78 810 84
[7] 70 735 77 805 84 875 91 945 98
[8] 80 840 88 920 96 1000 104 1080 112
[9] 90 945 99 1035 108 1125 117 1215 126
ab=at(b)
ab
[1] [2] [3] [4] [5] [6] [7] [8] [9][1] 10 105 11 115 12 125 13 135 14
[2] 20 210 22 230 24 250 26 270 28
[3] 30 315 33 345 36 375 39 405 42
[4] 40 420 44 460 48 500 52 540 56
[5] 50 525 55 575 60 625 65 675 70
Castaneda Daniel F N 2013 11
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1243
110 Multiplicando matrizes 1 INICIANDO O R
[6] 60 630 66 690 72 750 78 810 84
[7] 70 735 77 805 84 875 91 945 98
[8] 80 840 88 920 96 1000 104 1080 112
[9] 90 945 99 1035 108 1125 117 1215 126
d=outer(0909)
d
[1] [2] [3] [4] [5] [6] [7] [8] [9] [10]
[1] 0 0 0 0 0 0 0 0 0 0
[2] 0 1 2 3 4 5 6 7 8 9
[3] 0 2 4 6 8 10 12 14 16 18
[4] 0 3 6 9 12 15 18 21 24 27
[5] 0 4 8 12 16 20 24 28 32 36
[6] 0 5 10 15 20 25 30 35 40 45
[7] 0 6 12 18 24 30 36 42 48 54
[8] 0 7 14 21 28 35 42 49 56 63
[9] 0 8 16 24 32 40 48 56 64 72
[10] 0 9 18 27 36 45 54 63 72 81
110 Multiplicando matrizes
Para a construcao de matrizes o preenchimentos das celulas ou casas e
feita coluna a coluna como padrao exemplo
a= matrix(c(19)33)
a
[1] [2] [3]
[1] 1 4 7
[2] 2 5 8
[3] 3 6 9
podemos construir esta mesma matriz preenchendo as casas linha por linhada seguinte forma
at=matrix(c(19)33byrow=T)
at
[1] [2] [3]
[1] 1 2 3
[2] 4 5 6
[3] 7 8 9
Castaneda Daniel F N 2013 12
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1343
111 Invers˜ ao de matrizes 1 INICIANDO O R
Uma alternativa seria usar a funcao aperm()
b= aperm(ac(21))
b
[1] [2] [3]
[1] 1 2 3
[2] 4 5 6
[3] 7 8 9
ab multiplicac~ao elemento a elemento
[1] [2] [3]
[1] 1 8 21[2] 8 25 48
[3] 21 48 81
ab multiplicac~ao das matrizes a e b
[1] [2] [3]
[1] 66 78 90
[2] 78 93 108
[3] 90 108 126
crossprod(ab) produto da transposta de a por b
[1] [2] [3]
[1] 30 36 42
[2] 66 81 96
[3] 102 126 150
t(a)b
[1] [2] [3]
[1] 30 36 42
[2] 66 81 96
[3] 102 126 150
111 Inversao de matrizes
c=matrix(c(324572159)33)
d=matrix(c(223582858)33)
c
Castaneda Daniel F N 2013 13
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1443
112 Comandos cbind() e rbind() 1 INICIANDO O R
[1] [2] [3]
[1] 3 5 1
[2] 2 7 5
[3] 4 2 9
gt solve(c)
[1] [2] [3]
[1] 036551724 -029655172 012413793
[2] 001379310 015862069 -008965517
[3] -016551724 009655172 007586207
solve(cd) inverte a matriz c e multiplica por d
[1] [2] [3]
[1] 051034483 -029655172 24344828
[2] 007586207 115862069 01862069
[3] 008965517 009655172 -02344828
gt solve(c)d forma alternativa
[1] [2] [3]
[1] 051034483 -029655172 24344828
[2] 007586207 115862069 01862069
[3] 008965517 009655172 -02344828
112 Comandos cbind() e rbind()
E possıvel formar novas matrizes com as ja existentes usando a funcaocbind() e rbind() a primeira construı matrizes em colunas a segunda emlinhas
cbind(cd)
[1] [2] [3] [4] [5] [6]
[1] 3 5 1 2 5 8
[2] 2 7 5 2 8 5
[3] 4 2 9 3 2 8
rbind(cd)[1] [2] [3]
[1] 3 5 1
[2] 2 7 5
[3] 4 2 9
[4] 2 5 8
Castaneda Daniel F N 2013 14
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1543
113 Autovalores e autovetores 1 INICIANDO O R
[5] 2 8 5
[6] 3 2 8
cbind(1c)
[1] [2] [3] [4]
[1] 1 3 5 1
[2] 1 2 7 5
[3] 1 4 2 9
rbind(1d)
[1] [2] [3]
[1] 1 1 1
[2] 2 5 8
[3] 2 8 5
[4] 3 2 8
113 Autovalores e autovetores
ev=eigen(c) calcula autovalores e autovetores
ev
$values
[1] 13265694+0000000i 2867153+1646172i 2867153-1646172i
$vectors[1] [2] [3]
[1] 03799264+0i 07884141+00000000i 07884141+00000000i
[2] 06480231+0i 00745376+03051027i 00745376-03051027i
[3] 06600924+0i -04774265-02276482i -04774265+02276482
det(c)
[1] 145
det(d)
[1] -57
114 Data frame ou construtor de dados
Suponha um conjunto de dados com tres variaveis sexo (1=homem0=mulher) peso em quilogramas e salario em reais por dia de 12 indivıduosPara calcular a media o resumo de estatısticas descritivas e um grafico (plot)
Castaneda Daniel F N 2013 15
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1643
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1743
116 Func˜ ao readtable() 1 INICIANDO O R
attach(ind)
peso
[1] 67 60 62 69 54 59 57 67 60 65 59 55
salario
[1] 59 40 45 65 55 45 48 67 65 68 62 45
sex
[1] 1 0 0 1 0 0 0 1 1 1 1 0
detach(ind)
salario
Erro objeto rsquosalariorsquo n~ao encontrado
A funcao attach e detach pode ser usada no somente em arquivo dedados dos pacotes do R se nao tambem para listas e data frame
116 Funcao readtable()
Um amplo conjunto de arquivos com diferentes extensoes pode ser lidopor esta funcao
1161 Arquivos com extensao txt
Considere as seguintes variaveis x1 idade dos funcionarios x2 sexo
(1 homem 0 mulher) x3 anos de experiencia na funcao x4 estado civilx5 numero de filhos x6 nota de 0 minus 10 de um teste de avaliacao deconhecimento na sua area x7 teste psicotecnico de 0 a 50 x8 satisfacaocom a vida pessoal estes dados em bloco de notas com extensao txt obtidosde Mingoti 2005 Ver dados na integra no apendice
funcao=readtable(functxtheader=T)
funcao
grupo idade sexo ecivil nfilhos aexper tpsico tconhec satisf
1 0 24 1 1 0 2 77 360 1
2 0 29 1 1 0 4 79 360 13 0 38 1 0 1 6 86 408 0
107 0 24 1 1 0 2 73 360 0
108 0 27 1 0 0 3 74 360 1
109 1 42 1 0 2 14 99 440 1
Castaneda Daniel F N 2013 17
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1843
117 Script com extens˜ ao R 1 INICIANDO O R
Considere os dados de consumo de agua de uma residencia durante
o perıodo de 1205 a 0411 Com as seguintes variaveis valor em reaisconsumo em m3 dias de consumo e construindo o imovel (1sim 2nao)Dados proprios do autor Ver dados na integra no apendice
ca=readtable(consumoagua2txtheader=T) disponıvel em meus documentos
ca
dado valor consumo diasconsumo Construindo
1 1 1476 11 30 0
2 2 1347 10 31 0
64 64 3439 14 31 1
65 65 2221 11 32 0
Observacao use o comando choose() para escolher um conjunto dedados de um diretorio especifico no computador podemos usar
datalt-readtable(filechoose()header=T)
117 Script com extensao R
Exemplo com extensao R lida por readtable com dados do proprio R
exemplo=readtable(filechoose()header=T) dadosrR em aula 3exemplo
dado valor
1 1 115
2 2 117
3 3 118
4 4 119
5 5 127
118 Funcao scan()
A funcao scan tambem pode incluir elementos no R
scan()
1 12
2 13
3 14
Castaneda Daniel F N 2013 18
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1943
119 Func˜ ao sample 1 INICIANDO O R
4 15
5
Read 4 items
[1] 12 13 14 15
Use a funcao scan() para ingressar dados diretamente na plataforma R
119 Funcao sample
Usa-se para escolher aleatoriamente uma amostra de um conjunto deobservacoes ou uma base de dados Como exemplo considere uma amostrade 8 observacoes dos primeiros 20 do banco de dados de consumo de agua
(ca)setseed(10)
ca20=ca[sample(1208)]
ca20
dado valor consumo diasconsumo Construindo
11 11 3153 16 31 1
6 6 1347 10 32 0
8 8 1347 10 30 0
12 12 3755 18 32 1
2 2 1347 10 31 0
4 4 5275 22 33 1
15 15 3755 18 32 0
14 14 1648 11 30 0
120 Rcmdr
Para importar dados do SPSS STATISTICA MINITAB EXCEL TXTetc podemos usar o pacote livre Rcmdr ja disponıvel na biblioteca
library(Rcmdr)
este pacote trabalha via janelas para maior comodidade
121 Dados disponıveis no R
R possuı mais de 100 conjunto de dados alocados no pacote dataset quepodem ser chamados diretamente ( sem extensao) com a funcao data
data()
Castaneda Daniel F N 2013 19
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2043
122 Modificando e editando dados 1 INICIANDO O R
No R pode-se acessar a conjunto de dados de outros pacotes disponıveis
na sua biblioteca Se por acaso esta instalado o pacote lmtest o conjuntode dados ativo neste pacote pode ser chamado da seguinte maneira
data(package=lmtest)
122 Modificando e editando dados
Considere o conjunto de dados anterior Para modificar este conjuntosera disponibilizado uma tela de editor de dados a seguir
xnovo=edit(wagespackage=lmtest)
Para editar um conjunto de dados novo podemos usar a funcao edit daseguinte forma
xn=edit(dataframe())
123 Exportando dados do R para o Excel
Para exportar uma coluna de dados por exemplo o valor pago no con-sumo de agua executamos no R
writeClipboard(ascharacter(valor))
Na tela do Excel usar o comando colar Suponha que esta interessadoem exportar o conjunto de dados ca consumo de agua numa residenciadisponıveis no R para transferir este conjunto de dados use o seguintecomando
writetable(caclipboardsep=tcolnames=NA)
Na tela do Excel faca Ctrl+V ou um click em colar
124 Funcoes apply tapply sapply e lapply
A funcao apply calcula medidas estatısticas por linhas ou por colunas
e a funcao sapply calcula apenas por coluna A diferenca da funcao applyda funcao tapply e que esta ultima calcula medidas estatısticas por estratosConsidere os dados de consumo de agua de uma residencia
apply(ca2mean)
dado valor consumo diasconsumo Construindo
330000000 255690769 126153846 307076923 02615385
Castaneda Daniel F N 2013 20
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2143
125 Distribuic˜ oes de probabilidade 1 INICIANDO O R
tapply(valorConstruindomean)
0 1
2115271 3803882
sapply(camean)
dado valor consumo diasconsumo Construindo
330000000 255690769 126153846 307076923 02615385
lapply(camean) verificar
125 Distribuicoes de probabilidade
R proporciona uma serie de funcoes para variaveis aleatorias estatısticasconhecidas dentro destas funcoes temos distribuicao aleatorizacao proba-
bilidade e quantidadeDistribuicao nome no R argumentos adicionaisbeta beta shape1shap2npcbinomial binom sizeprobcauchy cauchy locationscalechi-quadrado chisq dfnpcexponencial exp rateF f df1df2npcgamma gamma shapescalegeometric geom probhypergeometric hyper mnk
log-normal lnorm meanlogsdloglogistic logis locationscalenegativa binomial nbinom sizeprobnormal norm meansdpoisson pois lambdat-student t dfncpuniforme unif minmaxweibull weibull shapescalewilcoxon wilcoxon mn
Nomes iniciando com ldquodrdquocalculara a densidade da funcao ldquoprdquoparacalcular a probabilidade ou funcao acumulada ldquoqrdquopara o valor quantılico eldquorrdquopara simulacao de numeros aleatoriosExemplos
rpois(105) 10 numeros aleatorios da dist poisson com parametro 5
[1] 3 2 3 1 8 6 1 3 2 3
Castaneda Daniel F N 2013 21
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2243
126 Algoritmos de programac˜ ao no R 1 INICIANDO O R
rnorm(5) 5 numeros aleatorios da normal padr~ao
[1] 004659011 -005019082 -128753167 115411245 -137573809
qt(09550) valor quantilico da t com 50 gl
[1] 1675905
qchisq(0951) valor da qui-quadrado
com 95 de confianc a e 1 g l
[1] 3841459
dpois(45) densidade da dist poisson x=4 parametro=5
[1] 01754674
ppois(45) P(xlt=4) parametro=5
[1] 04404933
126 Algoritmos de programacao no R
R e uma linguagem de programacao orientada a objetos que alem de ana-lisar dados tem sua propria programacao aqui usaremos esta programacaopara analises de estatısticas e econometria Para maiores detalhes podemospesquisar em Venables and Ripley (2000 e 2002) Voce pode estender afuncionalidade do R criando novas funcoes ou programando por exemplo
medianamediarazao lt- function(x)
return(median(x)mean(x))
setseed(20)
z = rexp(10000)
medianamediarazao(z)
[1] 06925193
Construindo a mediana
mediana=function(x)
oddeven=length(x)2
if (oddeven == 0) (sort(x)[length(x)2]+sort(x)[1+ length(x)2])2
else sort(x)[ceiling(length(x)2)]
Construindo a media geometrica
mediageometrica = function (x) exp(mean(log(x)))
Construindo a media harmonica
Castaneda Daniel F N 2013 22
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2343
126 Algoritmos de programac˜ ao no R 1 INICIANDO O R
mediaharmonica=function (x) 1mean(1x)
Um algoritmo que envolva as medidas de tendencia central
medidascentrais = function(y medida)
switch(medida
media = mean(y)
mgeometrica = exp(mean(log(y)))
mharmonica = 1mean(1y)
mediana = median(y)
stop(Medida n~ao inclusa))
medidascentrais(ymedia)
Gerando uma distribuicao uniforme para o lancamento de um dado
ndado=function(x) return(round(runif(x)6+05))
hist(ndado(100000)
Com o comando sample podemos realizar este mesmo experimento daseguinte maneira
gerando=sample(16 100000 replace=TRUE)
hist(gerando)
Considere o seguinte objeto c
c=c(122715365)
Para determinar que classe de objeto e o vetor c podemos identificarusando os seguintes comandos
ischaracter(c)
[1] FALSE
isnumeric(c)
[1] TRUE
A este objeto c podemos a signar nome a cada valor definido da seguinteforma
names(c)=c(abcdef)
c
a b c d e f
10 22 70 150 30 65
Castaneda Daniel F N 2013 23
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2443
127 Lacos no R 1 INICIANDO O R
Podemos associar uma comparacao logica com o vetor c da seguinte
forma
cgt3
a b c d e f
FALSE FALSE TRUE TRUE FALSE TRUE
Quando estamos diante de uma matriz podemos definir os nomes dascolunas com colnames() e os nomes das linhas com rownames() veja oexemplo
d=matrix(c(223582858)33)
colnames(d)=c(c1c2c3)
rownames(d)=c(1o2o3o)
d
c1 c2 c3
1o 2 5 8
2o 2 8 5
3o 3 2 8
A matriz d e entendida como um conjunto de dados que podem serassociados as linhas e as colunas Para determinar se ha associacao entrelinhas e colunas o teste utilizado pode se o qui-quadrado com a funcaochisqtest()
127 Lacos no R
Em algumas situacoes variaveis contınuas podem ser transformadas em variaveisordinais ou dummy para realizar estas operacoes o R proporciona varioslacos como else if ou ifelseExemplo para construir variaveis binarias considere o consumo de aguaonde consumo menor ou igual a 10 m3 e zero e acima de 10 m3 e 1 Ovalor de consumo sendo zero se o valor e menor ou igual a 20 reais e 1 casocontrario
consumoc=numeric(length(consumo))
for(i in 1length(consumo))if (consumo[i]lt=10) consumoc[i]=0
else consumoc[i]=1
valorc=numeric(length(valor))
for(i in 1length(valor))if (valor[i]lt=20) valorc[i]=0 else valorc[i]=1
Castaneda Daniel F N 2013 24
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2543
128 A func˜ ao cut() 1 INICIANDO O R
Nota Podemos construir os lacos considerando a condicao como texto
exemplo consumoc[i]=rdquo[0minus 10]rdquo Comando alternativo de construcao
consumoc2=ifelse(consumolt=10[0-10]Acima de 10)
valorc2=ifelse(valorlt=20[0-20]Acima de 20)
limitacao deste laco e que utilizado apenas para duas condicoes Para lacoscom mais de duas condicoes podemos usar os seguintes comandos
valorc3=numeric(length(valor))
for(i in 1length(valor))if (valor[i]lt20) valorc3[i]=[0-20)
else if (valor[i]lt30)
valorc3[i]=[20-30) else valorc3[i]=[30 a +
table(valorc3)
128 A funcao cut()
Alguma funcoes usam lacos para criar novas variaveis categoricas no exem-plo de valor pago em reais pelo consumo de agua podemos construir cate-gorias por quartis de 25 50 75 1 da seguinte maneira
q=cut(valorquantile(valor) includelowest=T)
table(q)
q
[135165] (165222] (222327] (327693]
17 16 16 16
Outras formas podem ser usando intervalos a criterio pessoal no exemplo aseguir consideramos com valor mınimo 13 e valor maximo 70 com amplitudedo intervalo de 19 e com classes fechadas no mınimo e aberto no maximo
valr=cut(valmseq(137019)right=Fincludeupper=T)
table(valr)
valr
[1332) [3251) [5170)
48 15 2
129 Criando funcoes Teste que compara duas medias
Como exemplo implementamos a estatıstica de comparacao de duasamostras independentes
Castaneda Daniel F N 2013 25
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2643
130 Coeficiente de regressao 1 INICIANDO O R
testeduas lt- function(y1 y2)
+ n1 lt- length(y1) n2 lt- length(y2)
+ yb1 lt- mean(y1) yb2 lt- mean(y2)
+ s1 lt- var(y1) s2 lt- var(y2)
+ s lt- ((n1-1)s1 + (n2-1)s2)(n1+n2-2)
+ tst lt- (yb1 - yb2)sqrt(s(1n1 + 1n2))
+ tst
+
x=runif(20)
y=rnorm(20)
testeduas(xy)
[1] 2874636
Uma forma alternativa e usando a funcao ttest()
ttest(xy)
Welch Two Sample t-test
data x and y
t = 28746 df = 21784 p-value = 0008858
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
01846283 11429380sample estimates
mean of x mean of y
05539270 -01098562
130 Coeficiente de regressao
Implementando o calculo da tangente (inclinacao) do coeficiente no mo-delo de regressao linear simples
mq1lt- function(X y)
+ X lt- qr(X)
+ qrcoef(X y)+
mq1(xy)
[1] -008755885
Castaneda Daniel F N 2013 26
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2743
131 Teste Qui- Quadrado 1 INICIANDO O R
131 Teste Qui- Quadrado
Util para associar linhas e colunas considere os dados em d com as se-guintes hipotesesH0 nao ha associacao entre linhas e colunasHa ha associacao entre linhas e colunas
chisqtest(d)
Pearsonrsquos Chi-squared test
data d
X-squared = 46497 df = 4 p-value = 03252
Warning message
In chisqtest(d) Aproximac~ao Qui-quadrado pode estar incorreta
Para um nıvel α = 0 05 de significancia podemos afirmar que nao haevidencias para afirmar que a associacao entre linhas e colunas (linhas ecolunas sao independentes) Um outro exemplo do uso da distribuicao Qui-quadrado e verificar se um conjunto de dados provem de uma determinadadistribuicao teorica
chisqtest(c)
Chi-squared test for given probabilities
data c
X-squared = 22549 df = 5 p-value = 00004116
Pelo p-value podemos afirmar que a 0 05 de significancia nao ha evi-dencias para afirmar que a distribuicao dos numeros em c sejam uniformesPara implementar este teste de associacao no exemplo de consumo de aguaconsiderando a classificacao mediante lacos (ver lacos no R) entre consumoce valorc temos
table(consumocvalorc)
valorc
consumoc 0 1
0 24 0
Castaneda Daniel F N 2013 27
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2843
132 Teste t - student 1 INICIANDO O R
1 3 38
chisqtest(consumocvalorc)$expected
chisqtest(consumocvalorc)$observed
chisqtest(consumocvalorc)
Pearsonrsquos Chi-squared test with Yatesrsquo continuity correction
data consumoc and valorc
X-squared = 498015 df = 1 p-value = 1701e-12
barplot(table(consumocvalorc) beside=T)
Concluimos que ha associacao entre consumo de agua e o valor pago em
reais
132 Teste t - student
O teste mais usado pelos estatısticos e util para comparar medias deduas amostras tanto independente como emparelhadasExemplo considere as exportacoes mensais (FOB-US) do Brasil durante osanos de 2009 minus 2010 Apos digitacao das observacoes temos
exp2009
[1] 9781920 9586406 11809225 12321617 11984585 14467785 14141930
[8] 13840850 13863222 14081686 12652892 14462624
exp2010[1] 1130507 1219724 1572750 1516121 1770250 1709391 1767292 1923625
[9] 1883279 1838042 1768733 2091814
H0 A medias anuais das exportacoes durante 2009 e 2010 e a mesmaHa CC
ttest(exp2009exp2010paired = FALSE)
Welch Two Sample t-test
data exp2009 and exp2010
t = -42813 df = 18202 p-value = 00004394
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-6075666 -2077757
sample estimates
mean of x mean of y
Castaneda Daniel F N 2013 28
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2943
133 Teste F 1 INICIANDO O R
1274956 1682627
Conclusao nao ha evidencias para aceitar que a media das exportacoesde 2009 e 2010 e a mesma
Quando um conjunto de dados e dado em formato de matriz (dataframe)podemos realizar o teste t de uma coluna em funcao da outra por exemplono consumo de agua queremos testar a hipotese nula H0 o valor de con-sumo de agua e o mesmo construindo ou nao versus a hipotese alternativaHa Caso contrario
attach(ca)
ttest(valor~Construindo)
Welch Two Sample t-test
data valor by Construindo
t = -58383 df = 21731 p-value = 7465e-06
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-2288867 -1088356
sample estimates
mean in group 0 mean in group 1
2115271 3803882
Concluımos que nao ha evidencias para aceitar que o valor de consumode agua e o mesmo quando estamos construindo ( p minus valor lt 005)
Exemplos adicionais podem ser comparando entre as variaveis clas-sificadas (ver secao de lacos) da seguinte forma
ttest(valor~consumoc)
ttest(consumo~valorc)
boxplot(consumo~valorc2 main=Consumo e valor pago em Reais)
boxplot(consumo~valorc3 main=Consumo e valor pago em Reais)
133 Teste F
Para determinar se ha a mesma variabilidade no valor de consumoquando estamos ou nao construindo utilizamos o teste F A hipotese nulae H0 O valor de consumo de agua tem a mesma variabilidade quandoconstruımos que quando nao construımos No R temos
Castaneda Daniel F N 2013 29
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3043
133 Teste F 1 INICIANDO O R
vartest(valor~Construindo)
F test to compare two variances
data valor by Construindo
F = 04834 num df = 47 denom df = 16 p-value = 005478
alternative hypothesis true ratio of variances is not equal to 1
95 percent confidence interval
0194815 1014916
sample estimates
ratio of variances
04834048
Concluımos que nao ha evidencias para rejeitar a hipotese nula por tanto
a variabilidade no valor de consumo e o mesmoO correspondente grafico (Box-plot) e apresentado a seguir
boxplot(valor~Construindo col=8 names=c(n~ao construc~ao construc~ao))
natildeo construccedilatildeo construccedilatildeo
2 0
3 0
4 0
5 0
6 0
7 0
Figura 4 Valor pago em reais no consumo de agua
Em alguns casos ha necessidade de identificar se a variabilidade dasexportacoes e a mesma comparando 2009 e 2010H0 As exportacoes de 2009 e 2010 tem a mesma variabilidade (dados men-sais coletados do site httpwwwipeadatagov)Ha CC
Castaneda Daniel F N 2013 30
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3143
134 Graficos 1 INICIANDO O R
vartest(exp2009exp2010)
F test to compare two variances
data exp2009 and exp2010
F = 03728 num df = 11 denom df = 11 p-value = 01166
alternative hypothesis true ratio of variances is not equal to 1
95 percent confidence interval
01073346 12951624
sample estimates
ratio of variances
03728482
Conclusao Nao houve mudancas na variabilidade das exportacoes de
2009 e 2010
134 Graficos
Considere os dados mensais das exportacoes do Brasil (FOB) durante2009 e 2010 para realizar um grafico de box-plot fazemos
boxplot(exp2009exp2010 main=exportac~oes do Brasil
names=c(20092010))
2009 2010
1 0 0 0 0
1 2 0 0 0
1 4 0 0 0
1 6 0 0 0
1 8 0 0 0
2 0
0 0 0
exportaccedilotildees do Brasil
Figura 5 Exportacoes FOB em dolares
Para o grafico da funcao acumulativa das exportacoes
plot(ecdf(exp2010) dopoint=FALSE verticals=TRUE
lty=3 xlim=c(1000023000))
lines(ecdf(exp2009) dopoint=FALSE verticals=TRUE
col=2)
Castaneda Daniel F N 2013 31
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3243
134 Graficos 1 INICIANDO O R
1 00 00 1 20 00 1 40 00 1 60 00 1 80 00 2 00 00 2 20 00
0 0
0 2
0 4
0 6
0 8
1 0
ecdf(exp2010)
x
F n ( x )
Figura 6 Funcao acumulada das exportacoes 2009-2010
Considere as exportacoes do Brasil um histograma e Q-Q plot sera
hist(exp main=Exportac~oes FOB-US col=8)
qqnorm(exp xlim=c(-55)ylim=c(-100021000))
qqline(exp)
Exportaccedilotildees FOBminusUS$
exp
F r e q u e n c y
0 5000 10000 15000 20000
0
5 0
1 0 0
1 5 0
minus4 minus2 0 2 4
0
5 0 0 0
1 0 0 0 0
1 5 0 0 0
2 0 0 0 0
Normal QminusQ Plot
Theoretical Quantiles
S a m p l e Q u a n t i l e s
Figura 7 Graficos das Exportacoes no Brasil 2001-2010
Para ativar alguns graficos pacotes sao necessarios exemplo
library(MASS)
Castaneda Daniel F N 2013 32
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3343
134 Graficos 1 INICIANDO O R
par(mfrow=c(21))
z = rnorm(500000)
hist(z prob=T)
curve(dnorm(x)add=T)
histscott(z prob=T)
Histogram of z
z
D e n s i t y
minus4 minus2 0 2 4
0 0
0 2
Histogram of x
z
D e n s i t y
minus4 minus2 0 2 4
0 0
0 2
0 4
Figura 8 Histograma de numeros aleatorios normais
boxcox(dist~speed data=cars) transformac~ao Box-Cox
minus2 minus1 0 1 2
minus 4 0 0
minus 3 5 0
minus 3 0 0
minus 2 5 0
λ
l o g minus
L i k e l i h o o d
95
Figura 9 Valor otimo na transformacao Box-Cox
Castaneda Daniel F N 2013 33
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3443
135 Tabelas 1 INICIANDO O R
Para ter um alcance maior sobre a capacidade grafica do R podemos
usar as seguintes funcoes
demo(graphics)
demo(image)
demo(persp)
demo(recursion)
demo(plotmath)
demo(package = packages(allavailable = TRUE))
135 Tabelas
Algumas tabelas estatısticas podem ser construıdas com a funcao table()estado=c(PBPEALSEBAMGESRJPBPEAL
SEBAMGESRJPBPEALSEBAMGESRJ
PBPEALSEBAMGESRJ)
estadof=factor(estado)
estadof
[1] PB PE AL SE BA MG ES RJ PB PE AL SE BA MG ES RJ PB PE AL SE BA
[22] MG ES RJ PB PE AL SE BA MG ES RJ
Levels AL BA ES MG PB PE RJ SE
setseed(10)
salarios=c(round(runif(32)100))
salarios
[1] 51 31 43 69 9 23 27 27 62 43 65 57 11 60 36 43 5 26 40 84 86 62 78 36 41
[26] 71 84 24 77 36 54 9
salariom=tapply(salariosestadofmean)
salariom
AL BA ES MG PB PE RJ SE
5800 4575 4875 4525 3975 4275 2875 5850
salariof=factor(cut(salariosbreaks=0+15(07)))
salariof
[1] (4560] (3045] (3045] (6075] (015] (1530] (1530] (1530] (6075]
[10] (3045] (6075] (4560] (015] (4560] (3045] (3045] (015] (1530]
[19] (3045] (7590] (7590] (6075] (7590] (3045] (3045] (6075] (7590]
[28] (1530] (7590] (3045] (4560] (015]
Levels (015] (1530] (3045] (4560] (6075] (7590]
table(salariofestadof)
estadof
Castaneda Daniel F N 2013 34
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3543
136 Comandos adicionais 2 R E ECONOMETRIA
salariof AL BA ES MG PB PE RJ SE
(015] 0 2 0 0 1 0 1 0
(1530] 0 0 1 1 0 1 1 1
(3045] 2 0 1 1 1 2 2 0
(4560] 0 0 1 1 1 0 0 1
(6075] 1 0 0 1 1 1 0 1
(7590] 1 2 1 0 0 0 0 1
table(salariofestadof)
estadof
salariof AL BA ES MG PB PE RJ SE
(015] 1 1 0 0 1 0 1 2
(1530] 0 0 1 1 0 0 1 1
(3045] 0 0 2 0 0 1 0 0
(4560] 2 0 1 0 0 1 0 0
(6075] 0 1 0 2 3 0 1 0
(7590] 0 1 0 1 0 2 0 1
(90105] 0 1 0 0 0 0 1 0
136 Comandos adicionais
Em situacoes onde a ausencia de informacao ou dados faltantes(missing)as funcoes do R precisam declarar esta ausencia com o comando narm=T
indicando que a informacao apresenta dados faltantes Exemplo
df=c(2NA58NA) O ultimo elemento esta ausente
mean(f) Comando padr~ao para calcular a media
[1] NA
mean(fnarm=T) Comando declarando a ausencia de elementos
[1] 5
2 R e Econometria
Dados economicos precisam de uma atencao matematica para dar fun-
damento a suas teorias Atualmente pelo avanco computacional nao habarreiras para serem aplicadas e torna-se ate divertida se definimos a plata-forma de trabalho computacional A econometria requer de uma abordagemdiferenciada pois faz uso de da teoria economica economia matematica es-tatıstica economica estatıstica matematica e inferencia estatıstica Esta
Castaneda Daniel F N 2013 35
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3643
21 Tipos de Dados 2 R E ECONOMETRIA
disciplina aproxima a Estatıstica da Economia onde a teoria economica for-
mula as hipoteses Por exemplo uma reducao de precos de uma mercadoriadevera aumentar a quantidade demandada dessa mercadoria considerandouma relacao inversa entre preco e quantidade demandada ou a despesa deconsumo per capita depende da renda per capita considerando uma relacaodireta ou seja a medida que a renda aumenta a despesa tende a aumentarOutro exemplo onde consideremos a area microeconomica consumo de aguade uma residencia e o valor pago e natural imaginar que ha uma relacaodireta entre consumo e valor pago pelo consumo Porem precisamos saberqual e quanto e esta forca de relacao por tanto o econometrista forneceesta informacao usando a inferencia estatıstica e a estatıstica economicaAs estimativas de esta relacao fica por conta de estatıstica matematica
Para completar e cerrar este circulo de disciplinas abordadas na Econo-metria precisamos utilizar uma ferramenta de calculo computacional quebrinde estabilidade precisao e rapidez nos seus resultados para superartudo isto utilizaremos o ambiente R A econometria surge como uma disci-plina autonoma em virtude de aglutinar todas estas areas do conhecimentomerecendo um estudo proprio
21 Tipos de Dados
Os tipos de dados sao
1 Dados de corte transversal (cross-section) sao dados de uma ou maisvariaveis coletadas no mesmo ponto do tempo Por exemplo os censosno Brasil sao coletados num instante do tempo No censo variaveisdemograficas sao exploradas como contagem da populacao numerode indivıduos em cada famılia idade dos integrantes da famılia ouvariaveis economicas como renda consumo tipo de moradia (alugadaou propria) etc estes dados sao adquiridas a cada decada pelo IBGE
2 Dados longitudinais ou de series temporais sao caracterizadas porobservacoes ao longo do tempo No Brasil um site que disponibilizadados desta natureza e o IPEADATA
3 Dados de painel e uma mistura de dados de corte transversal e longi-tudinais ou ao longo do tempo estudamos o comportamento de unida-des individuais Por exemplo series mensal do ındice de precos serieanuais do produto interno bruto (PIB) ou serie anual da balanca co-mercial dos municıpios do Brasil considerando cada municıpio comounidades individuais
Castaneda Daniel F N 2013 36
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3743
22 Metodologia 2 R E ECONOMETRIA
22 Metodologia
Os passos da metodologia econometrica tradicional ou classica se iniciadesde a formulacao da hipotese ate as conclusoes em geral sao
221 Hipotese
Como referencia usaremos a hipotese nula H 0 a qual nulifica qualquerdiferenca e a hipoteses alternativa H a aquela que contradiz total ou par-cialmente a hipotese nula Exemplo
1 H 0 nao existe uma relacao entre consumo de agua e valor pago pela
mesma
2 Ha existe uma relacao entre consumo de agua e valor pago pelamesma
A hipotese alternativa pode ser dividida em tres possibilidades no exem-plo do consumo de agua pode ser dividida em existe alguma relacao oua relacao e negativa ou a relacao e positiva A primeira denomina-se dehipotese alternativa com teste bicaudal o segundo de teste unicaudal a es-querda e finalmente o ultimo com teste unicaudal a direita Nosso exemploconsidere H a existe alguma relacao (teste bicaudal)
222 Modelo matematico
Usaremos uma funcao de consumo simples
Y = β 1 + β 2X (11)
A variavel dependente Y valor pago pelo consumo e estimado por Y A variavel independente e X consumo de agua em m3 β 1 representa ovalor pago quando nao ha consumo de agua Nosso interesse e determinara tangente ou a variacao pelo consumo β 2
223 Modelo econometrico do valor pago
O modelo matematico fornece a relacao determinıstica entre valor pagoem reais e consumo de agua porem as relacoes entre as variaveis economicassao em geral inexatas Assim ao longo do tempo no podemos esperar que ovalor pago e o consumo em m3 se situem exatamente numa linha reta isto
Castaneda Daniel F N 2013 37
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3843
22 Metodologia 2 R E ECONOMETRIA
por que alem do consumo outras variaveis afetam o valor pago por exemplo
os dias de consumo o perıodo de reforma da casa ou a inflacao podendoalterar o valor pago pelo consumo
224 Nıvel de significancia
Denominado de α frequentemente usa-se α = 005 em situacoes derisco usa-se α = 001 Em testes bicaudais divide-se α em duas partes elocalizam-se nos extremos da distribuicao de prova Para testes unicaudaislocaliza-se no extremo da distribuicao indicada pela hipotese alternativaNosso exemplo α = 005 e por tanto α2 = 0025
225 Obtencao de Dados
Considere 65 observacoes (mes a mes) do consumo de agua em umaresidencia e o valor pago em reais durante o perıodo de 122005 a 042011Ver dados no apendice A Um plot e apresentado a seguir
10 15 20
2 0
3 0
4 0
5 0
6 0
7 0
Valor pago em reais de consumo de aacutegua
Variaacutevel independenteConsumo em m3
V a r i aacute v e l d e p e n d e n t e V a l o r p a g o
Y = minus12365+3007X
Figura 10 Relacao causal entre consumo e valor pago em reais
Podemos observar visualmente que ha uma relacao positiva entre valorpago e consumo de agua onde a variacao pelo consumo ou variacao dovalor pago (tangente) β 2 cresce positivamente Precisamos verificar se estavariacao β 2 e estatisticamente diferente de zero (significativa)
Castaneda Daniel F N 2013 38
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3943
22 Metodologia 2 R E ECONOMETRIA
226 Estatıstica de prova
Denominada de funcao pivo ou estatıstica de teste No ambito pa-rametrico usa-se as estatısticas t student (amostras pequenas) quando ne grande e indiferente o uso da t student ou normal No exemplo para tes-tar qual a inclinacao da variacao pelo consumo de agua usamos a seguinteestatıstica
t0 =β 2
dp(β 2)asymp tnminus2gl (12)
onde t0 e o valor calculado da estatıstica t β 2 e a estimativa do parametro(variacao pelo consumo) β 2 dp(β 2) e o desvio padrao da estimativa doparametro β 2 o valor t0 segue uma distribuicao t-student com nminus2 graus deliberdade(gl) Os graus de liberdade e calculado diferenciando o tamanhoda amostra com o numero de parametro do modelo (n-p) O valor quantılicotnminus2gl(0025) corresponde a distribuicao t-student com 0025 de significanciacom n minus 2 graus de liberdade e n e o numero total de observacoes Nossoexemplo β 2 = 3007 e dp(β 2) = 013 por tanto t0 = 2313 e comparadocom o valor da tabela da t-student com 63 gl e com α2 = 0025 sendo estevalor igual 19983
227 Tipos de erro
Ocorre o erro tipo I (α) ao se rejeitar a hipotese de nulidade quandodeveria aceita-la Por outro lado quando se aceita a hipotese de nulidadequando deveria rejeita-la comete-se o erro tipo II (β ) Nas duas situacoestomou-se uma decisao errada O interesse e a minimizacao dos erros tipo Ie II que na pratica so e possıvel aumentando-se o tamanho da amostra Porrazoes diversas o aumento do tamanho da amostra muitas vezes torna-se im-praticavel A gravidade do erro tipo I e distinta da do erro tipo II quando seconsegue identificar o erro mais grave a opcao e a minimizacao deste poremquando a probabilidade de ocorrencia de um tipo de erro diminui a do outroaumenta e vice versa Podemos observar este criterio na seguinte tabela
Nao rejeita rejeitaH0 verdadeira Correto (1 minus α) Erro do tipo I (α)H0 falsa Erro do tipo II (β ) Correto (1minus β )
Castaneda Daniel F N 2013 39
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4043
22 Metodologia 2 R E ECONOMETRIA
228 Regra de Decisao
Os pacotes ou plataformas estatısticas apresentam o valor observado dafuncao pivo e o p minus valor (Area de probabilidade esta relacionada comonıvel de significancia) assim a funcao pivo apresenta o valor numerico nafuncao de densidade da Estatıstica exemplo dentro da densidade da normalQuando o pvalor e menor do que α = 005 no caso do teste unicaudal (eα = 0025 no caso bicaudal) concluımos que nao ha evidencia suficiente paraaceitar H0 Caso contrario se o p minus valor for maior que α = 005 podemosconcluir que nao ha evidencia suficiente para rejeitar H0 Nosso exemplot0 = 2313 gt 1998 (1998 e valor da distribuicao t com 63 gl e nıvel designificancia bicaudal de 005) este valor localiza-se na cauda positiva da
distribuicao com 63 graus de liberdade(n minus 2 = 65 minus 2) Por outro lado o pminus valor lt 0025 por tanto nao ha evidencias para aceitar H0 em favor deaceitar que o coeficiente de inclinacao (ou tangente) e positiva No recorrerdo livro usaremos codigos para as medidas do pminusvalor que em geral apareceem todo comando summary() Como consequencia a linha que aparece aseguir sera excluıda das saıdas do R
Signif codes 0 0001 001 005 01 1
sera interpretada da seguinte maneira
bull 0 significancia menor que 0001
bull 0001 significancia menor que 001
bull 001 significancia menor que 005
bull 005 significancia menor que 01
bull 01 significancia menor que 1
229 Conclusoes
Esta parte do teste de hipoteses e explicada em conjunto O Estatıstico eo Economista que sao os profissionais da area em que as observacoes foramcoletadas decidem sobre as providencias futuras No exemplo podemosafirmar que a cada metro cubico a mais de consumo de agua sera pago emmedia 3 reais a mais No momento este valor pago pode parecer alto poremna falta de este liquido elementar este valor pode aumentar e por tantosofrera mudancas
Castaneda Daniel F N 2013 40
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4143
23 Previs˜ oes 2 R E ECONOMETRIA
23 Previsoes
Muitas vezes estamos interessados em determinar o que acontece quandouma quantidade de consumo de agua em m3 e utilizada e qual o valor pagoem reais Por exemplo se nosso interesse e saber quanto sera pago por 20m3
de consumo de agua em uma residencia A conta a realizar eValor pago = minus12365 + 3007 lowast 20 = 47775 reaisA interpretacao deste valor e em media o valor pago em reais por 20m3 deagua consumida e de aproximadamente 478 reais
231 Resıduos
Uma questao fundamental em econometria e identificar o comportamentodos resıduos de um modelo Considere Y o valor real pago e Y valor pagoestimado a partir de um modelo entao este erro e aleatorio e definido por
ϵi = Y i minus Y i (13)
A abordagem mais formal dos erros e feita nos proximos capıtulosUma questao importante e determinar qual o comportamento da estima-tiva destes erros aos quais chamamos de resıduos Para determinar a nor-malidade dos resıduos realizamos o teste de Jarque Bera com a funcao
jarqueberatest() da biblioteca tseries com o seguinte grafico
minus2 minus1 0 1 2
minus 5
0
5
1 0
resiacuteduos do modelo valor= f(consumo)
Theoretical Quantiles
S a m p l e Q u a n t i l e s
Figura 11 Normalidade dos resıduos
Castaneda Daniel F N 2013 41
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4243
24 Exercıcios REFER ENCIAS
24 Exercıcios
1 Por que a econometria precisa ser uma disciplina autonoma
2 Que e econometria
3 Pesquise dados de corte transversal corte longitudinal e de painel
4 Construa uma metodologia econometrica para o consumo familiar emfuncao da renda familiar (linear)
5 No item anterior e possıvel encontrar uma relacao quadratica
6 Quais sao os pressupostos basicos de um modelo de regressao linear
simples
7 Como e chamado o parametro de inclinacao ou tangente num modelode regressao linear simples em econometria
8 Que e o projeto R
9 R e um programa econometrico
Referencias
[1] Albert Jim (2009) Bayesian computation with R Editora SpringerSecond Edition New York USA
[2] Borde Arvind (1992) TEX by example A beginneracutes guide Ed Aca-demic Press Professional United States of America
[3] Carneiro Orlando (1997) Econometria Bacute asica Teoria e Aplicac˜ oes Editora Atlas Segunda Edicao son Paulo
[4] Conover W J (1999) Practical nonparametric statistics 3ed NewYork
[5] Cribari Neto F (2002) C for Econometricians conputational Econo-
mics 14 p135-149
[6] Dalgaard Peter(2008) Introductory Statistics with R Editora SpringerSecond Edition New York USA
[7] Ehlers Ricardo(2007) Analise de series Temporais Universidade Fe-deral do Parana
Castaneda Daniel F N 2013 42
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4343
REFER ENCIAS REFER ENCIAS
[8] Frery Alejandro Cribari-Neto Francisco(2011)Elementos de
Estatıstica conputacional Usando Plataformas de Software Li-vreGratuito Publicacoes Matematicas Editora IMPA
[9] Gujarati Damodar N (2000) Econometria Bacute asica Makron Books Ter-ceira Edicao son Paulo
[10] Knuth DE (1981)The Art of conputer Programming Third EditionVolume 2 Seminumerical Algorithms Addison-Wesley Publishingconpany Massachusetts
[11] Korgi Rodrigo de Castro (2003) El universo LAT E X Editora Facultadde Ciencias Segunda Edicao Bogota
[12] Krawczyk H How to Predict Congruential Generators InJournal of Algorithms V 13 N 4 1992
[13] LrsquoEcuyer P (2001) Software for uniform random number generationdistinguishing the good and the bad In Proceedings of the 2001 WinterSimulation Conference
[14] Maindonald John Braun W John(2010) Data analysis and graphics using R an example-based approach Cambridge University Press NewYork USA
[15] Mingoti(2005)Analise De Dados Atraves De Metodos De Estatistica Multivariada - Uma Abordagem Aplicada Editora UFMG Belo Hori-zonte
Castaneda Daniel F N 2013 43
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 543
12 Manipulac˜ ao de numeros e vetores 1 INICIANDO O R
Para preparar uma variavel para ingressar seus valores por exemplo
e=numeric()
e[3]=17
Onde o terceiro elemento e 17 e os dois primeiros ainda nao definidos
e
[1] NA NA 17
Podemos ainda declarar os outros elementos de e
Para Construir um vetor qualitativo sendo na ordem 10 homens e 5
mulheres usamos a funcao rep()
w=c(rep(homem10) rep(mulher5))
w
[1] homem homem homem homem homem homem homem
[8] homem homem homem mulher mulher mulher mulher
[15] mulher
Considere o tamanho do calcado no pe de cada individuo em w
pe=c(404239414440424144403535373637)
Podemos identificar a distribuicao de frequencias de w e pe da seguinteforma
table(wpe)
pe
w 35 36 37 39 40 41 42 44
homem 0 0 0 1 3 2 2 2
mulher 2 1 2 0 0 0 0 0
Para construir graficos para as tabelas usamos as funcoes
plot(table(wpe) main=Frequenciasxlab=sexoylab=n umero)
barplot(table(wpe) main=Frequencias ylab=casosxlab=pe)legend(topleft legend=c(mulherhomem) col=c(81)lty=c(11))
Seus respectivo graficos sao
Castaneda Daniel F N 2013 5
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 643
13 Func˜ oes matematicas 1 INICIANDO O R
Frequecircncias
sexo
n uacute m e r o
homem mulher
3 5
3 6
3 7
3 9
4 0
4 1
4 2
4 4
35 36 37 39 40 41 42 44
Frequecircncias
peacute
c a s o s
0 0
0
5
1 0
1 5
2 0
2
5
3 0
mulherhomem
Figura 2 Descricao do calcado por sexo
13 Funcoes matematicas
Para utilizar as funcoes matematicas usamos os comandos
gt history() comandos usados previamente
gt length(x) numero de elementos do vetor ou lista x
gt log(x) log na base e de x
gt exp(x) antilogaritmo de x
gt log(xn) log na base n de x
gt log10(x) log na base 10 de x
gt sqrt(x) raiz quadrada de x
gt factorial(x) factorial de x(x)gt choose(nx) combinatoria n(x(n-x))
gt gamma(x) x (x-1) x inteiro
gt floor(x) menor inteiro de x
gt trunc(x) escolha do menor inteiro
gt abs(x) valor absoluto de x
gt cos(x) cosseno de x
gt sin(x) seno de x
gt tan(x) tangente de x
gt acos(x) inversa cosseno
gt asin(x) inversa seno
gt atan(x) inversa tangentegt acosh(x) inversa cosseno hiperbolica
gt asinh(x) inversa seno hiperbolica
gt atanh(x) inversa tangente hiperbolica
gt round(x digits=2) aproximac~ao a duas casas decimais
gt signif(x digits=6) x com notac~ao cientıfica de 6 dıgitos
Castaneda Daniel F N 2013 6
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 743
14 Func˜ oes estatısticas 1 INICIANDO O R
14 Funcoes estatısticas
gt max(x) valor maximo de x
gt min(x) valor mınimo de x
gt sum(x) soma total dos valores de x
gt mean(x) media aritmetica de x
gt median(x) mediana de x
gt range(x) vetor de mınimo e maximo de x
gt summary(x) resumo de estatısticas de locac~ao de x
gt var(x) variancia de x
gt cor(xy) correlac~a o d e x e y
gt sort(x) ordena em forma crescente os elementos de x
gt rank(x) vector de filas em xgt order(x) valores originais de x
gt quantile(x) vetor contendo os quartis de x
gt cumsum(x) vetor contendo a suma total elemento a elemento
gt cumprod(x) vetor contendo o produto elemento a elemento
gt cummax(x) vetor n~ao decrescente de x substituindo valores
gt cummin(x) vetor n~ao crescente de x substitui os valores
pelo mınimo
gt pmax(xyz) vetor contendo o vetor maior entre x y ou z e
substituindo o maximo em cada posic~ao
gt pmin(xyz) vetor contendo o vetor maior entre x y ou z
e substituindo o mınimo em cada posic~aogt colMeans(x) calcula a media por colunas na matriz x
gt colSums(x) calcula os totais por coluna na matriz x
gt rowMeans(x) calcula a media por linhas na matriz x
gt rowSums(x) calcula os totais por linhas na matriz x
15 Cores
O R disponibiliza cores usando a funcao palette() com 8 cores outrafuncao e colours() e que tambem podem ser identificados por um numero
ja especificado por exemplo
teta=(120)092plot(tetasin(teta) col=red pch=16cex=2) ou
plot(tetasin(teta) col=2 pch=16cex=2)
Onde cex representa o caracter de expansao da bolinha (quanto maior onumero maior a bolinha) Para incrementar varias cores no mesmo graficopodemos realizar o seguinte comando
Castaneda Daniel F N 2013 7
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 843
16 Fatores ordenados e desordenados 1 INICIANDO O R
plot(tetasin(teta) col=120 pch=16cex=2)
Para modificar a bolinha apenas modificamos pch
plot(tetasin(teta) col=120 pch=+cex=2)
Cores podem tambem ser incrementadas fora do corpo do grafico
plot(tetasin(teta) main=seno colmain=4 col=120 pch=+cex=2)
Outras alteracoes de cores podem ser construıdas com
colmain cor para o tıtulo do grafico
colaxis cor para os numeros dos eixos
collab cor para os tıtulos dos eixoscolsub cor para o subtıtulo do grafico
A fonte pode ser alterada da seguinte maneira
fontmain fonte para o tıtulo do grafico
fontaxis fonte para os numeros dos eixos
fontlab fonte para os tıtulos dos eixos
fontsub fonte para o subtıtulo do grafico
Onde 1 e texto normal 2 preto 3 italico 4 preto italico para simbolofonte A orientacao dos numeros pode ser alterada com o comando las= onde 1 horizontal a x 2 perpendicular a x 3 perpendicular a ambos eixos)
16 Fatores ordenados e desordenados
exemplo
estados=c(PEALSEBAPBBAPBALSEBAPB
+ SE BASEBA)
estadosf=factor(estados)
estadosf
[1] PE AL SE BA PB BA PB AL SE BA PB SE BA SE BA
Levels AL BA PB PE SE
levels(estadosf)[1] AL BA PB PE SE
salarios=c(604959564948565960696658475868)
A funcao tapply e usada para reordenar vetores calculando uma carac-terıstica dos nıveis no exemplo suponha que os salarios medio e o desviopadrao por cada trabalhador por dia nos estados seja dado a seguir
Castaneda Daniel F N 2013 8
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 943
17 Vetores e Matrizes 1 INICIANDO O R
mestados=tapply(salariosestadosfmean) media
mestados
AL BA PB PE SE
5400 5760 5700 6000 5875
destados=tapply(salariosestadosfsd) desvio padr~ao
destados
AL BA PB PE SE
70710678 105498815 85440037 NA 09574271
Construımos a funcao do coeficiente de variacao de duas formas distintase incluımos no comando tapply
cv=function(x) sd(x)100mean(x)cvestados=tapply(salariosestadosfcv)
cvestados
AL BA PB PE SE
13094570 18315767 14989480 NA 1629663
cv=function(x) sqrt(var(x))100mean(x)
cvestados=tapply(salariosestadosfcv)
cvestados
AL BA PB PE SE
13094570 18315767 14989480 NA 1629663
17 Vetores e Matrizes
Um vetor pode ser considerado como a entrada de uma colecao de dadossendo estes numericos ou nao R facilita a manipulacao e construcao de veto-res e matrizes Considere a construcao de 30 numeros aleatorios Uniformesem duas matrizes de 3 linhas por 5 colunas
z=runif(30)
dim(z)=c(352)
z
1
[1] [2] [3] [4] [5]
[1] 09500783 09262226 005847740 034257312 03718370
[2] 08591887 07057183 020592054 003569694 06709746
[3] 06806468 06270572 001570158 021650180 05170189
Castaneda Daniel F N 2013 9
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1043
18 Indexando matrizes 1 INICIANDO O R
2
[1] [2] [3] [4] [5]
[1] 03539723 05918548 037104534 02148440 04169542
[2] 08895178 05751237 069399721 03808024 03872492
[3] 08036340 07065130 003400331 01593949 02306890
18 Indexando matrizes
x=array(120dim=c(45))
x
[1] [2] [3] [4] [5]
[1] 1 5 9 13 17[2] 2 6 10 14 18
[3] 3 7 11 15 19
[4] 4 8 12 16 20
i=array(c(1331)dim=c(32))
i
[1] [2]
[1] 1 3
[2] 2 2
[3] 3 1
gt x[i][ 1 ] 9 6 3
x[13]=9 x[22]=6 x[31]=3
O ındice i indica os valores da matriz x a serem extraıdos temos
x[i]=0 Substituımos x[i] por zero
x
[1] [2] [3] [4] [5]
[1] 1 5 0 13 17
[2] 2 0 10 14 18[3] 0 7 11 15 19
[4] 4 8 12 16 20
Construindo uma matriz 3 times 3 com elementos de 1 ao 9
c=matrix(c(19)33)
Castaneda Daniel F N 2013 10
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1143
19 Sequencias 1 INICIANDO O R
c
[1] [2] [3]
[1] 1 4 7
[2] 2 5 8
[3] 3 6 9
19 Sequencias
Sequencias sao construıdas ingressando o primeiro elemento o ultimoelemento e o espacamento
b=seq(1014 by=5)
b[1] 100 105 110 115 120 125 130 135 140
a=seq(19)
ab=ab multiplicando vetores
ab
[1]
[1] 570
ab=outer(ab)
ab
[1] [2] [3] [4] [5] [6] [7] [8] [9]
[1] 10 105 11 115 12 125 13 135 14
[2] 20 210 22 230 24 250 26 270 28[3] 30 315 33 345 36 375 39 405 42
[4] 40 420 44 460 48 500 52 540 56
[5] 50 525 55 575 60 625 65 675 70
[6] 60 630 66 690 72 750 78 810 84
[7] 70 735 77 805 84 875 91 945 98
[8] 80 840 88 920 96 1000 104 1080 112
[9] 90 945 99 1035 108 1125 117 1215 126
ab=at(b)
ab
[1] [2] [3] [4] [5] [6] [7] [8] [9][1] 10 105 11 115 12 125 13 135 14
[2] 20 210 22 230 24 250 26 270 28
[3] 30 315 33 345 36 375 39 405 42
[4] 40 420 44 460 48 500 52 540 56
[5] 50 525 55 575 60 625 65 675 70
Castaneda Daniel F N 2013 11
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1243
110 Multiplicando matrizes 1 INICIANDO O R
[6] 60 630 66 690 72 750 78 810 84
[7] 70 735 77 805 84 875 91 945 98
[8] 80 840 88 920 96 1000 104 1080 112
[9] 90 945 99 1035 108 1125 117 1215 126
d=outer(0909)
d
[1] [2] [3] [4] [5] [6] [7] [8] [9] [10]
[1] 0 0 0 0 0 0 0 0 0 0
[2] 0 1 2 3 4 5 6 7 8 9
[3] 0 2 4 6 8 10 12 14 16 18
[4] 0 3 6 9 12 15 18 21 24 27
[5] 0 4 8 12 16 20 24 28 32 36
[6] 0 5 10 15 20 25 30 35 40 45
[7] 0 6 12 18 24 30 36 42 48 54
[8] 0 7 14 21 28 35 42 49 56 63
[9] 0 8 16 24 32 40 48 56 64 72
[10] 0 9 18 27 36 45 54 63 72 81
110 Multiplicando matrizes
Para a construcao de matrizes o preenchimentos das celulas ou casas e
feita coluna a coluna como padrao exemplo
a= matrix(c(19)33)
a
[1] [2] [3]
[1] 1 4 7
[2] 2 5 8
[3] 3 6 9
podemos construir esta mesma matriz preenchendo as casas linha por linhada seguinte forma
at=matrix(c(19)33byrow=T)
at
[1] [2] [3]
[1] 1 2 3
[2] 4 5 6
[3] 7 8 9
Castaneda Daniel F N 2013 12
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1343
111 Invers˜ ao de matrizes 1 INICIANDO O R
Uma alternativa seria usar a funcao aperm()
b= aperm(ac(21))
b
[1] [2] [3]
[1] 1 2 3
[2] 4 5 6
[3] 7 8 9
ab multiplicac~ao elemento a elemento
[1] [2] [3]
[1] 1 8 21[2] 8 25 48
[3] 21 48 81
ab multiplicac~ao das matrizes a e b
[1] [2] [3]
[1] 66 78 90
[2] 78 93 108
[3] 90 108 126
crossprod(ab) produto da transposta de a por b
[1] [2] [3]
[1] 30 36 42
[2] 66 81 96
[3] 102 126 150
t(a)b
[1] [2] [3]
[1] 30 36 42
[2] 66 81 96
[3] 102 126 150
111 Inversao de matrizes
c=matrix(c(324572159)33)
d=matrix(c(223582858)33)
c
Castaneda Daniel F N 2013 13
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1443
112 Comandos cbind() e rbind() 1 INICIANDO O R
[1] [2] [3]
[1] 3 5 1
[2] 2 7 5
[3] 4 2 9
gt solve(c)
[1] [2] [3]
[1] 036551724 -029655172 012413793
[2] 001379310 015862069 -008965517
[3] -016551724 009655172 007586207
solve(cd) inverte a matriz c e multiplica por d
[1] [2] [3]
[1] 051034483 -029655172 24344828
[2] 007586207 115862069 01862069
[3] 008965517 009655172 -02344828
gt solve(c)d forma alternativa
[1] [2] [3]
[1] 051034483 -029655172 24344828
[2] 007586207 115862069 01862069
[3] 008965517 009655172 -02344828
112 Comandos cbind() e rbind()
E possıvel formar novas matrizes com as ja existentes usando a funcaocbind() e rbind() a primeira construı matrizes em colunas a segunda emlinhas
cbind(cd)
[1] [2] [3] [4] [5] [6]
[1] 3 5 1 2 5 8
[2] 2 7 5 2 8 5
[3] 4 2 9 3 2 8
rbind(cd)[1] [2] [3]
[1] 3 5 1
[2] 2 7 5
[3] 4 2 9
[4] 2 5 8
Castaneda Daniel F N 2013 14
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1543
113 Autovalores e autovetores 1 INICIANDO O R
[5] 2 8 5
[6] 3 2 8
cbind(1c)
[1] [2] [3] [4]
[1] 1 3 5 1
[2] 1 2 7 5
[3] 1 4 2 9
rbind(1d)
[1] [2] [3]
[1] 1 1 1
[2] 2 5 8
[3] 2 8 5
[4] 3 2 8
113 Autovalores e autovetores
ev=eigen(c) calcula autovalores e autovetores
ev
$values
[1] 13265694+0000000i 2867153+1646172i 2867153-1646172i
$vectors[1] [2] [3]
[1] 03799264+0i 07884141+00000000i 07884141+00000000i
[2] 06480231+0i 00745376+03051027i 00745376-03051027i
[3] 06600924+0i -04774265-02276482i -04774265+02276482
det(c)
[1] 145
det(d)
[1] -57
114 Data frame ou construtor de dados
Suponha um conjunto de dados com tres variaveis sexo (1=homem0=mulher) peso em quilogramas e salario em reais por dia de 12 indivıduosPara calcular a media o resumo de estatısticas descritivas e um grafico (plot)
Castaneda Daniel F N 2013 15
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1643
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1743
116 Func˜ ao readtable() 1 INICIANDO O R
attach(ind)
peso
[1] 67 60 62 69 54 59 57 67 60 65 59 55
salario
[1] 59 40 45 65 55 45 48 67 65 68 62 45
sex
[1] 1 0 0 1 0 0 0 1 1 1 1 0
detach(ind)
salario
Erro objeto rsquosalariorsquo n~ao encontrado
A funcao attach e detach pode ser usada no somente em arquivo dedados dos pacotes do R se nao tambem para listas e data frame
116 Funcao readtable()
Um amplo conjunto de arquivos com diferentes extensoes pode ser lidopor esta funcao
1161 Arquivos com extensao txt
Considere as seguintes variaveis x1 idade dos funcionarios x2 sexo
(1 homem 0 mulher) x3 anos de experiencia na funcao x4 estado civilx5 numero de filhos x6 nota de 0 minus 10 de um teste de avaliacao deconhecimento na sua area x7 teste psicotecnico de 0 a 50 x8 satisfacaocom a vida pessoal estes dados em bloco de notas com extensao txt obtidosde Mingoti 2005 Ver dados na integra no apendice
funcao=readtable(functxtheader=T)
funcao
grupo idade sexo ecivil nfilhos aexper tpsico tconhec satisf
1 0 24 1 1 0 2 77 360 1
2 0 29 1 1 0 4 79 360 13 0 38 1 0 1 6 86 408 0
107 0 24 1 1 0 2 73 360 0
108 0 27 1 0 0 3 74 360 1
109 1 42 1 0 2 14 99 440 1
Castaneda Daniel F N 2013 17
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1843
117 Script com extens˜ ao R 1 INICIANDO O R
Considere os dados de consumo de agua de uma residencia durante
o perıodo de 1205 a 0411 Com as seguintes variaveis valor em reaisconsumo em m3 dias de consumo e construindo o imovel (1sim 2nao)Dados proprios do autor Ver dados na integra no apendice
ca=readtable(consumoagua2txtheader=T) disponıvel em meus documentos
ca
dado valor consumo diasconsumo Construindo
1 1 1476 11 30 0
2 2 1347 10 31 0
64 64 3439 14 31 1
65 65 2221 11 32 0
Observacao use o comando choose() para escolher um conjunto dedados de um diretorio especifico no computador podemos usar
datalt-readtable(filechoose()header=T)
117 Script com extensao R
Exemplo com extensao R lida por readtable com dados do proprio R
exemplo=readtable(filechoose()header=T) dadosrR em aula 3exemplo
dado valor
1 1 115
2 2 117
3 3 118
4 4 119
5 5 127
118 Funcao scan()
A funcao scan tambem pode incluir elementos no R
scan()
1 12
2 13
3 14
Castaneda Daniel F N 2013 18
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1943
119 Func˜ ao sample 1 INICIANDO O R
4 15
5
Read 4 items
[1] 12 13 14 15
Use a funcao scan() para ingressar dados diretamente na plataforma R
119 Funcao sample
Usa-se para escolher aleatoriamente uma amostra de um conjunto deobservacoes ou uma base de dados Como exemplo considere uma amostrade 8 observacoes dos primeiros 20 do banco de dados de consumo de agua
(ca)setseed(10)
ca20=ca[sample(1208)]
ca20
dado valor consumo diasconsumo Construindo
11 11 3153 16 31 1
6 6 1347 10 32 0
8 8 1347 10 30 0
12 12 3755 18 32 1
2 2 1347 10 31 0
4 4 5275 22 33 1
15 15 3755 18 32 0
14 14 1648 11 30 0
120 Rcmdr
Para importar dados do SPSS STATISTICA MINITAB EXCEL TXTetc podemos usar o pacote livre Rcmdr ja disponıvel na biblioteca
library(Rcmdr)
este pacote trabalha via janelas para maior comodidade
121 Dados disponıveis no R
R possuı mais de 100 conjunto de dados alocados no pacote dataset quepodem ser chamados diretamente ( sem extensao) com a funcao data
data()
Castaneda Daniel F N 2013 19
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2043
122 Modificando e editando dados 1 INICIANDO O R
No R pode-se acessar a conjunto de dados de outros pacotes disponıveis
na sua biblioteca Se por acaso esta instalado o pacote lmtest o conjuntode dados ativo neste pacote pode ser chamado da seguinte maneira
data(package=lmtest)
122 Modificando e editando dados
Considere o conjunto de dados anterior Para modificar este conjuntosera disponibilizado uma tela de editor de dados a seguir
xnovo=edit(wagespackage=lmtest)
Para editar um conjunto de dados novo podemos usar a funcao edit daseguinte forma
xn=edit(dataframe())
123 Exportando dados do R para o Excel
Para exportar uma coluna de dados por exemplo o valor pago no con-sumo de agua executamos no R
writeClipboard(ascharacter(valor))
Na tela do Excel usar o comando colar Suponha que esta interessadoem exportar o conjunto de dados ca consumo de agua numa residenciadisponıveis no R para transferir este conjunto de dados use o seguintecomando
writetable(caclipboardsep=tcolnames=NA)
Na tela do Excel faca Ctrl+V ou um click em colar
124 Funcoes apply tapply sapply e lapply
A funcao apply calcula medidas estatısticas por linhas ou por colunas
e a funcao sapply calcula apenas por coluna A diferenca da funcao applyda funcao tapply e que esta ultima calcula medidas estatısticas por estratosConsidere os dados de consumo de agua de uma residencia
apply(ca2mean)
dado valor consumo diasconsumo Construindo
330000000 255690769 126153846 307076923 02615385
Castaneda Daniel F N 2013 20
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2143
125 Distribuic˜ oes de probabilidade 1 INICIANDO O R
tapply(valorConstruindomean)
0 1
2115271 3803882
sapply(camean)
dado valor consumo diasconsumo Construindo
330000000 255690769 126153846 307076923 02615385
lapply(camean) verificar
125 Distribuicoes de probabilidade
R proporciona uma serie de funcoes para variaveis aleatorias estatısticasconhecidas dentro destas funcoes temos distribuicao aleatorizacao proba-
bilidade e quantidadeDistribuicao nome no R argumentos adicionaisbeta beta shape1shap2npcbinomial binom sizeprobcauchy cauchy locationscalechi-quadrado chisq dfnpcexponencial exp rateF f df1df2npcgamma gamma shapescalegeometric geom probhypergeometric hyper mnk
log-normal lnorm meanlogsdloglogistic logis locationscalenegativa binomial nbinom sizeprobnormal norm meansdpoisson pois lambdat-student t dfncpuniforme unif minmaxweibull weibull shapescalewilcoxon wilcoxon mn
Nomes iniciando com ldquodrdquocalculara a densidade da funcao ldquoprdquoparacalcular a probabilidade ou funcao acumulada ldquoqrdquopara o valor quantılico eldquorrdquopara simulacao de numeros aleatoriosExemplos
rpois(105) 10 numeros aleatorios da dist poisson com parametro 5
[1] 3 2 3 1 8 6 1 3 2 3
Castaneda Daniel F N 2013 21
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2243
126 Algoritmos de programac˜ ao no R 1 INICIANDO O R
rnorm(5) 5 numeros aleatorios da normal padr~ao
[1] 004659011 -005019082 -128753167 115411245 -137573809
qt(09550) valor quantilico da t com 50 gl
[1] 1675905
qchisq(0951) valor da qui-quadrado
com 95 de confianc a e 1 g l
[1] 3841459
dpois(45) densidade da dist poisson x=4 parametro=5
[1] 01754674
ppois(45) P(xlt=4) parametro=5
[1] 04404933
126 Algoritmos de programacao no R
R e uma linguagem de programacao orientada a objetos que alem de ana-lisar dados tem sua propria programacao aqui usaremos esta programacaopara analises de estatısticas e econometria Para maiores detalhes podemospesquisar em Venables and Ripley (2000 e 2002) Voce pode estender afuncionalidade do R criando novas funcoes ou programando por exemplo
medianamediarazao lt- function(x)
return(median(x)mean(x))
setseed(20)
z = rexp(10000)
medianamediarazao(z)
[1] 06925193
Construindo a mediana
mediana=function(x)
oddeven=length(x)2
if (oddeven == 0) (sort(x)[length(x)2]+sort(x)[1+ length(x)2])2
else sort(x)[ceiling(length(x)2)]
Construindo a media geometrica
mediageometrica = function (x) exp(mean(log(x)))
Construindo a media harmonica
Castaneda Daniel F N 2013 22
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2343
126 Algoritmos de programac˜ ao no R 1 INICIANDO O R
mediaharmonica=function (x) 1mean(1x)
Um algoritmo que envolva as medidas de tendencia central
medidascentrais = function(y medida)
switch(medida
media = mean(y)
mgeometrica = exp(mean(log(y)))
mharmonica = 1mean(1y)
mediana = median(y)
stop(Medida n~ao inclusa))
medidascentrais(ymedia)
Gerando uma distribuicao uniforme para o lancamento de um dado
ndado=function(x) return(round(runif(x)6+05))
hist(ndado(100000)
Com o comando sample podemos realizar este mesmo experimento daseguinte maneira
gerando=sample(16 100000 replace=TRUE)
hist(gerando)
Considere o seguinte objeto c
c=c(122715365)
Para determinar que classe de objeto e o vetor c podemos identificarusando os seguintes comandos
ischaracter(c)
[1] FALSE
isnumeric(c)
[1] TRUE
A este objeto c podemos a signar nome a cada valor definido da seguinteforma
names(c)=c(abcdef)
c
a b c d e f
10 22 70 150 30 65
Castaneda Daniel F N 2013 23
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2443
127 Lacos no R 1 INICIANDO O R
Podemos associar uma comparacao logica com o vetor c da seguinte
forma
cgt3
a b c d e f
FALSE FALSE TRUE TRUE FALSE TRUE
Quando estamos diante de uma matriz podemos definir os nomes dascolunas com colnames() e os nomes das linhas com rownames() veja oexemplo
d=matrix(c(223582858)33)
colnames(d)=c(c1c2c3)
rownames(d)=c(1o2o3o)
d
c1 c2 c3
1o 2 5 8
2o 2 8 5
3o 3 2 8
A matriz d e entendida como um conjunto de dados que podem serassociados as linhas e as colunas Para determinar se ha associacao entrelinhas e colunas o teste utilizado pode se o qui-quadrado com a funcaochisqtest()
127 Lacos no R
Em algumas situacoes variaveis contınuas podem ser transformadas em variaveisordinais ou dummy para realizar estas operacoes o R proporciona varioslacos como else if ou ifelseExemplo para construir variaveis binarias considere o consumo de aguaonde consumo menor ou igual a 10 m3 e zero e acima de 10 m3 e 1 Ovalor de consumo sendo zero se o valor e menor ou igual a 20 reais e 1 casocontrario
consumoc=numeric(length(consumo))
for(i in 1length(consumo))if (consumo[i]lt=10) consumoc[i]=0
else consumoc[i]=1
valorc=numeric(length(valor))
for(i in 1length(valor))if (valor[i]lt=20) valorc[i]=0 else valorc[i]=1
Castaneda Daniel F N 2013 24
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2543
128 A func˜ ao cut() 1 INICIANDO O R
Nota Podemos construir os lacos considerando a condicao como texto
exemplo consumoc[i]=rdquo[0minus 10]rdquo Comando alternativo de construcao
consumoc2=ifelse(consumolt=10[0-10]Acima de 10)
valorc2=ifelse(valorlt=20[0-20]Acima de 20)
limitacao deste laco e que utilizado apenas para duas condicoes Para lacoscom mais de duas condicoes podemos usar os seguintes comandos
valorc3=numeric(length(valor))
for(i in 1length(valor))if (valor[i]lt20) valorc3[i]=[0-20)
else if (valor[i]lt30)
valorc3[i]=[20-30) else valorc3[i]=[30 a +
table(valorc3)
128 A funcao cut()
Alguma funcoes usam lacos para criar novas variaveis categoricas no exem-plo de valor pago em reais pelo consumo de agua podemos construir cate-gorias por quartis de 25 50 75 1 da seguinte maneira
q=cut(valorquantile(valor) includelowest=T)
table(q)
q
[135165] (165222] (222327] (327693]
17 16 16 16
Outras formas podem ser usando intervalos a criterio pessoal no exemplo aseguir consideramos com valor mınimo 13 e valor maximo 70 com amplitudedo intervalo de 19 e com classes fechadas no mınimo e aberto no maximo
valr=cut(valmseq(137019)right=Fincludeupper=T)
table(valr)
valr
[1332) [3251) [5170)
48 15 2
129 Criando funcoes Teste que compara duas medias
Como exemplo implementamos a estatıstica de comparacao de duasamostras independentes
Castaneda Daniel F N 2013 25
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2643
130 Coeficiente de regressao 1 INICIANDO O R
testeduas lt- function(y1 y2)
+ n1 lt- length(y1) n2 lt- length(y2)
+ yb1 lt- mean(y1) yb2 lt- mean(y2)
+ s1 lt- var(y1) s2 lt- var(y2)
+ s lt- ((n1-1)s1 + (n2-1)s2)(n1+n2-2)
+ tst lt- (yb1 - yb2)sqrt(s(1n1 + 1n2))
+ tst
+
x=runif(20)
y=rnorm(20)
testeduas(xy)
[1] 2874636
Uma forma alternativa e usando a funcao ttest()
ttest(xy)
Welch Two Sample t-test
data x and y
t = 28746 df = 21784 p-value = 0008858
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
01846283 11429380sample estimates
mean of x mean of y
05539270 -01098562
130 Coeficiente de regressao
Implementando o calculo da tangente (inclinacao) do coeficiente no mo-delo de regressao linear simples
mq1lt- function(X y)
+ X lt- qr(X)
+ qrcoef(X y)+
mq1(xy)
[1] -008755885
Castaneda Daniel F N 2013 26
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2743
131 Teste Qui- Quadrado 1 INICIANDO O R
131 Teste Qui- Quadrado
Util para associar linhas e colunas considere os dados em d com as se-guintes hipotesesH0 nao ha associacao entre linhas e colunasHa ha associacao entre linhas e colunas
chisqtest(d)
Pearsonrsquos Chi-squared test
data d
X-squared = 46497 df = 4 p-value = 03252
Warning message
In chisqtest(d) Aproximac~ao Qui-quadrado pode estar incorreta
Para um nıvel α = 0 05 de significancia podemos afirmar que nao haevidencias para afirmar que a associacao entre linhas e colunas (linhas ecolunas sao independentes) Um outro exemplo do uso da distribuicao Qui-quadrado e verificar se um conjunto de dados provem de uma determinadadistribuicao teorica
chisqtest(c)
Chi-squared test for given probabilities
data c
X-squared = 22549 df = 5 p-value = 00004116
Pelo p-value podemos afirmar que a 0 05 de significancia nao ha evi-dencias para afirmar que a distribuicao dos numeros em c sejam uniformesPara implementar este teste de associacao no exemplo de consumo de aguaconsiderando a classificacao mediante lacos (ver lacos no R) entre consumoce valorc temos
table(consumocvalorc)
valorc
consumoc 0 1
0 24 0
Castaneda Daniel F N 2013 27
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2843
132 Teste t - student 1 INICIANDO O R
1 3 38
chisqtest(consumocvalorc)$expected
chisqtest(consumocvalorc)$observed
chisqtest(consumocvalorc)
Pearsonrsquos Chi-squared test with Yatesrsquo continuity correction
data consumoc and valorc
X-squared = 498015 df = 1 p-value = 1701e-12
barplot(table(consumocvalorc) beside=T)
Concluimos que ha associacao entre consumo de agua e o valor pago em
reais
132 Teste t - student
O teste mais usado pelos estatısticos e util para comparar medias deduas amostras tanto independente como emparelhadasExemplo considere as exportacoes mensais (FOB-US) do Brasil durante osanos de 2009 minus 2010 Apos digitacao das observacoes temos
exp2009
[1] 9781920 9586406 11809225 12321617 11984585 14467785 14141930
[8] 13840850 13863222 14081686 12652892 14462624
exp2010[1] 1130507 1219724 1572750 1516121 1770250 1709391 1767292 1923625
[9] 1883279 1838042 1768733 2091814
H0 A medias anuais das exportacoes durante 2009 e 2010 e a mesmaHa CC
ttest(exp2009exp2010paired = FALSE)
Welch Two Sample t-test
data exp2009 and exp2010
t = -42813 df = 18202 p-value = 00004394
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-6075666 -2077757
sample estimates
mean of x mean of y
Castaneda Daniel F N 2013 28
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2943
133 Teste F 1 INICIANDO O R
1274956 1682627
Conclusao nao ha evidencias para aceitar que a media das exportacoesde 2009 e 2010 e a mesma
Quando um conjunto de dados e dado em formato de matriz (dataframe)podemos realizar o teste t de uma coluna em funcao da outra por exemplono consumo de agua queremos testar a hipotese nula H0 o valor de con-sumo de agua e o mesmo construindo ou nao versus a hipotese alternativaHa Caso contrario
attach(ca)
ttest(valor~Construindo)
Welch Two Sample t-test
data valor by Construindo
t = -58383 df = 21731 p-value = 7465e-06
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-2288867 -1088356
sample estimates
mean in group 0 mean in group 1
2115271 3803882
Concluımos que nao ha evidencias para aceitar que o valor de consumode agua e o mesmo quando estamos construindo ( p minus valor lt 005)
Exemplos adicionais podem ser comparando entre as variaveis clas-sificadas (ver secao de lacos) da seguinte forma
ttest(valor~consumoc)
ttest(consumo~valorc)
boxplot(consumo~valorc2 main=Consumo e valor pago em Reais)
boxplot(consumo~valorc3 main=Consumo e valor pago em Reais)
133 Teste F
Para determinar se ha a mesma variabilidade no valor de consumoquando estamos ou nao construindo utilizamos o teste F A hipotese nulae H0 O valor de consumo de agua tem a mesma variabilidade quandoconstruımos que quando nao construımos No R temos
Castaneda Daniel F N 2013 29
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3043
133 Teste F 1 INICIANDO O R
vartest(valor~Construindo)
F test to compare two variances
data valor by Construindo
F = 04834 num df = 47 denom df = 16 p-value = 005478
alternative hypothesis true ratio of variances is not equal to 1
95 percent confidence interval
0194815 1014916
sample estimates
ratio of variances
04834048
Concluımos que nao ha evidencias para rejeitar a hipotese nula por tanto
a variabilidade no valor de consumo e o mesmoO correspondente grafico (Box-plot) e apresentado a seguir
boxplot(valor~Construindo col=8 names=c(n~ao construc~ao construc~ao))
natildeo construccedilatildeo construccedilatildeo
2 0
3 0
4 0
5 0
6 0
7 0
Figura 4 Valor pago em reais no consumo de agua
Em alguns casos ha necessidade de identificar se a variabilidade dasexportacoes e a mesma comparando 2009 e 2010H0 As exportacoes de 2009 e 2010 tem a mesma variabilidade (dados men-sais coletados do site httpwwwipeadatagov)Ha CC
Castaneda Daniel F N 2013 30
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3143
134 Graficos 1 INICIANDO O R
vartest(exp2009exp2010)
F test to compare two variances
data exp2009 and exp2010
F = 03728 num df = 11 denom df = 11 p-value = 01166
alternative hypothesis true ratio of variances is not equal to 1
95 percent confidence interval
01073346 12951624
sample estimates
ratio of variances
03728482
Conclusao Nao houve mudancas na variabilidade das exportacoes de
2009 e 2010
134 Graficos
Considere os dados mensais das exportacoes do Brasil (FOB) durante2009 e 2010 para realizar um grafico de box-plot fazemos
boxplot(exp2009exp2010 main=exportac~oes do Brasil
names=c(20092010))
2009 2010
1 0 0 0 0
1 2 0 0 0
1 4 0 0 0
1 6 0 0 0
1 8 0 0 0
2 0
0 0 0
exportaccedilotildees do Brasil
Figura 5 Exportacoes FOB em dolares
Para o grafico da funcao acumulativa das exportacoes
plot(ecdf(exp2010) dopoint=FALSE verticals=TRUE
lty=3 xlim=c(1000023000))
lines(ecdf(exp2009) dopoint=FALSE verticals=TRUE
col=2)
Castaneda Daniel F N 2013 31
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3243
134 Graficos 1 INICIANDO O R
1 00 00 1 20 00 1 40 00 1 60 00 1 80 00 2 00 00 2 20 00
0 0
0 2
0 4
0 6
0 8
1 0
ecdf(exp2010)
x
F n ( x )
Figura 6 Funcao acumulada das exportacoes 2009-2010
Considere as exportacoes do Brasil um histograma e Q-Q plot sera
hist(exp main=Exportac~oes FOB-US col=8)
qqnorm(exp xlim=c(-55)ylim=c(-100021000))
qqline(exp)
Exportaccedilotildees FOBminusUS$
exp
F r e q u e n c y
0 5000 10000 15000 20000
0
5 0
1 0 0
1 5 0
minus4 minus2 0 2 4
0
5 0 0 0
1 0 0 0 0
1 5 0 0 0
2 0 0 0 0
Normal QminusQ Plot
Theoretical Quantiles
S a m p l e Q u a n t i l e s
Figura 7 Graficos das Exportacoes no Brasil 2001-2010
Para ativar alguns graficos pacotes sao necessarios exemplo
library(MASS)
Castaneda Daniel F N 2013 32
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3343
134 Graficos 1 INICIANDO O R
par(mfrow=c(21))
z = rnorm(500000)
hist(z prob=T)
curve(dnorm(x)add=T)
histscott(z prob=T)
Histogram of z
z
D e n s i t y
minus4 minus2 0 2 4
0 0
0 2
Histogram of x
z
D e n s i t y
minus4 minus2 0 2 4
0 0
0 2
0 4
Figura 8 Histograma de numeros aleatorios normais
boxcox(dist~speed data=cars) transformac~ao Box-Cox
minus2 minus1 0 1 2
minus 4 0 0
minus 3 5 0
minus 3 0 0
minus 2 5 0
λ
l o g minus
L i k e l i h o o d
95
Figura 9 Valor otimo na transformacao Box-Cox
Castaneda Daniel F N 2013 33
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3443
135 Tabelas 1 INICIANDO O R
Para ter um alcance maior sobre a capacidade grafica do R podemos
usar as seguintes funcoes
demo(graphics)
demo(image)
demo(persp)
demo(recursion)
demo(plotmath)
demo(package = packages(allavailable = TRUE))
135 Tabelas
Algumas tabelas estatısticas podem ser construıdas com a funcao table()estado=c(PBPEALSEBAMGESRJPBPEAL
SEBAMGESRJPBPEALSEBAMGESRJ
PBPEALSEBAMGESRJ)
estadof=factor(estado)
estadof
[1] PB PE AL SE BA MG ES RJ PB PE AL SE BA MG ES RJ PB PE AL SE BA
[22] MG ES RJ PB PE AL SE BA MG ES RJ
Levels AL BA ES MG PB PE RJ SE
setseed(10)
salarios=c(round(runif(32)100))
salarios
[1] 51 31 43 69 9 23 27 27 62 43 65 57 11 60 36 43 5 26 40 84 86 62 78 36 41
[26] 71 84 24 77 36 54 9
salariom=tapply(salariosestadofmean)
salariom
AL BA ES MG PB PE RJ SE
5800 4575 4875 4525 3975 4275 2875 5850
salariof=factor(cut(salariosbreaks=0+15(07)))
salariof
[1] (4560] (3045] (3045] (6075] (015] (1530] (1530] (1530] (6075]
[10] (3045] (6075] (4560] (015] (4560] (3045] (3045] (015] (1530]
[19] (3045] (7590] (7590] (6075] (7590] (3045] (3045] (6075] (7590]
[28] (1530] (7590] (3045] (4560] (015]
Levels (015] (1530] (3045] (4560] (6075] (7590]
table(salariofestadof)
estadof
Castaneda Daniel F N 2013 34
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3543
136 Comandos adicionais 2 R E ECONOMETRIA
salariof AL BA ES MG PB PE RJ SE
(015] 0 2 0 0 1 0 1 0
(1530] 0 0 1 1 0 1 1 1
(3045] 2 0 1 1 1 2 2 0
(4560] 0 0 1 1 1 0 0 1
(6075] 1 0 0 1 1 1 0 1
(7590] 1 2 1 0 0 0 0 1
table(salariofestadof)
estadof
salariof AL BA ES MG PB PE RJ SE
(015] 1 1 0 0 1 0 1 2
(1530] 0 0 1 1 0 0 1 1
(3045] 0 0 2 0 0 1 0 0
(4560] 2 0 1 0 0 1 0 0
(6075] 0 1 0 2 3 0 1 0
(7590] 0 1 0 1 0 2 0 1
(90105] 0 1 0 0 0 0 1 0
136 Comandos adicionais
Em situacoes onde a ausencia de informacao ou dados faltantes(missing)as funcoes do R precisam declarar esta ausencia com o comando narm=T
indicando que a informacao apresenta dados faltantes Exemplo
df=c(2NA58NA) O ultimo elemento esta ausente
mean(f) Comando padr~ao para calcular a media
[1] NA
mean(fnarm=T) Comando declarando a ausencia de elementos
[1] 5
2 R e Econometria
Dados economicos precisam de uma atencao matematica para dar fun-
damento a suas teorias Atualmente pelo avanco computacional nao habarreiras para serem aplicadas e torna-se ate divertida se definimos a plata-forma de trabalho computacional A econometria requer de uma abordagemdiferenciada pois faz uso de da teoria economica economia matematica es-tatıstica economica estatıstica matematica e inferencia estatıstica Esta
Castaneda Daniel F N 2013 35
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3643
21 Tipos de Dados 2 R E ECONOMETRIA
disciplina aproxima a Estatıstica da Economia onde a teoria economica for-
mula as hipoteses Por exemplo uma reducao de precos de uma mercadoriadevera aumentar a quantidade demandada dessa mercadoria considerandouma relacao inversa entre preco e quantidade demandada ou a despesa deconsumo per capita depende da renda per capita considerando uma relacaodireta ou seja a medida que a renda aumenta a despesa tende a aumentarOutro exemplo onde consideremos a area microeconomica consumo de aguade uma residencia e o valor pago e natural imaginar que ha uma relacaodireta entre consumo e valor pago pelo consumo Porem precisamos saberqual e quanto e esta forca de relacao por tanto o econometrista forneceesta informacao usando a inferencia estatıstica e a estatıstica economicaAs estimativas de esta relacao fica por conta de estatıstica matematica
Para completar e cerrar este circulo de disciplinas abordadas na Econo-metria precisamos utilizar uma ferramenta de calculo computacional quebrinde estabilidade precisao e rapidez nos seus resultados para superartudo isto utilizaremos o ambiente R A econometria surge como uma disci-plina autonoma em virtude de aglutinar todas estas areas do conhecimentomerecendo um estudo proprio
21 Tipos de Dados
Os tipos de dados sao
1 Dados de corte transversal (cross-section) sao dados de uma ou maisvariaveis coletadas no mesmo ponto do tempo Por exemplo os censosno Brasil sao coletados num instante do tempo No censo variaveisdemograficas sao exploradas como contagem da populacao numerode indivıduos em cada famılia idade dos integrantes da famılia ouvariaveis economicas como renda consumo tipo de moradia (alugadaou propria) etc estes dados sao adquiridas a cada decada pelo IBGE
2 Dados longitudinais ou de series temporais sao caracterizadas porobservacoes ao longo do tempo No Brasil um site que disponibilizadados desta natureza e o IPEADATA
3 Dados de painel e uma mistura de dados de corte transversal e longi-tudinais ou ao longo do tempo estudamos o comportamento de unida-des individuais Por exemplo series mensal do ındice de precos serieanuais do produto interno bruto (PIB) ou serie anual da balanca co-mercial dos municıpios do Brasil considerando cada municıpio comounidades individuais
Castaneda Daniel F N 2013 36
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3743
22 Metodologia 2 R E ECONOMETRIA
22 Metodologia
Os passos da metodologia econometrica tradicional ou classica se iniciadesde a formulacao da hipotese ate as conclusoes em geral sao
221 Hipotese
Como referencia usaremos a hipotese nula H 0 a qual nulifica qualquerdiferenca e a hipoteses alternativa H a aquela que contradiz total ou par-cialmente a hipotese nula Exemplo
1 H 0 nao existe uma relacao entre consumo de agua e valor pago pela
mesma
2 Ha existe uma relacao entre consumo de agua e valor pago pelamesma
A hipotese alternativa pode ser dividida em tres possibilidades no exem-plo do consumo de agua pode ser dividida em existe alguma relacao oua relacao e negativa ou a relacao e positiva A primeira denomina-se dehipotese alternativa com teste bicaudal o segundo de teste unicaudal a es-querda e finalmente o ultimo com teste unicaudal a direita Nosso exemploconsidere H a existe alguma relacao (teste bicaudal)
222 Modelo matematico
Usaremos uma funcao de consumo simples
Y = β 1 + β 2X (11)
A variavel dependente Y valor pago pelo consumo e estimado por Y A variavel independente e X consumo de agua em m3 β 1 representa ovalor pago quando nao ha consumo de agua Nosso interesse e determinara tangente ou a variacao pelo consumo β 2
223 Modelo econometrico do valor pago
O modelo matematico fornece a relacao determinıstica entre valor pagoem reais e consumo de agua porem as relacoes entre as variaveis economicassao em geral inexatas Assim ao longo do tempo no podemos esperar que ovalor pago e o consumo em m3 se situem exatamente numa linha reta isto
Castaneda Daniel F N 2013 37
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3843
22 Metodologia 2 R E ECONOMETRIA
por que alem do consumo outras variaveis afetam o valor pago por exemplo
os dias de consumo o perıodo de reforma da casa ou a inflacao podendoalterar o valor pago pelo consumo
224 Nıvel de significancia
Denominado de α frequentemente usa-se α = 005 em situacoes derisco usa-se α = 001 Em testes bicaudais divide-se α em duas partes elocalizam-se nos extremos da distribuicao de prova Para testes unicaudaislocaliza-se no extremo da distribuicao indicada pela hipotese alternativaNosso exemplo α = 005 e por tanto α2 = 0025
225 Obtencao de Dados
Considere 65 observacoes (mes a mes) do consumo de agua em umaresidencia e o valor pago em reais durante o perıodo de 122005 a 042011Ver dados no apendice A Um plot e apresentado a seguir
10 15 20
2 0
3 0
4 0
5 0
6 0
7 0
Valor pago em reais de consumo de aacutegua
Variaacutevel independenteConsumo em m3
V a r i aacute v e l d e p e n d e n t e V a l o r p a g o
Y = minus12365+3007X
Figura 10 Relacao causal entre consumo e valor pago em reais
Podemos observar visualmente que ha uma relacao positiva entre valorpago e consumo de agua onde a variacao pelo consumo ou variacao dovalor pago (tangente) β 2 cresce positivamente Precisamos verificar se estavariacao β 2 e estatisticamente diferente de zero (significativa)
Castaneda Daniel F N 2013 38
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3943
22 Metodologia 2 R E ECONOMETRIA
226 Estatıstica de prova
Denominada de funcao pivo ou estatıstica de teste No ambito pa-rametrico usa-se as estatısticas t student (amostras pequenas) quando ne grande e indiferente o uso da t student ou normal No exemplo para tes-tar qual a inclinacao da variacao pelo consumo de agua usamos a seguinteestatıstica
t0 =β 2
dp(β 2)asymp tnminus2gl (12)
onde t0 e o valor calculado da estatıstica t β 2 e a estimativa do parametro(variacao pelo consumo) β 2 dp(β 2) e o desvio padrao da estimativa doparametro β 2 o valor t0 segue uma distribuicao t-student com nminus2 graus deliberdade(gl) Os graus de liberdade e calculado diferenciando o tamanhoda amostra com o numero de parametro do modelo (n-p) O valor quantılicotnminus2gl(0025) corresponde a distribuicao t-student com 0025 de significanciacom n minus 2 graus de liberdade e n e o numero total de observacoes Nossoexemplo β 2 = 3007 e dp(β 2) = 013 por tanto t0 = 2313 e comparadocom o valor da tabela da t-student com 63 gl e com α2 = 0025 sendo estevalor igual 19983
227 Tipos de erro
Ocorre o erro tipo I (α) ao se rejeitar a hipotese de nulidade quandodeveria aceita-la Por outro lado quando se aceita a hipotese de nulidadequando deveria rejeita-la comete-se o erro tipo II (β ) Nas duas situacoestomou-se uma decisao errada O interesse e a minimizacao dos erros tipo Ie II que na pratica so e possıvel aumentando-se o tamanho da amostra Porrazoes diversas o aumento do tamanho da amostra muitas vezes torna-se im-praticavel A gravidade do erro tipo I e distinta da do erro tipo II quando seconsegue identificar o erro mais grave a opcao e a minimizacao deste poremquando a probabilidade de ocorrencia de um tipo de erro diminui a do outroaumenta e vice versa Podemos observar este criterio na seguinte tabela
Nao rejeita rejeitaH0 verdadeira Correto (1 minus α) Erro do tipo I (α)H0 falsa Erro do tipo II (β ) Correto (1minus β )
Castaneda Daniel F N 2013 39
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4043
22 Metodologia 2 R E ECONOMETRIA
228 Regra de Decisao
Os pacotes ou plataformas estatısticas apresentam o valor observado dafuncao pivo e o p minus valor (Area de probabilidade esta relacionada comonıvel de significancia) assim a funcao pivo apresenta o valor numerico nafuncao de densidade da Estatıstica exemplo dentro da densidade da normalQuando o pvalor e menor do que α = 005 no caso do teste unicaudal (eα = 0025 no caso bicaudal) concluımos que nao ha evidencia suficiente paraaceitar H0 Caso contrario se o p minus valor for maior que α = 005 podemosconcluir que nao ha evidencia suficiente para rejeitar H0 Nosso exemplot0 = 2313 gt 1998 (1998 e valor da distribuicao t com 63 gl e nıvel designificancia bicaudal de 005) este valor localiza-se na cauda positiva da
distribuicao com 63 graus de liberdade(n minus 2 = 65 minus 2) Por outro lado o pminus valor lt 0025 por tanto nao ha evidencias para aceitar H0 em favor deaceitar que o coeficiente de inclinacao (ou tangente) e positiva No recorrerdo livro usaremos codigos para as medidas do pminusvalor que em geral apareceem todo comando summary() Como consequencia a linha que aparece aseguir sera excluıda das saıdas do R
Signif codes 0 0001 001 005 01 1
sera interpretada da seguinte maneira
bull 0 significancia menor que 0001
bull 0001 significancia menor que 001
bull 001 significancia menor que 005
bull 005 significancia menor que 01
bull 01 significancia menor que 1
229 Conclusoes
Esta parte do teste de hipoteses e explicada em conjunto O Estatıstico eo Economista que sao os profissionais da area em que as observacoes foramcoletadas decidem sobre as providencias futuras No exemplo podemosafirmar que a cada metro cubico a mais de consumo de agua sera pago emmedia 3 reais a mais No momento este valor pago pode parecer alto poremna falta de este liquido elementar este valor pode aumentar e por tantosofrera mudancas
Castaneda Daniel F N 2013 40
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4143
23 Previs˜ oes 2 R E ECONOMETRIA
23 Previsoes
Muitas vezes estamos interessados em determinar o que acontece quandouma quantidade de consumo de agua em m3 e utilizada e qual o valor pagoem reais Por exemplo se nosso interesse e saber quanto sera pago por 20m3
de consumo de agua em uma residencia A conta a realizar eValor pago = minus12365 + 3007 lowast 20 = 47775 reaisA interpretacao deste valor e em media o valor pago em reais por 20m3 deagua consumida e de aproximadamente 478 reais
231 Resıduos
Uma questao fundamental em econometria e identificar o comportamentodos resıduos de um modelo Considere Y o valor real pago e Y valor pagoestimado a partir de um modelo entao este erro e aleatorio e definido por
ϵi = Y i minus Y i (13)
A abordagem mais formal dos erros e feita nos proximos capıtulosUma questao importante e determinar qual o comportamento da estima-tiva destes erros aos quais chamamos de resıduos Para determinar a nor-malidade dos resıduos realizamos o teste de Jarque Bera com a funcao
jarqueberatest() da biblioteca tseries com o seguinte grafico
minus2 minus1 0 1 2
minus 5
0
5
1 0
resiacuteduos do modelo valor= f(consumo)
Theoretical Quantiles
S a m p l e Q u a n t i l e s
Figura 11 Normalidade dos resıduos
Castaneda Daniel F N 2013 41
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4243
24 Exercıcios REFER ENCIAS
24 Exercıcios
1 Por que a econometria precisa ser uma disciplina autonoma
2 Que e econometria
3 Pesquise dados de corte transversal corte longitudinal e de painel
4 Construa uma metodologia econometrica para o consumo familiar emfuncao da renda familiar (linear)
5 No item anterior e possıvel encontrar uma relacao quadratica
6 Quais sao os pressupostos basicos de um modelo de regressao linear
simples
7 Como e chamado o parametro de inclinacao ou tangente num modelode regressao linear simples em econometria
8 Que e o projeto R
9 R e um programa econometrico
Referencias
[1] Albert Jim (2009) Bayesian computation with R Editora SpringerSecond Edition New York USA
[2] Borde Arvind (1992) TEX by example A beginneracutes guide Ed Aca-demic Press Professional United States of America
[3] Carneiro Orlando (1997) Econometria Bacute asica Teoria e Aplicac˜ oes Editora Atlas Segunda Edicao son Paulo
[4] Conover W J (1999) Practical nonparametric statistics 3ed NewYork
[5] Cribari Neto F (2002) C for Econometricians conputational Econo-
mics 14 p135-149
[6] Dalgaard Peter(2008) Introductory Statistics with R Editora SpringerSecond Edition New York USA
[7] Ehlers Ricardo(2007) Analise de series Temporais Universidade Fe-deral do Parana
Castaneda Daniel F N 2013 42
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4343
REFER ENCIAS REFER ENCIAS
[8] Frery Alejandro Cribari-Neto Francisco(2011)Elementos de
Estatıstica conputacional Usando Plataformas de Software Li-vreGratuito Publicacoes Matematicas Editora IMPA
[9] Gujarati Damodar N (2000) Econometria Bacute asica Makron Books Ter-ceira Edicao son Paulo
[10] Knuth DE (1981)The Art of conputer Programming Third EditionVolume 2 Seminumerical Algorithms Addison-Wesley Publishingconpany Massachusetts
[11] Korgi Rodrigo de Castro (2003) El universo LAT E X Editora Facultadde Ciencias Segunda Edicao Bogota
[12] Krawczyk H How to Predict Congruential Generators InJournal of Algorithms V 13 N 4 1992
[13] LrsquoEcuyer P (2001) Software for uniform random number generationdistinguishing the good and the bad In Proceedings of the 2001 WinterSimulation Conference
[14] Maindonald John Braun W John(2010) Data analysis and graphics using R an example-based approach Cambridge University Press NewYork USA
[15] Mingoti(2005)Analise De Dados Atraves De Metodos De Estatistica Multivariada - Uma Abordagem Aplicada Editora UFMG Belo Hori-zonte
Castaneda Daniel F N 2013 43
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 643
13 Func˜ oes matematicas 1 INICIANDO O R
Frequecircncias
sexo
n uacute m e r o
homem mulher
3 5
3 6
3 7
3 9
4 0
4 1
4 2
4 4
35 36 37 39 40 41 42 44
Frequecircncias
peacute
c a s o s
0 0
0
5
1 0
1 5
2 0
2
5
3 0
mulherhomem
Figura 2 Descricao do calcado por sexo
13 Funcoes matematicas
Para utilizar as funcoes matematicas usamos os comandos
gt history() comandos usados previamente
gt length(x) numero de elementos do vetor ou lista x
gt log(x) log na base e de x
gt exp(x) antilogaritmo de x
gt log(xn) log na base n de x
gt log10(x) log na base 10 de x
gt sqrt(x) raiz quadrada de x
gt factorial(x) factorial de x(x)gt choose(nx) combinatoria n(x(n-x))
gt gamma(x) x (x-1) x inteiro
gt floor(x) menor inteiro de x
gt trunc(x) escolha do menor inteiro
gt abs(x) valor absoluto de x
gt cos(x) cosseno de x
gt sin(x) seno de x
gt tan(x) tangente de x
gt acos(x) inversa cosseno
gt asin(x) inversa seno
gt atan(x) inversa tangentegt acosh(x) inversa cosseno hiperbolica
gt asinh(x) inversa seno hiperbolica
gt atanh(x) inversa tangente hiperbolica
gt round(x digits=2) aproximac~ao a duas casas decimais
gt signif(x digits=6) x com notac~ao cientıfica de 6 dıgitos
Castaneda Daniel F N 2013 6
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 743
14 Func˜ oes estatısticas 1 INICIANDO O R
14 Funcoes estatısticas
gt max(x) valor maximo de x
gt min(x) valor mınimo de x
gt sum(x) soma total dos valores de x
gt mean(x) media aritmetica de x
gt median(x) mediana de x
gt range(x) vetor de mınimo e maximo de x
gt summary(x) resumo de estatısticas de locac~ao de x
gt var(x) variancia de x
gt cor(xy) correlac~a o d e x e y
gt sort(x) ordena em forma crescente os elementos de x
gt rank(x) vector de filas em xgt order(x) valores originais de x
gt quantile(x) vetor contendo os quartis de x
gt cumsum(x) vetor contendo a suma total elemento a elemento
gt cumprod(x) vetor contendo o produto elemento a elemento
gt cummax(x) vetor n~ao decrescente de x substituindo valores
gt cummin(x) vetor n~ao crescente de x substitui os valores
pelo mınimo
gt pmax(xyz) vetor contendo o vetor maior entre x y ou z e
substituindo o maximo em cada posic~ao
gt pmin(xyz) vetor contendo o vetor maior entre x y ou z
e substituindo o mınimo em cada posic~aogt colMeans(x) calcula a media por colunas na matriz x
gt colSums(x) calcula os totais por coluna na matriz x
gt rowMeans(x) calcula a media por linhas na matriz x
gt rowSums(x) calcula os totais por linhas na matriz x
15 Cores
O R disponibiliza cores usando a funcao palette() com 8 cores outrafuncao e colours() e que tambem podem ser identificados por um numero
ja especificado por exemplo
teta=(120)092plot(tetasin(teta) col=red pch=16cex=2) ou
plot(tetasin(teta) col=2 pch=16cex=2)
Onde cex representa o caracter de expansao da bolinha (quanto maior onumero maior a bolinha) Para incrementar varias cores no mesmo graficopodemos realizar o seguinte comando
Castaneda Daniel F N 2013 7
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 843
16 Fatores ordenados e desordenados 1 INICIANDO O R
plot(tetasin(teta) col=120 pch=16cex=2)
Para modificar a bolinha apenas modificamos pch
plot(tetasin(teta) col=120 pch=+cex=2)
Cores podem tambem ser incrementadas fora do corpo do grafico
plot(tetasin(teta) main=seno colmain=4 col=120 pch=+cex=2)
Outras alteracoes de cores podem ser construıdas com
colmain cor para o tıtulo do grafico
colaxis cor para os numeros dos eixos
collab cor para os tıtulos dos eixoscolsub cor para o subtıtulo do grafico
A fonte pode ser alterada da seguinte maneira
fontmain fonte para o tıtulo do grafico
fontaxis fonte para os numeros dos eixos
fontlab fonte para os tıtulos dos eixos
fontsub fonte para o subtıtulo do grafico
Onde 1 e texto normal 2 preto 3 italico 4 preto italico para simbolofonte A orientacao dos numeros pode ser alterada com o comando las= onde 1 horizontal a x 2 perpendicular a x 3 perpendicular a ambos eixos)
16 Fatores ordenados e desordenados
exemplo
estados=c(PEALSEBAPBBAPBALSEBAPB
+ SE BASEBA)
estadosf=factor(estados)
estadosf
[1] PE AL SE BA PB BA PB AL SE BA PB SE BA SE BA
Levels AL BA PB PE SE
levels(estadosf)[1] AL BA PB PE SE
salarios=c(604959564948565960696658475868)
A funcao tapply e usada para reordenar vetores calculando uma carac-terıstica dos nıveis no exemplo suponha que os salarios medio e o desviopadrao por cada trabalhador por dia nos estados seja dado a seguir
Castaneda Daniel F N 2013 8
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 943
17 Vetores e Matrizes 1 INICIANDO O R
mestados=tapply(salariosestadosfmean) media
mestados
AL BA PB PE SE
5400 5760 5700 6000 5875
destados=tapply(salariosestadosfsd) desvio padr~ao
destados
AL BA PB PE SE
70710678 105498815 85440037 NA 09574271
Construımos a funcao do coeficiente de variacao de duas formas distintase incluımos no comando tapply
cv=function(x) sd(x)100mean(x)cvestados=tapply(salariosestadosfcv)
cvestados
AL BA PB PE SE
13094570 18315767 14989480 NA 1629663
cv=function(x) sqrt(var(x))100mean(x)
cvestados=tapply(salariosestadosfcv)
cvestados
AL BA PB PE SE
13094570 18315767 14989480 NA 1629663
17 Vetores e Matrizes
Um vetor pode ser considerado como a entrada de uma colecao de dadossendo estes numericos ou nao R facilita a manipulacao e construcao de veto-res e matrizes Considere a construcao de 30 numeros aleatorios Uniformesem duas matrizes de 3 linhas por 5 colunas
z=runif(30)
dim(z)=c(352)
z
1
[1] [2] [3] [4] [5]
[1] 09500783 09262226 005847740 034257312 03718370
[2] 08591887 07057183 020592054 003569694 06709746
[3] 06806468 06270572 001570158 021650180 05170189
Castaneda Daniel F N 2013 9
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1043
18 Indexando matrizes 1 INICIANDO O R
2
[1] [2] [3] [4] [5]
[1] 03539723 05918548 037104534 02148440 04169542
[2] 08895178 05751237 069399721 03808024 03872492
[3] 08036340 07065130 003400331 01593949 02306890
18 Indexando matrizes
x=array(120dim=c(45))
x
[1] [2] [3] [4] [5]
[1] 1 5 9 13 17[2] 2 6 10 14 18
[3] 3 7 11 15 19
[4] 4 8 12 16 20
i=array(c(1331)dim=c(32))
i
[1] [2]
[1] 1 3
[2] 2 2
[3] 3 1
gt x[i][ 1 ] 9 6 3
x[13]=9 x[22]=6 x[31]=3
O ındice i indica os valores da matriz x a serem extraıdos temos
x[i]=0 Substituımos x[i] por zero
x
[1] [2] [3] [4] [5]
[1] 1 5 0 13 17
[2] 2 0 10 14 18[3] 0 7 11 15 19
[4] 4 8 12 16 20
Construindo uma matriz 3 times 3 com elementos de 1 ao 9
c=matrix(c(19)33)
Castaneda Daniel F N 2013 10
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1143
19 Sequencias 1 INICIANDO O R
c
[1] [2] [3]
[1] 1 4 7
[2] 2 5 8
[3] 3 6 9
19 Sequencias
Sequencias sao construıdas ingressando o primeiro elemento o ultimoelemento e o espacamento
b=seq(1014 by=5)
b[1] 100 105 110 115 120 125 130 135 140
a=seq(19)
ab=ab multiplicando vetores
ab
[1]
[1] 570
ab=outer(ab)
ab
[1] [2] [3] [4] [5] [6] [7] [8] [9]
[1] 10 105 11 115 12 125 13 135 14
[2] 20 210 22 230 24 250 26 270 28[3] 30 315 33 345 36 375 39 405 42
[4] 40 420 44 460 48 500 52 540 56
[5] 50 525 55 575 60 625 65 675 70
[6] 60 630 66 690 72 750 78 810 84
[7] 70 735 77 805 84 875 91 945 98
[8] 80 840 88 920 96 1000 104 1080 112
[9] 90 945 99 1035 108 1125 117 1215 126
ab=at(b)
ab
[1] [2] [3] [4] [5] [6] [7] [8] [9][1] 10 105 11 115 12 125 13 135 14
[2] 20 210 22 230 24 250 26 270 28
[3] 30 315 33 345 36 375 39 405 42
[4] 40 420 44 460 48 500 52 540 56
[5] 50 525 55 575 60 625 65 675 70
Castaneda Daniel F N 2013 11
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1243
110 Multiplicando matrizes 1 INICIANDO O R
[6] 60 630 66 690 72 750 78 810 84
[7] 70 735 77 805 84 875 91 945 98
[8] 80 840 88 920 96 1000 104 1080 112
[9] 90 945 99 1035 108 1125 117 1215 126
d=outer(0909)
d
[1] [2] [3] [4] [5] [6] [7] [8] [9] [10]
[1] 0 0 0 0 0 0 0 0 0 0
[2] 0 1 2 3 4 5 6 7 8 9
[3] 0 2 4 6 8 10 12 14 16 18
[4] 0 3 6 9 12 15 18 21 24 27
[5] 0 4 8 12 16 20 24 28 32 36
[6] 0 5 10 15 20 25 30 35 40 45
[7] 0 6 12 18 24 30 36 42 48 54
[8] 0 7 14 21 28 35 42 49 56 63
[9] 0 8 16 24 32 40 48 56 64 72
[10] 0 9 18 27 36 45 54 63 72 81
110 Multiplicando matrizes
Para a construcao de matrizes o preenchimentos das celulas ou casas e
feita coluna a coluna como padrao exemplo
a= matrix(c(19)33)
a
[1] [2] [3]
[1] 1 4 7
[2] 2 5 8
[3] 3 6 9
podemos construir esta mesma matriz preenchendo as casas linha por linhada seguinte forma
at=matrix(c(19)33byrow=T)
at
[1] [2] [3]
[1] 1 2 3
[2] 4 5 6
[3] 7 8 9
Castaneda Daniel F N 2013 12
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1343
111 Invers˜ ao de matrizes 1 INICIANDO O R
Uma alternativa seria usar a funcao aperm()
b= aperm(ac(21))
b
[1] [2] [3]
[1] 1 2 3
[2] 4 5 6
[3] 7 8 9
ab multiplicac~ao elemento a elemento
[1] [2] [3]
[1] 1 8 21[2] 8 25 48
[3] 21 48 81
ab multiplicac~ao das matrizes a e b
[1] [2] [3]
[1] 66 78 90
[2] 78 93 108
[3] 90 108 126
crossprod(ab) produto da transposta de a por b
[1] [2] [3]
[1] 30 36 42
[2] 66 81 96
[3] 102 126 150
t(a)b
[1] [2] [3]
[1] 30 36 42
[2] 66 81 96
[3] 102 126 150
111 Inversao de matrizes
c=matrix(c(324572159)33)
d=matrix(c(223582858)33)
c
Castaneda Daniel F N 2013 13
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1443
112 Comandos cbind() e rbind() 1 INICIANDO O R
[1] [2] [3]
[1] 3 5 1
[2] 2 7 5
[3] 4 2 9
gt solve(c)
[1] [2] [3]
[1] 036551724 -029655172 012413793
[2] 001379310 015862069 -008965517
[3] -016551724 009655172 007586207
solve(cd) inverte a matriz c e multiplica por d
[1] [2] [3]
[1] 051034483 -029655172 24344828
[2] 007586207 115862069 01862069
[3] 008965517 009655172 -02344828
gt solve(c)d forma alternativa
[1] [2] [3]
[1] 051034483 -029655172 24344828
[2] 007586207 115862069 01862069
[3] 008965517 009655172 -02344828
112 Comandos cbind() e rbind()
E possıvel formar novas matrizes com as ja existentes usando a funcaocbind() e rbind() a primeira construı matrizes em colunas a segunda emlinhas
cbind(cd)
[1] [2] [3] [4] [5] [6]
[1] 3 5 1 2 5 8
[2] 2 7 5 2 8 5
[3] 4 2 9 3 2 8
rbind(cd)[1] [2] [3]
[1] 3 5 1
[2] 2 7 5
[3] 4 2 9
[4] 2 5 8
Castaneda Daniel F N 2013 14
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1543
113 Autovalores e autovetores 1 INICIANDO O R
[5] 2 8 5
[6] 3 2 8
cbind(1c)
[1] [2] [3] [4]
[1] 1 3 5 1
[2] 1 2 7 5
[3] 1 4 2 9
rbind(1d)
[1] [2] [3]
[1] 1 1 1
[2] 2 5 8
[3] 2 8 5
[4] 3 2 8
113 Autovalores e autovetores
ev=eigen(c) calcula autovalores e autovetores
ev
$values
[1] 13265694+0000000i 2867153+1646172i 2867153-1646172i
$vectors[1] [2] [3]
[1] 03799264+0i 07884141+00000000i 07884141+00000000i
[2] 06480231+0i 00745376+03051027i 00745376-03051027i
[3] 06600924+0i -04774265-02276482i -04774265+02276482
det(c)
[1] 145
det(d)
[1] -57
114 Data frame ou construtor de dados
Suponha um conjunto de dados com tres variaveis sexo (1=homem0=mulher) peso em quilogramas e salario em reais por dia de 12 indivıduosPara calcular a media o resumo de estatısticas descritivas e um grafico (plot)
Castaneda Daniel F N 2013 15
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1643
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1743
116 Func˜ ao readtable() 1 INICIANDO O R
attach(ind)
peso
[1] 67 60 62 69 54 59 57 67 60 65 59 55
salario
[1] 59 40 45 65 55 45 48 67 65 68 62 45
sex
[1] 1 0 0 1 0 0 0 1 1 1 1 0
detach(ind)
salario
Erro objeto rsquosalariorsquo n~ao encontrado
A funcao attach e detach pode ser usada no somente em arquivo dedados dos pacotes do R se nao tambem para listas e data frame
116 Funcao readtable()
Um amplo conjunto de arquivos com diferentes extensoes pode ser lidopor esta funcao
1161 Arquivos com extensao txt
Considere as seguintes variaveis x1 idade dos funcionarios x2 sexo
(1 homem 0 mulher) x3 anos de experiencia na funcao x4 estado civilx5 numero de filhos x6 nota de 0 minus 10 de um teste de avaliacao deconhecimento na sua area x7 teste psicotecnico de 0 a 50 x8 satisfacaocom a vida pessoal estes dados em bloco de notas com extensao txt obtidosde Mingoti 2005 Ver dados na integra no apendice
funcao=readtable(functxtheader=T)
funcao
grupo idade sexo ecivil nfilhos aexper tpsico tconhec satisf
1 0 24 1 1 0 2 77 360 1
2 0 29 1 1 0 4 79 360 13 0 38 1 0 1 6 86 408 0
107 0 24 1 1 0 2 73 360 0
108 0 27 1 0 0 3 74 360 1
109 1 42 1 0 2 14 99 440 1
Castaneda Daniel F N 2013 17
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1843
117 Script com extens˜ ao R 1 INICIANDO O R
Considere os dados de consumo de agua de uma residencia durante
o perıodo de 1205 a 0411 Com as seguintes variaveis valor em reaisconsumo em m3 dias de consumo e construindo o imovel (1sim 2nao)Dados proprios do autor Ver dados na integra no apendice
ca=readtable(consumoagua2txtheader=T) disponıvel em meus documentos
ca
dado valor consumo diasconsumo Construindo
1 1 1476 11 30 0
2 2 1347 10 31 0
64 64 3439 14 31 1
65 65 2221 11 32 0
Observacao use o comando choose() para escolher um conjunto dedados de um diretorio especifico no computador podemos usar
datalt-readtable(filechoose()header=T)
117 Script com extensao R
Exemplo com extensao R lida por readtable com dados do proprio R
exemplo=readtable(filechoose()header=T) dadosrR em aula 3exemplo
dado valor
1 1 115
2 2 117
3 3 118
4 4 119
5 5 127
118 Funcao scan()
A funcao scan tambem pode incluir elementos no R
scan()
1 12
2 13
3 14
Castaneda Daniel F N 2013 18
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1943
119 Func˜ ao sample 1 INICIANDO O R
4 15
5
Read 4 items
[1] 12 13 14 15
Use a funcao scan() para ingressar dados diretamente na plataforma R
119 Funcao sample
Usa-se para escolher aleatoriamente uma amostra de um conjunto deobservacoes ou uma base de dados Como exemplo considere uma amostrade 8 observacoes dos primeiros 20 do banco de dados de consumo de agua
(ca)setseed(10)
ca20=ca[sample(1208)]
ca20
dado valor consumo diasconsumo Construindo
11 11 3153 16 31 1
6 6 1347 10 32 0
8 8 1347 10 30 0
12 12 3755 18 32 1
2 2 1347 10 31 0
4 4 5275 22 33 1
15 15 3755 18 32 0
14 14 1648 11 30 0
120 Rcmdr
Para importar dados do SPSS STATISTICA MINITAB EXCEL TXTetc podemos usar o pacote livre Rcmdr ja disponıvel na biblioteca
library(Rcmdr)
este pacote trabalha via janelas para maior comodidade
121 Dados disponıveis no R
R possuı mais de 100 conjunto de dados alocados no pacote dataset quepodem ser chamados diretamente ( sem extensao) com a funcao data
data()
Castaneda Daniel F N 2013 19
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2043
122 Modificando e editando dados 1 INICIANDO O R
No R pode-se acessar a conjunto de dados de outros pacotes disponıveis
na sua biblioteca Se por acaso esta instalado o pacote lmtest o conjuntode dados ativo neste pacote pode ser chamado da seguinte maneira
data(package=lmtest)
122 Modificando e editando dados
Considere o conjunto de dados anterior Para modificar este conjuntosera disponibilizado uma tela de editor de dados a seguir
xnovo=edit(wagespackage=lmtest)
Para editar um conjunto de dados novo podemos usar a funcao edit daseguinte forma
xn=edit(dataframe())
123 Exportando dados do R para o Excel
Para exportar uma coluna de dados por exemplo o valor pago no con-sumo de agua executamos no R
writeClipboard(ascharacter(valor))
Na tela do Excel usar o comando colar Suponha que esta interessadoem exportar o conjunto de dados ca consumo de agua numa residenciadisponıveis no R para transferir este conjunto de dados use o seguintecomando
writetable(caclipboardsep=tcolnames=NA)
Na tela do Excel faca Ctrl+V ou um click em colar
124 Funcoes apply tapply sapply e lapply
A funcao apply calcula medidas estatısticas por linhas ou por colunas
e a funcao sapply calcula apenas por coluna A diferenca da funcao applyda funcao tapply e que esta ultima calcula medidas estatısticas por estratosConsidere os dados de consumo de agua de uma residencia
apply(ca2mean)
dado valor consumo diasconsumo Construindo
330000000 255690769 126153846 307076923 02615385
Castaneda Daniel F N 2013 20
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2143
125 Distribuic˜ oes de probabilidade 1 INICIANDO O R
tapply(valorConstruindomean)
0 1
2115271 3803882
sapply(camean)
dado valor consumo diasconsumo Construindo
330000000 255690769 126153846 307076923 02615385
lapply(camean) verificar
125 Distribuicoes de probabilidade
R proporciona uma serie de funcoes para variaveis aleatorias estatısticasconhecidas dentro destas funcoes temos distribuicao aleatorizacao proba-
bilidade e quantidadeDistribuicao nome no R argumentos adicionaisbeta beta shape1shap2npcbinomial binom sizeprobcauchy cauchy locationscalechi-quadrado chisq dfnpcexponencial exp rateF f df1df2npcgamma gamma shapescalegeometric geom probhypergeometric hyper mnk
log-normal lnorm meanlogsdloglogistic logis locationscalenegativa binomial nbinom sizeprobnormal norm meansdpoisson pois lambdat-student t dfncpuniforme unif minmaxweibull weibull shapescalewilcoxon wilcoxon mn
Nomes iniciando com ldquodrdquocalculara a densidade da funcao ldquoprdquoparacalcular a probabilidade ou funcao acumulada ldquoqrdquopara o valor quantılico eldquorrdquopara simulacao de numeros aleatoriosExemplos
rpois(105) 10 numeros aleatorios da dist poisson com parametro 5
[1] 3 2 3 1 8 6 1 3 2 3
Castaneda Daniel F N 2013 21
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2243
126 Algoritmos de programac˜ ao no R 1 INICIANDO O R
rnorm(5) 5 numeros aleatorios da normal padr~ao
[1] 004659011 -005019082 -128753167 115411245 -137573809
qt(09550) valor quantilico da t com 50 gl
[1] 1675905
qchisq(0951) valor da qui-quadrado
com 95 de confianc a e 1 g l
[1] 3841459
dpois(45) densidade da dist poisson x=4 parametro=5
[1] 01754674
ppois(45) P(xlt=4) parametro=5
[1] 04404933
126 Algoritmos de programacao no R
R e uma linguagem de programacao orientada a objetos que alem de ana-lisar dados tem sua propria programacao aqui usaremos esta programacaopara analises de estatısticas e econometria Para maiores detalhes podemospesquisar em Venables and Ripley (2000 e 2002) Voce pode estender afuncionalidade do R criando novas funcoes ou programando por exemplo
medianamediarazao lt- function(x)
return(median(x)mean(x))
setseed(20)
z = rexp(10000)
medianamediarazao(z)
[1] 06925193
Construindo a mediana
mediana=function(x)
oddeven=length(x)2
if (oddeven == 0) (sort(x)[length(x)2]+sort(x)[1+ length(x)2])2
else sort(x)[ceiling(length(x)2)]
Construindo a media geometrica
mediageometrica = function (x) exp(mean(log(x)))
Construindo a media harmonica
Castaneda Daniel F N 2013 22
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2343
126 Algoritmos de programac˜ ao no R 1 INICIANDO O R
mediaharmonica=function (x) 1mean(1x)
Um algoritmo que envolva as medidas de tendencia central
medidascentrais = function(y medida)
switch(medida
media = mean(y)
mgeometrica = exp(mean(log(y)))
mharmonica = 1mean(1y)
mediana = median(y)
stop(Medida n~ao inclusa))
medidascentrais(ymedia)
Gerando uma distribuicao uniforme para o lancamento de um dado
ndado=function(x) return(round(runif(x)6+05))
hist(ndado(100000)
Com o comando sample podemos realizar este mesmo experimento daseguinte maneira
gerando=sample(16 100000 replace=TRUE)
hist(gerando)
Considere o seguinte objeto c
c=c(122715365)
Para determinar que classe de objeto e o vetor c podemos identificarusando os seguintes comandos
ischaracter(c)
[1] FALSE
isnumeric(c)
[1] TRUE
A este objeto c podemos a signar nome a cada valor definido da seguinteforma
names(c)=c(abcdef)
c
a b c d e f
10 22 70 150 30 65
Castaneda Daniel F N 2013 23
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2443
127 Lacos no R 1 INICIANDO O R
Podemos associar uma comparacao logica com o vetor c da seguinte
forma
cgt3
a b c d e f
FALSE FALSE TRUE TRUE FALSE TRUE
Quando estamos diante de uma matriz podemos definir os nomes dascolunas com colnames() e os nomes das linhas com rownames() veja oexemplo
d=matrix(c(223582858)33)
colnames(d)=c(c1c2c3)
rownames(d)=c(1o2o3o)
d
c1 c2 c3
1o 2 5 8
2o 2 8 5
3o 3 2 8
A matriz d e entendida como um conjunto de dados que podem serassociados as linhas e as colunas Para determinar se ha associacao entrelinhas e colunas o teste utilizado pode se o qui-quadrado com a funcaochisqtest()
127 Lacos no R
Em algumas situacoes variaveis contınuas podem ser transformadas em variaveisordinais ou dummy para realizar estas operacoes o R proporciona varioslacos como else if ou ifelseExemplo para construir variaveis binarias considere o consumo de aguaonde consumo menor ou igual a 10 m3 e zero e acima de 10 m3 e 1 Ovalor de consumo sendo zero se o valor e menor ou igual a 20 reais e 1 casocontrario
consumoc=numeric(length(consumo))
for(i in 1length(consumo))if (consumo[i]lt=10) consumoc[i]=0
else consumoc[i]=1
valorc=numeric(length(valor))
for(i in 1length(valor))if (valor[i]lt=20) valorc[i]=0 else valorc[i]=1
Castaneda Daniel F N 2013 24
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2543
128 A func˜ ao cut() 1 INICIANDO O R
Nota Podemos construir os lacos considerando a condicao como texto
exemplo consumoc[i]=rdquo[0minus 10]rdquo Comando alternativo de construcao
consumoc2=ifelse(consumolt=10[0-10]Acima de 10)
valorc2=ifelse(valorlt=20[0-20]Acima de 20)
limitacao deste laco e que utilizado apenas para duas condicoes Para lacoscom mais de duas condicoes podemos usar os seguintes comandos
valorc3=numeric(length(valor))
for(i in 1length(valor))if (valor[i]lt20) valorc3[i]=[0-20)
else if (valor[i]lt30)
valorc3[i]=[20-30) else valorc3[i]=[30 a +
table(valorc3)
128 A funcao cut()
Alguma funcoes usam lacos para criar novas variaveis categoricas no exem-plo de valor pago em reais pelo consumo de agua podemos construir cate-gorias por quartis de 25 50 75 1 da seguinte maneira
q=cut(valorquantile(valor) includelowest=T)
table(q)
q
[135165] (165222] (222327] (327693]
17 16 16 16
Outras formas podem ser usando intervalos a criterio pessoal no exemplo aseguir consideramos com valor mınimo 13 e valor maximo 70 com amplitudedo intervalo de 19 e com classes fechadas no mınimo e aberto no maximo
valr=cut(valmseq(137019)right=Fincludeupper=T)
table(valr)
valr
[1332) [3251) [5170)
48 15 2
129 Criando funcoes Teste que compara duas medias
Como exemplo implementamos a estatıstica de comparacao de duasamostras independentes
Castaneda Daniel F N 2013 25
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2643
130 Coeficiente de regressao 1 INICIANDO O R
testeduas lt- function(y1 y2)
+ n1 lt- length(y1) n2 lt- length(y2)
+ yb1 lt- mean(y1) yb2 lt- mean(y2)
+ s1 lt- var(y1) s2 lt- var(y2)
+ s lt- ((n1-1)s1 + (n2-1)s2)(n1+n2-2)
+ tst lt- (yb1 - yb2)sqrt(s(1n1 + 1n2))
+ tst
+
x=runif(20)
y=rnorm(20)
testeduas(xy)
[1] 2874636
Uma forma alternativa e usando a funcao ttest()
ttest(xy)
Welch Two Sample t-test
data x and y
t = 28746 df = 21784 p-value = 0008858
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
01846283 11429380sample estimates
mean of x mean of y
05539270 -01098562
130 Coeficiente de regressao
Implementando o calculo da tangente (inclinacao) do coeficiente no mo-delo de regressao linear simples
mq1lt- function(X y)
+ X lt- qr(X)
+ qrcoef(X y)+
mq1(xy)
[1] -008755885
Castaneda Daniel F N 2013 26
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2743
131 Teste Qui- Quadrado 1 INICIANDO O R
131 Teste Qui- Quadrado
Util para associar linhas e colunas considere os dados em d com as se-guintes hipotesesH0 nao ha associacao entre linhas e colunasHa ha associacao entre linhas e colunas
chisqtest(d)
Pearsonrsquos Chi-squared test
data d
X-squared = 46497 df = 4 p-value = 03252
Warning message
In chisqtest(d) Aproximac~ao Qui-quadrado pode estar incorreta
Para um nıvel α = 0 05 de significancia podemos afirmar que nao haevidencias para afirmar que a associacao entre linhas e colunas (linhas ecolunas sao independentes) Um outro exemplo do uso da distribuicao Qui-quadrado e verificar se um conjunto de dados provem de uma determinadadistribuicao teorica
chisqtest(c)
Chi-squared test for given probabilities
data c
X-squared = 22549 df = 5 p-value = 00004116
Pelo p-value podemos afirmar que a 0 05 de significancia nao ha evi-dencias para afirmar que a distribuicao dos numeros em c sejam uniformesPara implementar este teste de associacao no exemplo de consumo de aguaconsiderando a classificacao mediante lacos (ver lacos no R) entre consumoce valorc temos
table(consumocvalorc)
valorc
consumoc 0 1
0 24 0
Castaneda Daniel F N 2013 27
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2843
132 Teste t - student 1 INICIANDO O R
1 3 38
chisqtest(consumocvalorc)$expected
chisqtest(consumocvalorc)$observed
chisqtest(consumocvalorc)
Pearsonrsquos Chi-squared test with Yatesrsquo continuity correction
data consumoc and valorc
X-squared = 498015 df = 1 p-value = 1701e-12
barplot(table(consumocvalorc) beside=T)
Concluimos que ha associacao entre consumo de agua e o valor pago em
reais
132 Teste t - student
O teste mais usado pelos estatısticos e util para comparar medias deduas amostras tanto independente como emparelhadasExemplo considere as exportacoes mensais (FOB-US) do Brasil durante osanos de 2009 minus 2010 Apos digitacao das observacoes temos
exp2009
[1] 9781920 9586406 11809225 12321617 11984585 14467785 14141930
[8] 13840850 13863222 14081686 12652892 14462624
exp2010[1] 1130507 1219724 1572750 1516121 1770250 1709391 1767292 1923625
[9] 1883279 1838042 1768733 2091814
H0 A medias anuais das exportacoes durante 2009 e 2010 e a mesmaHa CC
ttest(exp2009exp2010paired = FALSE)
Welch Two Sample t-test
data exp2009 and exp2010
t = -42813 df = 18202 p-value = 00004394
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-6075666 -2077757
sample estimates
mean of x mean of y
Castaneda Daniel F N 2013 28
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2943
133 Teste F 1 INICIANDO O R
1274956 1682627
Conclusao nao ha evidencias para aceitar que a media das exportacoesde 2009 e 2010 e a mesma
Quando um conjunto de dados e dado em formato de matriz (dataframe)podemos realizar o teste t de uma coluna em funcao da outra por exemplono consumo de agua queremos testar a hipotese nula H0 o valor de con-sumo de agua e o mesmo construindo ou nao versus a hipotese alternativaHa Caso contrario
attach(ca)
ttest(valor~Construindo)
Welch Two Sample t-test
data valor by Construindo
t = -58383 df = 21731 p-value = 7465e-06
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-2288867 -1088356
sample estimates
mean in group 0 mean in group 1
2115271 3803882
Concluımos que nao ha evidencias para aceitar que o valor de consumode agua e o mesmo quando estamos construindo ( p minus valor lt 005)
Exemplos adicionais podem ser comparando entre as variaveis clas-sificadas (ver secao de lacos) da seguinte forma
ttest(valor~consumoc)
ttest(consumo~valorc)
boxplot(consumo~valorc2 main=Consumo e valor pago em Reais)
boxplot(consumo~valorc3 main=Consumo e valor pago em Reais)
133 Teste F
Para determinar se ha a mesma variabilidade no valor de consumoquando estamos ou nao construindo utilizamos o teste F A hipotese nulae H0 O valor de consumo de agua tem a mesma variabilidade quandoconstruımos que quando nao construımos No R temos
Castaneda Daniel F N 2013 29
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3043
133 Teste F 1 INICIANDO O R
vartest(valor~Construindo)
F test to compare two variances
data valor by Construindo
F = 04834 num df = 47 denom df = 16 p-value = 005478
alternative hypothesis true ratio of variances is not equal to 1
95 percent confidence interval
0194815 1014916
sample estimates
ratio of variances
04834048
Concluımos que nao ha evidencias para rejeitar a hipotese nula por tanto
a variabilidade no valor de consumo e o mesmoO correspondente grafico (Box-plot) e apresentado a seguir
boxplot(valor~Construindo col=8 names=c(n~ao construc~ao construc~ao))
natildeo construccedilatildeo construccedilatildeo
2 0
3 0
4 0
5 0
6 0
7 0
Figura 4 Valor pago em reais no consumo de agua
Em alguns casos ha necessidade de identificar se a variabilidade dasexportacoes e a mesma comparando 2009 e 2010H0 As exportacoes de 2009 e 2010 tem a mesma variabilidade (dados men-sais coletados do site httpwwwipeadatagov)Ha CC
Castaneda Daniel F N 2013 30
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3143
134 Graficos 1 INICIANDO O R
vartest(exp2009exp2010)
F test to compare two variances
data exp2009 and exp2010
F = 03728 num df = 11 denom df = 11 p-value = 01166
alternative hypothesis true ratio of variances is not equal to 1
95 percent confidence interval
01073346 12951624
sample estimates
ratio of variances
03728482
Conclusao Nao houve mudancas na variabilidade das exportacoes de
2009 e 2010
134 Graficos
Considere os dados mensais das exportacoes do Brasil (FOB) durante2009 e 2010 para realizar um grafico de box-plot fazemos
boxplot(exp2009exp2010 main=exportac~oes do Brasil
names=c(20092010))
2009 2010
1 0 0 0 0
1 2 0 0 0
1 4 0 0 0
1 6 0 0 0
1 8 0 0 0
2 0
0 0 0
exportaccedilotildees do Brasil
Figura 5 Exportacoes FOB em dolares
Para o grafico da funcao acumulativa das exportacoes
plot(ecdf(exp2010) dopoint=FALSE verticals=TRUE
lty=3 xlim=c(1000023000))
lines(ecdf(exp2009) dopoint=FALSE verticals=TRUE
col=2)
Castaneda Daniel F N 2013 31
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3243
134 Graficos 1 INICIANDO O R
1 00 00 1 20 00 1 40 00 1 60 00 1 80 00 2 00 00 2 20 00
0 0
0 2
0 4
0 6
0 8
1 0
ecdf(exp2010)
x
F n ( x )
Figura 6 Funcao acumulada das exportacoes 2009-2010
Considere as exportacoes do Brasil um histograma e Q-Q plot sera
hist(exp main=Exportac~oes FOB-US col=8)
qqnorm(exp xlim=c(-55)ylim=c(-100021000))
qqline(exp)
Exportaccedilotildees FOBminusUS$
exp
F r e q u e n c y
0 5000 10000 15000 20000
0
5 0
1 0 0
1 5 0
minus4 minus2 0 2 4
0
5 0 0 0
1 0 0 0 0
1 5 0 0 0
2 0 0 0 0
Normal QminusQ Plot
Theoretical Quantiles
S a m p l e Q u a n t i l e s
Figura 7 Graficos das Exportacoes no Brasil 2001-2010
Para ativar alguns graficos pacotes sao necessarios exemplo
library(MASS)
Castaneda Daniel F N 2013 32
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3343
134 Graficos 1 INICIANDO O R
par(mfrow=c(21))
z = rnorm(500000)
hist(z prob=T)
curve(dnorm(x)add=T)
histscott(z prob=T)
Histogram of z
z
D e n s i t y
minus4 minus2 0 2 4
0 0
0 2
Histogram of x
z
D e n s i t y
minus4 minus2 0 2 4
0 0
0 2
0 4
Figura 8 Histograma de numeros aleatorios normais
boxcox(dist~speed data=cars) transformac~ao Box-Cox
minus2 minus1 0 1 2
minus 4 0 0
minus 3 5 0
minus 3 0 0
minus 2 5 0
λ
l o g minus
L i k e l i h o o d
95
Figura 9 Valor otimo na transformacao Box-Cox
Castaneda Daniel F N 2013 33
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3443
135 Tabelas 1 INICIANDO O R
Para ter um alcance maior sobre a capacidade grafica do R podemos
usar as seguintes funcoes
demo(graphics)
demo(image)
demo(persp)
demo(recursion)
demo(plotmath)
demo(package = packages(allavailable = TRUE))
135 Tabelas
Algumas tabelas estatısticas podem ser construıdas com a funcao table()estado=c(PBPEALSEBAMGESRJPBPEAL
SEBAMGESRJPBPEALSEBAMGESRJ
PBPEALSEBAMGESRJ)
estadof=factor(estado)
estadof
[1] PB PE AL SE BA MG ES RJ PB PE AL SE BA MG ES RJ PB PE AL SE BA
[22] MG ES RJ PB PE AL SE BA MG ES RJ
Levels AL BA ES MG PB PE RJ SE
setseed(10)
salarios=c(round(runif(32)100))
salarios
[1] 51 31 43 69 9 23 27 27 62 43 65 57 11 60 36 43 5 26 40 84 86 62 78 36 41
[26] 71 84 24 77 36 54 9
salariom=tapply(salariosestadofmean)
salariom
AL BA ES MG PB PE RJ SE
5800 4575 4875 4525 3975 4275 2875 5850
salariof=factor(cut(salariosbreaks=0+15(07)))
salariof
[1] (4560] (3045] (3045] (6075] (015] (1530] (1530] (1530] (6075]
[10] (3045] (6075] (4560] (015] (4560] (3045] (3045] (015] (1530]
[19] (3045] (7590] (7590] (6075] (7590] (3045] (3045] (6075] (7590]
[28] (1530] (7590] (3045] (4560] (015]
Levels (015] (1530] (3045] (4560] (6075] (7590]
table(salariofestadof)
estadof
Castaneda Daniel F N 2013 34
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3543
136 Comandos adicionais 2 R E ECONOMETRIA
salariof AL BA ES MG PB PE RJ SE
(015] 0 2 0 0 1 0 1 0
(1530] 0 0 1 1 0 1 1 1
(3045] 2 0 1 1 1 2 2 0
(4560] 0 0 1 1 1 0 0 1
(6075] 1 0 0 1 1 1 0 1
(7590] 1 2 1 0 0 0 0 1
table(salariofestadof)
estadof
salariof AL BA ES MG PB PE RJ SE
(015] 1 1 0 0 1 0 1 2
(1530] 0 0 1 1 0 0 1 1
(3045] 0 0 2 0 0 1 0 0
(4560] 2 0 1 0 0 1 0 0
(6075] 0 1 0 2 3 0 1 0
(7590] 0 1 0 1 0 2 0 1
(90105] 0 1 0 0 0 0 1 0
136 Comandos adicionais
Em situacoes onde a ausencia de informacao ou dados faltantes(missing)as funcoes do R precisam declarar esta ausencia com o comando narm=T
indicando que a informacao apresenta dados faltantes Exemplo
df=c(2NA58NA) O ultimo elemento esta ausente
mean(f) Comando padr~ao para calcular a media
[1] NA
mean(fnarm=T) Comando declarando a ausencia de elementos
[1] 5
2 R e Econometria
Dados economicos precisam de uma atencao matematica para dar fun-
damento a suas teorias Atualmente pelo avanco computacional nao habarreiras para serem aplicadas e torna-se ate divertida se definimos a plata-forma de trabalho computacional A econometria requer de uma abordagemdiferenciada pois faz uso de da teoria economica economia matematica es-tatıstica economica estatıstica matematica e inferencia estatıstica Esta
Castaneda Daniel F N 2013 35
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3643
21 Tipos de Dados 2 R E ECONOMETRIA
disciplina aproxima a Estatıstica da Economia onde a teoria economica for-
mula as hipoteses Por exemplo uma reducao de precos de uma mercadoriadevera aumentar a quantidade demandada dessa mercadoria considerandouma relacao inversa entre preco e quantidade demandada ou a despesa deconsumo per capita depende da renda per capita considerando uma relacaodireta ou seja a medida que a renda aumenta a despesa tende a aumentarOutro exemplo onde consideremos a area microeconomica consumo de aguade uma residencia e o valor pago e natural imaginar que ha uma relacaodireta entre consumo e valor pago pelo consumo Porem precisamos saberqual e quanto e esta forca de relacao por tanto o econometrista forneceesta informacao usando a inferencia estatıstica e a estatıstica economicaAs estimativas de esta relacao fica por conta de estatıstica matematica
Para completar e cerrar este circulo de disciplinas abordadas na Econo-metria precisamos utilizar uma ferramenta de calculo computacional quebrinde estabilidade precisao e rapidez nos seus resultados para superartudo isto utilizaremos o ambiente R A econometria surge como uma disci-plina autonoma em virtude de aglutinar todas estas areas do conhecimentomerecendo um estudo proprio
21 Tipos de Dados
Os tipos de dados sao
1 Dados de corte transversal (cross-section) sao dados de uma ou maisvariaveis coletadas no mesmo ponto do tempo Por exemplo os censosno Brasil sao coletados num instante do tempo No censo variaveisdemograficas sao exploradas como contagem da populacao numerode indivıduos em cada famılia idade dos integrantes da famılia ouvariaveis economicas como renda consumo tipo de moradia (alugadaou propria) etc estes dados sao adquiridas a cada decada pelo IBGE
2 Dados longitudinais ou de series temporais sao caracterizadas porobservacoes ao longo do tempo No Brasil um site que disponibilizadados desta natureza e o IPEADATA
3 Dados de painel e uma mistura de dados de corte transversal e longi-tudinais ou ao longo do tempo estudamos o comportamento de unida-des individuais Por exemplo series mensal do ındice de precos serieanuais do produto interno bruto (PIB) ou serie anual da balanca co-mercial dos municıpios do Brasil considerando cada municıpio comounidades individuais
Castaneda Daniel F N 2013 36
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3743
22 Metodologia 2 R E ECONOMETRIA
22 Metodologia
Os passos da metodologia econometrica tradicional ou classica se iniciadesde a formulacao da hipotese ate as conclusoes em geral sao
221 Hipotese
Como referencia usaremos a hipotese nula H 0 a qual nulifica qualquerdiferenca e a hipoteses alternativa H a aquela que contradiz total ou par-cialmente a hipotese nula Exemplo
1 H 0 nao existe uma relacao entre consumo de agua e valor pago pela
mesma
2 Ha existe uma relacao entre consumo de agua e valor pago pelamesma
A hipotese alternativa pode ser dividida em tres possibilidades no exem-plo do consumo de agua pode ser dividida em existe alguma relacao oua relacao e negativa ou a relacao e positiva A primeira denomina-se dehipotese alternativa com teste bicaudal o segundo de teste unicaudal a es-querda e finalmente o ultimo com teste unicaudal a direita Nosso exemploconsidere H a existe alguma relacao (teste bicaudal)
222 Modelo matematico
Usaremos uma funcao de consumo simples
Y = β 1 + β 2X (11)
A variavel dependente Y valor pago pelo consumo e estimado por Y A variavel independente e X consumo de agua em m3 β 1 representa ovalor pago quando nao ha consumo de agua Nosso interesse e determinara tangente ou a variacao pelo consumo β 2
223 Modelo econometrico do valor pago
O modelo matematico fornece a relacao determinıstica entre valor pagoem reais e consumo de agua porem as relacoes entre as variaveis economicassao em geral inexatas Assim ao longo do tempo no podemos esperar que ovalor pago e o consumo em m3 se situem exatamente numa linha reta isto
Castaneda Daniel F N 2013 37
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3843
22 Metodologia 2 R E ECONOMETRIA
por que alem do consumo outras variaveis afetam o valor pago por exemplo
os dias de consumo o perıodo de reforma da casa ou a inflacao podendoalterar o valor pago pelo consumo
224 Nıvel de significancia
Denominado de α frequentemente usa-se α = 005 em situacoes derisco usa-se α = 001 Em testes bicaudais divide-se α em duas partes elocalizam-se nos extremos da distribuicao de prova Para testes unicaudaislocaliza-se no extremo da distribuicao indicada pela hipotese alternativaNosso exemplo α = 005 e por tanto α2 = 0025
225 Obtencao de Dados
Considere 65 observacoes (mes a mes) do consumo de agua em umaresidencia e o valor pago em reais durante o perıodo de 122005 a 042011Ver dados no apendice A Um plot e apresentado a seguir
10 15 20
2 0
3 0
4 0
5 0
6 0
7 0
Valor pago em reais de consumo de aacutegua
Variaacutevel independenteConsumo em m3
V a r i aacute v e l d e p e n d e n t e V a l o r p a g o
Y = minus12365+3007X
Figura 10 Relacao causal entre consumo e valor pago em reais
Podemos observar visualmente que ha uma relacao positiva entre valorpago e consumo de agua onde a variacao pelo consumo ou variacao dovalor pago (tangente) β 2 cresce positivamente Precisamos verificar se estavariacao β 2 e estatisticamente diferente de zero (significativa)
Castaneda Daniel F N 2013 38
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3943
22 Metodologia 2 R E ECONOMETRIA
226 Estatıstica de prova
Denominada de funcao pivo ou estatıstica de teste No ambito pa-rametrico usa-se as estatısticas t student (amostras pequenas) quando ne grande e indiferente o uso da t student ou normal No exemplo para tes-tar qual a inclinacao da variacao pelo consumo de agua usamos a seguinteestatıstica
t0 =β 2
dp(β 2)asymp tnminus2gl (12)
onde t0 e o valor calculado da estatıstica t β 2 e a estimativa do parametro(variacao pelo consumo) β 2 dp(β 2) e o desvio padrao da estimativa doparametro β 2 o valor t0 segue uma distribuicao t-student com nminus2 graus deliberdade(gl) Os graus de liberdade e calculado diferenciando o tamanhoda amostra com o numero de parametro do modelo (n-p) O valor quantılicotnminus2gl(0025) corresponde a distribuicao t-student com 0025 de significanciacom n minus 2 graus de liberdade e n e o numero total de observacoes Nossoexemplo β 2 = 3007 e dp(β 2) = 013 por tanto t0 = 2313 e comparadocom o valor da tabela da t-student com 63 gl e com α2 = 0025 sendo estevalor igual 19983
227 Tipos de erro
Ocorre o erro tipo I (α) ao se rejeitar a hipotese de nulidade quandodeveria aceita-la Por outro lado quando se aceita a hipotese de nulidadequando deveria rejeita-la comete-se o erro tipo II (β ) Nas duas situacoestomou-se uma decisao errada O interesse e a minimizacao dos erros tipo Ie II que na pratica so e possıvel aumentando-se o tamanho da amostra Porrazoes diversas o aumento do tamanho da amostra muitas vezes torna-se im-praticavel A gravidade do erro tipo I e distinta da do erro tipo II quando seconsegue identificar o erro mais grave a opcao e a minimizacao deste poremquando a probabilidade de ocorrencia de um tipo de erro diminui a do outroaumenta e vice versa Podemos observar este criterio na seguinte tabela
Nao rejeita rejeitaH0 verdadeira Correto (1 minus α) Erro do tipo I (α)H0 falsa Erro do tipo II (β ) Correto (1minus β )
Castaneda Daniel F N 2013 39
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4043
22 Metodologia 2 R E ECONOMETRIA
228 Regra de Decisao
Os pacotes ou plataformas estatısticas apresentam o valor observado dafuncao pivo e o p minus valor (Area de probabilidade esta relacionada comonıvel de significancia) assim a funcao pivo apresenta o valor numerico nafuncao de densidade da Estatıstica exemplo dentro da densidade da normalQuando o pvalor e menor do que α = 005 no caso do teste unicaudal (eα = 0025 no caso bicaudal) concluımos que nao ha evidencia suficiente paraaceitar H0 Caso contrario se o p minus valor for maior que α = 005 podemosconcluir que nao ha evidencia suficiente para rejeitar H0 Nosso exemplot0 = 2313 gt 1998 (1998 e valor da distribuicao t com 63 gl e nıvel designificancia bicaudal de 005) este valor localiza-se na cauda positiva da
distribuicao com 63 graus de liberdade(n minus 2 = 65 minus 2) Por outro lado o pminus valor lt 0025 por tanto nao ha evidencias para aceitar H0 em favor deaceitar que o coeficiente de inclinacao (ou tangente) e positiva No recorrerdo livro usaremos codigos para as medidas do pminusvalor que em geral apareceem todo comando summary() Como consequencia a linha que aparece aseguir sera excluıda das saıdas do R
Signif codes 0 0001 001 005 01 1
sera interpretada da seguinte maneira
bull 0 significancia menor que 0001
bull 0001 significancia menor que 001
bull 001 significancia menor que 005
bull 005 significancia menor que 01
bull 01 significancia menor que 1
229 Conclusoes
Esta parte do teste de hipoteses e explicada em conjunto O Estatıstico eo Economista que sao os profissionais da area em que as observacoes foramcoletadas decidem sobre as providencias futuras No exemplo podemosafirmar que a cada metro cubico a mais de consumo de agua sera pago emmedia 3 reais a mais No momento este valor pago pode parecer alto poremna falta de este liquido elementar este valor pode aumentar e por tantosofrera mudancas
Castaneda Daniel F N 2013 40
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4143
23 Previs˜ oes 2 R E ECONOMETRIA
23 Previsoes
Muitas vezes estamos interessados em determinar o que acontece quandouma quantidade de consumo de agua em m3 e utilizada e qual o valor pagoem reais Por exemplo se nosso interesse e saber quanto sera pago por 20m3
de consumo de agua em uma residencia A conta a realizar eValor pago = minus12365 + 3007 lowast 20 = 47775 reaisA interpretacao deste valor e em media o valor pago em reais por 20m3 deagua consumida e de aproximadamente 478 reais
231 Resıduos
Uma questao fundamental em econometria e identificar o comportamentodos resıduos de um modelo Considere Y o valor real pago e Y valor pagoestimado a partir de um modelo entao este erro e aleatorio e definido por
ϵi = Y i minus Y i (13)
A abordagem mais formal dos erros e feita nos proximos capıtulosUma questao importante e determinar qual o comportamento da estima-tiva destes erros aos quais chamamos de resıduos Para determinar a nor-malidade dos resıduos realizamos o teste de Jarque Bera com a funcao
jarqueberatest() da biblioteca tseries com o seguinte grafico
minus2 minus1 0 1 2
minus 5
0
5
1 0
resiacuteduos do modelo valor= f(consumo)
Theoretical Quantiles
S a m p l e Q u a n t i l e s
Figura 11 Normalidade dos resıduos
Castaneda Daniel F N 2013 41
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4243
24 Exercıcios REFER ENCIAS
24 Exercıcios
1 Por que a econometria precisa ser uma disciplina autonoma
2 Que e econometria
3 Pesquise dados de corte transversal corte longitudinal e de painel
4 Construa uma metodologia econometrica para o consumo familiar emfuncao da renda familiar (linear)
5 No item anterior e possıvel encontrar uma relacao quadratica
6 Quais sao os pressupostos basicos de um modelo de regressao linear
simples
7 Como e chamado o parametro de inclinacao ou tangente num modelode regressao linear simples em econometria
8 Que e o projeto R
9 R e um programa econometrico
Referencias
[1] Albert Jim (2009) Bayesian computation with R Editora SpringerSecond Edition New York USA
[2] Borde Arvind (1992) TEX by example A beginneracutes guide Ed Aca-demic Press Professional United States of America
[3] Carneiro Orlando (1997) Econometria Bacute asica Teoria e Aplicac˜ oes Editora Atlas Segunda Edicao son Paulo
[4] Conover W J (1999) Practical nonparametric statistics 3ed NewYork
[5] Cribari Neto F (2002) C for Econometricians conputational Econo-
mics 14 p135-149
[6] Dalgaard Peter(2008) Introductory Statistics with R Editora SpringerSecond Edition New York USA
[7] Ehlers Ricardo(2007) Analise de series Temporais Universidade Fe-deral do Parana
Castaneda Daniel F N 2013 42
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4343
REFER ENCIAS REFER ENCIAS
[8] Frery Alejandro Cribari-Neto Francisco(2011)Elementos de
Estatıstica conputacional Usando Plataformas de Software Li-vreGratuito Publicacoes Matematicas Editora IMPA
[9] Gujarati Damodar N (2000) Econometria Bacute asica Makron Books Ter-ceira Edicao son Paulo
[10] Knuth DE (1981)The Art of conputer Programming Third EditionVolume 2 Seminumerical Algorithms Addison-Wesley Publishingconpany Massachusetts
[11] Korgi Rodrigo de Castro (2003) El universo LAT E X Editora Facultadde Ciencias Segunda Edicao Bogota
[12] Krawczyk H How to Predict Congruential Generators InJournal of Algorithms V 13 N 4 1992
[13] LrsquoEcuyer P (2001) Software for uniform random number generationdistinguishing the good and the bad In Proceedings of the 2001 WinterSimulation Conference
[14] Maindonald John Braun W John(2010) Data analysis and graphics using R an example-based approach Cambridge University Press NewYork USA
[15] Mingoti(2005)Analise De Dados Atraves De Metodos De Estatistica Multivariada - Uma Abordagem Aplicada Editora UFMG Belo Hori-zonte
Castaneda Daniel F N 2013 43
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 743
14 Func˜ oes estatısticas 1 INICIANDO O R
14 Funcoes estatısticas
gt max(x) valor maximo de x
gt min(x) valor mınimo de x
gt sum(x) soma total dos valores de x
gt mean(x) media aritmetica de x
gt median(x) mediana de x
gt range(x) vetor de mınimo e maximo de x
gt summary(x) resumo de estatısticas de locac~ao de x
gt var(x) variancia de x
gt cor(xy) correlac~a o d e x e y
gt sort(x) ordena em forma crescente os elementos de x
gt rank(x) vector de filas em xgt order(x) valores originais de x
gt quantile(x) vetor contendo os quartis de x
gt cumsum(x) vetor contendo a suma total elemento a elemento
gt cumprod(x) vetor contendo o produto elemento a elemento
gt cummax(x) vetor n~ao decrescente de x substituindo valores
gt cummin(x) vetor n~ao crescente de x substitui os valores
pelo mınimo
gt pmax(xyz) vetor contendo o vetor maior entre x y ou z e
substituindo o maximo em cada posic~ao
gt pmin(xyz) vetor contendo o vetor maior entre x y ou z
e substituindo o mınimo em cada posic~aogt colMeans(x) calcula a media por colunas na matriz x
gt colSums(x) calcula os totais por coluna na matriz x
gt rowMeans(x) calcula a media por linhas na matriz x
gt rowSums(x) calcula os totais por linhas na matriz x
15 Cores
O R disponibiliza cores usando a funcao palette() com 8 cores outrafuncao e colours() e que tambem podem ser identificados por um numero
ja especificado por exemplo
teta=(120)092plot(tetasin(teta) col=red pch=16cex=2) ou
plot(tetasin(teta) col=2 pch=16cex=2)
Onde cex representa o caracter de expansao da bolinha (quanto maior onumero maior a bolinha) Para incrementar varias cores no mesmo graficopodemos realizar o seguinte comando
Castaneda Daniel F N 2013 7
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 843
16 Fatores ordenados e desordenados 1 INICIANDO O R
plot(tetasin(teta) col=120 pch=16cex=2)
Para modificar a bolinha apenas modificamos pch
plot(tetasin(teta) col=120 pch=+cex=2)
Cores podem tambem ser incrementadas fora do corpo do grafico
plot(tetasin(teta) main=seno colmain=4 col=120 pch=+cex=2)
Outras alteracoes de cores podem ser construıdas com
colmain cor para o tıtulo do grafico
colaxis cor para os numeros dos eixos
collab cor para os tıtulos dos eixoscolsub cor para o subtıtulo do grafico
A fonte pode ser alterada da seguinte maneira
fontmain fonte para o tıtulo do grafico
fontaxis fonte para os numeros dos eixos
fontlab fonte para os tıtulos dos eixos
fontsub fonte para o subtıtulo do grafico
Onde 1 e texto normal 2 preto 3 italico 4 preto italico para simbolofonte A orientacao dos numeros pode ser alterada com o comando las= onde 1 horizontal a x 2 perpendicular a x 3 perpendicular a ambos eixos)
16 Fatores ordenados e desordenados
exemplo
estados=c(PEALSEBAPBBAPBALSEBAPB
+ SE BASEBA)
estadosf=factor(estados)
estadosf
[1] PE AL SE BA PB BA PB AL SE BA PB SE BA SE BA
Levels AL BA PB PE SE
levels(estadosf)[1] AL BA PB PE SE
salarios=c(604959564948565960696658475868)
A funcao tapply e usada para reordenar vetores calculando uma carac-terıstica dos nıveis no exemplo suponha que os salarios medio e o desviopadrao por cada trabalhador por dia nos estados seja dado a seguir
Castaneda Daniel F N 2013 8
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 943
17 Vetores e Matrizes 1 INICIANDO O R
mestados=tapply(salariosestadosfmean) media
mestados
AL BA PB PE SE
5400 5760 5700 6000 5875
destados=tapply(salariosestadosfsd) desvio padr~ao
destados
AL BA PB PE SE
70710678 105498815 85440037 NA 09574271
Construımos a funcao do coeficiente de variacao de duas formas distintase incluımos no comando tapply
cv=function(x) sd(x)100mean(x)cvestados=tapply(salariosestadosfcv)
cvestados
AL BA PB PE SE
13094570 18315767 14989480 NA 1629663
cv=function(x) sqrt(var(x))100mean(x)
cvestados=tapply(salariosestadosfcv)
cvestados
AL BA PB PE SE
13094570 18315767 14989480 NA 1629663
17 Vetores e Matrizes
Um vetor pode ser considerado como a entrada de uma colecao de dadossendo estes numericos ou nao R facilita a manipulacao e construcao de veto-res e matrizes Considere a construcao de 30 numeros aleatorios Uniformesem duas matrizes de 3 linhas por 5 colunas
z=runif(30)
dim(z)=c(352)
z
1
[1] [2] [3] [4] [5]
[1] 09500783 09262226 005847740 034257312 03718370
[2] 08591887 07057183 020592054 003569694 06709746
[3] 06806468 06270572 001570158 021650180 05170189
Castaneda Daniel F N 2013 9
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1043
18 Indexando matrizes 1 INICIANDO O R
2
[1] [2] [3] [4] [5]
[1] 03539723 05918548 037104534 02148440 04169542
[2] 08895178 05751237 069399721 03808024 03872492
[3] 08036340 07065130 003400331 01593949 02306890
18 Indexando matrizes
x=array(120dim=c(45))
x
[1] [2] [3] [4] [5]
[1] 1 5 9 13 17[2] 2 6 10 14 18
[3] 3 7 11 15 19
[4] 4 8 12 16 20
i=array(c(1331)dim=c(32))
i
[1] [2]
[1] 1 3
[2] 2 2
[3] 3 1
gt x[i][ 1 ] 9 6 3
x[13]=9 x[22]=6 x[31]=3
O ındice i indica os valores da matriz x a serem extraıdos temos
x[i]=0 Substituımos x[i] por zero
x
[1] [2] [3] [4] [5]
[1] 1 5 0 13 17
[2] 2 0 10 14 18[3] 0 7 11 15 19
[4] 4 8 12 16 20
Construindo uma matriz 3 times 3 com elementos de 1 ao 9
c=matrix(c(19)33)
Castaneda Daniel F N 2013 10
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1143
19 Sequencias 1 INICIANDO O R
c
[1] [2] [3]
[1] 1 4 7
[2] 2 5 8
[3] 3 6 9
19 Sequencias
Sequencias sao construıdas ingressando o primeiro elemento o ultimoelemento e o espacamento
b=seq(1014 by=5)
b[1] 100 105 110 115 120 125 130 135 140
a=seq(19)
ab=ab multiplicando vetores
ab
[1]
[1] 570
ab=outer(ab)
ab
[1] [2] [3] [4] [5] [6] [7] [8] [9]
[1] 10 105 11 115 12 125 13 135 14
[2] 20 210 22 230 24 250 26 270 28[3] 30 315 33 345 36 375 39 405 42
[4] 40 420 44 460 48 500 52 540 56
[5] 50 525 55 575 60 625 65 675 70
[6] 60 630 66 690 72 750 78 810 84
[7] 70 735 77 805 84 875 91 945 98
[8] 80 840 88 920 96 1000 104 1080 112
[9] 90 945 99 1035 108 1125 117 1215 126
ab=at(b)
ab
[1] [2] [3] [4] [5] [6] [7] [8] [9][1] 10 105 11 115 12 125 13 135 14
[2] 20 210 22 230 24 250 26 270 28
[3] 30 315 33 345 36 375 39 405 42
[4] 40 420 44 460 48 500 52 540 56
[5] 50 525 55 575 60 625 65 675 70
Castaneda Daniel F N 2013 11
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1243
110 Multiplicando matrizes 1 INICIANDO O R
[6] 60 630 66 690 72 750 78 810 84
[7] 70 735 77 805 84 875 91 945 98
[8] 80 840 88 920 96 1000 104 1080 112
[9] 90 945 99 1035 108 1125 117 1215 126
d=outer(0909)
d
[1] [2] [3] [4] [5] [6] [7] [8] [9] [10]
[1] 0 0 0 0 0 0 0 0 0 0
[2] 0 1 2 3 4 5 6 7 8 9
[3] 0 2 4 6 8 10 12 14 16 18
[4] 0 3 6 9 12 15 18 21 24 27
[5] 0 4 8 12 16 20 24 28 32 36
[6] 0 5 10 15 20 25 30 35 40 45
[7] 0 6 12 18 24 30 36 42 48 54
[8] 0 7 14 21 28 35 42 49 56 63
[9] 0 8 16 24 32 40 48 56 64 72
[10] 0 9 18 27 36 45 54 63 72 81
110 Multiplicando matrizes
Para a construcao de matrizes o preenchimentos das celulas ou casas e
feita coluna a coluna como padrao exemplo
a= matrix(c(19)33)
a
[1] [2] [3]
[1] 1 4 7
[2] 2 5 8
[3] 3 6 9
podemos construir esta mesma matriz preenchendo as casas linha por linhada seguinte forma
at=matrix(c(19)33byrow=T)
at
[1] [2] [3]
[1] 1 2 3
[2] 4 5 6
[3] 7 8 9
Castaneda Daniel F N 2013 12
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1343
111 Invers˜ ao de matrizes 1 INICIANDO O R
Uma alternativa seria usar a funcao aperm()
b= aperm(ac(21))
b
[1] [2] [3]
[1] 1 2 3
[2] 4 5 6
[3] 7 8 9
ab multiplicac~ao elemento a elemento
[1] [2] [3]
[1] 1 8 21[2] 8 25 48
[3] 21 48 81
ab multiplicac~ao das matrizes a e b
[1] [2] [3]
[1] 66 78 90
[2] 78 93 108
[3] 90 108 126
crossprod(ab) produto da transposta de a por b
[1] [2] [3]
[1] 30 36 42
[2] 66 81 96
[3] 102 126 150
t(a)b
[1] [2] [3]
[1] 30 36 42
[2] 66 81 96
[3] 102 126 150
111 Inversao de matrizes
c=matrix(c(324572159)33)
d=matrix(c(223582858)33)
c
Castaneda Daniel F N 2013 13
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1443
112 Comandos cbind() e rbind() 1 INICIANDO O R
[1] [2] [3]
[1] 3 5 1
[2] 2 7 5
[3] 4 2 9
gt solve(c)
[1] [2] [3]
[1] 036551724 -029655172 012413793
[2] 001379310 015862069 -008965517
[3] -016551724 009655172 007586207
solve(cd) inverte a matriz c e multiplica por d
[1] [2] [3]
[1] 051034483 -029655172 24344828
[2] 007586207 115862069 01862069
[3] 008965517 009655172 -02344828
gt solve(c)d forma alternativa
[1] [2] [3]
[1] 051034483 -029655172 24344828
[2] 007586207 115862069 01862069
[3] 008965517 009655172 -02344828
112 Comandos cbind() e rbind()
E possıvel formar novas matrizes com as ja existentes usando a funcaocbind() e rbind() a primeira construı matrizes em colunas a segunda emlinhas
cbind(cd)
[1] [2] [3] [4] [5] [6]
[1] 3 5 1 2 5 8
[2] 2 7 5 2 8 5
[3] 4 2 9 3 2 8
rbind(cd)[1] [2] [3]
[1] 3 5 1
[2] 2 7 5
[3] 4 2 9
[4] 2 5 8
Castaneda Daniel F N 2013 14
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1543
113 Autovalores e autovetores 1 INICIANDO O R
[5] 2 8 5
[6] 3 2 8
cbind(1c)
[1] [2] [3] [4]
[1] 1 3 5 1
[2] 1 2 7 5
[3] 1 4 2 9
rbind(1d)
[1] [2] [3]
[1] 1 1 1
[2] 2 5 8
[3] 2 8 5
[4] 3 2 8
113 Autovalores e autovetores
ev=eigen(c) calcula autovalores e autovetores
ev
$values
[1] 13265694+0000000i 2867153+1646172i 2867153-1646172i
$vectors[1] [2] [3]
[1] 03799264+0i 07884141+00000000i 07884141+00000000i
[2] 06480231+0i 00745376+03051027i 00745376-03051027i
[3] 06600924+0i -04774265-02276482i -04774265+02276482
det(c)
[1] 145
det(d)
[1] -57
114 Data frame ou construtor de dados
Suponha um conjunto de dados com tres variaveis sexo (1=homem0=mulher) peso em quilogramas e salario em reais por dia de 12 indivıduosPara calcular a media o resumo de estatısticas descritivas e um grafico (plot)
Castaneda Daniel F N 2013 15
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1643
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1743
116 Func˜ ao readtable() 1 INICIANDO O R
attach(ind)
peso
[1] 67 60 62 69 54 59 57 67 60 65 59 55
salario
[1] 59 40 45 65 55 45 48 67 65 68 62 45
sex
[1] 1 0 0 1 0 0 0 1 1 1 1 0
detach(ind)
salario
Erro objeto rsquosalariorsquo n~ao encontrado
A funcao attach e detach pode ser usada no somente em arquivo dedados dos pacotes do R se nao tambem para listas e data frame
116 Funcao readtable()
Um amplo conjunto de arquivos com diferentes extensoes pode ser lidopor esta funcao
1161 Arquivos com extensao txt
Considere as seguintes variaveis x1 idade dos funcionarios x2 sexo
(1 homem 0 mulher) x3 anos de experiencia na funcao x4 estado civilx5 numero de filhos x6 nota de 0 minus 10 de um teste de avaliacao deconhecimento na sua area x7 teste psicotecnico de 0 a 50 x8 satisfacaocom a vida pessoal estes dados em bloco de notas com extensao txt obtidosde Mingoti 2005 Ver dados na integra no apendice
funcao=readtable(functxtheader=T)
funcao
grupo idade sexo ecivil nfilhos aexper tpsico tconhec satisf
1 0 24 1 1 0 2 77 360 1
2 0 29 1 1 0 4 79 360 13 0 38 1 0 1 6 86 408 0
107 0 24 1 1 0 2 73 360 0
108 0 27 1 0 0 3 74 360 1
109 1 42 1 0 2 14 99 440 1
Castaneda Daniel F N 2013 17
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1843
117 Script com extens˜ ao R 1 INICIANDO O R
Considere os dados de consumo de agua de uma residencia durante
o perıodo de 1205 a 0411 Com as seguintes variaveis valor em reaisconsumo em m3 dias de consumo e construindo o imovel (1sim 2nao)Dados proprios do autor Ver dados na integra no apendice
ca=readtable(consumoagua2txtheader=T) disponıvel em meus documentos
ca
dado valor consumo diasconsumo Construindo
1 1 1476 11 30 0
2 2 1347 10 31 0
64 64 3439 14 31 1
65 65 2221 11 32 0
Observacao use o comando choose() para escolher um conjunto dedados de um diretorio especifico no computador podemos usar
datalt-readtable(filechoose()header=T)
117 Script com extensao R
Exemplo com extensao R lida por readtable com dados do proprio R
exemplo=readtable(filechoose()header=T) dadosrR em aula 3exemplo
dado valor
1 1 115
2 2 117
3 3 118
4 4 119
5 5 127
118 Funcao scan()
A funcao scan tambem pode incluir elementos no R
scan()
1 12
2 13
3 14
Castaneda Daniel F N 2013 18
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1943
119 Func˜ ao sample 1 INICIANDO O R
4 15
5
Read 4 items
[1] 12 13 14 15
Use a funcao scan() para ingressar dados diretamente na plataforma R
119 Funcao sample
Usa-se para escolher aleatoriamente uma amostra de um conjunto deobservacoes ou uma base de dados Como exemplo considere uma amostrade 8 observacoes dos primeiros 20 do banco de dados de consumo de agua
(ca)setseed(10)
ca20=ca[sample(1208)]
ca20
dado valor consumo diasconsumo Construindo
11 11 3153 16 31 1
6 6 1347 10 32 0
8 8 1347 10 30 0
12 12 3755 18 32 1
2 2 1347 10 31 0
4 4 5275 22 33 1
15 15 3755 18 32 0
14 14 1648 11 30 0
120 Rcmdr
Para importar dados do SPSS STATISTICA MINITAB EXCEL TXTetc podemos usar o pacote livre Rcmdr ja disponıvel na biblioteca
library(Rcmdr)
este pacote trabalha via janelas para maior comodidade
121 Dados disponıveis no R
R possuı mais de 100 conjunto de dados alocados no pacote dataset quepodem ser chamados diretamente ( sem extensao) com a funcao data
data()
Castaneda Daniel F N 2013 19
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2043
122 Modificando e editando dados 1 INICIANDO O R
No R pode-se acessar a conjunto de dados de outros pacotes disponıveis
na sua biblioteca Se por acaso esta instalado o pacote lmtest o conjuntode dados ativo neste pacote pode ser chamado da seguinte maneira
data(package=lmtest)
122 Modificando e editando dados
Considere o conjunto de dados anterior Para modificar este conjuntosera disponibilizado uma tela de editor de dados a seguir
xnovo=edit(wagespackage=lmtest)
Para editar um conjunto de dados novo podemos usar a funcao edit daseguinte forma
xn=edit(dataframe())
123 Exportando dados do R para o Excel
Para exportar uma coluna de dados por exemplo o valor pago no con-sumo de agua executamos no R
writeClipboard(ascharacter(valor))
Na tela do Excel usar o comando colar Suponha que esta interessadoem exportar o conjunto de dados ca consumo de agua numa residenciadisponıveis no R para transferir este conjunto de dados use o seguintecomando
writetable(caclipboardsep=tcolnames=NA)
Na tela do Excel faca Ctrl+V ou um click em colar
124 Funcoes apply tapply sapply e lapply
A funcao apply calcula medidas estatısticas por linhas ou por colunas
e a funcao sapply calcula apenas por coluna A diferenca da funcao applyda funcao tapply e que esta ultima calcula medidas estatısticas por estratosConsidere os dados de consumo de agua de uma residencia
apply(ca2mean)
dado valor consumo diasconsumo Construindo
330000000 255690769 126153846 307076923 02615385
Castaneda Daniel F N 2013 20
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2143
125 Distribuic˜ oes de probabilidade 1 INICIANDO O R
tapply(valorConstruindomean)
0 1
2115271 3803882
sapply(camean)
dado valor consumo diasconsumo Construindo
330000000 255690769 126153846 307076923 02615385
lapply(camean) verificar
125 Distribuicoes de probabilidade
R proporciona uma serie de funcoes para variaveis aleatorias estatısticasconhecidas dentro destas funcoes temos distribuicao aleatorizacao proba-
bilidade e quantidadeDistribuicao nome no R argumentos adicionaisbeta beta shape1shap2npcbinomial binom sizeprobcauchy cauchy locationscalechi-quadrado chisq dfnpcexponencial exp rateF f df1df2npcgamma gamma shapescalegeometric geom probhypergeometric hyper mnk
log-normal lnorm meanlogsdloglogistic logis locationscalenegativa binomial nbinom sizeprobnormal norm meansdpoisson pois lambdat-student t dfncpuniforme unif minmaxweibull weibull shapescalewilcoxon wilcoxon mn
Nomes iniciando com ldquodrdquocalculara a densidade da funcao ldquoprdquoparacalcular a probabilidade ou funcao acumulada ldquoqrdquopara o valor quantılico eldquorrdquopara simulacao de numeros aleatoriosExemplos
rpois(105) 10 numeros aleatorios da dist poisson com parametro 5
[1] 3 2 3 1 8 6 1 3 2 3
Castaneda Daniel F N 2013 21
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2243
126 Algoritmos de programac˜ ao no R 1 INICIANDO O R
rnorm(5) 5 numeros aleatorios da normal padr~ao
[1] 004659011 -005019082 -128753167 115411245 -137573809
qt(09550) valor quantilico da t com 50 gl
[1] 1675905
qchisq(0951) valor da qui-quadrado
com 95 de confianc a e 1 g l
[1] 3841459
dpois(45) densidade da dist poisson x=4 parametro=5
[1] 01754674
ppois(45) P(xlt=4) parametro=5
[1] 04404933
126 Algoritmos de programacao no R
R e uma linguagem de programacao orientada a objetos que alem de ana-lisar dados tem sua propria programacao aqui usaremos esta programacaopara analises de estatısticas e econometria Para maiores detalhes podemospesquisar em Venables and Ripley (2000 e 2002) Voce pode estender afuncionalidade do R criando novas funcoes ou programando por exemplo
medianamediarazao lt- function(x)
return(median(x)mean(x))
setseed(20)
z = rexp(10000)
medianamediarazao(z)
[1] 06925193
Construindo a mediana
mediana=function(x)
oddeven=length(x)2
if (oddeven == 0) (sort(x)[length(x)2]+sort(x)[1+ length(x)2])2
else sort(x)[ceiling(length(x)2)]
Construindo a media geometrica
mediageometrica = function (x) exp(mean(log(x)))
Construindo a media harmonica
Castaneda Daniel F N 2013 22
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2343
126 Algoritmos de programac˜ ao no R 1 INICIANDO O R
mediaharmonica=function (x) 1mean(1x)
Um algoritmo que envolva as medidas de tendencia central
medidascentrais = function(y medida)
switch(medida
media = mean(y)
mgeometrica = exp(mean(log(y)))
mharmonica = 1mean(1y)
mediana = median(y)
stop(Medida n~ao inclusa))
medidascentrais(ymedia)
Gerando uma distribuicao uniforme para o lancamento de um dado
ndado=function(x) return(round(runif(x)6+05))
hist(ndado(100000)
Com o comando sample podemos realizar este mesmo experimento daseguinte maneira
gerando=sample(16 100000 replace=TRUE)
hist(gerando)
Considere o seguinte objeto c
c=c(122715365)
Para determinar que classe de objeto e o vetor c podemos identificarusando os seguintes comandos
ischaracter(c)
[1] FALSE
isnumeric(c)
[1] TRUE
A este objeto c podemos a signar nome a cada valor definido da seguinteforma
names(c)=c(abcdef)
c
a b c d e f
10 22 70 150 30 65
Castaneda Daniel F N 2013 23
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2443
127 Lacos no R 1 INICIANDO O R
Podemos associar uma comparacao logica com o vetor c da seguinte
forma
cgt3
a b c d e f
FALSE FALSE TRUE TRUE FALSE TRUE
Quando estamos diante de uma matriz podemos definir os nomes dascolunas com colnames() e os nomes das linhas com rownames() veja oexemplo
d=matrix(c(223582858)33)
colnames(d)=c(c1c2c3)
rownames(d)=c(1o2o3o)
d
c1 c2 c3
1o 2 5 8
2o 2 8 5
3o 3 2 8
A matriz d e entendida como um conjunto de dados que podem serassociados as linhas e as colunas Para determinar se ha associacao entrelinhas e colunas o teste utilizado pode se o qui-quadrado com a funcaochisqtest()
127 Lacos no R
Em algumas situacoes variaveis contınuas podem ser transformadas em variaveisordinais ou dummy para realizar estas operacoes o R proporciona varioslacos como else if ou ifelseExemplo para construir variaveis binarias considere o consumo de aguaonde consumo menor ou igual a 10 m3 e zero e acima de 10 m3 e 1 Ovalor de consumo sendo zero se o valor e menor ou igual a 20 reais e 1 casocontrario
consumoc=numeric(length(consumo))
for(i in 1length(consumo))if (consumo[i]lt=10) consumoc[i]=0
else consumoc[i]=1
valorc=numeric(length(valor))
for(i in 1length(valor))if (valor[i]lt=20) valorc[i]=0 else valorc[i]=1
Castaneda Daniel F N 2013 24
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2543
128 A func˜ ao cut() 1 INICIANDO O R
Nota Podemos construir os lacos considerando a condicao como texto
exemplo consumoc[i]=rdquo[0minus 10]rdquo Comando alternativo de construcao
consumoc2=ifelse(consumolt=10[0-10]Acima de 10)
valorc2=ifelse(valorlt=20[0-20]Acima de 20)
limitacao deste laco e que utilizado apenas para duas condicoes Para lacoscom mais de duas condicoes podemos usar os seguintes comandos
valorc3=numeric(length(valor))
for(i in 1length(valor))if (valor[i]lt20) valorc3[i]=[0-20)
else if (valor[i]lt30)
valorc3[i]=[20-30) else valorc3[i]=[30 a +
table(valorc3)
128 A funcao cut()
Alguma funcoes usam lacos para criar novas variaveis categoricas no exem-plo de valor pago em reais pelo consumo de agua podemos construir cate-gorias por quartis de 25 50 75 1 da seguinte maneira
q=cut(valorquantile(valor) includelowest=T)
table(q)
q
[135165] (165222] (222327] (327693]
17 16 16 16
Outras formas podem ser usando intervalos a criterio pessoal no exemplo aseguir consideramos com valor mınimo 13 e valor maximo 70 com amplitudedo intervalo de 19 e com classes fechadas no mınimo e aberto no maximo
valr=cut(valmseq(137019)right=Fincludeupper=T)
table(valr)
valr
[1332) [3251) [5170)
48 15 2
129 Criando funcoes Teste que compara duas medias
Como exemplo implementamos a estatıstica de comparacao de duasamostras independentes
Castaneda Daniel F N 2013 25
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2643
130 Coeficiente de regressao 1 INICIANDO O R
testeduas lt- function(y1 y2)
+ n1 lt- length(y1) n2 lt- length(y2)
+ yb1 lt- mean(y1) yb2 lt- mean(y2)
+ s1 lt- var(y1) s2 lt- var(y2)
+ s lt- ((n1-1)s1 + (n2-1)s2)(n1+n2-2)
+ tst lt- (yb1 - yb2)sqrt(s(1n1 + 1n2))
+ tst
+
x=runif(20)
y=rnorm(20)
testeduas(xy)
[1] 2874636
Uma forma alternativa e usando a funcao ttest()
ttest(xy)
Welch Two Sample t-test
data x and y
t = 28746 df = 21784 p-value = 0008858
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
01846283 11429380sample estimates
mean of x mean of y
05539270 -01098562
130 Coeficiente de regressao
Implementando o calculo da tangente (inclinacao) do coeficiente no mo-delo de regressao linear simples
mq1lt- function(X y)
+ X lt- qr(X)
+ qrcoef(X y)+
mq1(xy)
[1] -008755885
Castaneda Daniel F N 2013 26
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2743
131 Teste Qui- Quadrado 1 INICIANDO O R
131 Teste Qui- Quadrado
Util para associar linhas e colunas considere os dados em d com as se-guintes hipotesesH0 nao ha associacao entre linhas e colunasHa ha associacao entre linhas e colunas
chisqtest(d)
Pearsonrsquos Chi-squared test
data d
X-squared = 46497 df = 4 p-value = 03252
Warning message
In chisqtest(d) Aproximac~ao Qui-quadrado pode estar incorreta
Para um nıvel α = 0 05 de significancia podemos afirmar que nao haevidencias para afirmar que a associacao entre linhas e colunas (linhas ecolunas sao independentes) Um outro exemplo do uso da distribuicao Qui-quadrado e verificar se um conjunto de dados provem de uma determinadadistribuicao teorica
chisqtest(c)
Chi-squared test for given probabilities
data c
X-squared = 22549 df = 5 p-value = 00004116
Pelo p-value podemos afirmar que a 0 05 de significancia nao ha evi-dencias para afirmar que a distribuicao dos numeros em c sejam uniformesPara implementar este teste de associacao no exemplo de consumo de aguaconsiderando a classificacao mediante lacos (ver lacos no R) entre consumoce valorc temos
table(consumocvalorc)
valorc
consumoc 0 1
0 24 0
Castaneda Daniel F N 2013 27
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2843
132 Teste t - student 1 INICIANDO O R
1 3 38
chisqtest(consumocvalorc)$expected
chisqtest(consumocvalorc)$observed
chisqtest(consumocvalorc)
Pearsonrsquos Chi-squared test with Yatesrsquo continuity correction
data consumoc and valorc
X-squared = 498015 df = 1 p-value = 1701e-12
barplot(table(consumocvalorc) beside=T)
Concluimos que ha associacao entre consumo de agua e o valor pago em
reais
132 Teste t - student
O teste mais usado pelos estatısticos e util para comparar medias deduas amostras tanto independente como emparelhadasExemplo considere as exportacoes mensais (FOB-US) do Brasil durante osanos de 2009 minus 2010 Apos digitacao das observacoes temos
exp2009
[1] 9781920 9586406 11809225 12321617 11984585 14467785 14141930
[8] 13840850 13863222 14081686 12652892 14462624
exp2010[1] 1130507 1219724 1572750 1516121 1770250 1709391 1767292 1923625
[9] 1883279 1838042 1768733 2091814
H0 A medias anuais das exportacoes durante 2009 e 2010 e a mesmaHa CC
ttest(exp2009exp2010paired = FALSE)
Welch Two Sample t-test
data exp2009 and exp2010
t = -42813 df = 18202 p-value = 00004394
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-6075666 -2077757
sample estimates
mean of x mean of y
Castaneda Daniel F N 2013 28
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2943
133 Teste F 1 INICIANDO O R
1274956 1682627
Conclusao nao ha evidencias para aceitar que a media das exportacoesde 2009 e 2010 e a mesma
Quando um conjunto de dados e dado em formato de matriz (dataframe)podemos realizar o teste t de uma coluna em funcao da outra por exemplono consumo de agua queremos testar a hipotese nula H0 o valor de con-sumo de agua e o mesmo construindo ou nao versus a hipotese alternativaHa Caso contrario
attach(ca)
ttest(valor~Construindo)
Welch Two Sample t-test
data valor by Construindo
t = -58383 df = 21731 p-value = 7465e-06
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-2288867 -1088356
sample estimates
mean in group 0 mean in group 1
2115271 3803882
Concluımos que nao ha evidencias para aceitar que o valor de consumode agua e o mesmo quando estamos construindo ( p minus valor lt 005)
Exemplos adicionais podem ser comparando entre as variaveis clas-sificadas (ver secao de lacos) da seguinte forma
ttest(valor~consumoc)
ttest(consumo~valorc)
boxplot(consumo~valorc2 main=Consumo e valor pago em Reais)
boxplot(consumo~valorc3 main=Consumo e valor pago em Reais)
133 Teste F
Para determinar se ha a mesma variabilidade no valor de consumoquando estamos ou nao construindo utilizamos o teste F A hipotese nulae H0 O valor de consumo de agua tem a mesma variabilidade quandoconstruımos que quando nao construımos No R temos
Castaneda Daniel F N 2013 29
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3043
133 Teste F 1 INICIANDO O R
vartest(valor~Construindo)
F test to compare two variances
data valor by Construindo
F = 04834 num df = 47 denom df = 16 p-value = 005478
alternative hypothesis true ratio of variances is not equal to 1
95 percent confidence interval
0194815 1014916
sample estimates
ratio of variances
04834048
Concluımos que nao ha evidencias para rejeitar a hipotese nula por tanto
a variabilidade no valor de consumo e o mesmoO correspondente grafico (Box-plot) e apresentado a seguir
boxplot(valor~Construindo col=8 names=c(n~ao construc~ao construc~ao))
natildeo construccedilatildeo construccedilatildeo
2 0
3 0
4 0
5 0
6 0
7 0
Figura 4 Valor pago em reais no consumo de agua
Em alguns casos ha necessidade de identificar se a variabilidade dasexportacoes e a mesma comparando 2009 e 2010H0 As exportacoes de 2009 e 2010 tem a mesma variabilidade (dados men-sais coletados do site httpwwwipeadatagov)Ha CC
Castaneda Daniel F N 2013 30
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3143
134 Graficos 1 INICIANDO O R
vartest(exp2009exp2010)
F test to compare two variances
data exp2009 and exp2010
F = 03728 num df = 11 denom df = 11 p-value = 01166
alternative hypothesis true ratio of variances is not equal to 1
95 percent confidence interval
01073346 12951624
sample estimates
ratio of variances
03728482
Conclusao Nao houve mudancas na variabilidade das exportacoes de
2009 e 2010
134 Graficos
Considere os dados mensais das exportacoes do Brasil (FOB) durante2009 e 2010 para realizar um grafico de box-plot fazemos
boxplot(exp2009exp2010 main=exportac~oes do Brasil
names=c(20092010))
2009 2010
1 0 0 0 0
1 2 0 0 0
1 4 0 0 0
1 6 0 0 0
1 8 0 0 0
2 0
0 0 0
exportaccedilotildees do Brasil
Figura 5 Exportacoes FOB em dolares
Para o grafico da funcao acumulativa das exportacoes
plot(ecdf(exp2010) dopoint=FALSE verticals=TRUE
lty=3 xlim=c(1000023000))
lines(ecdf(exp2009) dopoint=FALSE verticals=TRUE
col=2)
Castaneda Daniel F N 2013 31
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3243
134 Graficos 1 INICIANDO O R
1 00 00 1 20 00 1 40 00 1 60 00 1 80 00 2 00 00 2 20 00
0 0
0 2
0 4
0 6
0 8
1 0
ecdf(exp2010)
x
F n ( x )
Figura 6 Funcao acumulada das exportacoes 2009-2010
Considere as exportacoes do Brasil um histograma e Q-Q plot sera
hist(exp main=Exportac~oes FOB-US col=8)
qqnorm(exp xlim=c(-55)ylim=c(-100021000))
qqline(exp)
Exportaccedilotildees FOBminusUS$
exp
F r e q u e n c y
0 5000 10000 15000 20000
0
5 0
1 0 0
1 5 0
minus4 minus2 0 2 4
0
5 0 0 0
1 0 0 0 0
1 5 0 0 0
2 0 0 0 0
Normal QminusQ Plot
Theoretical Quantiles
S a m p l e Q u a n t i l e s
Figura 7 Graficos das Exportacoes no Brasil 2001-2010
Para ativar alguns graficos pacotes sao necessarios exemplo
library(MASS)
Castaneda Daniel F N 2013 32
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3343
134 Graficos 1 INICIANDO O R
par(mfrow=c(21))
z = rnorm(500000)
hist(z prob=T)
curve(dnorm(x)add=T)
histscott(z prob=T)
Histogram of z
z
D e n s i t y
minus4 minus2 0 2 4
0 0
0 2
Histogram of x
z
D e n s i t y
minus4 minus2 0 2 4
0 0
0 2
0 4
Figura 8 Histograma de numeros aleatorios normais
boxcox(dist~speed data=cars) transformac~ao Box-Cox
minus2 minus1 0 1 2
minus 4 0 0
minus 3 5 0
minus 3 0 0
minus 2 5 0
λ
l o g minus
L i k e l i h o o d
95
Figura 9 Valor otimo na transformacao Box-Cox
Castaneda Daniel F N 2013 33
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3443
135 Tabelas 1 INICIANDO O R
Para ter um alcance maior sobre a capacidade grafica do R podemos
usar as seguintes funcoes
demo(graphics)
demo(image)
demo(persp)
demo(recursion)
demo(plotmath)
demo(package = packages(allavailable = TRUE))
135 Tabelas
Algumas tabelas estatısticas podem ser construıdas com a funcao table()estado=c(PBPEALSEBAMGESRJPBPEAL
SEBAMGESRJPBPEALSEBAMGESRJ
PBPEALSEBAMGESRJ)
estadof=factor(estado)
estadof
[1] PB PE AL SE BA MG ES RJ PB PE AL SE BA MG ES RJ PB PE AL SE BA
[22] MG ES RJ PB PE AL SE BA MG ES RJ
Levels AL BA ES MG PB PE RJ SE
setseed(10)
salarios=c(round(runif(32)100))
salarios
[1] 51 31 43 69 9 23 27 27 62 43 65 57 11 60 36 43 5 26 40 84 86 62 78 36 41
[26] 71 84 24 77 36 54 9
salariom=tapply(salariosestadofmean)
salariom
AL BA ES MG PB PE RJ SE
5800 4575 4875 4525 3975 4275 2875 5850
salariof=factor(cut(salariosbreaks=0+15(07)))
salariof
[1] (4560] (3045] (3045] (6075] (015] (1530] (1530] (1530] (6075]
[10] (3045] (6075] (4560] (015] (4560] (3045] (3045] (015] (1530]
[19] (3045] (7590] (7590] (6075] (7590] (3045] (3045] (6075] (7590]
[28] (1530] (7590] (3045] (4560] (015]
Levels (015] (1530] (3045] (4560] (6075] (7590]
table(salariofestadof)
estadof
Castaneda Daniel F N 2013 34
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3543
136 Comandos adicionais 2 R E ECONOMETRIA
salariof AL BA ES MG PB PE RJ SE
(015] 0 2 0 0 1 0 1 0
(1530] 0 0 1 1 0 1 1 1
(3045] 2 0 1 1 1 2 2 0
(4560] 0 0 1 1 1 0 0 1
(6075] 1 0 0 1 1 1 0 1
(7590] 1 2 1 0 0 0 0 1
table(salariofestadof)
estadof
salariof AL BA ES MG PB PE RJ SE
(015] 1 1 0 0 1 0 1 2
(1530] 0 0 1 1 0 0 1 1
(3045] 0 0 2 0 0 1 0 0
(4560] 2 0 1 0 0 1 0 0
(6075] 0 1 0 2 3 0 1 0
(7590] 0 1 0 1 0 2 0 1
(90105] 0 1 0 0 0 0 1 0
136 Comandos adicionais
Em situacoes onde a ausencia de informacao ou dados faltantes(missing)as funcoes do R precisam declarar esta ausencia com o comando narm=T
indicando que a informacao apresenta dados faltantes Exemplo
df=c(2NA58NA) O ultimo elemento esta ausente
mean(f) Comando padr~ao para calcular a media
[1] NA
mean(fnarm=T) Comando declarando a ausencia de elementos
[1] 5
2 R e Econometria
Dados economicos precisam de uma atencao matematica para dar fun-
damento a suas teorias Atualmente pelo avanco computacional nao habarreiras para serem aplicadas e torna-se ate divertida se definimos a plata-forma de trabalho computacional A econometria requer de uma abordagemdiferenciada pois faz uso de da teoria economica economia matematica es-tatıstica economica estatıstica matematica e inferencia estatıstica Esta
Castaneda Daniel F N 2013 35
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3643
21 Tipos de Dados 2 R E ECONOMETRIA
disciplina aproxima a Estatıstica da Economia onde a teoria economica for-
mula as hipoteses Por exemplo uma reducao de precos de uma mercadoriadevera aumentar a quantidade demandada dessa mercadoria considerandouma relacao inversa entre preco e quantidade demandada ou a despesa deconsumo per capita depende da renda per capita considerando uma relacaodireta ou seja a medida que a renda aumenta a despesa tende a aumentarOutro exemplo onde consideremos a area microeconomica consumo de aguade uma residencia e o valor pago e natural imaginar que ha uma relacaodireta entre consumo e valor pago pelo consumo Porem precisamos saberqual e quanto e esta forca de relacao por tanto o econometrista forneceesta informacao usando a inferencia estatıstica e a estatıstica economicaAs estimativas de esta relacao fica por conta de estatıstica matematica
Para completar e cerrar este circulo de disciplinas abordadas na Econo-metria precisamos utilizar uma ferramenta de calculo computacional quebrinde estabilidade precisao e rapidez nos seus resultados para superartudo isto utilizaremos o ambiente R A econometria surge como uma disci-plina autonoma em virtude de aglutinar todas estas areas do conhecimentomerecendo um estudo proprio
21 Tipos de Dados
Os tipos de dados sao
1 Dados de corte transversal (cross-section) sao dados de uma ou maisvariaveis coletadas no mesmo ponto do tempo Por exemplo os censosno Brasil sao coletados num instante do tempo No censo variaveisdemograficas sao exploradas como contagem da populacao numerode indivıduos em cada famılia idade dos integrantes da famılia ouvariaveis economicas como renda consumo tipo de moradia (alugadaou propria) etc estes dados sao adquiridas a cada decada pelo IBGE
2 Dados longitudinais ou de series temporais sao caracterizadas porobservacoes ao longo do tempo No Brasil um site que disponibilizadados desta natureza e o IPEADATA
3 Dados de painel e uma mistura de dados de corte transversal e longi-tudinais ou ao longo do tempo estudamos o comportamento de unida-des individuais Por exemplo series mensal do ındice de precos serieanuais do produto interno bruto (PIB) ou serie anual da balanca co-mercial dos municıpios do Brasil considerando cada municıpio comounidades individuais
Castaneda Daniel F N 2013 36
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3743
22 Metodologia 2 R E ECONOMETRIA
22 Metodologia
Os passos da metodologia econometrica tradicional ou classica se iniciadesde a formulacao da hipotese ate as conclusoes em geral sao
221 Hipotese
Como referencia usaremos a hipotese nula H 0 a qual nulifica qualquerdiferenca e a hipoteses alternativa H a aquela que contradiz total ou par-cialmente a hipotese nula Exemplo
1 H 0 nao existe uma relacao entre consumo de agua e valor pago pela
mesma
2 Ha existe uma relacao entre consumo de agua e valor pago pelamesma
A hipotese alternativa pode ser dividida em tres possibilidades no exem-plo do consumo de agua pode ser dividida em existe alguma relacao oua relacao e negativa ou a relacao e positiva A primeira denomina-se dehipotese alternativa com teste bicaudal o segundo de teste unicaudal a es-querda e finalmente o ultimo com teste unicaudal a direita Nosso exemploconsidere H a existe alguma relacao (teste bicaudal)
222 Modelo matematico
Usaremos uma funcao de consumo simples
Y = β 1 + β 2X (11)
A variavel dependente Y valor pago pelo consumo e estimado por Y A variavel independente e X consumo de agua em m3 β 1 representa ovalor pago quando nao ha consumo de agua Nosso interesse e determinara tangente ou a variacao pelo consumo β 2
223 Modelo econometrico do valor pago
O modelo matematico fornece a relacao determinıstica entre valor pagoem reais e consumo de agua porem as relacoes entre as variaveis economicassao em geral inexatas Assim ao longo do tempo no podemos esperar que ovalor pago e o consumo em m3 se situem exatamente numa linha reta isto
Castaneda Daniel F N 2013 37
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3843
22 Metodologia 2 R E ECONOMETRIA
por que alem do consumo outras variaveis afetam o valor pago por exemplo
os dias de consumo o perıodo de reforma da casa ou a inflacao podendoalterar o valor pago pelo consumo
224 Nıvel de significancia
Denominado de α frequentemente usa-se α = 005 em situacoes derisco usa-se α = 001 Em testes bicaudais divide-se α em duas partes elocalizam-se nos extremos da distribuicao de prova Para testes unicaudaislocaliza-se no extremo da distribuicao indicada pela hipotese alternativaNosso exemplo α = 005 e por tanto α2 = 0025
225 Obtencao de Dados
Considere 65 observacoes (mes a mes) do consumo de agua em umaresidencia e o valor pago em reais durante o perıodo de 122005 a 042011Ver dados no apendice A Um plot e apresentado a seguir
10 15 20
2 0
3 0
4 0
5 0
6 0
7 0
Valor pago em reais de consumo de aacutegua
Variaacutevel independenteConsumo em m3
V a r i aacute v e l d e p e n d e n t e V a l o r p a g o
Y = minus12365+3007X
Figura 10 Relacao causal entre consumo e valor pago em reais
Podemos observar visualmente que ha uma relacao positiva entre valorpago e consumo de agua onde a variacao pelo consumo ou variacao dovalor pago (tangente) β 2 cresce positivamente Precisamos verificar se estavariacao β 2 e estatisticamente diferente de zero (significativa)
Castaneda Daniel F N 2013 38
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3943
22 Metodologia 2 R E ECONOMETRIA
226 Estatıstica de prova
Denominada de funcao pivo ou estatıstica de teste No ambito pa-rametrico usa-se as estatısticas t student (amostras pequenas) quando ne grande e indiferente o uso da t student ou normal No exemplo para tes-tar qual a inclinacao da variacao pelo consumo de agua usamos a seguinteestatıstica
t0 =β 2
dp(β 2)asymp tnminus2gl (12)
onde t0 e o valor calculado da estatıstica t β 2 e a estimativa do parametro(variacao pelo consumo) β 2 dp(β 2) e o desvio padrao da estimativa doparametro β 2 o valor t0 segue uma distribuicao t-student com nminus2 graus deliberdade(gl) Os graus de liberdade e calculado diferenciando o tamanhoda amostra com o numero de parametro do modelo (n-p) O valor quantılicotnminus2gl(0025) corresponde a distribuicao t-student com 0025 de significanciacom n minus 2 graus de liberdade e n e o numero total de observacoes Nossoexemplo β 2 = 3007 e dp(β 2) = 013 por tanto t0 = 2313 e comparadocom o valor da tabela da t-student com 63 gl e com α2 = 0025 sendo estevalor igual 19983
227 Tipos de erro
Ocorre o erro tipo I (α) ao se rejeitar a hipotese de nulidade quandodeveria aceita-la Por outro lado quando se aceita a hipotese de nulidadequando deveria rejeita-la comete-se o erro tipo II (β ) Nas duas situacoestomou-se uma decisao errada O interesse e a minimizacao dos erros tipo Ie II que na pratica so e possıvel aumentando-se o tamanho da amostra Porrazoes diversas o aumento do tamanho da amostra muitas vezes torna-se im-praticavel A gravidade do erro tipo I e distinta da do erro tipo II quando seconsegue identificar o erro mais grave a opcao e a minimizacao deste poremquando a probabilidade de ocorrencia de um tipo de erro diminui a do outroaumenta e vice versa Podemos observar este criterio na seguinte tabela
Nao rejeita rejeitaH0 verdadeira Correto (1 minus α) Erro do tipo I (α)H0 falsa Erro do tipo II (β ) Correto (1minus β )
Castaneda Daniel F N 2013 39
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4043
22 Metodologia 2 R E ECONOMETRIA
228 Regra de Decisao
Os pacotes ou plataformas estatısticas apresentam o valor observado dafuncao pivo e o p minus valor (Area de probabilidade esta relacionada comonıvel de significancia) assim a funcao pivo apresenta o valor numerico nafuncao de densidade da Estatıstica exemplo dentro da densidade da normalQuando o pvalor e menor do que α = 005 no caso do teste unicaudal (eα = 0025 no caso bicaudal) concluımos que nao ha evidencia suficiente paraaceitar H0 Caso contrario se o p minus valor for maior que α = 005 podemosconcluir que nao ha evidencia suficiente para rejeitar H0 Nosso exemplot0 = 2313 gt 1998 (1998 e valor da distribuicao t com 63 gl e nıvel designificancia bicaudal de 005) este valor localiza-se na cauda positiva da
distribuicao com 63 graus de liberdade(n minus 2 = 65 minus 2) Por outro lado o pminus valor lt 0025 por tanto nao ha evidencias para aceitar H0 em favor deaceitar que o coeficiente de inclinacao (ou tangente) e positiva No recorrerdo livro usaremos codigos para as medidas do pminusvalor que em geral apareceem todo comando summary() Como consequencia a linha que aparece aseguir sera excluıda das saıdas do R
Signif codes 0 0001 001 005 01 1
sera interpretada da seguinte maneira
bull 0 significancia menor que 0001
bull 0001 significancia menor que 001
bull 001 significancia menor que 005
bull 005 significancia menor que 01
bull 01 significancia menor que 1
229 Conclusoes
Esta parte do teste de hipoteses e explicada em conjunto O Estatıstico eo Economista que sao os profissionais da area em que as observacoes foramcoletadas decidem sobre as providencias futuras No exemplo podemosafirmar que a cada metro cubico a mais de consumo de agua sera pago emmedia 3 reais a mais No momento este valor pago pode parecer alto poremna falta de este liquido elementar este valor pode aumentar e por tantosofrera mudancas
Castaneda Daniel F N 2013 40
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4143
23 Previs˜ oes 2 R E ECONOMETRIA
23 Previsoes
Muitas vezes estamos interessados em determinar o que acontece quandouma quantidade de consumo de agua em m3 e utilizada e qual o valor pagoem reais Por exemplo se nosso interesse e saber quanto sera pago por 20m3
de consumo de agua em uma residencia A conta a realizar eValor pago = minus12365 + 3007 lowast 20 = 47775 reaisA interpretacao deste valor e em media o valor pago em reais por 20m3 deagua consumida e de aproximadamente 478 reais
231 Resıduos
Uma questao fundamental em econometria e identificar o comportamentodos resıduos de um modelo Considere Y o valor real pago e Y valor pagoestimado a partir de um modelo entao este erro e aleatorio e definido por
ϵi = Y i minus Y i (13)
A abordagem mais formal dos erros e feita nos proximos capıtulosUma questao importante e determinar qual o comportamento da estima-tiva destes erros aos quais chamamos de resıduos Para determinar a nor-malidade dos resıduos realizamos o teste de Jarque Bera com a funcao
jarqueberatest() da biblioteca tseries com o seguinte grafico
minus2 minus1 0 1 2
minus 5
0
5
1 0
resiacuteduos do modelo valor= f(consumo)
Theoretical Quantiles
S a m p l e Q u a n t i l e s
Figura 11 Normalidade dos resıduos
Castaneda Daniel F N 2013 41
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4243
24 Exercıcios REFER ENCIAS
24 Exercıcios
1 Por que a econometria precisa ser uma disciplina autonoma
2 Que e econometria
3 Pesquise dados de corte transversal corte longitudinal e de painel
4 Construa uma metodologia econometrica para o consumo familiar emfuncao da renda familiar (linear)
5 No item anterior e possıvel encontrar uma relacao quadratica
6 Quais sao os pressupostos basicos de um modelo de regressao linear
simples
7 Como e chamado o parametro de inclinacao ou tangente num modelode regressao linear simples em econometria
8 Que e o projeto R
9 R e um programa econometrico
Referencias
[1] Albert Jim (2009) Bayesian computation with R Editora SpringerSecond Edition New York USA
[2] Borde Arvind (1992) TEX by example A beginneracutes guide Ed Aca-demic Press Professional United States of America
[3] Carneiro Orlando (1997) Econometria Bacute asica Teoria e Aplicac˜ oes Editora Atlas Segunda Edicao son Paulo
[4] Conover W J (1999) Practical nonparametric statistics 3ed NewYork
[5] Cribari Neto F (2002) C for Econometricians conputational Econo-
mics 14 p135-149
[6] Dalgaard Peter(2008) Introductory Statistics with R Editora SpringerSecond Edition New York USA
[7] Ehlers Ricardo(2007) Analise de series Temporais Universidade Fe-deral do Parana
Castaneda Daniel F N 2013 42
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4343
REFER ENCIAS REFER ENCIAS
[8] Frery Alejandro Cribari-Neto Francisco(2011)Elementos de
Estatıstica conputacional Usando Plataformas de Software Li-vreGratuito Publicacoes Matematicas Editora IMPA
[9] Gujarati Damodar N (2000) Econometria Bacute asica Makron Books Ter-ceira Edicao son Paulo
[10] Knuth DE (1981)The Art of conputer Programming Third EditionVolume 2 Seminumerical Algorithms Addison-Wesley Publishingconpany Massachusetts
[11] Korgi Rodrigo de Castro (2003) El universo LAT E X Editora Facultadde Ciencias Segunda Edicao Bogota
[12] Krawczyk H How to Predict Congruential Generators InJournal of Algorithms V 13 N 4 1992
[13] LrsquoEcuyer P (2001) Software for uniform random number generationdistinguishing the good and the bad In Proceedings of the 2001 WinterSimulation Conference
[14] Maindonald John Braun W John(2010) Data analysis and graphics using R an example-based approach Cambridge University Press NewYork USA
[15] Mingoti(2005)Analise De Dados Atraves De Metodos De Estatistica Multivariada - Uma Abordagem Aplicada Editora UFMG Belo Hori-zonte
Castaneda Daniel F N 2013 43
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 843
16 Fatores ordenados e desordenados 1 INICIANDO O R
plot(tetasin(teta) col=120 pch=16cex=2)
Para modificar a bolinha apenas modificamos pch
plot(tetasin(teta) col=120 pch=+cex=2)
Cores podem tambem ser incrementadas fora do corpo do grafico
plot(tetasin(teta) main=seno colmain=4 col=120 pch=+cex=2)
Outras alteracoes de cores podem ser construıdas com
colmain cor para o tıtulo do grafico
colaxis cor para os numeros dos eixos
collab cor para os tıtulos dos eixoscolsub cor para o subtıtulo do grafico
A fonte pode ser alterada da seguinte maneira
fontmain fonte para o tıtulo do grafico
fontaxis fonte para os numeros dos eixos
fontlab fonte para os tıtulos dos eixos
fontsub fonte para o subtıtulo do grafico
Onde 1 e texto normal 2 preto 3 italico 4 preto italico para simbolofonte A orientacao dos numeros pode ser alterada com o comando las= onde 1 horizontal a x 2 perpendicular a x 3 perpendicular a ambos eixos)
16 Fatores ordenados e desordenados
exemplo
estados=c(PEALSEBAPBBAPBALSEBAPB
+ SE BASEBA)
estadosf=factor(estados)
estadosf
[1] PE AL SE BA PB BA PB AL SE BA PB SE BA SE BA
Levels AL BA PB PE SE
levels(estadosf)[1] AL BA PB PE SE
salarios=c(604959564948565960696658475868)
A funcao tapply e usada para reordenar vetores calculando uma carac-terıstica dos nıveis no exemplo suponha que os salarios medio e o desviopadrao por cada trabalhador por dia nos estados seja dado a seguir
Castaneda Daniel F N 2013 8
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 943
17 Vetores e Matrizes 1 INICIANDO O R
mestados=tapply(salariosestadosfmean) media
mestados
AL BA PB PE SE
5400 5760 5700 6000 5875
destados=tapply(salariosestadosfsd) desvio padr~ao
destados
AL BA PB PE SE
70710678 105498815 85440037 NA 09574271
Construımos a funcao do coeficiente de variacao de duas formas distintase incluımos no comando tapply
cv=function(x) sd(x)100mean(x)cvestados=tapply(salariosestadosfcv)
cvestados
AL BA PB PE SE
13094570 18315767 14989480 NA 1629663
cv=function(x) sqrt(var(x))100mean(x)
cvestados=tapply(salariosestadosfcv)
cvestados
AL BA PB PE SE
13094570 18315767 14989480 NA 1629663
17 Vetores e Matrizes
Um vetor pode ser considerado como a entrada de uma colecao de dadossendo estes numericos ou nao R facilita a manipulacao e construcao de veto-res e matrizes Considere a construcao de 30 numeros aleatorios Uniformesem duas matrizes de 3 linhas por 5 colunas
z=runif(30)
dim(z)=c(352)
z
1
[1] [2] [3] [4] [5]
[1] 09500783 09262226 005847740 034257312 03718370
[2] 08591887 07057183 020592054 003569694 06709746
[3] 06806468 06270572 001570158 021650180 05170189
Castaneda Daniel F N 2013 9
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1043
18 Indexando matrizes 1 INICIANDO O R
2
[1] [2] [3] [4] [5]
[1] 03539723 05918548 037104534 02148440 04169542
[2] 08895178 05751237 069399721 03808024 03872492
[3] 08036340 07065130 003400331 01593949 02306890
18 Indexando matrizes
x=array(120dim=c(45))
x
[1] [2] [3] [4] [5]
[1] 1 5 9 13 17[2] 2 6 10 14 18
[3] 3 7 11 15 19
[4] 4 8 12 16 20
i=array(c(1331)dim=c(32))
i
[1] [2]
[1] 1 3
[2] 2 2
[3] 3 1
gt x[i][ 1 ] 9 6 3
x[13]=9 x[22]=6 x[31]=3
O ındice i indica os valores da matriz x a serem extraıdos temos
x[i]=0 Substituımos x[i] por zero
x
[1] [2] [3] [4] [5]
[1] 1 5 0 13 17
[2] 2 0 10 14 18[3] 0 7 11 15 19
[4] 4 8 12 16 20
Construindo uma matriz 3 times 3 com elementos de 1 ao 9
c=matrix(c(19)33)
Castaneda Daniel F N 2013 10
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1143
19 Sequencias 1 INICIANDO O R
c
[1] [2] [3]
[1] 1 4 7
[2] 2 5 8
[3] 3 6 9
19 Sequencias
Sequencias sao construıdas ingressando o primeiro elemento o ultimoelemento e o espacamento
b=seq(1014 by=5)
b[1] 100 105 110 115 120 125 130 135 140
a=seq(19)
ab=ab multiplicando vetores
ab
[1]
[1] 570
ab=outer(ab)
ab
[1] [2] [3] [4] [5] [6] [7] [8] [9]
[1] 10 105 11 115 12 125 13 135 14
[2] 20 210 22 230 24 250 26 270 28[3] 30 315 33 345 36 375 39 405 42
[4] 40 420 44 460 48 500 52 540 56
[5] 50 525 55 575 60 625 65 675 70
[6] 60 630 66 690 72 750 78 810 84
[7] 70 735 77 805 84 875 91 945 98
[8] 80 840 88 920 96 1000 104 1080 112
[9] 90 945 99 1035 108 1125 117 1215 126
ab=at(b)
ab
[1] [2] [3] [4] [5] [6] [7] [8] [9][1] 10 105 11 115 12 125 13 135 14
[2] 20 210 22 230 24 250 26 270 28
[3] 30 315 33 345 36 375 39 405 42
[4] 40 420 44 460 48 500 52 540 56
[5] 50 525 55 575 60 625 65 675 70
Castaneda Daniel F N 2013 11
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1243
110 Multiplicando matrizes 1 INICIANDO O R
[6] 60 630 66 690 72 750 78 810 84
[7] 70 735 77 805 84 875 91 945 98
[8] 80 840 88 920 96 1000 104 1080 112
[9] 90 945 99 1035 108 1125 117 1215 126
d=outer(0909)
d
[1] [2] [3] [4] [5] [6] [7] [8] [9] [10]
[1] 0 0 0 0 0 0 0 0 0 0
[2] 0 1 2 3 4 5 6 7 8 9
[3] 0 2 4 6 8 10 12 14 16 18
[4] 0 3 6 9 12 15 18 21 24 27
[5] 0 4 8 12 16 20 24 28 32 36
[6] 0 5 10 15 20 25 30 35 40 45
[7] 0 6 12 18 24 30 36 42 48 54
[8] 0 7 14 21 28 35 42 49 56 63
[9] 0 8 16 24 32 40 48 56 64 72
[10] 0 9 18 27 36 45 54 63 72 81
110 Multiplicando matrizes
Para a construcao de matrizes o preenchimentos das celulas ou casas e
feita coluna a coluna como padrao exemplo
a= matrix(c(19)33)
a
[1] [2] [3]
[1] 1 4 7
[2] 2 5 8
[3] 3 6 9
podemos construir esta mesma matriz preenchendo as casas linha por linhada seguinte forma
at=matrix(c(19)33byrow=T)
at
[1] [2] [3]
[1] 1 2 3
[2] 4 5 6
[3] 7 8 9
Castaneda Daniel F N 2013 12
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1343
111 Invers˜ ao de matrizes 1 INICIANDO O R
Uma alternativa seria usar a funcao aperm()
b= aperm(ac(21))
b
[1] [2] [3]
[1] 1 2 3
[2] 4 5 6
[3] 7 8 9
ab multiplicac~ao elemento a elemento
[1] [2] [3]
[1] 1 8 21[2] 8 25 48
[3] 21 48 81
ab multiplicac~ao das matrizes a e b
[1] [2] [3]
[1] 66 78 90
[2] 78 93 108
[3] 90 108 126
crossprod(ab) produto da transposta de a por b
[1] [2] [3]
[1] 30 36 42
[2] 66 81 96
[3] 102 126 150
t(a)b
[1] [2] [3]
[1] 30 36 42
[2] 66 81 96
[3] 102 126 150
111 Inversao de matrizes
c=matrix(c(324572159)33)
d=matrix(c(223582858)33)
c
Castaneda Daniel F N 2013 13
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1443
112 Comandos cbind() e rbind() 1 INICIANDO O R
[1] [2] [3]
[1] 3 5 1
[2] 2 7 5
[3] 4 2 9
gt solve(c)
[1] [2] [3]
[1] 036551724 -029655172 012413793
[2] 001379310 015862069 -008965517
[3] -016551724 009655172 007586207
solve(cd) inverte a matriz c e multiplica por d
[1] [2] [3]
[1] 051034483 -029655172 24344828
[2] 007586207 115862069 01862069
[3] 008965517 009655172 -02344828
gt solve(c)d forma alternativa
[1] [2] [3]
[1] 051034483 -029655172 24344828
[2] 007586207 115862069 01862069
[3] 008965517 009655172 -02344828
112 Comandos cbind() e rbind()
E possıvel formar novas matrizes com as ja existentes usando a funcaocbind() e rbind() a primeira construı matrizes em colunas a segunda emlinhas
cbind(cd)
[1] [2] [3] [4] [5] [6]
[1] 3 5 1 2 5 8
[2] 2 7 5 2 8 5
[3] 4 2 9 3 2 8
rbind(cd)[1] [2] [3]
[1] 3 5 1
[2] 2 7 5
[3] 4 2 9
[4] 2 5 8
Castaneda Daniel F N 2013 14
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1543
113 Autovalores e autovetores 1 INICIANDO O R
[5] 2 8 5
[6] 3 2 8
cbind(1c)
[1] [2] [3] [4]
[1] 1 3 5 1
[2] 1 2 7 5
[3] 1 4 2 9
rbind(1d)
[1] [2] [3]
[1] 1 1 1
[2] 2 5 8
[3] 2 8 5
[4] 3 2 8
113 Autovalores e autovetores
ev=eigen(c) calcula autovalores e autovetores
ev
$values
[1] 13265694+0000000i 2867153+1646172i 2867153-1646172i
$vectors[1] [2] [3]
[1] 03799264+0i 07884141+00000000i 07884141+00000000i
[2] 06480231+0i 00745376+03051027i 00745376-03051027i
[3] 06600924+0i -04774265-02276482i -04774265+02276482
det(c)
[1] 145
det(d)
[1] -57
114 Data frame ou construtor de dados
Suponha um conjunto de dados com tres variaveis sexo (1=homem0=mulher) peso em quilogramas e salario em reais por dia de 12 indivıduosPara calcular a media o resumo de estatısticas descritivas e um grafico (plot)
Castaneda Daniel F N 2013 15
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1643
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1743
116 Func˜ ao readtable() 1 INICIANDO O R
attach(ind)
peso
[1] 67 60 62 69 54 59 57 67 60 65 59 55
salario
[1] 59 40 45 65 55 45 48 67 65 68 62 45
sex
[1] 1 0 0 1 0 0 0 1 1 1 1 0
detach(ind)
salario
Erro objeto rsquosalariorsquo n~ao encontrado
A funcao attach e detach pode ser usada no somente em arquivo dedados dos pacotes do R se nao tambem para listas e data frame
116 Funcao readtable()
Um amplo conjunto de arquivos com diferentes extensoes pode ser lidopor esta funcao
1161 Arquivos com extensao txt
Considere as seguintes variaveis x1 idade dos funcionarios x2 sexo
(1 homem 0 mulher) x3 anos de experiencia na funcao x4 estado civilx5 numero de filhos x6 nota de 0 minus 10 de um teste de avaliacao deconhecimento na sua area x7 teste psicotecnico de 0 a 50 x8 satisfacaocom a vida pessoal estes dados em bloco de notas com extensao txt obtidosde Mingoti 2005 Ver dados na integra no apendice
funcao=readtable(functxtheader=T)
funcao
grupo idade sexo ecivil nfilhos aexper tpsico tconhec satisf
1 0 24 1 1 0 2 77 360 1
2 0 29 1 1 0 4 79 360 13 0 38 1 0 1 6 86 408 0
107 0 24 1 1 0 2 73 360 0
108 0 27 1 0 0 3 74 360 1
109 1 42 1 0 2 14 99 440 1
Castaneda Daniel F N 2013 17
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1843
117 Script com extens˜ ao R 1 INICIANDO O R
Considere os dados de consumo de agua de uma residencia durante
o perıodo de 1205 a 0411 Com as seguintes variaveis valor em reaisconsumo em m3 dias de consumo e construindo o imovel (1sim 2nao)Dados proprios do autor Ver dados na integra no apendice
ca=readtable(consumoagua2txtheader=T) disponıvel em meus documentos
ca
dado valor consumo diasconsumo Construindo
1 1 1476 11 30 0
2 2 1347 10 31 0
64 64 3439 14 31 1
65 65 2221 11 32 0
Observacao use o comando choose() para escolher um conjunto dedados de um diretorio especifico no computador podemos usar
datalt-readtable(filechoose()header=T)
117 Script com extensao R
Exemplo com extensao R lida por readtable com dados do proprio R
exemplo=readtable(filechoose()header=T) dadosrR em aula 3exemplo
dado valor
1 1 115
2 2 117
3 3 118
4 4 119
5 5 127
118 Funcao scan()
A funcao scan tambem pode incluir elementos no R
scan()
1 12
2 13
3 14
Castaneda Daniel F N 2013 18
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1943
119 Func˜ ao sample 1 INICIANDO O R
4 15
5
Read 4 items
[1] 12 13 14 15
Use a funcao scan() para ingressar dados diretamente na plataforma R
119 Funcao sample
Usa-se para escolher aleatoriamente uma amostra de um conjunto deobservacoes ou uma base de dados Como exemplo considere uma amostrade 8 observacoes dos primeiros 20 do banco de dados de consumo de agua
(ca)setseed(10)
ca20=ca[sample(1208)]
ca20
dado valor consumo diasconsumo Construindo
11 11 3153 16 31 1
6 6 1347 10 32 0
8 8 1347 10 30 0
12 12 3755 18 32 1
2 2 1347 10 31 0
4 4 5275 22 33 1
15 15 3755 18 32 0
14 14 1648 11 30 0
120 Rcmdr
Para importar dados do SPSS STATISTICA MINITAB EXCEL TXTetc podemos usar o pacote livre Rcmdr ja disponıvel na biblioteca
library(Rcmdr)
este pacote trabalha via janelas para maior comodidade
121 Dados disponıveis no R
R possuı mais de 100 conjunto de dados alocados no pacote dataset quepodem ser chamados diretamente ( sem extensao) com a funcao data
data()
Castaneda Daniel F N 2013 19
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2043
122 Modificando e editando dados 1 INICIANDO O R
No R pode-se acessar a conjunto de dados de outros pacotes disponıveis
na sua biblioteca Se por acaso esta instalado o pacote lmtest o conjuntode dados ativo neste pacote pode ser chamado da seguinte maneira
data(package=lmtest)
122 Modificando e editando dados
Considere o conjunto de dados anterior Para modificar este conjuntosera disponibilizado uma tela de editor de dados a seguir
xnovo=edit(wagespackage=lmtest)
Para editar um conjunto de dados novo podemos usar a funcao edit daseguinte forma
xn=edit(dataframe())
123 Exportando dados do R para o Excel
Para exportar uma coluna de dados por exemplo o valor pago no con-sumo de agua executamos no R
writeClipboard(ascharacter(valor))
Na tela do Excel usar o comando colar Suponha que esta interessadoem exportar o conjunto de dados ca consumo de agua numa residenciadisponıveis no R para transferir este conjunto de dados use o seguintecomando
writetable(caclipboardsep=tcolnames=NA)
Na tela do Excel faca Ctrl+V ou um click em colar
124 Funcoes apply tapply sapply e lapply
A funcao apply calcula medidas estatısticas por linhas ou por colunas
e a funcao sapply calcula apenas por coluna A diferenca da funcao applyda funcao tapply e que esta ultima calcula medidas estatısticas por estratosConsidere os dados de consumo de agua de uma residencia
apply(ca2mean)
dado valor consumo diasconsumo Construindo
330000000 255690769 126153846 307076923 02615385
Castaneda Daniel F N 2013 20
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2143
125 Distribuic˜ oes de probabilidade 1 INICIANDO O R
tapply(valorConstruindomean)
0 1
2115271 3803882
sapply(camean)
dado valor consumo diasconsumo Construindo
330000000 255690769 126153846 307076923 02615385
lapply(camean) verificar
125 Distribuicoes de probabilidade
R proporciona uma serie de funcoes para variaveis aleatorias estatısticasconhecidas dentro destas funcoes temos distribuicao aleatorizacao proba-
bilidade e quantidadeDistribuicao nome no R argumentos adicionaisbeta beta shape1shap2npcbinomial binom sizeprobcauchy cauchy locationscalechi-quadrado chisq dfnpcexponencial exp rateF f df1df2npcgamma gamma shapescalegeometric geom probhypergeometric hyper mnk
log-normal lnorm meanlogsdloglogistic logis locationscalenegativa binomial nbinom sizeprobnormal norm meansdpoisson pois lambdat-student t dfncpuniforme unif minmaxweibull weibull shapescalewilcoxon wilcoxon mn
Nomes iniciando com ldquodrdquocalculara a densidade da funcao ldquoprdquoparacalcular a probabilidade ou funcao acumulada ldquoqrdquopara o valor quantılico eldquorrdquopara simulacao de numeros aleatoriosExemplos
rpois(105) 10 numeros aleatorios da dist poisson com parametro 5
[1] 3 2 3 1 8 6 1 3 2 3
Castaneda Daniel F N 2013 21
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2243
126 Algoritmos de programac˜ ao no R 1 INICIANDO O R
rnorm(5) 5 numeros aleatorios da normal padr~ao
[1] 004659011 -005019082 -128753167 115411245 -137573809
qt(09550) valor quantilico da t com 50 gl
[1] 1675905
qchisq(0951) valor da qui-quadrado
com 95 de confianc a e 1 g l
[1] 3841459
dpois(45) densidade da dist poisson x=4 parametro=5
[1] 01754674
ppois(45) P(xlt=4) parametro=5
[1] 04404933
126 Algoritmos de programacao no R
R e uma linguagem de programacao orientada a objetos que alem de ana-lisar dados tem sua propria programacao aqui usaremos esta programacaopara analises de estatısticas e econometria Para maiores detalhes podemospesquisar em Venables and Ripley (2000 e 2002) Voce pode estender afuncionalidade do R criando novas funcoes ou programando por exemplo
medianamediarazao lt- function(x)
return(median(x)mean(x))
setseed(20)
z = rexp(10000)
medianamediarazao(z)
[1] 06925193
Construindo a mediana
mediana=function(x)
oddeven=length(x)2
if (oddeven == 0) (sort(x)[length(x)2]+sort(x)[1+ length(x)2])2
else sort(x)[ceiling(length(x)2)]
Construindo a media geometrica
mediageometrica = function (x) exp(mean(log(x)))
Construindo a media harmonica
Castaneda Daniel F N 2013 22
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2343
126 Algoritmos de programac˜ ao no R 1 INICIANDO O R
mediaharmonica=function (x) 1mean(1x)
Um algoritmo que envolva as medidas de tendencia central
medidascentrais = function(y medida)
switch(medida
media = mean(y)
mgeometrica = exp(mean(log(y)))
mharmonica = 1mean(1y)
mediana = median(y)
stop(Medida n~ao inclusa))
medidascentrais(ymedia)
Gerando uma distribuicao uniforme para o lancamento de um dado
ndado=function(x) return(round(runif(x)6+05))
hist(ndado(100000)
Com o comando sample podemos realizar este mesmo experimento daseguinte maneira
gerando=sample(16 100000 replace=TRUE)
hist(gerando)
Considere o seguinte objeto c
c=c(122715365)
Para determinar que classe de objeto e o vetor c podemos identificarusando os seguintes comandos
ischaracter(c)
[1] FALSE
isnumeric(c)
[1] TRUE
A este objeto c podemos a signar nome a cada valor definido da seguinteforma
names(c)=c(abcdef)
c
a b c d e f
10 22 70 150 30 65
Castaneda Daniel F N 2013 23
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2443
127 Lacos no R 1 INICIANDO O R
Podemos associar uma comparacao logica com o vetor c da seguinte
forma
cgt3
a b c d e f
FALSE FALSE TRUE TRUE FALSE TRUE
Quando estamos diante de uma matriz podemos definir os nomes dascolunas com colnames() e os nomes das linhas com rownames() veja oexemplo
d=matrix(c(223582858)33)
colnames(d)=c(c1c2c3)
rownames(d)=c(1o2o3o)
d
c1 c2 c3
1o 2 5 8
2o 2 8 5
3o 3 2 8
A matriz d e entendida como um conjunto de dados que podem serassociados as linhas e as colunas Para determinar se ha associacao entrelinhas e colunas o teste utilizado pode se o qui-quadrado com a funcaochisqtest()
127 Lacos no R
Em algumas situacoes variaveis contınuas podem ser transformadas em variaveisordinais ou dummy para realizar estas operacoes o R proporciona varioslacos como else if ou ifelseExemplo para construir variaveis binarias considere o consumo de aguaonde consumo menor ou igual a 10 m3 e zero e acima de 10 m3 e 1 Ovalor de consumo sendo zero se o valor e menor ou igual a 20 reais e 1 casocontrario
consumoc=numeric(length(consumo))
for(i in 1length(consumo))if (consumo[i]lt=10) consumoc[i]=0
else consumoc[i]=1
valorc=numeric(length(valor))
for(i in 1length(valor))if (valor[i]lt=20) valorc[i]=0 else valorc[i]=1
Castaneda Daniel F N 2013 24
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2543
128 A func˜ ao cut() 1 INICIANDO O R
Nota Podemos construir os lacos considerando a condicao como texto
exemplo consumoc[i]=rdquo[0minus 10]rdquo Comando alternativo de construcao
consumoc2=ifelse(consumolt=10[0-10]Acima de 10)
valorc2=ifelse(valorlt=20[0-20]Acima de 20)
limitacao deste laco e que utilizado apenas para duas condicoes Para lacoscom mais de duas condicoes podemos usar os seguintes comandos
valorc3=numeric(length(valor))
for(i in 1length(valor))if (valor[i]lt20) valorc3[i]=[0-20)
else if (valor[i]lt30)
valorc3[i]=[20-30) else valorc3[i]=[30 a +
table(valorc3)
128 A funcao cut()
Alguma funcoes usam lacos para criar novas variaveis categoricas no exem-plo de valor pago em reais pelo consumo de agua podemos construir cate-gorias por quartis de 25 50 75 1 da seguinte maneira
q=cut(valorquantile(valor) includelowest=T)
table(q)
q
[135165] (165222] (222327] (327693]
17 16 16 16
Outras formas podem ser usando intervalos a criterio pessoal no exemplo aseguir consideramos com valor mınimo 13 e valor maximo 70 com amplitudedo intervalo de 19 e com classes fechadas no mınimo e aberto no maximo
valr=cut(valmseq(137019)right=Fincludeupper=T)
table(valr)
valr
[1332) [3251) [5170)
48 15 2
129 Criando funcoes Teste que compara duas medias
Como exemplo implementamos a estatıstica de comparacao de duasamostras independentes
Castaneda Daniel F N 2013 25
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2643
130 Coeficiente de regressao 1 INICIANDO O R
testeduas lt- function(y1 y2)
+ n1 lt- length(y1) n2 lt- length(y2)
+ yb1 lt- mean(y1) yb2 lt- mean(y2)
+ s1 lt- var(y1) s2 lt- var(y2)
+ s lt- ((n1-1)s1 + (n2-1)s2)(n1+n2-2)
+ tst lt- (yb1 - yb2)sqrt(s(1n1 + 1n2))
+ tst
+
x=runif(20)
y=rnorm(20)
testeduas(xy)
[1] 2874636
Uma forma alternativa e usando a funcao ttest()
ttest(xy)
Welch Two Sample t-test
data x and y
t = 28746 df = 21784 p-value = 0008858
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
01846283 11429380sample estimates
mean of x mean of y
05539270 -01098562
130 Coeficiente de regressao
Implementando o calculo da tangente (inclinacao) do coeficiente no mo-delo de regressao linear simples
mq1lt- function(X y)
+ X lt- qr(X)
+ qrcoef(X y)+
mq1(xy)
[1] -008755885
Castaneda Daniel F N 2013 26
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2743
131 Teste Qui- Quadrado 1 INICIANDO O R
131 Teste Qui- Quadrado
Util para associar linhas e colunas considere os dados em d com as se-guintes hipotesesH0 nao ha associacao entre linhas e colunasHa ha associacao entre linhas e colunas
chisqtest(d)
Pearsonrsquos Chi-squared test
data d
X-squared = 46497 df = 4 p-value = 03252
Warning message
In chisqtest(d) Aproximac~ao Qui-quadrado pode estar incorreta
Para um nıvel α = 0 05 de significancia podemos afirmar que nao haevidencias para afirmar que a associacao entre linhas e colunas (linhas ecolunas sao independentes) Um outro exemplo do uso da distribuicao Qui-quadrado e verificar se um conjunto de dados provem de uma determinadadistribuicao teorica
chisqtest(c)
Chi-squared test for given probabilities
data c
X-squared = 22549 df = 5 p-value = 00004116
Pelo p-value podemos afirmar que a 0 05 de significancia nao ha evi-dencias para afirmar que a distribuicao dos numeros em c sejam uniformesPara implementar este teste de associacao no exemplo de consumo de aguaconsiderando a classificacao mediante lacos (ver lacos no R) entre consumoce valorc temos
table(consumocvalorc)
valorc
consumoc 0 1
0 24 0
Castaneda Daniel F N 2013 27
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2843
132 Teste t - student 1 INICIANDO O R
1 3 38
chisqtest(consumocvalorc)$expected
chisqtest(consumocvalorc)$observed
chisqtest(consumocvalorc)
Pearsonrsquos Chi-squared test with Yatesrsquo continuity correction
data consumoc and valorc
X-squared = 498015 df = 1 p-value = 1701e-12
barplot(table(consumocvalorc) beside=T)
Concluimos que ha associacao entre consumo de agua e o valor pago em
reais
132 Teste t - student
O teste mais usado pelos estatısticos e util para comparar medias deduas amostras tanto independente como emparelhadasExemplo considere as exportacoes mensais (FOB-US) do Brasil durante osanos de 2009 minus 2010 Apos digitacao das observacoes temos
exp2009
[1] 9781920 9586406 11809225 12321617 11984585 14467785 14141930
[8] 13840850 13863222 14081686 12652892 14462624
exp2010[1] 1130507 1219724 1572750 1516121 1770250 1709391 1767292 1923625
[9] 1883279 1838042 1768733 2091814
H0 A medias anuais das exportacoes durante 2009 e 2010 e a mesmaHa CC
ttest(exp2009exp2010paired = FALSE)
Welch Two Sample t-test
data exp2009 and exp2010
t = -42813 df = 18202 p-value = 00004394
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-6075666 -2077757
sample estimates
mean of x mean of y
Castaneda Daniel F N 2013 28
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2943
133 Teste F 1 INICIANDO O R
1274956 1682627
Conclusao nao ha evidencias para aceitar que a media das exportacoesde 2009 e 2010 e a mesma
Quando um conjunto de dados e dado em formato de matriz (dataframe)podemos realizar o teste t de uma coluna em funcao da outra por exemplono consumo de agua queremos testar a hipotese nula H0 o valor de con-sumo de agua e o mesmo construindo ou nao versus a hipotese alternativaHa Caso contrario
attach(ca)
ttest(valor~Construindo)
Welch Two Sample t-test
data valor by Construindo
t = -58383 df = 21731 p-value = 7465e-06
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-2288867 -1088356
sample estimates
mean in group 0 mean in group 1
2115271 3803882
Concluımos que nao ha evidencias para aceitar que o valor de consumode agua e o mesmo quando estamos construindo ( p minus valor lt 005)
Exemplos adicionais podem ser comparando entre as variaveis clas-sificadas (ver secao de lacos) da seguinte forma
ttest(valor~consumoc)
ttest(consumo~valorc)
boxplot(consumo~valorc2 main=Consumo e valor pago em Reais)
boxplot(consumo~valorc3 main=Consumo e valor pago em Reais)
133 Teste F
Para determinar se ha a mesma variabilidade no valor de consumoquando estamos ou nao construindo utilizamos o teste F A hipotese nulae H0 O valor de consumo de agua tem a mesma variabilidade quandoconstruımos que quando nao construımos No R temos
Castaneda Daniel F N 2013 29
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3043
133 Teste F 1 INICIANDO O R
vartest(valor~Construindo)
F test to compare two variances
data valor by Construindo
F = 04834 num df = 47 denom df = 16 p-value = 005478
alternative hypothesis true ratio of variances is not equal to 1
95 percent confidence interval
0194815 1014916
sample estimates
ratio of variances
04834048
Concluımos que nao ha evidencias para rejeitar a hipotese nula por tanto
a variabilidade no valor de consumo e o mesmoO correspondente grafico (Box-plot) e apresentado a seguir
boxplot(valor~Construindo col=8 names=c(n~ao construc~ao construc~ao))
natildeo construccedilatildeo construccedilatildeo
2 0
3 0
4 0
5 0
6 0
7 0
Figura 4 Valor pago em reais no consumo de agua
Em alguns casos ha necessidade de identificar se a variabilidade dasexportacoes e a mesma comparando 2009 e 2010H0 As exportacoes de 2009 e 2010 tem a mesma variabilidade (dados men-sais coletados do site httpwwwipeadatagov)Ha CC
Castaneda Daniel F N 2013 30
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3143
134 Graficos 1 INICIANDO O R
vartest(exp2009exp2010)
F test to compare two variances
data exp2009 and exp2010
F = 03728 num df = 11 denom df = 11 p-value = 01166
alternative hypothesis true ratio of variances is not equal to 1
95 percent confidence interval
01073346 12951624
sample estimates
ratio of variances
03728482
Conclusao Nao houve mudancas na variabilidade das exportacoes de
2009 e 2010
134 Graficos
Considere os dados mensais das exportacoes do Brasil (FOB) durante2009 e 2010 para realizar um grafico de box-plot fazemos
boxplot(exp2009exp2010 main=exportac~oes do Brasil
names=c(20092010))
2009 2010
1 0 0 0 0
1 2 0 0 0
1 4 0 0 0
1 6 0 0 0
1 8 0 0 0
2 0
0 0 0
exportaccedilotildees do Brasil
Figura 5 Exportacoes FOB em dolares
Para o grafico da funcao acumulativa das exportacoes
plot(ecdf(exp2010) dopoint=FALSE verticals=TRUE
lty=3 xlim=c(1000023000))
lines(ecdf(exp2009) dopoint=FALSE verticals=TRUE
col=2)
Castaneda Daniel F N 2013 31
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3243
134 Graficos 1 INICIANDO O R
1 00 00 1 20 00 1 40 00 1 60 00 1 80 00 2 00 00 2 20 00
0 0
0 2
0 4
0 6
0 8
1 0
ecdf(exp2010)
x
F n ( x )
Figura 6 Funcao acumulada das exportacoes 2009-2010
Considere as exportacoes do Brasil um histograma e Q-Q plot sera
hist(exp main=Exportac~oes FOB-US col=8)
qqnorm(exp xlim=c(-55)ylim=c(-100021000))
qqline(exp)
Exportaccedilotildees FOBminusUS$
exp
F r e q u e n c y
0 5000 10000 15000 20000
0
5 0
1 0 0
1 5 0
minus4 minus2 0 2 4
0
5 0 0 0
1 0 0 0 0
1 5 0 0 0
2 0 0 0 0
Normal QminusQ Plot
Theoretical Quantiles
S a m p l e Q u a n t i l e s
Figura 7 Graficos das Exportacoes no Brasil 2001-2010
Para ativar alguns graficos pacotes sao necessarios exemplo
library(MASS)
Castaneda Daniel F N 2013 32
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3343
134 Graficos 1 INICIANDO O R
par(mfrow=c(21))
z = rnorm(500000)
hist(z prob=T)
curve(dnorm(x)add=T)
histscott(z prob=T)
Histogram of z
z
D e n s i t y
minus4 minus2 0 2 4
0 0
0 2
Histogram of x
z
D e n s i t y
minus4 minus2 0 2 4
0 0
0 2
0 4
Figura 8 Histograma de numeros aleatorios normais
boxcox(dist~speed data=cars) transformac~ao Box-Cox
minus2 minus1 0 1 2
minus 4 0 0
minus 3 5 0
minus 3 0 0
minus 2 5 0
λ
l o g minus
L i k e l i h o o d
95
Figura 9 Valor otimo na transformacao Box-Cox
Castaneda Daniel F N 2013 33
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3443
135 Tabelas 1 INICIANDO O R
Para ter um alcance maior sobre a capacidade grafica do R podemos
usar as seguintes funcoes
demo(graphics)
demo(image)
demo(persp)
demo(recursion)
demo(plotmath)
demo(package = packages(allavailable = TRUE))
135 Tabelas
Algumas tabelas estatısticas podem ser construıdas com a funcao table()estado=c(PBPEALSEBAMGESRJPBPEAL
SEBAMGESRJPBPEALSEBAMGESRJ
PBPEALSEBAMGESRJ)
estadof=factor(estado)
estadof
[1] PB PE AL SE BA MG ES RJ PB PE AL SE BA MG ES RJ PB PE AL SE BA
[22] MG ES RJ PB PE AL SE BA MG ES RJ
Levels AL BA ES MG PB PE RJ SE
setseed(10)
salarios=c(round(runif(32)100))
salarios
[1] 51 31 43 69 9 23 27 27 62 43 65 57 11 60 36 43 5 26 40 84 86 62 78 36 41
[26] 71 84 24 77 36 54 9
salariom=tapply(salariosestadofmean)
salariom
AL BA ES MG PB PE RJ SE
5800 4575 4875 4525 3975 4275 2875 5850
salariof=factor(cut(salariosbreaks=0+15(07)))
salariof
[1] (4560] (3045] (3045] (6075] (015] (1530] (1530] (1530] (6075]
[10] (3045] (6075] (4560] (015] (4560] (3045] (3045] (015] (1530]
[19] (3045] (7590] (7590] (6075] (7590] (3045] (3045] (6075] (7590]
[28] (1530] (7590] (3045] (4560] (015]
Levels (015] (1530] (3045] (4560] (6075] (7590]
table(salariofestadof)
estadof
Castaneda Daniel F N 2013 34
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3543
136 Comandos adicionais 2 R E ECONOMETRIA
salariof AL BA ES MG PB PE RJ SE
(015] 0 2 0 0 1 0 1 0
(1530] 0 0 1 1 0 1 1 1
(3045] 2 0 1 1 1 2 2 0
(4560] 0 0 1 1 1 0 0 1
(6075] 1 0 0 1 1 1 0 1
(7590] 1 2 1 0 0 0 0 1
table(salariofestadof)
estadof
salariof AL BA ES MG PB PE RJ SE
(015] 1 1 0 0 1 0 1 2
(1530] 0 0 1 1 0 0 1 1
(3045] 0 0 2 0 0 1 0 0
(4560] 2 0 1 0 0 1 0 0
(6075] 0 1 0 2 3 0 1 0
(7590] 0 1 0 1 0 2 0 1
(90105] 0 1 0 0 0 0 1 0
136 Comandos adicionais
Em situacoes onde a ausencia de informacao ou dados faltantes(missing)as funcoes do R precisam declarar esta ausencia com o comando narm=T
indicando que a informacao apresenta dados faltantes Exemplo
df=c(2NA58NA) O ultimo elemento esta ausente
mean(f) Comando padr~ao para calcular a media
[1] NA
mean(fnarm=T) Comando declarando a ausencia de elementos
[1] 5
2 R e Econometria
Dados economicos precisam de uma atencao matematica para dar fun-
damento a suas teorias Atualmente pelo avanco computacional nao habarreiras para serem aplicadas e torna-se ate divertida se definimos a plata-forma de trabalho computacional A econometria requer de uma abordagemdiferenciada pois faz uso de da teoria economica economia matematica es-tatıstica economica estatıstica matematica e inferencia estatıstica Esta
Castaneda Daniel F N 2013 35
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3643
21 Tipos de Dados 2 R E ECONOMETRIA
disciplina aproxima a Estatıstica da Economia onde a teoria economica for-
mula as hipoteses Por exemplo uma reducao de precos de uma mercadoriadevera aumentar a quantidade demandada dessa mercadoria considerandouma relacao inversa entre preco e quantidade demandada ou a despesa deconsumo per capita depende da renda per capita considerando uma relacaodireta ou seja a medida que a renda aumenta a despesa tende a aumentarOutro exemplo onde consideremos a area microeconomica consumo de aguade uma residencia e o valor pago e natural imaginar que ha uma relacaodireta entre consumo e valor pago pelo consumo Porem precisamos saberqual e quanto e esta forca de relacao por tanto o econometrista forneceesta informacao usando a inferencia estatıstica e a estatıstica economicaAs estimativas de esta relacao fica por conta de estatıstica matematica
Para completar e cerrar este circulo de disciplinas abordadas na Econo-metria precisamos utilizar uma ferramenta de calculo computacional quebrinde estabilidade precisao e rapidez nos seus resultados para superartudo isto utilizaremos o ambiente R A econometria surge como uma disci-plina autonoma em virtude de aglutinar todas estas areas do conhecimentomerecendo um estudo proprio
21 Tipos de Dados
Os tipos de dados sao
1 Dados de corte transversal (cross-section) sao dados de uma ou maisvariaveis coletadas no mesmo ponto do tempo Por exemplo os censosno Brasil sao coletados num instante do tempo No censo variaveisdemograficas sao exploradas como contagem da populacao numerode indivıduos em cada famılia idade dos integrantes da famılia ouvariaveis economicas como renda consumo tipo de moradia (alugadaou propria) etc estes dados sao adquiridas a cada decada pelo IBGE
2 Dados longitudinais ou de series temporais sao caracterizadas porobservacoes ao longo do tempo No Brasil um site que disponibilizadados desta natureza e o IPEADATA
3 Dados de painel e uma mistura de dados de corte transversal e longi-tudinais ou ao longo do tempo estudamos o comportamento de unida-des individuais Por exemplo series mensal do ındice de precos serieanuais do produto interno bruto (PIB) ou serie anual da balanca co-mercial dos municıpios do Brasil considerando cada municıpio comounidades individuais
Castaneda Daniel F N 2013 36
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3743
22 Metodologia 2 R E ECONOMETRIA
22 Metodologia
Os passos da metodologia econometrica tradicional ou classica se iniciadesde a formulacao da hipotese ate as conclusoes em geral sao
221 Hipotese
Como referencia usaremos a hipotese nula H 0 a qual nulifica qualquerdiferenca e a hipoteses alternativa H a aquela que contradiz total ou par-cialmente a hipotese nula Exemplo
1 H 0 nao existe uma relacao entre consumo de agua e valor pago pela
mesma
2 Ha existe uma relacao entre consumo de agua e valor pago pelamesma
A hipotese alternativa pode ser dividida em tres possibilidades no exem-plo do consumo de agua pode ser dividida em existe alguma relacao oua relacao e negativa ou a relacao e positiva A primeira denomina-se dehipotese alternativa com teste bicaudal o segundo de teste unicaudal a es-querda e finalmente o ultimo com teste unicaudal a direita Nosso exemploconsidere H a existe alguma relacao (teste bicaudal)
222 Modelo matematico
Usaremos uma funcao de consumo simples
Y = β 1 + β 2X (11)
A variavel dependente Y valor pago pelo consumo e estimado por Y A variavel independente e X consumo de agua em m3 β 1 representa ovalor pago quando nao ha consumo de agua Nosso interesse e determinara tangente ou a variacao pelo consumo β 2
223 Modelo econometrico do valor pago
O modelo matematico fornece a relacao determinıstica entre valor pagoem reais e consumo de agua porem as relacoes entre as variaveis economicassao em geral inexatas Assim ao longo do tempo no podemos esperar que ovalor pago e o consumo em m3 se situem exatamente numa linha reta isto
Castaneda Daniel F N 2013 37
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3843
22 Metodologia 2 R E ECONOMETRIA
por que alem do consumo outras variaveis afetam o valor pago por exemplo
os dias de consumo o perıodo de reforma da casa ou a inflacao podendoalterar o valor pago pelo consumo
224 Nıvel de significancia
Denominado de α frequentemente usa-se α = 005 em situacoes derisco usa-se α = 001 Em testes bicaudais divide-se α em duas partes elocalizam-se nos extremos da distribuicao de prova Para testes unicaudaislocaliza-se no extremo da distribuicao indicada pela hipotese alternativaNosso exemplo α = 005 e por tanto α2 = 0025
225 Obtencao de Dados
Considere 65 observacoes (mes a mes) do consumo de agua em umaresidencia e o valor pago em reais durante o perıodo de 122005 a 042011Ver dados no apendice A Um plot e apresentado a seguir
10 15 20
2 0
3 0
4 0
5 0
6 0
7 0
Valor pago em reais de consumo de aacutegua
Variaacutevel independenteConsumo em m3
V a r i aacute v e l d e p e n d e n t e V a l o r p a g o
Y = minus12365+3007X
Figura 10 Relacao causal entre consumo e valor pago em reais
Podemos observar visualmente que ha uma relacao positiva entre valorpago e consumo de agua onde a variacao pelo consumo ou variacao dovalor pago (tangente) β 2 cresce positivamente Precisamos verificar se estavariacao β 2 e estatisticamente diferente de zero (significativa)
Castaneda Daniel F N 2013 38
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3943
22 Metodologia 2 R E ECONOMETRIA
226 Estatıstica de prova
Denominada de funcao pivo ou estatıstica de teste No ambito pa-rametrico usa-se as estatısticas t student (amostras pequenas) quando ne grande e indiferente o uso da t student ou normal No exemplo para tes-tar qual a inclinacao da variacao pelo consumo de agua usamos a seguinteestatıstica
t0 =β 2
dp(β 2)asymp tnminus2gl (12)
onde t0 e o valor calculado da estatıstica t β 2 e a estimativa do parametro(variacao pelo consumo) β 2 dp(β 2) e o desvio padrao da estimativa doparametro β 2 o valor t0 segue uma distribuicao t-student com nminus2 graus deliberdade(gl) Os graus de liberdade e calculado diferenciando o tamanhoda amostra com o numero de parametro do modelo (n-p) O valor quantılicotnminus2gl(0025) corresponde a distribuicao t-student com 0025 de significanciacom n minus 2 graus de liberdade e n e o numero total de observacoes Nossoexemplo β 2 = 3007 e dp(β 2) = 013 por tanto t0 = 2313 e comparadocom o valor da tabela da t-student com 63 gl e com α2 = 0025 sendo estevalor igual 19983
227 Tipos de erro
Ocorre o erro tipo I (α) ao se rejeitar a hipotese de nulidade quandodeveria aceita-la Por outro lado quando se aceita a hipotese de nulidadequando deveria rejeita-la comete-se o erro tipo II (β ) Nas duas situacoestomou-se uma decisao errada O interesse e a minimizacao dos erros tipo Ie II que na pratica so e possıvel aumentando-se o tamanho da amostra Porrazoes diversas o aumento do tamanho da amostra muitas vezes torna-se im-praticavel A gravidade do erro tipo I e distinta da do erro tipo II quando seconsegue identificar o erro mais grave a opcao e a minimizacao deste poremquando a probabilidade de ocorrencia de um tipo de erro diminui a do outroaumenta e vice versa Podemos observar este criterio na seguinte tabela
Nao rejeita rejeitaH0 verdadeira Correto (1 minus α) Erro do tipo I (α)H0 falsa Erro do tipo II (β ) Correto (1minus β )
Castaneda Daniel F N 2013 39
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4043
22 Metodologia 2 R E ECONOMETRIA
228 Regra de Decisao
Os pacotes ou plataformas estatısticas apresentam o valor observado dafuncao pivo e o p minus valor (Area de probabilidade esta relacionada comonıvel de significancia) assim a funcao pivo apresenta o valor numerico nafuncao de densidade da Estatıstica exemplo dentro da densidade da normalQuando o pvalor e menor do que α = 005 no caso do teste unicaudal (eα = 0025 no caso bicaudal) concluımos que nao ha evidencia suficiente paraaceitar H0 Caso contrario se o p minus valor for maior que α = 005 podemosconcluir que nao ha evidencia suficiente para rejeitar H0 Nosso exemplot0 = 2313 gt 1998 (1998 e valor da distribuicao t com 63 gl e nıvel designificancia bicaudal de 005) este valor localiza-se na cauda positiva da
distribuicao com 63 graus de liberdade(n minus 2 = 65 minus 2) Por outro lado o pminus valor lt 0025 por tanto nao ha evidencias para aceitar H0 em favor deaceitar que o coeficiente de inclinacao (ou tangente) e positiva No recorrerdo livro usaremos codigos para as medidas do pminusvalor que em geral apareceem todo comando summary() Como consequencia a linha que aparece aseguir sera excluıda das saıdas do R
Signif codes 0 0001 001 005 01 1
sera interpretada da seguinte maneira
bull 0 significancia menor que 0001
bull 0001 significancia menor que 001
bull 001 significancia menor que 005
bull 005 significancia menor que 01
bull 01 significancia menor que 1
229 Conclusoes
Esta parte do teste de hipoteses e explicada em conjunto O Estatıstico eo Economista que sao os profissionais da area em que as observacoes foramcoletadas decidem sobre as providencias futuras No exemplo podemosafirmar que a cada metro cubico a mais de consumo de agua sera pago emmedia 3 reais a mais No momento este valor pago pode parecer alto poremna falta de este liquido elementar este valor pode aumentar e por tantosofrera mudancas
Castaneda Daniel F N 2013 40
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4143
23 Previs˜ oes 2 R E ECONOMETRIA
23 Previsoes
Muitas vezes estamos interessados em determinar o que acontece quandouma quantidade de consumo de agua em m3 e utilizada e qual o valor pagoem reais Por exemplo se nosso interesse e saber quanto sera pago por 20m3
de consumo de agua em uma residencia A conta a realizar eValor pago = minus12365 + 3007 lowast 20 = 47775 reaisA interpretacao deste valor e em media o valor pago em reais por 20m3 deagua consumida e de aproximadamente 478 reais
231 Resıduos
Uma questao fundamental em econometria e identificar o comportamentodos resıduos de um modelo Considere Y o valor real pago e Y valor pagoestimado a partir de um modelo entao este erro e aleatorio e definido por
ϵi = Y i minus Y i (13)
A abordagem mais formal dos erros e feita nos proximos capıtulosUma questao importante e determinar qual o comportamento da estima-tiva destes erros aos quais chamamos de resıduos Para determinar a nor-malidade dos resıduos realizamos o teste de Jarque Bera com a funcao
jarqueberatest() da biblioteca tseries com o seguinte grafico
minus2 minus1 0 1 2
minus 5
0
5
1 0
resiacuteduos do modelo valor= f(consumo)
Theoretical Quantiles
S a m p l e Q u a n t i l e s
Figura 11 Normalidade dos resıduos
Castaneda Daniel F N 2013 41
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4243
24 Exercıcios REFER ENCIAS
24 Exercıcios
1 Por que a econometria precisa ser uma disciplina autonoma
2 Que e econometria
3 Pesquise dados de corte transversal corte longitudinal e de painel
4 Construa uma metodologia econometrica para o consumo familiar emfuncao da renda familiar (linear)
5 No item anterior e possıvel encontrar uma relacao quadratica
6 Quais sao os pressupostos basicos de um modelo de regressao linear
simples
7 Como e chamado o parametro de inclinacao ou tangente num modelode regressao linear simples em econometria
8 Que e o projeto R
9 R e um programa econometrico
Referencias
[1] Albert Jim (2009) Bayesian computation with R Editora SpringerSecond Edition New York USA
[2] Borde Arvind (1992) TEX by example A beginneracutes guide Ed Aca-demic Press Professional United States of America
[3] Carneiro Orlando (1997) Econometria Bacute asica Teoria e Aplicac˜ oes Editora Atlas Segunda Edicao son Paulo
[4] Conover W J (1999) Practical nonparametric statistics 3ed NewYork
[5] Cribari Neto F (2002) C for Econometricians conputational Econo-
mics 14 p135-149
[6] Dalgaard Peter(2008) Introductory Statistics with R Editora SpringerSecond Edition New York USA
[7] Ehlers Ricardo(2007) Analise de series Temporais Universidade Fe-deral do Parana
Castaneda Daniel F N 2013 42
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4343
REFER ENCIAS REFER ENCIAS
[8] Frery Alejandro Cribari-Neto Francisco(2011)Elementos de
Estatıstica conputacional Usando Plataformas de Software Li-vreGratuito Publicacoes Matematicas Editora IMPA
[9] Gujarati Damodar N (2000) Econometria Bacute asica Makron Books Ter-ceira Edicao son Paulo
[10] Knuth DE (1981)The Art of conputer Programming Third EditionVolume 2 Seminumerical Algorithms Addison-Wesley Publishingconpany Massachusetts
[11] Korgi Rodrigo de Castro (2003) El universo LAT E X Editora Facultadde Ciencias Segunda Edicao Bogota
[12] Krawczyk H How to Predict Congruential Generators InJournal of Algorithms V 13 N 4 1992
[13] LrsquoEcuyer P (2001) Software for uniform random number generationdistinguishing the good and the bad In Proceedings of the 2001 WinterSimulation Conference
[14] Maindonald John Braun W John(2010) Data analysis and graphics using R an example-based approach Cambridge University Press NewYork USA
[15] Mingoti(2005)Analise De Dados Atraves De Metodos De Estatistica Multivariada - Uma Abordagem Aplicada Editora UFMG Belo Hori-zonte
Castaneda Daniel F N 2013 43
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 943
17 Vetores e Matrizes 1 INICIANDO O R
mestados=tapply(salariosestadosfmean) media
mestados
AL BA PB PE SE
5400 5760 5700 6000 5875
destados=tapply(salariosestadosfsd) desvio padr~ao
destados
AL BA PB PE SE
70710678 105498815 85440037 NA 09574271
Construımos a funcao do coeficiente de variacao de duas formas distintase incluımos no comando tapply
cv=function(x) sd(x)100mean(x)cvestados=tapply(salariosestadosfcv)
cvestados
AL BA PB PE SE
13094570 18315767 14989480 NA 1629663
cv=function(x) sqrt(var(x))100mean(x)
cvestados=tapply(salariosestadosfcv)
cvestados
AL BA PB PE SE
13094570 18315767 14989480 NA 1629663
17 Vetores e Matrizes
Um vetor pode ser considerado como a entrada de uma colecao de dadossendo estes numericos ou nao R facilita a manipulacao e construcao de veto-res e matrizes Considere a construcao de 30 numeros aleatorios Uniformesem duas matrizes de 3 linhas por 5 colunas
z=runif(30)
dim(z)=c(352)
z
1
[1] [2] [3] [4] [5]
[1] 09500783 09262226 005847740 034257312 03718370
[2] 08591887 07057183 020592054 003569694 06709746
[3] 06806468 06270572 001570158 021650180 05170189
Castaneda Daniel F N 2013 9
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1043
18 Indexando matrizes 1 INICIANDO O R
2
[1] [2] [3] [4] [5]
[1] 03539723 05918548 037104534 02148440 04169542
[2] 08895178 05751237 069399721 03808024 03872492
[3] 08036340 07065130 003400331 01593949 02306890
18 Indexando matrizes
x=array(120dim=c(45))
x
[1] [2] [3] [4] [5]
[1] 1 5 9 13 17[2] 2 6 10 14 18
[3] 3 7 11 15 19
[4] 4 8 12 16 20
i=array(c(1331)dim=c(32))
i
[1] [2]
[1] 1 3
[2] 2 2
[3] 3 1
gt x[i][ 1 ] 9 6 3
x[13]=9 x[22]=6 x[31]=3
O ındice i indica os valores da matriz x a serem extraıdos temos
x[i]=0 Substituımos x[i] por zero
x
[1] [2] [3] [4] [5]
[1] 1 5 0 13 17
[2] 2 0 10 14 18[3] 0 7 11 15 19
[4] 4 8 12 16 20
Construindo uma matriz 3 times 3 com elementos de 1 ao 9
c=matrix(c(19)33)
Castaneda Daniel F N 2013 10
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1143
19 Sequencias 1 INICIANDO O R
c
[1] [2] [3]
[1] 1 4 7
[2] 2 5 8
[3] 3 6 9
19 Sequencias
Sequencias sao construıdas ingressando o primeiro elemento o ultimoelemento e o espacamento
b=seq(1014 by=5)
b[1] 100 105 110 115 120 125 130 135 140
a=seq(19)
ab=ab multiplicando vetores
ab
[1]
[1] 570
ab=outer(ab)
ab
[1] [2] [3] [4] [5] [6] [7] [8] [9]
[1] 10 105 11 115 12 125 13 135 14
[2] 20 210 22 230 24 250 26 270 28[3] 30 315 33 345 36 375 39 405 42
[4] 40 420 44 460 48 500 52 540 56
[5] 50 525 55 575 60 625 65 675 70
[6] 60 630 66 690 72 750 78 810 84
[7] 70 735 77 805 84 875 91 945 98
[8] 80 840 88 920 96 1000 104 1080 112
[9] 90 945 99 1035 108 1125 117 1215 126
ab=at(b)
ab
[1] [2] [3] [4] [5] [6] [7] [8] [9][1] 10 105 11 115 12 125 13 135 14
[2] 20 210 22 230 24 250 26 270 28
[3] 30 315 33 345 36 375 39 405 42
[4] 40 420 44 460 48 500 52 540 56
[5] 50 525 55 575 60 625 65 675 70
Castaneda Daniel F N 2013 11
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1243
110 Multiplicando matrizes 1 INICIANDO O R
[6] 60 630 66 690 72 750 78 810 84
[7] 70 735 77 805 84 875 91 945 98
[8] 80 840 88 920 96 1000 104 1080 112
[9] 90 945 99 1035 108 1125 117 1215 126
d=outer(0909)
d
[1] [2] [3] [4] [5] [6] [7] [8] [9] [10]
[1] 0 0 0 0 0 0 0 0 0 0
[2] 0 1 2 3 4 5 6 7 8 9
[3] 0 2 4 6 8 10 12 14 16 18
[4] 0 3 6 9 12 15 18 21 24 27
[5] 0 4 8 12 16 20 24 28 32 36
[6] 0 5 10 15 20 25 30 35 40 45
[7] 0 6 12 18 24 30 36 42 48 54
[8] 0 7 14 21 28 35 42 49 56 63
[9] 0 8 16 24 32 40 48 56 64 72
[10] 0 9 18 27 36 45 54 63 72 81
110 Multiplicando matrizes
Para a construcao de matrizes o preenchimentos das celulas ou casas e
feita coluna a coluna como padrao exemplo
a= matrix(c(19)33)
a
[1] [2] [3]
[1] 1 4 7
[2] 2 5 8
[3] 3 6 9
podemos construir esta mesma matriz preenchendo as casas linha por linhada seguinte forma
at=matrix(c(19)33byrow=T)
at
[1] [2] [3]
[1] 1 2 3
[2] 4 5 6
[3] 7 8 9
Castaneda Daniel F N 2013 12
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1343
111 Invers˜ ao de matrizes 1 INICIANDO O R
Uma alternativa seria usar a funcao aperm()
b= aperm(ac(21))
b
[1] [2] [3]
[1] 1 2 3
[2] 4 5 6
[3] 7 8 9
ab multiplicac~ao elemento a elemento
[1] [2] [3]
[1] 1 8 21[2] 8 25 48
[3] 21 48 81
ab multiplicac~ao das matrizes a e b
[1] [2] [3]
[1] 66 78 90
[2] 78 93 108
[3] 90 108 126
crossprod(ab) produto da transposta de a por b
[1] [2] [3]
[1] 30 36 42
[2] 66 81 96
[3] 102 126 150
t(a)b
[1] [2] [3]
[1] 30 36 42
[2] 66 81 96
[3] 102 126 150
111 Inversao de matrizes
c=matrix(c(324572159)33)
d=matrix(c(223582858)33)
c
Castaneda Daniel F N 2013 13
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1443
112 Comandos cbind() e rbind() 1 INICIANDO O R
[1] [2] [3]
[1] 3 5 1
[2] 2 7 5
[3] 4 2 9
gt solve(c)
[1] [2] [3]
[1] 036551724 -029655172 012413793
[2] 001379310 015862069 -008965517
[3] -016551724 009655172 007586207
solve(cd) inverte a matriz c e multiplica por d
[1] [2] [3]
[1] 051034483 -029655172 24344828
[2] 007586207 115862069 01862069
[3] 008965517 009655172 -02344828
gt solve(c)d forma alternativa
[1] [2] [3]
[1] 051034483 -029655172 24344828
[2] 007586207 115862069 01862069
[3] 008965517 009655172 -02344828
112 Comandos cbind() e rbind()
E possıvel formar novas matrizes com as ja existentes usando a funcaocbind() e rbind() a primeira construı matrizes em colunas a segunda emlinhas
cbind(cd)
[1] [2] [3] [4] [5] [6]
[1] 3 5 1 2 5 8
[2] 2 7 5 2 8 5
[3] 4 2 9 3 2 8
rbind(cd)[1] [2] [3]
[1] 3 5 1
[2] 2 7 5
[3] 4 2 9
[4] 2 5 8
Castaneda Daniel F N 2013 14
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1543
113 Autovalores e autovetores 1 INICIANDO O R
[5] 2 8 5
[6] 3 2 8
cbind(1c)
[1] [2] [3] [4]
[1] 1 3 5 1
[2] 1 2 7 5
[3] 1 4 2 9
rbind(1d)
[1] [2] [3]
[1] 1 1 1
[2] 2 5 8
[3] 2 8 5
[4] 3 2 8
113 Autovalores e autovetores
ev=eigen(c) calcula autovalores e autovetores
ev
$values
[1] 13265694+0000000i 2867153+1646172i 2867153-1646172i
$vectors[1] [2] [3]
[1] 03799264+0i 07884141+00000000i 07884141+00000000i
[2] 06480231+0i 00745376+03051027i 00745376-03051027i
[3] 06600924+0i -04774265-02276482i -04774265+02276482
det(c)
[1] 145
det(d)
[1] -57
114 Data frame ou construtor de dados
Suponha um conjunto de dados com tres variaveis sexo (1=homem0=mulher) peso em quilogramas e salario em reais por dia de 12 indivıduosPara calcular a media o resumo de estatısticas descritivas e um grafico (plot)
Castaneda Daniel F N 2013 15
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1643
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1743
116 Func˜ ao readtable() 1 INICIANDO O R
attach(ind)
peso
[1] 67 60 62 69 54 59 57 67 60 65 59 55
salario
[1] 59 40 45 65 55 45 48 67 65 68 62 45
sex
[1] 1 0 0 1 0 0 0 1 1 1 1 0
detach(ind)
salario
Erro objeto rsquosalariorsquo n~ao encontrado
A funcao attach e detach pode ser usada no somente em arquivo dedados dos pacotes do R se nao tambem para listas e data frame
116 Funcao readtable()
Um amplo conjunto de arquivos com diferentes extensoes pode ser lidopor esta funcao
1161 Arquivos com extensao txt
Considere as seguintes variaveis x1 idade dos funcionarios x2 sexo
(1 homem 0 mulher) x3 anos de experiencia na funcao x4 estado civilx5 numero de filhos x6 nota de 0 minus 10 de um teste de avaliacao deconhecimento na sua area x7 teste psicotecnico de 0 a 50 x8 satisfacaocom a vida pessoal estes dados em bloco de notas com extensao txt obtidosde Mingoti 2005 Ver dados na integra no apendice
funcao=readtable(functxtheader=T)
funcao
grupo idade sexo ecivil nfilhos aexper tpsico tconhec satisf
1 0 24 1 1 0 2 77 360 1
2 0 29 1 1 0 4 79 360 13 0 38 1 0 1 6 86 408 0
107 0 24 1 1 0 2 73 360 0
108 0 27 1 0 0 3 74 360 1
109 1 42 1 0 2 14 99 440 1
Castaneda Daniel F N 2013 17
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1843
117 Script com extens˜ ao R 1 INICIANDO O R
Considere os dados de consumo de agua de uma residencia durante
o perıodo de 1205 a 0411 Com as seguintes variaveis valor em reaisconsumo em m3 dias de consumo e construindo o imovel (1sim 2nao)Dados proprios do autor Ver dados na integra no apendice
ca=readtable(consumoagua2txtheader=T) disponıvel em meus documentos
ca
dado valor consumo diasconsumo Construindo
1 1 1476 11 30 0
2 2 1347 10 31 0
64 64 3439 14 31 1
65 65 2221 11 32 0
Observacao use o comando choose() para escolher um conjunto dedados de um diretorio especifico no computador podemos usar
datalt-readtable(filechoose()header=T)
117 Script com extensao R
Exemplo com extensao R lida por readtable com dados do proprio R
exemplo=readtable(filechoose()header=T) dadosrR em aula 3exemplo
dado valor
1 1 115
2 2 117
3 3 118
4 4 119
5 5 127
118 Funcao scan()
A funcao scan tambem pode incluir elementos no R
scan()
1 12
2 13
3 14
Castaneda Daniel F N 2013 18
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1943
119 Func˜ ao sample 1 INICIANDO O R
4 15
5
Read 4 items
[1] 12 13 14 15
Use a funcao scan() para ingressar dados diretamente na plataforma R
119 Funcao sample
Usa-se para escolher aleatoriamente uma amostra de um conjunto deobservacoes ou uma base de dados Como exemplo considere uma amostrade 8 observacoes dos primeiros 20 do banco de dados de consumo de agua
(ca)setseed(10)
ca20=ca[sample(1208)]
ca20
dado valor consumo diasconsumo Construindo
11 11 3153 16 31 1
6 6 1347 10 32 0
8 8 1347 10 30 0
12 12 3755 18 32 1
2 2 1347 10 31 0
4 4 5275 22 33 1
15 15 3755 18 32 0
14 14 1648 11 30 0
120 Rcmdr
Para importar dados do SPSS STATISTICA MINITAB EXCEL TXTetc podemos usar o pacote livre Rcmdr ja disponıvel na biblioteca
library(Rcmdr)
este pacote trabalha via janelas para maior comodidade
121 Dados disponıveis no R
R possuı mais de 100 conjunto de dados alocados no pacote dataset quepodem ser chamados diretamente ( sem extensao) com a funcao data
data()
Castaneda Daniel F N 2013 19
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2043
122 Modificando e editando dados 1 INICIANDO O R
No R pode-se acessar a conjunto de dados de outros pacotes disponıveis
na sua biblioteca Se por acaso esta instalado o pacote lmtest o conjuntode dados ativo neste pacote pode ser chamado da seguinte maneira
data(package=lmtest)
122 Modificando e editando dados
Considere o conjunto de dados anterior Para modificar este conjuntosera disponibilizado uma tela de editor de dados a seguir
xnovo=edit(wagespackage=lmtest)
Para editar um conjunto de dados novo podemos usar a funcao edit daseguinte forma
xn=edit(dataframe())
123 Exportando dados do R para o Excel
Para exportar uma coluna de dados por exemplo o valor pago no con-sumo de agua executamos no R
writeClipboard(ascharacter(valor))
Na tela do Excel usar o comando colar Suponha que esta interessadoem exportar o conjunto de dados ca consumo de agua numa residenciadisponıveis no R para transferir este conjunto de dados use o seguintecomando
writetable(caclipboardsep=tcolnames=NA)
Na tela do Excel faca Ctrl+V ou um click em colar
124 Funcoes apply tapply sapply e lapply
A funcao apply calcula medidas estatısticas por linhas ou por colunas
e a funcao sapply calcula apenas por coluna A diferenca da funcao applyda funcao tapply e que esta ultima calcula medidas estatısticas por estratosConsidere os dados de consumo de agua de uma residencia
apply(ca2mean)
dado valor consumo diasconsumo Construindo
330000000 255690769 126153846 307076923 02615385
Castaneda Daniel F N 2013 20
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2143
125 Distribuic˜ oes de probabilidade 1 INICIANDO O R
tapply(valorConstruindomean)
0 1
2115271 3803882
sapply(camean)
dado valor consumo diasconsumo Construindo
330000000 255690769 126153846 307076923 02615385
lapply(camean) verificar
125 Distribuicoes de probabilidade
R proporciona uma serie de funcoes para variaveis aleatorias estatısticasconhecidas dentro destas funcoes temos distribuicao aleatorizacao proba-
bilidade e quantidadeDistribuicao nome no R argumentos adicionaisbeta beta shape1shap2npcbinomial binom sizeprobcauchy cauchy locationscalechi-quadrado chisq dfnpcexponencial exp rateF f df1df2npcgamma gamma shapescalegeometric geom probhypergeometric hyper mnk
log-normal lnorm meanlogsdloglogistic logis locationscalenegativa binomial nbinom sizeprobnormal norm meansdpoisson pois lambdat-student t dfncpuniforme unif minmaxweibull weibull shapescalewilcoxon wilcoxon mn
Nomes iniciando com ldquodrdquocalculara a densidade da funcao ldquoprdquoparacalcular a probabilidade ou funcao acumulada ldquoqrdquopara o valor quantılico eldquorrdquopara simulacao de numeros aleatoriosExemplos
rpois(105) 10 numeros aleatorios da dist poisson com parametro 5
[1] 3 2 3 1 8 6 1 3 2 3
Castaneda Daniel F N 2013 21
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2243
126 Algoritmos de programac˜ ao no R 1 INICIANDO O R
rnorm(5) 5 numeros aleatorios da normal padr~ao
[1] 004659011 -005019082 -128753167 115411245 -137573809
qt(09550) valor quantilico da t com 50 gl
[1] 1675905
qchisq(0951) valor da qui-quadrado
com 95 de confianc a e 1 g l
[1] 3841459
dpois(45) densidade da dist poisson x=4 parametro=5
[1] 01754674
ppois(45) P(xlt=4) parametro=5
[1] 04404933
126 Algoritmos de programacao no R
R e uma linguagem de programacao orientada a objetos que alem de ana-lisar dados tem sua propria programacao aqui usaremos esta programacaopara analises de estatısticas e econometria Para maiores detalhes podemospesquisar em Venables and Ripley (2000 e 2002) Voce pode estender afuncionalidade do R criando novas funcoes ou programando por exemplo
medianamediarazao lt- function(x)
return(median(x)mean(x))
setseed(20)
z = rexp(10000)
medianamediarazao(z)
[1] 06925193
Construindo a mediana
mediana=function(x)
oddeven=length(x)2
if (oddeven == 0) (sort(x)[length(x)2]+sort(x)[1+ length(x)2])2
else sort(x)[ceiling(length(x)2)]
Construindo a media geometrica
mediageometrica = function (x) exp(mean(log(x)))
Construindo a media harmonica
Castaneda Daniel F N 2013 22
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2343
126 Algoritmos de programac˜ ao no R 1 INICIANDO O R
mediaharmonica=function (x) 1mean(1x)
Um algoritmo que envolva as medidas de tendencia central
medidascentrais = function(y medida)
switch(medida
media = mean(y)
mgeometrica = exp(mean(log(y)))
mharmonica = 1mean(1y)
mediana = median(y)
stop(Medida n~ao inclusa))
medidascentrais(ymedia)
Gerando uma distribuicao uniforme para o lancamento de um dado
ndado=function(x) return(round(runif(x)6+05))
hist(ndado(100000)
Com o comando sample podemos realizar este mesmo experimento daseguinte maneira
gerando=sample(16 100000 replace=TRUE)
hist(gerando)
Considere o seguinte objeto c
c=c(122715365)
Para determinar que classe de objeto e o vetor c podemos identificarusando os seguintes comandos
ischaracter(c)
[1] FALSE
isnumeric(c)
[1] TRUE
A este objeto c podemos a signar nome a cada valor definido da seguinteforma
names(c)=c(abcdef)
c
a b c d e f
10 22 70 150 30 65
Castaneda Daniel F N 2013 23
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2443
127 Lacos no R 1 INICIANDO O R
Podemos associar uma comparacao logica com o vetor c da seguinte
forma
cgt3
a b c d e f
FALSE FALSE TRUE TRUE FALSE TRUE
Quando estamos diante de uma matriz podemos definir os nomes dascolunas com colnames() e os nomes das linhas com rownames() veja oexemplo
d=matrix(c(223582858)33)
colnames(d)=c(c1c2c3)
rownames(d)=c(1o2o3o)
d
c1 c2 c3
1o 2 5 8
2o 2 8 5
3o 3 2 8
A matriz d e entendida como um conjunto de dados que podem serassociados as linhas e as colunas Para determinar se ha associacao entrelinhas e colunas o teste utilizado pode se o qui-quadrado com a funcaochisqtest()
127 Lacos no R
Em algumas situacoes variaveis contınuas podem ser transformadas em variaveisordinais ou dummy para realizar estas operacoes o R proporciona varioslacos como else if ou ifelseExemplo para construir variaveis binarias considere o consumo de aguaonde consumo menor ou igual a 10 m3 e zero e acima de 10 m3 e 1 Ovalor de consumo sendo zero se o valor e menor ou igual a 20 reais e 1 casocontrario
consumoc=numeric(length(consumo))
for(i in 1length(consumo))if (consumo[i]lt=10) consumoc[i]=0
else consumoc[i]=1
valorc=numeric(length(valor))
for(i in 1length(valor))if (valor[i]lt=20) valorc[i]=0 else valorc[i]=1
Castaneda Daniel F N 2013 24
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2543
128 A func˜ ao cut() 1 INICIANDO O R
Nota Podemos construir os lacos considerando a condicao como texto
exemplo consumoc[i]=rdquo[0minus 10]rdquo Comando alternativo de construcao
consumoc2=ifelse(consumolt=10[0-10]Acima de 10)
valorc2=ifelse(valorlt=20[0-20]Acima de 20)
limitacao deste laco e que utilizado apenas para duas condicoes Para lacoscom mais de duas condicoes podemos usar os seguintes comandos
valorc3=numeric(length(valor))
for(i in 1length(valor))if (valor[i]lt20) valorc3[i]=[0-20)
else if (valor[i]lt30)
valorc3[i]=[20-30) else valorc3[i]=[30 a +
table(valorc3)
128 A funcao cut()
Alguma funcoes usam lacos para criar novas variaveis categoricas no exem-plo de valor pago em reais pelo consumo de agua podemos construir cate-gorias por quartis de 25 50 75 1 da seguinte maneira
q=cut(valorquantile(valor) includelowest=T)
table(q)
q
[135165] (165222] (222327] (327693]
17 16 16 16
Outras formas podem ser usando intervalos a criterio pessoal no exemplo aseguir consideramos com valor mınimo 13 e valor maximo 70 com amplitudedo intervalo de 19 e com classes fechadas no mınimo e aberto no maximo
valr=cut(valmseq(137019)right=Fincludeupper=T)
table(valr)
valr
[1332) [3251) [5170)
48 15 2
129 Criando funcoes Teste que compara duas medias
Como exemplo implementamos a estatıstica de comparacao de duasamostras independentes
Castaneda Daniel F N 2013 25
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2643
130 Coeficiente de regressao 1 INICIANDO O R
testeduas lt- function(y1 y2)
+ n1 lt- length(y1) n2 lt- length(y2)
+ yb1 lt- mean(y1) yb2 lt- mean(y2)
+ s1 lt- var(y1) s2 lt- var(y2)
+ s lt- ((n1-1)s1 + (n2-1)s2)(n1+n2-2)
+ tst lt- (yb1 - yb2)sqrt(s(1n1 + 1n2))
+ tst
+
x=runif(20)
y=rnorm(20)
testeduas(xy)
[1] 2874636
Uma forma alternativa e usando a funcao ttest()
ttest(xy)
Welch Two Sample t-test
data x and y
t = 28746 df = 21784 p-value = 0008858
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
01846283 11429380sample estimates
mean of x mean of y
05539270 -01098562
130 Coeficiente de regressao
Implementando o calculo da tangente (inclinacao) do coeficiente no mo-delo de regressao linear simples
mq1lt- function(X y)
+ X lt- qr(X)
+ qrcoef(X y)+
mq1(xy)
[1] -008755885
Castaneda Daniel F N 2013 26
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2743
131 Teste Qui- Quadrado 1 INICIANDO O R
131 Teste Qui- Quadrado
Util para associar linhas e colunas considere os dados em d com as se-guintes hipotesesH0 nao ha associacao entre linhas e colunasHa ha associacao entre linhas e colunas
chisqtest(d)
Pearsonrsquos Chi-squared test
data d
X-squared = 46497 df = 4 p-value = 03252
Warning message
In chisqtest(d) Aproximac~ao Qui-quadrado pode estar incorreta
Para um nıvel α = 0 05 de significancia podemos afirmar que nao haevidencias para afirmar que a associacao entre linhas e colunas (linhas ecolunas sao independentes) Um outro exemplo do uso da distribuicao Qui-quadrado e verificar se um conjunto de dados provem de uma determinadadistribuicao teorica
chisqtest(c)
Chi-squared test for given probabilities
data c
X-squared = 22549 df = 5 p-value = 00004116
Pelo p-value podemos afirmar que a 0 05 de significancia nao ha evi-dencias para afirmar que a distribuicao dos numeros em c sejam uniformesPara implementar este teste de associacao no exemplo de consumo de aguaconsiderando a classificacao mediante lacos (ver lacos no R) entre consumoce valorc temos
table(consumocvalorc)
valorc
consumoc 0 1
0 24 0
Castaneda Daniel F N 2013 27
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2843
132 Teste t - student 1 INICIANDO O R
1 3 38
chisqtest(consumocvalorc)$expected
chisqtest(consumocvalorc)$observed
chisqtest(consumocvalorc)
Pearsonrsquos Chi-squared test with Yatesrsquo continuity correction
data consumoc and valorc
X-squared = 498015 df = 1 p-value = 1701e-12
barplot(table(consumocvalorc) beside=T)
Concluimos que ha associacao entre consumo de agua e o valor pago em
reais
132 Teste t - student
O teste mais usado pelos estatısticos e util para comparar medias deduas amostras tanto independente como emparelhadasExemplo considere as exportacoes mensais (FOB-US) do Brasil durante osanos de 2009 minus 2010 Apos digitacao das observacoes temos
exp2009
[1] 9781920 9586406 11809225 12321617 11984585 14467785 14141930
[8] 13840850 13863222 14081686 12652892 14462624
exp2010[1] 1130507 1219724 1572750 1516121 1770250 1709391 1767292 1923625
[9] 1883279 1838042 1768733 2091814
H0 A medias anuais das exportacoes durante 2009 e 2010 e a mesmaHa CC
ttest(exp2009exp2010paired = FALSE)
Welch Two Sample t-test
data exp2009 and exp2010
t = -42813 df = 18202 p-value = 00004394
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-6075666 -2077757
sample estimates
mean of x mean of y
Castaneda Daniel F N 2013 28
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2943
133 Teste F 1 INICIANDO O R
1274956 1682627
Conclusao nao ha evidencias para aceitar que a media das exportacoesde 2009 e 2010 e a mesma
Quando um conjunto de dados e dado em formato de matriz (dataframe)podemos realizar o teste t de uma coluna em funcao da outra por exemplono consumo de agua queremos testar a hipotese nula H0 o valor de con-sumo de agua e o mesmo construindo ou nao versus a hipotese alternativaHa Caso contrario
attach(ca)
ttest(valor~Construindo)
Welch Two Sample t-test
data valor by Construindo
t = -58383 df = 21731 p-value = 7465e-06
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-2288867 -1088356
sample estimates
mean in group 0 mean in group 1
2115271 3803882
Concluımos que nao ha evidencias para aceitar que o valor de consumode agua e o mesmo quando estamos construindo ( p minus valor lt 005)
Exemplos adicionais podem ser comparando entre as variaveis clas-sificadas (ver secao de lacos) da seguinte forma
ttest(valor~consumoc)
ttest(consumo~valorc)
boxplot(consumo~valorc2 main=Consumo e valor pago em Reais)
boxplot(consumo~valorc3 main=Consumo e valor pago em Reais)
133 Teste F
Para determinar se ha a mesma variabilidade no valor de consumoquando estamos ou nao construindo utilizamos o teste F A hipotese nulae H0 O valor de consumo de agua tem a mesma variabilidade quandoconstruımos que quando nao construımos No R temos
Castaneda Daniel F N 2013 29
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3043
133 Teste F 1 INICIANDO O R
vartest(valor~Construindo)
F test to compare two variances
data valor by Construindo
F = 04834 num df = 47 denom df = 16 p-value = 005478
alternative hypothesis true ratio of variances is not equal to 1
95 percent confidence interval
0194815 1014916
sample estimates
ratio of variances
04834048
Concluımos que nao ha evidencias para rejeitar a hipotese nula por tanto
a variabilidade no valor de consumo e o mesmoO correspondente grafico (Box-plot) e apresentado a seguir
boxplot(valor~Construindo col=8 names=c(n~ao construc~ao construc~ao))
natildeo construccedilatildeo construccedilatildeo
2 0
3 0
4 0
5 0
6 0
7 0
Figura 4 Valor pago em reais no consumo de agua
Em alguns casos ha necessidade de identificar se a variabilidade dasexportacoes e a mesma comparando 2009 e 2010H0 As exportacoes de 2009 e 2010 tem a mesma variabilidade (dados men-sais coletados do site httpwwwipeadatagov)Ha CC
Castaneda Daniel F N 2013 30
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3143
134 Graficos 1 INICIANDO O R
vartest(exp2009exp2010)
F test to compare two variances
data exp2009 and exp2010
F = 03728 num df = 11 denom df = 11 p-value = 01166
alternative hypothesis true ratio of variances is not equal to 1
95 percent confidence interval
01073346 12951624
sample estimates
ratio of variances
03728482
Conclusao Nao houve mudancas na variabilidade das exportacoes de
2009 e 2010
134 Graficos
Considere os dados mensais das exportacoes do Brasil (FOB) durante2009 e 2010 para realizar um grafico de box-plot fazemos
boxplot(exp2009exp2010 main=exportac~oes do Brasil
names=c(20092010))
2009 2010
1 0 0 0 0
1 2 0 0 0
1 4 0 0 0
1 6 0 0 0
1 8 0 0 0
2 0
0 0 0
exportaccedilotildees do Brasil
Figura 5 Exportacoes FOB em dolares
Para o grafico da funcao acumulativa das exportacoes
plot(ecdf(exp2010) dopoint=FALSE verticals=TRUE
lty=3 xlim=c(1000023000))
lines(ecdf(exp2009) dopoint=FALSE verticals=TRUE
col=2)
Castaneda Daniel F N 2013 31
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3243
134 Graficos 1 INICIANDO O R
1 00 00 1 20 00 1 40 00 1 60 00 1 80 00 2 00 00 2 20 00
0 0
0 2
0 4
0 6
0 8
1 0
ecdf(exp2010)
x
F n ( x )
Figura 6 Funcao acumulada das exportacoes 2009-2010
Considere as exportacoes do Brasil um histograma e Q-Q plot sera
hist(exp main=Exportac~oes FOB-US col=8)
qqnorm(exp xlim=c(-55)ylim=c(-100021000))
qqline(exp)
Exportaccedilotildees FOBminusUS$
exp
F r e q u e n c y
0 5000 10000 15000 20000
0
5 0
1 0 0
1 5 0
minus4 minus2 0 2 4
0
5 0 0 0
1 0 0 0 0
1 5 0 0 0
2 0 0 0 0
Normal QminusQ Plot
Theoretical Quantiles
S a m p l e Q u a n t i l e s
Figura 7 Graficos das Exportacoes no Brasil 2001-2010
Para ativar alguns graficos pacotes sao necessarios exemplo
library(MASS)
Castaneda Daniel F N 2013 32
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3343
134 Graficos 1 INICIANDO O R
par(mfrow=c(21))
z = rnorm(500000)
hist(z prob=T)
curve(dnorm(x)add=T)
histscott(z prob=T)
Histogram of z
z
D e n s i t y
minus4 minus2 0 2 4
0 0
0 2
Histogram of x
z
D e n s i t y
minus4 minus2 0 2 4
0 0
0 2
0 4
Figura 8 Histograma de numeros aleatorios normais
boxcox(dist~speed data=cars) transformac~ao Box-Cox
minus2 minus1 0 1 2
minus 4 0 0
minus 3 5 0
minus 3 0 0
minus 2 5 0
λ
l o g minus
L i k e l i h o o d
95
Figura 9 Valor otimo na transformacao Box-Cox
Castaneda Daniel F N 2013 33
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3443
135 Tabelas 1 INICIANDO O R
Para ter um alcance maior sobre a capacidade grafica do R podemos
usar as seguintes funcoes
demo(graphics)
demo(image)
demo(persp)
demo(recursion)
demo(plotmath)
demo(package = packages(allavailable = TRUE))
135 Tabelas
Algumas tabelas estatısticas podem ser construıdas com a funcao table()estado=c(PBPEALSEBAMGESRJPBPEAL
SEBAMGESRJPBPEALSEBAMGESRJ
PBPEALSEBAMGESRJ)
estadof=factor(estado)
estadof
[1] PB PE AL SE BA MG ES RJ PB PE AL SE BA MG ES RJ PB PE AL SE BA
[22] MG ES RJ PB PE AL SE BA MG ES RJ
Levels AL BA ES MG PB PE RJ SE
setseed(10)
salarios=c(round(runif(32)100))
salarios
[1] 51 31 43 69 9 23 27 27 62 43 65 57 11 60 36 43 5 26 40 84 86 62 78 36 41
[26] 71 84 24 77 36 54 9
salariom=tapply(salariosestadofmean)
salariom
AL BA ES MG PB PE RJ SE
5800 4575 4875 4525 3975 4275 2875 5850
salariof=factor(cut(salariosbreaks=0+15(07)))
salariof
[1] (4560] (3045] (3045] (6075] (015] (1530] (1530] (1530] (6075]
[10] (3045] (6075] (4560] (015] (4560] (3045] (3045] (015] (1530]
[19] (3045] (7590] (7590] (6075] (7590] (3045] (3045] (6075] (7590]
[28] (1530] (7590] (3045] (4560] (015]
Levels (015] (1530] (3045] (4560] (6075] (7590]
table(salariofestadof)
estadof
Castaneda Daniel F N 2013 34
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3543
136 Comandos adicionais 2 R E ECONOMETRIA
salariof AL BA ES MG PB PE RJ SE
(015] 0 2 0 0 1 0 1 0
(1530] 0 0 1 1 0 1 1 1
(3045] 2 0 1 1 1 2 2 0
(4560] 0 0 1 1 1 0 0 1
(6075] 1 0 0 1 1 1 0 1
(7590] 1 2 1 0 0 0 0 1
table(salariofestadof)
estadof
salariof AL BA ES MG PB PE RJ SE
(015] 1 1 0 0 1 0 1 2
(1530] 0 0 1 1 0 0 1 1
(3045] 0 0 2 0 0 1 0 0
(4560] 2 0 1 0 0 1 0 0
(6075] 0 1 0 2 3 0 1 0
(7590] 0 1 0 1 0 2 0 1
(90105] 0 1 0 0 0 0 1 0
136 Comandos adicionais
Em situacoes onde a ausencia de informacao ou dados faltantes(missing)as funcoes do R precisam declarar esta ausencia com o comando narm=T
indicando que a informacao apresenta dados faltantes Exemplo
df=c(2NA58NA) O ultimo elemento esta ausente
mean(f) Comando padr~ao para calcular a media
[1] NA
mean(fnarm=T) Comando declarando a ausencia de elementos
[1] 5
2 R e Econometria
Dados economicos precisam de uma atencao matematica para dar fun-
damento a suas teorias Atualmente pelo avanco computacional nao habarreiras para serem aplicadas e torna-se ate divertida se definimos a plata-forma de trabalho computacional A econometria requer de uma abordagemdiferenciada pois faz uso de da teoria economica economia matematica es-tatıstica economica estatıstica matematica e inferencia estatıstica Esta
Castaneda Daniel F N 2013 35
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3643
21 Tipos de Dados 2 R E ECONOMETRIA
disciplina aproxima a Estatıstica da Economia onde a teoria economica for-
mula as hipoteses Por exemplo uma reducao de precos de uma mercadoriadevera aumentar a quantidade demandada dessa mercadoria considerandouma relacao inversa entre preco e quantidade demandada ou a despesa deconsumo per capita depende da renda per capita considerando uma relacaodireta ou seja a medida que a renda aumenta a despesa tende a aumentarOutro exemplo onde consideremos a area microeconomica consumo de aguade uma residencia e o valor pago e natural imaginar que ha uma relacaodireta entre consumo e valor pago pelo consumo Porem precisamos saberqual e quanto e esta forca de relacao por tanto o econometrista forneceesta informacao usando a inferencia estatıstica e a estatıstica economicaAs estimativas de esta relacao fica por conta de estatıstica matematica
Para completar e cerrar este circulo de disciplinas abordadas na Econo-metria precisamos utilizar uma ferramenta de calculo computacional quebrinde estabilidade precisao e rapidez nos seus resultados para superartudo isto utilizaremos o ambiente R A econometria surge como uma disci-plina autonoma em virtude de aglutinar todas estas areas do conhecimentomerecendo um estudo proprio
21 Tipos de Dados
Os tipos de dados sao
1 Dados de corte transversal (cross-section) sao dados de uma ou maisvariaveis coletadas no mesmo ponto do tempo Por exemplo os censosno Brasil sao coletados num instante do tempo No censo variaveisdemograficas sao exploradas como contagem da populacao numerode indivıduos em cada famılia idade dos integrantes da famılia ouvariaveis economicas como renda consumo tipo de moradia (alugadaou propria) etc estes dados sao adquiridas a cada decada pelo IBGE
2 Dados longitudinais ou de series temporais sao caracterizadas porobservacoes ao longo do tempo No Brasil um site que disponibilizadados desta natureza e o IPEADATA
3 Dados de painel e uma mistura de dados de corte transversal e longi-tudinais ou ao longo do tempo estudamos o comportamento de unida-des individuais Por exemplo series mensal do ındice de precos serieanuais do produto interno bruto (PIB) ou serie anual da balanca co-mercial dos municıpios do Brasil considerando cada municıpio comounidades individuais
Castaneda Daniel F N 2013 36
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3743
22 Metodologia 2 R E ECONOMETRIA
22 Metodologia
Os passos da metodologia econometrica tradicional ou classica se iniciadesde a formulacao da hipotese ate as conclusoes em geral sao
221 Hipotese
Como referencia usaremos a hipotese nula H 0 a qual nulifica qualquerdiferenca e a hipoteses alternativa H a aquela que contradiz total ou par-cialmente a hipotese nula Exemplo
1 H 0 nao existe uma relacao entre consumo de agua e valor pago pela
mesma
2 Ha existe uma relacao entre consumo de agua e valor pago pelamesma
A hipotese alternativa pode ser dividida em tres possibilidades no exem-plo do consumo de agua pode ser dividida em existe alguma relacao oua relacao e negativa ou a relacao e positiva A primeira denomina-se dehipotese alternativa com teste bicaudal o segundo de teste unicaudal a es-querda e finalmente o ultimo com teste unicaudal a direita Nosso exemploconsidere H a existe alguma relacao (teste bicaudal)
222 Modelo matematico
Usaremos uma funcao de consumo simples
Y = β 1 + β 2X (11)
A variavel dependente Y valor pago pelo consumo e estimado por Y A variavel independente e X consumo de agua em m3 β 1 representa ovalor pago quando nao ha consumo de agua Nosso interesse e determinara tangente ou a variacao pelo consumo β 2
223 Modelo econometrico do valor pago
O modelo matematico fornece a relacao determinıstica entre valor pagoem reais e consumo de agua porem as relacoes entre as variaveis economicassao em geral inexatas Assim ao longo do tempo no podemos esperar que ovalor pago e o consumo em m3 se situem exatamente numa linha reta isto
Castaneda Daniel F N 2013 37
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3843
22 Metodologia 2 R E ECONOMETRIA
por que alem do consumo outras variaveis afetam o valor pago por exemplo
os dias de consumo o perıodo de reforma da casa ou a inflacao podendoalterar o valor pago pelo consumo
224 Nıvel de significancia
Denominado de α frequentemente usa-se α = 005 em situacoes derisco usa-se α = 001 Em testes bicaudais divide-se α em duas partes elocalizam-se nos extremos da distribuicao de prova Para testes unicaudaislocaliza-se no extremo da distribuicao indicada pela hipotese alternativaNosso exemplo α = 005 e por tanto α2 = 0025
225 Obtencao de Dados
Considere 65 observacoes (mes a mes) do consumo de agua em umaresidencia e o valor pago em reais durante o perıodo de 122005 a 042011Ver dados no apendice A Um plot e apresentado a seguir
10 15 20
2 0
3 0
4 0
5 0
6 0
7 0
Valor pago em reais de consumo de aacutegua
Variaacutevel independenteConsumo em m3
V a r i aacute v e l d e p e n d e n t e V a l o r p a g o
Y = minus12365+3007X
Figura 10 Relacao causal entre consumo e valor pago em reais
Podemos observar visualmente que ha uma relacao positiva entre valorpago e consumo de agua onde a variacao pelo consumo ou variacao dovalor pago (tangente) β 2 cresce positivamente Precisamos verificar se estavariacao β 2 e estatisticamente diferente de zero (significativa)
Castaneda Daniel F N 2013 38
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3943
22 Metodologia 2 R E ECONOMETRIA
226 Estatıstica de prova
Denominada de funcao pivo ou estatıstica de teste No ambito pa-rametrico usa-se as estatısticas t student (amostras pequenas) quando ne grande e indiferente o uso da t student ou normal No exemplo para tes-tar qual a inclinacao da variacao pelo consumo de agua usamos a seguinteestatıstica
t0 =β 2
dp(β 2)asymp tnminus2gl (12)
onde t0 e o valor calculado da estatıstica t β 2 e a estimativa do parametro(variacao pelo consumo) β 2 dp(β 2) e o desvio padrao da estimativa doparametro β 2 o valor t0 segue uma distribuicao t-student com nminus2 graus deliberdade(gl) Os graus de liberdade e calculado diferenciando o tamanhoda amostra com o numero de parametro do modelo (n-p) O valor quantılicotnminus2gl(0025) corresponde a distribuicao t-student com 0025 de significanciacom n minus 2 graus de liberdade e n e o numero total de observacoes Nossoexemplo β 2 = 3007 e dp(β 2) = 013 por tanto t0 = 2313 e comparadocom o valor da tabela da t-student com 63 gl e com α2 = 0025 sendo estevalor igual 19983
227 Tipos de erro
Ocorre o erro tipo I (α) ao se rejeitar a hipotese de nulidade quandodeveria aceita-la Por outro lado quando se aceita a hipotese de nulidadequando deveria rejeita-la comete-se o erro tipo II (β ) Nas duas situacoestomou-se uma decisao errada O interesse e a minimizacao dos erros tipo Ie II que na pratica so e possıvel aumentando-se o tamanho da amostra Porrazoes diversas o aumento do tamanho da amostra muitas vezes torna-se im-praticavel A gravidade do erro tipo I e distinta da do erro tipo II quando seconsegue identificar o erro mais grave a opcao e a minimizacao deste poremquando a probabilidade de ocorrencia de um tipo de erro diminui a do outroaumenta e vice versa Podemos observar este criterio na seguinte tabela
Nao rejeita rejeitaH0 verdadeira Correto (1 minus α) Erro do tipo I (α)H0 falsa Erro do tipo II (β ) Correto (1minus β )
Castaneda Daniel F N 2013 39
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4043
22 Metodologia 2 R E ECONOMETRIA
228 Regra de Decisao
Os pacotes ou plataformas estatısticas apresentam o valor observado dafuncao pivo e o p minus valor (Area de probabilidade esta relacionada comonıvel de significancia) assim a funcao pivo apresenta o valor numerico nafuncao de densidade da Estatıstica exemplo dentro da densidade da normalQuando o pvalor e menor do que α = 005 no caso do teste unicaudal (eα = 0025 no caso bicaudal) concluımos que nao ha evidencia suficiente paraaceitar H0 Caso contrario se o p minus valor for maior que α = 005 podemosconcluir que nao ha evidencia suficiente para rejeitar H0 Nosso exemplot0 = 2313 gt 1998 (1998 e valor da distribuicao t com 63 gl e nıvel designificancia bicaudal de 005) este valor localiza-se na cauda positiva da
distribuicao com 63 graus de liberdade(n minus 2 = 65 minus 2) Por outro lado o pminus valor lt 0025 por tanto nao ha evidencias para aceitar H0 em favor deaceitar que o coeficiente de inclinacao (ou tangente) e positiva No recorrerdo livro usaremos codigos para as medidas do pminusvalor que em geral apareceem todo comando summary() Como consequencia a linha que aparece aseguir sera excluıda das saıdas do R
Signif codes 0 0001 001 005 01 1
sera interpretada da seguinte maneira
bull 0 significancia menor que 0001
bull 0001 significancia menor que 001
bull 001 significancia menor que 005
bull 005 significancia menor que 01
bull 01 significancia menor que 1
229 Conclusoes
Esta parte do teste de hipoteses e explicada em conjunto O Estatıstico eo Economista que sao os profissionais da area em que as observacoes foramcoletadas decidem sobre as providencias futuras No exemplo podemosafirmar que a cada metro cubico a mais de consumo de agua sera pago emmedia 3 reais a mais No momento este valor pago pode parecer alto poremna falta de este liquido elementar este valor pode aumentar e por tantosofrera mudancas
Castaneda Daniel F N 2013 40
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4143
23 Previs˜ oes 2 R E ECONOMETRIA
23 Previsoes
Muitas vezes estamos interessados em determinar o que acontece quandouma quantidade de consumo de agua em m3 e utilizada e qual o valor pagoem reais Por exemplo se nosso interesse e saber quanto sera pago por 20m3
de consumo de agua em uma residencia A conta a realizar eValor pago = minus12365 + 3007 lowast 20 = 47775 reaisA interpretacao deste valor e em media o valor pago em reais por 20m3 deagua consumida e de aproximadamente 478 reais
231 Resıduos
Uma questao fundamental em econometria e identificar o comportamentodos resıduos de um modelo Considere Y o valor real pago e Y valor pagoestimado a partir de um modelo entao este erro e aleatorio e definido por
ϵi = Y i minus Y i (13)
A abordagem mais formal dos erros e feita nos proximos capıtulosUma questao importante e determinar qual o comportamento da estima-tiva destes erros aos quais chamamos de resıduos Para determinar a nor-malidade dos resıduos realizamos o teste de Jarque Bera com a funcao
jarqueberatest() da biblioteca tseries com o seguinte grafico
minus2 minus1 0 1 2
minus 5
0
5
1 0
resiacuteduos do modelo valor= f(consumo)
Theoretical Quantiles
S a m p l e Q u a n t i l e s
Figura 11 Normalidade dos resıduos
Castaneda Daniel F N 2013 41
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4243
24 Exercıcios REFER ENCIAS
24 Exercıcios
1 Por que a econometria precisa ser uma disciplina autonoma
2 Que e econometria
3 Pesquise dados de corte transversal corte longitudinal e de painel
4 Construa uma metodologia econometrica para o consumo familiar emfuncao da renda familiar (linear)
5 No item anterior e possıvel encontrar uma relacao quadratica
6 Quais sao os pressupostos basicos de um modelo de regressao linear
simples
7 Como e chamado o parametro de inclinacao ou tangente num modelode regressao linear simples em econometria
8 Que e o projeto R
9 R e um programa econometrico
Referencias
[1] Albert Jim (2009) Bayesian computation with R Editora SpringerSecond Edition New York USA
[2] Borde Arvind (1992) TEX by example A beginneracutes guide Ed Aca-demic Press Professional United States of America
[3] Carneiro Orlando (1997) Econometria Bacute asica Teoria e Aplicac˜ oes Editora Atlas Segunda Edicao son Paulo
[4] Conover W J (1999) Practical nonparametric statistics 3ed NewYork
[5] Cribari Neto F (2002) C for Econometricians conputational Econo-
mics 14 p135-149
[6] Dalgaard Peter(2008) Introductory Statistics with R Editora SpringerSecond Edition New York USA
[7] Ehlers Ricardo(2007) Analise de series Temporais Universidade Fe-deral do Parana
Castaneda Daniel F N 2013 42
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4343
REFER ENCIAS REFER ENCIAS
[8] Frery Alejandro Cribari-Neto Francisco(2011)Elementos de
Estatıstica conputacional Usando Plataformas de Software Li-vreGratuito Publicacoes Matematicas Editora IMPA
[9] Gujarati Damodar N (2000) Econometria Bacute asica Makron Books Ter-ceira Edicao son Paulo
[10] Knuth DE (1981)The Art of conputer Programming Third EditionVolume 2 Seminumerical Algorithms Addison-Wesley Publishingconpany Massachusetts
[11] Korgi Rodrigo de Castro (2003) El universo LAT E X Editora Facultadde Ciencias Segunda Edicao Bogota
[12] Krawczyk H How to Predict Congruential Generators InJournal of Algorithms V 13 N 4 1992
[13] LrsquoEcuyer P (2001) Software for uniform random number generationdistinguishing the good and the bad In Proceedings of the 2001 WinterSimulation Conference
[14] Maindonald John Braun W John(2010) Data analysis and graphics using R an example-based approach Cambridge University Press NewYork USA
[15] Mingoti(2005)Analise De Dados Atraves De Metodos De Estatistica Multivariada - Uma Abordagem Aplicada Editora UFMG Belo Hori-zonte
Castaneda Daniel F N 2013 43
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1043
18 Indexando matrizes 1 INICIANDO O R
2
[1] [2] [3] [4] [5]
[1] 03539723 05918548 037104534 02148440 04169542
[2] 08895178 05751237 069399721 03808024 03872492
[3] 08036340 07065130 003400331 01593949 02306890
18 Indexando matrizes
x=array(120dim=c(45))
x
[1] [2] [3] [4] [5]
[1] 1 5 9 13 17[2] 2 6 10 14 18
[3] 3 7 11 15 19
[4] 4 8 12 16 20
i=array(c(1331)dim=c(32))
i
[1] [2]
[1] 1 3
[2] 2 2
[3] 3 1
gt x[i][ 1 ] 9 6 3
x[13]=9 x[22]=6 x[31]=3
O ındice i indica os valores da matriz x a serem extraıdos temos
x[i]=0 Substituımos x[i] por zero
x
[1] [2] [3] [4] [5]
[1] 1 5 0 13 17
[2] 2 0 10 14 18[3] 0 7 11 15 19
[4] 4 8 12 16 20
Construindo uma matriz 3 times 3 com elementos de 1 ao 9
c=matrix(c(19)33)
Castaneda Daniel F N 2013 10
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1143
19 Sequencias 1 INICIANDO O R
c
[1] [2] [3]
[1] 1 4 7
[2] 2 5 8
[3] 3 6 9
19 Sequencias
Sequencias sao construıdas ingressando o primeiro elemento o ultimoelemento e o espacamento
b=seq(1014 by=5)
b[1] 100 105 110 115 120 125 130 135 140
a=seq(19)
ab=ab multiplicando vetores
ab
[1]
[1] 570
ab=outer(ab)
ab
[1] [2] [3] [4] [5] [6] [7] [8] [9]
[1] 10 105 11 115 12 125 13 135 14
[2] 20 210 22 230 24 250 26 270 28[3] 30 315 33 345 36 375 39 405 42
[4] 40 420 44 460 48 500 52 540 56
[5] 50 525 55 575 60 625 65 675 70
[6] 60 630 66 690 72 750 78 810 84
[7] 70 735 77 805 84 875 91 945 98
[8] 80 840 88 920 96 1000 104 1080 112
[9] 90 945 99 1035 108 1125 117 1215 126
ab=at(b)
ab
[1] [2] [3] [4] [5] [6] [7] [8] [9][1] 10 105 11 115 12 125 13 135 14
[2] 20 210 22 230 24 250 26 270 28
[3] 30 315 33 345 36 375 39 405 42
[4] 40 420 44 460 48 500 52 540 56
[5] 50 525 55 575 60 625 65 675 70
Castaneda Daniel F N 2013 11
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1243
110 Multiplicando matrizes 1 INICIANDO O R
[6] 60 630 66 690 72 750 78 810 84
[7] 70 735 77 805 84 875 91 945 98
[8] 80 840 88 920 96 1000 104 1080 112
[9] 90 945 99 1035 108 1125 117 1215 126
d=outer(0909)
d
[1] [2] [3] [4] [5] [6] [7] [8] [9] [10]
[1] 0 0 0 0 0 0 0 0 0 0
[2] 0 1 2 3 4 5 6 7 8 9
[3] 0 2 4 6 8 10 12 14 16 18
[4] 0 3 6 9 12 15 18 21 24 27
[5] 0 4 8 12 16 20 24 28 32 36
[6] 0 5 10 15 20 25 30 35 40 45
[7] 0 6 12 18 24 30 36 42 48 54
[8] 0 7 14 21 28 35 42 49 56 63
[9] 0 8 16 24 32 40 48 56 64 72
[10] 0 9 18 27 36 45 54 63 72 81
110 Multiplicando matrizes
Para a construcao de matrizes o preenchimentos das celulas ou casas e
feita coluna a coluna como padrao exemplo
a= matrix(c(19)33)
a
[1] [2] [3]
[1] 1 4 7
[2] 2 5 8
[3] 3 6 9
podemos construir esta mesma matriz preenchendo as casas linha por linhada seguinte forma
at=matrix(c(19)33byrow=T)
at
[1] [2] [3]
[1] 1 2 3
[2] 4 5 6
[3] 7 8 9
Castaneda Daniel F N 2013 12
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1343
111 Invers˜ ao de matrizes 1 INICIANDO O R
Uma alternativa seria usar a funcao aperm()
b= aperm(ac(21))
b
[1] [2] [3]
[1] 1 2 3
[2] 4 5 6
[3] 7 8 9
ab multiplicac~ao elemento a elemento
[1] [2] [3]
[1] 1 8 21[2] 8 25 48
[3] 21 48 81
ab multiplicac~ao das matrizes a e b
[1] [2] [3]
[1] 66 78 90
[2] 78 93 108
[3] 90 108 126
crossprod(ab) produto da transposta de a por b
[1] [2] [3]
[1] 30 36 42
[2] 66 81 96
[3] 102 126 150
t(a)b
[1] [2] [3]
[1] 30 36 42
[2] 66 81 96
[3] 102 126 150
111 Inversao de matrizes
c=matrix(c(324572159)33)
d=matrix(c(223582858)33)
c
Castaneda Daniel F N 2013 13
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1443
112 Comandos cbind() e rbind() 1 INICIANDO O R
[1] [2] [3]
[1] 3 5 1
[2] 2 7 5
[3] 4 2 9
gt solve(c)
[1] [2] [3]
[1] 036551724 -029655172 012413793
[2] 001379310 015862069 -008965517
[3] -016551724 009655172 007586207
solve(cd) inverte a matriz c e multiplica por d
[1] [2] [3]
[1] 051034483 -029655172 24344828
[2] 007586207 115862069 01862069
[3] 008965517 009655172 -02344828
gt solve(c)d forma alternativa
[1] [2] [3]
[1] 051034483 -029655172 24344828
[2] 007586207 115862069 01862069
[3] 008965517 009655172 -02344828
112 Comandos cbind() e rbind()
E possıvel formar novas matrizes com as ja existentes usando a funcaocbind() e rbind() a primeira construı matrizes em colunas a segunda emlinhas
cbind(cd)
[1] [2] [3] [4] [5] [6]
[1] 3 5 1 2 5 8
[2] 2 7 5 2 8 5
[3] 4 2 9 3 2 8
rbind(cd)[1] [2] [3]
[1] 3 5 1
[2] 2 7 5
[3] 4 2 9
[4] 2 5 8
Castaneda Daniel F N 2013 14
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1543
113 Autovalores e autovetores 1 INICIANDO O R
[5] 2 8 5
[6] 3 2 8
cbind(1c)
[1] [2] [3] [4]
[1] 1 3 5 1
[2] 1 2 7 5
[3] 1 4 2 9
rbind(1d)
[1] [2] [3]
[1] 1 1 1
[2] 2 5 8
[3] 2 8 5
[4] 3 2 8
113 Autovalores e autovetores
ev=eigen(c) calcula autovalores e autovetores
ev
$values
[1] 13265694+0000000i 2867153+1646172i 2867153-1646172i
$vectors[1] [2] [3]
[1] 03799264+0i 07884141+00000000i 07884141+00000000i
[2] 06480231+0i 00745376+03051027i 00745376-03051027i
[3] 06600924+0i -04774265-02276482i -04774265+02276482
det(c)
[1] 145
det(d)
[1] -57
114 Data frame ou construtor de dados
Suponha um conjunto de dados com tres variaveis sexo (1=homem0=mulher) peso em quilogramas e salario em reais por dia de 12 indivıduosPara calcular a media o resumo de estatısticas descritivas e um grafico (plot)
Castaneda Daniel F N 2013 15
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1643
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1743
116 Func˜ ao readtable() 1 INICIANDO O R
attach(ind)
peso
[1] 67 60 62 69 54 59 57 67 60 65 59 55
salario
[1] 59 40 45 65 55 45 48 67 65 68 62 45
sex
[1] 1 0 0 1 0 0 0 1 1 1 1 0
detach(ind)
salario
Erro objeto rsquosalariorsquo n~ao encontrado
A funcao attach e detach pode ser usada no somente em arquivo dedados dos pacotes do R se nao tambem para listas e data frame
116 Funcao readtable()
Um amplo conjunto de arquivos com diferentes extensoes pode ser lidopor esta funcao
1161 Arquivos com extensao txt
Considere as seguintes variaveis x1 idade dos funcionarios x2 sexo
(1 homem 0 mulher) x3 anos de experiencia na funcao x4 estado civilx5 numero de filhos x6 nota de 0 minus 10 de um teste de avaliacao deconhecimento na sua area x7 teste psicotecnico de 0 a 50 x8 satisfacaocom a vida pessoal estes dados em bloco de notas com extensao txt obtidosde Mingoti 2005 Ver dados na integra no apendice
funcao=readtable(functxtheader=T)
funcao
grupo idade sexo ecivil nfilhos aexper tpsico tconhec satisf
1 0 24 1 1 0 2 77 360 1
2 0 29 1 1 0 4 79 360 13 0 38 1 0 1 6 86 408 0
107 0 24 1 1 0 2 73 360 0
108 0 27 1 0 0 3 74 360 1
109 1 42 1 0 2 14 99 440 1
Castaneda Daniel F N 2013 17
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1843
117 Script com extens˜ ao R 1 INICIANDO O R
Considere os dados de consumo de agua de uma residencia durante
o perıodo de 1205 a 0411 Com as seguintes variaveis valor em reaisconsumo em m3 dias de consumo e construindo o imovel (1sim 2nao)Dados proprios do autor Ver dados na integra no apendice
ca=readtable(consumoagua2txtheader=T) disponıvel em meus documentos
ca
dado valor consumo diasconsumo Construindo
1 1 1476 11 30 0
2 2 1347 10 31 0
64 64 3439 14 31 1
65 65 2221 11 32 0
Observacao use o comando choose() para escolher um conjunto dedados de um diretorio especifico no computador podemos usar
datalt-readtable(filechoose()header=T)
117 Script com extensao R
Exemplo com extensao R lida por readtable com dados do proprio R
exemplo=readtable(filechoose()header=T) dadosrR em aula 3exemplo
dado valor
1 1 115
2 2 117
3 3 118
4 4 119
5 5 127
118 Funcao scan()
A funcao scan tambem pode incluir elementos no R
scan()
1 12
2 13
3 14
Castaneda Daniel F N 2013 18
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1943
119 Func˜ ao sample 1 INICIANDO O R
4 15
5
Read 4 items
[1] 12 13 14 15
Use a funcao scan() para ingressar dados diretamente na plataforma R
119 Funcao sample
Usa-se para escolher aleatoriamente uma amostra de um conjunto deobservacoes ou uma base de dados Como exemplo considere uma amostrade 8 observacoes dos primeiros 20 do banco de dados de consumo de agua
(ca)setseed(10)
ca20=ca[sample(1208)]
ca20
dado valor consumo diasconsumo Construindo
11 11 3153 16 31 1
6 6 1347 10 32 0
8 8 1347 10 30 0
12 12 3755 18 32 1
2 2 1347 10 31 0
4 4 5275 22 33 1
15 15 3755 18 32 0
14 14 1648 11 30 0
120 Rcmdr
Para importar dados do SPSS STATISTICA MINITAB EXCEL TXTetc podemos usar o pacote livre Rcmdr ja disponıvel na biblioteca
library(Rcmdr)
este pacote trabalha via janelas para maior comodidade
121 Dados disponıveis no R
R possuı mais de 100 conjunto de dados alocados no pacote dataset quepodem ser chamados diretamente ( sem extensao) com a funcao data
data()
Castaneda Daniel F N 2013 19
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2043
122 Modificando e editando dados 1 INICIANDO O R
No R pode-se acessar a conjunto de dados de outros pacotes disponıveis
na sua biblioteca Se por acaso esta instalado o pacote lmtest o conjuntode dados ativo neste pacote pode ser chamado da seguinte maneira
data(package=lmtest)
122 Modificando e editando dados
Considere o conjunto de dados anterior Para modificar este conjuntosera disponibilizado uma tela de editor de dados a seguir
xnovo=edit(wagespackage=lmtest)
Para editar um conjunto de dados novo podemos usar a funcao edit daseguinte forma
xn=edit(dataframe())
123 Exportando dados do R para o Excel
Para exportar uma coluna de dados por exemplo o valor pago no con-sumo de agua executamos no R
writeClipboard(ascharacter(valor))
Na tela do Excel usar o comando colar Suponha que esta interessadoem exportar o conjunto de dados ca consumo de agua numa residenciadisponıveis no R para transferir este conjunto de dados use o seguintecomando
writetable(caclipboardsep=tcolnames=NA)
Na tela do Excel faca Ctrl+V ou um click em colar
124 Funcoes apply tapply sapply e lapply
A funcao apply calcula medidas estatısticas por linhas ou por colunas
e a funcao sapply calcula apenas por coluna A diferenca da funcao applyda funcao tapply e que esta ultima calcula medidas estatısticas por estratosConsidere os dados de consumo de agua de uma residencia
apply(ca2mean)
dado valor consumo diasconsumo Construindo
330000000 255690769 126153846 307076923 02615385
Castaneda Daniel F N 2013 20
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2143
125 Distribuic˜ oes de probabilidade 1 INICIANDO O R
tapply(valorConstruindomean)
0 1
2115271 3803882
sapply(camean)
dado valor consumo diasconsumo Construindo
330000000 255690769 126153846 307076923 02615385
lapply(camean) verificar
125 Distribuicoes de probabilidade
R proporciona uma serie de funcoes para variaveis aleatorias estatısticasconhecidas dentro destas funcoes temos distribuicao aleatorizacao proba-
bilidade e quantidadeDistribuicao nome no R argumentos adicionaisbeta beta shape1shap2npcbinomial binom sizeprobcauchy cauchy locationscalechi-quadrado chisq dfnpcexponencial exp rateF f df1df2npcgamma gamma shapescalegeometric geom probhypergeometric hyper mnk
log-normal lnorm meanlogsdloglogistic logis locationscalenegativa binomial nbinom sizeprobnormal norm meansdpoisson pois lambdat-student t dfncpuniforme unif minmaxweibull weibull shapescalewilcoxon wilcoxon mn
Nomes iniciando com ldquodrdquocalculara a densidade da funcao ldquoprdquoparacalcular a probabilidade ou funcao acumulada ldquoqrdquopara o valor quantılico eldquorrdquopara simulacao de numeros aleatoriosExemplos
rpois(105) 10 numeros aleatorios da dist poisson com parametro 5
[1] 3 2 3 1 8 6 1 3 2 3
Castaneda Daniel F N 2013 21
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2243
126 Algoritmos de programac˜ ao no R 1 INICIANDO O R
rnorm(5) 5 numeros aleatorios da normal padr~ao
[1] 004659011 -005019082 -128753167 115411245 -137573809
qt(09550) valor quantilico da t com 50 gl
[1] 1675905
qchisq(0951) valor da qui-quadrado
com 95 de confianc a e 1 g l
[1] 3841459
dpois(45) densidade da dist poisson x=4 parametro=5
[1] 01754674
ppois(45) P(xlt=4) parametro=5
[1] 04404933
126 Algoritmos de programacao no R
R e uma linguagem de programacao orientada a objetos que alem de ana-lisar dados tem sua propria programacao aqui usaremos esta programacaopara analises de estatısticas e econometria Para maiores detalhes podemospesquisar em Venables and Ripley (2000 e 2002) Voce pode estender afuncionalidade do R criando novas funcoes ou programando por exemplo
medianamediarazao lt- function(x)
return(median(x)mean(x))
setseed(20)
z = rexp(10000)
medianamediarazao(z)
[1] 06925193
Construindo a mediana
mediana=function(x)
oddeven=length(x)2
if (oddeven == 0) (sort(x)[length(x)2]+sort(x)[1+ length(x)2])2
else sort(x)[ceiling(length(x)2)]
Construindo a media geometrica
mediageometrica = function (x) exp(mean(log(x)))
Construindo a media harmonica
Castaneda Daniel F N 2013 22
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2343
126 Algoritmos de programac˜ ao no R 1 INICIANDO O R
mediaharmonica=function (x) 1mean(1x)
Um algoritmo que envolva as medidas de tendencia central
medidascentrais = function(y medida)
switch(medida
media = mean(y)
mgeometrica = exp(mean(log(y)))
mharmonica = 1mean(1y)
mediana = median(y)
stop(Medida n~ao inclusa))
medidascentrais(ymedia)
Gerando uma distribuicao uniforme para o lancamento de um dado
ndado=function(x) return(round(runif(x)6+05))
hist(ndado(100000)
Com o comando sample podemos realizar este mesmo experimento daseguinte maneira
gerando=sample(16 100000 replace=TRUE)
hist(gerando)
Considere o seguinte objeto c
c=c(122715365)
Para determinar que classe de objeto e o vetor c podemos identificarusando os seguintes comandos
ischaracter(c)
[1] FALSE
isnumeric(c)
[1] TRUE
A este objeto c podemos a signar nome a cada valor definido da seguinteforma
names(c)=c(abcdef)
c
a b c d e f
10 22 70 150 30 65
Castaneda Daniel F N 2013 23
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2443
127 Lacos no R 1 INICIANDO O R
Podemos associar uma comparacao logica com o vetor c da seguinte
forma
cgt3
a b c d e f
FALSE FALSE TRUE TRUE FALSE TRUE
Quando estamos diante de uma matriz podemos definir os nomes dascolunas com colnames() e os nomes das linhas com rownames() veja oexemplo
d=matrix(c(223582858)33)
colnames(d)=c(c1c2c3)
rownames(d)=c(1o2o3o)
d
c1 c2 c3
1o 2 5 8
2o 2 8 5
3o 3 2 8
A matriz d e entendida como um conjunto de dados que podem serassociados as linhas e as colunas Para determinar se ha associacao entrelinhas e colunas o teste utilizado pode se o qui-quadrado com a funcaochisqtest()
127 Lacos no R
Em algumas situacoes variaveis contınuas podem ser transformadas em variaveisordinais ou dummy para realizar estas operacoes o R proporciona varioslacos como else if ou ifelseExemplo para construir variaveis binarias considere o consumo de aguaonde consumo menor ou igual a 10 m3 e zero e acima de 10 m3 e 1 Ovalor de consumo sendo zero se o valor e menor ou igual a 20 reais e 1 casocontrario
consumoc=numeric(length(consumo))
for(i in 1length(consumo))if (consumo[i]lt=10) consumoc[i]=0
else consumoc[i]=1
valorc=numeric(length(valor))
for(i in 1length(valor))if (valor[i]lt=20) valorc[i]=0 else valorc[i]=1
Castaneda Daniel F N 2013 24
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2543
128 A func˜ ao cut() 1 INICIANDO O R
Nota Podemos construir os lacos considerando a condicao como texto
exemplo consumoc[i]=rdquo[0minus 10]rdquo Comando alternativo de construcao
consumoc2=ifelse(consumolt=10[0-10]Acima de 10)
valorc2=ifelse(valorlt=20[0-20]Acima de 20)
limitacao deste laco e que utilizado apenas para duas condicoes Para lacoscom mais de duas condicoes podemos usar os seguintes comandos
valorc3=numeric(length(valor))
for(i in 1length(valor))if (valor[i]lt20) valorc3[i]=[0-20)
else if (valor[i]lt30)
valorc3[i]=[20-30) else valorc3[i]=[30 a +
table(valorc3)
128 A funcao cut()
Alguma funcoes usam lacos para criar novas variaveis categoricas no exem-plo de valor pago em reais pelo consumo de agua podemos construir cate-gorias por quartis de 25 50 75 1 da seguinte maneira
q=cut(valorquantile(valor) includelowest=T)
table(q)
q
[135165] (165222] (222327] (327693]
17 16 16 16
Outras formas podem ser usando intervalos a criterio pessoal no exemplo aseguir consideramos com valor mınimo 13 e valor maximo 70 com amplitudedo intervalo de 19 e com classes fechadas no mınimo e aberto no maximo
valr=cut(valmseq(137019)right=Fincludeupper=T)
table(valr)
valr
[1332) [3251) [5170)
48 15 2
129 Criando funcoes Teste que compara duas medias
Como exemplo implementamos a estatıstica de comparacao de duasamostras independentes
Castaneda Daniel F N 2013 25
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2643
130 Coeficiente de regressao 1 INICIANDO O R
testeduas lt- function(y1 y2)
+ n1 lt- length(y1) n2 lt- length(y2)
+ yb1 lt- mean(y1) yb2 lt- mean(y2)
+ s1 lt- var(y1) s2 lt- var(y2)
+ s lt- ((n1-1)s1 + (n2-1)s2)(n1+n2-2)
+ tst lt- (yb1 - yb2)sqrt(s(1n1 + 1n2))
+ tst
+
x=runif(20)
y=rnorm(20)
testeduas(xy)
[1] 2874636
Uma forma alternativa e usando a funcao ttest()
ttest(xy)
Welch Two Sample t-test
data x and y
t = 28746 df = 21784 p-value = 0008858
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
01846283 11429380sample estimates
mean of x mean of y
05539270 -01098562
130 Coeficiente de regressao
Implementando o calculo da tangente (inclinacao) do coeficiente no mo-delo de regressao linear simples
mq1lt- function(X y)
+ X lt- qr(X)
+ qrcoef(X y)+
mq1(xy)
[1] -008755885
Castaneda Daniel F N 2013 26
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2743
131 Teste Qui- Quadrado 1 INICIANDO O R
131 Teste Qui- Quadrado
Util para associar linhas e colunas considere os dados em d com as se-guintes hipotesesH0 nao ha associacao entre linhas e colunasHa ha associacao entre linhas e colunas
chisqtest(d)
Pearsonrsquos Chi-squared test
data d
X-squared = 46497 df = 4 p-value = 03252
Warning message
In chisqtest(d) Aproximac~ao Qui-quadrado pode estar incorreta
Para um nıvel α = 0 05 de significancia podemos afirmar que nao haevidencias para afirmar que a associacao entre linhas e colunas (linhas ecolunas sao independentes) Um outro exemplo do uso da distribuicao Qui-quadrado e verificar se um conjunto de dados provem de uma determinadadistribuicao teorica
chisqtest(c)
Chi-squared test for given probabilities
data c
X-squared = 22549 df = 5 p-value = 00004116
Pelo p-value podemos afirmar que a 0 05 de significancia nao ha evi-dencias para afirmar que a distribuicao dos numeros em c sejam uniformesPara implementar este teste de associacao no exemplo de consumo de aguaconsiderando a classificacao mediante lacos (ver lacos no R) entre consumoce valorc temos
table(consumocvalorc)
valorc
consumoc 0 1
0 24 0
Castaneda Daniel F N 2013 27
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2843
132 Teste t - student 1 INICIANDO O R
1 3 38
chisqtest(consumocvalorc)$expected
chisqtest(consumocvalorc)$observed
chisqtest(consumocvalorc)
Pearsonrsquos Chi-squared test with Yatesrsquo continuity correction
data consumoc and valorc
X-squared = 498015 df = 1 p-value = 1701e-12
barplot(table(consumocvalorc) beside=T)
Concluimos que ha associacao entre consumo de agua e o valor pago em
reais
132 Teste t - student
O teste mais usado pelos estatısticos e util para comparar medias deduas amostras tanto independente como emparelhadasExemplo considere as exportacoes mensais (FOB-US) do Brasil durante osanos de 2009 minus 2010 Apos digitacao das observacoes temos
exp2009
[1] 9781920 9586406 11809225 12321617 11984585 14467785 14141930
[8] 13840850 13863222 14081686 12652892 14462624
exp2010[1] 1130507 1219724 1572750 1516121 1770250 1709391 1767292 1923625
[9] 1883279 1838042 1768733 2091814
H0 A medias anuais das exportacoes durante 2009 e 2010 e a mesmaHa CC
ttest(exp2009exp2010paired = FALSE)
Welch Two Sample t-test
data exp2009 and exp2010
t = -42813 df = 18202 p-value = 00004394
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-6075666 -2077757
sample estimates
mean of x mean of y
Castaneda Daniel F N 2013 28
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2943
133 Teste F 1 INICIANDO O R
1274956 1682627
Conclusao nao ha evidencias para aceitar que a media das exportacoesde 2009 e 2010 e a mesma
Quando um conjunto de dados e dado em formato de matriz (dataframe)podemos realizar o teste t de uma coluna em funcao da outra por exemplono consumo de agua queremos testar a hipotese nula H0 o valor de con-sumo de agua e o mesmo construindo ou nao versus a hipotese alternativaHa Caso contrario
attach(ca)
ttest(valor~Construindo)
Welch Two Sample t-test
data valor by Construindo
t = -58383 df = 21731 p-value = 7465e-06
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-2288867 -1088356
sample estimates
mean in group 0 mean in group 1
2115271 3803882
Concluımos que nao ha evidencias para aceitar que o valor de consumode agua e o mesmo quando estamos construindo ( p minus valor lt 005)
Exemplos adicionais podem ser comparando entre as variaveis clas-sificadas (ver secao de lacos) da seguinte forma
ttest(valor~consumoc)
ttest(consumo~valorc)
boxplot(consumo~valorc2 main=Consumo e valor pago em Reais)
boxplot(consumo~valorc3 main=Consumo e valor pago em Reais)
133 Teste F
Para determinar se ha a mesma variabilidade no valor de consumoquando estamos ou nao construindo utilizamos o teste F A hipotese nulae H0 O valor de consumo de agua tem a mesma variabilidade quandoconstruımos que quando nao construımos No R temos
Castaneda Daniel F N 2013 29
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3043
133 Teste F 1 INICIANDO O R
vartest(valor~Construindo)
F test to compare two variances
data valor by Construindo
F = 04834 num df = 47 denom df = 16 p-value = 005478
alternative hypothesis true ratio of variances is not equal to 1
95 percent confidence interval
0194815 1014916
sample estimates
ratio of variances
04834048
Concluımos que nao ha evidencias para rejeitar a hipotese nula por tanto
a variabilidade no valor de consumo e o mesmoO correspondente grafico (Box-plot) e apresentado a seguir
boxplot(valor~Construindo col=8 names=c(n~ao construc~ao construc~ao))
natildeo construccedilatildeo construccedilatildeo
2 0
3 0
4 0
5 0
6 0
7 0
Figura 4 Valor pago em reais no consumo de agua
Em alguns casos ha necessidade de identificar se a variabilidade dasexportacoes e a mesma comparando 2009 e 2010H0 As exportacoes de 2009 e 2010 tem a mesma variabilidade (dados men-sais coletados do site httpwwwipeadatagov)Ha CC
Castaneda Daniel F N 2013 30
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3143
134 Graficos 1 INICIANDO O R
vartest(exp2009exp2010)
F test to compare two variances
data exp2009 and exp2010
F = 03728 num df = 11 denom df = 11 p-value = 01166
alternative hypothesis true ratio of variances is not equal to 1
95 percent confidence interval
01073346 12951624
sample estimates
ratio of variances
03728482
Conclusao Nao houve mudancas na variabilidade das exportacoes de
2009 e 2010
134 Graficos
Considere os dados mensais das exportacoes do Brasil (FOB) durante2009 e 2010 para realizar um grafico de box-plot fazemos
boxplot(exp2009exp2010 main=exportac~oes do Brasil
names=c(20092010))
2009 2010
1 0 0 0 0
1 2 0 0 0
1 4 0 0 0
1 6 0 0 0
1 8 0 0 0
2 0
0 0 0
exportaccedilotildees do Brasil
Figura 5 Exportacoes FOB em dolares
Para o grafico da funcao acumulativa das exportacoes
plot(ecdf(exp2010) dopoint=FALSE verticals=TRUE
lty=3 xlim=c(1000023000))
lines(ecdf(exp2009) dopoint=FALSE verticals=TRUE
col=2)
Castaneda Daniel F N 2013 31
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3243
134 Graficos 1 INICIANDO O R
1 00 00 1 20 00 1 40 00 1 60 00 1 80 00 2 00 00 2 20 00
0 0
0 2
0 4
0 6
0 8
1 0
ecdf(exp2010)
x
F n ( x )
Figura 6 Funcao acumulada das exportacoes 2009-2010
Considere as exportacoes do Brasil um histograma e Q-Q plot sera
hist(exp main=Exportac~oes FOB-US col=8)
qqnorm(exp xlim=c(-55)ylim=c(-100021000))
qqline(exp)
Exportaccedilotildees FOBminusUS$
exp
F r e q u e n c y
0 5000 10000 15000 20000
0
5 0
1 0 0
1 5 0
minus4 minus2 0 2 4
0
5 0 0 0
1 0 0 0 0
1 5 0 0 0
2 0 0 0 0
Normal QminusQ Plot
Theoretical Quantiles
S a m p l e Q u a n t i l e s
Figura 7 Graficos das Exportacoes no Brasil 2001-2010
Para ativar alguns graficos pacotes sao necessarios exemplo
library(MASS)
Castaneda Daniel F N 2013 32
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3343
134 Graficos 1 INICIANDO O R
par(mfrow=c(21))
z = rnorm(500000)
hist(z prob=T)
curve(dnorm(x)add=T)
histscott(z prob=T)
Histogram of z
z
D e n s i t y
minus4 minus2 0 2 4
0 0
0 2
Histogram of x
z
D e n s i t y
minus4 minus2 0 2 4
0 0
0 2
0 4
Figura 8 Histograma de numeros aleatorios normais
boxcox(dist~speed data=cars) transformac~ao Box-Cox
minus2 minus1 0 1 2
minus 4 0 0
minus 3 5 0
minus 3 0 0
minus 2 5 0
λ
l o g minus
L i k e l i h o o d
95
Figura 9 Valor otimo na transformacao Box-Cox
Castaneda Daniel F N 2013 33
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3443
135 Tabelas 1 INICIANDO O R
Para ter um alcance maior sobre a capacidade grafica do R podemos
usar as seguintes funcoes
demo(graphics)
demo(image)
demo(persp)
demo(recursion)
demo(plotmath)
demo(package = packages(allavailable = TRUE))
135 Tabelas
Algumas tabelas estatısticas podem ser construıdas com a funcao table()estado=c(PBPEALSEBAMGESRJPBPEAL
SEBAMGESRJPBPEALSEBAMGESRJ
PBPEALSEBAMGESRJ)
estadof=factor(estado)
estadof
[1] PB PE AL SE BA MG ES RJ PB PE AL SE BA MG ES RJ PB PE AL SE BA
[22] MG ES RJ PB PE AL SE BA MG ES RJ
Levels AL BA ES MG PB PE RJ SE
setseed(10)
salarios=c(round(runif(32)100))
salarios
[1] 51 31 43 69 9 23 27 27 62 43 65 57 11 60 36 43 5 26 40 84 86 62 78 36 41
[26] 71 84 24 77 36 54 9
salariom=tapply(salariosestadofmean)
salariom
AL BA ES MG PB PE RJ SE
5800 4575 4875 4525 3975 4275 2875 5850
salariof=factor(cut(salariosbreaks=0+15(07)))
salariof
[1] (4560] (3045] (3045] (6075] (015] (1530] (1530] (1530] (6075]
[10] (3045] (6075] (4560] (015] (4560] (3045] (3045] (015] (1530]
[19] (3045] (7590] (7590] (6075] (7590] (3045] (3045] (6075] (7590]
[28] (1530] (7590] (3045] (4560] (015]
Levels (015] (1530] (3045] (4560] (6075] (7590]
table(salariofestadof)
estadof
Castaneda Daniel F N 2013 34
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3543
136 Comandos adicionais 2 R E ECONOMETRIA
salariof AL BA ES MG PB PE RJ SE
(015] 0 2 0 0 1 0 1 0
(1530] 0 0 1 1 0 1 1 1
(3045] 2 0 1 1 1 2 2 0
(4560] 0 0 1 1 1 0 0 1
(6075] 1 0 0 1 1 1 0 1
(7590] 1 2 1 0 0 0 0 1
table(salariofestadof)
estadof
salariof AL BA ES MG PB PE RJ SE
(015] 1 1 0 0 1 0 1 2
(1530] 0 0 1 1 0 0 1 1
(3045] 0 0 2 0 0 1 0 0
(4560] 2 0 1 0 0 1 0 0
(6075] 0 1 0 2 3 0 1 0
(7590] 0 1 0 1 0 2 0 1
(90105] 0 1 0 0 0 0 1 0
136 Comandos adicionais
Em situacoes onde a ausencia de informacao ou dados faltantes(missing)as funcoes do R precisam declarar esta ausencia com o comando narm=T
indicando que a informacao apresenta dados faltantes Exemplo
df=c(2NA58NA) O ultimo elemento esta ausente
mean(f) Comando padr~ao para calcular a media
[1] NA
mean(fnarm=T) Comando declarando a ausencia de elementos
[1] 5
2 R e Econometria
Dados economicos precisam de uma atencao matematica para dar fun-
damento a suas teorias Atualmente pelo avanco computacional nao habarreiras para serem aplicadas e torna-se ate divertida se definimos a plata-forma de trabalho computacional A econometria requer de uma abordagemdiferenciada pois faz uso de da teoria economica economia matematica es-tatıstica economica estatıstica matematica e inferencia estatıstica Esta
Castaneda Daniel F N 2013 35
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3643
21 Tipos de Dados 2 R E ECONOMETRIA
disciplina aproxima a Estatıstica da Economia onde a teoria economica for-
mula as hipoteses Por exemplo uma reducao de precos de uma mercadoriadevera aumentar a quantidade demandada dessa mercadoria considerandouma relacao inversa entre preco e quantidade demandada ou a despesa deconsumo per capita depende da renda per capita considerando uma relacaodireta ou seja a medida que a renda aumenta a despesa tende a aumentarOutro exemplo onde consideremos a area microeconomica consumo de aguade uma residencia e o valor pago e natural imaginar que ha uma relacaodireta entre consumo e valor pago pelo consumo Porem precisamos saberqual e quanto e esta forca de relacao por tanto o econometrista forneceesta informacao usando a inferencia estatıstica e a estatıstica economicaAs estimativas de esta relacao fica por conta de estatıstica matematica
Para completar e cerrar este circulo de disciplinas abordadas na Econo-metria precisamos utilizar uma ferramenta de calculo computacional quebrinde estabilidade precisao e rapidez nos seus resultados para superartudo isto utilizaremos o ambiente R A econometria surge como uma disci-plina autonoma em virtude de aglutinar todas estas areas do conhecimentomerecendo um estudo proprio
21 Tipos de Dados
Os tipos de dados sao
1 Dados de corte transversal (cross-section) sao dados de uma ou maisvariaveis coletadas no mesmo ponto do tempo Por exemplo os censosno Brasil sao coletados num instante do tempo No censo variaveisdemograficas sao exploradas como contagem da populacao numerode indivıduos em cada famılia idade dos integrantes da famılia ouvariaveis economicas como renda consumo tipo de moradia (alugadaou propria) etc estes dados sao adquiridas a cada decada pelo IBGE
2 Dados longitudinais ou de series temporais sao caracterizadas porobservacoes ao longo do tempo No Brasil um site que disponibilizadados desta natureza e o IPEADATA
3 Dados de painel e uma mistura de dados de corte transversal e longi-tudinais ou ao longo do tempo estudamos o comportamento de unida-des individuais Por exemplo series mensal do ındice de precos serieanuais do produto interno bruto (PIB) ou serie anual da balanca co-mercial dos municıpios do Brasil considerando cada municıpio comounidades individuais
Castaneda Daniel F N 2013 36
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3743
22 Metodologia 2 R E ECONOMETRIA
22 Metodologia
Os passos da metodologia econometrica tradicional ou classica se iniciadesde a formulacao da hipotese ate as conclusoes em geral sao
221 Hipotese
Como referencia usaremos a hipotese nula H 0 a qual nulifica qualquerdiferenca e a hipoteses alternativa H a aquela que contradiz total ou par-cialmente a hipotese nula Exemplo
1 H 0 nao existe uma relacao entre consumo de agua e valor pago pela
mesma
2 Ha existe uma relacao entre consumo de agua e valor pago pelamesma
A hipotese alternativa pode ser dividida em tres possibilidades no exem-plo do consumo de agua pode ser dividida em existe alguma relacao oua relacao e negativa ou a relacao e positiva A primeira denomina-se dehipotese alternativa com teste bicaudal o segundo de teste unicaudal a es-querda e finalmente o ultimo com teste unicaudal a direita Nosso exemploconsidere H a existe alguma relacao (teste bicaudal)
222 Modelo matematico
Usaremos uma funcao de consumo simples
Y = β 1 + β 2X (11)
A variavel dependente Y valor pago pelo consumo e estimado por Y A variavel independente e X consumo de agua em m3 β 1 representa ovalor pago quando nao ha consumo de agua Nosso interesse e determinara tangente ou a variacao pelo consumo β 2
223 Modelo econometrico do valor pago
O modelo matematico fornece a relacao determinıstica entre valor pagoem reais e consumo de agua porem as relacoes entre as variaveis economicassao em geral inexatas Assim ao longo do tempo no podemos esperar que ovalor pago e o consumo em m3 se situem exatamente numa linha reta isto
Castaneda Daniel F N 2013 37
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3843
22 Metodologia 2 R E ECONOMETRIA
por que alem do consumo outras variaveis afetam o valor pago por exemplo
os dias de consumo o perıodo de reforma da casa ou a inflacao podendoalterar o valor pago pelo consumo
224 Nıvel de significancia
Denominado de α frequentemente usa-se α = 005 em situacoes derisco usa-se α = 001 Em testes bicaudais divide-se α em duas partes elocalizam-se nos extremos da distribuicao de prova Para testes unicaudaislocaliza-se no extremo da distribuicao indicada pela hipotese alternativaNosso exemplo α = 005 e por tanto α2 = 0025
225 Obtencao de Dados
Considere 65 observacoes (mes a mes) do consumo de agua em umaresidencia e o valor pago em reais durante o perıodo de 122005 a 042011Ver dados no apendice A Um plot e apresentado a seguir
10 15 20
2 0
3 0
4 0
5 0
6 0
7 0
Valor pago em reais de consumo de aacutegua
Variaacutevel independenteConsumo em m3
V a r i aacute v e l d e p e n d e n t e V a l o r p a g o
Y = minus12365+3007X
Figura 10 Relacao causal entre consumo e valor pago em reais
Podemos observar visualmente que ha uma relacao positiva entre valorpago e consumo de agua onde a variacao pelo consumo ou variacao dovalor pago (tangente) β 2 cresce positivamente Precisamos verificar se estavariacao β 2 e estatisticamente diferente de zero (significativa)
Castaneda Daniel F N 2013 38
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3943
22 Metodologia 2 R E ECONOMETRIA
226 Estatıstica de prova
Denominada de funcao pivo ou estatıstica de teste No ambito pa-rametrico usa-se as estatısticas t student (amostras pequenas) quando ne grande e indiferente o uso da t student ou normal No exemplo para tes-tar qual a inclinacao da variacao pelo consumo de agua usamos a seguinteestatıstica
t0 =β 2
dp(β 2)asymp tnminus2gl (12)
onde t0 e o valor calculado da estatıstica t β 2 e a estimativa do parametro(variacao pelo consumo) β 2 dp(β 2) e o desvio padrao da estimativa doparametro β 2 o valor t0 segue uma distribuicao t-student com nminus2 graus deliberdade(gl) Os graus de liberdade e calculado diferenciando o tamanhoda amostra com o numero de parametro do modelo (n-p) O valor quantılicotnminus2gl(0025) corresponde a distribuicao t-student com 0025 de significanciacom n minus 2 graus de liberdade e n e o numero total de observacoes Nossoexemplo β 2 = 3007 e dp(β 2) = 013 por tanto t0 = 2313 e comparadocom o valor da tabela da t-student com 63 gl e com α2 = 0025 sendo estevalor igual 19983
227 Tipos de erro
Ocorre o erro tipo I (α) ao se rejeitar a hipotese de nulidade quandodeveria aceita-la Por outro lado quando se aceita a hipotese de nulidadequando deveria rejeita-la comete-se o erro tipo II (β ) Nas duas situacoestomou-se uma decisao errada O interesse e a minimizacao dos erros tipo Ie II que na pratica so e possıvel aumentando-se o tamanho da amostra Porrazoes diversas o aumento do tamanho da amostra muitas vezes torna-se im-praticavel A gravidade do erro tipo I e distinta da do erro tipo II quando seconsegue identificar o erro mais grave a opcao e a minimizacao deste poremquando a probabilidade de ocorrencia de um tipo de erro diminui a do outroaumenta e vice versa Podemos observar este criterio na seguinte tabela
Nao rejeita rejeitaH0 verdadeira Correto (1 minus α) Erro do tipo I (α)H0 falsa Erro do tipo II (β ) Correto (1minus β )
Castaneda Daniel F N 2013 39
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4043
22 Metodologia 2 R E ECONOMETRIA
228 Regra de Decisao
Os pacotes ou plataformas estatısticas apresentam o valor observado dafuncao pivo e o p minus valor (Area de probabilidade esta relacionada comonıvel de significancia) assim a funcao pivo apresenta o valor numerico nafuncao de densidade da Estatıstica exemplo dentro da densidade da normalQuando o pvalor e menor do que α = 005 no caso do teste unicaudal (eα = 0025 no caso bicaudal) concluımos que nao ha evidencia suficiente paraaceitar H0 Caso contrario se o p minus valor for maior que α = 005 podemosconcluir que nao ha evidencia suficiente para rejeitar H0 Nosso exemplot0 = 2313 gt 1998 (1998 e valor da distribuicao t com 63 gl e nıvel designificancia bicaudal de 005) este valor localiza-se na cauda positiva da
distribuicao com 63 graus de liberdade(n minus 2 = 65 minus 2) Por outro lado o pminus valor lt 0025 por tanto nao ha evidencias para aceitar H0 em favor deaceitar que o coeficiente de inclinacao (ou tangente) e positiva No recorrerdo livro usaremos codigos para as medidas do pminusvalor que em geral apareceem todo comando summary() Como consequencia a linha que aparece aseguir sera excluıda das saıdas do R
Signif codes 0 0001 001 005 01 1
sera interpretada da seguinte maneira
bull 0 significancia menor que 0001
bull 0001 significancia menor que 001
bull 001 significancia menor que 005
bull 005 significancia menor que 01
bull 01 significancia menor que 1
229 Conclusoes
Esta parte do teste de hipoteses e explicada em conjunto O Estatıstico eo Economista que sao os profissionais da area em que as observacoes foramcoletadas decidem sobre as providencias futuras No exemplo podemosafirmar que a cada metro cubico a mais de consumo de agua sera pago emmedia 3 reais a mais No momento este valor pago pode parecer alto poremna falta de este liquido elementar este valor pode aumentar e por tantosofrera mudancas
Castaneda Daniel F N 2013 40
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4143
23 Previs˜ oes 2 R E ECONOMETRIA
23 Previsoes
Muitas vezes estamos interessados em determinar o que acontece quandouma quantidade de consumo de agua em m3 e utilizada e qual o valor pagoem reais Por exemplo se nosso interesse e saber quanto sera pago por 20m3
de consumo de agua em uma residencia A conta a realizar eValor pago = minus12365 + 3007 lowast 20 = 47775 reaisA interpretacao deste valor e em media o valor pago em reais por 20m3 deagua consumida e de aproximadamente 478 reais
231 Resıduos
Uma questao fundamental em econometria e identificar o comportamentodos resıduos de um modelo Considere Y o valor real pago e Y valor pagoestimado a partir de um modelo entao este erro e aleatorio e definido por
ϵi = Y i minus Y i (13)
A abordagem mais formal dos erros e feita nos proximos capıtulosUma questao importante e determinar qual o comportamento da estima-tiva destes erros aos quais chamamos de resıduos Para determinar a nor-malidade dos resıduos realizamos o teste de Jarque Bera com a funcao
jarqueberatest() da biblioteca tseries com o seguinte grafico
minus2 minus1 0 1 2
minus 5
0
5
1 0
resiacuteduos do modelo valor= f(consumo)
Theoretical Quantiles
S a m p l e Q u a n t i l e s
Figura 11 Normalidade dos resıduos
Castaneda Daniel F N 2013 41
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4243
24 Exercıcios REFER ENCIAS
24 Exercıcios
1 Por que a econometria precisa ser uma disciplina autonoma
2 Que e econometria
3 Pesquise dados de corte transversal corte longitudinal e de painel
4 Construa uma metodologia econometrica para o consumo familiar emfuncao da renda familiar (linear)
5 No item anterior e possıvel encontrar uma relacao quadratica
6 Quais sao os pressupostos basicos de um modelo de regressao linear
simples
7 Como e chamado o parametro de inclinacao ou tangente num modelode regressao linear simples em econometria
8 Que e o projeto R
9 R e um programa econometrico
Referencias
[1] Albert Jim (2009) Bayesian computation with R Editora SpringerSecond Edition New York USA
[2] Borde Arvind (1992) TEX by example A beginneracutes guide Ed Aca-demic Press Professional United States of America
[3] Carneiro Orlando (1997) Econometria Bacute asica Teoria e Aplicac˜ oes Editora Atlas Segunda Edicao son Paulo
[4] Conover W J (1999) Practical nonparametric statistics 3ed NewYork
[5] Cribari Neto F (2002) C for Econometricians conputational Econo-
mics 14 p135-149
[6] Dalgaard Peter(2008) Introductory Statistics with R Editora SpringerSecond Edition New York USA
[7] Ehlers Ricardo(2007) Analise de series Temporais Universidade Fe-deral do Parana
Castaneda Daniel F N 2013 42
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4343
REFER ENCIAS REFER ENCIAS
[8] Frery Alejandro Cribari-Neto Francisco(2011)Elementos de
Estatıstica conputacional Usando Plataformas de Software Li-vreGratuito Publicacoes Matematicas Editora IMPA
[9] Gujarati Damodar N (2000) Econometria Bacute asica Makron Books Ter-ceira Edicao son Paulo
[10] Knuth DE (1981)The Art of conputer Programming Third EditionVolume 2 Seminumerical Algorithms Addison-Wesley Publishingconpany Massachusetts
[11] Korgi Rodrigo de Castro (2003) El universo LAT E X Editora Facultadde Ciencias Segunda Edicao Bogota
[12] Krawczyk H How to Predict Congruential Generators InJournal of Algorithms V 13 N 4 1992
[13] LrsquoEcuyer P (2001) Software for uniform random number generationdistinguishing the good and the bad In Proceedings of the 2001 WinterSimulation Conference
[14] Maindonald John Braun W John(2010) Data analysis and graphics using R an example-based approach Cambridge University Press NewYork USA
[15] Mingoti(2005)Analise De Dados Atraves De Metodos De Estatistica Multivariada - Uma Abordagem Aplicada Editora UFMG Belo Hori-zonte
Castaneda Daniel F N 2013 43
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1143
19 Sequencias 1 INICIANDO O R
c
[1] [2] [3]
[1] 1 4 7
[2] 2 5 8
[3] 3 6 9
19 Sequencias
Sequencias sao construıdas ingressando o primeiro elemento o ultimoelemento e o espacamento
b=seq(1014 by=5)
b[1] 100 105 110 115 120 125 130 135 140
a=seq(19)
ab=ab multiplicando vetores
ab
[1]
[1] 570
ab=outer(ab)
ab
[1] [2] [3] [4] [5] [6] [7] [8] [9]
[1] 10 105 11 115 12 125 13 135 14
[2] 20 210 22 230 24 250 26 270 28[3] 30 315 33 345 36 375 39 405 42
[4] 40 420 44 460 48 500 52 540 56
[5] 50 525 55 575 60 625 65 675 70
[6] 60 630 66 690 72 750 78 810 84
[7] 70 735 77 805 84 875 91 945 98
[8] 80 840 88 920 96 1000 104 1080 112
[9] 90 945 99 1035 108 1125 117 1215 126
ab=at(b)
ab
[1] [2] [3] [4] [5] [6] [7] [8] [9][1] 10 105 11 115 12 125 13 135 14
[2] 20 210 22 230 24 250 26 270 28
[3] 30 315 33 345 36 375 39 405 42
[4] 40 420 44 460 48 500 52 540 56
[5] 50 525 55 575 60 625 65 675 70
Castaneda Daniel F N 2013 11
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1243
110 Multiplicando matrizes 1 INICIANDO O R
[6] 60 630 66 690 72 750 78 810 84
[7] 70 735 77 805 84 875 91 945 98
[8] 80 840 88 920 96 1000 104 1080 112
[9] 90 945 99 1035 108 1125 117 1215 126
d=outer(0909)
d
[1] [2] [3] [4] [5] [6] [7] [8] [9] [10]
[1] 0 0 0 0 0 0 0 0 0 0
[2] 0 1 2 3 4 5 6 7 8 9
[3] 0 2 4 6 8 10 12 14 16 18
[4] 0 3 6 9 12 15 18 21 24 27
[5] 0 4 8 12 16 20 24 28 32 36
[6] 0 5 10 15 20 25 30 35 40 45
[7] 0 6 12 18 24 30 36 42 48 54
[8] 0 7 14 21 28 35 42 49 56 63
[9] 0 8 16 24 32 40 48 56 64 72
[10] 0 9 18 27 36 45 54 63 72 81
110 Multiplicando matrizes
Para a construcao de matrizes o preenchimentos das celulas ou casas e
feita coluna a coluna como padrao exemplo
a= matrix(c(19)33)
a
[1] [2] [3]
[1] 1 4 7
[2] 2 5 8
[3] 3 6 9
podemos construir esta mesma matriz preenchendo as casas linha por linhada seguinte forma
at=matrix(c(19)33byrow=T)
at
[1] [2] [3]
[1] 1 2 3
[2] 4 5 6
[3] 7 8 9
Castaneda Daniel F N 2013 12
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1343
111 Invers˜ ao de matrizes 1 INICIANDO O R
Uma alternativa seria usar a funcao aperm()
b= aperm(ac(21))
b
[1] [2] [3]
[1] 1 2 3
[2] 4 5 6
[3] 7 8 9
ab multiplicac~ao elemento a elemento
[1] [2] [3]
[1] 1 8 21[2] 8 25 48
[3] 21 48 81
ab multiplicac~ao das matrizes a e b
[1] [2] [3]
[1] 66 78 90
[2] 78 93 108
[3] 90 108 126
crossprod(ab) produto da transposta de a por b
[1] [2] [3]
[1] 30 36 42
[2] 66 81 96
[3] 102 126 150
t(a)b
[1] [2] [3]
[1] 30 36 42
[2] 66 81 96
[3] 102 126 150
111 Inversao de matrizes
c=matrix(c(324572159)33)
d=matrix(c(223582858)33)
c
Castaneda Daniel F N 2013 13
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1443
112 Comandos cbind() e rbind() 1 INICIANDO O R
[1] [2] [3]
[1] 3 5 1
[2] 2 7 5
[3] 4 2 9
gt solve(c)
[1] [2] [3]
[1] 036551724 -029655172 012413793
[2] 001379310 015862069 -008965517
[3] -016551724 009655172 007586207
solve(cd) inverte a matriz c e multiplica por d
[1] [2] [3]
[1] 051034483 -029655172 24344828
[2] 007586207 115862069 01862069
[3] 008965517 009655172 -02344828
gt solve(c)d forma alternativa
[1] [2] [3]
[1] 051034483 -029655172 24344828
[2] 007586207 115862069 01862069
[3] 008965517 009655172 -02344828
112 Comandos cbind() e rbind()
E possıvel formar novas matrizes com as ja existentes usando a funcaocbind() e rbind() a primeira construı matrizes em colunas a segunda emlinhas
cbind(cd)
[1] [2] [3] [4] [5] [6]
[1] 3 5 1 2 5 8
[2] 2 7 5 2 8 5
[3] 4 2 9 3 2 8
rbind(cd)[1] [2] [3]
[1] 3 5 1
[2] 2 7 5
[3] 4 2 9
[4] 2 5 8
Castaneda Daniel F N 2013 14
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1543
113 Autovalores e autovetores 1 INICIANDO O R
[5] 2 8 5
[6] 3 2 8
cbind(1c)
[1] [2] [3] [4]
[1] 1 3 5 1
[2] 1 2 7 5
[3] 1 4 2 9
rbind(1d)
[1] [2] [3]
[1] 1 1 1
[2] 2 5 8
[3] 2 8 5
[4] 3 2 8
113 Autovalores e autovetores
ev=eigen(c) calcula autovalores e autovetores
ev
$values
[1] 13265694+0000000i 2867153+1646172i 2867153-1646172i
$vectors[1] [2] [3]
[1] 03799264+0i 07884141+00000000i 07884141+00000000i
[2] 06480231+0i 00745376+03051027i 00745376-03051027i
[3] 06600924+0i -04774265-02276482i -04774265+02276482
det(c)
[1] 145
det(d)
[1] -57
114 Data frame ou construtor de dados
Suponha um conjunto de dados com tres variaveis sexo (1=homem0=mulher) peso em quilogramas e salario em reais por dia de 12 indivıduosPara calcular a media o resumo de estatısticas descritivas e um grafico (plot)
Castaneda Daniel F N 2013 15
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1643
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1743
116 Func˜ ao readtable() 1 INICIANDO O R
attach(ind)
peso
[1] 67 60 62 69 54 59 57 67 60 65 59 55
salario
[1] 59 40 45 65 55 45 48 67 65 68 62 45
sex
[1] 1 0 0 1 0 0 0 1 1 1 1 0
detach(ind)
salario
Erro objeto rsquosalariorsquo n~ao encontrado
A funcao attach e detach pode ser usada no somente em arquivo dedados dos pacotes do R se nao tambem para listas e data frame
116 Funcao readtable()
Um amplo conjunto de arquivos com diferentes extensoes pode ser lidopor esta funcao
1161 Arquivos com extensao txt
Considere as seguintes variaveis x1 idade dos funcionarios x2 sexo
(1 homem 0 mulher) x3 anos de experiencia na funcao x4 estado civilx5 numero de filhos x6 nota de 0 minus 10 de um teste de avaliacao deconhecimento na sua area x7 teste psicotecnico de 0 a 50 x8 satisfacaocom a vida pessoal estes dados em bloco de notas com extensao txt obtidosde Mingoti 2005 Ver dados na integra no apendice
funcao=readtable(functxtheader=T)
funcao
grupo idade sexo ecivil nfilhos aexper tpsico tconhec satisf
1 0 24 1 1 0 2 77 360 1
2 0 29 1 1 0 4 79 360 13 0 38 1 0 1 6 86 408 0
107 0 24 1 1 0 2 73 360 0
108 0 27 1 0 0 3 74 360 1
109 1 42 1 0 2 14 99 440 1
Castaneda Daniel F N 2013 17
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1843
117 Script com extens˜ ao R 1 INICIANDO O R
Considere os dados de consumo de agua de uma residencia durante
o perıodo de 1205 a 0411 Com as seguintes variaveis valor em reaisconsumo em m3 dias de consumo e construindo o imovel (1sim 2nao)Dados proprios do autor Ver dados na integra no apendice
ca=readtable(consumoagua2txtheader=T) disponıvel em meus documentos
ca
dado valor consumo diasconsumo Construindo
1 1 1476 11 30 0
2 2 1347 10 31 0
64 64 3439 14 31 1
65 65 2221 11 32 0
Observacao use o comando choose() para escolher um conjunto dedados de um diretorio especifico no computador podemos usar
datalt-readtable(filechoose()header=T)
117 Script com extensao R
Exemplo com extensao R lida por readtable com dados do proprio R
exemplo=readtable(filechoose()header=T) dadosrR em aula 3exemplo
dado valor
1 1 115
2 2 117
3 3 118
4 4 119
5 5 127
118 Funcao scan()
A funcao scan tambem pode incluir elementos no R
scan()
1 12
2 13
3 14
Castaneda Daniel F N 2013 18
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1943
119 Func˜ ao sample 1 INICIANDO O R
4 15
5
Read 4 items
[1] 12 13 14 15
Use a funcao scan() para ingressar dados diretamente na plataforma R
119 Funcao sample
Usa-se para escolher aleatoriamente uma amostra de um conjunto deobservacoes ou uma base de dados Como exemplo considere uma amostrade 8 observacoes dos primeiros 20 do banco de dados de consumo de agua
(ca)setseed(10)
ca20=ca[sample(1208)]
ca20
dado valor consumo diasconsumo Construindo
11 11 3153 16 31 1
6 6 1347 10 32 0
8 8 1347 10 30 0
12 12 3755 18 32 1
2 2 1347 10 31 0
4 4 5275 22 33 1
15 15 3755 18 32 0
14 14 1648 11 30 0
120 Rcmdr
Para importar dados do SPSS STATISTICA MINITAB EXCEL TXTetc podemos usar o pacote livre Rcmdr ja disponıvel na biblioteca
library(Rcmdr)
este pacote trabalha via janelas para maior comodidade
121 Dados disponıveis no R
R possuı mais de 100 conjunto de dados alocados no pacote dataset quepodem ser chamados diretamente ( sem extensao) com a funcao data
data()
Castaneda Daniel F N 2013 19
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2043
122 Modificando e editando dados 1 INICIANDO O R
No R pode-se acessar a conjunto de dados de outros pacotes disponıveis
na sua biblioteca Se por acaso esta instalado o pacote lmtest o conjuntode dados ativo neste pacote pode ser chamado da seguinte maneira
data(package=lmtest)
122 Modificando e editando dados
Considere o conjunto de dados anterior Para modificar este conjuntosera disponibilizado uma tela de editor de dados a seguir
xnovo=edit(wagespackage=lmtest)
Para editar um conjunto de dados novo podemos usar a funcao edit daseguinte forma
xn=edit(dataframe())
123 Exportando dados do R para o Excel
Para exportar uma coluna de dados por exemplo o valor pago no con-sumo de agua executamos no R
writeClipboard(ascharacter(valor))
Na tela do Excel usar o comando colar Suponha que esta interessadoem exportar o conjunto de dados ca consumo de agua numa residenciadisponıveis no R para transferir este conjunto de dados use o seguintecomando
writetable(caclipboardsep=tcolnames=NA)
Na tela do Excel faca Ctrl+V ou um click em colar
124 Funcoes apply tapply sapply e lapply
A funcao apply calcula medidas estatısticas por linhas ou por colunas
e a funcao sapply calcula apenas por coluna A diferenca da funcao applyda funcao tapply e que esta ultima calcula medidas estatısticas por estratosConsidere os dados de consumo de agua de uma residencia
apply(ca2mean)
dado valor consumo diasconsumo Construindo
330000000 255690769 126153846 307076923 02615385
Castaneda Daniel F N 2013 20
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2143
125 Distribuic˜ oes de probabilidade 1 INICIANDO O R
tapply(valorConstruindomean)
0 1
2115271 3803882
sapply(camean)
dado valor consumo diasconsumo Construindo
330000000 255690769 126153846 307076923 02615385
lapply(camean) verificar
125 Distribuicoes de probabilidade
R proporciona uma serie de funcoes para variaveis aleatorias estatısticasconhecidas dentro destas funcoes temos distribuicao aleatorizacao proba-
bilidade e quantidadeDistribuicao nome no R argumentos adicionaisbeta beta shape1shap2npcbinomial binom sizeprobcauchy cauchy locationscalechi-quadrado chisq dfnpcexponencial exp rateF f df1df2npcgamma gamma shapescalegeometric geom probhypergeometric hyper mnk
log-normal lnorm meanlogsdloglogistic logis locationscalenegativa binomial nbinom sizeprobnormal norm meansdpoisson pois lambdat-student t dfncpuniforme unif minmaxweibull weibull shapescalewilcoxon wilcoxon mn
Nomes iniciando com ldquodrdquocalculara a densidade da funcao ldquoprdquoparacalcular a probabilidade ou funcao acumulada ldquoqrdquopara o valor quantılico eldquorrdquopara simulacao de numeros aleatoriosExemplos
rpois(105) 10 numeros aleatorios da dist poisson com parametro 5
[1] 3 2 3 1 8 6 1 3 2 3
Castaneda Daniel F N 2013 21
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2243
126 Algoritmos de programac˜ ao no R 1 INICIANDO O R
rnorm(5) 5 numeros aleatorios da normal padr~ao
[1] 004659011 -005019082 -128753167 115411245 -137573809
qt(09550) valor quantilico da t com 50 gl
[1] 1675905
qchisq(0951) valor da qui-quadrado
com 95 de confianc a e 1 g l
[1] 3841459
dpois(45) densidade da dist poisson x=4 parametro=5
[1] 01754674
ppois(45) P(xlt=4) parametro=5
[1] 04404933
126 Algoritmos de programacao no R
R e uma linguagem de programacao orientada a objetos que alem de ana-lisar dados tem sua propria programacao aqui usaremos esta programacaopara analises de estatısticas e econometria Para maiores detalhes podemospesquisar em Venables and Ripley (2000 e 2002) Voce pode estender afuncionalidade do R criando novas funcoes ou programando por exemplo
medianamediarazao lt- function(x)
return(median(x)mean(x))
setseed(20)
z = rexp(10000)
medianamediarazao(z)
[1] 06925193
Construindo a mediana
mediana=function(x)
oddeven=length(x)2
if (oddeven == 0) (sort(x)[length(x)2]+sort(x)[1+ length(x)2])2
else sort(x)[ceiling(length(x)2)]
Construindo a media geometrica
mediageometrica = function (x) exp(mean(log(x)))
Construindo a media harmonica
Castaneda Daniel F N 2013 22
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2343
126 Algoritmos de programac˜ ao no R 1 INICIANDO O R
mediaharmonica=function (x) 1mean(1x)
Um algoritmo que envolva as medidas de tendencia central
medidascentrais = function(y medida)
switch(medida
media = mean(y)
mgeometrica = exp(mean(log(y)))
mharmonica = 1mean(1y)
mediana = median(y)
stop(Medida n~ao inclusa))
medidascentrais(ymedia)
Gerando uma distribuicao uniforme para o lancamento de um dado
ndado=function(x) return(round(runif(x)6+05))
hist(ndado(100000)
Com o comando sample podemos realizar este mesmo experimento daseguinte maneira
gerando=sample(16 100000 replace=TRUE)
hist(gerando)
Considere o seguinte objeto c
c=c(122715365)
Para determinar que classe de objeto e o vetor c podemos identificarusando os seguintes comandos
ischaracter(c)
[1] FALSE
isnumeric(c)
[1] TRUE
A este objeto c podemos a signar nome a cada valor definido da seguinteforma
names(c)=c(abcdef)
c
a b c d e f
10 22 70 150 30 65
Castaneda Daniel F N 2013 23
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2443
127 Lacos no R 1 INICIANDO O R
Podemos associar uma comparacao logica com o vetor c da seguinte
forma
cgt3
a b c d e f
FALSE FALSE TRUE TRUE FALSE TRUE
Quando estamos diante de uma matriz podemos definir os nomes dascolunas com colnames() e os nomes das linhas com rownames() veja oexemplo
d=matrix(c(223582858)33)
colnames(d)=c(c1c2c3)
rownames(d)=c(1o2o3o)
d
c1 c2 c3
1o 2 5 8
2o 2 8 5
3o 3 2 8
A matriz d e entendida como um conjunto de dados que podem serassociados as linhas e as colunas Para determinar se ha associacao entrelinhas e colunas o teste utilizado pode se o qui-quadrado com a funcaochisqtest()
127 Lacos no R
Em algumas situacoes variaveis contınuas podem ser transformadas em variaveisordinais ou dummy para realizar estas operacoes o R proporciona varioslacos como else if ou ifelseExemplo para construir variaveis binarias considere o consumo de aguaonde consumo menor ou igual a 10 m3 e zero e acima de 10 m3 e 1 Ovalor de consumo sendo zero se o valor e menor ou igual a 20 reais e 1 casocontrario
consumoc=numeric(length(consumo))
for(i in 1length(consumo))if (consumo[i]lt=10) consumoc[i]=0
else consumoc[i]=1
valorc=numeric(length(valor))
for(i in 1length(valor))if (valor[i]lt=20) valorc[i]=0 else valorc[i]=1
Castaneda Daniel F N 2013 24
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2543
128 A func˜ ao cut() 1 INICIANDO O R
Nota Podemos construir os lacos considerando a condicao como texto
exemplo consumoc[i]=rdquo[0minus 10]rdquo Comando alternativo de construcao
consumoc2=ifelse(consumolt=10[0-10]Acima de 10)
valorc2=ifelse(valorlt=20[0-20]Acima de 20)
limitacao deste laco e que utilizado apenas para duas condicoes Para lacoscom mais de duas condicoes podemos usar os seguintes comandos
valorc3=numeric(length(valor))
for(i in 1length(valor))if (valor[i]lt20) valorc3[i]=[0-20)
else if (valor[i]lt30)
valorc3[i]=[20-30) else valorc3[i]=[30 a +
table(valorc3)
128 A funcao cut()
Alguma funcoes usam lacos para criar novas variaveis categoricas no exem-plo de valor pago em reais pelo consumo de agua podemos construir cate-gorias por quartis de 25 50 75 1 da seguinte maneira
q=cut(valorquantile(valor) includelowest=T)
table(q)
q
[135165] (165222] (222327] (327693]
17 16 16 16
Outras formas podem ser usando intervalos a criterio pessoal no exemplo aseguir consideramos com valor mınimo 13 e valor maximo 70 com amplitudedo intervalo de 19 e com classes fechadas no mınimo e aberto no maximo
valr=cut(valmseq(137019)right=Fincludeupper=T)
table(valr)
valr
[1332) [3251) [5170)
48 15 2
129 Criando funcoes Teste que compara duas medias
Como exemplo implementamos a estatıstica de comparacao de duasamostras independentes
Castaneda Daniel F N 2013 25
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2643
130 Coeficiente de regressao 1 INICIANDO O R
testeduas lt- function(y1 y2)
+ n1 lt- length(y1) n2 lt- length(y2)
+ yb1 lt- mean(y1) yb2 lt- mean(y2)
+ s1 lt- var(y1) s2 lt- var(y2)
+ s lt- ((n1-1)s1 + (n2-1)s2)(n1+n2-2)
+ tst lt- (yb1 - yb2)sqrt(s(1n1 + 1n2))
+ tst
+
x=runif(20)
y=rnorm(20)
testeduas(xy)
[1] 2874636
Uma forma alternativa e usando a funcao ttest()
ttest(xy)
Welch Two Sample t-test
data x and y
t = 28746 df = 21784 p-value = 0008858
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
01846283 11429380sample estimates
mean of x mean of y
05539270 -01098562
130 Coeficiente de regressao
Implementando o calculo da tangente (inclinacao) do coeficiente no mo-delo de regressao linear simples
mq1lt- function(X y)
+ X lt- qr(X)
+ qrcoef(X y)+
mq1(xy)
[1] -008755885
Castaneda Daniel F N 2013 26
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2743
131 Teste Qui- Quadrado 1 INICIANDO O R
131 Teste Qui- Quadrado
Util para associar linhas e colunas considere os dados em d com as se-guintes hipotesesH0 nao ha associacao entre linhas e colunasHa ha associacao entre linhas e colunas
chisqtest(d)
Pearsonrsquos Chi-squared test
data d
X-squared = 46497 df = 4 p-value = 03252
Warning message
In chisqtest(d) Aproximac~ao Qui-quadrado pode estar incorreta
Para um nıvel α = 0 05 de significancia podemos afirmar que nao haevidencias para afirmar que a associacao entre linhas e colunas (linhas ecolunas sao independentes) Um outro exemplo do uso da distribuicao Qui-quadrado e verificar se um conjunto de dados provem de uma determinadadistribuicao teorica
chisqtest(c)
Chi-squared test for given probabilities
data c
X-squared = 22549 df = 5 p-value = 00004116
Pelo p-value podemos afirmar que a 0 05 de significancia nao ha evi-dencias para afirmar que a distribuicao dos numeros em c sejam uniformesPara implementar este teste de associacao no exemplo de consumo de aguaconsiderando a classificacao mediante lacos (ver lacos no R) entre consumoce valorc temos
table(consumocvalorc)
valorc
consumoc 0 1
0 24 0
Castaneda Daniel F N 2013 27
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2843
132 Teste t - student 1 INICIANDO O R
1 3 38
chisqtest(consumocvalorc)$expected
chisqtest(consumocvalorc)$observed
chisqtest(consumocvalorc)
Pearsonrsquos Chi-squared test with Yatesrsquo continuity correction
data consumoc and valorc
X-squared = 498015 df = 1 p-value = 1701e-12
barplot(table(consumocvalorc) beside=T)
Concluimos que ha associacao entre consumo de agua e o valor pago em
reais
132 Teste t - student
O teste mais usado pelos estatısticos e util para comparar medias deduas amostras tanto independente como emparelhadasExemplo considere as exportacoes mensais (FOB-US) do Brasil durante osanos de 2009 minus 2010 Apos digitacao das observacoes temos
exp2009
[1] 9781920 9586406 11809225 12321617 11984585 14467785 14141930
[8] 13840850 13863222 14081686 12652892 14462624
exp2010[1] 1130507 1219724 1572750 1516121 1770250 1709391 1767292 1923625
[9] 1883279 1838042 1768733 2091814
H0 A medias anuais das exportacoes durante 2009 e 2010 e a mesmaHa CC
ttest(exp2009exp2010paired = FALSE)
Welch Two Sample t-test
data exp2009 and exp2010
t = -42813 df = 18202 p-value = 00004394
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-6075666 -2077757
sample estimates
mean of x mean of y
Castaneda Daniel F N 2013 28
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2943
133 Teste F 1 INICIANDO O R
1274956 1682627
Conclusao nao ha evidencias para aceitar que a media das exportacoesde 2009 e 2010 e a mesma
Quando um conjunto de dados e dado em formato de matriz (dataframe)podemos realizar o teste t de uma coluna em funcao da outra por exemplono consumo de agua queremos testar a hipotese nula H0 o valor de con-sumo de agua e o mesmo construindo ou nao versus a hipotese alternativaHa Caso contrario
attach(ca)
ttest(valor~Construindo)
Welch Two Sample t-test
data valor by Construindo
t = -58383 df = 21731 p-value = 7465e-06
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-2288867 -1088356
sample estimates
mean in group 0 mean in group 1
2115271 3803882
Concluımos que nao ha evidencias para aceitar que o valor de consumode agua e o mesmo quando estamos construindo ( p minus valor lt 005)
Exemplos adicionais podem ser comparando entre as variaveis clas-sificadas (ver secao de lacos) da seguinte forma
ttest(valor~consumoc)
ttest(consumo~valorc)
boxplot(consumo~valorc2 main=Consumo e valor pago em Reais)
boxplot(consumo~valorc3 main=Consumo e valor pago em Reais)
133 Teste F
Para determinar se ha a mesma variabilidade no valor de consumoquando estamos ou nao construindo utilizamos o teste F A hipotese nulae H0 O valor de consumo de agua tem a mesma variabilidade quandoconstruımos que quando nao construımos No R temos
Castaneda Daniel F N 2013 29
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3043
133 Teste F 1 INICIANDO O R
vartest(valor~Construindo)
F test to compare two variances
data valor by Construindo
F = 04834 num df = 47 denom df = 16 p-value = 005478
alternative hypothesis true ratio of variances is not equal to 1
95 percent confidence interval
0194815 1014916
sample estimates
ratio of variances
04834048
Concluımos que nao ha evidencias para rejeitar a hipotese nula por tanto
a variabilidade no valor de consumo e o mesmoO correspondente grafico (Box-plot) e apresentado a seguir
boxplot(valor~Construindo col=8 names=c(n~ao construc~ao construc~ao))
natildeo construccedilatildeo construccedilatildeo
2 0
3 0
4 0
5 0
6 0
7 0
Figura 4 Valor pago em reais no consumo de agua
Em alguns casos ha necessidade de identificar se a variabilidade dasexportacoes e a mesma comparando 2009 e 2010H0 As exportacoes de 2009 e 2010 tem a mesma variabilidade (dados men-sais coletados do site httpwwwipeadatagov)Ha CC
Castaneda Daniel F N 2013 30
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3143
134 Graficos 1 INICIANDO O R
vartest(exp2009exp2010)
F test to compare two variances
data exp2009 and exp2010
F = 03728 num df = 11 denom df = 11 p-value = 01166
alternative hypothesis true ratio of variances is not equal to 1
95 percent confidence interval
01073346 12951624
sample estimates
ratio of variances
03728482
Conclusao Nao houve mudancas na variabilidade das exportacoes de
2009 e 2010
134 Graficos
Considere os dados mensais das exportacoes do Brasil (FOB) durante2009 e 2010 para realizar um grafico de box-plot fazemos
boxplot(exp2009exp2010 main=exportac~oes do Brasil
names=c(20092010))
2009 2010
1 0 0 0 0
1 2 0 0 0
1 4 0 0 0
1 6 0 0 0
1 8 0 0 0
2 0
0 0 0
exportaccedilotildees do Brasil
Figura 5 Exportacoes FOB em dolares
Para o grafico da funcao acumulativa das exportacoes
plot(ecdf(exp2010) dopoint=FALSE verticals=TRUE
lty=3 xlim=c(1000023000))
lines(ecdf(exp2009) dopoint=FALSE verticals=TRUE
col=2)
Castaneda Daniel F N 2013 31
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3243
134 Graficos 1 INICIANDO O R
1 00 00 1 20 00 1 40 00 1 60 00 1 80 00 2 00 00 2 20 00
0 0
0 2
0 4
0 6
0 8
1 0
ecdf(exp2010)
x
F n ( x )
Figura 6 Funcao acumulada das exportacoes 2009-2010
Considere as exportacoes do Brasil um histograma e Q-Q plot sera
hist(exp main=Exportac~oes FOB-US col=8)
qqnorm(exp xlim=c(-55)ylim=c(-100021000))
qqline(exp)
Exportaccedilotildees FOBminusUS$
exp
F r e q u e n c y
0 5000 10000 15000 20000
0
5 0
1 0 0
1 5 0
minus4 minus2 0 2 4
0
5 0 0 0
1 0 0 0 0
1 5 0 0 0
2 0 0 0 0
Normal QminusQ Plot
Theoretical Quantiles
S a m p l e Q u a n t i l e s
Figura 7 Graficos das Exportacoes no Brasil 2001-2010
Para ativar alguns graficos pacotes sao necessarios exemplo
library(MASS)
Castaneda Daniel F N 2013 32
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3343
134 Graficos 1 INICIANDO O R
par(mfrow=c(21))
z = rnorm(500000)
hist(z prob=T)
curve(dnorm(x)add=T)
histscott(z prob=T)
Histogram of z
z
D e n s i t y
minus4 minus2 0 2 4
0 0
0 2
Histogram of x
z
D e n s i t y
minus4 minus2 0 2 4
0 0
0 2
0 4
Figura 8 Histograma de numeros aleatorios normais
boxcox(dist~speed data=cars) transformac~ao Box-Cox
minus2 minus1 0 1 2
minus 4 0 0
minus 3 5 0
minus 3 0 0
minus 2 5 0
λ
l o g minus
L i k e l i h o o d
95
Figura 9 Valor otimo na transformacao Box-Cox
Castaneda Daniel F N 2013 33
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3443
135 Tabelas 1 INICIANDO O R
Para ter um alcance maior sobre a capacidade grafica do R podemos
usar as seguintes funcoes
demo(graphics)
demo(image)
demo(persp)
demo(recursion)
demo(plotmath)
demo(package = packages(allavailable = TRUE))
135 Tabelas
Algumas tabelas estatısticas podem ser construıdas com a funcao table()estado=c(PBPEALSEBAMGESRJPBPEAL
SEBAMGESRJPBPEALSEBAMGESRJ
PBPEALSEBAMGESRJ)
estadof=factor(estado)
estadof
[1] PB PE AL SE BA MG ES RJ PB PE AL SE BA MG ES RJ PB PE AL SE BA
[22] MG ES RJ PB PE AL SE BA MG ES RJ
Levels AL BA ES MG PB PE RJ SE
setseed(10)
salarios=c(round(runif(32)100))
salarios
[1] 51 31 43 69 9 23 27 27 62 43 65 57 11 60 36 43 5 26 40 84 86 62 78 36 41
[26] 71 84 24 77 36 54 9
salariom=tapply(salariosestadofmean)
salariom
AL BA ES MG PB PE RJ SE
5800 4575 4875 4525 3975 4275 2875 5850
salariof=factor(cut(salariosbreaks=0+15(07)))
salariof
[1] (4560] (3045] (3045] (6075] (015] (1530] (1530] (1530] (6075]
[10] (3045] (6075] (4560] (015] (4560] (3045] (3045] (015] (1530]
[19] (3045] (7590] (7590] (6075] (7590] (3045] (3045] (6075] (7590]
[28] (1530] (7590] (3045] (4560] (015]
Levels (015] (1530] (3045] (4560] (6075] (7590]
table(salariofestadof)
estadof
Castaneda Daniel F N 2013 34
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3543
136 Comandos adicionais 2 R E ECONOMETRIA
salariof AL BA ES MG PB PE RJ SE
(015] 0 2 0 0 1 0 1 0
(1530] 0 0 1 1 0 1 1 1
(3045] 2 0 1 1 1 2 2 0
(4560] 0 0 1 1 1 0 0 1
(6075] 1 0 0 1 1 1 0 1
(7590] 1 2 1 0 0 0 0 1
table(salariofestadof)
estadof
salariof AL BA ES MG PB PE RJ SE
(015] 1 1 0 0 1 0 1 2
(1530] 0 0 1 1 0 0 1 1
(3045] 0 0 2 0 0 1 0 0
(4560] 2 0 1 0 0 1 0 0
(6075] 0 1 0 2 3 0 1 0
(7590] 0 1 0 1 0 2 0 1
(90105] 0 1 0 0 0 0 1 0
136 Comandos adicionais
Em situacoes onde a ausencia de informacao ou dados faltantes(missing)as funcoes do R precisam declarar esta ausencia com o comando narm=T
indicando que a informacao apresenta dados faltantes Exemplo
df=c(2NA58NA) O ultimo elemento esta ausente
mean(f) Comando padr~ao para calcular a media
[1] NA
mean(fnarm=T) Comando declarando a ausencia de elementos
[1] 5
2 R e Econometria
Dados economicos precisam de uma atencao matematica para dar fun-
damento a suas teorias Atualmente pelo avanco computacional nao habarreiras para serem aplicadas e torna-se ate divertida se definimos a plata-forma de trabalho computacional A econometria requer de uma abordagemdiferenciada pois faz uso de da teoria economica economia matematica es-tatıstica economica estatıstica matematica e inferencia estatıstica Esta
Castaneda Daniel F N 2013 35
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3643
21 Tipos de Dados 2 R E ECONOMETRIA
disciplina aproxima a Estatıstica da Economia onde a teoria economica for-
mula as hipoteses Por exemplo uma reducao de precos de uma mercadoriadevera aumentar a quantidade demandada dessa mercadoria considerandouma relacao inversa entre preco e quantidade demandada ou a despesa deconsumo per capita depende da renda per capita considerando uma relacaodireta ou seja a medida que a renda aumenta a despesa tende a aumentarOutro exemplo onde consideremos a area microeconomica consumo de aguade uma residencia e o valor pago e natural imaginar que ha uma relacaodireta entre consumo e valor pago pelo consumo Porem precisamos saberqual e quanto e esta forca de relacao por tanto o econometrista forneceesta informacao usando a inferencia estatıstica e a estatıstica economicaAs estimativas de esta relacao fica por conta de estatıstica matematica
Para completar e cerrar este circulo de disciplinas abordadas na Econo-metria precisamos utilizar uma ferramenta de calculo computacional quebrinde estabilidade precisao e rapidez nos seus resultados para superartudo isto utilizaremos o ambiente R A econometria surge como uma disci-plina autonoma em virtude de aglutinar todas estas areas do conhecimentomerecendo um estudo proprio
21 Tipos de Dados
Os tipos de dados sao
1 Dados de corte transversal (cross-section) sao dados de uma ou maisvariaveis coletadas no mesmo ponto do tempo Por exemplo os censosno Brasil sao coletados num instante do tempo No censo variaveisdemograficas sao exploradas como contagem da populacao numerode indivıduos em cada famılia idade dos integrantes da famılia ouvariaveis economicas como renda consumo tipo de moradia (alugadaou propria) etc estes dados sao adquiridas a cada decada pelo IBGE
2 Dados longitudinais ou de series temporais sao caracterizadas porobservacoes ao longo do tempo No Brasil um site que disponibilizadados desta natureza e o IPEADATA
3 Dados de painel e uma mistura de dados de corte transversal e longi-tudinais ou ao longo do tempo estudamos o comportamento de unida-des individuais Por exemplo series mensal do ındice de precos serieanuais do produto interno bruto (PIB) ou serie anual da balanca co-mercial dos municıpios do Brasil considerando cada municıpio comounidades individuais
Castaneda Daniel F N 2013 36
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3743
22 Metodologia 2 R E ECONOMETRIA
22 Metodologia
Os passos da metodologia econometrica tradicional ou classica se iniciadesde a formulacao da hipotese ate as conclusoes em geral sao
221 Hipotese
Como referencia usaremos a hipotese nula H 0 a qual nulifica qualquerdiferenca e a hipoteses alternativa H a aquela que contradiz total ou par-cialmente a hipotese nula Exemplo
1 H 0 nao existe uma relacao entre consumo de agua e valor pago pela
mesma
2 Ha existe uma relacao entre consumo de agua e valor pago pelamesma
A hipotese alternativa pode ser dividida em tres possibilidades no exem-plo do consumo de agua pode ser dividida em existe alguma relacao oua relacao e negativa ou a relacao e positiva A primeira denomina-se dehipotese alternativa com teste bicaudal o segundo de teste unicaudal a es-querda e finalmente o ultimo com teste unicaudal a direita Nosso exemploconsidere H a existe alguma relacao (teste bicaudal)
222 Modelo matematico
Usaremos uma funcao de consumo simples
Y = β 1 + β 2X (11)
A variavel dependente Y valor pago pelo consumo e estimado por Y A variavel independente e X consumo de agua em m3 β 1 representa ovalor pago quando nao ha consumo de agua Nosso interesse e determinara tangente ou a variacao pelo consumo β 2
223 Modelo econometrico do valor pago
O modelo matematico fornece a relacao determinıstica entre valor pagoem reais e consumo de agua porem as relacoes entre as variaveis economicassao em geral inexatas Assim ao longo do tempo no podemos esperar que ovalor pago e o consumo em m3 se situem exatamente numa linha reta isto
Castaneda Daniel F N 2013 37
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3843
22 Metodologia 2 R E ECONOMETRIA
por que alem do consumo outras variaveis afetam o valor pago por exemplo
os dias de consumo o perıodo de reforma da casa ou a inflacao podendoalterar o valor pago pelo consumo
224 Nıvel de significancia
Denominado de α frequentemente usa-se α = 005 em situacoes derisco usa-se α = 001 Em testes bicaudais divide-se α em duas partes elocalizam-se nos extremos da distribuicao de prova Para testes unicaudaislocaliza-se no extremo da distribuicao indicada pela hipotese alternativaNosso exemplo α = 005 e por tanto α2 = 0025
225 Obtencao de Dados
Considere 65 observacoes (mes a mes) do consumo de agua em umaresidencia e o valor pago em reais durante o perıodo de 122005 a 042011Ver dados no apendice A Um plot e apresentado a seguir
10 15 20
2 0
3 0
4 0
5 0
6 0
7 0
Valor pago em reais de consumo de aacutegua
Variaacutevel independenteConsumo em m3
V a r i aacute v e l d e p e n d e n t e V a l o r p a g o
Y = minus12365+3007X
Figura 10 Relacao causal entre consumo e valor pago em reais
Podemos observar visualmente que ha uma relacao positiva entre valorpago e consumo de agua onde a variacao pelo consumo ou variacao dovalor pago (tangente) β 2 cresce positivamente Precisamos verificar se estavariacao β 2 e estatisticamente diferente de zero (significativa)
Castaneda Daniel F N 2013 38
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3943
22 Metodologia 2 R E ECONOMETRIA
226 Estatıstica de prova
Denominada de funcao pivo ou estatıstica de teste No ambito pa-rametrico usa-se as estatısticas t student (amostras pequenas) quando ne grande e indiferente o uso da t student ou normal No exemplo para tes-tar qual a inclinacao da variacao pelo consumo de agua usamos a seguinteestatıstica
t0 =β 2
dp(β 2)asymp tnminus2gl (12)
onde t0 e o valor calculado da estatıstica t β 2 e a estimativa do parametro(variacao pelo consumo) β 2 dp(β 2) e o desvio padrao da estimativa doparametro β 2 o valor t0 segue uma distribuicao t-student com nminus2 graus deliberdade(gl) Os graus de liberdade e calculado diferenciando o tamanhoda amostra com o numero de parametro do modelo (n-p) O valor quantılicotnminus2gl(0025) corresponde a distribuicao t-student com 0025 de significanciacom n minus 2 graus de liberdade e n e o numero total de observacoes Nossoexemplo β 2 = 3007 e dp(β 2) = 013 por tanto t0 = 2313 e comparadocom o valor da tabela da t-student com 63 gl e com α2 = 0025 sendo estevalor igual 19983
227 Tipos de erro
Ocorre o erro tipo I (α) ao se rejeitar a hipotese de nulidade quandodeveria aceita-la Por outro lado quando se aceita a hipotese de nulidadequando deveria rejeita-la comete-se o erro tipo II (β ) Nas duas situacoestomou-se uma decisao errada O interesse e a minimizacao dos erros tipo Ie II que na pratica so e possıvel aumentando-se o tamanho da amostra Porrazoes diversas o aumento do tamanho da amostra muitas vezes torna-se im-praticavel A gravidade do erro tipo I e distinta da do erro tipo II quando seconsegue identificar o erro mais grave a opcao e a minimizacao deste poremquando a probabilidade de ocorrencia de um tipo de erro diminui a do outroaumenta e vice versa Podemos observar este criterio na seguinte tabela
Nao rejeita rejeitaH0 verdadeira Correto (1 minus α) Erro do tipo I (α)H0 falsa Erro do tipo II (β ) Correto (1minus β )
Castaneda Daniel F N 2013 39
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4043
22 Metodologia 2 R E ECONOMETRIA
228 Regra de Decisao
Os pacotes ou plataformas estatısticas apresentam o valor observado dafuncao pivo e o p minus valor (Area de probabilidade esta relacionada comonıvel de significancia) assim a funcao pivo apresenta o valor numerico nafuncao de densidade da Estatıstica exemplo dentro da densidade da normalQuando o pvalor e menor do que α = 005 no caso do teste unicaudal (eα = 0025 no caso bicaudal) concluımos que nao ha evidencia suficiente paraaceitar H0 Caso contrario se o p minus valor for maior que α = 005 podemosconcluir que nao ha evidencia suficiente para rejeitar H0 Nosso exemplot0 = 2313 gt 1998 (1998 e valor da distribuicao t com 63 gl e nıvel designificancia bicaudal de 005) este valor localiza-se na cauda positiva da
distribuicao com 63 graus de liberdade(n minus 2 = 65 minus 2) Por outro lado o pminus valor lt 0025 por tanto nao ha evidencias para aceitar H0 em favor deaceitar que o coeficiente de inclinacao (ou tangente) e positiva No recorrerdo livro usaremos codigos para as medidas do pminusvalor que em geral apareceem todo comando summary() Como consequencia a linha que aparece aseguir sera excluıda das saıdas do R
Signif codes 0 0001 001 005 01 1
sera interpretada da seguinte maneira
bull 0 significancia menor que 0001
bull 0001 significancia menor que 001
bull 001 significancia menor que 005
bull 005 significancia menor que 01
bull 01 significancia menor que 1
229 Conclusoes
Esta parte do teste de hipoteses e explicada em conjunto O Estatıstico eo Economista que sao os profissionais da area em que as observacoes foramcoletadas decidem sobre as providencias futuras No exemplo podemosafirmar que a cada metro cubico a mais de consumo de agua sera pago emmedia 3 reais a mais No momento este valor pago pode parecer alto poremna falta de este liquido elementar este valor pode aumentar e por tantosofrera mudancas
Castaneda Daniel F N 2013 40
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4143
23 Previs˜ oes 2 R E ECONOMETRIA
23 Previsoes
Muitas vezes estamos interessados em determinar o que acontece quandouma quantidade de consumo de agua em m3 e utilizada e qual o valor pagoem reais Por exemplo se nosso interesse e saber quanto sera pago por 20m3
de consumo de agua em uma residencia A conta a realizar eValor pago = minus12365 + 3007 lowast 20 = 47775 reaisA interpretacao deste valor e em media o valor pago em reais por 20m3 deagua consumida e de aproximadamente 478 reais
231 Resıduos
Uma questao fundamental em econometria e identificar o comportamentodos resıduos de um modelo Considere Y o valor real pago e Y valor pagoestimado a partir de um modelo entao este erro e aleatorio e definido por
ϵi = Y i minus Y i (13)
A abordagem mais formal dos erros e feita nos proximos capıtulosUma questao importante e determinar qual o comportamento da estima-tiva destes erros aos quais chamamos de resıduos Para determinar a nor-malidade dos resıduos realizamos o teste de Jarque Bera com a funcao
jarqueberatest() da biblioteca tseries com o seguinte grafico
minus2 minus1 0 1 2
minus 5
0
5
1 0
resiacuteduos do modelo valor= f(consumo)
Theoretical Quantiles
S a m p l e Q u a n t i l e s
Figura 11 Normalidade dos resıduos
Castaneda Daniel F N 2013 41
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4243
24 Exercıcios REFER ENCIAS
24 Exercıcios
1 Por que a econometria precisa ser uma disciplina autonoma
2 Que e econometria
3 Pesquise dados de corte transversal corte longitudinal e de painel
4 Construa uma metodologia econometrica para o consumo familiar emfuncao da renda familiar (linear)
5 No item anterior e possıvel encontrar uma relacao quadratica
6 Quais sao os pressupostos basicos de um modelo de regressao linear
simples
7 Como e chamado o parametro de inclinacao ou tangente num modelode regressao linear simples em econometria
8 Que e o projeto R
9 R e um programa econometrico
Referencias
[1] Albert Jim (2009) Bayesian computation with R Editora SpringerSecond Edition New York USA
[2] Borde Arvind (1992) TEX by example A beginneracutes guide Ed Aca-demic Press Professional United States of America
[3] Carneiro Orlando (1997) Econometria Bacute asica Teoria e Aplicac˜ oes Editora Atlas Segunda Edicao son Paulo
[4] Conover W J (1999) Practical nonparametric statistics 3ed NewYork
[5] Cribari Neto F (2002) C for Econometricians conputational Econo-
mics 14 p135-149
[6] Dalgaard Peter(2008) Introductory Statistics with R Editora SpringerSecond Edition New York USA
[7] Ehlers Ricardo(2007) Analise de series Temporais Universidade Fe-deral do Parana
Castaneda Daniel F N 2013 42
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4343
REFER ENCIAS REFER ENCIAS
[8] Frery Alejandro Cribari-Neto Francisco(2011)Elementos de
Estatıstica conputacional Usando Plataformas de Software Li-vreGratuito Publicacoes Matematicas Editora IMPA
[9] Gujarati Damodar N (2000) Econometria Bacute asica Makron Books Ter-ceira Edicao son Paulo
[10] Knuth DE (1981)The Art of conputer Programming Third EditionVolume 2 Seminumerical Algorithms Addison-Wesley Publishingconpany Massachusetts
[11] Korgi Rodrigo de Castro (2003) El universo LAT E X Editora Facultadde Ciencias Segunda Edicao Bogota
[12] Krawczyk H How to Predict Congruential Generators InJournal of Algorithms V 13 N 4 1992
[13] LrsquoEcuyer P (2001) Software for uniform random number generationdistinguishing the good and the bad In Proceedings of the 2001 WinterSimulation Conference
[14] Maindonald John Braun W John(2010) Data analysis and graphics using R an example-based approach Cambridge University Press NewYork USA
[15] Mingoti(2005)Analise De Dados Atraves De Metodos De Estatistica Multivariada - Uma Abordagem Aplicada Editora UFMG Belo Hori-zonte
Castaneda Daniel F N 2013 43
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1243
110 Multiplicando matrizes 1 INICIANDO O R
[6] 60 630 66 690 72 750 78 810 84
[7] 70 735 77 805 84 875 91 945 98
[8] 80 840 88 920 96 1000 104 1080 112
[9] 90 945 99 1035 108 1125 117 1215 126
d=outer(0909)
d
[1] [2] [3] [4] [5] [6] [7] [8] [9] [10]
[1] 0 0 0 0 0 0 0 0 0 0
[2] 0 1 2 3 4 5 6 7 8 9
[3] 0 2 4 6 8 10 12 14 16 18
[4] 0 3 6 9 12 15 18 21 24 27
[5] 0 4 8 12 16 20 24 28 32 36
[6] 0 5 10 15 20 25 30 35 40 45
[7] 0 6 12 18 24 30 36 42 48 54
[8] 0 7 14 21 28 35 42 49 56 63
[9] 0 8 16 24 32 40 48 56 64 72
[10] 0 9 18 27 36 45 54 63 72 81
110 Multiplicando matrizes
Para a construcao de matrizes o preenchimentos das celulas ou casas e
feita coluna a coluna como padrao exemplo
a= matrix(c(19)33)
a
[1] [2] [3]
[1] 1 4 7
[2] 2 5 8
[3] 3 6 9
podemos construir esta mesma matriz preenchendo as casas linha por linhada seguinte forma
at=matrix(c(19)33byrow=T)
at
[1] [2] [3]
[1] 1 2 3
[2] 4 5 6
[3] 7 8 9
Castaneda Daniel F N 2013 12
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1343
111 Invers˜ ao de matrizes 1 INICIANDO O R
Uma alternativa seria usar a funcao aperm()
b= aperm(ac(21))
b
[1] [2] [3]
[1] 1 2 3
[2] 4 5 6
[3] 7 8 9
ab multiplicac~ao elemento a elemento
[1] [2] [3]
[1] 1 8 21[2] 8 25 48
[3] 21 48 81
ab multiplicac~ao das matrizes a e b
[1] [2] [3]
[1] 66 78 90
[2] 78 93 108
[3] 90 108 126
crossprod(ab) produto da transposta de a por b
[1] [2] [3]
[1] 30 36 42
[2] 66 81 96
[3] 102 126 150
t(a)b
[1] [2] [3]
[1] 30 36 42
[2] 66 81 96
[3] 102 126 150
111 Inversao de matrizes
c=matrix(c(324572159)33)
d=matrix(c(223582858)33)
c
Castaneda Daniel F N 2013 13
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1443
112 Comandos cbind() e rbind() 1 INICIANDO O R
[1] [2] [3]
[1] 3 5 1
[2] 2 7 5
[3] 4 2 9
gt solve(c)
[1] [2] [3]
[1] 036551724 -029655172 012413793
[2] 001379310 015862069 -008965517
[3] -016551724 009655172 007586207
solve(cd) inverte a matriz c e multiplica por d
[1] [2] [3]
[1] 051034483 -029655172 24344828
[2] 007586207 115862069 01862069
[3] 008965517 009655172 -02344828
gt solve(c)d forma alternativa
[1] [2] [3]
[1] 051034483 -029655172 24344828
[2] 007586207 115862069 01862069
[3] 008965517 009655172 -02344828
112 Comandos cbind() e rbind()
E possıvel formar novas matrizes com as ja existentes usando a funcaocbind() e rbind() a primeira construı matrizes em colunas a segunda emlinhas
cbind(cd)
[1] [2] [3] [4] [5] [6]
[1] 3 5 1 2 5 8
[2] 2 7 5 2 8 5
[3] 4 2 9 3 2 8
rbind(cd)[1] [2] [3]
[1] 3 5 1
[2] 2 7 5
[3] 4 2 9
[4] 2 5 8
Castaneda Daniel F N 2013 14
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1543
113 Autovalores e autovetores 1 INICIANDO O R
[5] 2 8 5
[6] 3 2 8
cbind(1c)
[1] [2] [3] [4]
[1] 1 3 5 1
[2] 1 2 7 5
[3] 1 4 2 9
rbind(1d)
[1] [2] [3]
[1] 1 1 1
[2] 2 5 8
[3] 2 8 5
[4] 3 2 8
113 Autovalores e autovetores
ev=eigen(c) calcula autovalores e autovetores
ev
$values
[1] 13265694+0000000i 2867153+1646172i 2867153-1646172i
$vectors[1] [2] [3]
[1] 03799264+0i 07884141+00000000i 07884141+00000000i
[2] 06480231+0i 00745376+03051027i 00745376-03051027i
[3] 06600924+0i -04774265-02276482i -04774265+02276482
det(c)
[1] 145
det(d)
[1] -57
114 Data frame ou construtor de dados
Suponha um conjunto de dados com tres variaveis sexo (1=homem0=mulher) peso em quilogramas e salario em reais por dia de 12 indivıduosPara calcular a media o resumo de estatısticas descritivas e um grafico (plot)
Castaneda Daniel F N 2013 15
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1643
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1743
116 Func˜ ao readtable() 1 INICIANDO O R
attach(ind)
peso
[1] 67 60 62 69 54 59 57 67 60 65 59 55
salario
[1] 59 40 45 65 55 45 48 67 65 68 62 45
sex
[1] 1 0 0 1 0 0 0 1 1 1 1 0
detach(ind)
salario
Erro objeto rsquosalariorsquo n~ao encontrado
A funcao attach e detach pode ser usada no somente em arquivo dedados dos pacotes do R se nao tambem para listas e data frame
116 Funcao readtable()
Um amplo conjunto de arquivos com diferentes extensoes pode ser lidopor esta funcao
1161 Arquivos com extensao txt
Considere as seguintes variaveis x1 idade dos funcionarios x2 sexo
(1 homem 0 mulher) x3 anos de experiencia na funcao x4 estado civilx5 numero de filhos x6 nota de 0 minus 10 de um teste de avaliacao deconhecimento na sua area x7 teste psicotecnico de 0 a 50 x8 satisfacaocom a vida pessoal estes dados em bloco de notas com extensao txt obtidosde Mingoti 2005 Ver dados na integra no apendice
funcao=readtable(functxtheader=T)
funcao
grupo idade sexo ecivil nfilhos aexper tpsico tconhec satisf
1 0 24 1 1 0 2 77 360 1
2 0 29 1 1 0 4 79 360 13 0 38 1 0 1 6 86 408 0
107 0 24 1 1 0 2 73 360 0
108 0 27 1 0 0 3 74 360 1
109 1 42 1 0 2 14 99 440 1
Castaneda Daniel F N 2013 17
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1843
117 Script com extens˜ ao R 1 INICIANDO O R
Considere os dados de consumo de agua de uma residencia durante
o perıodo de 1205 a 0411 Com as seguintes variaveis valor em reaisconsumo em m3 dias de consumo e construindo o imovel (1sim 2nao)Dados proprios do autor Ver dados na integra no apendice
ca=readtable(consumoagua2txtheader=T) disponıvel em meus documentos
ca
dado valor consumo diasconsumo Construindo
1 1 1476 11 30 0
2 2 1347 10 31 0
64 64 3439 14 31 1
65 65 2221 11 32 0
Observacao use o comando choose() para escolher um conjunto dedados de um diretorio especifico no computador podemos usar
datalt-readtable(filechoose()header=T)
117 Script com extensao R
Exemplo com extensao R lida por readtable com dados do proprio R
exemplo=readtable(filechoose()header=T) dadosrR em aula 3exemplo
dado valor
1 1 115
2 2 117
3 3 118
4 4 119
5 5 127
118 Funcao scan()
A funcao scan tambem pode incluir elementos no R
scan()
1 12
2 13
3 14
Castaneda Daniel F N 2013 18
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1943
119 Func˜ ao sample 1 INICIANDO O R
4 15
5
Read 4 items
[1] 12 13 14 15
Use a funcao scan() para ingressar dados diretamente na plataforma R
119 Funcao sample
Usa-se para escolher aleatoriamente uma amostra de um conjunto deobservacoes ou uma base de dados Como exemplo considere uma amostrade 8 observacoes dos primeiros 20 do banco de dados de consumo de agua
(ca)setseed(10)
ca20=ca[sample(1208)]
ca20
dado valor consumo diasconsumo Construindo
11 11 3153 16 31 1
6 6 1347 10 32 0
8 8 1347 10 30 0
12 12 3755 18 32 1
2 2 1347 10 31 0
4 4 5275 22 33 1
15 15 3755 18 32 0
14 14 1648 11 30 0
120 Rcmdr
Para importar dados do SPSS STATISTICA MINITAB EXCEL TXTetc podemos usar o pacote livre Rcmdr ja disponıvel na biblioteca
library(Rcmdr)
este pacote trabalha via janelas para maior comodidade
121 Dados disponıveis no R
R possuı mais de 100 conjunto de dados alocados no pacote dataset quepodem ser chamados diretamente ( sem extensao) com a funcao data
data()
Castaneda Daniel F N 2013 19
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2043
122 Modificando e editando dados 1 INICIANDO O R
No R pode-se acessar a conjunto de dados de outros pacotes disponıveis
na sua biblioteca Se por acaso esta instalado o pacote lmtest o conjuntode dados ativo neste pacote pode ser chamado da seguinte maneira
data(package=lmtest)
122 Modificando e editando dados
Considere o conjunto de dados anterior Para modificar este conjuntosera disponibilizado uma tela de editor de dados a seguir
xnovo=edit(wagespackage=lmtest)
Para editar um conjunto de dados novo podemos usar a funcao edit daseguinte forma
xn=edit(dataframe())
123 Exportando dados do R para o Excel
Para exportar uma coluna de dados por exemplo o valor pago no con-sumo de agua executamos no R
writeClipboard(ascharacter(valor))
Na tela do Excel usar o comando colar Suponha que esta interessadoem exportar o conjunto de dados ca consumo de agua numa residenciadisponıveis no R para transferir este conjunto de dados use o seguintecomando
writetable(caclipboardsep=tcolnames=NA)
Na tela do Excel faca Ctrl+V ou um click em colar
124 Funcoes apply tapply sapply e lapply
A funcao apply calcula medidas estatısticas por linhas ou por colunas
e a funcao sapply calcula apenas por coluna A diferenca da funcao applyda funcao tapply e que esta ultima calcula medidas estatısticas por estratosConsidere os dados de consumo de agua de uma residencia
apply(ca2mean)
dado valor consumo diasconsumo Construindo
330000000 255690769 126153846 307076923 02615385
Castaneda Daniel F N 2013 20
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2143
125 Distribuic˜ oes de probabilidade 1 INICIANDO O R
tapply(valorConstruindomean)
0 1
2115271 3803882
sapply(camean)
dado valor consumo diasconsumo Construindo
330000000 255690769 126153846 307076923 02615385
lapply(camean) verificar
125 Distribuicoes de probabilidade
R proporciona uma serie de funcoes para variaveis aleatorias estatısticasconhecidas dentro destas funcoes temos distribuicao aleatorizacao proba-
bilidade e quantidadeDistribuicao nome no R argumentos adicionaisbeta beta shape1shap2npcbinomial binom sizeprobcauchy cauchy locationscalechi-quadrado chisq dfnpcexponencial exp rateF f df1df2npcgamma gamma shapescalegeometric geom probhypergeometric hyper mnk
log-normal lnorm meanlogsdloglogistic logis locationscalenegativa binomial nbinom sizeprobnormal norm meansdpoisson pois lambdat-student t dfncpuniforme unif minmaxweibull weibull shapescalewilcoxon wilcoxon mn
Nomes iniciando com ldquodrdquocalculara a densidade da funcao ldquoprdquoparacalcular a probabilidade ou funcao acumulada ldquoqrdquopara o valor quantılico eldquorrdquopara simulacao de numeros aleatoriosExemplos
rpois(105) 10 numeros aleatorios da dist poisson com parametro 5
[1] 3 2 3 1 8 6 1 3 2 3
Castaneda Daniel F N 2013 21
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2243
126 Algoritmos de programac˜ ao no R 1 INICIANDO O R
rnorm(5) 5 numeros aleatorios da normal padr~ao
[1] 004659011 -005019082 -128753167 115411245 -137573809
qt(09550) valor quantilico da t com 50 gl
[1] 1675905
qchisq(0951) valor da qui-quadrado
com 95 de confianc a e 1 g l
[1] 3841459
dpois(45) densidade da dist poisson x=4 parametro=5
[1] 01754674
ppois(45) P(xlt=4) parametro=5
[1] 04404933
126 Algoritmos de programacao no R
R e uma linguagem de programacao orientada a objetos que alem de ana-lisar dados tem sua propria programacao aqui usaremos esta programacaopara analises de estatısticas e econometria Para maiores detalhes podemospesquisar em Venables and Ripley (2000 e 2002) Voce pode estender afuncionalidade do R criando novas funcoes ou programando por exemplo
medianamediarazao lt- function(x)
return(median(x)mean(x))
setseed(20)
z = rexp(10000)
medianamediarazao(z)
[1] 06925193
Construindo a mediana
mediana=function(x)
oddeven=length(x)2
if (oddeven == 0) (sort(x)[length(x)2]+sort(x)[1+ length(x)2])2
else sort(x)[ceiling(length(x)2)]
Construindo a media geometrica
mediageometrica = function (x) exp(mean(log(x)))
Construindo a media harmonica
Castaneda Daniel F N 2013 22
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2343
126 Algoritmos de programac˜ ao no R 1 INICIANDO O R
mediaharmonica=function (x) 1mean(1x)
Um algoritmo que envolva as medidas de tendencia central
medidascentrais = function(y medida)
switch(medida
media = mean(y)
mgeometrica = exp(mean(log(y)))
mharmonica = 1mean(1y)
mediana = median(y)
stop(Medida n~ao inclusa))
medidascentrais(ymedia)
Gerando uma distribuicao uniforme para o lancamento de um dado
ndado=function(x) return(round(runif(x)6+05))
hist(ndado(100000)
Com o comando sample podemos realizar este mesmo experimento daseguinte maneira
gerando=sample(16 100000 replace=TRUE)
hist(gerando)
Considere o seguinte objeto c
c=c(122715365)
Para determinar que classe de objeto e o vetor c podemos identificarusando os seguintes comandos
ischaracter(c)
[1] FALSE
isnumeric(c)
[1] TRUE
A este objeto c podemos a signar nome a cada valor definido da seguinteforma
names(c)=c(abcdef)
c
a b c d e f
10 22 70 150 30 65
Castaneda Daniel F N 2013 23
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2443
127 Lacos no R 1 INICIANDO O R
Podemos associar uma comparacao logica com o vetor c da seguinte
forma
cgt3
a b c d e f
FALSE FALSE TRUE TRUE FALSE TRUE
Quando estamos diante de uma matriz podemos definir os nomes dascolunas com colnames() e os nomes das linhas com rownames() veja oexemplo
d=matrix(c(223582858)33)
colnames(d)=c(c1c2c3)
rownames(d)=c(1o2o3o)
d
c1 c2 c3
1o 2 5 8
2o 2 8 5
3o 3 2 8
A matriz d e entendida como um conjunto de dados que podem serassociados as linhas e as colunas Para determinar se ha associacao entrelinhas e colunas o teste utilizado pode se o qui-quadrado com a funcaochisqtest()
127 Lacos no R
Em algumas situacoes variaveis contınuas podem ser transformadas em variaveisordinais ou dummy para realizar estas operacoes o R proporciona varioslacos como else if ou ifelseExemplo para construir variaveis binarias considere o consumo de aguaonde consumo menor ou igual a 10 m3 e zero e acima de 10 m3 e 1 Ovalor de consumo sendo zero se o valor e menor ou igual a 20 reais e 1 casocontrario
consumoc=numeric(length(consumo))
for(i in 1length(consumo))if (consumo[i]lt=10) consumoc[i]=0
else consumoc[i]=1
valorc=numeric(length(valor))
for(i in 1length(valor))if (valor[i]lt=20) valorc[i]=0 else valorc[i]=1
Castaneda Daniel F N 2013 24
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2543
128 A func˜ ao cut() 1 INICIANDO O R
Nota Podemos construir os lacos considerando a condicao como texto
exemplo consumoc[i]=rdquo[0minus 10]rdquo Comando alternativo de construcao
consumoc2=ifelse(consumolt=10[0-10]Acima de 10)
valorc2=ifelse(valorlt=20[0-20]Acima de 20)
limitacao deste laco e que utilizado apenas para duas condicoes Para lacoscom mais de duas condicoes podemos usar os seguintes comandos
valorc3=numeric(length(valor))
for(i in 1length(valor))if (valor[i]lt20) valorc3[i]=[0-20)
else if (valor[i]lt30)
valorc3[i]=[20-30) else valorc3[i]=[30 a +
table(valorc3)
128 A funcao cut()
Alguma funcoes usam lacos para criar novas variaveis categoricas no exem-plo de valor pago em reais pelo consumo de agua podemos construir cate-gorias por quartis de 25 50 75 1 da seguinte maneira
q=cut(valorquantile(valor) includelowest=T)
table(q)
q
[135165] (165222] (222327] (327693]
17 16 16 16
Outras formas podem ser usando intervalos a criterio pessoal no exemplo aseguir consideramos com valor mınimo 13 e valor maximo 70 com amplitudedo intervalo de 19 e com classes fechadas no mınimo e aberto no maximo
valr=cut(valmseq(137019)right=Fincludeupper=T)
table(valr)
valr
[1332) [3251) [5170)
48 15 2
129 Criando funcoes Teste que compara duas medias
Como exemplo implementamos a estatıstica de comparacao de duasamostras independentes
Castaneda Daniel F N 2013 25
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2643
130 Coeficiente de regressao 1 INICIANDO O R
testeduas lt- function(y1 y2)
+ n1 lt- length(y1) n2 lt- length(y2)
+ yb1 lt- mean(y1) yb2 lt- mean(y2)
+ s1 lt- var(y1) s2 lt- var(y2)
+ s lt- ((n1-1)s1 + (n2-1)s2)(n1+n2-2)
+ tst lt- (yb1 - yb2)sqrt(s(1n1 + 1n2))
+ tst
+
x=runif(20)
y=rnorm(20)
testeduas(xy)
[1] 2874636
Uma forma alternativa e usando a funcao ttest()
ttest(xy)
Welch Two Sample t-test
data x and y
t = 28746 df = 21784 p-value = 0008858
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
01846283 11429380sample estimates
mean of x mean of y
05539270 -01098562
130 Coeficiente de regressao
Implementando o calculo da tangente (inclinacao) do coeficiente no mo-delo de regressao linear simples
mq1lt- function(X y)
+ X lt- qr(X)
+ qrcoef(X y)+
mq1(xy)
[1] -008755885
Castaneda Daniel F N 2013 26
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2743
131 Teste Qui- Quadrado 1 INICIANDO O R
131 Teste Qui- Quadrado
Util para associar linhas e colunas considere os dados em d com as se-guintes hipotesesH0 nao ha associacao entre linhas e colunasHa ha associacao entre linhas e colunas
chisqtest(d)
Pearsonrsquos Chi-squared test
data d
X-squared = 46497 df = 4 p-value = 03252
Warning message
In chisqtest(d) Aproximac~ao Qui-quadrado pode estar incorreta
Para um nıvel α = 0 05 de significancia podemos afirmar que nao haevidencias para afirmar que a associacao entre linhas e colunas (linhas ecolunas sao independentes) Um outro exemplo do uso da distribuicao Qui-quadrado e verificar se um conjunto de dados provem de uma determinadadistribuicao teorica
chisqtest(c)
Chi-squared test for given probabilities
data c
X-squared = 22549 df = 5 p-value = 00004116
Pelo p-value podemos afirmar que a 0 05 de significancia nao ha evi-dencias para afirmar que a distribuicao dos numeros em c sejam uniformesPara implementar este teste de associacao no exemplo de consumo de aguaconsiderando a classificacao mediante lacos (ver lacos no R) entre consumoce valorc temos
table(consumocvalorc)
valorc
consumoc 0 1
0 24 0
Castaneda Daniel F N 2013 27
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2843
132 Teste t - student 1 INICIANDO O R
1 3 38
chisqtest(consumocvalorc)$expected
chisqtest(consumocvalorc)$observed
chisqtest(consumocvalorc)
Pearsonrsquos Chi-squared test with Yatesrsquo continuity correction
data consumoc and valorc
X-squared = 498015 df = 1 p-value = 1701e-12
barplot(table(consumocvalorc) beside=T)
Concluimos que ha associacao entre consumo de agua e o valor pago em
reais
132 Teste t - student
O teste mais usado pelos estatısticos e util para comparar medias deduas amostras tanto independente como emparelhadasExemplo considere as exportacoes mensais (FOB-US) do Brasil durante osanos de 2009 minus 2010 Apos digitacao das observacoes temos
exp2009
[1] 9781920 9586406 11809225 12321617 11984585 14467785 14141930
[8] 13840850 13863222 14081686 12652892 14462624
exp2010[1] 1130507 1219724 1572750 1516121 1770250 1709391 1767292 1923625
[9] 1883279 1838042 1768733 2091814
H0 A medias anuais das exportacoes durante 2009 e 2010 e a mesmaHa CC
ttest(exp2009exp2010paired = FALSE)
Welch Two Sample t-test
data exp2009 and exp2010
t = -42813 df = 18202 p-value = 00004394
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-6075666 -2077757
sample estimates
mean of x mean of y
Castaneda Daniel F N 2013 28
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2943
133 Teste F 1 INICIANDO O R
1274956 1682627
Conclusao nao ha evidencias para aceitar que a media das exportacoesde 2009 e 2010 e a mesma
Quando um conjunto de dados e dado em formato de matriz (dataframe)podemos realizar o teste t de uma coluna em funcao da outra por exemplono consumo de agua queremos testar a hipotese nula H0 o valor de con-sumo de agua e o mesmo construindo ou nao versus a hipotese alternativaHa Caso contrario
attach(ca)
ttest(valor~Construindo)
Welch Two Sample t-test
data valor by Construindo
t = -58383 df = 21731 p-value = 7465e-06
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-2288867 -1088356
sample estimates
mean in group 0 mean in group 1
2115271 3803882
Concluımos que nao ha evidencias para aceitar que o valor de consumode agua e o mesmo quando estamos construindo ( p minus valor lt 005)
Exemplos adicionais podem ser comparando entre as variaveis clas-sificadas (ver secao de lacos) da seguinte forma
ttest(valor~consumoc)
ttest(consumo~valorc)
boxplot(consumo~valorc2 main=Consumo e valor pago em Reais)
boxplot(consumo~valorc3 main=Consumo e valor pago em Reais)
133 Teste F
Para determinar se ha a mesma variabilidade no valor de consumoquando estamos ou nao construindo utilizamos o teste F A hipotese nulae H0 O valor de consumo de agua tem a mesma variabilidade quandoconstruımos que quando nao construımos No R temos
Castaneda Daniel F N 2013 29
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3043
133 Teste F 1 INICIANDO O R
vartest(valor~Construindo)
F test to compare two variances
data valor by Construindo
F = 04834 num df = 47 denom df = 16 p-value = 005478
alternative hypothesis true ratio of variances is not equal to 1
95 percent confidence interval
0194815 1014916
sample estimates
ratio of variances
04834048
Concluımos que nao ha evidencias para rejeitar a hipotese nula por tanto
a variabilidade no valor de consumo e o mesmoO correspondente grafico (Box-plot) e apresentado a seguir
boxplot(valor~Construindo col=8 names=c(n~ao construc~ao construc~ao))
natildeo construccedilatildeo construccedilatildeo
2 0
3 0
4 0
5 0
6 0
7 0
Figura 4 Valor pago em reais no consumo de agua
Em alguns casos ha necessidade de identificar se a variabilidade dasexportacoes e a mesma comparando 2009 e 2010H0 As exportacoes de 2009 e 2010 tem a mesma variabilidade (dados men-sais coletados do site httpwwwipeadatagov)Ha CC
Castaneda Daniel F N 2013 30
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3143
134 Graficos 1 INICIANDO O R
vartest(exp2009exp2010)
F test to compare two variances
data exp2009 and exp2010
F = 03728 num df = 11 denom df = 11 p-value = 01166
alternative hypothesis true ratio of variances is not equal to 1
95 percent confidence interval
01073346 12951624
sample estimates
ratio of variances
03728482
Conclusao Nao houve mudancas na variabilidade das exportacoes de
2009 e 2010
134 Graficos
Considere os dados mensais das exportacoes do Brasil (FOB) durante2009 e 2010 para realizar um grafico de box-plot fazemos
boxplot(exp2009exp2010 main=exportac~oes do Brasil
names=c(20092010))
2009 2010
1 0 0 0 0
1 2 0 0 0
1 4 0 0 0
1 6 0 0 0
1 8 0 0 0
2 0
0 0 0
exportaccedilotildees do Brasil
Figura 5 Exportacoes FOB em dolares
Para o grafico da funcao acumulativa das exportacoes
plot(ecdf(exp2010) dopoint=FALSE verticals=TRUE
lty=3 xlim=c(1000023000))
lines(ecdf(exp2009) dopoint=FALSE verticals=TRUE
col=2)
Castaneda Daniel F N 2013 31
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3243
134 Graficos 1 INICIANDO O R
1 00 00 1 20 00 1 40 00 1 60 00 1 80 00 2 00 00 2 20 00
0 0
0 2
0 4
0 6
0 8
1 0
ecdf(exp2010)
x
F n ( x )
Figura 6 Funcao acumulada das exportacoes 2009-2010
Considere as exportacoes do Brasil um histograma e Q-Q plot sera
hist(exp main=Exportac~oes FOB-US col=8)
qqnorm(exp xlim=c(-55)ylim=c(-100021000))
qqline(exp)
Exportaccedilotildees FOBminusUS$
exp
F r e q u e n c y
0 5000 10000 15000 20000
0
5 0
1 0 0
1 5 0
minus4 minus2 0 2 4
0
5 0 0 0
1 0 0 0 0
1 5 0 0 0
2 0 0 0 0
Normal QminusQ Plot
Theoretical Quantiles
S a m p l e Q u a n t i l e s
Figura 7 Graficos das Exportacoes no Brasil 2001-2010
Para ativar alguns graficos pacotes sao necessarios exemplo
library(MASS)
Castaneda Daniel F N 2013 32
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3343
134 Graficos 1 INICIANDO O R
par(mfrow=c(21))
z = rnorm(500000)
hist(z prob=T)
curve(dnorm(x)add=T)
histscott(z prob=T)
Histogram of z
z
D e n s i t y
minus4 minus2 0 2 4
0 0
0 2
Histogram of x
z
D e n s i t y
minus4 minus2 0 2 4
0 0
0 2
0 4
Figura 8 Histograma de numeros aleatorios normais
boxcox(dist~speed data=cars) transformac~ao Box-Cox
minus2 minus1 0 1 2
minus 4 0 0
minus 3 5 0
minus 3 0 0
minus 2 5 0
λ
l o g minus
L i k e l i h o o d
95
Figura 9 Valor otimo na transformacao Box-Cox
Castaneda Daniel F N 2013 33
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3443
135 Tabelas 1 INICIANDO O R
Para ter um alcance maior sobre a capacidade grafica do R podemos
usar as seguintes funcoes
demo(graphics)
demo(image)
demo(persp)
demo(recursion)
demo(plotmath)
demo(package = packages(allavailable = TRUE))
135 Tabelas
Algumas tabelas estatısticas podem ser construıdas com a funcao table()estado=c(PBPEALSEBAMGESRJPBPEAL
SEBAMGESRJPBPEALSEBAMGESRJ
PBPEALSEBAMGESRJ)
estadof=factor(estado)
estadof
[1] PB PE AL SE BA MG ES RJ PB PE AL SE BA MG ES RJ PB PE AL SE BA
[22] MG ES RJ PB PE AL SE BA MG ES RJ
Levels AL BA ES MG PB PE RJ SE
setseed(10)
salarios=c(round(runif(32)100))
salarios
[1] 51 31 43 69 9 23 27 27 62 43 65 57 11 60 36 43 5 26 40 84 86 62 78 36 41
[26] 71 84 24 77 36 54 9
salariom=tapply(salariosestadofmean)
salariom
AL BA ES MG PB PE RJ SE
5800 4575 4875 4525 3975 4275 2875 5850
salariof=factor(cut(salariosbreaks=0+15(07)))
salariof
[1] (4560] (3045] (3045] (6075] (015] (1530] (1530] (1530] (6075]
[10] (3045] (6075] (4560] (015] (4560] (3045] (3045] (015] (1530]
[19] (3045] (7590] (7590] (6075] (7590] (3045] (3045] (6075] (7590]
[28] (1530] (7590] (3045] (4560] (015]
Levels (015] (1530] (3045] (4560] (6075] (7590]
table(salariofestadof)
estadof
Castaneda Daniel F N 2013 34
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3543
136 Comandos adicionais 2 R E ECONOMETRIA
salariof AL BA ES MG PB PE RJ SE
(015] 0 2 0 0 1 0 1 0
(1530] 0 0 1 1 0 1 1 1
(3045] 2 0 1 1 1 2 2 0
(4560] 0 0 1 1 1 0 0 1
(6075] 1 0 0 1 1 1 0 1
(7590] 1 2 1 0 0 0 0 1
table(salariofestadof)
estadof
salariof AL BA ES MG PB PE RJ SE
(015] 1 1 0 0 1 0 1 2
(1530] 0 0 1 1 0 0 1 1
(3045] 0 0 2 0 0 1 0 0
(4560] 2 0 1 0 0 1 0 0
(6075] 0 1 0 2 3 0 1 0
(7590] 0 1 0 1 0 2 0 1
(90105] 0 1 0 0 0 0 1 0
136 Comandos adicionais
Em situacoes onde a ausencia de informacao ou dados faltantes(missing)as funcoes do R precisam declarar esta ausencia com o comando narm=T
indicando que a informacao apresenta dados faltantes Exemplo
df=c(2NA58NA) O ultimo elemento esta ausente
mean(f) Comando padr~ao para calcular a media
[1] NA
mean(fnarm=T) Comando declarando a ausencia de elementos
[1] 5
2 R e Econometria
Dados economicos precisam de uma atencao matematica para dar fun-
damento a suas teorias Atualmente pelo avanco computacional nao habarreiras para serem aplicadas e torna-se ate divertida se definimos a plata-forma de trabalho computacional A econometria requer de uma abordagemdiferenciada pois faz uso de da teoria economica economia matematica es-tatıstica economica estatıstica matematica e inferencia estatıstica Esta
Castaneda Daniel F N 2013 35
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3643
21 Tipos de Dados 2 R E ECONOMETRIA
disciplina aproxima a Estatıstica da Economia onde a teoria economica for-
mula as hipoteses Por exemplo uma reducao de precos de uma mercadoriadevera aumentar a quantidade demandada dessa mercadoria considerandouma relacao inversa entre preco e quantidade demandada ou a despesa deconsumo per capita depende da renda per capita considerando uma relacaodireta ou seja a medida que a renda aumenta a despesa tende a aumentarOutro exemplo onde consideremos a area microeconomica consumo de aguade uma residencia e o valor pago e natural imaginar que ha uma relacaodireta entre consumo e valor pago pelo consumo Porem precisamos saberqual e quanto e esta forca de relacao por tanto o econometrista forneceesta informacao usando a inferencia estatıstica e a estatıstica economicaAs estimativas de esta relacao fica por conta de estatıstica matematica
Para completar e cerrar este circulo de disciplinas abordadas na Econo-metria precisamos utilizar uma ferramenta de calculo computacional quebrinde estabilidade precisao e rapidez nos seus resultados para superartudo isto utilizaremos o ambiente R A econometria surge como uma disci-plina autonoma em virtude de aglutinar todas estas areas do conhecimentomerecendo um estudo proprio
21 Tipos de Dados
Os tipos de dados sao
1 Dados de corte transversal (cross-section) sao dados de uma ou maisvariaveis coletadas no mesmo ponto do tempo Por exemplo os censosno Brasil sao coletados num instante do tempo No censo variaveisdemograficas sao exploradas como contagem da populacao numerode indivıduos em cada famılia idade dos integrantes da famılia ouvariaveis economicas como renda consumo tipo de moradia (alugadaou propria) etc estes dados sao adquiridas a cada decada pelo IBGE
2 Dados longitudinais ou de series temporais sao caracterizadas porobservacoes ao longo do tempo No Brasil um site que disponibilizadados desta natureza e o IPEADATA
3 Dados de painel e uma mistura de dados de corte transversal e longi-tudinais ou ao longo do tempo estudamos o comportamento de unida-des individuais Por exemplo series mensal do ındice de precos serieanuais do produto interno bruto (PIB) ou serie anual da balanca co-mercial dos municıpios do Brasil considerando cada municıpio comounidades individuais
Castaneda Daniel F N 2013 36
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3743
22 Metodologia 2 R E ECONOMETRIA
22 Metodologia
Os passos da metodologia econometrica tradicional ou classica se iniciadesde a formulacao da hipotese ate as conclusoes em geral sao
221 Hipotese
Como referencia usaremos a hipotese nula H 0 a qual nulifica qualquerdiferenca e a hipoteses alternativa H a aquela que contradiz total ou par-cialmente a hipotese nula Exemplo
1 H 0 nao existe uma relacao entre consumo de agua e valor pago pela
mesma
2 Ha existe uma relacao entre consumo de agua e valor pago pelamesma
A hipotese alternativa pode ser dividida em tres possibilidades no exem-plo do consumo de agua pode ser dividida em existe alguma relacao oua relacao e negativa ou a relacao e positiva A primeira denomina-se dehipotese alternativa com teste bicaudal o segundo de teste unicaudal a es-querda e finalmente o ultimo com teste unicaudal a direita Nosso exemploconsidere H a existe alguma relacao (teste bicaudal)
222 Modelo matematico
Usaremos uma funcao de consumo simples
Y = β 1 + β 2X (11)
A variavel dependente Y valor pago pelo consumo e estimado por Y A variavel independente e X consumo de agua em m3 β 1 representa ovalor pago quando nao ha consumo de agua Nosso interesse e determinara tangente ou a variacao pelo consumo β 2
223 Modelo econometrico do valor pago
O modelo matematico fornece a relacao determinıstica entre valor pagoem reais e consumo de agua porem as relacoes entre as variaveis economicassao em geral inexatas Assim ao longo do tempo no podemos esperar que ovalor pago e o consumo em m3 se situem exatamente numa linha reta isto
Castaneda Daniel F N 2013 37
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3843
22 Metodologia 2 R E ECONOMETRIA
por que alem do consumo outras variaveis afetam o valor pago por exemplo
os dias de consumo o perıodo de reforma da casa ou a inflacao podendoalterar o valor pago pelo consumo
224 Nıvel de significancia
Denominado de α frequentemente usa-se α = 005 em situacoes derisco usa-se α = 001 Em testes bicaudais divide-se α em duas partes elocalizam-se nos extremos da distribuicao de prova Para testes unicaudaislocaliza-se no extremo da distribuicao indicada pela hipotese alternativaNosso exemplo α = 005 e por tanto α2 = 0025
225 Obtencao de Dados
Considere 65 observacoes (mes a mes) do consumo de agua em umaresidencia e o valor pago em reais durante o perıodo de 122005 a 042011Ver dados no apendice A Um plot e apresentado a seguir
10 15 20
2 0
3 0
4 0
5 0
6 0
7 0
Valor pago em reais de consumo de aacutegua
Variaacutevel independenteConsumo em m3
V a r i aacute v e l d e p e n d e n t e V a l o r p a g o
Y = minus12365+3007X
Figura 10 Relacao causal entre consumo e valor pago em reais
Podemos observar visualmente que ha uma relacao positiva entre valorpago e consumo de agua onde a variacao pelo consumo ou variacao dovalor pago (tangente) β 2 cresce positivamente Precisamos verificar se estavariacao β 2 e estatisticamente diferente de zero (significativa)
Castaneda Daniel F N 2013 38
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3943
22 Metodologia 2 R E ECONOMETRIA
226 Estatıstica de prova
Denominada de funcao pivo ou estatıstica de teste No ambito pa-rametrico usa-se as estatısticas t student (amostras pequenas) quando ne grande e indiferente o uso da t student ou normal No exemplo para tes-tar qual a inclinacao da variacao pelo consumo de agua usamos a seguinteestatıstica
t0 =β 2
dp(β 2)asymp tnminus2gl (12)
onde t0 e o valor calculado da estatıstica t β 2 e a estimativa do parametro(variacao pelo consumo) β 2 dp(β 2) e o desvio padrao da estimativa doparametro β 2 o valor t0 segue uma distribuicao t-student com nminus2 graus deliberdade(gl) Os graus de liberdade e calculado diferenciando o tamanhoda amostra com o numero de parametro do modelo (n-p) O valor quantılicotnminus2gl(0025) corresponde a distribuicao t-student com 0025 de significanciacom n minus 2 graus de liberdade e n e o numero total de observacoes Nossoexemplo β 2 = 3007 e dp(β 2) = 013 por tanto t0 = 2313 e comparadocom o valor da tabela da t-student com 63 gl e com α2 = 0025 sendo estevalor igual 19983
227 Tipos de erro
Ocorre o erro tipo I (α) ao se rejeitar a hipotese de nulidade quandodeveria aceita-la Por outro lado quando se aceita a hipotese de nulidadequando deveria rejeita-la comete-se o erro tipo II (β ) Nas duas situacoestomou-se uma decisao errada O interesse e a minimizacao dos erros tipo Ie II que na pratica so e possıvel aumentando-se o tamanho da amostra Porrazoes diversas o aumento do tamanho da amostra muitas vezes torna-se im-praticavel A gravidade do erro tipo I e distinta da do erro tipo II quando seconsegue identificar o erro mais grave a opcao e a minimizacao deste poremquando a probabilidade de ocorrencia de um tipo de erro diminui a do outroaumenta e vice versa Podemos observar este criterio na seguinte tabela
Nao rejeita rejeitaH0 verdadeira Correto (1 minus α) Erro do tipo I (α)H0 falsa Erro do tipo II (β ) Correto (1minus β )
Castaneda Daniel F N 2013 39
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4043
22 Metodologia 2 R E ECONOMETRIA
228 Regra de Decisao
Os pacotes ou plataformas estatısticas apresentam o valor observado dafuncao pivo e o p minus valor (Area de probabilidade esta relacionada comonıvel de significancia) assim a funcao pivo apresenta o valor numerico nafuncao de densidade da Estatıstica exemplo dentro da densidade da normalQuando o pvalor e menor do que α = 005 no caso do teste unicaudal (eα = 0025 no caso bicaudal) concluımos que nao ha evidencia suficiente paraaceitar H0 Caso contrario se o p minus valor for maior que α = 005 podemosconcluir que nao ha evidencia suficiente para rejeitar H0 Nosso exemplot0 = 2313 gt 1998 (1998 e valor da distribuicao t com 63 gl e nıvel designificancia bicaudal de 005) este valor localiza-se na cauda positiva da
distribuicao com 63 graus de liberdade(n minus 2 = 65 minus 2) Por outro lado o pminus valor lt 0025 por tanto nao ha evidencias para aceitar H0 em favor deaceitar que o coeficiente de inclinacao (ou tangente) e positiva No recorrerdo livro usaremos codigos para as medidas do pminusvalor que em geral apareceem todo comando summary() Como consequencia a linha que aparece aseguir sera excluıda das saıdas do R
Signif codes 0 0001 001 005 01 1
sera interpretada da seguinte maneira
bull 0 significancia menor que 0001
bull 0001 significancia menor que 001
bull 001 significancia menor que 005
bull 005 significancia menor que 01
bull 01 significancia menor que 1
229 Conclusoes
Esta parte do teste de hipoteses e explicada em conjunto O Estatıstico eo Economista que sao os profissionais da area em que as observacoes foramcoletadas decidem sobre as providencias futuras No exemplo podemosafirmar que a cada metro cubico a mais de consumo de agua sera pago emmedia 3 reais a mais No momento este valor pago pode parecer alto poremna falta de este liquido elementar este valor pode aumentar e por tantosofrera mudancas
Castaneda Daniel F N 2013 40
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4143
23 Previs˜ oes 2 R E ECONOMETRIA
23 Previsoes
Muitas vezes estamos interessados em determinar o que acontece quandouma quantidade de consumo de agua em m3 e utilizada e qual o valor pagoem reais Por exemplo se nosso interesse e saber quanto sera pago por 20m3
de consumo de agua em uma residencia A conta a realizar eValor pago = minus12365 + 3007 lowast 20 = 47775 reaisA interpretacao deste valor e em media o valor pago em reais por 20m3 deagua consumida e de aproximadamente 478 reais
231 Resıduos
Uma questao fundamental em econometria e identificar o comportamentodos resıduos de um modelo Considere Y o valor real pago e Y valor pagoestimado a partir de um modelo entao este erro e aleatorio e definido por
ϵi = Y i minus Y i (13)
A abordagem mais formal dos erros e feita nos proximos capıtulosUma questao importante e determinar qual o comportamento da estima-tiva destes erros aos quais chamamos de resıduos Para determinar a nor-malidade dos resıduos realizamos o teste de Jarque Bera com a funcao
jarqueberatest() da biblioteca tseries com o seguinte grafico
minus2 minus1 0 1 2
minus 5
0
5
1 0
resiacuteduos do modelo valor= f(consumo)
Theoretical Quantiles
S a m p l e Q u a n t i l e s
Figura 11 Normalidade dos resıduos
Castaneda Daniel F N 2013 41
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4243
24 Exercıcios REFER ENCIAS
24 Exercıcios
1 Por que a econometria precisa ser uma disciplina autonoma
2 Que e econometria
3 Pesquise dados de corte transversal corte longitudinal e de painel
4 Construa uma metodologia econometrica para o consumo familiar emfuncao da renda familiar (linear)
5 No item anterior e possıvel encontrar uma relacao quadratica
6 Quais sao os pressupostos basicos de um modelo de regressao linear
simples
7 Como e chamado o parametro de inclinacao ou tangente num modelode regressao linear simples em econometria
8 Que e o projeto R
9 R e um programa econometrico
Referencias
[1] Albert Jim (2009) Bayesian computation with R Editora SpringerSecond Edition New York USA
[2] Borde Arvind (1992) TEX by example A beginneracutes guide Ed Aca-demic Press Professional United States of America
[3] Carneiro Orlando (1997) Econometria Bacute asica Teoria e Aplicac˜ oes Editora Atlas Segunda Edicao son Paulo
[4] Conover W J (1999) Practical nonparametric statistics 3ed NewYork
[5] Cribari Neto F (2002) C for Econometricians conputational Econo-
mics 14 p135-149
[6] Dalgaard Peter(2008) Introductory Statistics with R Editora SpringerSecond Edition New York USA
[7] Ehlers Ricardo(2007) Analise de series Temporais Universidade Fe-deral do Parana
Castaneda Daniel F N 2013 42
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4343
REFER ENCIAS REFER ENCIAS
[8] Frery Alejandro Cribari-Neto Francisco(2011)Elementos de
Estatıstica conputacional Usando Plataformas de Software Li-vreGratuito Publicacoes Matematicas Editora IMPA
[9] Gujarati Damodar N (2000) Econometria Bacute asica Makron Books Ter-ceira Edicao son Paulo
[10] Knuth DE (1981)The Art of conputer Programming Third EditionVolume 2 Seminumerical Algorithms Addison-Wesley Publishingconpany Massachusetts
[11] Korgi Rodrigo de Castro (2003) El universo LAT E X Editora Facultadde Ciencias Segunda Edicao Bogota
[12] Krawczyk H How to Predict Congruential Generators InJournal of Algorithms V 13 N 4 1992
[13] LrsquoEcuyer P (2001) Software for uniform random number generationdistinguishing the good and the bad In Proceedings of the 2001 WinterSimulation Conference
[14] Maindonald John Braun W John(2010) Data analysis and graphics using R an example-based approach Cambridge University Press NewYork USA
[15] Mingoti(2005)Analise De Dados Atraves De Metodos De Estatistica Multivariada - Uma Abordagem Aplicada Editora UFMG Belo Hori-zonte
Castaneda Daniel F N 2013 43
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1343
111 Invers˜ ao de matrizes 1 INICIANDO O R
Uma alternativa seria usar a funcao aperm()
b= aperm(ac(21))
b
[1] [2] [3]
[1] 1 2 3
[2] 4 5 6
[3] 7 8 9
ab multiplicac~ao elemento a elemento
[1] [2] [3]
[1] 1 8 21[2] 8 25 48
[3] 21 48 81
ab multiplicac~ao das matrizes a e b
[1] [2] [3]
[1] 66 78 90
[2] 78 93 108
[3] 90 108 126
crossprod(ab) produto da transposta de a por b
[1] [2] [3]
[1] 30 36 42
[2] 66 81 96
[3] 102 126 150
t(a)b
[1] [2] [3]
[1] 30 36 42
[2] 66 81 96
[3] 102 126 150
111 Inversao de matrizes
c=matrix(c(324572159)33)
d=matrix(c(223582858)33)
c
Castaneda Daniel F N 2013 13
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1443
112 Comandos cbind() e rbind() 1 INICIANDO O R
[1] [2] [3]
[1] 3 5 1
[2] 2 7 5
[3] 4 2 9
gt solve(c)
[1] [2] [3]
[1] 036551724 -029655172 012413793
[2] 001379310 015862069 -008965517
[3] -016551724 009655172 007586207
solve(cd) inverte a matriz c e multiplica por d
[1] [2] [3]
[1] 051034483 -029655172 24344828
[2] 007586207 115862069 01862069
[3] 008965517 009655172 -02344828
gt solve(c)d forma alternativa
[1] [2] [3]
[1] 051034483 -029655172 24344828
[2] 007586207 115862069 01862069
[3] 008965517 009655172 -02344828
112 Comandos cbind() e rbind()
E possıvel formar novas matrizes com as ja existentes usando a funcaocbind() e rbind() a primeira construı matrizes em colunas a segunda emlinhas
cbind(cd)
[1] [2] [3] [4] [5] [6]
[1] 3 5 1 2 5 8
[2] 2 7 5 2 8 5
[3] 4 2 9 3 2 8
rbind(cd)[1] [2] [3]
[1] 3 5 1
[2] 2 7 5
[3] 4 2 9
[4] 2 5 8
Castaneda Daniel F N 2013 14
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1543
113 Autovalores e autovetores 1 INICIANDO O R
[5] 2 8 5
[6] 3 2 8
cbind(1c)
[1] [2] [3] [4]
[1] 1 3 5 1
[2] 1 2 7 5
[3] 1 4 2 9
rbind(1d)
[1] [2] [3]
[1] 1 1 1
[2] 2 5 8
[3] 2 8 5
[4] 3 2 8
113 Autovalores e autovetores
ev=eigen(c) calcula autovalores e autovetores
ev
$values
[1] 13265694+0000000i 2867153+1646172i 2867153-1646172i
$vectors[1] [2] [3]
[1] 03799264+0i 07884141+00000000i 07884141+00000000i
[2] 06480231+0i 00745376+03051027i 00745376-03051027i
[3] 06600924+0i -04774265-02276482i -04774265+02276482
det(c)
[1] 145
det(d)
[1] -57
114 Data frame ou construtor de dados
Suponha um conjunto de dados com tres variaveis sexo (1=homem0=mulher) peso em quilogramas e salario em reais por dia de 12 indivıduosPara calcular a media o resumo de estatısticas descritivas e um grafico (plot)
Castaneda Daniel F N 2013 15
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1643
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1743
116 Func˜ ao readtable() 1 INICIANDO O R
attach(ind)
peso
[1] 67 60 62 69 54 59 57 67 60 65 59 55
salario
[1] 59 40 45 65 55 45 48 67 65 68 62 45
sex
[1] 1 0 0 1 0 0 0 1 1 1 1 0
detach(ind)
salario
Erro objeto rsquosalariorsquo n~ao encontrado
A funcao attach e detach pode ser usada no somente em arquivo dedados dos pacotes do R se nao tambem para listas e data frame
116 Funcao readtable()
Um amplo conjunto de arquivos com diferentes extensoes pode ser lidopor esta funcao
1161 Arquivos com extensao txt
Considere as seguintes variaveis x1 idade dos funcionarios x2 sexo
(1 homem 0 mulher) x3 anos de experiencia na funcao x4 estado civilx5 numero de filhos x6 nota de 0 minus 10 de um teste de avaliacao deconhecimento na sua area x7 teste psicotecnico de 0 a 50 x8 satisfacaocom a vida pessoal estes dados em bloco de notas com extensao txt obtidosde Mingoti 2005 Ver dados na integra no apendice
funcao=readtable(functxtheader=T)
funcao
grupo idade sexo ecivil nfilhos aexper tpsico tconhec satisf
1 0 24 1 1 0 2 77 360 1
2 0 29 1 1 0 4 79 360 13 0 38 1 0 1 6 86 408 0
107 0 24 1 1 0 2 73 360 0
108 0 27 1 0 0 3 74 360 1
109 1 42 1 0 2 14 99 440 1
Castaneda Daniel F N 2013 17
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1843
117 Script com extens˜ ao R 1 INICIANDO O R
Considere os dados de consumo de agua de uma residencia durante
o perıodo de 1205 a 0411 Com as seguintes variaveis valor em reaisconsumo em m3 dias de consumo e construindo o imovel (1sim 2nao)Dados proprios do autor Ver dados na integra no apendice
ca=readtable(consumoagua2txtheader=T) disponıvel em meus documentos
ca
dado valor consumo diasconsumo Construindo
1 1 1476 11 30 0
2 2 1347 10 31 0
64 64 3439 14 31 1
65 65 2221 11 32 0
Observacao use o comando choose() para escolher um conjunto dedados de um diretorio especifico no computador podemos usar
datalt-readtable(filechoose()header=T)
117 Script com extensao R
Exemplo com extensao R lida por readtable com dados do proprio R
exemplo=readtable(filechoose()header=T) dadosrR em aula 3exemplo
dado valor
1 1 115
2 2 117
3 3 118
4 4 119
5 5 127
118 Funcao scan()
A funcao scan tambem pode incluir elementos no R
scan()
1 12
2 13
3 14
Castaneda Daniel F N 2013 18
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1943
119 Func˜ ao sample 1 INICIANDO O R
4 15
5
Read 4 items
[1] 12 13 14 15
Use a funcao scan() para ingressar dados diretamente na plataforma R
119 Funcao sample
Usa-se para escolher aleatoriamente uma amostra de um conjunto deobservacoes ou uma base de dados Como exemplo considere uma amostrade 8 observacoes dos primeiros 20 do banco de dados de consumo de agua
(ca)setseed(10)
ca20=ca[sample(1208)]
ca20
dado valor consumo diasconsumo Construindo
11 11 3153 16 31 1
6 6 1347 10 32 0
8 8 1347 10 30 0
12 12 3755 18 32 1
2 2 1347 10 31 0
4 4 5275 22 33 1
15 15 3755 18 32 0
14 14 1648 11 30 0
120 Rcmdr
Para importar dados do SPSS STATISTICA MINITAB EXCEL TXTetc podemos usar o pacote livre Rcmdr ja disponıvel na biblioteca
library(Rcmdr)
este pacote trabalha via janelas para maior comodidade
121 Dados disponıveis no R
R possuı mais de 100 conjunto de dados alocados no pacote dataset quepodem ser chamados diretamente ( sem extensao) com a funcao data
data()
Castaneda Daniel F N 2013 19
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2043
122 Modificando e editando dados 1 INICIANDO O R
No R pode-se acessar a conjunto de dados de outros pacotes disponıveis
na sua biblioteca Se por acaso esta instalado o pacote lmtest o conjuntode dados ativo neste pacote pode ser chamado da seguinte maneira
data(package=lmtest)
122 Modificando e editando dados
Considere o conjunto de dados anterior Para modificar este conjuntosera disponibilizado uma tela de editor de dados a seguir
xnovo=edit(wagespackage=lmtest)
Para editar um conjunto de dados novo podemos usar a funcao edit daseguinte forma
xn=edit(dataframe())
123 Exportando dados do R para o Excel
Para exportar uma coluna de dados por exemplo o valor pago no con-sumo de agua executamos no R
writeClipboard(ascharacter(valor))
Na tela do Excel usar o comando colar Suponha que esta interessadoem exportar o conjunto de dados ca consumo de agua numa residenciadisponıveis no R para transferir este conjunto de dados use o seguintecomando
writetable(caclipboardsep=tcolnames=NA)
Na tela do Excel faca Ctrl+V ou um click em colar
124 Funcoes apply tapply sapply e lapply
A funcao apply calcula medidas estatısticas por linhas ou por colunas
e a funcao sapply calcula apenas por coluna A diferenca da funcao applyda funcao tapply e que esta ultima calcula medidas estatısticas por estratosConsidere os dados de consumo de agua de uma residencia
apply(ca2mean)
dado valor consumo diasconsumo Construindo
330000000 255690769 126153846 307076923 02615385
Castaneda Daniel F N 2013 20
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2143
125 Distribuic˜ oes de probabilidade 1 INICIANDO O R
tapply(valorConstruindomean)
0 1
2115271 3803882
sapply(camean)
dado valor consumo diasconsumo Construindo
330000000 255690769 126153846 307076923 02615385
lapply(camean) verificar
125 Distribuicoes de probabilidade
R proporciona uma serie de funcoes para variaveis aleatorias estatısticasconhecidas dentro destas funcoes temos distribuicao aleatorizacao proba-
bilidade e quantidadeDistribuicao nome no R argumentos adicionaisbeta beta shape1shap2npcbinomial binom sizeprobcauchy cauchy locationscalechi-quadrado chisq dfnpcexponencial exp rateF f df1df2npcgamma gamma shapescalegeometric geom probhypergeometric hyper mnk
log-normal lnorm meanlogsdloglogistic logis locationscalenegativa binomial nbinom sizeprobnormal norm meansdpoisson pois lambdat-student t dfncpuniforme unif minmaxweibull weibull shapescalewilcoxon wilcoxon mn
Nomes iniciando com ldquodrdquocalculara a densidade da funcao ldquoprdquoparacalcular a probabilidade ou funcao acumulada ldquoqrdquopara o valor quantılico eldquorrdquopara simulacao de numeros aleatoriosExemplos
rpois(105) 10 numeros aleatorios da dist poisson com parametro 5
[1] 3 2 3 1 8 6 1 3 2 3
Castaneda Daniel F N 2013 21
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2243
126 Algoritmos de programac˜ ao no R 1 INICIANDO O R
rnorm(5) 5 numeros aleatorios da normal padr~ao
[1] 004659011 -005019082 -128753167 115411245 -137573809
qt(09550) valor quantilico da t com 50 gl
[1] 1675905
qchisq(0951) valor da qui-quadrado
com 95 de confianc a e 1 g l
[1] 3841459
dpois(45) densidade da dist poisson x=4 parametro=5
[1] 01754674
ppois(45) P(xlt=4) parametro=5
[1] 04404933
126 Algoritmos de programacao no R
R e uma linguagem de programacao orientada a objetos que alem de ana-lisar dados tem sua propria programacao aqui usaremos esta programacaopara analises de estatısticas e econometria Para maiores detalhes podemospesquisar em Venables and Ripley (2000 e 2002) Voce pode estender afuncionalidade do R criando novas funcoes ou programando por exemplo
medianamediarazao lt- function(x)
return(median(x)mean(x))
setseed(20)
z = rexp(10000)
medianamediarazao(z)
[1] 06925193
Construindo a mediana
mediana=function(x)
oddeven=length(x)2
if (oddeven == 0) (sort(x)[length(x)2]+sort(x)[1+ length(x)2])2
else sort(x)[ceiling(length(x)2)]
Construindo a media geometrica
mediageometrica = function (x) exp(mean(log(x)))
Construindo a media harmonica
Castaneda Daniel F N 2013 22
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2343
126 Algoritmos de programac˜ ao no R 1 INICIANDO O R
mediaharmonica=function (x) 1mean(1x)
Um algoritmo que envolva as medidas de tendencia central
medidascentrais = function(y medida)
switch(medida
media = mean(y)
mgeometrica = exp(mean(log(y)))
mharmonica = 1mean(1y)
mediana = median(y)
stop(Medida n~ao inclusa))
medidascentrais(ymedia)
Gerando uma distribuicao uniforme para o lancamento de um dado
ndado=function(x) return(round(runif(x)6+05))
hist(ndado(100000)
Com o comando sample podemos realizar este mesmo experimento daseguinte maneira
gerando=sample(16 100000 replace=TRUE)
hist(gerando)
Considere o seguinte objeto c
c=c(122715365)
Para determinar que classe de objeto e o vetor c podemos identificarusando os seguintes comandos
ischaracter(c)
[1] FALSE
isnumeric(c)
[1] TRUE
A este objeto c podemos a signar nome a cada valor definido da seguinteforma
names(c)=c(abcdef)
c
a b c d e f
10 22 70 150 30 65
Castaneda Daniel F N 2013 23
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2443
127 Lacos no R 1 INICIANDO O R
Podemos associar uma comparacao logica com o vetor c da seguinte
forma
cgt3
a b c d e f
FALSE FALSE TRUE TRUE FALSE TRUE
Quando estamos diante de uma matriz podemos definir os nomes dascolunas com colnames() e os nomes das linhas com rownames() veja oexemplo
d=matrix(c(223582858)33)
colnames(d)=c(c1c2c3)
rownames(d)=c(1o2o3o)
d
c1 c2 c3
1o 2 5 8
2o 2 8 5
3o 3 2 8
A matriz d e entendida como um conjunto de dados que podem serassociados as linhas e as colunas Para determinar se ha associacao entrelinhas e colunas o teste utilizado pode se o qui-quadrado com a funcaochisqtest()
127 Lacos no R
Em algumas situacoes variaveis contınuas podem ser transformadas em variaveisordinais ou dummy para realizar estas operacoes o R proporciona varioslacos como else if ou ifelseExemplo para construir variaveis binarias considere o consumo de aguaonde consumo menor ou igual a 10 m3 e zero e acima de 10 m3 e 1 Ovalor de consumo sendo zero se o valor e menor ou igual a 20 reais e 1 casocontrario
consumoc=numeric(length(consumo))
for(i in 1length(consumo))if (consumo[i]lt=10) consumoc[i]=0
else consumoc[i]=1
valorc=numeric(length(valor))
for(i in 1length(valor))if (valor[i]lt=20) valorc[i]=0 else valorc[i]=1
Castaneda Daniel F N 2013 24
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2543
128 A func˜ ao cut() 1 INICIANDO O R
Nota Podemos construir os lacos considerando a condicao como texto
exemplo consumoc[i]=rdquo[0minus 10]rdquo Comando alternativo de construcao
consumoc2=ifelse(consumolt=10[0-10]Acima de 10)
valorc2=ifelse(valorlt=20[0-20]Acima de 20)
limitacao deste laco e que utilizado apenas para duas condicoes Para lacoscom mais de duas condicoes podemos usar os seguintes comandos
valorc3=numeric(length(valor))
for(i in 1length(valor))if (valor[i]lt20) valorc3[i]=[0-20)
else if (valor[i]lt30)
valorc3[i]=[20-30) else valorc3[i]=[30 a +
table(valorc3)
128 A funcao cut()
Alguma funcoes usam lacos para criar novas variaveis categoricas no exem-plo de valor pago em reais pelo consumo de agua podemos construir cate-gorias por quartis de 25 50 75 1 da seguinte maneira
q=cut(valorquantile(valor) includelowest=T)
table(q)
q
[135165] (165222] (222327] (327693]
17 16 16 16
Outras formas podem ser usando intervalos a criterio pessoal no exemplo aseguir consideramos com valor mınimo 13 e valor maximo 70 com amplitudedo intervalo de 19 e com classes fechadas no mınimo e aberto no maximo
valr=cut(valmseq(137019)right=Fincludeupper=T)
table(valr)
valr
[1332) [3251) [5170)
48 15 2
129 Criando funcoes Teste que compara duas medias
Como exemplo implementamos a estatıstica de comparacao de duasamostras independentes
Castaneda Daniel F N 2013 25
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2643
130 Coeficiente de regressao 1 INICIANDO O R
testeduas lt- function(y1 y2)
+ n1 lt- length(y1) n2 lt- length(y2)
+ yb1 lt- mean(y1) yb2 lt- mean(y2)
+ s1 lt- var(y1) s2 lt- var(y2)
+ s lt- ((n1-1)s1 + (n2-1)s2)(n1+n2-2)
+ tst lt- (yb1 - yb2)sqrt(s(1n1 + 1n2))
+ tst
+
x=runif(20)
y=rnorm(20)
testeduas(xy)
[1] 2874636
Uma forma alternativa e usando a funcao ttest()
ttest(xy)
Welch Two Sample t-test
data x and y
t = 28746 df = 21784 p-value = 0008858
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
01846283 11429380sample estimates
mean of x mean of y
05539270 -01098562
130 Coeficiente de regressao
Implementando o calculo da tangente (inclinacao) do coeficiente no mo-delo de regressao linear simples
mq1lt- function(X y)
+ X lt- qr(X)
+ qrcoef(X y)+
mq1(xy)
[1] -008755885
Castaneda Daniel F N 2013 26
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2743
131 Teste Qui- Quadrado 1 INICIANDO O R
131 Teste Qui- Quadrado
Util para associar linhas e colunas considere os dados em d com as se-guintes hipotesesH0 nao ha associacao entre linhas e colunasHa ha associacao entre linhas e colunas
chisqtest(d)
Pearsonrsquos Chi-squared test
data d
X-squared = 46497 df = 4 p-value = 03252
Warning message
In chisqtest(d) Aproximac~ao Qui-quadrado pode estar incorreta
Para um nıvel α = 0 05 de significancia podemos afirmar que nao haevidencias para afirmar que a associacao entre linhas e colunas (linhas ecolunas sao independentes) Um outro exemplo do uso da distribuicao Qui-quadrado e verificar se um conjunto de dados provem de uma determinadadistribuicao teorica
chisqtest(c)
Chi-squared test for given probabilities
data c
X-squared = 22549 df = 5 p-value = 00004116
Pelo p-value podemos afirmar que a 0 05 de significancia nao ha evi-dencias para afirmar que a distribuicao dos numeros em c sejam uniformesPara implementar este teste de associacao no exemplo de consumo de aguaconsiderando a classificacao mediante lacos (ver lacos no R) entre consumoce valorc temos
table(consumocvalorc)
valorc
consumoc 0 1
0 24 0
Castaneda Daniel F N 2013 27
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2843
132 Teste t - student 1 INICIANDO O R
1 3 38
chisqtest(consumocvalorc)$expected
chisqtest(consumocvalorc)$observed
chisqtest(consumocvalorc)
Pearsonrsquos Chi-squared test with Yatesrsquo continuity correction
data consumoc and valorc
X-squared = 498015 df = 1 p-value = 1701e-12
barplot(table(consumocvalorc) beside=T)
Concluimos que ha associacao entre consumo de agua e o valor pago em
reais
132 Teste t - student
O teste mais usado pelos estatısticos e util para comparar medias deduas amostras tanto independente como emparelhadasExemplo considere as exportacoes mensais (FOB-US) do Brasil durante osanos de 2009 minus 2010 Apos digitacao das observacoes temos
exp2009
[1] 9781920 9586406 11809225 12321617 11984585 14467785 14141930
[8] 13840850 13863222 14081686 12652892 14462624
exp2010[1] 1130507 1219724 1572750 1516121 1770250 1709391 1767292 1923625
[9] 1883279 1838042 1768733 2091814
H0 A medias anuais das exportacoes durante 2009 e 2010 e a mesmaHa CC
ttest(exp2009exp2010paired = FALSE)
Welch Two Sample t-test
data exp2009 and exp2010
t = -42813 df = 18202 p-value = 00004394
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-6075666 -2077757
sample estimates
mean of x mean of y
Castaneda Daniel F N 2013 28
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2943
133 Teste F 1 INICIANDO O R
1274956 1682627
Conclusao nao ha evidencias para aceitar que a media das exportacoesde 2009 e 2010 e a mesma
Quando um conjunto de dados e dado em formato de matriz (dataframe)podemos realizar o teste t de uma coluna em funcao da outra por exemplono consumo de agua queremos testar a hipotese nula H0 o valor de con-sumo de agua e o mesmo construindo ou nao versus a hipotese alternativaHa Caso contrario
attach(ca)
ttest(valor~Construindo)
Welch Two Sample t-test
data valor by Construindo
t = -58383 df = 21731 p-value = 7465e-06
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-2288867 -1088356
sample estimates
mean in group 0 mean in group 1
2115271 3803882
Concluımos que nao ha evidencias para aceitar que o valor de consumode agua e o mesmo quando estamos construindo ( p minus valor lt 005)
Exemplos adicionais podem ser comparando entre as variaveis clas-sificadas (ver secao de lacos) da seguinte forma
ttest(valor~consumoc)
ttest(consumo~valorc)
boxplot(consumo~valorc2 main=Consumo e valor pago em Reais)
boxplot(consumo~valorc3 main=Consumo e valor pago em Reais)
133 Teste F
Para determinar se ha a mesma variabilidade no valor de consumoquando estamos ou nao construindo utilizamos o teste F A hipotese nulae H0 O valor de consumo de agua tem a mesma variabilidade quandoconstruımos que quando nao construımos No R temos
Castaneda Daniel F N 2013 29
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3043
133 Teste F 1 INICIANDO O R
vartest(valor~Construindo)
F test to compare two variances
data valor by Construindo
F = 04834 num df = 47 denom df = 16 p-value = 005478
alternative hypothesis true ratio of variances is not equal to 1
95 percent confidence interval
0194815 1014916
sample estimates
ratio of variances
04834048
Concluımos que nao ha evidencias para rejeitar a hipotese nula por tanto
a variabilidade no valor de consumo e o mesmoO correspondente grafico (Box-plot) e apresentado a seguir
boxplot(valor~Construindo col=8 names=c(n~ao construc~ao construc~ao))
natildeo construccedilatildeo construccedilatildeo
2 0
3 0
4 0
5 0
6 0
7 0
Figura 4 Valor pago em reais no consumo de agua
Em alguns casos ha necessidade de identificar se a variabilidade dasexportacoes e a mesma comparando 2009 e 2010H0 As exportacoes de 2009 e 2010 tem a mesma variabilidade (dados men-sais coletados do site httpwwwipeadatagov)Ha CC
Castaneda Daniel F N 2013 30
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3143
134 Graficos 1 INICIANDO O R
vartest(exp2009exp2010)
F test to compare two variances
data exp2009 and exp2010
F = 03728 num df = 11 denom df = 11 p-value = 01166
alternative hypothesis true ratio of variances is not equal to 1
95 percent confidence interval
01073346 12951624
sample estimates
ratio of variances
03728482
Conclusao Nao houve mudancas na variabilidade das exportacoes de
2009 e 2010
134 Graficos
Considere os dados mensais das exportacoes do Brasil (FOB) durante2009 e 2010 para realizar um grafico de box-plot fazemos
boxplot(exp2009exp2010 main=exportac~oes do Brasil
names=c(20092010))
2009 2010
1 0 0 0 0
1 2 0 0 0
1 4 0 0 0
1 6 0 0 0
1 8 0 0 0
2 0
0 0 0
exportaccedilotildees do Brasil
Figura 5 Exportacoes FOB em dolares
Para o grafico da funcao acumulativa das exportacoes
plot(ecdf(exp2010) dopoint=FALSE verticals=TRUE
lty=3 xlim=c(1000023000))
lines(ecdf(exp2009) dopoint=FALSE verticals=TRUE
col=2)
Castaneda Daniel F N 2013 31
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3243
134 Graficos 1 INICIANDO O R
1 00 00 1 20 00 1 40 00 1 60 00 1 80 00 2 00 00 2 20 00
0 0
0 2
0 4
0 6
0 8
1 0
ecdf(exp2010)
x
F n ( x )
Figura 6 Funcao acumulada das exportacoes 2009-2010
Considere as exportacoes do Brasil um histograma e Q-Q plot sera
hist(exp main=Exportac~oes FOB-US col=8)
qqnorm(exp xlim=c(-55)ylim=c(-100021000))
qqline(exp)
Exportaccedilotildees FOBminusUS$
exp
F r e q u e n c y
0 5000 10000 15000 20000
0
5 0
1 0 0
1 5 0
minus4 minus2 0 2 4
0
5 0 0 0
1 0 0 0 0
1 5 0 0 0
2 0 0 0 0
Normal QminusQ Plot
Theoretical Quantiles
S a m p l e Q u a n t i l e s
Figura 7 Graficos das Exportacoes no Brasil 2001-2010
Para ativar alguns graficos pacotes sao necessarios exemplo
library(MASS)
Castaneda Daniel F N 2013 32
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3343
134 Graficos 1 INICIANDO O R
par(mfrow=c(21))
z = rnorm(500000)
hist(z prob=T)
curve(dnorm(x)add=T)
histscott(z prob=T)
Histogram of z
z
D e n s i t y
minus4 minus2 0 2 4
0 0
0 2
Histogram of x
z
D e n s i t y
minus4 minus2 0 2 4
0 0
0 2
0 4
Figura 8 Histograma de numeros aleatorios normais
boxcox(dist~speed data=cars) transformac~ao Box-Cox
minus2 minus1 0 1 2
minus 4 0 0
minus 3 5 0
minus 3 0 0
minus 2 5 0
λ
l o g minus
L i k e l i h o o d
95
Figura 9 Valor otimo na transformacao Box-Cox
Castaneda Daniel F N 2013 33
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3443
135 Tabelas 1 INICIANDO O R
Para ter um alcance maior sobre a capacidade grafica do R podemos
usar as seguintes funcoes
demo(graphics)
demo(image)
demo(persp)
demo(recursion)
demo(plotmath)
demo(package = packages(allavailable = TRUE))
135 Tabelas
Algumas tabelas estatısticas podem ser construıdas com a funcao table()estado=c(PBPEALSEBAMGESRJPBPEAL
SEBAMGESRJPBPEALSEBAMGESRJ
PBPEALSEBAMGESRJ)
estadof=factor(estado)
estadof
[1] PB PE AL SE BA MG ES RJ PB PE AL SE BA MG ES RJ PB PE AL SE BA
[22] MG ES RJ PB PE AL SE BA MG ES RJ
Levels AL BA ES MG PB PE RJ SE
setseed(10)
salarios=c(round(runif(32)100))
salarios
[1] 51 31 43 69 9 23 27 27 62 43 65 57 11 60 36 43 5 26 40 84 86 62 78 36 41
[26] 71 84 24 77 36 54 9
salariom=tapply(salariosestadofmean)
salariom
AL BA ES MG PB PE RJ SE
5800 4575 4875 4525 3975 4275 2875 5850
salariof=factor(cut(salariosbreaks=0+15(07)))
salariof
[1] (4560] (3045] (3045] (6075] (015] (1530] (1530] (1530] (6075]
[10] (3045] (6075] (4560] (015] (4560] (3045] (3045] (015] (1530]
[19] (3045] (7590] (7590] (6075] (7590] (3045] (3045] (6075] (7590]
[28] (1530] (7590] (3045] (4560] (015]
Levels (015] (1530] (3045] (4560] (6075] (7590]
table(salariofestadof)
estadof
Castaneda Daniel F N 2013 34
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3543
136 Comandos adicionais 2 R E ECONOMETRIA
salariof AL BA ES MG PB PE RJ SE
(015] 0 2 0 0 1 0 1 0
(1530] 0 0 1 1 0 1 1 1
(3045] 2 0 1 1 1 2 2 0
(4560] 0 0 1 1 1 0 0 1
(6075] 1 0 0 1 1 1 0 1
(7590] 1 2 1 0 0 0 0 1
table(salariofestadof)
estadof
salariof AL BA ES MG PB PE RJ SE
(015] 1 1 0 0 1 0 1 2
(1530] 0 0 1 1 0 0 1 1
(3045] 0 0 2 0 0 1 0 0
(4560] 2 0 1 0 0 1 0 0
(6075] 0 1 0 2 3 0 1 0
(7590] 0 1 0 1 0 2 0 1
(90105] 0 1 0 0 0 0 1 0
136 Comandos adicionais
Em situacoes onde a ausencia de informacao ou dados faltantes(missing)as funcoes do R precisam declarar esta ausencia com o comando narm=T
indicando que a informacao apresenta dados faltantes Exemplo
df=c(2NA58NA) O ultimo elemento esta ausente
mean(f) Comando padr~ao para calcular a media
[1] NA
mean(fnarm=T) Comando declarando a ausencia de elementos
[1] 5
2 R e Econometria
Dados economicos precisam de uma atencao matematica para dar fun-
damento a suas teorias Atualmente pelo avanco computacional nao habarreiras para serem aplicadas e torna-se ate divertida se definimos a plata-forma de trabalho computacional A econometria requer de uma abordagemdiferenciada pois faz uso de da teoria economica economia matematica es-tatıstica economica estatıstica matematica e inferencia estatıstica Esta
Castaneda Daniel F N 2013 35
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3643
21 Tipos de Dados 2 R E ECONOMETRIA
disciplina aproxima a Estatıstica da Economia onde a teoria economica for-
mula as hipoteses Por exemplo uma reducao de precos de uma mercadoriadevera aumentar a quantidade demandada dessa mercadoria considerandouma relacao inversa entre preco e quantidade demandada ou a despesa deconsumo per capita depende da renda per capita considerando uma relacaodireta ou seja a medida que a renda aumenta a despesa tende a aumentarOutro exemplo onde consideremos a area microeconomica consumo de aguade uma residencia e o valor pago e natural imaginar que ha uma relacaodireta entre consumo e valor pago pelo consumo Porem precisamos saberqual e quanto e esta forca de relacao por tanto o econometrista forneceesta informacao usando a inferencia estatıstica e a estatıstica economicaAs estimativas de esta relacao fica por conta de estatıstica matematica
Para completar e cerrar este circulo de disciplinas abordadas na Econo-metria precisamos utilizar uma ferramenta de calculo computacional quebrinde estabilidade precisao e rapidez nos seus resultados para superartudo isto utilizaremos o ambiente R A econometria surge como uma disci-plina autonoma em virtude de aglutinar todas estas areas do conhecimentomerecendo um estudo proprio
21 Tipos de Dados
Os tipos de dados sao
1 Dados de corte transversal (cross-section) sao dados de uma ou maisvariaveis coletadas no mesmo ponto do tempo Por exemplo os censosno Brasil sao coletados num instante do tempo No censo variaveisdemograficas sao exploradas como contagem da populacao numerode indivıduos em cada famılia idade dos integrantes da famılia ouvariaveis economicas como renda consumo tipo de moradia (alugadaou propria) etc estes dados sao adquiridas a cada decada pelo IBGE
2 Dados longitudinais ou de series temporais sao caracterizadas porobservacoes ao longo do tempo No Brasil um site que disponibilizadados desta natureza e o IPEADATA
3 Dados de painel e uma mistura de dados de corte transversal e longi-tudinais ou ao longo do tempo estudamos o comportamento de unida-des individuais Por exemplo series mensal do ındice de precos serieanuais do produto interno bruto (PIB) ou serie anual da balanca co-mercial dos municıpios do Brasil considerando cada municıpio comounidades individuais
Castaneda Daniel F N 2013 36
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3743
22 Metodologia 2 R E ECONOMETRIA
22 Metodologia
Os passos da metodologia econometrica tradicional ou classica se iniciadesde a formulacao da hipotese ate as conclusoes em geral sao
221 Hipotese
Como referencia usaremos a hipotese nula H 0 a qual nulifica qualquerdiferenca e a hipoteses alternativa H a aquela que contradiz total ou par-cialmente a hipotese nula Exemplo
1 H 0 nao existe uma relacao entre consumo de agua e valor pago pela
mesma
2 Ha existe uma relacao entre consumo de agua e valor pago pelamesma
A hipotese alternativa pode ser dividida em tres possibilidades no exem-plo do consumo de agua pode ser dividida em existe alguma relacao oua relacao e negativa ou a relacao e positiva A primeira denomina-se dehipotese alternativa com teste bicaudal o segundo de teste unicaudal a es-querda e finalmente o ultimo com teste unicaudal a direita Nosso exemploconsidere H a existe alguma relacao (teste bicaudal)
222 Modelo matematico
Usaremos uma funcao de consumo simples
Y = β 1 + β 2X (11)
A variavel dependente Y valor pago pelo consumo e estimado por Y A variavel independente e X consumo de agua em m3 β 1 representa ovalor pago quando nao ha consumo de agua Nosso interesse e determinara tangente ou a variacao pelo consumo β 2
223 Modelo econometrico do valor pago
O modelo matematico fornece a relacao determinıstica entre valor pagoem reais e consumo de agua porem as relacoes entre as variaveis economicassao em geral inexatas Assim ao longo do tempo no podemos esperar que ovalor pago e o consumo em m3 se situem exatamente numa linha reta isto
Castaneda Daniel F N 2013 37
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3843
22 Metodologia 2 R E ECONOMETRIA
por que alem do consumo outras variaveis afetam o valor pago por exemplo
os dias de consumo o perıodo de reforma da casa ou a inflacao podendoalterar o valor pago pelo consumo
224 Nıvel de significancia
Denominado de α frequentemente usa-se α = 005 em situacoes derisco usa-se α = 001 Em testes bicaudais divide-se α em duas partes elocalizam-se nos extremos da distribuicao de prova Para testes unicaudaislocaliza-se no extremo da distribuicao indicada pela hipotese alternativaNosso exemplo α = 005 e por tanto α2 = 0025
225 Obtencao de Dados
Considere 65 observacoes (mes a mes) do consumo de agua em umaresidencia e o valor pago em reais durante o perıodo de 122005 a 042011Ver dados no apendice A Um plot e apresentado a seguir
10 15 20
2 0
3 0
4 0
5 0
6 0
7 0
Valor pago em reais de consumo de aacutegua
Variaacutevel independenteConsumo em m3
V a r i aacute v e l d e p e n d e n t e V a l o r p a g o
Y = minus12365+3007X
Figura 10 Relacao causal entre consumo e valor pago em reais
Podemos observar visualmente que ha uma relacao positiva entre valorpago e consumo de agua onde a variacao pelo consumo ou variacao dovalor pago (tangente) β 2 cresce positivamente Precisamos verificar se estavariacao β 2 e estatisticamente diferente de zero (significativa)
Castaneda Daniel F N 2013 38
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3943
22 Metodologia 2 R E ECONOMETRIA
226 Estatıstica de prova
Denominada de funcao pivo ou estatıstica de teste No ambito pa-rametrico usa-se as estatısticas t student (amostras pequenas) quando ne grande e indiferente o uso da t student ou normal No exemplo para tes-tar qual a inclinacao da variacao pelo consumo de agua usamos a seguinteestatıstica
t0 =β 2
dp(β 2)asymp tnminus2gl (12)
onde t0 e o valor calculado da estatıstica t β 2 e a estimativa do parametro(variacao pelo consumo) β 2 dp(β 2) e o desvio padrao da estimativa doparametro β 2 o valor t0 segue uma distribuicao t-student com nminus2 graus deliberdade(gl) Os graus de liberdade e calculado diferenciando o tamanhoda amostra com o numero de parametro do modelo (n-p) O valor quantılicotnminus2gl(0025) corresponde a distribuicao t-student com 0025 de significanciacom n minus 2 graus de liberdade e n e o numero total de observacoes Nossoexemplo β 2 = 3007 e dp(β 2) = 013 por tanto t0 = 2313 e comparadocom o valor da tabela da t-student com 63 gl e com α2 = 0025 sendo estevalor igual 19983
227 Tipos de erro
Ocorre o erro tipo I (α) ao se rejeitar a hipotese de nulidade quandodeveria aceita-la Por outro lado quando se aceita a hipotese de nulidadequando deveria rejeita-la comete-se o erro tipo II (β ) Nas duas situacoestomou-se uma decisao errada O interesse e a minimizacao dos erros tipo Ie II que na pratica so e possıvel aumentando-se o tamanho da amostra Porrazoes diversas o aumento do tamanho da amostra muitas vezes torna-se im-praticavel A gravidade do erro tipo I e distinta da do erro tipo II quando seconsegue identificar o erro mais grave a opcao e a minimizacao deste poremquando a probabilidade de ocorrencia de um tipo de erro diminui a do outroaumenta e vice versa Podemos observar este criterio na seguinte tabela
Nao rejeita rejeitaH0 verdadeira Correto (1 minus α) Erro do tipo I (α)H0 falsa Erro do tipo II (β ) Correto (1minus β )
Castaneda Daniel F N 2013 39
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4043
22 Metodologia 2 R E ECONOMETRIA
228 Regra de Decisao
Os pacotes ou plataformas estatısticas apresentam o valor observado dafuncao pivo e o p minus valor (Area de probabilidade esta relacionada comonıvel de significancia) assim a funcao pivo apresenta o valor numerico nafuncao de densidade da Estatıstica exemplo dentro da densidade da normalQuando o pvalor e menor do que α = 005 no caso do teste unicaudal (eα = 0025 no caso bicaudal) concluımos que nao ha evidencia suficiente paraaceitar H0 Caso contrario se o p minus valor for maior que α = 005 podemosconcluir que nao ha evidencia suficiente para rejeitar H0 Nosso exemplot0 = 2313 gt 1998 (1998 e valor da distribuicao t com 63 gl e nıvel designificancia bicaudal de 005) este valor localiza-se na cauda positiva da
distribuicao com 63 graus de liberdade(n minus 2 = 65 minus 2) Por outro lado o pminus valor lt 0025 por tanto nao ha evidencias para aceitar H0 em favor deaceitar que o coeficiente de inclinacao (ou tangente) e positiva No recorrerdo livro usaremos codigos para as medidas do pminusvalor que em geral apareceem todo comando summary() Como consequencia a linha que aparece aseguir sera excluıda das saıdas do R
Signif codes 0 0001 001 005 01 1
sera interpretada da seguinte maneira
bull 0 significancia menor que 0001
bull 0001 significancia menor que 001
bull 001 significancia menor que 005
bull 005 significancia menor que 01
bull 01 significancia menor que 1
229 Conclusoes
Esta parte do teste de hipoteses e explicada em conjunto O Estatıstico eo Economista que sao os profissionais da area em que as observacoes foramcoletadas decidem sobre as providencias futuras No exemplo podemosafirmar que a cada metro cubico a mais de consumo de agua sera pago emmedia 3 reais a mais No momento este valor pago pode parecer alto poremna falta de este liquido elementar este valor pode aumentar e por tantosofrera mudancas
Castaneda Daniel F N 2013 40
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4143
23 Previs˜ oes 2 R E ECONOMETRIA
23 Previsoes
Muitas vezes estamos interessados em determinar o que acontece quandouma quantidade de consumo de agua em m3 e utilizada e qual o valor pagoem reais Por exemplo se nosso interesse e saber quanto sera pago por 20m3
de consumo de agua em uma residencia A conta a realizar eValor pago = minus12365 + 3007 lowast 20 = 47775 reaisA interpretacao deste valor e em media o valor pago em reais por 20m3 deagua consumida e de aproximadamente 478 reais
231 Resıduos
Uma questao fundamental em econometria e identificar o comportamentodos resıduos de um modelo Considere Y o valor real pago e Y valor pagoestimado a partir de um modelo entao este erro e aleatorio e definido por
ϵi = Y i minus Y i (13)
A abordagem mais formal dos erros e feita nos proximos capıtulosUma questao importante e determinar qual o comportamento da estima-tiva destes erros aos quais chamamos de resıduos Para determinar a nor-malidade dos resıduos realizamos o teste de Jarque Bera com a funcao
jarqueberatest() da biblioteca tseries com o seguinte grafico
minus2 minus1 0 1 2
minus 5
0
5
1 0
resiacuteduos do modelo valor= f(consumo)
Theoretical Quantiles
S a m p l e Q u a n t i l e s
Figura 11 Normalidade dos resıduos
Castaneda Daniel F N 2013 41
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4243
24 Exercıcios REFER ENCIAS
24 Exercıcios
1 Por que a econometria precisa ser uma disciplina autonoma
2 Que e econometria
3 Pesquise dados de corte transversal corte longitudinal e de painel
4 Construa uma metodologia econometrica para o consumo familiar emfuncao da renda familiar (linear)
5 No item anterior e possıvel encontrar uma relacao quadratica
6 Quais sao os pressupostos basicos de um modelo de regressao linear
simples
7 Como e chamado o parametro de inclinacao ou tangente num modelode regressao linear simples em econometria
8 Que e o projeto R
9 R e um programa econometrico
Referencias
[1] Albert Jim (2009) Bayesian computation with R Editora SpringerSecond Edition New York USA
[2] Borde Arvind (1992) TEX by example A beginneracutes guide Ed Aca-demic Press Professional United States of America
[3] Carneiro Orlando (1997) Econometria Bacute asica Teoria e Aplicac˜ oes Editora Atlas Segunda Edicao son Paulo
[4] Conover W J (1999) Practical nonparametric statistics 3ed NewYork
[5] Cribari Neto F (2002) C for Econometricians conputational Econo-
mics 14 p135-149
[6] Dalgaard Peter(2008) Introductory Statistics with R Editora SpringerSecond Edition New York USA
[7] Ehlers Ricardo(2007) Analise de series Temporais Universidade Fe-deral do Parana
Castaneda Daniel F N 2013 42
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4343
REFER ENCIAS REFER ENCIAS
[8] Frery Alejandro Cribari-Neto Francisco(2011)Elementos de
Estatıstica conputacional Usando Plataformas de Software Li-vreGratuito Publicacoes Matematicas Editora IMPA
[9] Gujarati Damodar N (2000) Econometria Bacute asica Makron Books Ter-ceira Edicao son Paulo
[10] Knuth DE (1981)The Art of conputer Programming Third EditionVolume 2 Seminumerical Algorithms Addison-Wesley Publishingconpany Massachusetts
[11] Korgi Rodrigo de Castro (2003) El universo LAT E X Editora Facultadde Ciencias Segunda Edicao Bogota
[12] Krawczyk H How to Predict Congruential Generators InJournal of Algorithms V 13 N 4 1992
[13] LrsquoEcuyer P (2001) Software for uniform random number generationdistinguishing the good and the bad In Proceedings of the 2001 WinterSimulation Conference
[14] Maindonald John Braun W John(2010) Data analysis and graphics using R an example-based approach Cambridge University Press NewYork USA
[15] Mingoti(2005)Analise De Dados Atraves De Metodos De Estatistica Multivariada - Uma Abordagem Aplicada Editora UFMG Belo Hori-zonte
Castaneda Daniel F N 2013 43
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1443
112 Comandos cbind() e rbind() 1 INICIANDO O R
[1] [2] [3]
[1] 3 5 1
[2] 2 7 5
[3] 4 2 9
gt solve(c)
[1] [2] [3]
[1] 036551724 -029655172 012413793
[2] 001379310 015862069 -008965517
[3] -016551724 009655172 007586207
solve(cd) inverte a matriz c e multiplica por d
[1] [2] [3]
[1] 051034483 -029655172 24344828
[2] 007586207 115862069 01862069
[3] 008965517 009655172 -02344828
gt solve(c)d forma alternativa
[1] [2] [3]
[1] 051034483 -029655172 24344828
[2] 007586207 115862069 01862069
[3] 008965517 009655172 -02344828
112 Comandos cbind() e rbind()
E possıvel formar novas matrizes com as ja existentes usando a funcaocbind() e rbind() a primeira construı matrizes em colunas a segunda emlinhas
cbind(cd)
[1] [2] [3] [4] [5] [6]
[1] 3 5 1 2 5 8
[2] 2 7 5 2 8 5
[3] 4 2 9 3 2 8
rbind(cd)[1] [2] [3]
[1] 3 5 1
[2] 2 7 5
[3] 4 2 9
[4] 2 5 8
Castaneda Daniel F N 2013 14
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1543
113 Autovalores e autovetores 1 INICIANDO O R
[5] 2 8 5
[6] 3 2 8
cbind(1c)
[1] [2] [3] [4]
[1] 1 3 5 1
[2] 1 2 7 5
[3] 1 4 2 9
rbind(1d)
[1] [2] [3]
[1] 1 1 1
[2] 2 5 8
[3] 2 8 5
[4] 3 2 8
113 Autovalores e autovetores
ev=eigen(c) calcula autovalores e autovetores
ev
$values
[1] 13265694+0000000i 2867153+1646172i 2867153-1646172i
$vectors[1] [2] [3]
[1] 03799264+0i 07884141+00000000i 07884141+00000000i
[2] 06480231+0i 00745376+03051027i 00745376-03051027i
[3] 06600924+0i -04774265-02276482i -04774265+02276482
det(c)
[1] 145
det(d)
[1] -57
114 Data frame ou construtor de dados
Suponha um conjunto de dados com tres variaveis sexo (1=homem0=mulher) peso em quilogramas e salario em reais por dia de 12 indivıduosPara calcular a media o resumo de estatısticas descritivas e um grafico (plot)
Castaneda Daniel F N 2013 15
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1643
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1743
116 Func˜ ao readtable() 1 INICIANDO O R
attach(ind)
peso
[1] 67 60 62 69 54 59 57 67 60 65 59 55
salario
[1] 59 40 45 65 55 45 48 67 65 68 62 45
sex
[1] 1 0 0 1 0 0 0 1 1 1 1 0
detach(ind)
salario
Erro objeto rsquosalariorsquo n~ao encontrado
A funcao attach e detach pode ser usada no somente em arquivo dedados dos pacotes do R se nao tambem para listas e data frame
116 Funcao readtable()
Um amplo conjunto de arquivos com diferentes extensoes pode ser lidopor esta funcao
1161 Arquivos com extensao txt
Considere as seguintes variaveis x1 idade dos funcionarios x2 sexo
(1 homem 0 mulher) x3 anos de experiencia na funcao x4 estado civilx5 numero de filhos x6 nota de 0 minus 10 de um teste de avaliacao deconhecimento na sua area x7 teste psicotecnico de 0 a 50 x8 satisfacaocom a vida pessoal estes dados em bloco de notas com extensao txt obtidosde Mingoti 2005 Ver dados na integra no apendice
funcao=readtable(functxtheader=T)
funcao
grupo idade sexo ecivil nfilhos aexper tpsico tconhec satisf
1 0 24 1 1 0 2 77 360 1
2 0 29 1 1 0 4 79 360 13 0 38 1 0 1 6 86 408 0
107 0 24 1 1 0 2 73 360 0
108 0 27 1 0 0 3 74 360 1
109 1 42 1 0 2 14 99 440 1
Castaneda Daniel F N 2013 17
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1843
117 Script com extens˜ ao R 1 INICIANDO O R
Considere os dados de consumo de agua de uma residencia durante
o perıodo de 1205 a 0411 Com as seguintes variaveis valor em reaisconsumo em m3 dias de consumo e construindo o imovel (1sim 2nao)Dados proprios do autor Ver dados na integra no apendice
ca=readtable(consumoagua2txtheader=T) disponıvel em meus documentos
ca
dado valor consumo diasconsumo Construindo
1 1 1476 11 30 0
2 2 1347 10 31 0
64 64 3439 14 31 1
65 65 2221 11 32 0
Observacao use o comando choose() para escolher um conjunto dedados de um diretorio especifico no computador podemos usar
datalt-readtable(filechoose()header=T)
117 Script com extensao R
Exemplo com extensao R lida por readtable com dados do proprio R
exemplo=readtable(filechoose()header=T) dadosrR em aula 3exemplo
dado valor
1 1 115
2 2 117
3 3 118
4 4 119
5 5 127
118 Funcao scan()
A funcao scan tambem pode incluir elementos no R
scan()
1 12
2 13
3 14
Castaneda Daniel F N 2013 18
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1943
119 Func˜ ao sample 1 INICIANDO O R
4 15
5
Read 4 items
[1] 12 13 14 15
Use a funcao scan() para ingressar dados diretamente na plataforma R
119 Funcao sample
Usa-se para escolher aleatoriamente uma amostra de um conjunto deobservacoes ou uma base de dados Como exemplo considere uma amostrade 8 observacoes dos primeiros 20 do banco de dados de consumo de agua
(ca)setseed(10)
ca20=ca[sample(1208)]
ca20
dado valor consumo diasconsumo Construindo
11 11 3153 16 31 1
6 6 1347 10 32 0
8 8 1347 10 30 0
12 12 3755 18 32 1
2 2 1347 10 31 0
4 4 5275 22 33 1
15 15 3755 18 32 0
14 14 1648 11 30 0
120 Rcmdr
Para importar dados do SPSS STATISTICA MINITAB EXCEL TXTetc podemos usar o pacote livre Rcmdr ja disponıvel na biblioteca
library(Rcmdr)
este pacote trabalha via janelas para maior comodidade
121 Dados disponıveis no R
R possuı mais de 100 conjunto de dados alocados no pacote dataset quepodem ser chamados diretamente ( sem extensao) com a funcao data
data()
Castaneda Daniel F N 2013 19
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2043
122 Modificando e editando dados 1 INICIANDO O R
No R pode-se acessar a conjunto de dados de outros pacotes disponıveis
na sua biblioteca Se por acaso esta instalado o pacote lmtest o conjuntode dados ativo neste pacote pode ser chamado da seguinte maneira
data(package=lmtest)
122 Modificando e editando dados
Considere o conjunto de dados anterior Para modificar este conjuntosera disponibilizado uma tela de editor de dados a seguir
xnovo=edit(wagespackage=lmtest)
Para editar um conjunto de dados novo podemos usar a funcao edit daseguinte forma
xn=edit(dataframe())
123 Exportando dados do R para o Excel
Para exportar uma coluna de dados por exemplo o valor pago no con-sumo de agua executamos no R
writeClipboard(ascharacter(valor))
Na tela do Excel usar o comando colar Suponha que esta interessadoem exportar o conjunto de dados ca consumo de agua numa residenciadisponıveis no R para transferir este conjunto de dados use o seguintecomando
writetable(caclipboardsep=tcolnames=NA)
Na tela do Excel faca Ctrl+V ou um click em colar
124 Funcoes apply tapply sapply e lapply
A funcao apply calcula medidas estatısticas por linhas ou por colunas
e a funcao sapply calcula apenas por coluna A diferenca da funcao applyda funcao tapply e que esta ultima calcula medidas estatısticas por estratosConsidere os dados de consumo de agua de uma residencia
apply(ca2mean)
dado valor consumo diasconsumo Construindo
330000000 255690769 126153846 307076923 02615385
Castaneda Daniel F N 2013 20
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2143
125 Distribuic˜ oes de probabilidade 1 INICIANDO O R
tapply(valorConstruindomean)
0 1
2115271 3803882
sapply(camean)
dado valor consumo diasconsumo Construindo
330000000 255690769 126153846 307076923 02615385
lapply(camean) verificar
125 Distribuicoes de probabilidade
R proporciona uma serie de funcoes para variaveis aleatorias estatısticasconhecidas dentro destas funcoes temos distribuicao aleatorizacao proba-
bilidade e quantidadeDistribuicao nome no R argumentos adicionaisbeta beta shape1shap2npcbinomial binom sizeprobcauchy cauchy locationscalechi-quadrado chisq dfnpcexponencial exp rateF f df1df2npcgamma gamma shapescalegeometric geom probhypergeometric hyper mnk
log-normal lnorm meanlogsdloglogistic logis locationscalenegativa binomial nbinom sizeprobnormal norm meansdpoisson pois lambdat-student t dfncpuniforme unif minmaxweibull weibull shapescalewilcoxon wilcoxon mn
Nomes iniciando com ldquodrdquocalculara a densidade da funcao ldquoprdquoparacalcular a probabilidade ou funcao acumulada ldquoqrdquopara o valor quantılico eldquorrdquopara simulacao de numeros aleatoriosExemplos
rpois(105) 10 numeros aleatorios da dist poisson com parametro 5
[1] 3 2 3 1 8 6 1 3 2 3
Castaneda Daniel F N 2013 21
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2243
126 Algoritmos de programac˜ ao no R 1 INICIANDO O R
rnorm(5) 5 numeros aleatorios da normal padr~ao
[1] 004659011 -005019082 -128753167 115411245 -137573809
qt(09550) valor quantilico da t com 50 gl
[1] 1675905
qchisq(0951) valor da qui-quadrado
com 95 de confianc a e 1 g l
[1] 3841459
dpois(45) densidade da dist poisson x=4 parametro=5
[1] 01754674
ppois(45) P(xlt=4) parametro=5
[1] 04404933
126 Algoritmos de programacao no R
R e uma linguagem de programacao orientada a objetos que alem de ana-lisar dados tem sua propria programacao aqui usaremos esta programacaopara analises de estatısticas e econometria Para maiores detalhes podemospesquisar em Venables and Ripley (2000 e 2002) Voce pode estender afuncionalidade do R criando novas funcoes ou programando por exemplo
medianamediarazao lt- function(x)
return(median(x)mean(x))
setseed(20)
z = rexp(10000)
medianamediarazao(z)
[1] 06925193
Construindo a mediana
mediana=function(x)
oddeven=length(x)2
if (oddeven == 0) (sort(x)[length(x)2]+sort(x)[1+ length(x)2])2
else sort(x)[ceiling(length(x)2)]
Construindo a media geometrica
mediageometrica = function (x) exp(mean(log(x)))
Construindo a media harmonica
Castaneda Daniel F N 2013 22
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2343
126 Algoritmos de programac˜ ao no R 1 INICIANDO O R
mediaharmonica=function (x) 1mean(1x)
Um algoritmo que envolva as medidas de tendencia central
medidascentrais = function(y medida)
switch(medida
media = mean(y)
mgeometrica = exp(mean(log(y)))
mharmonica = 1mean(1y)
mediana = median(y)
stop(Medida n~ao inclusa))
medidascentrais(ymedia)
Gerando uma distribuicao uniforme para o lancamento de um dado
ndado=function(x) return(round(runif(x)6+05))
hist(ndado(100000)
Com o comando sample podemos realizar este mesmo experimento daseguinte maneira
gerando=sample(16 100000 replace=TRUE)
hist(gerando)
Considere o seguinte objeto c
c=c(122715365)
Para determinar que classe de objeto e o vetor c podemos identificarusando os seguintes comandos
ischaracter(c)
[1] FALSE
isnumeric(c)
[1] TRUE
A este objeto c podemos a signar nome a cada valor definido da seguinteforma
names(c)=c(abcdef)
c
a b c d e f
10 22 70 150 30 65
Castaneda Daniel F N 2013 23
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2443
127 Lacos no R 1 INICIANDO O R
Podemos associar uma comparacao logica com o vetor c da seguinte
forma
cgt3
a b c d e f
FALSE FALSE TRUE TRUE FALSE TRUE
Quando estamos diante de uma matriz podemos definir os nomes dascolunas com colnames() e os nomes das linhas com rownames() veja oexemplo
d=matrix(c(223582858)33)
colnames(d)=c(c1c2c3)
rownames(d)=c(1o2o3o)
d
c1 c2 c3
1o 2 5 8
2o 2 8 5
3o 3 2 8
A matriz d e entendida como um conjunto de dados que podem serassociados as linhas e as colunas Para determinar se ha associacao entrelinhas e colunas o teste utilizado pode se o qui-quadrado com a funcaochisqtest()
127 Lacos no R
Em algumas situacoes variaveis contınuas podem ser transformadas em variaveisordinais ou dummy para realizar estas operacoes o R proporciona varioslacos como else if ou ifelseExemplo para construir variaveis binarias considere o consumo de aguaonde consumo menor ou igual a 10 m3 e zero e acima de 10 m3 e 1 Ovalor de consumo sendo zero se o valor e menor ou igual a 20 reais e 1 casocontrario
consumoc=numeric(length(consumo))
for(i in 1length(consumo))if (consumo[i]lt=10) consumoc[i]=0
else consumoc[i]=1
valorc=numeric(length(valor))
for(i in 1length(valor))if (valor[i]lt=20) valorc[i]=0 else valorc[i]=1
Castaneda Daniel F N 2013 24
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2543
128 A func˜ ao cut() 1 INICIANDO O R
Nota Podemos construir os lacos considerando a condicao como texto
exemplo consumoc[i]=rdquo[0minus 10]rdquo Comando alternativo de construcao
consumoc2=ifelse(consumolt=10[0-10]Acima de 10)
valorc2=ifelse(valorlt=20[0-20]Acima de 20)
limitacao deste laco e que utilizado apenas para duas condicoes Para lacoscom mais de duas condicoes podemos usar os seguintes comandos
valorc3=numeric(length(valor))
for(i in 1length(valor))if (valor[i]lt20) valorc3[i]=[0-20)
else if (valor[i]lt30)
valorc3[i]=[20-30) else valorc3[i]=[30 a +
table(valorc3)
128 A funcao cut()
Alguma funcoes usam lacos para criar novas variaveis categoricas no exem-plo de valor pago em reais pelo consumo de agua podemos construir cate-gorias por quartis de 25 50 75 1 da seguinte maneira
q=cut(valorquantile(valor) includelowest=T)
table(q)
q
[135165] (165222] (222327] (327693]
17 16 16 16
Outras formas podem ser usando intervalos a criterio pessoal no exemplo aseguir consideramos com valor mınimo 13 e valor maximo 70 com amplitudedo intervalo de 19 e com classes fechadas no mınimo e aberto no maximo
valr=cut(valmseq(137019)right=Fincludeupper=T)
table(valr)
valr
[1332) [3251) [5170)
48 15 2
129 Criando funcoes Teste que compara duas medias
Como exemplo implementamos a estatıstica de comparacao de duasamostras independentes
Castaneda Daniel F N 2013 25
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2643
130 Coeficiente de regressao 1 INICIANDO O R
testeduas lt- function(y1 y2)
+ n1 lt- length(y1) n2 lt- length(y2)
+ yb1 lt- mean(y1) yb2 lt- mean(y2)
+ s1 lt- var(y1) s2 lt- var(y2)
+ s lt- ((n1-1)s1 + (n2-1)s2)(n1+n2-2)
+ tst lt- (yb1 - yb2)sqrt(s(1n1 + 1n2))
+ tst
+
x=runif(20)
y=rnorm(20)
testeduas(xy)
[1] 2874636
Uma forma alternativa e usando a funcao ttest()
ttest(xy)
Welch Two Sample t-test
data x and y
t = 28746 df = 21784 p-value = 0008858
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
01846283 11429380sample estimates
mean of x mean of y
05539270 -01098562
130 Coeficiente de regressao
Implementando o calculo da tangente (inclinacao) do coeficiente no mo-delo de regressao linear simples
mq1lt- function(X y)
+ X lt- qr(X)
+ qrcoef(X y)+
mq1(xy)
[1] -008755885
Castaneda Daniel F N 2013 26
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2743
131 Teste Qui- Quadrado 1 INICIANDO O R
131 Teste Qui- Quadrado
Util para associar linhas e colunas considere os dados em d com as se-guintes hipotesesH0 nao ha associacao entre linhas e colunasHa ha associacao entre linhas e colunas
chisqtest(d)
Pearsonrsquos Chi-squared test
data d
X-squared = 46497 df = 4 p-value = 03252
Warning message
In chisqtest(d) Aproximac~ao Qui-quadrado pode estar incorreta
Para um nıvel α = 0 05 de significancia podemos afirmar que nao haevidencias para afirmar que a associacao entre linhas e colunas (linhas ecolunas sao independentes) Um outro exemplo do uso da distribuicao Qui-quadrado e verificar se um conjunto de dados provem de uma determinadadistribuicao teorica
chisqtest(c)
Chi-squared test for given probabilities
data c
X-squared = 22549 df = 5 p-value = 00004116
Pelo p-value podemos afirmar que a 0 05 de significancia nao ha evi-dencias para afirmar que a distribuicao dos numeros em c sejam uniformesPara implementar este teste de associacao no exemplo de consumo de aguaconsiderando a classificacao mediante lacos (ver lacos no R) entre consumoce valorc temos
table(consumocvalorc)
valorc
consumoc 0 1
0 24 0
Castaneda Daniel F N 2013 27
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2843
132 Teste t - student 1 INICIANDO O R
1 3 38
chisqtest(consumocvalorc)$expected
chisqtest(consumocvalorc)$observed
chisqtest(consumocvalorc)
Pearsonrsquos Chi-squared test with Yatesrsquo continuity correction
data consumoc and valorc
X-squared = 498015 df = 1 p-value = 1701e-12
barplot(table(consumocvalorc) beside=T)
Concluimos que ha associacao entre consumo de agua e o valor pago em
reais
132 Teste t - student
O teste mais usado pelos estatısticos e util para comparar medias deduas amostras tanto independente como emparelhadasExemplo considere as exportacoes mensais (FOB-US) do Brasil durante osanos de 2009 minus 2010 Apos digitacao das observacoes temos
exp2009
[1] 9781920 9586406 11809225 12321617 11984585 14467785 14141930
[8] 13840850 13863222 14081686 12652892 14462624
exp2010[1] 1130507 1219724 1572750 1516121 1770250 1709391 1767292 1923625
[9] 1883279 1838042 1768733 2091814
H0 A medias anuais das exportacoes durante 2009 e 2010 e a mesmaHa CC
ttest(exp2009exp2010paired = FALSE)
Welch Two Sample t-test
data exp2009 and exp2010
t = -42813 df = 18202 p-value = 00004394
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-6075666 -2077757
sample estimates
mean of x mean of y
Castaneda Daniel F N 2013 28
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2943
133 Teste F 1 INICIANDO O R
1274956 1682627
Conclusao nao ha evidencias para aceitar que a media das exportacoesde 2009 e 2010 e a mesma
Quando um conjunto de dados e dado em formato de matriz (dataframe)podemos realizar o teste t de uma coluna em funcao da outra por exemplono consumo de agua queremos testar a hipotese nula H0 o valor de con-sumo de agua e o mesmo construindo ou nao versus a hipotese alternativaHa Caso contrario
attach(ca)
ttest(valor~Construindo)
Welch Two Sample t-test
data valor by Construindo
t = -58383 df = 21731 p-value = 7465e-06
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-2288867 -1088356
sample estimates
mean in group 0 mean in group 1
2115271 3803882
Concluımos que nao ha evidencias para aceitar que o valor de consumode agua e o mesmo quando estamos construindo ( p minus valor lt 005)
Exemplos adicionais podem ser comparando entre as variaveis clas-sificadas (ver secao de lacos) da seguinte forma
ttest(valor~consumoc)
ttest(consumo~valorc)
boxplot(consumo~valorc2 main=Consumo e valor pago em Reais)
boxplot(consumo~valorc3 main=Consumo e valor pago em Reais)
133 Teste F
Para determinar se ha a mesma variabilidade no valor de consumoquando estamos ou nao construindo utilizamos o teste F A hipotese nulae H0 O valor de consumo de agua tem a mesma variabilidade quandoconstruımos que quando nao construımos No R temos
Castaneda Daniel F N 2013 29
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3043
133 Teste F 1 INICIANDO O R
vartest(valor~Construindo)
F test to compare two variances
data valor by Construindo
F = 04834 num df = 47 denom df = 16 p-value = 005478
alternative hypothesis true ratio of variances is not equal to 1
95 percent confidence interval
0194815 1014916
sample estimates
ratio of variances
04834048
Concluımos que nao ha evidencias para rejeitar a hipotese nula por tanto
a variabilidade no valor de consumo e o mesmoO correspondente grafico (Box-plot) e apresentado a seguir
boxplot(valor~Construindo col=8 names=c(n~ao construc~ao construc~ao))
natildeo construccedilatildeo construccedilatildeo
2 0
3 0
4 0
5 0
6 0
7 0
Figura 4 Valor pago em reais no consumo de agua
Em alguns casos ha necessidade de identificar se a variabilidade dasexportacoes e a mesma comparando 2009 e 2010H0 As exportacoes de 2009 e 2010 tem a mesma variabilidade (dados men-sais coletados do site httpwwwipeadatagov)Ha CC
Castaneda Daniel F N 2013 30
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3143
134 Graficos 1 INICIANDO O R
vartest(exp2009exp2010)
F test to compare two variances
data exp2009 and exp2010
F = 03728 num df = 11 denom df = 11 p-value = 01166
alternative hypothesis true ratio of variances is not equal to 1
95 percent confidence interval
01073346 12951624
sample estimates
ratio of variances
03728482
Conclusao Nao houve mudancas na variabilidade das exportacoes de
2009 e 2010
134 Graficos
Considere os dados mensais das exportacoes do Brasil (FOB) durante2009 e 2010 para realizar um grafico de box-plot fazemos
boxplot(exp2009exp2010 main=exportac~oes do Brasil
names=c(20092010))
2009 2010
1 0 0 0 0
1 2 0 0 0
1 4 0 0 0
1 6 0 0 0
1 8 0 0 0
2 0
0 0 0
exportaccedilotildees do Brasil
Figura 5 Exportacoes FOB em dolares
Para o grafico da funcao acumulativa das exportacoes
plot(ecdf(exp2010) dopoint=FALSE verticals=TRUE
lty=3 xlim=c(1000023000))
lines(ecdf(exp2009) dopoint=FALSE verticals=TRUE
col=2)
Castaneda Daniel F N 2013 31
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3243
134 Graficos 1 INICIANDO O R
1 00 00 1 20 00 1 40 00 1 60 00 1 80 00 2 00 00 2 20 00
0 0
0 2
0 4
0 6
0 8
1 0
ecdf(exp2010)
x
F n ( x )
Figura 6 Funcao acumulada das exportacoes 2009-2010
Considere as exportacoes do Brasil um histograma e Q-Q plot sera
hist(exp main=Exportac~oes FOB-US col=8)
qqnorm(exp xlim=c(-55)ylim=c(-100021000))
qqline(exp)
Exportaccedilotildees FOBminusUS$
exp
F r e q u e n c y
0 5000 10000 15000 20000
0
5 0
1 0 0
1 5 0
minus4 minus2 0 2 4
0
5 0 0 0
1 0 0 0 0
1 5 0 0 0
2 0 0 0 0
Normal QminusQ Plot
Theoretical Quantiles
S a m p l e Q u a n t i l e s
Figura 7 Graficos das Exportacoes no Brasil 2001-2010
Para ativar alguns graficos pacotes sao necessarios exemplo
library(MASS)
Castaneda Daniel F N 2013 32
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3343
134 Graficos 1 INICIANDO O R
par(mfrow=c(21))
z = rnorm(500000)
hist(z prob=T)
curve(dnorm(x)add=T)
histscott(z prob=T)
Histogram of z
z
D e n s i t y
minus4 minus2 0 2 4
0 0
0 2
Histogram of x
z
D e n s i t y
minus4 minus2 0 2 4
0 0
0 2
0 4
Figura 8 Histograma de numeros aleatorios normais
boxcox(dist~speed data=cars) transformac~ao Box-Cox
minus2 minus1 0 1 2
minus 4 0 0
minus 3 5 0
minus 3 0 0
minus 2 5 0
λ
l o g minus
L i k e l i h o o d
95
Figura 9 Valor otimo na transformacao Box-Cox
Castaneda Daniel F N 2013 33
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3443
135 Tabelas 1 INICIANDO O R
Para ter um alcance maior sobre a capacidade grafica do R podemos
usar as seguintes funcoes
demo(graphics)
demo(image)
demo(persp)
demo(recursion)
demo(plotmath)
demo(package = packages(allavailable = TRUE))
135 Tabelas
Algumas tabelas estatısticas podem ser construıdas com a funcao table()estado=c(PBPEALSEBAMGESRJPBPEAL
SEBAMGESRJPBPEALSEBAMGESRJ
PBPEALSEBAMGESRJ)
estadof=factor(estado)
estadof
[1] PB PE AL SE BA MG ES RJ PB PE AL SE BA MG ES RJ PB PE AL SE BA
[22] MG ES RJ PB PE AL SE BA MG ES RJ
Levels AL BA ES MG PB PE RJ SE
setseed(10)
salarios=c(round(runif(32)100))
salarios
[1] 51 31 43 69 9 23 27 27 62 43 65 57 11 60 36 43 5 26 40 84 86 62 78 36 41
[26] 71 84 24 77 36 54 9
salariom=tapply(salariosestadofmean)
salariom
AL BA ES MG PB PE RJ SE
5800 4575 4875 4525 3975 4275 2875 5850
salariof=factor(cut(salariosbreaks=0+15(07)))
salariof
[1] (4560] (3045] (3045] (6075] (015] (1530] (1530] (1530] (6075]
[10] (3045] (6075] (4560] (015] (4560] (3045] (3045] (015] (1530]
[19] (3045] (7590] (7590] (6075] (7590] (3045] (3045] (6075] (7590]
[28] (1530] (7590] (3045] (4560] (015]
Levels (015] (1530] (3045] (4560] (6075] (7590]
table(salariofestadof)
estadof
Castaneda Daniel F N 2013 34
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3543
136 Comandos adicionais 2 R E ECONOMETRIA
salariof AL BA ES MG PB PE RJ SE
(015] 0 2 0 0 1 0 1 0
(1530] 0 0 1 1 0 1 1 1
(3045] 2 0 1 1 1 2 2 0
(4560] 0 0 1 1 1 0 0 1
(6075] 1 0 0 1 1 1 0 1
(7590] 1 2 1 0 0 0 0 1
table(salariofestadof)
estadof
salariof AL BA ES MG PB PE RJ SE
(015] 1 1 0 0 1 0 1 2
(1530] 0 0 1 1 0 0 1 1
(3045] 0 0 2 0 0 1 0 0
(4560] 2 0 1 0 0 1 0 0
(6075] 0 1 0 2 3 0 1 0
(7590] 0 1 0 1 0 2 0 1
(90105] 0 1 0 0 0 0 1 0
136 Comandos adicionais
Em situacoes onde a ausencia de informacao ou dados faltantes(missing)as funcoes do R precisam declarar esta ausencia com o comando narm=T
indicando que a informacao apresenta dados faltantes Exemplo
df=c(2NA58NA) O ultimo elemento esta ausente
mean(f) Comando padr~ao para calcular a media
[1] NA
mean(fnarm=T) Comando declarando a ausencia de elementos
[1] 5
2 R e Econometria
Dados economicos precisam de uma atencao matematica para dar fun-
damento a suas teorias Atualmente pelo avanco computacional nao habarreiras para serem aplicadas e torna-se ate divertida se definimos a plata-forma de trabalho computacional A econometria requer de uma abordagemdiferenciada pois faz uso de da teoria economica economia matematica es-tatıstica economica estatıstica matematica e inferencia estatıstica Esta
Castaneda Daniel F N 2013 35
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3643
21 Tipos de Dados 2 R E ECONOMETRIA
disciplina aproxima a Estatıstica da Economia onde a teoria economica for-
mula as hipoteses Por exemplo uma reducao de precos de uma mercadoriadevera aumentar a quantidade demandada dessa mercadoria considerandouma relacao inversa entre preco e quantidade demandada ou a despesa deconsumo per capita depende da renda per capita considerando uma relacaodireta ou seja a medida que a renda aumenta a despesa tende a aumentarOutro exemplo onde consideremos a area microeconomica consumo de aguade uma residencia e o valor pago e natural imaginar que ha uma relacaodireta entre consumo e valor pago pelo consumo Porem precisamos saberqual e quanto e esta forca de relacao por tanto o econometrista forneceesta informacao usando a inferencia estatıstica e a estatıstica economicaAs estimativas de esta relacao fica por conta de estatıstica matematica
Para completar e cerrar este circulo de disciplinas abordadas na Econo-metria precisamos utilizar uma ferramenta de calculo computacional quebrinde estabilidade precisao e rapidez nos seus resultados para superartudo isto utilizaremos o ambiente R A econometria surge como uma disci-plina autonoma em virtude de aglutinar todas estas areas do conhecimentomerecendo um estudo proprio
21 Tipos de Dados
Os tipos de dados sao
1 Dados de corte transversal (cross-section) sao dados de uma ou maisvariaveis coletadas no mesmo ponto do tempo Por exemplo os censosno Brasil sao coletados num instante do tempo No censo variaveisdemograficas sao exploradas como contagem da populacao numerode indivıduos em cada famılia idade dos integrantes da famılia ouvariaveis economicas como renda consumo tipo de moradia (alugadaou propria) etc estes dados sao adquiridas a cada decada pelo IBGE
2 Dados longitudinais ou de series temporais sao caracterizadas porobservacoes ao longo do tempo No Brasil um site que disponibilizadados desta natureza e o IPEADATA
3 Dados de painel e uma mistura de dados de corte transversal e longi-tudinais ou ao longo do tempo estudamos o comportamento de unida-des individuais Por exemplo series mensal do ındice de precos serieanuais do produto interno bruto (PIB) ou serie anual da balanca co-mercial dos municıpios do Brasil considerando cada municıpio comounidades individuais
Castaneda Daniel F N 2013 36
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3743
22 Metodologia 2 R E ECONOMETRIA
22 Metodologia
Os passos da metodologia econometrica tradicional ou classica se iniciadesde a formulacao da hipotese ate as conclusoes em geral sao
221 Hipotese
Como referencia usaremos a hipotese nula H 0 a qual nulifica qualquerdiferenca e a hipoteses alternativa H a aquela que contradiz total ou par-cialmente a hipotese nula Exemplo
1 H 0 nao existe uma relacao entre consumo de agua e valor pago pela
mesma
2 Ha existe uma relacao entre consumo de agua e valor pago pelamesma
A hipotese alternativa pode ser dividida em tres possibilidades no exem-plo do consumo de agua pode ser dividida em existe alguma relacao oua relacao e negativa ou a relacao e positiva A primeira denomina-se dehipotese alternativa com teste bicaudal o segundo de teste unicaudal a es-querda e finalmente o ultimo com teste unicaudal a direita Nosso exemploconsidere H a existe alguma relacao (teste bicaudal)
222 Modelo matematico
Usaremos uma funcao de consumo simples
Y = β 1 + β 2X (11)
A variavel dependente Y valor pago pelo consumo e estimado por Y A variavel independente e X consumo de agua em m3 β 1 representa ovalor pago quando nao ha consumo de agua Nosso interesse e determinara tangente ou a variacao pelo consumo β 2
223 Modelo econometrico do valor pago
O modelo matematico fornece a relacao determinıstica entre valor pagoem reais e consumo de agua porem as relacoes entre as variaveis economicassao em geral inexatas Assim ao longo do tempo no podemos esperar que ovalor pago e o consumo em m3 se situem exatamente numa linha reta isto
Castaneda Daniel F N 2013 37
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3843
22 Metodologia 2 R E ECONOMETRIA
por que alem do consumo outras variaveis afetam o valor pago por exemplo
os dias de consumo o perıodo de reforma da casa ou a inflacao podendoalterar o valor pago pelo consumo
224 Nıvel de significancia
Denominado de α frequentemente usa-se α = 005 em situacoes derisco usa-se α = 001 Em testes bicaudais divide-se α em duas partes elocalizam-se nos extremos da distribuicao de prova Para testes unicaudaislocaliza-se no extremo da distribuicao indicada pela hipotese alternativaNosso exemplo α = 005 e por tanto α2 = 0025
225 Obtencao de Dados
Considere 65 observacoes (mes a mes) do consumo de agua em umaresidencia e o valor pago em reais durante o perıodo de 122005 a 042011Ver dados no apendice A Um plot e apresentado a seguir
10 15 20
2 0
3 0
4 0
5 0
6 0
7 0
Valor pago em reais de consumo de aacutegua
Variaacutevel independenteConsumo em m3
V a r i aacute v e l d e p e n d e n t e V a l o r p a g o
Y = minus12365+3007X
Figura 10 Relacao causal entre consumo e valor pago em reais
Podemos observar visualmente que ha uma relacao positiva entre valorpago e consumo de agua onde a variacao pelo consumo ou variacao dovalor pago (tangente) β 2 cresce positivamente Precisamos verificar se estavariacao β 2 e estatisticamente diferente de zero (significativa)
Castaneda Daniel F N 2013 38
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3943
22 Metodologia 2 R E ECONOMETRIA
226 Estatıstica de prova
Denominada de funcao pivo ou estatıstica de teste No ambito pa-rametrico usa-se as estatısticas t student (amostras pequenas) quando ne grande e indiferente o uso da t student ou normal No exemplo para tes-tar qual a inclinacao da variacao pelo consumo de agua usamos a seguinteestatıstica
t0 =β 2
dp(β 2)asymp tnminus2gl (12)
onde t0 e o valor calculado da estatıstica t β 2 e a estimativa do parametro(variacao pelo consumo) β 2 dp(β 2) e o desvio padrao da estimativa doparametro β 2 o valor t0 segue uma distribuicao t-student com nminus2 graus deliberdade(gl) Os graus de liberdade e calculado diferenciando o tamanhoda amostra com o numero de parametro do modelo (n-p) O valor quantılicotnminus2gl(0025) corresponde a distribuicao t-student com 0025 de significanciacom n minus 2 graus de liberdade e n e o numero total de observacoes Nossoexemplo β 2 = 3007 e dp(β 2) = 013 por tanto t0 = 2313 e comparadocom o valor da tabela da t-student com 63 gl e com α2 = 0025 sendo estevalor igual 19983
227 Tipos de erro
Ocorre o erro tipo I (α) ao se rejeitar a hipotese de nulidade quandodeveria aceita-la Por outro lado quando se aceita a hipotese de nulidadequando deveria rejeita-la comete-se o erro tipo II (β ) Nas duas situacoestomou-se uma decisao errada O interesse e a minimizacao dos erros tipo Ie II que na pratica so e possıvel aumentando-se o tamanho da amostra Porrazoes diversas o aumento do tamanho da amostra muitas vezes torna-se im-praticavel A gravidade do erro tipo I e distinta da do erro tipo II quando seconsegue identificar o erro mais grave a opcao e a minimizacao deste poremquando a probabilidade de ocorrencia de um tipo de erro diminui a do outroaumenta e vice versa Podemos observar este criterio na seguinte tabela
Nao rejeita rejeitaH0 verdadeira Correto (1 minus α) Erro do tipo I (α)H0 falsa Erro do tipo II (β ) Correto (1minus β )
Castaneda Daniel F N 2013 39
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4043
22 Metodologia 2 R E ECONOMETRIA
228 Regra de Decisao
Os pacotes ou plataformas estatısticas apresentam o valor observado dafuncao pivo e o p minus valor (Area de probabilidade esta relacionada comonıvel de significancia) assim a funcao pivo apresenta o valor numerico nafuncao de densidade da Estatıstica exemplo dentro da densidade da normalQuando o pvalor e menor do que α = 005 no caso do teste unicaudal (eα = 0025 no caso bicaudal) concluımos que nao ha evidencia suficiente paraaceitar H0 Caso contrario se o p minus valor for maior que α = 005 podemosconcluir que nao ha evidencia suficiente para rejeitar H0 Nosso exemplot0 = 2313 gt 1998 (1998 e valor da distribuicao t com 63 gl e nıvel designificancia bicaudal de 005) este valor localiza-se na cauda positiva da
distribuicao com 63 graus de liberdade(n minus 2 = 65 minus 2) Por outro lado o pminus valor lt 0025 por tanto nao ha evidencias para aceitar H0 em favor deaceitar que o coeficiente de inclinacao (ou tangente) e positiva No recorrerdo livro usaremos codigos para as medidas do pminusvalor que em geral apareceem todo comando summary() Como consequencia a linha que aparece aseguir sera excluıda das saıdas do R
Signif codes 0 0001 001 005 01 1
sera interpretada da seguinte maneira
bull 0 significancia menor que 0001
bull 0001 significancia menor que 001
bull 001 significancia menor que 005
bull 005 significancia menor que 01
bull 01 significancia menor que 1
229 Conclusoes
Esta parte do teste de hipoteses e explicada em conjunto O Estatıstico eo Economista que sao os profissionais da area em que as observacoes foramcoletadas decidem sobre as providencias futuras No exemplo podemosafirmar que a cada metro cubico a mais de consumo de agua sera pago emmedia 3 reais a mais No momento este valor pago pode parecer alto poremna falta de este liquido elementar este valor pode aumentar e por tantosofrera mudancas
Castaneda Daniel F N 2013 40
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4143
23 Previs˜ oes 2 R E ECONOMETRIA
23 Previsoes
Muitas vezes estamos interessados em determinar o que acontece quandouma quantidade de consumo de agua em m3 e utilizada e qual o valor pagoem reais Por exemplo se nosso interesse e saber quanto sera pago por 20m3
de consumo de agua em uma residencia A conta a realizar eValor pago = minus12365 + 3007 lowast 20 = 47775 reaisA interpretacao deste valor e em media o valor pago em reais por 20m3 deagua consumida e de aproximadamente 478 reais
231 Resıduos
Uma questao fundamental em econometria e identificar o comportamentodos resıduos de um modelo Considere Y o valor real pago e Y valor pagoestimado a partir de um modelo entao este erro e aleatorio e definido por
ϵi = Y i minus Y i (13)
A abordagem mais formal dos erros e feita nos proximos capıtulosUma questao importante e determinar qual o comportamento da estima-tiva destes erros aos quais chamamos de resıduos Para determinar a nor-malidade dos resıduos realizamos o teste de Jarque Bera com a funcao
jarqueberatest() da biblioteca tseries com o seguinte grafico
minus2 minus1 0 1 2
minus 5
0
5
1 0
resiacuteduos do modelo valor= f(consumo)
Theoretical Quantiles
S a m p l e Q u a n t i l e s
Figura 11 Normalidade dos resıduos
Castaneda Daniel F N 2013 41
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4243
24 Exercıcios REFER ENCIAS
24 Exercıcios
1 Por que a econometria precisa ser uma disciplina autonoma
2 Que e econometria
3 Pesquise dados de corte transversal corte longitudinal e de painel
4 Construa uma metodologia econometrica para o consumo familiar emfuncao da renda familiar (linear)
5 No item anterior e possıvel encontrar uma relacao quadratica
6 Quais sao os pressupostos basicos de um modelo de regressao linear
simples
7 Como e chamado o parametro de inclinacao ou tangente num modelode regressao linear simples em econometria
8 Que e o projeto R
9 R e um programa econometrico
Referencias
[1] Albert Jim (2009) Bayesian computation with R Editora SpringerSecond Edition New York USA
[2] Borde Arvind (1992) TEX by example A beginneracutes guide Ed Aca-demic Press Professional United States of America
[3] Carneiro Orlando (1997) Econometria Bacute asica Teoria e Aplicac˜ oes Editora Atlas Segunda Edicao son Paulo
[4] Conover W J (1999) Practical nonparametric statistics 3ed NewYork
[5] Cribari Neto F (2002) C for Econometricians conputational Econo-
mics 14 p135-149
[6] Dalgaard Peter(2008) Introductory Statistics with R Editora SpringerSecond Edition New York USA
[7] Ehlers Ricardo(2007) Analise de series Temporais Universidade Fe-deral do Parana
Castaneda Daniel F N 2013 42
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4343
REFER ENCIAS REFER ENCIAS
[8] Frery Alejandro Cribari-Neto Francisco(2011)Elementos de
Estatıstica conputacional Usando Plataformas de Software Li-vreGratuito Publicacoes Matematicas Editora IMPA
[9] Gujarati Damodar N (2000) Econometria Bacute asica Makron Books Ter-ceira Edicao son Paulo
[10] Knuth DE (1981)The Art of conputer Programming Third EditionVolume 2 Seminumerical Algorithms Addison-Wesley Publishingconpany Massachusetts
[11] Korgi Rodrigo de Castro (2003) El universo LAT E X Editora Facultadde Ciencias Segunda Edicao Bogota
[12] Krawczyk H How to Predict Congruential Generators InJournal of Algorithms V 13 N 4 1992
[13] LrsquoEcuyer P (2001) Software for uniform random number generationdistinguishing the good and the bad In Proceedings of the 2001 WinterSimulation Conference
[14] Maindonald John Braun W John(2010) Data analysis and graphics using R an example-based approach Cambridge University Press NewYork USA
[15] Mingoti(2005)Analise De Dados Atraves De Metodos De Estatistica Multivariada - Uma Abordagem Aplicada Editora UFMG Belo Hori-zonte
Castaneda Daniel F N 2013 43
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1543
113 Autovalores e autovetores 1 INICIANDO O R
[5] 2 8 5
[6] 3 2 8
cbind(1c)
[1] [2] [3] [4]
[1] 1 3 5 1
[2] 1 2 7 5
[3] 1 4 2 9
rbind(1d)
[1] [2] [3]
[1] 1 1 1
[2] 2 5 8
[3] 2 8 5
[4] 3 2 8
113 Autovalores e autovetores
ev=eigen(c) calcula autovalores e autovetores
ev
$values
[1] 13265694+0000000i 2867153+1646172i 2867153-1646172i
$vectors[1] [2] [3]
[1] 03799264+0i 07884141+00000000i 07884141+00000000i
[2] 06480231+0i 00745376+03051027i 00745376-03051027i
[3] 06600924+0i -04774265-02276482i -04774265+02276482
det(c)
[1] 145
det(d)
[1] -57
114 Data frame ou construtor de dados
Suponha um conjunto de dados com tres variaveis sexo (1=homem0=mulher) peso em quilogramas e salario em reais por dia de 12 indivıduosPara calcular a media o resumo de estatısticas descritivas e um grafico (plot)
Castaneda Daniel F N 2013 15
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1643
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1743
116 Func˜ ao readtable() 1 INICIANDO O R
attach(ind)
peso
[1] 67 60 62 69 54 59 57 67 60 65 59 55
salario
[1] 59 40 45 65 55 45 48 67 65 68 62 45
sex
[1] 1 0 0 1 0 0 0 1 1 1 1 0
detach(ind)
salario
Erro objeto rsquosalariorsquo n~ao encontrado
A funcao attach e detach pode ser usada no somente em arquivo dedados dos pacotes do R se nao tambem para listas e data frame
116 Funcao readtable()
Um amplo conjunto de arquivos com diferentes extensoes pode ser lidopor esta funcao
1161 Arquivos com extensao txt
Considere as seguintes variaveis x1 idade dos funcionarios x2 sexo
(1 homem 0 mulher) x3 anos de experiencia na funcao x4 estado civilx5 numero de filhos x6 nota de 0 minus 10 de um teste de avaliacao deconhecimento na sua area x7 teste psicotecnico de 0 a 50 x8 satisfacaocom a vida pessoal estes dados em bloco de notas com extensao txt obtidosde Mingoti 2005 Ver dados na integra no apendice
funcao=readtable(functxtheader=T)
funcao
grupo idade sexo ecivil nfilhos aexper tpsico tconhec satisf
1 0 24 1 1 0 2 77 360 1
2 0 29 1 1 0 4 79 360 13 0 38 1 0 1 6 86 408 0
107 0 24 1 1 0 2 73 360 0
108 0 27 1 0 0 3 74 360 1
109 1 42 1 0 2 14 99 440 1
Castaneda Daniel F N 2013 17
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1843
117 Script com extens˜ ao R 1 INICIANDO O R
Considere os dados de consumo de agua de uma residencia durante
o perıodo de 1205 a 0411 Com as seguintes variaveis valor em reaisconsumo em m3 dias de consumo e construindo o imovel (1sim 2nao)Dados proprios do autor Ver dados na integra no apendice
ca=readtable(consumoagua2txtheader=T) disponıvel em meus documentos
ca
dado valor consumo diasconsumo Construindo
1 1 1476 11 30 0
2 2 1347 10 31 0
64 64 3439 14 31 1
65 65 2221 11 32 0
Observacao use o comando choose() para escolher um conjunto dedados de um diretorio especifico no computador podemos usar
datalt-readtable(filechoose()header=T)
117 Script com extensao R
Exemplo com extensao R lida por readtable com dados do proprio R
exemplo=readtable(filechoose()header=T) dadosrR em aula 3exemplo
dado valor
1 1 115
2 2 117
3 3 118
4 4 119
5 5 127
118 Funcao scan()
A funcao scan tambem pode incluir elementos no R
scan()
1 12
2 13
3 14
Castaneda Daniel F N 2013 18
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1943
119 Func˜ ao sample 1 INICIANDO O R
4 15
5
Read 4 items
[1] 12 13 14 15
Use a funcao scan() para ingressar dados diretamente na plataforma R
119 Funcao sample
Usa-se para escolher aleatoriamente uma amostra de um conjunto deobservacoes ou uma base de dados Como exemplo considere uma amostrade 8 observacoes dos primeiros 20 do banco de dados de consumo de agua
(ca)setseed(10)
ca20=ca[sample(1208)]
ca20
dado valor consumo diasconsumo Construindo
11 11 3153 16 31 1
6 6 1347 10 32 0
8 8 1347 10 30 0
12 12 3755 18 32 1
2 2 1347 10 31 0
4 4 5275 22 33 1
15 15 3755 18 32 0
14 14 1648 11 30 0
120 Rcmdr
Para importar dados do SPSS STATISTICA MINITAB EXCEL TXTetc podemos usar o pacote livre Rcmdr ja disponıvel na biblioteca
library(Rcmdr)
este pacote trabalha via janelas para maior comodidade
121 Dados disponıveis no R
R possuı mais de 100 conjunto de dados alocados no pacote dataset quepodem ser chamados diretamente ( sem extensao) com a funcao data
data()
Castaneda Daniel F N 2013 19
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2043
122 Modificando e editando dados 1 INICIANDO O R
No R pode-se acessar a conjunto de dados de outros pacotes disponıveis
na sua biblioteca Se por acaso esta instalado o pacote lmtest o conjuntode dados ativo neste pacote pode ser chamado da seguinte maneira
data(package=lmtest)
122 Modificando e editando dados
Considere o conjunto de dados anterior Para modificar este conjuntosera disponibilizado uma tela de editor de dados a seguir
xnovo=edit(wagespackage=lmtest)
Para editar um conjunto de dados novo podemos usar a funcao edit daseguinte forma
xn=edit(dataframe())
123 Exportando dados do R para o Excel
Para exportar uma coluna de dados por exemplo o valor pago no con-sumo de agua executamos no R
writeClipboard(ascharacter(valor))
Na tela do Excel usar o comando colar Suponha que esta interessadoem exportar o conjunto de dados ca consumo de agua numa residenciadisponıveis no R para transferir este conjunto de dados use o seguintecomando
writetable(caclipboardsep=tcolnames=NA)
Na tela do Excel faca Ctrl+V ou um click em colar
124 Funcoes apply tapply sapply e lapply
A funcao apply calcula medidas estatısticas por linhas ou por colunas
e a funcao sapply calcula apenas por coluna A diferenca da funcao applyda funcao tapply e que esta ultima calcula medidas estatısticas por estratosConsidere os dados de consumo de agua de uma residencia
apply(ca2mean)
dado valor consumo diasconsumo Construindo
330000000 255690769 126153846 307076923 02615385
Castaneda Daniel F N 2013 20
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2143
125 Distribuic˜ oes de probabilidade 1 INICIANDO O R
tapply(valorConstruindomean)
0 1
2115271 3803882
sapply(camean)
dado valor consumo diasconsumo Construindo
330000000 255690769 126153846 307076923 02615385
lapply(camean) verificar
125 Distribuicoes de probabilidade
R proporciona uma serie de funcoes para variaveis aleatorias estatısticasconhecidas dentro destas funcoes temos distribuicao aleatorizacao proba-
bilidade e quantidadeDistribuicao nome no R argumentos adicionaisbeta beta shape1shap2npcbinomial binom sizeprobcauchy cauchy locationscalechi-quadrado chisq dfnpcexponencial exp rateF f df1df2npcgamma gamma shapescalegeometric geom probhypergeometric hyper mnk
log-normal lnorm meanlogsdloglogistic logis locationscalenegativa binomial nbinom sizeprobnormal norm meansdpoisson pois lambdat-student t dfncpuniforme unif minmaxweibull weibull shapescalewilcoxon wilcoxon mn
Nomes iniciando com ldquodrdquocalculara a densidade da funcao ldquoprdquoparacalcular a probabilidade ou funcao acumulada ldquoqrdquopara o valor quantılico eldquorrdquopara simulacao de numeros aleatoriosExemplos
rpois(105) 10 numeros aleatorios da dist poisson com parametro 5
[1] 3 2 3 1 8 6 1 3 2 3
Castaneda Daniel F N 2013 21
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2243
126 Algoritmos de programac˜ ao no R 1 INICIANDO O R
rnorm(5) 5 numeros aleatorios da normal padr~ao
[1] 004659011 -005019082 -128753167 115411245 -137573809
qt(09550) valor quantilico da t com 50 gl
[1] 1675905
qchisq(0951) valor da qui-quadrado
com 95 de confianc a e 1 g l
[1] 3841459
dpois(45) densidade da dist poisson x=4 parametro=5
[1] 01754674
ppois(45) P(xlt=4) parametro=5
[1] 04404933
126 Algoritmos de programacao no R
R e uma linguagem de programacao orientada a objetos que alem de ana-lisar dados tem sua propria programacao aqui usaremos esta programacaopara analises de estatısticas e econometria Para maiores detalhes podemospesquisar em Venables and Ripley (2000 e 2002) Voce pode estender afuncionalidade do R criando novas funcoes ou programando por exemplo
medianamediarazao lt- function(x)
return(median(x)mean(x))
setseed(20)
z = rexp(10000)
medianamediarazao(z)
[1] 06925193
Construindo a mediana
mediana=function(x)
oddeven=length(x)2
if (oddeven == 0) (sort(x)[length(x)2]+sort(x)[1+ length(x)2])2
else sort(x)[ceiling(length(x)2)]
Construindo a media geometrica
mediageometrica = function (x) exp(mean(log(x)))
Construindo a media harmonica
Castaneda Daniel F N 2013 22
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2343
126 Algoritmos de programac˜ ao no R 1 INICIANDO O R
mediaharmonica=function (x) 1mean(1x)
Um algoritmo que envolva as medidas de tendencia central
medidascentrais = function(y medida)
switch(medida
media = mean(y)
mgeometrica = exp(mean(log(y)))
mharmonica = 1mean(1y)
mediana = median(y)
stop(Medida n~ao inclusa))
medidascentrais(ymedia)
Gerando uma distribuicao uniforme para o lancamento de um dado
ndado=function(x) return(round(runif(x)6+05))
hist(ndado(100000)
Com o comando sample podemos realizar este mesmo experimento daseguinte maneira
gerando=sample(16 100000 replace=TRUE)
hist(gerando)
Considere o seguinte objeto c
c=c(122715365)
Para determinar que classe de objeto e o vetor c podemos identificarusando os seguintes comandos
ischaracter(c)
[1] FALSE
isnumeric(c)
[1] TRUE
A este objeto c podemos a signar nome a cada valor definido da seguinteforma
names(c)=c(abcdef)
c
a b c d e f
10 22 70 150 30 65
Castaneda Daniel F N 2013 23
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2443
127 Lacos no R 1 INICIANDO O R
Podemos associar uma comparacao logica com o vetor c da seguinte
forma
cgt3
a b c d e f
FALSE FALSE TRUE TRUE FALSE TRUE
Quando estamos diante de uma matriz podemos definir os nomes dascolunas com colnames() e os nomes das linhas com rownames() veja oexemplo
d=matrix(c(223582858)33)
colnames(d)=c(c1c2c3)
rownames(d)=c(1o2o3o)
d
c1 c2 c3
1o 2 5 8
2o 2 8 5
3o 3 2 8
A matriz d e entendida como um conjunto de dados que podem serassociados as linhas e as colunas Para determinar se ha associacao entrelinhas e colunas o teste utilizado pode se o qui-quadrado com a funcaochisqtest()
127 Lacos no R
Em algumas situacoes variaveis contınuas podem ser transformadas em variaveisordinais ou dummy para realizar estas operacoes o R proporciona varioslacos como else if ou ifelseExemplo para construir variaveis binarias considere o consumo de aguaonde consumo menor ou igual a 10 m3 e zero e acima de 10 m3 e 1 Ovalor de consumo sendo zero se o valor e menor ou igual a 20 reais e 1 casocontrario
consumoc=numeric(length(consumo))
for(i in 1length(consumo))if (consumo[i]lt=10) consumoc[i]=0
else consumoc[i]=1
valorc=numeric(length(valor))
for(i in 1length(valor))if (valor[i]lt=20) valorc[i]=0 else valorc[i]=1
Castaneda Daniel F N 2013 24
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2543
128 A func˜ ao cut() 1 INICIANDO O R
Nota Podemos construir os lacos considerando a condicao como texto
exemplo consumoc[i]=rdquo[0minus 10]rdquo Comando alternativo de construcao
consumoc2=ifelse(consumolt=10[0-10]Acima de 10)
valorc2=ifelse(valorlt=20[0-20]Acima de 20)
limitacao deste laco e que utilizado apenas para duas condicoes Para lacoscom mais de duas condicoes podemos usar os seguintes comandos
valorc3=numeric(length(valor))
for(i in 1length(valor))if (valor[i]lt20) valorc3[i]=[0-20)
else if (valor[i]lt30)
valorc3[i]=[20-30) else valorc3[i]=[30 a +
table(valorc3)
128 A funcao cut()
Alguma funcoes usam lacos para criar novas variaveis categoricas no exem-plo de valor pago em reais pelo consumo de agua podemos construir cate-gorias por quartis de 25 50 75 1 da seguinte maneira
q=cut(valorquantile(valor) includelowest=T)
table(q)
q
[135165] (165222] (222327] (327693]
17 16 16 16
Outras formas podem ser usando intervalos a criterio pessoal no exemplo aseguir consideramos com valor mınimo 13 e valor maximo 70 com amplitudedo intervalo de 19 e com classes fechadas no mınimo e aberto no maximo
valr=cut(valmseq(137019)right=Fincludeupper=T)
table(valr)
valr
[1332) [3251) [5170)
48 15 2
129 Criando funcoes Teste que compara duas medias
Como exemplo implementamos a estatıstica de comparacao de duasamostras independentes
Castaneda Daniel F N 2013 25
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2643
130 Coeficiente de regressao 1 INICIANDO O R
testeduas lt- function(y1 y2)
+ n1 lt- length(y1) n2 lt- length(y2)
+ yb1 lt- mean(y1) yb2 lt- mean(y2)
+ s1 lt- var(y1) s2 lt- var(y2)
+ s lt- ((n1-1)s1 + (n2-1)s2)(n1+n2-2)
+ tst lt- (yb1 - yb2)sqrt(s(1n1 + 1n2))
+ tst
+
x=runif(20)
y=rnorm(20)
testeduas(xy)
[1] 2874636
Uma forma alternativa e usando a funcao ttest()
ttest(xy)
Welch Two Sample t-test
data x and y
t = 28746 df = 21784 p-value = 0008858
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
01846283 11429380sample estimates
mean of x mean of y
05539270 -01098562
130 Coeficiente de regressao
Implementando o calculo da tangente (inclinacao) do coeficiente no mo-delo de regressao linear simples
mq1lt- function(X y)
+ X lt- qr(X)
+ qrcoef(X y)+
mq1(xy)
[1] -008755885
Castaneda Daniel F N 2013 26
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2743
131 Teste Qui- Quadrado 1 INICIANDO O R
131 Teste Qui- Quadrado
Util para associar linhas e colunas considere os dados em d com as se-guintes hipotesesH0 nao ha associacao entre linhas e colunasHa ha associacao entre linhas e colunas
chisqtest(d)
Pearsonrsquos Chi-squared test
data d
X-squared = 46497 df = 4 p-value = 03252
Warning message
In chisqtest(d) Aproximac~ao Qui-quadrado pode estar incorreta
Para um nıvel α = 0 05 de significancia podemos afirmar que nao haevidencias para afirmar que a associacao entre linhas e colunas (linhas ecolunas sao independentes) Um outro exemplo do uso da distribuicao Qui-quadrado e verificar se um conjunto de dados provem de uma determinadadistribuicao teorica
chisqtest(c)
Chi-squared test for given probabilities
data c
X-squared = 22549 df = 5 p-value = 00004116
Pelo p-value podemos afirmar que a 0 05 de significancia nao ha evi-dencias para afirmar que a distribuicao dos numeros em c sejam uniformesPara implementar este teste de associacao no exemplo de consumo de aguaconsiderando a classificacao mediante lacos (ver lacos no R) entre consumoce valorc temos
table(consumocvalorc)
valorc
consumoc 0 1
0 24 0
Castaneda Daniel F N 2013 27
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2843
132 Teste t - student 1 INICIANDO O R
1 3 38
chisqtest(consumocvalorc)$expected
chisqtest(consumocvalorc)$observed
chisqtest(consumocvalorc)
Pearsonrsquos Chi-squared test with Yatesrsquo continuity correction
data consumoc and valorc
X-squared = 498015 df = 1 p-value = 1701e-12
barplot(table(consumocvalorc) beside=T)
Concluimos que ha associacao entre consumo de agua e o valor pago em
reais
132 Teste t - student
O teste mais usado pelos estatısticos e util para comparar medias deduas amostras tanto independente como emparelhadasExemplo considere as exportacoes mensais (FOB-US) do Brasil durante osanos de 2009 minus 2010 Apos digitacao das observacoes temos
exp2009
[1] 9781920 9586406 11809225 12321617 11984585 14467785 14141930
[8] 13840850 13863222 14081686 12652892 14462624
exp2010[1] 1130507 1219724 1572750 1516121 1770250 1709391 1767292 1923625
[9] 1883279 1838042 1768733 2091814
H0 A medias anuais das exportacoes durante 2009 e 2010 e a mesmaHa CC
ttest(exp2009exp2010paired = FALSE)
Welch Two Sample t-test
data exp2009 and exp2010
t = -42813 df = 18202 p-value = 00004394
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-6075666 -2077757
sample estimates
mean of x mean of y
Castaneda Daniel F N 2013 28
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2943
133 Teste F 1 INICIANDO O R
1274956 1682627
Conclusao nao ha evidencias para aceitar que a media das exportacoesde 2009 e 2010 e a mesma
Quando um conjunto de dados e dado em formato de matriz (dataframe)podemos realizar o teste t de uma coluna em funcao da outra por exemplono consumo de agua queremos testar a hipotese nula H0 o valor de con-sumo de agua e o mesmo construindo ou nao versus a hipotese alternativaHa Caso contrario
attach(ca)
ttest(valor~Construindo)
Welch Two Sample t-test
data valor by Construindo
t = -58383 df = 21731 p-value = 7465e-06
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-2288867 -1088356
sample estimates
mean in group 0 mean in group 1
2115271 3803882
Concluımos que nao ha evidencias para aceitar que o valor de consumode agua e o mesmo quando estamos construindo ( p minus valor lt 005)
Exemplos adicionais podem ser comparando entre as variaveis clas-sificadas (ver secao de lacos) da seguinte forma
ttest(valor~consumoc)
ttest(consumo~valorc)
boxplot(consumo~valorc2 main=Consumo e valor pago em Reais)
boxplot(consumo~valorc3 main=Consumo e valor pago em Reais)
133 Teste F
Para determinar se ha a mesma variabilidade no valor de consumoquando estamos ou nao construindo utilizamos o teste F A hipotese nulae H0 O valor de consumo de agua tem a mesma variabilidade quandoconstruımos que quando nao construımos No R temos
Castaneda Daniel F N 2013 29
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3043
133 Teste F 1 INICIANDO O R
vartest(valor~Construindo)
F test to compare two variances
data valor by Construindo
F = 04834 num df = 47 denom df = 16 p-value = 005478
alternative hypothesis true ratio of variances is not equal to 1
95 percent confidence interval
0194815 1014916
sample estimates
ratio of variances
04834048
Concluımos que nao ha evidencias para rejeitar a hipotese nula por tanto
a variabilidade no valor de consumo e o mesmoO correspondente grafico (Box-plot) e apresentado a seguir
boxplot(valor~Construindo col=8 names=c(n~ao construc~ao construc~ao))
natildeo construccedilatildeo construccedilatildeo
2 0
3 0
4 0
5 0
6 0
7 0
Figura 4 Valor pago em reais no consumo de agua
Em alguns casos ha necessidade de identificar se a variabilidade dasexportacoes e a mesma comparando 2009 e 2010H0 As exportacoes de 2009 e 2010 tem a mesma variabilidade (dados men-sais coletados do site httpwwwipeadatagov)Ha CC
Castaneda Daniel F N 2013 30
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3143
134 Graficos 1 INICIANDO O R
vartest(exp2009exp2010)
F test to compare two variances
data exp2009 and exp2010
F = 03728 num df = 11 denom df = 11 p-value = 01166
alternative hypothesis true ratio of variances is not equal to 1
95 percent confidence interval
01073346 12951624
sample estimates
ratio of variances
03728482
Conclusao Nao houve mudancas na variabilidade das exportacoes de
2009 e 2010
134 Graficos
Considere os dados mensais das exportacoes do Brasil (FOB) durante2009 e 2010 para realizar um grafico de box-plot fazemos
boxplot(exp2009exp2010 main=exportac~oes do Brasil
names=c(20092010))
2009 2010
1 0 0 0 0
1 2 0 0 0
1 4 0 0 0
1 6 0 0 0
1 8 0 0 0
2 0
0 0 0
exportaccedilotildees do Brasil
Figura 5 Exportacoes FOB em dolares
Para o grafico da funcao acumulativa das exportacoes
plot(ecdf(exp2010) dopoint=FALSE verticals=TRUE
lty=3 xlim=c(1000023000))
lines(ecdf(exp2009) dopoint=FALSE verticals=TRUE
col=2)
Castaneda Daniel F N 2013 31
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3243
134 Graficos 1 INICIANDO O R
1 00 00 1 20 00 1 40 00 1 60 00 1 80 00 2 00 00 2 20 00
0 0
0 2
0 4
0 6
0 8
1 0
ecdf(exp2010)
x
F n ( x )
Figura 6 Funcao acumulada das exportacoes 2009-2010
Considere as exportacoes do Brasil um histograma e Q-Q plot sera
hist(exp main=Exportac~oes FOB-US col=8)
qqnorm(exp xlim=c(-55)ylim=c(-100021000))
qqline(exp)
Exportaccedilotildees FOBminusUS$
exp
F r e q u e n c y
0 5000 10000 15000 20000
0
5 0
1 0 0
1 5 0
minus4 minus2 0 2 4
0
5 0 0 0
1 0 0 0 0
1 5 0 0 0
2 0 0 0 0
Normal QminusQ Plot
Theoretical Quantiles
S a m p l e Q u a n t i l e s
Figura 7 Graficos das Exportacoes no Brasil 2001-2010
Para ativar alguns graficos pacotes sao necessarios exemplo
library(MASS)
Castaneda Daniel F N 2013 32
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3343
134 Graficos 1 INICIANDO O R
par(mfrow=c(21))
z = rnorm(500000)
hist(z prob=T)
curve(dnorm(x)add=T)
histscott(z prob=T)
Histogram of z
z
D e n s i t y
minus4 minus2 0 2 4
0 0
0 2
Histogram of x
z
D e n s i t y
minus4 minus2 0 2 4
0 0
0 2
0 4
Figura 8 Histograma de numeros aleatorios normais
boxcox(dist~speed data=cars) transformac~ao Box-Cox
minus2 minus1 0 1 2
minus 4 0 0
minus 3 5 0
minus 3 0 0
minus 2 5 0
λ
l o g minus
L i k e l i h o o d
95
Figura 9 Valor otimo na transformacao Box-Cox
Castaneda Daniel F N 2013 33
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3443
135 Tabelas 1 INICIANDO O R
Para ter um alcance maior sobre a capacidade grafica do R podemos
usar as seguintes funcoes
demo(graphics)
demo(image)
demo(persp)
demo(recursion)
demo(plotmath)
demo(package = packages(allavailable = TRUE))
135 Tabelas
Algumas tabelas estatısticas podem ser construıdas com a funcao table()estado=c(PBPEALSEBAMGESRJPBPEAL
SEBAMGESRJPBPEALSEBAMGESRJ
PBPEALSEBAMGESRJ)
estadof=factor(estado)
estadof
[1] PB PE AL SE BA MG ES RJ PB PE AL SE BA MG ES RJ PB PE AL SE BA
[22] MG ES RJ PB PE AL SE BA MG ES RJ
Levels AL BA ES MG PB PE RJ SE
setseed(10)
salarios=c(round(runif(32)100))
salarios
[1] 51 31 43 69 9 23 27 27 62 43 65 57 11 60 36 43 5 26 40 84 86 62 78 36 41
[26] 71 84 24 77 36 54 9
salariom=tapply(salariosestadofmean)
salariom
AL BA ES MG PB PE RJ SE
5800 4575 4875 4525 3975 4275 2875 5850
salariof=factor(cut(salariosbreaks=0+15(07)))
salariof
[1] (4560] (3045] (3045] (6075] (015] (1530] (1530] (1530] (6075]
[10] (3045] (6075] (4560] (015] (4560] (3045] (3045] (015] (1530]
[19] (3045] (7590] (7590] (6075] (7590] (3045] (3045] (6075] (7590]
[28] (1530] (7590] (3045] (4560] (015]
Levels (015] (1530] (3045] (4560] (6075] (7590]
table(salariofestadof)
estadof
Castaneda Daniel F N 2013 34
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3543
136 Comandos adicionais 2 R E ECONOMETRIA
salariof AL BA ES MG PB PE RJ SE
(015] 0 2 0 0 1 0 1 0
(1530] 0 0 1 1 0 1 1 1
(3045] 2 0 1 1 1 2 2 0
(4560] 0 0 1 1 1 0 0 1
(6075] 1 0 0 1 1 1 0 1
(7590] 1 2 1 0 0 0 0 1
table(salariofestadof)
estadof
salariof AL BA ES MG PB PE RJ SE
(015] 1 1 0 0 1 0 1 2
(1530] 0 0 1 1 0 0 1 1
(3045] 0 0 2 0 0 1 0 0
(4560] 2 0 1 0 0 1 0 0
(6075] 0 1 0 2 3 0 1 0
(7590] 0 1 0 1 0 2 0 1
(90105] 0 1 0 0 0 0 1 0
136 Comandos adicionais
Em situacoes onde a ausencia de informacao ou dados faltantes(missing)as funcoes do R precisam declarar esta ausencia com o comando narm=T
indicando que a informacao apresenta dados faltantes Exemplo
df=c(2NA58NA) O ultimo elemento esta ausente
mean(f) Comando padr~ao para calcular a media
[1] NA
mean(fnarm=T) Comando declarando a ausencia de elementos
[1] 5
2 R e Econometria
Dados economicos precisam de uma atencao matematica para dar fun-
damento a suas teorias Atualmente pelo avanco computacional nao habarreiras para serem aplicadas e torna-se ate divertida se definimos a plata-forma de trabalho computacional A econometria requer de uma abordagemdiferenciada pois faz uso de da teoria economica economia matematica es-tatıstica economica estatıstica matematica e inferencia estatıstica Esta
Castaneda Daniel F N 2013 35
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3643
21 Tipos de Dados 2 R E ECONOMETRIA
disciplina aproxima a Estatıstica da Economia onde a teoria economica for-
mula as hipoteses Por exemplo uma reducao de precos de uma mercadoriadevera aumentar a quantidade demandada dessa mercadoria considerandouma relacao inversa entre preco e quantidade demandada ou a despesa deconsumo per capita depende da renda per capita considerando uma relacaodireta ou seja a medida que a renda aumenta a despesa tende a aumentarOutro exemplo onde consideremos a area microeconomica consumo de aguade uma residencia e o valor pago e natural imaginar que ha uma relacaodireta entre consumo e valor pago pelo consumo Porem precisamos saberqual e quanto e esta forca de relacao por tanto o econometrista forneceesta informacao usando a inferencia estatıstica e a estatıstica economicaAs estimativas de esta relacao fica por conta de estatıstica matematica
Para completar e cerrar este circulo de disciplinas abordadas na Econo-metria precisamos utilizar uma ferramenta de calculo computacional quebrinde estabilidade precisao e rapidez nos seus resultados para superartudo isto utilizaremos o ambiente R A econometria surge como uma disci-plina autonoma em virtude de aglutinar todas estas areas do conhecimentomerecendo um estudo proprio
21 Tipos de Dados
Os tipos de dados sao
1 Dados de corte transversal (cross-section) sao dados de uma ou maisvariaveis coletadas no mesmo ponto do tempo Por exemplo os censosno Brasil sao coletados num instante do tempo No censo variaveisdemograficas sao exploradas como contagem da populacao numerode indivıduos em cada famılia idade dos integrantes da famılia ouvariaveis economicas como renda consumo tipo de moradia (alugadaou propria) etc estes dados sao adquiridas a cada decada pelo IBGE
2 Dados longitudinais ou de series temporais sao caracterizadas porobservacoes ao longo do tempo No Brasil um site que disponibilizadados desta natureza e o IPEADATA
3 Dados de painel e uma mistura de dados de corte transversal e longi-tudinais ou ao longo do tempo estudamos o comportamento de unida-des individuais Por exemplo series mensal do ındice de precos serieanuais do produto interno bruto (PIB) ou serie anual da balanca co-mercial dos municıpios do Brasil considerando cada municıpio comounidades individuais
Castaneda Daniel F N 2013 36
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3743
22 Metodologia 2 R E ECONOMETRIA
22 Metodologia
Os passos da metodologia econometrica tradicional ou classica se iniciadesde a formulacao da hipotese ate as conclusoes em geral sao
221 Hipotese
Como referencia usaremos a hipotese nula H 0 a qual nulifica qualquerdiferenca e a hipoteses alternativa H a aquela que contradiz total ou par-cialmente a hipotese nula Exemplo
1 H 0 nao existe uma relacao entre consumo de agua e valor pago pela
mesma
2 Ha existe uma relacao entre consumo de agua e valor pago pelamesma
A hipotese alternativa pode ser dividida em tres possibilidades no exem-plo do consumo de agua pode ser dividida em existe alguma relacao oua relacao e negativa ou a relacao e positiva A primeira denomina-se dehipotese alternativa com teste bicaudal o segundo de teste unicaudal a es-querda e finalmente o ultimo com teste unicaudal a direita Nosso exemploconsidere H a existe alguma relacao (teste bicaudal)
222 Modelo matematico
Usaremos uma funcao de consumo simples
Y = β 1 + β 2X (11)
A variavel dependente Y valor pago pelo consumo e estimado por Y A variavel independente e X consumo de agua em m3 β 1 representa ovalor pago quando nao ha consumo de agua Nosso interesse e determinara tangente ou a variacao pelo consumo β 2
223 Modelo econometrico do valor pago
O modelo matematico fornece a relacao determinıstica entre valor pagoem reais e consumo de agua porem as relacoes entre as variaveis economicassao em geral inexatas Assim ao longo do tempo no podemos esperar que ovalor pago e o consumo em m3 se situem exatamente numa linha reta isto
Castaneda Daniel F N 2013 37
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3843
22 Metodologia 2 R E ECONOMETRIA
por que alem do consumo outras variaveis afetam o valor pago por exemplo
os dias de consumo o perıodo de reforma da casa ou a inflacao podendoalterar o valor pago pelo consumo
224 Nıvel de significancia
Denominado de α frequentemente usa-se α = 005 em situacoes derisco usa-se α = 001 Em testes bicaudais divide-se α em duas partes elocalizam-se nos extremos da distribuicao de prova Para testes unicaudaislocaliza-se no extremo da distribuicao indicada pela hipotese alternativaNosso exemplo α = 005 e por tanto α2 = 0025
225 Obtencao de Dados
Considere 65 observacoes (mes a mes) do consumo de agua em umaresidencia e o valor pago em reais durante o perıodo de 122005 a 042011Ver dados no apendice A Um plot e apresentado a seguir
10 15 20
2 0
3 0
4 0
5 0
6 0
7 0
Valor pago em reais de consumo de aacutegua
Variaacutevel independenteConsumo em m3
V a r i aacute v e l d e p e n d e n t e V a l o r p a g o
Y = minus12365+3007X
Figura 10 Relacao causal entre consumo e valor pago em reais
Podemos observar visualmente que ha uma relacao positiva entre valorpago e consumo de agua onde a variacao pelo consumo ou variacao dovalor pago (tangente) β 2 cresce positivamente Precisamos verificar se estavariacao β 2 e estatisticamente diferente de zero (significativa)
Castaneda Daniel F N 2013 38
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3943
22 Metodologia 2 R E ECONOMETRIA
226 Estatıstica de prova
Denominada de funcao pivo ou estatıstica de teste No ambito pa-rametrico usa-se as estatısticas t student (amostras pequenas) quando ne grande e indiferente o uso da t student ou normal No exemplo para tes-tar qual a inclinacao da variacao pelo consumo de agua usamos a seguinteestatıstica
t0 =β 2
dp(β 2)asymp tnminus2gl (12)
onde t0 e o valor calculado da estatıstica t β 2 e a estimativa do parametro(variacao pelo consumo) β 2 dp(β 2) e o desvio padrao da estimativa doparametro β 2 o valor t0 segue uma distribuicao t-student com nminus2 graus deliberdade(gl) Os graus de liberdade e calculado diferenciando o tamanhoda amostra com o numero de parametro do modelo (n-p) O valor quantılicotnminus2gl(0025) corresponde a distribuicao t-student com 0025 de significanciacom n minus 2 graus de liberdade e n e o numero total de observacoes Nossoexemplo β 2 = 3007 e dp(β 2) = 013 por tanto t0 = 2313 e comparadocom o valor da tabela da t-student com 63 gl e com α2 = 0025 sendo estevalor igual 19983
227 Tipos de erro
Ocorre o erro tipo I (α) ao se rejeitar a hipotese de nulidade quandodeveria aceita-la Por outro lado quando se aceita a hipotese de nulidadequando deveria rejeita-la comete-se o erro tipo II (β ) Nas duas situacoestomou-se uma decisao errada O interesse e a minimizacao dos erros tipo Ie II que na pratica so e possıvel aumentando-se o tamanho da amostra Porrazoes diversas o aumento do tamanho da amostra muitas vezes torna-se im-praticavel A gravidade do erro tipo I e distinta da do erro tipo II quando seconsegue identificar o erro mais grave a opcao e a minimizacao deste poremquando a probabilidade de ocorrencia de um tipo de erro diminui a do outroaumenta e vice versa Podemos observar este criterio na seguinte tabela
Nao rejeita rejeitaH0 verdadeira Correto (1 minus α) Erro do tipo I (α)H0 falsa Erro do tipo II (β ) Correto (1minus β )
Castaneda Daniel F N 2013 39
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4043
22 Metodologia 2 R E ECONOMETRIA
228 Regra de Decisao
Os pacotes ou plataformas estatısticas apresentam o valor observado dafuncao pivo e o p minus valor (Area de probabilidade esta relacionada comonıvel de significancia) assim a funcao pivo apresenta o valor numerico nafuncao de densidade da Estatıstica exemplo dentro da densidade da normalQuando o pvalor e menor do que α = 005 no caso do teste unicaudal (eα = 0025 no caso bicaudal) concluımos que nao ha evidencia suficiente paraaceitar H0 Caso contrario se o p minus valor for maior que α = 005 podemosconcluir que nao ha evidencia suficiente para rejeitar H0 Nosso exemplot0 = 2313 gt 1998 (1998 e valor da distribuicao t com 63 gl e nıvel designificancia bicaudal de 005) este valor localiza-se na cauda positiva da
distribuicao com 63 graus de liberdade(n minus 2 = 65 minus 2) Por outro lado o pminus valor lt 0025 por tanto nao ha evidencias para aceitar H0 em favor deaceitar que o coeficiente de inclinacao (ou tangente) e positiva No recorrerdo livro usaremos codigos para as medidas do pminusvalor que em geral apareceem todo comando summary() Como consequencia a linha que aparece aseguir sera excluıda das saıdas do R
Signif codes 0 0001 001 005 01 1
sera interpretada da seguinte maneira
bull 0 significancia menor que 0001
bull 0001 significancia menor que 001
bull 001 significancia menor que 005
bull 005 significancia menor que 01
bull 01 significancia menor que 1
229 Conclusoes
Esta parte do teste de hipoteses e explicada em conjunto O Estatıstico eo Economista que sao os profissionais da area em que as observacoes foramcoletadas decidem sobre as providencias futuras No exemplo podemosafirmar que a cada metro cubico a mais de consumo de agua sera pago emmedia 3 reais a mais No momento este valor pago pode parecer alto poremna falta de este liquido elementar este valor pode aumentar e por tantosofrera mudancas
Castaneda Daniel F N 2013 40
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4143
23 Previs˜ oes 2 R E ECONOMETRIA
23 Previsoes
Muitas vezes estamos interessados em determinar o que acontece quandouma quantidade de consumo de agua em m3 e utilizada e qual o valor pagoem reais Por exemplo se nosso interesse e saber quanto sera pago por 20m3
de consumo de agua em uma residencia A conta a realizar eValor pago = minus12365 + 3007 lowast 20 = 47775 reaisA interpretacao deste valor e em media o valor pago em reais por 20m3 deagua consumida e de aproximadamente 478 reais
231 Resıduos
Uma questao fundamental em econometria e identificar o comportamentodos resıduos de um modelo Considere Y o valor real pago e Y valor pagoestimado a partir de um modelo entao este erro e aleatorio e definido por
ϵi = Y i minus Y i (13)
A abordagem mais formal dos erros e feita nos proximos capıtulosUma questao importante e determinar qual o comportamento da estima-tiva destes erros aos quais chamamos de resıduos Para determinar a nor-malidade dos resıduos realizamos o teste de Jarque Bera com a funcao
jarqueberatest() da biblioteca tseries com o seguinte grafico
minus2 minus1 0 1 2
minus 5
0
5
1 0
resiacuteduos do modelo valor= f(consumo)
Theoretical Quantiles
S a m p l e Q u a n t i l e s
Figura 11 Normalidade dos resıduos
Castaneda Daniel F N 2013 41
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4243
24 Exercıcios REFER ENCIAS
24 Exercıcios
1 Por que a econometria precisa ser uma disciplina autonoma
2 Que e econometria
3 Pesquise dados de corte transversal corte longitudinal e de painel
4 Construa uma metodologia econometrica para o consumo familiar emfuncao da renda familiar (linear)
5 No item anterior e possıvel encontrar uma relacao quadratica
6 Quais sao os pressupostos basicos de um modelo de regressao linear
simples
7 Como e chamado o parametro de inclinacao ou tangente num modelode regressao linear simples em econometria
8 Que e o projeto R
9 R e um programa econometrico
Referencias
[1] Albert Jim (2009) Bayesian computation with R Editora SpringerSecond Edition New York USA
[2] Borde Arvind (1992) TEX by example A beginneracutes guide Ed Aca-demic Press Professional United States of America
[3] Carneiro Orlando (1997) Econometria Bacute asica Teoria e Aplicac˜ oes Editora Atlas Segunda Edicao son Paulo
[4] Conover W J (1999) Practical nonparametric statistics 3ed NewYork
[5] Cribari Neto F (2002) C for Econometricians conputational Econo-
mics 14 p135-149
[6] Dalgaard Peter(2008) Introductory Statistics with R Editora SpringerSecond Edition New York USA
[7] Ehlers Ricardo(2007) Analise de series Temporais Universidade Fe-deral do Parana
Castaneda Daniel F N 2013 42
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4343
REFER ENCIAS REFER ENCIAS
[8] Frery Alejandro Cribari-Neto Francisco(2011)Elementos de
Estatıstica conputacional Usando Plataformas de Software Li-vreGratuito Publicacoes Matematicas Editora IMPA
[9] Gujarati Damodar N (2000) Econometria Bacute asica Makron Books Ter-ceira Edicao son Paulo
[10] Knuth DE (1981)The Art of conputer Programming Third EditionVolume 2 Seminumerical Algorithms Addison-Wesley Publishingconpany Massachusetts
[11] Korgi Rodrigo de Castro (2003) El universo LAT E X Editora Facultadde Ciencias Segunda Edicao Bogota
[12] Krawczyk H How to Predict Congruential Generators InJournal of Algorithms V 13 N 4 1992
[13] LrsquoEcuyer P (2001) Software for uniform random number generationdistinguishing the good and the bad In Proceedings of the 2001 WinterSimulation Conference
[14] Maindonald John Braun W John(2010) Data analysis and graphics using R an example-based approach Cambridge University Press NewYork USA
[15] Mingoti(2005)Analise De Dados Atraves De Metodos De Estatistica Multivariada - Uma Abordagem Aplicada Editora UFMG Belo Hori-zonte
Castaneda Daniel F N 2013 43
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1643
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1743
116 Func˜ ao readtable() 1 INICIANDO O R
attach(ind)
peso
[1] 67 60 62 69 54 59 57 67 60 65 59 55
salario
[1] 59 40 45 65 55 45 48 67 65 68 62 45
sex
[1] 1 0 0 1 0 0 0 1 1 1 1 0
detach(ind)
salario
Erro objeto rsquosalariorsquo n~ao encontrado
A funcao attach e detach pode ser usada no somente em arquivo dedados dos pacotes do R se nao tambem para listas e data frame
116 Funcao readtable()
Um amplo conjunto de arquivos com diferentes extensoes pode ser lidopor esta funcao
1161 Arquivos com extensao txt
Considere as seguintes variaveis x1 idade dos funcionarios x2 sexo
(1 homem 0 mulher) x3 anos de experiencia na funcao x4 estado civilx5 numero de filhos x6 nota de 0 minus 10 de um teste de avaliacao deconhecimento na sua area x7 teste psicotecnico de 0 a 50 x8 satisfacaocom a vida pessoal estes dados em bloco de notas com extensao txt obtidosde Mingoti 2005 Ver dados na integra no apendice
funcao=readtable(functxtheader=T)
funcao
grupo idade sexo ecivil nfilhos aexper tpsico tconhec satisf
1 0 24 1 1 0 2 77 360 1
2 0 29 1 1 0 4 79 360 13 0 38 1 0 1 6 86 408 0
107 0 24 1 1 0 2 73 360 0
108 0 27 1 0 0 3 74 360 1
109 1 42 1 0 2 14 99 440 1
Castaneda Daniel F N 2013 17
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1843
117 Script com extens˜ ao R 1 INICIANDO O R
Considere os dados de consumo de agua de uma residencia durante
o perıodo de 1205 a 0411 Com as seguintes variaveis valor em reaisconsumo em m3 dias de consumo e construindo o imovel (1sim 2nao)Dados proprios do autor Ver dados na integra no apendice
ca=readtable(consumoagua2txtheader=T) disponıvel em meus documentos
ca
dado valor consumo diasconsumo Construindo
1 1 1476 11 30 0
2 2 1347 10 31 0
64 64 3439 14 31 1
65 65 2221 11 32 0
Observacao use o comando choose() para escolher um conjunto dedados de um diretorio especifico no computador podemos usar
datalt-readtable(filechoose()header=T)
117 Script com extensao R
Exemplo com extensao R lida por readtable com dados do proprio R
exemplo=readtable(filechoose()header=T) dadosrR em aula 3exemplo
dado valor
1 1 115
2 2 117
3 3 118
4 4 119
5 5 127
118 Funcao scan()
A funcao scan tambem pode incluir elementos no R
scan()
1 12
2 13
3 14
Castaneda Daniel F N 2013 18
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1943
119 Func˜ ao sample 1 INICIANDO O R
4 15
5
Read 4 items
[1] 12 13 14 15
Use a funcao scan() para ingressar dados diretamente na plataforma R
119 Funcao sample
Usa-se para escolher aleatoriamente uma amostra de um conjunto deobservacoes ou uma base de dados Como exemplo considere uma amostrade 8 observacoes dos primeiros 20 do banco de dados de consumo de agua
(ca)setseed(10)
ca20=ca[sample(1208)]
ca20
dado valor consumo diasconsumo Construindo
11 11 3153 16 31 1
6 6 1347 10 32 0
8 8 1347 10 30 0
12 12 3755 18 32 1
2 2 1347 10 31 0
4 4 5275 22 33 1
15 15 3755 18 32 0
14 14 1648 11 30 0
120 Rcmdr
Para importar dados do SPSS STATISTICA MINITAB EXCEL TXTetc podemos usar o pacote livre Rcmdr ja disponıvel na biblioteca
library(Rcmdr)
este pacote trabalha via janelas para maior comodidade
121 Dados disponıveis no R
R possuı mais de 100 conjunto de dados alocados no pacote dataset quepodem ser chamados diretamente ( sem extensao) com a funcao data
data()
Castaneda Daniel F N 2013 19
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2043
122 Modificando e editando dados 1 INICIANDO O R
No R pode-se acessar a conjunto de dados de outros pacotes disponıveis
na sua biblioteca Se por acaso esta instalado o pacote lmtest o conjuntode dados ativo neste pacote pode ser chamado da seguinte maneira
data(package=lmtest)
122 Modificando e editando dados
Considere o conjunto de dados anterior Para modificar este conjuntosera disponibilizado uma tela de editor de dados a seguir
xnovo=edit(wagespackage=lmtest)
Para editar um conjunto de dados novo podemos usar a funcao edit daseguinte forma
xn=edit(dataframe())
123 Exportando dados do R para o Excel
Para exportar uma coluna de dados por exemplo o valor pago no con-sumo de agua executamos no R
writeClipboard(ascharacter(valor))
Na tela do Excel usar o comando colar Suponha que esta interessadoem exportar o conjunto de dados ca consumo de agua numa residenciadisponıveis no R para transferir este conjunto de dados use o seguintecomando
writetable(caclipboardsep=tcolnames=NA)
Na tela do Excel faca Ctrl+V ou um click em colar
124 Funcoes apply tapply sapply e lapply
A funcao apply calcula medidas estatısticas por linhas ou por colunas
e a funcao sapply calcula apenas por coluna A diferenca da funcao applyda funcao tapply e que esta ultima calcula medidas estatısticas por estratosConsidere os dados de consumo de agua de uma residencia
apply(ca2mean)
dado valor consumo diasconsumo Construindo
330000000 255690769 126153846 307076923 02615385
Castaneda Daniel F N 2013 20
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2143
125 Distribuic˜ oes de probabilidade 1 INICIANDO O R
tapply(valorConstruindomean)
0 1
2115271 3803882
sapply(camean)
dado valor consumo diasconsumo Construindo
330000000 255690769 126153846 307076923 02615385
lapply(camean) verificar
125 Distribuicoes de probabilidade
R proporciona uma serie de funcoes para variaveis aleatorias estatısticasconhecidas dentro destas funcoes temos distribuicao aleatorizacao proba-
bilidade e quantidadeDistribuicao nome no R argumentos adicionaisbeta beta shape1shap2npcbinomial binom sizeprobcauchy cauchy locationscalechi-quadrado chisq dfnpcexponencial exp rateF f df1df2npcgamma gamma shapescalegeometric geom probhypergeometric hyper mnk
log-normal lnorm meanlogsdloglogistic logis locationscalenegativa binomial nbinom sizeprobnormal norm meansdpoisson pois lambdat-student t dfncpuniforme unif minmaxweibull weibull shapescalewilcoxon wilcoxon mn
Nomes iniciando com ldquodrdquocalculara a densidade da funcao ldquoprdquoparacalcular a probabilidade ou funcao acumulada ldquoqrdquopara o valor quantılico eldquorrdquopara simulacao de numeros aleatoriosExemplos
rpois(105) 10 numeros aleatorios da dist poisson com parametro 5
[1] 3 2 3 1 8 6 1 3 2 3
Castaneda Daniel F N 2013 21
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2243
126 Algoritmos de programac˜ ao no R 1 INICIANDO O R
rnorm(5) 5 numeros aleatorios da normal padr~ao
[1] 004659011 -005019082 -128753167 115411245 -137573809
qt(09550) valor quantilico da t com 50 gl
[1] 1675905
qchisq(0951) valor da qui-quadrado
com 95 de confianc a e 1 g l
[1] 3841459
dpois(45) densidade da dist poisson x=4 parametro=5
[1] 01754674
ppois(45) P(xlt=4) parametro=5
[1] 04404933
126 Algoritmos de programacao no R
R e uma linguagem de programacao orientada a objetos que alem de ana-lisar dados tem sua propria programacao aqui usaremos esta programacaopara analises de estatısticas e econometria Para maiores detalhes podemospesquisar em Venables and Ripley (2000 e 2002) Voce pode estender afuncionalidade do R criando novas funcoes ou programando por exemplo
medianamediarazao lt- function(x)
return(median(x)mean(x))
setseed(20)
z = rexp(10000)
medianamediarazao(z)
[1] 06925193
Construindo a mediana
mediana=function(x)
oddeven=length(x)2
if (oddeven == 0) (sort(x)[length(x)2]+sort(x)[1+ length(x)2])2
else sort(x)[ceiling(length(x)2)]
Construindo a media geometrica
mediageometrica = function (x) exp(mean(log(x)))
Construindo a media harmonica
Castaneda Daniel F N 2013 22
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2343
126 Algoritmos de programac˜ ao no R 1 INICIANDO O R
mediaharmonica=function (x) 1mean(1x)
Um algoritmo que envolva as medidas de tendencia central
medidascentrais = function(y medida)
switch(medida
media = mean(y)
mgeometrica = exp(mean(log(y)))
mharmonica = 1mean(1y)
mediana = median(y)
stop(Medida n~ao inclusa))
medidascentrais(ymedia)
Gerando uma distribuicao uniforme para o lancamento de um dado
ndado=function(x) return(round(runif(x)6+05))
hist(ndado(100000)
Com o comando sample podemos realizar este mesmo experimento daseguinte maneira
gerando=sample(16 100000 replace=TRUE)
hist(gerando)
Considere o seguinte objeto c
c=c(122715365)
Para determinar que classe de objeto e o vetor c podemos identificarusando os seguintes comandos
ischaracter(c)
[1] FALSE
isnumeric(c)
[1] TRUE
A este objeto c podemos a signar nome a cada valor definido da seguinteforma
names(c)=c(abcdef)
c
a b c d e f
10 22 70 150 30 65
Castaneda Daniel F N 2013 23
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2443
127 Lacos no R 1 INICIANDO O R
Podemos associar uma comparacao logica com o vetor c da seguinte
forma
cgt3
a b c d e f
FALSE FALSE TRUE TRUE FALSE TRUE
Quando estamos diante de uma matriz podemos definir os nomes dascolunas com colnames() e os nomes das linhas com rownames() veja oexemplo
d=matrix(c(223582858)33)
colnames(d)=c(c1c2c3)
rownames(d)=c(1o2o3o)
d
c1 c2 c3
1o 2 5 8
2o 2 8 5
3o 3 2 8
A matriz d e entendida como um conjunto de dados que podem serassociados as linhas e as colunas Para determinar se ha associacao entrelinhas e colunas o teste utilizado pode se o qui-quadrado com a funcaochisqtest()
127 Lacos no R
Em algumas situacoes variaveis contınuas podem ser transformadas em variaveisordinais ou dummy para realizar estas operacoes o R proporciona varioslacos como else if ou ifelseExemplo para construir variaveis binarias considere o consumo de aguaonde consumo menor ou igual a 10 m3 e zero e acima de 10 m3 e 1 Ovalor de consumo sendo zero se o valor e menor ou igual a 20 reais e 1 casocontrario
consumoc=numeric(length(consumo))
for(i in 1length(consumo))if (consumo[i]lt=10) consumoc[i]=0
else consumoc[i]=1
valorc=numeric(length(valor))
for(i in 1length(valor))if (valor[i]lt=20) valorc[i]=0 else valorc[i]=1
Castaneda Daniel F N 2013 24
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2543
128 A func˜ ao cut() 1 INICIANDO O R
Nota Podemos construir os lacos considerando a condicao como texto
exemplo consumoc[i]=rdquo[0minus 10]rdquo Comando alternativo de construcao
consumoc2=ifelse(consumolt=10[0-10]Acima de 10)
valorc2=ifelse(valorlt=20[0-20]Acima de 20)
limitacao deste laco e que utilizado apenas para duas condicoes Para lacoscom mais de duas condicoes podemos usar os seguintes comandos
valorc3=numeric(length(valor))
for(i in 1length(valor))if (valor[i]lt20) valorc3[i]=[0-20)
else if (valor[i]lt30)
valorc3[i]=[20-30) else valorc3[i]=[30 a +
table(valorc3)
128 A funcao cut()
Alguma funcoes usam lacos para criar novas variaveis categoricas no exem-plo de valor pago em reais pelo consumo de agua podemos construir cate-gorias por quartis de 25 50 75 1 da seguinte maneira
q=cut(valorquantile(valor) includelowest=T)
table(q)
q
[135165] (165222] (222327] (327693]
17 16 16 16
Outras formas podem ser usando intervalos a criterio pessoal no exemplo aseguir consideramos com valor mınimo 13 e valor maximo 70 com amplitudedo intervalo de 19 e com classes fechadas no mınimo e aberto no maximo
valr=cut(valmseq(137019)right=Fincludeupper=T)
table(valr)
valr
[1332) [3251) [5170)
48 15 2
129 Criando funcoes Teste que compara duas medias
Como exemplo implementamos a estatıstica de comparacao de duasamostras independentes
Castaneda Daniel F N 2013 25
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2643
130 Coeficiente de regressao 1 INICIANDO O R
testeduas lt- function(y1 y2)
+ n1 lt- length(y1) n2 lt- length(y2)
+ yb1 lt- mean(y1) yb2 lt- mean(y2)
+ s1 lt- var(y1) s2 lt- var(y2)
+ s lt- ((n1-1)s1 + (n2-1)s2)(n1+n2-2)
+ tst lt- (yb1 - yb2)sqrt(s(1n1 + 1n2))
+ tst
+
x=runif(20)
y=rnorm(20)
testeduas(xy)
[1] 2874636
Uma forma alternativa e usando a funcao ttest()
ttest(xy)
Welch Two Sample t-test
data x and y
t = 28746 df = 21784 p-value = 0008858
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
01846283 11429380sample estimates
mean of x mean of y
05539270 -01098562
130 Coeficiente de regressao
Implementando o calculo da tangente (inclinacao) do coeficiente no mo-delo de regressao linear simples
mq1lt- function(X y)
+ X lt- qr(X)
+ qrcoef(X y)+
mq1(xy)
[1] -008755885
Castaneda Daniel F N 2013 26
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2743
131 Teste Qui- Quadrado 1 INICIANDO O R
131 Teste Qui- Quadrado
Util para associar linhas e colunas considere os dados em d com as se-guintes hipotesesH0 nao ha associacao entre linhas e colunasHa ha associacao entre linhas e colunas
chisqtest(d)
Pearsonrsquos Chi-squared test
data d
X-squared = 46497 df = 4 p-value = 03252
Warning message
In chisqtest(d) Aproximac~ao Qui-quadrado pode estar incorreta
Para um nıvel α = 0 05 de significancia podemos afirmar que nao haevidencias para afirmar que a associacao entre linhas e colunas (linhas ecolunas sao independentes) Um outro exemplo do uso da distribuicao Qui-quadrado e verificar se um conjunto de dados provem de uma determinadadistribuicao teorica
chisqtest(c)
Chi-squared test for given probabilities
data c
X-squared = 22549 df = 5 p-value = 00004116
Pelo p-value podemos afirmar que a 0 05 de significancia nao ha evi-dencias para afirmar que a distribuicao dos numeros em c sejam uniformesPara implementar este teste de associacao no exemplo de consumo de aguaconsiderando a classificacao mediante lacos (ver lacos no R) entre consumoce valorc temos
table(consumocvalorc)
valorc
consumoc 0 1
0 24 0
Castaneda Daniel F N 2013 27
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2843
132 Teste t - student 1 INICIANDO O R
1 3 38
chisqtest(consumocvalorc)$expected
chisqtest(consumocvalorc)$observed
chisqtest(consumocvalorc)
Pearsonrsquos Chi-squared test with Yatesrsquo continuity correction
data consumoc and valorc
X-squared = 498015 df = 1 p-value = 1701e-12
barplot(table(consumocvalorc) beside=T)
Concluimos que ha associacao entre consumo de agua e o valor pago em
reais
132 Teste t - student
O teste mais usado pelos estatısticos e util para comparar medias deduas amostras tanto independente como emparelhadasExemplo considere as exportacoes mensais (FOB-US) do Brasil durante osanos de 2009 minus 2010 Apos digitacao das observacoes temos
exp2009
[1] 9781920 9586406 11809225 12321617 11984585 14467785 14141930
[8] 13840850 13863222 14081686 12652892 14462624
exp2010[1] 1130507 1219724 1572750 1516121 1770250 1709391 1767292 1923625
[9] 1883279 1838042 1768733 2091814
H0 A medias anuais das exportacoes durante 2009 e 2010 e a mesmaHa CC
ttest(exp2009exp2010paired = FALSE)
Welch Two Sample t-test
data exp2009 and exp2010
t = -42813 df = 18202 p-value = 00004394
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-6075666 -2077757
sample estimates
mean of x mean of y
Castaneda Daniel F N 2013 28
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2943
133 Teste F 1 INICIANDO O R
1274956 1682627
Conclusao nao ha evidencias para aceitar que a media das exportacoesde 2009 e 2010 e a mesma
Quando um conjunto de dados e dado em formato de matriz (dataframe)podemos realizar o teste t de uma coluna em funcao da outra por exemplono consumo de agua queremos testar a hipotese nula H0 o valor de con-sumo de agua e o mesmo construindo ou nao versus a hipotese alternativaHa Caso contrario
attach(ca)
ttest(valor~Construindo)
Welch Two Sample t-test
data valor by Construindo
t = -58383 df = 21731 p-value = 7465e-06
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-2288867 -1088356
sample estimates
mean in group 0 mean in group 1
2115271 3803882
Concluımos que nao ha evidencias para aceitar que o valor de consumode agua e o mesmo quando estamos construindo ( p minus valor lt 005)
Exemplos adicionais podem ser comparando entre as variaveis clas-sificadas (ver secao de lacos) da seguinte forma
ttest(valor~consumoc)
ttest(consumo~valorc)
boxplot(consumo~valorc2 main=Consumo e valor pago em Reais)
boxplot(consumo~valorc3 main=Consumo e valor pago em Reais)
133 Teste F
Para determinar se ha a mesma variabilidade no valor de consumoquando estamos ou nao construindo utilizamos o teste F A hipotese nulae H0 O valor de consumo de agua tem a mesma variabilidade quandoconstruımos que quando nao construımos No R temos
Castaneda Daniel F N 2013 29
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3043
133 Teste F 1 INICIANDO O R
vartest(valor~Construindo)
F test to compare two variances
data valor by Construindo
F = 04834 num df = 47 denom df = 16 p-value = 005478
alternative hypothesis true ratio of variances is not equal to 1
95 percent confidence interval
0194815 1014916
sample estimates
ratio of variances
04834048
Concluımos que nao ha evidencias para rejeitar a hipotese nula por tanto
a variabilidade no valor de consumo e o mesmoO correspondente grafico (Box-plot) e apresentado a seguir
boxplot(valor~Construindo col=8 names=c(n~ao construc~ao construc~ao))
natildeo construccedilatildeo construccedilatildeo
2 0
3 0
4 0
5 0
6 0
7 0
Figura 4 Valor pago em reais no consumo de agua
Em alguns casos ha necessidade de identificar se a variabilidade dasexportacoes e a mesma comparando 2009 e 2010H0 As exportacoes de 2009 e 2010 tem a mesma variabilidade (dados men-sais coletados do site httpwwwipeadatagov)Ha CC
Castaneda Daniel F N 2013 30
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3143
134 Graficos 1 INICIANDO O R
vartest(exp2009exp2010)
F test to compare two variances
data exp2009 and exp2010
F = 03728 num df = 11 denom df = 11 p-value = 01166
alternative hypothesis true ratio of variances is not equal to 1
95 percent confidence interval
01073346 12951624
sample estimates
ratio of variances
03728482
Conclusao Nao houve mudancas na variabilidade das exportacoes de
2009 e 2010
134 Graficos
Considere os dados mensais das exportacoes do Brasil (FOB) durante2009 e 2010 para realizar um grafico de box-plot fazemos
boxplot(exp2009exp2010 main=exportac~oes do Brasil
names=c(20092010))
2009 2010
1 0 0 0 0
1 2 0 0 0
1 4 0 0 0
1 6 0 0 0
1 8 0 0 0
2 0
0 0 0
exportaccedilotildees do Brasil
Figura 5 Exportacoes FOB em dolares
Para o grafico da funcao acumulativa das exportacoes
plot(ecdf(exp2010) dopoint=FALSE verticals=TRUE
lty=3 xlim=c(1000023000))
lines(ecdf(exp2009) dopoint=FALSE verticals=TRUE
col=2)
Castaneda Daniel F N 2013 31
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3243
134 Graficos 1 INICIANDO O R
1 00 00 1 20 00 1 40 00 1 60 00 1 80 00 2 00 00 2 20 00
0 0
0 2
0 4
0 6
0 8
1 0
ecdf(exp2010)
x
F n ( x )
Figura 6 Funcao acumulada das exportacoes 2009-2010
Considere as exportacoes do Brasil um histograma e Q-Q plot sera
hist(exp main=Exportac~oes FOB-US col=8)
qqnorm(exp xlim=c(-55)ylim=c(-100021000))
qqline(exp)
Exportaccedilotildees FOBminusUS$
exp
F r e q u e n c y
0 5000 10000 15000 20000
0
5 0
1 0 0
1 5 0
minus4 minus2 0 2 4
0
5 0 0 0
1 0 0 0 0
1 5 0 0 0
2 0 0 0 0
Normal QminusQ Plot
Theoretical Quantiles
S a m p l e Q u a n t i l e s
Figura 7 Graficos das Exportacoes no Brasil 2001-2010
Para ativar alguns graficos pacotes sao necessarios exemplo
library(MASS)
Castaneda Daniel F N 2013 32
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3343
134 Graficos 1 INICIANDO O R
par(mfrow=c(21))
z = rnorm(500000)
hist(z prob=T)
curve(dnorm(x)add=T)
histscott(z prob=T)
Histogram of z
z
D e n s i t y
minus4 minus2 0 2 4
0 0
0 2
Histogram of x
z
D e n s i t y
minus4 minus2 0 2 4
0 0
0 2
0 4
Figura 8 Histograma de numeros aleatorios normais
boxcox(dist~speed data=cars) transformac~ao Box-Cox
minus2 minus1 0 1 2
minus 4 0 0
minus 3 5 0
minus 3 0 0
minus 2 5 0
λ
l o g minus
L i k e l i h o o d
95
Figura 9 Valor otimo na transformacao Box-Cox
Castaneda Daniel F N 2013 33
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3443
135 Tabelas 1 INICIANDO O R
Para ter um alcance maior sobre a capacidade grafica do R podemos
usar as seguintes funcoes
demo(graphics)
demo(image)
demo(persp)
demo(recursion)
demo(plotmath)
demo(package = packages(allavailable = TRUE))
135 Tabelas
Algumas tabelas estatısticas podem ser construıdas com a funcao table()estado=c(PBPEALSEBAMGESRJPBPEAL
SEBAMGESRJPBPEALSEBAMGESRJ
PBPEALSEBAMGESRJ)
estadof=factor(estado)
estadof
[1] PB PE AL SE BA MG ES RJ PB PE AL SE BA MG ES RJ PB PE AL SE BA
[22] MG ES RJ PB PE AL SE BA MG ES RJ
Levels AL BA ES MG PB PE RJ SE
setseed(10)
salarios=c(round(runif(32)100))
salarios
[1] 51 31 43 69 9 23 27 27 62 43 65 57 11 60 36 43 5 26 40 84 86 62 78 36 41
[26] 71 84 24 77 36 54 9
salariom=tapply(salariosestadofmean)
salariom
AL BA ES MG PB PE RJ SE
5800 4575 4875 4525 3975 4275 2875 5850
salariof=factor(cut(salariosbreaks=0+15(07)))
salariof
[1] (4560] (3045] (3045] (6075] (015] (1530] (1530] (1530] (6075]
[10] (3045] (6075] (4560] (015] (4560] (3045] (3045] (015] (1530]
[19] (3045] (7590] (7590] (6075] (7590] (3045] (3045] (6075] (7590]
[28] (1530] (7590] (3045] (4560] (015]
Levels (015] (1530] (3045] (4560] (6075] (7590]
table(salariofestadof)
estadof
Castaneda Daniel F N 2013 34
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3543
136 Comandos adicionais 2 R E ECONOMETRIA
salariof AL BA ES MG PB PE RJ SE
(015] 0 2 0 0 1 0 1 0
(1530] 0 0 1 1 0 1 1 1
(3045] 2 0 1 1 1 2 2 0
(4560] 0 0 1 1 1 0 0 1
(6075] 1 0 0 1 1 1 0 1
(7590] 1 2 1 0 0 0 0 1
table(salariofestadof)
estadof
salariof AL BA ES MG PB PE RJ SE
(015] 1 1 0 0 1 0 1 2
(1530] 0 0 1 1 0 0 1 1
(3045] 0 0 2 0 0 1 0 0
(4560] 2 0 1 0 0 1 0 0
(6075] 0 1 0 2 3 0 1 0
(7590] 0 1 0 1 0 2 0 1
(90105] 0 1 0 0 0 0 1 0
136 Comandos adicionais
Em situacoes onde a ausencia de informacao ou dados faltantes(missing)as funcoes do R precisam declarar esta ausencia com o comando narm=T
indicando que a informacao apresenta dados faltantes Exemplo
df=c(2NA58NA) O ultimo elemento esta ausente
mean(f) Comando padr~ao para calcular a media
[1] NA
mean(fnarm=T) Comando declarando a ausencia de elementos
[1] 5
2 R e Econometria
Dados economicos precisam de uma atencao matematica para dar fun-
damento a suas teorias Atualmente pelo avanco computacional nao habarreiras para serem aplicadas e torna-se ate divertida se definimos a plata-forma de trabalho computacional A econometria requer de uma abordagemdiferenciada pois faz uso de da teoria economica economia matematica es-tatıstica economica estatıstica matematica e inferencia estatıstica Esta
Castaneda Daniel F N 2013 35
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3643
21 Tipos de Dados 2 R E ECONOMETRIA
disciplina aproxima a Estatıstica da Economia onde a teoria economica for-
mula as hipoteses Por exemplo uma reducao de precos de uma mercadoriadevera aumentar a quantidade demandada dessa mercadoria considerandouma relacao inversa entre preco e quantidade demandada ou a despesa deconsumo per capita depende da renda per capita considerando uma relacaodireta ou seja a medida que a renda aumenta a despesa tende a aumentarOutro exemplo onde consideremos a area microeconomica consumo de aguade uma residencia e o valor pago e natural imaginar que ha uma relacaodireta entre consumo e valor pago pelo consumo Porem precisamos saberqual e quanto e esta forca de relacao por tanto o econometrista forneceesta informacao usando a inferencia estatıstica e a estatıstica economicaAs estimativas de esta relacao fica por conta de estatıstica matematica
Para completar e cerrar este circulo de disciplinas abordadas na Econo-metria precisamos utilizar uma ferramenta de calculo computacional quebrinde estabilidade precisao e rapidez nos seus resultados para superartudo isto utilizaremos o ambiente R A econometria surge como uma disci-plina autonoma em virtude de aglutinar todas estas areas do conhecimentomerecendo um estudo proprio
21 Tipos de Dados
Os tipos de dados sao
1 Dados de corte transversal (cross-section) sao dados de uma ou maisvariaveis coletadas no mesmo ponto do tempo Por exemplo os censosno Brasil sao coletados num instante do tempo No censo variaveisdemograficas sao exploradas como contagem da populacao numerode indivıduos em cada famılia idade dos integrantes da famılia ouvariaveis economicas como renda consumo tipo de moradia (alugadaou propria) etc estes dados sao adquiridas a cada decada pelo IBGE
2 Dados longitudinais ou de series temporais sao caracterizadas porobservacoes ao longo do tempo No Brasil um site que disponibilizadados desta natureza e o IPEADATA
3 Dados de painel e uma mistura de dados de corte transversal e longi-tudinais ou ao longo do tempo estudamos o comportamento de unida-des individuais Por exemplo series mensal do ındice de precos serieanuais do produto interno bruto (PIB) ou serie anual da balanca co-mercial dos municıpios do Brasil considerando cada municıpio comounidades individuais
Castaneda Daniel F N 2013 36
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3743
22 Metodologia 2 R E ECONOMETRIA
22 Metodologia
Os passos da metodologia econometrica tradicional ou classica se iniciadesde a formulacao da hipotese ate as conclusoes em geral sao
221 Hipotese
Como referencia usaremos a hipotese nula H 0 a qual nulifica qualquerdiferenca e a hipoteses alternativa H a aquela que contradiz total ou par-cialmente a hipotese nula Exemplo
1 H 0 nao existe uma relacao entre consumo de agua e valor pago pela
mesma
2 Ha existe uma relacao entre consumo de agua e valor pago pelamesma
A hipotese alternativa pode ser dividida em tres possibilidades no exem-plo do consumo de agua pode ser dividida em existe alguma relacao oua relacao e negativa ou a relacao e positiva A primeira denomina-se dehipotese alternativa com teste bicaudal o segundo de teste unicaudal a es-querda e finalmente o ultimo com teste unicaudal a direita Nosso exemploconsidere H a existe alguma relacao (teste bicaudal)
222 Modelo matematico
Usaremos uma funcao de consumo simples
Y = β 1 + β 2X (11)
A variavel dependente Y valor pago pelo consumo e estimado por Y A variavel independente e X consumo de agua em m3 β 1 representa ovalor pago quando nao ha consumo de agua Nosso interesse e determinara tangente ou a variacao pelo consumo β 2
223 Modelo econometrico do valor pago
O modelo matematico fornece a relacao determinıstica entre valor pagoem reais e consumo de agua porem as relacoes entre as variaveis economicassao em geral inexatas Assim ao longo do tempo no podemos esperar que ovalor pago e o consumo em m3 se situem exatamente numa linha reta isto
Castaneda Daniel F N 2013 37
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3843
22 Metodologia 2 R E ECONOMETRIA
por que alem do consumo outras variaveis afetam o valor pago por exemplo
os dias de consumo o perıodo de reforma da casa ou a inflacao podendoalterar o valor pago pelo consumo
224 Nıvel de significancia
Denominado de α frequentemente usa-se α = 005 em situacoes derisco usa-se α = 001 Em testes bicaudais divide-se α em duas partes elocalizam-se nos extremos da distribuicao de prova Para testes unicaudaislocaliza-se no extremo da distribuicao indicada pela hipotese alternativaNosso exemplo α = 005 e por tanto α2 = 0025
225 Obtencao de Dados
Considere 65 observacoes (mes a mes) do consumo de agua em umaresidencia e o valor pago em reais durante o perıodo de 122005 a 042011Ver dados no apendice A Um plot e apresentado a seguir
10 15 20
2 0
3 0
4 0
5 0
6 0
7 0
Valor pago em reais de consumo de aacutegua
Variaacutevel independenteConsumo em m3
V a r i aacute v e l d e p e n d e n t e V a l o r p a g o
Y = minus12365+3007X
Figura 10 Relacao causal entre consumo e valor pago em reais
Podemos observar visualmente que ha uma relacao positiva entre valorpago e consumo de agua onde a variacao pelo consumo ou variacao dovalor pago (tangente) β 2 cresce positivamente Precisamos verificar se estavariacao β 2 e estatisticamente diferente de zero (significativa)
Castaneda Daniel F N 2013 38
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3943
22 Metodologia 2 R E ECONOMETRIA
226 Estatıstica de prova
Denominada de funcao pivo ou estatıstica de teste No ambito pa-rametrico usa-se as estatısticas t student (amostras pequenas) quando ne grande e indiferente o uso da t student ou normal No exemplo para tes-tar qual a inclinacao da variacao pelo consumo de agua usamos a seguinteestatıstica
t0 =β 2
dp(β 2)asymp tnminus2gl (12)
onde t0 e o valor calculado da estatıstica t β 2 e a estimativa do parametro(variacao pelo consumo) β 2 dp(β 2) e o desvio padrao da estimativa doparametro β 2 o valor t0 segue uma distribuicao t-student com nminus2 graus deliberdade(gl) Os graus de liberdade e calculado diferenciando o tamanhoda amostra com o numero de parametro do modelo (n-p) O valor quantılicotnminus2gl(0025) corresponde a distribuicao t-student com 0025 de significanciacom n minus 2 graus de liberdade e n e o numero total de observacoes Nossoexemplo β 2 = 3007 e dp(β 2) = 013 por tanto t0 = 2313 e comparadocom o valor da tabela da t-student com 63 gl e com α2 = 0025 sendo estevalor igual 19983
227 Tipos de erro
Ocorre o erro tipo I (α) ao se rejeitar a hipotese de nulidade quandodeveria aceita-la Por outro lado quando se aceita a hipotese de nulidadequando deveria rejeita-la comete-se o erro tipo II (β ) Nas duas situacoestomou-se uma decisao errada O interesse e a minimizacao dos erros tipo Ie II que na pratica so e possıvel aumentando-se o tamanho da amostra Porrazoes diversas o aumento do tamanho da amostra muitas vezes torna-se im-praticavel A gravidade do erro tipo I e distinta da do erro tipo II quando seconsegue identificar o erro mais grave a opcao e a minimizacao deste poremquando a probabilidade de ocorrencia de um tipo de erro diminui a do outroaumenta e vice versa Podemos observar este criterio na seguinte tabela
Nao rejeita rejeitaH0 verdadeira Correto (1 minus α) Erro do tipo I (α)H0 falsa Erro do tipo II (β ) Correto (1minus β )
Castaneda Daniel F N 2013 39
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4043
22 Metodologia 2 R E ECONOMETRIA
228 Regra de Decisao
Os pacotes ou plataformas estatısticas apresentam o valor observado dafuncao pivo e o p minus valor (Area de probabilidade esta relacionada comonıvel de significancia) assim a funcao pivo apresenta o valor numerico nafuncao de densidade da Estatıstica exemplo dentro da densidade da normalQuando o pvalor e menor do que α = 005 no caso do teste unicaudal (eα = 0025 no caso bicaudal) concluımos que nao ha evidencia suficiente paraaceitar H0 Caso contrario se o p minus valor for maior que α = 005 podemosconcluir que nao ha evidencia suficiente para rejeitar H0 Nosso exemplot0 = 2313 gt 1998 (1998 e valor da distribuicao t com 63 gl e nıvel designificancia bicaudal de 005) este valor localiza-se na cauda positiva da
distribuicao com 63 graus de liberdade(n minus 2 = 65 minus 2) Por outro lado o pminus valor lt 0025 por tanto nao ha evidencias para aceitar H0 em favor deaceitar que o coeficiente de inclinacao (ou tangente) e positiva No recorrerdo livro usaremos codigos para as medidas do pminusvalor que em geral apareceem todo comando summary() Como consequencia a linha que aparece aseguir sera excluıda das saıdas do R
Signif codes 0 0001 001 005 01 1
sera interpretada da seguinte maneira
bull 0 significancia menor que 0001
bull 0001 significancia menor que 001
bull 001 significancia menor que 005
bull 005 significancia menor que 01
bull 01 significancia menor que 1
229 Conclusoes
Esta parte do teste de hipoteses e explicada em conjunto O Estatıstico eo Economista que sao os profissionais da area em que as observacoes foramcoletadas decidem sobre as providencias futuras No exemplo podemosafirmar que a cada metro cubico a mais de consumo de agua sera pago emmedia 3 reais a mais No momento este valor pago pode parecer alto poremna falta de este liquido elementar este valor pode aumentar e por tantosofrera mudancas
Castaneda Daniel F N 2013 40
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4143
23 Previs˜ oes 2 R E ECONOMETRIA
23 Previsoes
Muitas vezes estamos interessados em determinar o que acontece quandouma quantidade de consumo de agua em m3 e utilizada e qual o valor pagoem reais Por exemplo se nosso interesse e saber quanto sera pago por 20m3
de consumo de agua em uma residencia A conta a realizar eValor pago = minus12365 + 3007 lowast 20 = 47775 reaisA interpretacao deste valor e em media o valor pago em reais por 20m3 deagua consumida e de aproximadamente 478 reais
231 Resıduos
Uma questao fundamental em econometria e identificar o comportamentodos resıduos de um modelo Considere Y o valor real pago e Y valor pagoestimado a partir de um modelo entao este erro e aleatorio e definido por
ϵi = Y i minus Y i (13)
A abordagem mais formal dos erros e feita nos proximos capıtulosUma questao importante e determinar qual o comportamento da estima-tiva destes erros aos quais chamamos de resıduos Para determinar a nor-malidade dos resıduos realizamos o teste de Jarque Bera com a funcao
jarqueberatest() da biblioteca tseries com o seguinte grafico
minus2 minus1 0 1 2
minus 5
0
5
1 0
resiacuteduos do modelo valor= f(consumo)
Theoretical Quantiles
S a m p l e Q u a n t i l e s
Figura 11 Normalidade dos resıduos
Castaneda Daniel F N 2013 41
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4243
24 Exercıcios REFER ENCIAS
24 Exercıcios
1 Por que a econometria precisa ser uma disciplina autonoma
2 Que e econometria
3 Pesquise dados de corte transversal corte longitudinal e de painel
4 Construa uma metodologia econometrica para o consumo familiar emfuncao da renda familiar (linear)
5 No item anterior e possıvel encontrar uma relacao quadratica
6 Quais sao os pressupostos basicos de um modelo de regressao linear
simples
7 Como e chamado o parametro de inclinacao ou tangente num modelode regressao linear simples em econometria
8 Que e o projeto R
9 R e um programa econometrico
Referencias
[1] Albert Jim (2009) Bayesian computation with R Editora SpringerSecond Edition New York USA
[2] Borde Arvind (1992) TEX by example A beginneracutes guide Ed Aca-demic Press Professional United States of America
[3] Carneiro Orlando (1997) Econometria Bacute asica Teoria e Aplicac˜ oes Editora Atlas Segunda Edicao son Paulo
[4] Conover W J (1999) Practical nonparametric statistics 3ed NewYork
[5] Cribari Neto F (2002) C for Econometricians conputational Econo-
mics 14 p135-149
[6] Dalgaard Peter(2008) Introductory Statistics with R Editora SpringerSecond Edition New York USA
[7] Ehlers Ricardo(2007) Analise de series Temporais Universidade Fe-deral do Parana
Castaneda Daniel F N 2013 42
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4343
REFER ENCIAS REFER ENCIAS
[8] Frery Alejandro Cribari-Neto Francisco(2011)Elementos de
Estatıstica conputacional Usando Plataformas de Software Li-vreGratuito Publicacoes Matematicas Editora IMPA
[9] Gujarati Damodar N (2000) Econometria Bacute asica Makron Books Ter-ceira Edicao son Paulo
[10] Knuth DE (1981)The Art of conputer Programming Third EditionVolume 2 Seminumerical Algorithms Addison-Wesley Publishingconpany Massachusetts
[11] Korgi Rodrigo de Castro (2003) El universo LAT E X Editora Facultadde Ciencias Segunda Edicao Bogota
[12] Krawczyk H How to Predict Congruential Generators InJournal of Algorithms V 13 N 4 1992
[13] LrsquoEcuyer P (2001) Software for uniform random number generationdistinguishing the good and the bad In Proceedings of the 2001 WinterSimulation Conference
[14] Maindonald John Braun W John(2010) Data analysis and graphics using R an example-based approach Cambridge University Press NewYork USA
[15] Mingoti(2005)Analise De Dados Atraves De Metodos De Estatistica Multivariada - Uma Abordagem Aplicada Editora UFMG Belo Hori-zonte
Castaneda Daniel F N 2013 43
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1743
116 Func˜ ao readtable() 1 INICIANDO O R
attach(ind)
peso
[1] 67 60 62 69 54 59 57 67 60 65 59 55
salario
[1] 59 40 45 65 55 45 48 67 65 68 62 45
sex
[1] 1 0 0 1 0 0 0 1 1 1 1 0
detach(ind)
salario
Erro objeto rsquosalariorsquo n~ao encontrado
A funcao attach e detach pode ser usada no somente em arquivo dedados dos pacotes do R se nao tambem para listas e data frame
116 Funcao readtable()
Um amplo conjunto de arquivos com diferentes extensoes pode ser lidopor esta funcao
1161 Arquivos com extensao txt
Considere as seguintes variaveis x1 idade dos funcionarios x2 sexo
(1 homem 0 mulher) x3 anos de experiencia na funcao x4 estado civilx5 numero de filhos x6 nota de 0 minus 10 de um teste de avaliacao deconhecimento na sua area x7 teste psicotecnico de 0 a 50 x8 satisfacaocom a vida pessoal estes dados em bloco de notas com extensao txt obtidosde Mingoti 2005 Ver dados na integra no apendice
funcao=readtable(functxtheader=T)
funcao
grupo idade sexo ecivil nfilhos aexper tpsico tconhec satisf
1 0 24 1 1 0 2 77 360 1
2 0 29 1 1 0 4 79 360 13 0 38 1 0 1 6 86 408 0
107 0 24 1 1 0 2 73 360 0
108 0 27 1 0 0 3 74 360 1
109 1 42 1 0 2 14 99 440 1
Castaneda Daniel F N 2013 17
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1843
117 Script com extens˜ ao R 1 INICIANDO O R
Considere os dados de consumo de agua de uma residencia durante
o perıodo de 1205 a 0411 Com as seguintes variaveis valor em reaisconsumo em m3 dias de consumo e construindo o imovel (1sim 2nao)Dados proprios do autor Ver dados na integra no apendice
ca=readtable(consumoagua2txtheader=T) disponıvel em meus documentos
ca
dado valor consumo diasconsumo Construindo
1 1 1476 11 30 0
2 2 1347 10 31 0
64 64 3439 14 31 1
65 65 2221 11 32 0
Observacao use o comando choose() para escolher um conjunto dedados de um diretorio especifico no computador podemos usar
datalt-readtable(filechoose()header=T)
117 Script com extensao R
Exemplo com extensao R lida por readtable com dados do proprio R
exemplo=readtable(filechoose()header=T) dadosrR em aula 3exemplo
dado valor
1 1 115
2 2 117
3 3 118
4 4 119
5 5 127
118 Funcao scan()
A funcao scan tambem pode incluir elementos no R
scan()
1 12
2 13
3 14
Castaneda Daniel F N 2013 18
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1943
119 Func˜ ao sample 1 INICIANDO O R
4 15
5
Read 4 items
[1] 12 13 14 15
Use a funcao scan() para ingressar dados diretamente na plataforma R
119 Funcao sample
Usa-se para escolher aleatoriamente uma amostra de um conjunto deobservacoes ou uma base de dados Como exemplo considere uma amostrade 8 observacoes dos primeiros 20 do banco de dados de consumo de agua
(ca)setseed(10)
ca20=ca[sample(1208)]
ca20
dado valor consumo diasconsumo Construindo
11 11 3153 16 31 1
6 6 1347 10 32 0
8 8 1347 10 30 0
12 12 3755 18 32 1
2 2 1347 10 31 0
4 4 5275 22 33 1
15 15 3755 18 32 0
14 14 1648 11 30 0
120 Rcmdr
Para importar dados do SPSS STATISTICA MINITAB EXCEL TXTetc podemos usar o pacote livre Rcmdr ja disponıvel na biblioteca
library(Rcmdr)
este pacote trabalha via janelas para maior comodidade
121 Dados disponıveis no R
R possuı mais de 100 conjunto de dados alocados no pacote dataset quepodem ser chamados diretamente ( sem extensao) com a funcao data
data()
Castaneda Daniel F N 2013 19
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2043
122 Modificando e editando dados 1 INICIANDO O R
No R pode-se acessar a conjunto de dados de outros pacotes disponıveis
na sua biblioteca Se por acaso esta instalado o pacote lmtest o conjuntode dados ativo neste pacote pode ser chamado da seguinte maneira
data(package=lmtest)
122 Modificando e editando dados
Considere o conjunto de dados anterior Para modificar este conjuntosera disponibilizado uma tela de editor de dados a seguir
xnovo=edit(wagespackage=lmtest)
Para editar um conjunto de dados novo podemos usar a funcao edit daseguinte forma
xn=edit(dataframe())
123 Exportando dados do R para o Excel
Para exportar uma coluna de dados por exemplo o valor pago no con-sumo de agua executamos no R
writeClipboard(ascharacter(valor))
Na tela do Excel usar o comando colar Suponha que esta interessadoem exportar o conjunto de dados ca consumo de agua numa residenciadisponıveis no R para transferir este conjunto de dados use o seguintecomando
writetable(caclipboardsep=tcolnames=NA)
Na tela do Excel faca Ctrl+V ou um click em colar
124 Funcoes apply tapply sapply e lapply
A funcao apply calcula medidas estatısticas por linhas ou por colunas
e a funcao sapply calcula apenas por coluna A diferenca da funcao applyda funcao tapply e que esta ultima calcula medidas estatısticas por estratosConsidere os dados de consumo de agua de uma residencia
apply(ca2mean)
dado valor consumo diasconsumo Construindo
330000000 255690769 126153846 307076923 02615385
Castaneda Daniel F N 2013 20
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2143
125 Distribuic˜ oes de probabilidade 1 INICIANDO O R
tapply(valorConstruindomean)
0 1
2115271 3803882
sapply(camean)
dado valor consumo diasconsumo Construindo
330000000 255690769 126153846 307076923 02615385
lapply(camean) verificar
125 Distribuicoes de probabilidade
R proporciona uma serie de funcoes para variaveis aleatorias estatısticasconhecidas dentro destas funcoes temos distribuicao aleatorizacao proba-
bilidade e quantidadeDistribuicao nome no R argumentos adicionaisbeta beta shape1shap2npcbinomial binom sizeprobcauchy cauchy locationscalechi-quadrado chisq dfnpcexponencial exp rateF f df1df2npcgamma gamma shapescalegeometric geom probhypergeometric hyper mnk
log-normal lnorm meanlogsdloglogistic logis locationscalenegativa binomial nbinom sizeprobnormal norm meansdpoisson pois lambdat-student t dfncpuniforme unif minmaxweibull weibull shapescalewilcoxon wilcoxon mn
Nomes iniciando com ldquodrdquocalculara a densidade da funcao ldquoprdquoparacalcular a probabilidade ou funcao acumulada ldquoqrdquopara o valor quantılico eldquorrdquopara simulacao de numeros aleatoriosExemplos
rpois(105) 10 numeros aleatorios da dist poisson com parametro 5
[1] 3 2 3 1 8 6 1 3 2 3
Castaneda Daniel F N 2013 21
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2243
126 Algoritmos de programac˜ ao no R 1 INICIANDO O R
rnorm(5) 5 numeros aleatorios da normal padr~ao
[1] 004659011 -005019082 -128753167 115411245 -137573809
qt(09550) valor quantilico da t com 50 gl
[1] 1675905
qchisq(0951) valor da qui-quadrado
com 95 de confianc a e 1 g l
[1] 3841459
dpois(45) densidade da dist poisson x=4 parametro=5
[1] 01754674
ppois(45) P(xlt=4) parametro=5
[1] 04404933
126 Algoritmos de programacao no R
R e uma linguagem de programacao orientada a objetos que alem de ana-lisar dados tem sua propria programacao aqui usaremos esta programacaopara analises de estatısticas e econometria Para maiores detalhes podemospesquisar em Venables and Ripley (2000 e 2002) Voce pode estender afuncionalidade do R criando novas funcoes ou programando por exemplo
medianamediarazao lt- function(x)
return(median(x)mean(x))
setseed(20)
z = rexp(10000)
medianamediarazao(z)
[1] 06925193
Construindo a mediana
mediana=function(x)
oddeven=length(x)2
if (oddeven == 0) (sort(x)[length(x)2]+sort(x)[1+ length(x)2])2
else sort(x)[ceiling(length(x)2)]
Construindo a media geometrica
mediageometrica = function (x) exp(mean(log(x)))
Construindo a media harmonica
Castaneda Daniel F N 2013 22
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2343
126 Algoritmos de programac˜ ao no R 1 INICIANDO O R
mediaharmonica=function (x) 1mean(1x)
Um algoritmo que envolva as medidas de tendencia central
medidascentrais = function(y medida)
switch(medida
media = mean(y)
mgeometrica = exp(mean(log(y)))
mharmonica = 1mean(1y)
mediana = median(y)
stop(Medida n~ao inclusa))
medidascentrais(ymedia)
Gerando uma distribuicao uniforme para o lancamento de um dado
ndado=function(x) return(round(runif(x)6+05))
hist(ndado(100000)
Com o comando sample podemos realizar este mesmo experimento daseguinte maneira
gerando=sample(16 100000 replace=TRUE)
hist(gerando)
Considere o seguinte objeto c
c=c(122715365)
Para determinar que classe de objeto e o vetor c podemos identificarusando os seguintes comandos
ischaracter(c)
[1] FALSE
isnumeric(c)
[1] TRUE
A este objeto c podemos a signar nome a cada valor definido da seguinteforma
names(c)=c(abcdef)
c
a b c d e f
10 22 70 150 30 65
Castaneda Daniel F N 2013 23
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2443
127 Lacos no R 1 INICIANDO O R
Podemos associar uma comparacao logica com o vetor c da seguinte
forma
cgt3
a b c d e f
FALSE FALSE TRUE TRUE FALSE TRUE
Quando estamos diante de uma matriz podemos definir os nomes dascolunas com colnames() e os nomes das linhas com rownames() veja oexemplo
d=matrix(c(223582858)33)
colnames(d)=c(c1c2c3)
rownames(d)=c(1o2o3o)
d
c1 c2 c3
1o 2 5 8
2o 2 8 5
3o 3 2 8
A matriz d e entendida como um conjunto de dados que podem serassociados as linhas e as colunas Para determinar se ha associacao entrelinhas e colunas o teste utilizado pode se o qui-quadrado com a funcaochisqtest()
127 Lacos no R
Em algumas situacoes variaveis contınuas podem ser transformadas em variaveisordinais ou dummy para realizar estas operacoes o R proporciona varioslacos como else if ou ifelseExemplo para construir variaveis binarias considere o consumo de aguaonde consumo menor ou igual a 10 m3 e zero e acima de 10 m3 e 1 Ovalor de consumo sendo zero se o valor e menor ou igual a 20 reais e 1 casocontrario
consumoc=numeric(length(consumo))
for(i in 1length(consumo))if (consumo[i]lt=10) consumoc[i]=0
else consumoc[i]=1
valorc=numeric(length(valor))
for(i in 1length(valor))if (valor[i]lt=20) valorc[i]=0 else valorc[i]=1
Castaneda Daniel F N 2013 24
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2543
128 A func˜ ao cut() 1 INICIANDO O R
Nota Podemos construir os lacos considerando a condicao como texto
exemplo consumoc[i]=rdquo[0minus 10]rdquo Comando alternativo de construcao
consumoc2=ifelse(consumolt=10[0-10]Acima de 10)
valorc2=ifelse(valorlt=20[0-20]Acima de 20)
limitacao deste laco e que utilizado apenas para duas condicoes Para lacoscom mais de duas condicoes podemos usar os seguintes comandos
valorc3=numeric(length(valor))
for(i in 1length(valor))if (valor[i]lt20) valorc3[i]=[0-20)
else if (valor[i]lt30)
valorc3[i]=[20-30) else valorc3[i]=[30 a +
table(valorc3)
128 A funcao cut()
Alguma funcoes usam lacos para criar novas variaveis categoricas no exem-plo de valor pago em reais pelo consumo de agua podemos construir cate-gorias por quartis de 25 50 75 1 da seguinte maneira
q=cut(valorquantile(valor) includelowest=T)
table(q)
q
[135165] (165222] (222327] (327693]
17 16 16 16
Outras formas podem ser usando intervalos a criterio pessoal no exemplo aseguir consideramos com valor mınimo 13 e valor maximo 70 com amplitudedo intervalo de 19 e com classes fechadas no mınimo e aberto no maximo
valr=cut(valmseq(137019)right=Fincludeupper=T)
table(valr)
valr
[1332) [3251) [5170)
48 15 2
129 Criando funcoes Teste que compara duas medias
Como exemplo implementamos a estatıstica de comparacao de duasamostras independentes
Castaneda Daniel F N 2013 25
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2643
130 Coeficiente de regressao 1 INICIANDO O R
testeduas lt- function(y1 y2)
+ n1 lt- length(y1) n2 lt- length(y2)
+ yb1 lt- mean(y1) yb2 lt- mean(y2)
+ s1 lt- var(y1) s2 lt- var(y2)
+ s lt- ((n1-1)s1 + (n2-1)s2)(n1+n2-2)
+ tst lt- (yb1 - yb2)sqrt(s(1n1 + 1n2))
+ tst
+
x=runif(20)
y=rnorm(20)
testeduas(xy)
[1] 2874636
Uma forma alternativa e usando a funcao ttest()
ttest(xy)
Welch Two Sample t-test
data x and y
t = 28746 df = 21784 p-value = 0008858
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
01846283 11429380sample estimates
mean of x mean of y
05539270 -01098562
130 Coeficiente de regressao
Implementando o calculo da tangente (inclinacao) do coeficiente no mo-delo de regressao linear simples
mq1lt- function(X y)
+ X lt- qr(X)
+ qrcoef(X y)+
mq1(xy)
[1] -008755885
Castaneda Daniel F N 2013 26
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2743
131 Teste Qui- Quadrado 1 INICIANDO O R
131 Teste Qui- Quadrado
Util para associar linhas e colunas considere os dados em d com as se-guintes hipotesesH0 nao ha associacao entre linhas e colunasHa ha associacao entre linhas e colunas
chisqtest(d)
Pearsonrsquos Chi-squared test
data d
X-squared = 46497 df = 4 p-value = 03252
Warning message
In chisqtest(d) Aproximac~ao Qui-quadrado pode estar incorreta
Para um nıvel α = 0 05 de significancia podemos afirmar que nao haevidencias para afirmar que a associacao entre linhas e colunas (linhas ecolunas sao independentes) Um outro exemplo do uso da distribuicao Qui-quadrado e verificar se um conjunto de dados provem de uma determinadadistribuicao teorica
chisqtest(c)
Chi-squared test for given probabilities
data c
X-squared = 22549 df = 5 p-value = 00004116
Pelo p-value podemos afirmar que a 0 05 de significancia nao ha evi-dencias para afirmar que a distribuicao dos numeros em c sejam uniformesPara implementar este teste de associacao no exemplo de consumo de aguaconsiderando a classificacao mediante lacos (ver lacos no R) entre consumoce valorc temos
table(consumocvalorc)
valorc
consumoc 0 1
0 24 0
Castaneda Daniel F N 2013 27
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2843
132 Teste t - student 1 INICIANDO O R
1 3 38
chisqtest(consumocvalorc)$expected
chisqtest(consumocvalorc)$observed
chisqtest(consumocvalorc)
Pearsonrsquos Chi-squared test with Yatesrsquo continuity correction
data consumoc and valorc
X-squared = 498015 df = 1 p-value = 1701e-12
barplot(table(consumocvalorc) beside=T)
Concluimos que ha associacao entre consumo de agua e o valor pago em
reais
132 Teste t - student
O teste mais usado pelos estatısticos e util para comparar medias deduas amostras tanto independente como emparelhadasExemplo considere as exportacoes mensais (FOB-US) do Brasil durante osanos de 2009 minus 2010 Apos digitacao das observacoes temos
exp2009
[1] 9781920 9586406 11809225 12321617 11984585 14467785 14141930
[8] 13840850 13863222 14081686 12652892 14462624
exp2010[1] 1130507 1219724 1572750 1516121 1770250 1709391 1767292 1923625
[9] 1883279 1838042 1768733 2091814
H0 A medias anuais das exportacoes durante 2009 e 2010 e a mesmaHa CC
ttest(exp2009exp2010paired = FALSE)
Welch Two Sample t-test
data exp2009 and exp2010
t = -42813 df = 18202 p-value = 00004394
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-6075666 -2077757
sample estimates
mean of x mean of y
Castaneda Daniel F N 2013 28
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2943
133 Teste F 1 INICIANDO O R
1274956 1682627
Conclusao nao ha evidencias para aceitar que a media das exportacoesde 2009 e 2010 e a mesma
Quando um conjunto de dados e dado em formato de matriz (dataframe)podemos realizar o teste t de uma coluna em funcao da outra por exemplono consumo de agua queremos testar a hipotese nula H0 o valor de con-sumo de agua e o mesmo construindo ou nao versus a hipotese alternativaHa Caso contrario
attach(ca)
ttest(valor~Construindo)
Welch Two Sample t-test
data valor by Construindo
t = -58383 df = 21731 p-value = 7465e-06
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-2288867 -1088356
sample estimates
mean in group 0 mean in group 1
2115271 3803882
Concluımos que nao ha evidencias para aceitar que o valor de consumode agua e o mesmo quando estamos construindo ( p minus valor lt 005)
Exemplos adicionais podem ser comparando entre as variaveis clas-sificadas (ver secao de lacos) da seguinte forma
ttest(valor~consumoc)
ttest(consumo~valorc)
boxplot(consumo~valorc2 main=Consumo e valor pago em Reais)
boxplot(consumo~valorc3 main=Consumo e valor pago em Reais)
133 Teste F
Para determinar se ha a mesma variabilidade no valor de consumoquando estamos ou nao construindo utilizamos o teste F A hipotese nulae H0 O valor de consumo de agua tem a mesma variabilidade quandoconstruımos que quando nao construımos No R temos
Castaneda Daniel F N 2013 29
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3043
133 Teste F 1 INICIANDO O R
vartest(valor~Construindo)
F test to compare two variances
data valor by Construindo
F = 04834 num df = 47 denom df = 16 p-value = 005478
alternative hypothesis true ratio of variances is not equal to 1
95 percent confidence interval
0194815 1014916
sample estimates
ratio of variances
04834048
Concluımos que nao ha evidencias para rejeitar a hipotese nula por tanto
a variabilidade no valor de consumo e o mesmoO correspondente grafico (Box-plot) e apresentado a seguir
boxplot(valor~Construindo col=8 names=c(n~ao construc~ao construc~ao))
natildeo construccedilatildeo construccedilatildeo
2 0
3 0
4 0
5 0
6 0
7 0
Figura 4 Valor pago em reais no consumo de agua
Em alguns casos ha necessidade de identificar se a variabilidade dasexportacoes e a mesma comparando 2009 e 2010H0 As exportacoes de 2009 e 2010 tem a mesma variabilidade (dados men-sais coletados do site httpwwwipeadatagov)Ha CC
Castaneda Daniel F N 2013 30
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3143
134 Graficos 1 INICIANDO O R
vartest(exp2009exp2010)
F test to compare two variances
data exp2009 and exp2010
F = 03728 num df = 11 denom df = 11 p-value = 01166
alternative hypothesis true ratio of variances is not equal to 1
95 percent confidence interval
01073346 12951624
sample estimates
ratio of variances
03728482
Conclusao Nao houve mudancas na variabilidade das exportacoes de
2009 e 2010
134 Graficos
Considere os dados mensais das exportacoes do Brasil (FOB) durante2009 e 2010 para realizar um grafico de box-plot fazemos
boxplot(exp2009exp2010 main=exportac~oes do Brasil
names=c(20092010))
2009 2010
1 0 0 0 0
1 2 0 0 0
1 4 0 0 0
1 6 0 0 0
1 8 0 0 0
2 0
0 0 0
exportaccedilotildees do Brasil
Figura 5 Exportacoes FOB em dolares
Para o grafico da funcao acumulativa das exportacoes
plot(ecdf(exp2010) dopoint=FALSE verticals=TRUE
lty=3 xlim=c(1000023000))
lines(ecdf(exp2009) dopoint=FALSE verticals=TRUE
col=2)
Castaneda Daniel F N 2013 31
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3243
134 Graficos 1 INICIANDO O R
1 00 00 1 20 00 1 40 00 1 60 00 1 80 00 2 00 00 2 20 00
0 0
0 2
0 4
0 6
0 8
1 0
ecdf(exp2010)
x
F n ( x )
Figura 6 Funcao acumulada das exportacoes 2009-2010
Considere as exportacoes do Brasil um histograma e Q-Q plot sera
hist(exp main=Exportac~oes FOB-US col=8)
qqnorm(exp xlim=c(-55)ylim=c(-100021000))
qqline(exp)
Exportaccedilotildees FOBminusUS$
exp
F r e q u e n c y
0 5000 10000 15000 20000
0
5 0
1 0 0
1 5 0
minus4 minus2 0 2 4
0
5 0 0 0
1 0 0 0 0
1 5 0 0 0
2 0 0 0 0
Normal QminusQ Plot
Theoretical Quantiles
S a m p l e Q u a n t i l e s
Figura 7 Graficos das Exportacoes no Brasil 2001-2010
Para ativar alguns graficos pacotes sao necessarios exemplo
library(MASS)
Castaneda Daniel F N 2013 32
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3343
134 Graficos 1 INICIANDO O R
par(mfrow=c(21))
z = rnorm(500000)
hist(z prob=T)
curve(dnorm(x)add=T)
histscott(z prob=T)
Histogram of z
z
D e n s i t y
minus4 minus2 0 2 4
0 0
0 2
Histogram of x
z
D e n s i t y
minus4 minus2 0 2 4
0 0
0 2
0 4
Figura 8 Histograma de numeros aleatorios normais
boxcox(dist~speed data=cars) transformac~ao Box-Cox
minus2 minus1 0 1 2
minus 4 0 0
minus 3 5 0
minus 3 0 0
minus 2 5 0
λ
l o g minus
L i k e l i h o o d
95
Figura 9 Valor otimo na transformacao Box-Cox
Castaneda Daniel F N 2013 33
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3443
135 Tabelas 1 INICIANDO O R
Para ter um alcance maior sobre a capacidade grafica do R podemos
usar as seguintes funcoes
demo(graphics)
demo(image)
demo(persp)
demo(recursion)
demo(plotmath)
demo(package = packages(allavailable = TRUE))
135 Tabelas
Algumas tabelas estatısticas podem ser construıdas com a funcao table()estado=c(PBPEALSEBAMGESRJPBPEAL
SEBAMGESRJPBPEALSEBAMGESRJ
PBPEALSEBAMGESRJ)
estadof=factor(estado)
estadof
[1] PB PE AL SE BA MG ES RJ PB PE AL SE BA MG ES RJ PB PE AL SE BA
[22] MG ES RJ PB PE AL SE BA MG ES RJ
Levels AL BA ES MG PB PE RJ SE
setseed(10)
salarios=c(round(runif(32)100))
salarios
[1] 51 31 43 69 9 23 27 27 62 43 65 57 11 60 36 43 5 26 40 84 86 62 78 36 41
[26] 71 84 24 77 36 54 9
salariom=tapply(salariosestadofmean)
salariom
AL BA ES MG PB PE RJ SE
5800 4575 4875 4525 3975 4275 2875 5850
salariof=factor(cut(salariosbreaks=0+15(07)))
salariof
[1] (4560] (3045] (3045] (6075] (015] (1530] (1530] (1530] (6075]
[10] (3045] (6075] (4560] (015] (4560] (3045] (3045] (015] (1530]
[19] (3045] (7590] (7590] (6075] (7590] (3045] (3045] (6075] (7590]
[28] (1530] (7590] (3045] (4560] (015]
Levels (015] (1530] (3045] (4560] (6075] (7590]
table(salariofestadof)
estadof
Castaneda Daniel F N 2013 34
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3543
136 Comandos adicionais 2 R E ECONOMETRIA
salariof AL BA ES MG PB PE RJ SE
(015] 0 2 0 0 1 0 1 0
(1530] 0 0 1 1 0 1 1 1
(3045] 2 0 1 1 1 2 2 0
(4560] 0 0 1 1 1 0 0 1
(6075] 1 0 0 1 1 1 0 1
(7590] 1 2 1 0 0 0 0 1
table(salariofestadof)
estadof
salariof AL BA ES MG PB PE RJ SE
(015] 1 1 0 0 1 0 1 2
(1530] 0 0 1 1 0 0 1 1
(3045] 0 0 2 0 0 1 0 0
(4560] 2 0 1 0 0 1 0 0
(6075] 0 1 0 2 3 0 1 0
(7590] 0 1 0 1 0 2 0 1
(90105] 0 1 0 0 0 0 1 0
136 Comandos adicionais
Em situacoes onde a ausencia de informacao ou dados faltantes(missing)as funcoes do R precisam declarar esta ausencia com o comando narm=T
indicando que a informacao apresenta dados faltantes Exemplo
df=c(2NA58NA) O ultimo elemento esta ausente
mean(f) Comando padr~ao para calcular a media
[1] NA
mean(fnarm=T) Comando declarando a ausencia de elementos
[1] 5
2 R e Econometria
Dados economicos precisam de uma atencao matematica para dar fun-
damento a suas teorias Atualmente pelo avanco computacional nao habarreiras para serem aplicadas e torna-se ate divertida se definimos a plata-forma de trabalho computacional A econometria requer de uma abordagemdiferenciada pois faz uso de da teoria economica economia matematica es-tatıstica economica estatıstica matematica e inferencia estatıstica Esta
Castaneda Daniel F N 2013 35
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3643
21 Tipos de Dados 2 R E ECONOMETRIA
disciplina aproxima a Estatıstica da Economia onde a teoria economica for-
mula as hipoteses Por exemplo uma reducao de precos de uma mercadoriadevera aumentar a quantidade demandada dessa mercadoria considerandouma relacao inversa entre preco e quantidade demandada ou a despesa deconsumo per capita depende da renda per capita considerando uma relacaodireta ou seja a medida que a renda aumenta a despesa tende a aumentarOutro exemplo onde consideremos a area microeconomica consumo de aguade uma residencia e o valor pago e natural imaginar que ha uma relacaodireta entre consumo e valor pago pelo consumo Porem precisamos saberqual e quanto e esta forca de relacao por tanto o econometrista forneceesta informacao usando a inferencia estatıstica e a estatıstica economicaAs estimativas de esta relacao fica por conta de estatıstica matematica
Para completar e cerrar este circulo de disciplinas abordadas na Econo-metria precisamos utilizar uma ferramenta de calculo computacional quebrinde estabilidade precisao e rapidez nos seus resultados para superartudo isto utilizaremos o ambiente R A econometria surge como uma disci-plina autonoma em virtude de aglutinar todas estas areas do conhecimentomerecendo um estudo proprio
21 Tipos de Dados
Os tipos de dados sao
1 Dados de corte transversal (cross-section) sao dados de uma ou maisvariaveis coletadas no mesmo ponto do tempo Por exemplo os censosno Brasil sao coletados num instante do tempo No censo variaveisdemograficas sao exploradas como contagem da populacao numerode indivıduos em cada famılia idade dos integrantes da famılia ouvariaveis economicas como renda consumo tipo de moradia (alugadaou propria) etc estes dados sao adquiridas a cada decada pelo IBGE
2 Dados longitudinais ou de series temporais sao caracterizadas porobservacoes ao longo do tempo No Brasil um site que disponibilizadados desta natureza e o IPEADATA
3 Dados de painel e uma mistura de dados de corte transversal e longi-tudinais ou ao longo do tempo estudamos o comportamento de unida-des individuais Por exemplo series mensal do ındice de precos serieanuais do produto interno bruto (PIB) ou serie anual da balanca co-mercial dos municıpios do Brasil considerando cada municıpio comounidades individuais
Castaneda Daniel F N 2013 36
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3743
22 Metodologia 2 R E ECONOMETRIA
22 Metodologia
Os passos da metodologia econometrica tradicional ou classica se iniciadesde a formulacao da hipotese ate as conclusoes em geral sao
221 Hipotese
Como referencia usaremos a hipotese nula H 0 a qual nulifica qualquerdiferenca e a hipoteses alternativa H a aquela que contradiz total ou par-cialmente a hipotese nula Exemplo
1 H 0 nao existe uma relacao entre consumo de agua e valor pago pela
mesma
2 Ha existe uma relacao entre consumo de agua e valor pago pelamesma
A hipotese alternativa pode ser dividida em tres possibilidades no exem-plo do consumo de agua pode ser dividida em existe alguma relacao oua relacao e negativa ou a relacao e positiva A primeira denomina-se dehipotese alternativa com teste bicaudal o segundo de teste unicaudal a es-querda e finalmente o ultimo com teste unicaudal a direita Nosso exemploconsidere H a existe alguma relacao (teste bicaudal)
222 Modelo matematico
Usaremos uma funcao de consumo simples
Y = β 1 + β 2X (11)
A variavel dependente Y valor pago pelo consumo e estimado por Y A variavel independente e X consumo de agua em m3 β 1 representa ovalor pago quando nao ha consumo de agua Nosso interesse e determinara tangente ou a variacao pelo consumo β 2
223 Modelo econometrico do valor pago
O modelo matematico fornece a relacao determinıstica entre valor pagoem reais e consumo de agua porem as relacoes entre as variaveis economicassao em geral inexatas Assim ao longo do tempo no podemos esperar que ovalor pago e o consumo em m3 se situem exatamente numa linha reta isto
Castaneda Daniel F N 2013 37
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3843
22 Metodologia 2 R E ECONOMETRIA
por que alem do consumo outras variaveis afetam o valor pago por exemplo
os dias de consumo o perıodo de reforma da casa ou a inflacao podendoalterar o valor pago pelo consumo
224 Nıvel de significancia
Denominado de α frequentemente usa-se α = 005 em situacoes derisco usa-se α = 001 Em testes bicaudais divide-se α em duas partes elocalizam-se nos extremos da distribuicao de prova Para testes unicaudaislocaliza-se no extremo da distribuicao indicada pela hipotese alternativaNosso exemplo α = 005 e por tanto α2 = 0025
225 Obtencao de Dados
Considere 65 observacoes (mes a mes) do consumo de agua em umaresidencia e o valor pago em reais durante o perıodo de 122005 a 042011Ver dados no apendice A Um plot e apresentado a seguir
10 15 20
2 0
3 0
4 0
5 0
6 0
7 0
Valor pago em reais de consumo de aacutegua
Variaacutevel independenteConsumo em m3
V a r i aacute v e l d e p e n d e n t e V a l o r p a g o
Y = minus12365+3007X
Figura 10 Relacao causal entre consumo e valor pago em reais
Podemos observar visualmente que ha uma relacao positiva entre valorpago e consumo de agua onde a variacao pelo consumo ou variacao dovalor pago (tangente) β 2 cresce positivamente Precisamos verificar se estavariacao β 2 e estatisticamente diferente de zero (significativa)
Castaneda Daniel F N 2013 38
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3943
22 Metodologia 2 R E ECONOMETRIA
226 Estatıstica de prova
Denominada de funcao pivo ou estatıstica de teste No ambito pa-rametrico usa-se as estatısticas t student (amostras pequenas) quando ne grande e indiferente o uso da t student ou normal No exemplo para tes-tar qual a inclinacao da variacao pelo consumo de agua usamos a seguinteestatıstica
t0 =β 2
dp(β 2)asymp tnminus2gl (12)
onde t0 e o valor calculado da estatıstica t β 2 e a estimativa do parametro(variacao pelo consumo) β 2 dp(β 2) e o desvio padrao da estimativa doparametro β 2 o valor t0 segue uma distribuicao t-student com nminus2 graus deliberdade(gl) Os graus de liberdade e calculado diferenciando o tamanhoda amostra com o numero de parametro do modelo (n-p) O valor quantılicotnminus2gl(0025) corresponde a distribuicao t-student com 0025 de significanciacom n minus 2 graus de liberdade e n e o numero total de observacoes Nossoexemplo β 2 = 3007 e dp(β 2) = 013 por tanto t0 = 2313 e comparadocom o valor da tabela da t-student com 63 gl e com α2 = 0025 sendo estevalor igual 19983
227 Tipos de erro
Ocorre o erro tipo I (α) ao se rejeitar a hipotese de nulidade quandodeveria aceita-la Por outro lado quando se aceita a hipotese de nulidadequando deveria rejeita-la comete-se o erro tipo II (β ) Nas duas situacoestomou-se uma decisao errada O interesse e a minimizacao dos erros tipo Ie II que na pratica so e possıvel aumentando-se o tamanho da amostra Porrazoes diversas o aumento do tamanho da amostra muitas vezes torna-se im-praticavel A gravidade do erro tipo I e distinta da do erro tipo II quando seconsegue identificar o erro mais grave a opcao e a minimizacao deste poremquando a probabilidade de ocorrencia de um tipo de erro diminui a do outroaumenta e vice versa Podemos observar este criterio na seguinte tabela
Nao rejeita rejeitaH0 verdadeira Correto (1 minus α) Erro do tipo I (α)H0 falsa Erro do tipo II (β ) Correto (1minus β )
Castaneda Daniel F N 2013 39
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4043
22 Metodologia 2 R E ECONOMETRIA
228 Regra de Decisao
Os pacotes ou plataformas estatısticas apresentam o valor observado dafuncao pivo e o p minus valor (Area de probabilidade esta relacionada comonıvel de significancia) assim a funcao pivo apresenta o valor numerico nafuncao de densidade da Estatıstica exemplo dentro da densidade da normalQuando o pvalor e menor do que α = 005 no caso do teste unicaudal (eα = 0025 no caso bicaudal) concluımos que nao ha evidencia suficiente paraaceitar H0 Caso contrario se o p minus valor for maior que α = 005 podemosconcluir que nao ha evidencia suficiente para rejeitar H0 Nosso exemplot0 = 2313 gt 1998 (1998 e valor da distribuicao t com 63 gl e nıvel designificancia bicaudal de 005) este valor localiza-se na cauda positiva da
distribuicao com 63 graus de liberdade(n minus 2 = 65 minus 2) Por outro lado o pminus valor lt 0025 por tanto nao ha evidencias para aceitar H0 em favor deaceitar que o coeficiente de inclinacao (ou tangente) e positiva No recorrerdo livro usaremos codigos para as medidas do pminusvalor que em geral apareceem todo comando summary() Como consequencia a linha que aparece aseguir sera excluıda das saıdas do R
Signif codes 0 0001 001 005 01 1
sera interpretada da seguinte maneira
bull 0 significancia menor que 0001
bull 0001 significancia menor que 001
bull 001 significancia menor que 005
bull 005 significancia menor que 01
bull 01 significancia menor que 1
229 Conclusoes
Esta parte do teste de hipoteses e explicada em conjunto O Estatıstico eo Economista que sao os profissionais da area em que as observacoes foramcoletadas decidem sobre as providencias futuras No exemplo podemosafirmar que a cada metro cubico a mais de consumo de agua sera pago emmedia 3 reais a mais No momento este valor pago pode parecer alto poremna falta de este liquido elementar este valor pode aumentar e por tantosofrera mudancas
Castaneda Daniel F N 2013 40
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4143
23 Previs˜ oes 2 R E ECONOMETRIA
23 Previsoes
Muitas vezes estamos interessados em determinar o que acontece quandouma quantidade de consumo de agua em m3 e utilizada e qual o valor pagoem reais Por exemplo se nosso interesse e saber quanto sera pago por 20m3
de consumo de agua em uma residencia A conta a realizar eValor pago = minus12365 + 3007 lowast 20 = 47775 reaisA interpretacao deste valor e em media o valor pago em reais por 20m3 deagua consumida e de aproximadamente 478 reais
231 Resıduos
Uma questao fundamental em econometria e identificar o comportamentodos resıduos de um modelo Considere Y o valor real pago e Y valor pagoestimado a partir de um modelo entao este erro e aleatorio e definido por
ϵi = Y i minus Y i (13)
A abordagem mais formal dos erros e feita nos proximos capıtulosUma questao importante e determinar qual o comportamento da estima-tiva destes erros aos quais chamamos de resıduos Para determinar a nor-malidade dos resıduos realizamos o teste de Jarque Bera com a funcao
jarqueberatest() da biblioteca tseries com o seguinte grafico
minus2 minus1 0 1 2
minus 5
0
5
1 0
resiacuteduos do modelo valor= f(consumo)
Theoretical Quantiles
S a m p l e Q u a n t i l e s
Figura 11 Normalidade dos resıduos
Castaneda Daniel F N 2013 41
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4243
24 Exercıcios REFER ENCIAS
24 Exercıcios
1 Por que a econometria precisa ser uma disciplina autonoma
2 Que e econometria
3 Pesquise dados de corte transversal corte longitudinal e de painel
4 Construa uma metodologia econometrica para o consumo familiar emfuncao da renda familiar (linear)
5 No item anterior e possıvel encontrar uma relacao quadratica
6 Quais sao os pressupostos basicos de um modelo de regressao linear
simples
7 Como e chamado o parametro de inclinacao ou tangente num modelode regressao linear simples em econometria
8 Que e o projeto R
9 R e um programa econometrico
Referencias
[1] Albert Jim (2009) Bayesian computation with R Editora SpringerSecond Edition New York USA
[2] Borde Arvind (1992) TEX by example A beginneracutes guide Ed Aca-demic Press Professional United States of America
[3] Carneiro Orlando (1997) Econometria Bacute asica Teoria e Aplicac˜ oes Editora Atlas Segunda Edicao son Paulo
[4] Conover W J (1999) Practical nonparametric statistics 3ed NewYork
[5] Cribari Neto F (2002) C for Econometricians conputational Econo-
mics 14 p135-149
[6] Dalgaard Peter(2008) Introductory Statistics with R Editora SpringerSecond Edition New York USA
[7] Ehlers Ricardo(2007) Analise de series Temporais Universidade Fe-deral do Parana
Castaneda Daniel F N 2013 42
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4343
REFER ENCIAS REFER ENCIAS
[8] Frery Alejandro Cribari-Neto Francisco(2011)Elementos de
Estatıstica conputacional Usando Plataformas de Software Li-vreGratuito Publicacoes Matematicas Editora IMPA
[9] Gujarati Damodar N (2000) Econometria Bacute asica Makron Books Ter-ceira Edicao son Paulo
[10] Knuth DE (1981)The Art of conputer Programming Third EditionVolume 2 Seminumerical Algorithms Addison-Wesley Publishingconpany Massachusetts
[11] Korgi Rodrigo de Castro (2003) El universo LAT E X Editora Facultadde Ciencias Segunda Edicao Bogota
[12] Krawczyk H How to Predict Congruential Generators InJournal of Algorithms V 13 N 4 1992
[13] LrsquoEcuyer P (2001) Software for uniform random number generationdistinguishing the good and the bad In Proceedings of the 2001 WinterSimulation Conference
[14] Maindonald John Braun W John(2010) Data analysis and graphics using R an example-based approach Cambridge University Press NewYork USA
[15] Mingoti(2005)Analise De Dados Atraves De Metodos De Estatistica Multivariada - Uma Abordagem Aplicada Editora UFMG Belo Hori-zonte
Castaneda Daniel F N 2013 43
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1843
117 Script com extens˜ ao R 1 INICIANDO O R
Considere os dados de consumo de agua de uma residencia durante
o perıodo de 1205 a 0411 Com as seguintes variaveis valor em reaisconsumo em m3 dias de consumo e construindo o imovel (1sim 2nao)Dados proprios do autor Ver dados na integra no apendice
ca=readtable(consumoagua2txtheader=T) disponıvel em meus documentos
ca
dado valor consumo diasconsumo Construindo
1 1 1476 11 30 0
2 2 1347 10 31 0
64 64 3439 14 31 1
65 65 2221 11 32 0
Observacao use o comando choose() para escolher um conjunto dedados de um diretorio especifico no computador podemos usar
datalt-readtable(filechoose()header=T)
117 Script com extensao R
Exemplo com extensao R lida por readtable com dados do proprio R
exemplo=readtable(filechoose()header=T) dadosrR em aula 3exemplo
dado valor
1 1 115
2 2 117
3 3 118
4 4 119
5 5 127
118 Funcao scan()
A funcao scan tambem pode incluir elementos no R
scan()
1 12
2 13
3 14
Castaneda Daniel F N 2013 18
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1943
119 Func˜ ao sample 1 INICIANDO O R
4 15
5
Read 4 items
[1] 12 13 14 15
Use a funcao scan() para ingressar dados diretamente na plataforma R
119 Funcao sample
Usa-se para escolher aleatoriamente uma amostra de um conjunto deobservacoes ou uma base de dados Como exemplo considere uma amostrade 8 observacoes dos primeiros 20 do banco de dados de consumo de agua
(ca)setseed(10)
ca20=ca[sample(1208)]
ca20
dado valor consumo diasconsumo Construindo
11 11 3153 16 31 1
6 6 1347 10 32 0
8 8 1347 10 30 0
12 12 3755 18 32 1
2 2 1347 10 31 0
4 4 5275 22 33 1
15 15 3755 18 32 0
14 14 1648 11 30 0
120 Rcmdr
Para importar dados do SPSS STATISTICA MINITAB EXCEL TXTetc podemos usar o pacote livre Rcmdr ja disponıvel na biblioteca
library(Rcmdr)
este pacote trabalha via janelas para maior comodidade
121 Dados disponıveis no R
R possuı mais de 100 conjunto de dados alocados no pacote dataset quepodem ser chamados diretamente ( sem extensao) com a funcao data
data()
Castaneda Daniel F N 2013 19
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2043
122 Modificando e editando dados 1 INICIANDO O R
No R pode-se acessar a conjunto de dados de outros pacotes disponıveis
na sua biblioteca Se por acaso esta instalado o pacote lmtest o conjuntode dados ativo neste pacote pode ser chamado da seguinte maneira
data(package=lmtest)
122 Modificando e editando dados
Considere o conjunto de dados anterior Para modificar este conjuntosera disponibilizado uma tela de editor de dados a seguir
xnovo=edit(wagespackage=lmtest)
Para editar um conjunto de dados novo podemos usar a funcao edit daseguinte forma
xn=edit(dataframe())
123 Exportando dados do R para o Excel
Para exportar uma coluna de dados por exemplo o valor pago no con-sumo de agua executamos no R
writeClipboard(ascharacter(valor))
Na tela do Excel usar o comando colar Suponha que esta interessadoem exportar o conjunto de dados ca consumo de agua numa residenciadisponıveis no R para transferir este conjunto de dados use o seguintecomando
writetable(caclipboardsep=tcolnames=NA)
Na tela do Excel faca Ctrl+V ou um click em colar
124 Funcoes apply tapply sapply e lapply
A funcao apply calcula medidas estatısticas por linhas ou por colunas
e a funcao sapply calcula apenas por coluna A diferenca da funcao applyda funcao tapply e que esta ultima calcula medidas estatısticas por estratosConsidere os dados de consumo de agua de uma residencia
apply(ca2mean)
dado valor consumo diasconsumo Construindo
330000000 255690769 126153846 307076923 02615385
Castaneda Daniel F N 2013 20
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2143
125 Distribuic˜ oes de probabilidade 1 INICIANDO O R
tapply(valorConstruindomean)
0 1
2115271 3803882
sapply(camean)
dado valor consumo diasconsumo Construindo
330000000 255690769 126153846 307076923 02615385
lapply(camean) verificar
125 Distribuicoes de probabilidade
R proporciona uma serie de funcoes para variaveis aleatorias estatısticasconhecidas dentro destas funcoes temos distribuicao aleatorizacao proba-
bilidade e quantidadeDistribuicao nome no R argumentos adicionaisbeta beta shape1shap2npcbinomial binom sizeprobcauchy cauchy locationscalechi-quadrado chisq dfnpcexponencial exp rateF f df1df2npcgamma gamma shapescalegeometric geom probhypergeometric hyper mnk
log-normal lnorm meanlogsdloglogistic logis locationscalenegativa binomial nbinom sizeprobnormal norm meansdpoisson pois lambdat-student t dfncpuniforme unif minmaxweibull weibull shapescalewilcoxon wilcoxon mn
Nomes iniciando com ldquodrdquocalculara a densidade da funcao ldquoprdquoparacalcular a probabilidade ou funcao acumulada ldquoqrdquopara o valor quantılico eldquorrdquopara simulacao de numeros aleatoriosExemplos
rpois(105) 10 numeros aleatorios da dist poisson com parametro 5
[1] 3 2 3 1 8 6 1 3 2 3
Castaneda Daniel F N 2013 21
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2243
126 Algoritmos de programac˜ ao no R 1 INICIANDO O R
rnorm(5) 5 numeros aleatorios da normal padr~ao
[1] 004659011 -005019082 -128753167 115411245 -137573809
qt(09550) valor quantilico da t com 50 gl
[1] 1675905
qchisq(0951) valor da qui-quadrado
com 95 de confianc a e 1 g l
[1] 3841459
dpois(45) densidade da dist poisson x=4 parametro=5
[1] 01754674
ppois(45) P(xlt=4) parametro=5
[1] 04404933
126 Algoritmos de programacao no R
R e uma linguagem de programacao orientada a objetos que alem de ana-lisar dados tem sua propria programacao aqui usaremos esta programacaopara analises de estatısticas e econometria Para maiores detalhes podemospesquisar em Venables and Ripley (2000 e 2002) Voce pode estender afuncionalidade do R criando novas funcoes ou programando por exemplo
medianamediarazao lt- function(x)
return(median(x)mean(x))
setseed(20)
z = rexp(10000)
medianamediarazao(z)
[1] 06925193
Construindo a mediana
mediana=function(x)
oddeven=length(x)2
if (oddeven == 0) (sort(x)[length(x)2]+sort(x)[1+ length(x)2])2
else sort(x)[ceiling(length(x)2)]
Construindo a media geometrica
mediageometrica = function (x) exp(mean(log(x)))
Construindo a media harmonica
Castaneda Daniel F N 2013 22
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2343
126 Algoritmos de programac˜ ao no R 1 INICIANDO O R
mediaharmonica=function (x) 1mean(1x)
Um algoritmo que envolva as medidas de tendencia central
medidascentrais = function(y medida)
switch(medida
media = mean(y)
mgeometrica = exp(mean(log(y)))
mharmonica = 1mean(1y)
mediana = median(y)
stop(Medida n~ao inclusa))
medidascentrais(ymedia)
Gerando uma distribuicao uniforme para o lancamento de um dado
ndado=function(x) return(round(runif(x)6+05))
hist(ndado(100000)
Com o comando sample podemos realizar este mesmo experimento daseguinte maneira
gerando=sample(16 100000 replace=TRUE)
hist(gerando)
Considere o seguinte objeto c
c=c(122715365)
Para determinar que classe de objeto e o vetor c podemos identificarusando os seguintes comandos
ischaracter(c)
[1] FALSE
isnumeric(c)
[1] TRUE
A este objeto c podemos a signar nome a cada valor definido da seguinteforma
names(c)=c(abcdef)
c
a b c d e f
10 22 70 150 30 65
Castaneda Daniel F N 2013 23
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2443
127 Lacos no R 1 INICIANDO O R
Podemos associar uma comparacao logica com o vetor c da seguinte
forma
cgt3
a b c d e f
FALSE FALSE TRUE TRUE FALSE TRUE
Quando estamos diante de uma matriz podemos definir os nomes dascolunas com colnames() e os nomes das linhas com rownames() veja oexemplo
d=matrix(c(223582858)33)
colnames(d)=c(c1c2c3)
rownames(d)=c(1o2o3o)
d
c1 c2 c3
1o 2 5 8
2o 2 8 5
3o 3 2 8
A matriz d e entendida como um conjunto de dados que podem serassociados as linhas e as colunas Para determinar se ha associacao entrelinhas e colunas o teste utilizado pode se o qui-quadrado com a funcaochisqtest()
127 Lacos no R
Em algumas situacoes variaveis contınuas podem ser transformadas em variaveisordinais ou dummy para realizar estas operacoes o R proporciona varioslacos como else if ou ifelseExemplo para construir variaveis binarias considere o consumo de aguaonde consumo menor ou igual a 10 m3 e zero e acima de 10 m3 e 1 Ovalor de consumo sendo zero se o valor e menor ou igual a 20 reais e 1 casocontrario
consumoc=numeric(length(consumo))
for(i in 1length(consumo))if (consumo[i]lt=10) consumoc[i]=0
else consumoc[i]=1
valorc=numeric(length(valor))
for(i in 1length(valor))if (valor[i]lt=20) valorc[i]=0 else valorc[i]=1
Castaneda Daniel F N 2013 24
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2543
128 A func˜ ao cut() 1 INICIANDO O R
Nota Podemos construir os lacos considerando a condicao como texto
exemplo consumoc[i]=rdquo[0minus 10]rdquo Comando alternativo de construcao
consumoc2=ifelse(consumolt=10[0-10]Acima de 10)
valorc2=ifelse(valorlt=20[0-20]Acima de 20)
limitacao deste laco e que utilizado apenas para duas condicoes Para lacoscom mais de duas condicoes podemos usar os seguintes comandos
valorc3=numeric(length(valor))
for(i in 1length(valor))if (valor[i]lt20) valorc3[i]=[0-20)
else if (valor[i]lt30)
valorc3[i]=[20-30) else valorc3[i]=[30 a +
table(valorc3)
128 A funcao cut()
Alguma funcoes usam lacos para criar novas variaveis categoricas no exem-plo de valor pago em reais pelo consumo de agua podemos construir cate-gorias por quartis de 25 50 75 1 da seguinte maneira
q=cut(valorquantile(valor) includelowest=T)
table(q)
q
[135165] (165222] (222327] (327693]
17 16 16 16
Outras formas podem ser usando intervalos a criterio pessoal no exemplo aseguir consideramos com valor mınimo 13 e valor maximo 70 com amplitudedo intervalo de 19 e com classes fechadas no mınimo e aberto no maximo
valr=cut(valmseq(137019)right=Fincludeupper=T)
table(valr)
valr
[1332) [3251) [5170)
48 15 2
129 Criando funcoes Teste que compara duas medias
Como exemplo implementamos a estatıstica de comparacao de duasamostras independentes
Castaneda Daniel F N 2013 25
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2643
130 Coeficiente de regressao 1 INICIANDO O R
testeduas lt- function(y1 y2)
+ n1 lt- length(y1) n2 lt- length(y2)
+ yb1 lt- mean(y1) yb2 lt- mean(y2)
+ s1 lt- var(y1) s2 lt- var(y2)
+ s lt- ((n1-1)s1 + (n2-1)s2)(n1+n2-2)
+ tst lt- (yb1 - yb2)sqrt(s(1n1 + 1n2))
+ tst
+
x=runif(20)
y=rnorm(20)
testeduas(xy)
[1] 2874636
Uma forma alternativa e usando a funcao ttest()
ttest(xy)
Welch Two Sample t-test
data x and y
t = 28746 df = 21784 p-value = 0008858
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
01846283 11429380sample estimates
mean of x mean of y
05539270 -01098562
130 Coeficiente de regressao
Implementando o calculo da tangente (inclinacao) do coeficiente no mo-delo de regressao linear simples
mq1lt- function(X y)
+ X lt- qr(X)
+ qrcoef(X y)+
mq1(xy)
[1] -008755885
Castaneda Daniel F N 2013 26
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2743
131 Teste Qui- Quadrado 1 INICIANDO O R
131 Teste Qui- Quadrado
Util para associar linhas e colunas considere os dados em d com as se-guintes hipotesesH0 nao ha associacao entre linhas e colunasHa ha associacao entre linhas e colunas
chisqtest(d)
Pearsonrsquos Chi-squared test
data d
X-squared = 46497 df = 4 p-value = 03252
Warning message
In chisqtest(d) Aproximac~ao Qui-quadrado pode estar incorreta
Para um nıvel α = 0 05 de significancia podemos afirmar que nao haevidencias para afirmar que a associacao entre linhas e colunas (linhas ecolunas sao independentes) Um outro exemplo do uso da distribuicao Qui-quadrado e verificar se um conjunto de dados provem de uma determinadadistribuicao teorica
chisqtest(c)
Chi-squared test for given probabilities
data c
X-squared = 22549 df = 5 p-value = 00004116
Pelo p-value podemos afirmar que a 0 05 de significancia nao ha evi-dencias para afirmar que a distribuicao dos numeros em c sejam uniformesPara implementar este teste de associacao no exemplo de consumo de aguaconsiderando a classificacao mediante lacos (ver lacos no R) entre consumoce valorc temos
table(consumocvalorc)
valorc
consumoc 0 1
0 24 0
Castaneda Daniel F N 2013 27
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2843
132 Teste t - student 1 INICIANDO O R
1 3 38
chisqtest(consumocvalorc)$expected
chisqtest(consumocvalorc)$observed
chisqtest(consumocvalorc)
Pearsonrsquos Chi-squared test with Yatesrsquo continuity correction
data consumoc and valorc
X-squared = 498015 df = 1 p-value = 1701e-12
barplot(table(consumocvalorc) beside=T)
Concluimos que ha associacao entre consumo de agua e o valor pago em
reais
132 Teste t - student
O teste mais usado pelos estatısticos e util para comparar medias deduas amostras tanto independente como emparelhadasExemplo considere as exportacoes mensais (FOB-US) do Brasil durante osanos de 2009 minus 2010 Apos digitacao das observacoes temos
exp2009
[1] 9781920 9586406 11809225 12321617 11984585 14467785 14141930
[8] 13840850 13863222 14081686 12652892 14462624
exp2010[1] 1130507 1219724 1572750 1516121 1770250 1709391 1767292 1923625
[9] 1883279 1838042 1768733 2091814
H0 A medias anuais das exportacoes durante 2009 e 2010 e a mesmaHa CC
ttest(exp2009exp2010paired = FALSE)
Welch Two Sample t-test
data exp2009 and exp2010
t = -42813 df = 18202 p-value = 00004394
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-6075666 -2077757
sample estimates
mean of x mean of y
Castaneda Daniel F N 2013 28
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2943
133 Teste F 1 INICIANDO O R
1274956 1682627
Conclusao nao ha evidencias para aceitar que a media das exportacoesde 2009 e 2010 e a mesma
Quando um conjunto de dados e dado em formato de matriz (dataframe)podemos realizar o teste t de uma coluna em funcao da outra por exemplono consumo de agua queremos testar a hipotese nula H0 o valor de con-sumo de agua e o mesmo construindo ou nao versus a hipotese alternativaHa Caso contrario
attach(ca)
ttest(valor~Construindo)
Welch Two Sample t-test
data valor by Construindo
t = -58383 df = 21731 p-value = 7465e-06
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-2288867 -1088356
sample estimates
mean in group 0 mean in group 1
2115271 3803882
Concluımos que nao ha evidencias para aceitar que o valor de consumode agua e o mesmo quando estamos construindo ( p minus valor lt 005)
Exemplos adicionais podem ser comparando entre as variaveis clas-sificadas (ver secao de lacos) da seguinte forma
ttest(valor~consumoc)
ttest(consumo~valorc)
boxplot(consumo~valorc2 main=Consumo e valor pago em Reais)
boxplot(consumo~valorc3 main=Consumo e valor pago em Reais)
133 Teste F
Para determinar se ha a mesma variabilidade no valor de consumoquando estamos ou nao construindo utilizamos o teste F A hipotese nulae H0 O valor de consumo de agua tem a mesma variabilidade quandoconstruımos que quando nao construımos No R temos
Castaneda Daniel F N 2013 29
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3043
133 Teste F 1 INICIANDO O R
vartest(valor~Construindo)
F test to compare two variances
data valor by Construindo
F = 04834 num df = 47 denom df = 16 p-value = 005478
alternative hypothesis true ratio of variances is not equal to 1
95 percent confidence interval
0194815 1014916
sample estimates
ratio of variances
04834048
Concluımos que nao ha evidencias para rejeitar a hipotese nula por tanto
a variabilidade no valor de consumo e o mesmoO correspondente grafico (Box-plot) e apresentado a seguir
boxplot(valor~Construindo col=8 names=c(n~ao construc~ao construc~ao))
natildeo construccedilatildeo construccedilatildeo
2 0
3 0
4 0
5 0
6 0
7 0
Figura 4 Valor pago em reais no consumo de agua
Em alguns casos ha necessidade de identificar se a variabilidade dasexportacoes e a mesma comparando 2009 e 2010H0 As exportacoes de 2009 e 2010 tem a mesma variabilidade (dados men-sais coletados do site httpwwwipeadatagov)Ha CC
Castaneda Daniel F N 2013 30
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3143
134 Graficos 1 INICIANDO O R
vartest(exp2009exp2010)
F test to compare two variances
data exp2009 and exp2010
F = 03728 num df = 11 denom df = 11 p-value = 01166
alternative hypothesis true ratio of variances is not equal to 1
95 percent confidence interval
01073346 12951624
sample estimates
ratio of variances
03728482
Conclusao Nao houve mudancas na variabilidade das exportacoes de
2009 e 2010
134 Graficos
Considere os dados mensais das exportacoes do Brasil (FOB) durante2009 e 2010 para realizar um grafico de box-plot fazemos
boxplot(exp2009exp2010 main=exportac~oes do Brasil
names=c(20092010))
2009 2010
1 0 0 0 0
1 2 0 0 0
1 4 0 0 0
1 6 0 0 0
1 8 0 0 0
2 0
0 0 0
exportaccedilotildees do Brasil
Figura 5 Exportacoes FOB em dolares
Para o grafico da funcao acumulativa das exportacoes
plot(ecdf(exp2010) dopoint=FALSE verticals=TRUE
lty=3 xlim=c(1000023000))
lines(ecdf(exp2009) dopoint=FALSE verticals=TRUE
col=2)
Castaneda Daniel F N 2013 31
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3243
134 Graficos 1 INICIANDO O R
1 00 00 1 20 00 1 40 00 1 60 00 1 80 00 2 00 00 2 20 00
0 0
0 2
0 4
0 6
0 8
1 0
ecdf(exp2010)
x
F n ( x )
Figura 6 Funcao acumulada das exportacoes 2009-2010
Considere as exportacoes do Brasil um histograma e Q-Q plot sera
hist(exp main=Exportac~oes FOB-US col=8)
qqnorm(exp xlim=c(-55)ylim=c(-100021000))
qqline(exp)
Exportaccedilotildees FOBminusUS$
exp
F r e q u e n c y
0 5000 10000 15000 20000
0
5 0
1 0 0
1 5 0
minus4 minus2 0 2 4
0
5 0 0 0
1 0 0 0 0
1 5 0 0 0
2 0 0 0 0
Normal QminusQ Plot
Theoretical Quantiles
S a m p l e Q u a n t i l e s
Figura 7 Graficos das Exportacoes no Brasil 2001-2010
Para ativar alguns graficos pacotes sao necessarios exemplo
library(MASS)
Castaneda Daniel F N 2013 32
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3343
134 Graficos 1 INICIANDO O R
par(mfrow=c(21))
z = rnorm(500000)
hist(z prob=T)
curve(dnorm(x)add=T)
histscott(z prob=T)
Histogram of z
z
D e n s i t y
minus4 minus2 0 2 4
0 0
0 2
Histogram of x
z
D e n s i t y
minus4 minus2 0 2 4
0 0
0 2
0 4
Figura 8 Histograma de numeros aleatorios normais
boxcox(dist~speed data=cars) transformac~ao Box-Cox
minus2 minus1 0 1 2
minus 4 0 0
minus 3 5 0
minus 3 0 0
minus 2 5 0
λ
l o g minus
L i k e l i h o o d
95
Figura 9 Valor otimo na transformacao Box-Cox
Castaneda Daniel F N 2013 33
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3443
135 Tabelas 1 INICIANDO O R
Para ter um alcance maior sobre a capacidade grafica do R podemos
usar as seguintes funcoes
demo(graphics)
demo(image)
demo(persp)
demo(recursion)
demo(plotmath)
demo(package = packages(allavailable = TRUE))
135 Tabelas
Algumas tabelas estatısticas podem ser construıdas com a funcao table()estado=c(PBPEALSEBAMGESRJPBPEAL
SEBAMGESRJPBPEALSEBAMGESRJ
PBPEALSEBAMGESRJ)
estadof=factor(estado)
estadof
[1] PB PE AL SE BA MG ES RJ PB PE AL SE BA MG ES RJ PB PE AL SE BA
[22] MG ES RJ PB PE AL SE BA MG ES RJ
Levels AL BA ES MG PB PE RJ SE
setseed(10)
salarios=c(round(runif(32)100))
salarios
[1] 51 31 43 69 9 23 27 27 62 43 65 57 11 60 36 43 5 26 40 84 86 62 78 36 41
[26] 71 84 24 77 36 54 9
salariom=tapply(salariosestadofmean)
salariom
AL BA ES MG PB PE RJ SE
5800 4575 4875 4525 3975 4275 2875 5850
salariof=factor(cut(salariosbreaks=0+15(07)))
salariof
[1] (4560] (3045] (3045] (6075] (015] (1530] (1530] (1530] (6075]
[10] (3045] (6075] (4560] (015] (4560] (3045] (3045] (015] (1530]
[19] (3045] (7590] (7590] (6075] (7590] (3045] (3045] (6075] (7590]
[28] (1530] (7590] (3045] (4560] (015]
Levels (015] (1530] (3045] (4560] (6075] (7590]
table(salariofestadof)
estadof
Castaneda Daniel F N 2013 34
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3543
136 Comandos adicionais 2 R E ECONOMETRIA
salariof AL BA ES MG PB PE RJ SE
(015] 0 2 0 0 1 0 1 0
(1530] 0 0 1 1 0 1 1 1
(3045] 2 0 1 1 1 2 2 0
(4560] 0 0 1 1 1 0 0 1
(6075] 1 0 0 1 1 1 0 1
(7590] 1 2 1 0 0 0 0 1
table(salariofestadof)
estadof
salariof AL BA ES MG PB PE RJ SE
(015] 1 1 0 0 1 0 1 2
(1530] 0 0 1 1 0 0 1 1
(3045] 0 0 2 0 0 1 0 0
(4560] 2 0 1 0 0 1 0 0
(6075] 0 1 0 2 3 0 1 0
(7590] 0 1 0 1 0 2 0 1
(90105] 0 1 0 0 0 0 1 0
136 Comandos adicionais
Em situacoes onde a ausencia de informacao ou dados faltantes(missing)as funcoes do R precisam declarar esta ausencia com o comando narm=T
indicando que a informacao apresenta dados faltantes Exemplo
df=c(2NA58NA) O ultimo elemento esta ausente
mean(f) Comando padr~ao para calcular a media
[1] NA
mean(fnarm=T) Comando declarando a ausencia de elementos
[1] 5
2 R e Econometria
Dados economicos precisam de uma atencao matematica para dar fun-
damento a suas teorias Atualmente pelo avanco computacional nao habarreiras para serem aplicadas e torna-se ate divertida se definimos a plata-forma de trabalho computacional A econometria requer de uma abordagemdiferenciada pois faz uso de da teoria economica economia matematica es-tatıstica economica estatıstica matematica e inferencia estatıstica Esta
Castaneda Daniel F N 2013 35
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3643
21 Tipos de Dados 2 R E ECONOMETRIA
disciplina aproxima a Estatıstica da Economia onde a teoria economica for-
mula as hipoteses Por exemplo uma reducao de precos de uma mercadoriadevera aumentar a quantidade demandada dessa mercadoria considerandouma relacao inversa entre preco e quantidade demandada ou a despesa deconsumo per capita depende da renda per capita considerando uma relacaodireta ou seja a medida que a renda aumenta a despesa tende a aumentarOutro exemplo onde consideremos a area microeconomica consumo de aguade uma residencia e o valor pago e natural imaginar que ha uma relacaodireta entre consumo e valor pago pelo consumo Porem precisamos saberqual e quanto e esta forca de relacao por tanto o econometrista forneceesta informacao usando a inferencia estatıstica e a estatıstica economicaAs estimativas de esta relacao fica por conta de estatıstica matematica
Para completar e cerrar este circulo de disciplinas abordadas na Econo-metria precisamos utilizar uma ferramenta de calculo computacional quebrinde estabilidade precisao e rapidez nos seus resultados para superartudo isto utilizaremos o ambiente R A econometria surge como uma disci-plina autonoma em virtude de aglutinar todas estas areas do conhecimentomerecendo um estudo proprio
21 Tipos de Dados
Os tipos de dados sao
1 Dados de corte transversal (cross-section) sao dados de uma ou maisvariaveis coletadas no mesmo ponto do tempo Por exemplo os censosno Brasil sao coletados num instante do tempo No censo variaveisdemograficas sao exploradas como contagem da populacao numerode indivıduos em cada famılia idade dos integrantes da famılia ouvariaveis economicas como renda consumo tipo de moradia (alugadaou propria) etc estes dados sao adquiridas a cada decada pelo IBGE
2 Dados longitudinais ou de series temporais sao caracterizadas porobservacoes ao longo do tempo No Brasil um site que disponibilizadados desta natureza e o IPEADATA
3 Dados de painel e uma mistura de dados de corte transversal e longi-tudinais ou ao longo do tempo estudamos o comportamento de unida-des individuais Por exemplo series mensal do ındice de precos serieanuais do produto interno bruto (PIB) ou serie anual da balanca co-mercial dos municıpios do Brasil considerando cada municıpio comounidades individuais
Castaneda Daniel F N 2013 36
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3743
22 Metodologia 2 R E ECONOMETRIA
22 Metodologia
Os passos da metodologia econometrica tradicional ou classica se iniciadesde a formulacao da hipotese ate as conclusoes em geral sao
221 Hipotese
Como referencia usaremos a hipotese nula H 0 a qual nulifica qualquerdiferenca e a hipoteses alternativa H a aquela que contradiz total ou par-cialmente a hipotese nula Exemplo
1 H 0 nao existe uma relacao entre consumo de agua e valor pago pela
mesma
2 Ha existe uma relacao entre consumo de agua e valor pago pelamesma
A hipotese alternativa pode ser dividida em tres possibilidades no exem-plo do consumo de agua pode ser dividida em existe alguma relacao oua relacao e negativa ou a relacao e positiva A primeira denomina-se dehipotese alternativa com teste bicaudal o segundo de teste unicaudal a es-querda e finalmente o ultimo com teste unicaudal a direita Nosso exemploconsidere H a existe alguma relacao (teste bicaudal)
222 Modelo matematico
Usaremos uma funcao de consumo simples
Y = β 1 + β 2X (11)
A variavel dependente Y valor pago pelo consumo e estimado por Y A variavel independente e X consumo de agua em m3 β 1 representa ovalor pago quando nao ha consumo de agua Nosso interesse e determinara tangente ou a variacao pelo consumo β 2
223 Modelo econometrico do valor pago
O modelo matematico fornece a relacao determinıstica entre valor pagoem reais e consumo de agua porem as relacoes entre as variaveis economicassao em geral inexatas Assim ao longo do tempo no podemos esperar que ovalor pago e o consumo em m3 se situem exatamente numa linha reta isto
Castaneda Daniel F N 2013 37
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3843
22 Metodologia 2 R E ECONOMETRIA
por que alem do consumo outras variaveis afetam o valor pago por exemplo
os dias de consumo o perıodo de reforma da casa ou a inflacao podendoalterar o valor pago pelo consumo
224 Nıvel de significancia
Denominado de α frequentemente usa-se α = 005 em situacoes derisco usa-se α = 001 Em testes bicaudais divide-se α em duas partes elocalizam-se nos extremos da distribuicao de prova Para testes unicaudaislocaliza-se no extremo da distribuicao indicada pela hipotese alternativaNosso exemplo α = 005 e por tanto α2 = 0025
225 Obtencao de Dados
Considere 65 observacoes (mes a mes) do consumo de agua em umaresidencia e o valor pago em reais durante o perıodo de 122005 a 042011Ver dados no apendice A Um plot e apresentado a seguir
10 15 20
2 0
3 0
4 0
5 0
6 0
7 0
Valor pago em reais de consumo de aacutegua
Variaacutevel independenteConsumo em m3
V a r i aacute v e l d e p e n d e n t e V a l o r p a g o
Y = minus12365+3007X
Figura 10 Relacao causal entre consumo e valor pago em reais
Podemos observar visualmente que ha uma relacao positiva entre valorpago e consumo de agua onde a variacao pelo consumo ou variacao dovalor pago (tangente) β 2 cresce positivamente Precisamos verificar se estavariacao β 2 e estatisticamente diferente de zero (significativa)
Castaneda Daniel F N 2013 38
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3943
22 Metodologia 2 R E ECONOMETRIA
226 Estatıstica de prova
Denominada de funcao pivo ou estatıstica de teste No ambito pa-rametrico usa-se as estatısticas t student (amostras pequenas) quando ne grande e indiferente o uso da t student ou normal No exemplo para tes-tar qual a inclinacao da variacao pelo consumo de agua usamos a seguinteestatıstica
t0 =β 2
dp(β 2)asymp tnminus2gl (12)
onde t0 e o valor calculado da estatıstica t β 2 e a estimativa do parametro(variacao pelo consumo) β 2 dp(β 2) e o desvio padrao da estimativa doparametro β 2 o valor t0 segue uma distribuicao t-student com nminus2 graus deliberdade(gl) Os graus de liberdade e calculado diferenciando o tamanhoda amostra com o numero de parametro do modelo (n-p) O valor quantılicotnminus2gl(0025) corresponde a distribuicao t-student com 0025 de significanciacom n minus 2 graus de liberdade e n e o numero total de observacoes Nossoexemplo β 2 = 3007 e dp(β 2) = 013 por tanto t0 = 2313 e comparadocom o valor da tabela da t-student com 63 gl e com α2 = 0025 sendo estevalor igual 19983
227 Tipos de erro
Ocorre o erro tipo I (α) ao se rejeitar a hipotese de nulidade quandodeveria aceita-la Por outro lado quando se aceita a hipotese de nulidadequando deveria rejeita-la comete-se o erro tipo II (β ) Nas duas situacoestomou-se uma decisao errada O interesse e a minimizacao dos erros tipo Ie II que na pratica so e possıvel aumentando-se o tamanho da amostra Porrazoes diversas o aumento do tamanho da amostra muitas vezes torna-se im-praticavel A gravidade do erro tipo I e distinta da do erro tipo II quando seconsegue identificar o erro mais grave a opcao e a minimizacao deste poremquando a probabilidade de ocorrencia de um tipo de erro diminui a do outroaumenta e vice versa Podemos observar este criterio na seguinte tabela
Nao rejeita rejeitaH0 verdadeira Correto (1 minus α) Erro do tipo I (α)H0 falsa Erro do tipo II (β ) Correto (1minus β )
Castaneda Daniel F N 2013 39
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4043
22 Metodologia 2 R E ECONOMETRIA
228 Regra de Decisao
Os pacotes ou plataformas estatısticas apresentam o valor observado dafuncao pivo e o p minus valor (Area de probabilidade esta relacionada comonıvel de significancia) assim a funcao pivo apresenta o valor numerico nafuncao de densidade da Estatıstica exemplo dentro da densidade da normalQuando o pvalor e menor do que α = 005 no caso do teste unicaudal (eα = 0025 no caso bicaudal) concluımos que nao ha evidencia suficiente paraaceitar H0 Caso contrario se o p minus valor for maior que α = 005 podemosconcluir que nao ha evidencia suficiente para rejeitar H0 Nosso exemplot0 = 2313 gt 1998 (1998 e valor da distribuicao t com 63 gl e nıvel designificancia bicaudal de 005) este valor localiza-se na cauda positiva da
distribuicao com 63 graus de liberdade(n minus 2 = 65 minus 2) Por outro lado o pminus valor lt 0025 por tanto nao ha evidencias para aceitar H0 em favor deaceitar que o coeficiente de inclinacao (ou tangente) e positiva No recorrerdo livro usaremos codigos para as medidas do pminusvalor que em geral apareceem todo comando summary() Como consequencia a linha que aparece aseguir sera excluıda das saıdas do R
Signif codes 0 0001 001 005 01 1
sera interpretada da seguinte maneira
bull 0 significancia menor que 0001
bull 0001 significancia menor que 001
bull 001 significancia menor que 005
bull 005 significancia menor que 01
bull 01 significancia menor que 1
229 Conclusoes
Esta parte do teste de hipoteses e explicada em conjunto O Estatıstico eo Economista que sao os profissionais da area em que as observacoes foramcoletadas decidem sobre as providencias futuras No exemplo podemosafirmar que a cada metro cubico a mais de consumo de agua sera pago emmedia 3 reais a mais No momento este valor pago pode parecer alto poremna falta de este liquido elementar este valor pode aumentar e por tantosofrera mudancas
Castaneda Daniel F N 2013 40
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4143
23 Previs˜ oes 2 R E ECONOMETRIA
23 Previsoes
Muitas vezes estamos interessados em determinar o que acontece quandouma quantidade de consumo de agua em m3 e utilizada e qual o valor pagoem reais Por exemplo se nosso interesse e saber quanto sera pago por 20m3
de consumo de agua em uma residencia A conta a realizar eValor pago = minus12365 + 3007 lowast 20 = 47775 reaisA interpretacao deste valor e em media o valor pago em reais por 20m3 deagua consumida e de aproximadamente 478 reais
231 Resıduos
Uma questao fundamental em econometria e identificar o comportamentodos resıduos de um modelo Considere Y o valor real pago e Y valor pagoestimado a partir de um modelo entao este erro e aleatorio e definido por
ϵi = Y i minus Y i (13)
A abordagem mais formal dos erros e feita nos proximos capıtulosUma questao importante e determinar qual o comportamento da estima-tiva destes erros aos quais chamamos de resıduos Para determinar a nor-malidade dos resıduos realizamos o teste de Jarque Bera com a funcao
jarqueberatest() da biblioteca tseries com o seguinte grafico
minus2 minus1 0 1 2
minus 5
0
5
1 0
resiacuteduos do modelo valor= f(consumo)
Theoretical Quantiles
S a m p l e Q u a n t i l e s
Figura 11 Normalidade dos resıduos
Castaneda Daniel F N 2013 41
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4243
24 Exercıcios REFER ENCIAS
24 Exercıcios
1 Por que a econometria precisa ser uma disciplina autonoma
2 Que e econometria
3 Pesquise dados de corte transversal corte longitudinal e de painel
4 Construa uma metodologia econometrica para o consumo familiar emfuncao da renda familiar (linear)
5 No item anterior e possıvel encontrar uma relacao quadratica
6 Quais sao os pressupostos basicos de um modelo de regressao linear
simples
7 Como e chamado o parametro de inclinacao ou tangente num modelode regressao linear simples em econometria
8 Que e o projeto R
9 R e um programa econometrico
Referencias
[1] Albert Jim (2009) Bayesian computation with R Editora SpringerSecond Edition New York USA
[2] Borde Arvind (1992) TEX by example A beginneracutes guide Ed Aca-demic Press Professional United States of America
[3] Carneiro Orlando (1997) Econometria Bacute asica Teoria e Aplicac˜ oes Editora Atlas Segunda Edicao son Paulo
[4] Conover W J (1999) Practical nonparametric statistics 3ed NewYork
[5] Cribari Neto F (2002) C for Econometricians conputational Econo-
mics 14 p135-149
[6] Dalgaard Peter(2008) Introductory Statistics with R Editora SpringerSecond Edition New York USA
[7] Ehlers Ricardo(2007) Analise de series Temporais Universidade Fe-deral do Parana
Castaneda Daniel F N 2013 42
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4343
REFER ENCIAS REFER ENCIAS
[8] Frery Alejandro Cribari-Neto Francisco(2011)Elementos de
Estatıstica conputacional Usando Plataformas de Software Li-vreGratuito Publicacoes Matematicas Editora IMPA
[9] Gujarati Damodar N (2000) Econometria Bacute asica Makron Books Ter-ceira Edicao son Paulo
[10] Knuth DE (1981)The Art of conputer Programming Third EditionVolume 2 Seminumerical Algorithms Addison-Wesley Publishingconpany Massachusetts
[11] Korgi Rodrigo de Castro (2003) El universo LAT E X Editora Facultadde Ciencias Segunda Edicao Bogota
[12] Krawczyk H How to Predict Congruential Generators InJournal of Algorithms V 13 N 4 1992
[13] LrsquoEcuyer P (2001) Software for uniform random number generationdistinguishing the good and the bad In Proceedings of the 2001 WinterSimulation Conference
[14] Maindonald John Braun W John(2010) Data analysis and graphics using R an example-based approach Cambridge University Press NewYork USA
[15] Mingoti(2005)Analise De Dados Atraves De Metodos De Estatistica Multivariada - Uma Abordagem Aplicada Editora UFMG Belo Hori-zonte
Castaneda Daniel F N 2013 43
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 1943
119 Func˜ ao sample 1 INICIANDO O R
4 15
5
Read 4 items
[1] 12 13 14 15
Use a funcao scan() para ingressar dados diretamente na plataforma R
119 Funcao sample
Usa-se para escolher aleatoriamente uma amostra de um conjunto deobservacoes ou uma base de dados Como exemplo considere uma amostrade 8 observacoes dos primeiros 20 do banco de dados de consumo de agua
(ca)setseed(10)
ca20=ca[sample(1208)]
ca20
dado valor consumo diasconsumo Construindo
11 11 3153 16 31 1
6 6 1347 10 32 0
8 8 1347 10 30 0
12 12 3755 18 32 1
2 2 1347 10 31 0
4 4 5275 22 33 1
15 15 3755 18 32 0
14 14 1648 11 30 0
120 Rcmdr
Para importar dados do SPSS STATISTICA MINITAB EXCEL TXTetc podemos usar o pacote livre Rcmdr ja disponıvel na biblioteca
library(Rcmdr)
este pacote trabalha via janelas para maior comodidade
121 Dados disponıveis no R
R possuı mais de 100 conjunto de dados alocados no pacote dataset quepodem ser chamados diretamente ( sem extensao) com a funcao data
data()
Castaneda Daniel F N 2013 19
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2043
122 Modificando e editando dados 1 INICIANDO O R
No R pode-se acessar a conjunto de dados de outros pacotes disponıveis
na sua biblioteca Se por acaso esta instalado o pacote lmtest o conjuntode dados ativo neste pacote pode ser chamado da seguinte maneira
data(package=lmtest)
122 Modificando e editando dados
Considere o conjunto de dados anterior Para modificar este conjuntosera disponibilizado uma tela de editor de dados a seguir
xnovo=edit(wagespackage=lmtest)
Para editar um conjunto de dados novo podemos usar a funcao edit daseguinte forma
xn=edit(dataframe())
123 Exportando dados do R para o Excel
Para exportar uma coluna de dados por exemplo o valor pago no con-sumo de agua executamos no R
writeClipboard(ascharacter(valor))
Na tela do Excel usar o comando colar Suponha que esta interessadoem exportar o conjunto de dados ca consumo de agua numa residenciadisponıveis no R para transferir este conjunto de dados use o seguintecomando
writetable(caclipboardsep=tcolnames=NA)
Na tela do Excel faca Ctrl+V ou um click em colar
124 Funcoes apply tapply sapply e lapply
A funcao apply calcula medidas estatısticas por linhas ou por colunas
e a funcao sapply calcula apenas por coluna A diferenca da funcao applyda funcao tapply e que esta ultima calcula medidas estatısticas por estratosConsidere os dados de consumo de agua de uma residencia
apply(ca2mean)
dado valor consumo diasconsumo Construindo
330000000 255690769 126153846 307076923 02615385
Castaneda Daniel F N 2013 20
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2143
125 Distribuic˜ oes de probabilidade 1 INICIANDO O R
tapply(valorConstruindomean)
0 1
2115271 3803882
sapply(camean)
dado valor consumo diasconsumo Construindo
330000000 255690769 126153846 307076923 02615385
lapply(camean) verificar
125 Distribuicoes de probabilidade
R proporciona uma serie de funcoes para variaveis aleatorias estatısticasconhecidas dentro destas funcoes temos distribuicao aleatorizacao proba-
bilidade e quantidadeDistribuicao nome no R argumentos adicionaisbeta beta shape1shap2npcbinomial binom sizeprobcauchy cauchy locationscalechi-quadrado chisq dfnpcexponencial exp rateF f df1df2npcgamma gamma shapescalegeometric geom probhypergeometric hyper mnk
log-normal lnorm meanlogsdloglogistic logis locationscalenegativa binomial nbinom sizeprobnormal norm meansdpoisson pois lambdat-student t dfncpuniforme unif minmaxweibull weibull shapescalewilcoxon wilcoxon mn
Nomes iniciando com ldquodrdquocalculara a densidade da funcao ldquoprdquoparacalcular a probabilidade ou funcao acumulada ldquoqrdquopara o valor quantılico eldquorrdquopara simulacao de numeros aleatoriosExemplos
rpois(105) 10 numeros aleatorios da dist poisson com parametro 5
[1] 3 2 3 1 8 6 1 3 2 3
Castaneda Daniel F N 2013 21
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2243
126 Algoritmos de programac˜ ao no R 1 INICIANDO O R
rnorm(5) 5 numeros aleatorios da normal padr~ao
[1] 004659011 -005019082 -128753167 115411245 -137573809
qt(09550) valor quantilico da t com 50 gl
[1] 1675905
qchisq(0951) valor da qui-quadrado
com 95 de confianc a e 1 g l
[1] 3841459
dpois(45) densidade da dist poisson x=4 parametro=5
[1] 01754674
ppois(45) P(xlt=4) parametro=5
[1] 04404933
126 Algoritmos de programacao no R
R e uma linguagem de programacao orientada a objetos que alem de ana-lisar dados tem sua propria programacao aqui usaremos esta programacaopara analises de estatısticas e econometria Para maiores detalhes podemospesquisar em Venables and Ripley (2000 e 2002) Voce pode estender afuncionalidade do R criando novas funcoes ou programando por exemplo
medianamediarazao lt- function(x)
return(median(x)mean(x))
setseed(20)
z = rexp(10000)
medianamediarazao(z)
[1] 06925193
Construindo a mediana
mediana=function(x)
oddeven=length(x)2
if (oddeven == 0) (sort(x)[length(x)2]+sort(x)[1+ length(x)2])2
else sort(x)[ceiling(length(x)2)]
Construindo a media geometrica
mediageometrica = function (x) exp(mean(log(x)))
Construindo a media harmonica
Castaneda Daniel F N 2013 22
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2343
126 Algoritmos de programac˜ ao no R 1 INICIANDO O R
mediaharmonica=function (x) 1mean(1x)
Um algoritmo que envolva as medidas de tendencia central
medidascentrais = function(y medida)
switch(medida
media = mean(y)
mgeometrica = exp(mean(log(y)))
mharmonica = 1mean(1y)
mediana = median(y)
stop(Medida n~ao inclusa))
medidascentrais(ymedia)
Gerando uma distribuicao uniforme para o lancamento de um dado
ndado=function(x) return(round(runif(x)6+05))
hist(ndado(100000)
Com o comando sample podemos realizar este mesmo experimento daseguinte maneira
gerando=sample(16 100000 replace=TRUE)
hist(gerando)
Considere o seguinte objeto c
c=c(122715365)
Para determinar que classe de objeto e o vetor c podemos identificarusando os seguintes comandos
ischaracter(c)
[1] FALSE
isnumeric(c)
[1] TRUE
A este objeto c podemos a signar nome a cada valor definido da seguinteforma
names(c)=c(abcdef)
c
a b c d e f
10 22 70 150 30 65
Castaneda Daniel F N 2013 23
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2443
127 Lacos no R 1 INICIANDO O R
Podemos associar uma comparacao logica com o vetor c da seguinte
forma
cgt3
a b c d e f
FALSE FALSE TRUE TRUE FALSE TRUE
Quando estamos diante de uma matriz podemos definir os nomes dascolunas com colnames() e os nomes das linhas com rownames() veja oexemplo
d=matrix(c(223582858)33)
colnames(d)=c(c1c2c3)
rownames(d)=c(1o2o3o)
d
c1 c2 c3
1o 2 5 8
2o 2 8 5
3o 3 2 8
A matriz d e entendida como um conjunto de dados que podem serassociados as linhas e as colunas Para determinar se ha associacao entrelinhas e colunas o teste utilizado pode se o qui-quadrado com a funcaochisqtest()
127 Lacos no R
Em algumas situacoes variaveis contınuas podem ser transformadas em variaveisordinais ou dummy para realizar estas operacoes o R proporciona varioslacos como else if ou ifelseExemplo para construir variaveis binarias considere o consumo de aguaonde consumo menor ou igual a 10 m3 e zero e acima de 10 m3 e 1 Ovalor de consumo sendo zero se o valor e menor ou igual a 20 reais e 1 casocontrario
consumoc=numeric(length(consumo))
for(i in 1length(consumo))if (consumo[i]lt=10) consumoc[i]=0
else consumoc[i]=1
valorc=numeric(length(valor))
for(i in 1length(valor))if (valor[i]lt=20) valorc[i]=0 else valorc[i]=1
Castaneda Daniel F N 2013 24
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2543
128 A func˜ ao cut() 1 INICIANDO O R
Nota Podemos construir os lacos considerando a condicao como texto
exemplo consumoc[i]=rdquo[0minus 10]rdquo Comando alternativo de construcao
consumoc2=ifelse(consumolt=10[0-10]Acima de 10)
valorc2=ifelse(valorlt=20[0-20]Acima de 20)
limitacao deste laco e que utilizado apenas para duas condicoes Para lacoscom mais de duas condicoes podemos usar os seguintes comandos
valorc3=numeric(length(valor))
for(i in 1length(valor))if (valor[i]lt20) valorc3[i]=[0-20)
else if (valor[i]lt30)
valorc3[i]=[20-30) else valorc3[i]=[30 a +
table(valorc3)
128 A funcao cut()
Alguma funcoes usam lacos para criar novas variaveis categoricas no exem-plo de valor pago em reais pelo consumo de agua podemos construir cate-gorias por quartis de 25 50 75 1 da seguinte maneira
q=cut(valorquantile(valor) includelowest=T)
table(q)
q
[135165] (165222] (222327] (327693]
17 16 16 16
Outras formas podem ser usando intervalos a criterio pessoal no exemplo aseguir consideramos com valor mınimo 13 e valor maximo 70 com amplitudedo intervalo de 19 e com classes fechadas no mınimo e aberto no maximo
valr=cut(valmseq(137019)right=Fincludeupper=T)
table(valr)
valr
[1332) [3251) [5170)
48 15 2
129 Criando funcoes Teste que compara duas medias
Como exemplo implementamos a estatıstica de comparacao de duasamostras independentes
Castaneda Daniel F N 2013 25
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2643
130 Coeficiente de regressao 1 INICIANDO O R
testeduas lt- function(y1 y2)
+ n1 lt- length(y1) n2 lt- length(y2)
+ yb1 lt- mean(y1) yb2 lt- mean(y2)
+ s1 lt- var(y1) s2 lt- var(y2)
+ s lt- ((n1-1)s1 + (n2-1)s2)(n1+n2-2)
+ tst lt- (yb1 - yb2)sqrt(s(1n1 + 1n2))
+ tst
+
x=runif(20)
y=rnorm(20)
testeduas(xy)
[1] 2874636
Uma forma alternativa e usando a funcao ttest()
ttest(xy)
Welch Two Sample t-test
data x and y
t = 28746 df = 21784 p-value = 0008858
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
01846283 11429380sample estimates
mean of x mean of y
05539270 -01098562
130 Coeficiente de regressao
Implementando o calculo da tangente (inclinacao) do coeficiente no mo-delo de regressao linear simples
mq1lt- function(X y)
+ X lt- qr(X)
+ qrcoef(X y)+
mq1(xy)
[1] -008755885
Castaneda Daniel F N 2013 26
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2743
131 Teste Qui- Quadrado 1 INICIANDO O R
131 Teste Qui- Quadrado
Util para associar linhas e colunas considere os dados em d com as se-guintes hipotesesH0 nao ha associacao entre linhas e colunasHa ha associacao entre linhas e colunas
chisqtest(d)
Pearsonrsquos Chi-squared test
data d
X-squared = 46497 df = 4 p-value = 03252
Warning message
In chisqtest(d) Aproximac~ao Qui-quadrado pode estar incorreta
Para um nıvel α = 0 05 de significancia podemos afirmar que nao haevidencias para afirmar que a associacao entre linhas e colunas (linhas ecolunas sao independentes) Um outro exemplo do uso da distribuicao Qui-quadrado e verificar se um conjunto de dados provem de uma determinadadistribuicao teorica
chisqtest(c)
Chi-squared test for given probabilities
data c
X-squared = 22549 df = 5 p-value = 00004116
Pelo p-value podemos afirmar que a 0 05 de significancia nao ha evi-dencias para afirmar que a distribuicao dos numeros em c sejam uniformesPara implementar este teste de associacao no exemplo de consumo de aguaconsiderando a classificacao mediante lacos (ver lacos no R) entre consumoce valorc temos
table(consumocvalorc)
valorc
consumoc 0 1
0 24 0
Castaneda Daniel F N 2013 27
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2843
132 Teste t - student 1 INICIANDO O R
1 3 38
chisqtest(consumocvalorc)$expected
chisqtest(consumocvalorc)$observed
chisqtest(consumocvalorc)
Pearsonrsquos Chi-squared test with Yatesrsquo continuity correction
data consumoc and valorc
X-squared = 498015 df = 1 p-value = 1701e-12
barplot(table(consumocvalorc) beside=T)
Concluimos que ha associacao entre consumo de agua e o valor pago em
reais
132 Teste t - student
O teste mais usado pelos estatısticos e util para comparar medias deduas amostras tanto independente como emparelhadasExemplo considere as exportacoes mensais (FOB-US) do Brasil durante osanos de 2009 minus 2010 Apos digitacao das observacoes temos
exp2009
[1] 9781920 9586406 11809225 12321617 11984585 14467785 14141930
[8] 13840850 13863222 14081686 12652892 14462624
exp2010[1] 1130507 1219724 1572750 1516121 1770250 1709391 1767292 1923625
[9] 1883279 1838042 1768733 2091814
H0 A medias anuais das exportacoes durante 2009 e 2010 e a mesmaHa CC
ttest(exp2009exp2010paired = FALSE)
Welch Two Sample t-test
data exp2009 and exp2010
t = -42813 df = 18202 p-value = 00004394
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-6075666 -2077757
sample estimates
mean of x mean of y
Castaneda Daniel F N 2013 28
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2943
133 Teste F 1 INICIANDO O R
1274956 1682627
Conclusao nao ha evidencias para aceitar que a media das exportacoesde 2009 e 2010 e a mesma
Quando um conjunto de dados e dado em formato de matriz (dataframe)podemos realizar o teste t de uma coluna em funcao da outra por exemplono consumo de agua queremos testar a hipotese nula H0 o valor de con-sumo de agua e o mesmo construindo ou nao versus a hipotese alternativaHa Caso contrario
attach(ca)
ttest(valor~Construindo)
Welch Two Sample t-test
data valor by Construindo
t = -58383 df = 21731 p-value = 7465e-06
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-2288867 -1088356
sample estimates
mean in group 0 mean in group 1
2115271 3803882
Concluımos que nao ha evidencias para aceitar que o valor de consumode agua e o mesmo quando estamos construindo ( p minus valor lt 005)
Exemplos adicionais podem ser comparando entre as variaveis clas-sificadas (ver secao de lacos) da seguinte forma
ttest(valor~consumoc)
ttest(consumo~valorc)
boxplot(consumo~valorc2 main=Consumo e valor pago em Reais)
boxplot(consumo~valorc3 main=Consumo e valor pago em Reais)
133 Teste F
Para determinar se ha a mesma variabilidade no valor de consumoquando estamos ou nao construindo utilizamos o teste F A hipotese nulae H0 O valor de consumo de agua tem a mesma variabilidade quandoconstruımos que quando nao construımos No R temos
Castaneda Daniel F N 2013 29
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3043
133 Teste F 1 INICIANDO O R
vartest(valor~Construindo)
F test to compare two variances
data valor by Construindo
F = 04834 num df = 47 denom df = 16 p-value = 005478
alternative hypothesis true ratio of variances is not equal to 1
95 percent confidence interval
0194815 1014916
sample estimates
ratio of variances
04834048
Concluımos que nao ha evidencias para rejeitar a hipotese nula por tanto
a variabilidade no valor de consumo e o mesmoO correspondente grafico (Box-plot) e apresentado a seguir
boxplot(valor~Construindo col=8 names=c(n~ao construc~ao construc~ao))
natildeo construccedilatildeo construccedilatildeo
2 0
3 0
4 0
5 0
6 0
7 0
Figura 4 Valor pago em reais no consumo de agua
Em alguns casos ha necessidade de identificar se a variabilidade dasexportacoes e a mesma comparando 2009 e 2010H0 As exportacoes de 2009 e 2010 tem a mesma variabilidade (dados men-sais coletados do site httpwwwipeadatagov)Ha CC
Castaneda Daniel F N 2013 30
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3143
134 Graficos 1 INICIANDO O R
vartest(exp2009exp2010)
F test to compare two variances
data exp2009 and exp2010
F = 03728 num df = 11 denom df = 11 p-value = 01166
alternative hypothesis true ratio of variances is not equal to 1
95 percent confidence interval
01073346 12951624
sample estimates
ratio of variances
03728482
Conclusao Nao houve mudancas na variabilidade das exportacoes de
2009 e 2010
134 Graficos
Considere os dados mensais das exportacoes do Brasil (FOB) durante2009 e 2010 para realizar um grafico de box-plot fazemos
boxplot(exp2009exp2010 main=exportac~oes do Brasil
names=c(20092010))
2009 2010
1 0 0 0 0
1 2 0 0 0
1 4 0 0 0
1 6 0 0 0
1 8 0 0 0
2 0
0 0 0
exportaccedilotildees do Brasil
Figura 5 Exportacoes FOB em dolares
Para o grafico da funcao acumulativa das exportacoes
plot(ecdf(exp2010) dopoint=FALSE verticals=TRUE
lty=3 xlim=c(1000023000))
lines(ecdf(exp2009) dopoint=FALSE verticals=TRUE
col=2)
Castaneda Daniel F N 2013 31
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3243
134 Graficos 1 INICIANDO O R
1 00 00 1 20 00 1 40 00 1 60 00 1 80 00 2 00 00 2 20 00
0 0
0 2
0 4
0 6
0 8
1 0
ecdf(exp2010)
x
F n ( x )
Figura 6 Funcao acumulada das exportacoes 2009-2010
Considere as exportacoes do Brasil um histograma e Q-Q plot sera
hist(exp main=Exportac~oes FOB-US col=8)
qqnorm(exp xlim=c(-55)ylim=c(-100021000))
qqline(exp)
Exportaccedilotildees FOBminusUS$
exp
F r e q u e n c y
0 5000 10000 15000 20000
0
5 0
1 0 0
1 5 0
minus4 minus2 0 2 4
0
5 0 0 0
1 0 0 0 0
1 5 0 0 0
2 0 0 0 0
Normal QminusQ Plot
Theoretical Quantiles
S a m p l e Q u a n t i l e s
Figura 7 Graficos das Exportacoes no Brasil 2001-2010
Para ativar alguns graficos pacotes sao necessarios exemplo
library(MASS)
Castaneda Daniel F N 2013 32
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3343
134 Graficos 1 INICIANDO O R
par(mfrow=c(21))
z = rnorm(500000)
hist(z prob=T)
curve(dnorm(x)add=T)
histscott(z prob=T)
Histogram of z
z
D e n s i t y
minus4 minus2 0 2 4
0 0
0 2
Histogram of x
z
D e n s i t y
minus4 minus2 0 2 4
0 0
0 2
0 4
Figura 8 Histograma de numeros aleatorios normais
boxcox(dist~speed data=cars) transformac~ao Box-Cox
minus2 minus1 0 1 2
minus 4 0 0
minus 3 5 0
minus 3 0 0
minus 2 5 0
λ
l o g minus
L i k e l i h o o d
95
Figura 9 Valor otimo na transformacao Box-Cox
Castaneda Daniel F N 2013 33
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3443
135 Tabelas 1 INICIANDO O R
Para ter um alcance maior sobre a capacidade grafica do R podemos
usar as seguintes funcoes
demo(graphics)
demo(image)
demo(persp)
demo(recursion)
demo(plotmath)
demo(package = packages(allavailable = TRUE))
135 Tabelas
Algumas tabelas estatısticas podem ser construıdas com a funcao table()estado=c(PBPEALSEBAMGESRJPBPEAL
SEBAMGESRJPBPEALSEBAMGESRJ
PBPEALSEBAMGESRJ)
estadof=factor(estado)
estadof
[1] PB PE AL SE BA MG ES RJ PB PE AL SE BA MG ES RJ PB PE AL SE BA
[22] MG ES RJ PB PE AL SE BA MG ES RJ
Levels AL BA ES MG PB PE RJ SE
setseed(10)
salarios=c(round(runif(32)100))
salarios
[1] 51 31 43 69 9 23 27 27 62 43 65 57 11 60 36 43 5 26 40 84 86 62 78 36 41
[26] 71 84 24 77 36 54 9
salariom=tapply(salariosestadofmean)
salariom
AL BA ES MG PB PE RJ SE
5800 4575 4875 4525 3975 4275 2875 5850
salariof=factor(cut(salariosbreaks=0+15(07)))
salariof
[1] (4560] (3045] (3045] (6075] (015] (1530] (1530] (1530] (6075]
[10] (3045] (6075] (4560] (015] (4560] (3045] (3045] (015] (1530]
[19] (3045] (7590] (7590] (6075] (7590] (3045] (3045] (6075] (7590]
[28] (1530] (7590] (3045] (4560] (015]
Levels (015] (1530] (3045] (4560] (6075] (7590]
table(salariofestadof)
estadof
Castaneda Daniel F N 2013 34
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3543
136 Comandos adicionais 2 R E ECONOMETRIA
salariof AL BA ES MG PB PE RJ SE
(015] 0 2 0 0 1 0 1 0
(1530] 0 0 1 1 0 1 1 1
(3045] 2 0 1 1 1 2 2 0
(4560] 0 0 1 1 1 0 0 1
(6075] 1 0 0 1 1 1 0 1
(7590] 1 2 1 0 0 0 0 1
table(salariofestadof)
estadof
salariof AL BA ES MG PB PE RJ SE
(015] 1 1 0 0 1 0 1 2
(1530] 0 0 1 1 0 0 1 1
(3045] 0 0 2 0 0 1 0 0
(4560] 2 0 1 0 0 1 0 0
(6075] 0 1 0 2 3 0 1 0
(7590] 0 1 0 1 0 2 0 1
(90105] 0 1 0 0 0 0 1 0
136 Comandos adicionais
Em situacoes onde a ausencia de informacao ou dados faltantes(missing)as funcoes do R precisam declarar esta ausencia com o comando narm=T
indicando que a informacao apresenta dados faltantes Exemplo
df=c(2NA58NA) O ultimo elemento esta ausente
mean(f) Comando padr~ao para calcular a media
[1] NA
mean(fnarm=T) Comando declarando a ausencia de elementos
[1] 5
2 R e Econometria
Dados economicos precisam de uma atencao matematica para dar fun-
damento a suas teorias Atualmente pelo avanco computacional nao habarreiras para serem aplicadas e torna-se ate divertida se definimos a plata-forma de trabalho computacional A econometria requer de uma abordagemdiferenciada pois faz uso de da teoria economica economia matematica es-tatıstica economica estatıstica matematica e inferencia estatıstica Esta
Castaneda Daniel F N 2013 35
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3643
21 Tipos de Dados 2 R E ECONOMETRIA
disciplina aproxima a Estatıstica da Economia onde a teoria economica for-
mula as hipoteses Por exemplo uma reducao de precos de uma mercadoriadevera aumentar a quantidade demandada dessa mercadoria considerandouma relacao inversa entre preco e quantidade demandada ou a despesa deconsumo per capita depende da renda per capita considerando uma relacaodireta ou seja a medida que a renda aumenta a despesa tende a aumentarOutro exemplo onde consideremos a area microeconomica consumo de aguade uma residencia e o valor pago e natural imaginar que ha uma relacaodireta entre consumo e valor pago pelo consumo Porem precisamos saberqual e quanto e esta forca de relacao por tanto o econometrista forneceesta informacao usando a inferencia estatıstica e a estatıstica economicaAs estimativas de esta relacao fica por conta de estatıstica matematica
Para completar e cerrar este circulo de disciplinas abordadas na Econo-metria precisamos utilizar uma ferramenta de calculo computacional quebrinde estabilidade precisao e rapidez nos seus resultados para superartudo isto utilizaremos o ambiente R A econometria surge como uma disci-plina autonoma em virtude de aglutinar todas estas areas do conhecimentomerecendo um estudo proprio
21 Tipos de Dados
Os tipos de dados sao
1 Dados de corte transversal (cross-section) sao dados de uma ou maisvariaveis coletadas no mesmo ponto do tempo Por exemplo os censosno Brasil sao coletados num instante do tempo No censo variaveisdemograficas sao exploradas como contagem da populacao numerode indivıduos em cada famılia idade dos integrantes da famılia ouvariaveis economicas como renda consumo tipo de moradia (alugadaou propria) etc estes dados sao adquiridas a cada decada pelo IBGE
2 Dados longitudinais ou de series temporais sao caracterizadas porobservacoes ao longo do tempo No Brasil um site que disponibilizadados desta natureza e o IPEADATA
3 Dados de painel e uma mistura de dados de corte transversal e longi-tudinais ou ao longo do tempo estudamos o comportamento de unida-des individuais Por exemplo series mensal do ındice de precos serieanuais do produto interno bruto (PIB) ou serie anual da balanca co-mercial dos municıpios do Brasil considerando cada municıpio comounidades individuais
Castaneda Daniel F N 2013 36
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3743
22 Metodologia 2 R E ECONOMETRIA
22 Metodologia
Os passos da metodologia econometrica tradicional ou classica se iniciadesde a formulacao da hipotese ate as conclusoes em geral sao
221 Hipotese
Como referencia usaremos a hipotese nula H 0 a qual nulifica qualquerdiferenca e a hipoteses alternativa H a aquela que contradiz total ou par-cialmente a hipotese nula Exemplo
1 H 0 nao existe uma relacao entre consumo de agua e valor pago pela
mesma
2 Ha existe uma relacao entre consumo de agua e valor pago pelamesma
A hipotese alternativa pode ser dividida em tres possibilidades no exem-plo do consumo de agua pode ser dividida em existe alguma relacao oua relacao e negativa ou a relacao e positiva A primeira denomina-se dehipotese alternativa com teste bicaudal o segundo de teste unicaudal a es-querda e finalmente o ultimo com teste unicaudal a direita Nosso exemploconsidere H a existe alguma relacao (teste bicaudal)
222 Modelo matematico
Usaremos uma funcao de consumo simples
Y = β 1 + β 2X (11)
A variavel dependente Y valor pago pelo consumo e estimado por Y A variavel independente e X consumo de agua em m3 β 1 representa ovalor pago quando nao ha consumo de agua Nosso interesse e determinara tangente ou a variacao pelo consumo β 2
223 Modelo econometrico do valor pago
O modelo matematico fornece a relacao determinıstica entre valor pagoem reais e consumo de agua porem as relacoes entre as variaveis economicassao em geral inexatas Assim ao longo do tempo no podemos esperar que ovalor pago e o consumo em m3 se situem exatamente numa linha reta isto
Castaneda Daniel F N 2013 37
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3843
22 Metodologia 2 R E ECONOMETRIA
por que alem do consumo outras variaveis afetam o valor pago por exemplo
os dias de consumo o perıodo de reforma da casa ou a inflacao podendoalterar o valor pago pelo consumo
224 Nıvel de significancia
Denominado de α frequentemente usa-se α = 005 em situacoes derisco usa-se α = 001 Em testes bicaudais divide-se α em duas partes elocalizam-se nos extremos da distribuicao de prova Para testes unicaudaislocaliza-se no extremo da distribuicao indicada pela hipotese alternativaNosso exemplo α = 005 e por tanto α2 = 0025
225 Obtencao de Dados
Considere 65 observacoes (mes a mes) do consumo de agua em umaresidencia e o valor pago em reais durante o perıodo de 122005 a 042011Ver dados no apendice A Um plot e apresentado a seguir
10 15 20
2 0
3 0
4 0
5 0
6 0
7 0
Valor pago em reais de consumo de aacutegua
Variaacutevel independenteConsumo em m3
V a r i aacute v e l d e p e n d e n t e V a l o r p a g o
Y = minus12365+3007X
Figura 10 Relacao causal entre consumo e valor pago em reais
Podemos observar visualmente que ha uma relacao positiva entre valorpago e consumo de agua onde a variacao pelo consumo ou variacao dovalor pago (tangente) β 2 cresce positivamente Precisamos verificar se estavariacao β 2 e estatisticamente diferente de zero (significativa)
Castaneda Daniel F N 2013 38
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3943
22 Metodologia 2 R E ECONOMETRIA
226 Estatıstica de prova
Denominada de funcao pivo ou estatıstica de teste No ambito pa-rametrico usa-se as estatısticas t student (amostras pequenas) quando ne grande e indiferente o uso da t student ou normal No exemplo para tes-tar qual a inclinacao da variacao pelo consumo de agua usamos a seguinteestatıstica
t0 =β 2
dp(β 2)asymp tnminus2gl (12)
onde t0 e o valor calculado da estatıstica t β 2 e a estimativa do parametro(variacao pelo consumo) β 2 dp(β 2) e o desvio padrao da estimativa doparametro β 2 o valor t0 segue uma distribuicao t-student com nminus2 graus deliberdade(gl) Os graus de liberdade e calculado diferenciando o tamanhoda amostra com o numero de parametro do modelo (n-p) O valor quantılicotnminus2gl(0025) corresponde a distribuicao t-student com 0025 de significanciacom n minus 2 graus de liberdade e n e o numero total de observacoes Nossoexemplo β 2 = 3007 e dp(β 2) = 013 por tanto t0 = 2313 e comparadocom o valor da tabela da t-student com 63 gl e com α2 = 0025 sendo estevalor igual 19983
227 Tipos de erro
Ocorre o erro tipo I (α) ao se rejeitar a hipotese de nulidade quandodeveria aceita-la Por outro lado quando se aceita a hipotese de nulidadequando deveria rejeita-la comete-se o erro tipo II (β ) Nas duas situacoestomou-se uma decisao errada O interesse e a minimizacao dos erros tipo Ie II que na pratica so e possıvel aumentando-se o tamanho da amostra Porrazoes diversas o aumento do tamanho da amostra muitas vezes torna-se im-praticavel A gravidade do erro tipo I e distinta da do erro tipo II quando seconsegue identificar o erro mais grave a opcao e a minimizacao deste poremquando a probabilidade de ocorrencia de um tipo de erro diminui a do outroaumenta e vice versa Podemos observar este criterio na seguinte tabela
Nao rejeita rejeitaH0 verdadeira Correto (1 minus α) Erro do tipo I (α)H0 falsa Erro do tipo II (β ) Correto (1minus β )
Castaneda Daniel F N 2013 39
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4043
22 Metodologia 2 R E ECONOMETRIA
228 Regra de Decisao
Os pacotes ou plataformas estatısticas apresentam o valor observado dafuncao pivo e o p minus valor (Area de probabilidade esta relacionada comonıvel de significancia) assim a funcao pivo apresenta o valor numerico nafuncao de densidade da Estatıstica exemplo dentro da densidade da normalQuando o pvalor e menor do que α = 005 no caso do teste unicaudal (eα = 0025 no caso bicaudal) concluımos que nao ha evidencia suficiente paraaceitar H0 Caso contrario se o p minus valor for maior que α = 005 podemosconcluir que nao ha evidencia suficiente para rejeitar H0 Nosso exemplot0 = 2313 gt 1998 (1998 e valor da distribuicao t com 63 gl e nıvel designificancia bicaudal de 005) este valor localiza-se na cauda positiva da
distribuicao com 63 graus de liberdade(n minus 2 = 65 minus 2) Por outro lado o pminus valor lt 0025 por tanto nao ha evidencias para aceitar H0 em favor deaceitar que o coeficiente de inclinacao (ou tangente) e positiva No recorrerdo livro usaremos codigos para as medidas do pminusvalor que em geral apareceem todo comando summary() Como consequencia a linha que aparece aseguir sera excluıda das saıdas do R
Signif codes 0 0001 001 005 01 1
sera interpretada da seguinte maneira
bull 0 significancia menor que 0001
bull 0001 significancia menor que 001
bull 001 significancia menor que 005
bull 005 significancia menor que 01
bull 01 significancia menor que 1
229 Conclusoes
Esta parte do teste de hipoteses e explicada em conjunto O Estatıstico eo Economista que sao os profissionais da area em que as observacoes foramcoletadas decidem sobre as providencias futuras No exemplo podemosafirmar que a cada metro cubico a mais de consumo de agua sera pago emmedia 3 reais a mais No momento este valor pago pode parecer alto poremna falta de este liquido elementar este valor pode aumentar e por tantosofrera mudancas
Castaneda Daniel F N 2013 40
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4143
23 Previs˜ oes 2 R E ECONOMETRIA
23 Previsoes
Muitas vezes estamos interessados em determinar o que acontece quandouma quantidade de consumo de agua em m3 e utilizada e qual o valor pagoem reais Por exemplo se nosso interesse e saber quanto sera pago por 20m3
de consumo de agua em uma residencia A conta a realizar eValor pago = minus12365 + 3007 lowast 20 = 47775 reaisA interpretacao deste valor e em media o valor pago em reais por 20m3 deagua consumida e de aproximadamente 478 reais
231 Resıduos
Uma questao fundamental em econometria e identificar o comportamentodos resıduos de um modelo Considere Y o valor real pago e Y valor pagoestimado a partir de um modelo entao este erro e aleatorio e definido por
ϵi = Y i minus Y i (13)
A abordagem mais formal dos erros e feita nos proximos capıtulosUma questao importante e determinar qual o comportamento da estima-tiva destes erros aos quais chamamos de resıduos Para determinar a nor-malidade dos resıduos realizamos o teste de Jarque Bera com a funcao
jarqueberatest() da biblioteca tseries com o seguinte grafico
minus2 minus1 0 1 2
minus 5
0
5
1 0
resiacuteduos do modelo valor= f(consumo)
Theoretical Quantiles
S a m p l e Q u a n t i l e s
Figura 11 Normalidade dos resıduos
Castaneda Daniel F N 2013 41
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4243
24 Exercıcios REFER ENCIAS
24 Exercıcios
1 Por que a econometria precisa ser uma disciplina autonoma
2 Que e econometria
3 Pesquise dados de corte transversal corte longitudinal e de painel
4 Construa uma metodologia econometrica para o consumo familiar emfuncao da renda familiar (linear)
5 No item anterior e possıvel encontrar uma relacao quadratica
6 Quais sao os pressupostos basicos de um modelo de regressao linear
simples
7 Como e chamado o parametro de inclinacao ou tangente num modelode regressao linear simples em econometria
8 Que e o projeto R
9 R e um programa econometrico
Referencias
[1] Albert Jim (2009) Bayesian computation with R Editora SpringerSecond Edition New York USA
[2] Borde Arvind (1992) TEX by example A beginneracutes guide Ed Aca-demic Press Professional United States of America
[3] Carneiro Orlando (1997) Econometria Bacute asica Teoria e Aplicac˜ oes Editora Atlas Segunda Edicao son Paulo
[4] Conover W J (1999) Practical nonparametric statistics 3ed NewYork
[5] Cribari Neto F (2002) C for Econometricians conputational Econo-
mics 14 p135-149
[6] Dalgaard Peter(2008) Introductory Statistics with R Editora SpringerSecond Edition New York USA
[7] Ehlers Ricardo(2007) Analise de series Temporais Universidade Fe-deral do Parana
Castaneda Daniel F N 2013 42
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4343
REFER ENCIAS REFER ENCIAS
[8] Frery Alejandro Cribari-Neto Francisco(2011)Elementos de
Estatıstica conputacional Usando Plataformas de Software Li-vreGratuito Publicacoes Matematicas Editora IMPA
[9] Gujarati Damodar N (2000) Econometria Bacute asica Makron Books Ter-ceira Edicao son Paulo
[10] Knuth DE (1981)The Art of conputer Programming Third EditionVolume 2 Seminumerical Algorithms Addison-Wesley Publishingconpany Massachusetts
[11] Korgi Rodrigo de Castro (2003) El universo LAT E X Editora Facultadde Ciencias Segunda Edicao Bogota
[12] Krawczyk H How to Predict Congruential Generators InJournal of Algorithms V 13 N 4 1992
[13] LrsquoEcuyer P (2001) Software for uniform random number generationdistinguishing the good and the bad In Proceedings of the 2001 WinterSimulation Conference
[14] Maindonald John Braun W John(2010) Data analysis and graphics using R an example-based approach Cambridge University Press NewYork USA
[15] Mingoti(2005)Analise De Dados Atraves De Metodos De Estatistica Multivariada - Uma Abordagem Aplicada Editora UFMG Belo Hori-zonte
Castaneda Daniel F N 2013 43
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2043
122 Modificando e editando dados 1 INICIANDO O R
No R pode-se acessar a conjunto de dados de outros pacotes disponıveis
na sua biblioteca Se por acaso esta instalado o pacote lmtest o conjuntode dados ativo neste pacote pode ser chamado da seguinte maneira
data(package=lmtest)
122 Modificando e editando dados
Considere o conjunto de dados anterior Para modificar este conjuntosera disponibilizado uma tela de editor de dados a seguir
xnovo=edit(wagespackage=lmtest)
Para editar um conjunto de dados novo podemos usar a funcao edit daseguinte forma
xn=edit(dataframe())
123 Exportando dados do R para o Excel
Para exportar uma coluna de dados por exemplo o valor pago no con-sumo de agua executamos no R
writeClipboard(ascharacter(valor))
Na tela do Excel usar o comando colar Suponha que esta interessadoem exportar o conjunto de dados ca consumo de agua numa residenciadisponıveis no R para transferir este conjunto de dados use o seguintecomando
writetable(caclipboardsep=tcolnames=NA)
Na tela do Excel faca Ctrl+V ou um click em colar
124 Funcoes apply tapply sapply e lapply
A funcao apply calcula medidas estatısticas por linhas ou por colunas
e a funcao sapply calcula apenas por coluna A diferenca da funcao applyda funcao tapply e que esta ultima calcula medidas estatısticas por estratosConsidere os dados de consumo de agua de uma residencia
apply(ca2mean)
dado valor consumo diasconsumo Construindo
330000000 255690769 126153846 307076923 02615385
Castaneda Daniel F N 2013 20
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2143
125 Distribuic˜ oes de probabilidade 1 INICIANDO O R
tapply(valorConstruindomean)
0 1
2115271 3803882
sapply(camean)
dado valor consumo diasconsumo Construindo
330000000 255690769 126153846 307076923 02615385
lapply(camean) verificar
125 Distribuicoes de probabilidade
R proporciona uma serie de funcoes para variaveis aleatorias estatısticasconhecidas dentro destas funcoes temos distribuicao aleatorizacao proba-
bilidade e quantidadeDistribuicao nome no R argumentos adicionaisbeta beta shape1shap2npcbinomial binom sizeprobcauchy cauchy locationscalechi-quadrado chisq dfnpcexponencial exp rateF f df1df2npcgamma gamma shapescalegeometric geom probhypergeometric hyper mnk
log-normal lnorm meanlogsdloglogistic logis locationscalenegativa binomial nbinom sizeprobnormal norm meansdpoisson pois lambdat-student t dfncpuniforme unif minmaxweibull weibull shapescalewilcoxon wilcoxon mn
Nomes iniciando com ldquodrdquocalculara a densidade da funcao ldquoprdquoparacalcular a probabilidade ou funcao acumulada ldquoqrdquopara o valor quantılico eldquorrdquopara simulacao de numeros aleatoriosExemplos
rpois(105) 10 numeros aleatorios da dist poisson com parametro 5
[1] 3 2 3 1 8 6 1 3 2 3
Castaneda Daniel F N 2013 21
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2243
126 Algoritmos de programac˜ ao no R 1 INICIANDO O R
rnorm(5) 5 numeros aleatorios da normal padr~ao
[1] 004659011 -005019082 -128753167 115411245 -137573809
qt(09550) valor quantilico da t com 50 gl
[1] 1675905
qchisq(0951) valor da qui-quadrado
com 95 de confianc a e 1 g l
[1] 3841459
dpois(45) densidade da dist poisson x=4 parametro=5
[1] 01754674
ppois(45) P(xlt=4) parametro=5
[1] 04404933
126 Algoritmos de programacao no R
R e uma linguagem de programacao orientada a objetos que alem de ana-lisar dados tem sua propria programacao aqui usaremos esta programacaopara analises de estatısticas e econometria Para maiores detalhes podemospesquisar em Venables and Ripley (2000 e 2002) Voce pode estender afuncionalidade do R criando novas funcoes ou programando por exemplo
medianamediarazao lt- function(x)
return(median(x)mean(x))
setseed(20)
z = rexp(10000)
medianamediarazao(z)
[1] 06925193
Construindo a mediana
mediana=function(x)
oddeven=length(x)2
if (oddeven == 0) (sort(x)[length(x)2]+sort(x)[1+ length(x)2])2
else sort(x)[ceiling(length(x)2)]
Construindo a media geometrica
mediageometrica = function (x) exp(mean(log(x)))
Construindo a media harmonica
Castaneda Daniel F N 2013 22
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2343
126 Algoritmos de programac˜ ao no R 1 INICIANDO O R
mediaharmonica=function (x) 1mean(1x)
Um algoritmo que envolva as medidas de tendencia central
medidascentrais = function(y medida)
switch(medida
media = mean(y)
mgeometrica = exp(mean(log(y)))
mharmonica = 1mean(1y)
mediana = median(y)
stop(Medida n~ao inclusa))
medidascentrais(ymedia)
Gerando uma distribuicao uniforme para o lancamento de um dado
ndado=function(x) return(round(runif(x)6+05))
hist(ndado(100000)
Com o comando sample podemos realizar este mesmo experimento daseguinte maneira
gerando=sample(16 100000 replace=TRUE)
hist(gerando)
Considere o seguinte objeto c
c=c(122715365)
Para determinar que classe de objeto e o vetor c podemos identificarusando os seguintes comandos
ischaracter(c)
[1] FALSE
isnumeric(c)
[1] TRUE
A este objeto c podemos a signar nome a cada valor definido da seguinteforma
names(c)=c(abcdef)
c
a b c d e f
10 22 70 150 30 65
Castaneda Daniel F N 2013 23
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2443
127 Lacos no R 1 INICIANDO O R
Podemos associar uma comparacao logica com o vetor c da seguinte
forma
cgt3
a b c d e f
FALSE FALSE TRUE TRUE FALSE TRUE
Quando estamos diante de uma matriz podemos definir os nomes dascolunas com colnames() e os nomes das linhas com rownames() veja oexemplo
d=matrix(c(223582858)33)
colnames(d)=c(c1c2c3)
rownames(d)=c(1o2o3o)
d
c1 c2 c3
1o 2 5 8
2o 2 8 5
3o 3 2 8
A matriz d e entendida como um conjunto de dados que podem serassociados as linhas e as colunas Para determinar se ha associacao entrelinhas e colunas o teste utilizado pode se o qui-quadrado com a funcaochisqtest()
127 Lacos no R
Em algumas situacoes variaveis contınuas podem ser transformadas em variaveisordinais ou dummy para realizar estas operacoes o R proporciona varioslacos como else if ou ifelseExemplo para construir variaveis binarias considere o consumo de aguaonde consumo menor ou igual a 10 m3 e zero e acima de 10 m3 e 1 Ovalor de consumo sendo zero se o valor e menor ou igual a 20 reais e 1 casocontrario
consumoc=numeric(length(consumo))
for(i in 1length(consumo))if (consumo[i]lt=10) consumoc[i]=0
else consumoc[i]=1
valorc=numeric(length(valor))
for(i in 1length(valor))if (valor[i]lt=20) valorc[i]=0 else valorc[i]=1
Castaneda Daniel F N 2013 24
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2543
128 A func˜ ao cut() 1 INICIANDO O R
Nota Podemos construir os lacos considerando a condicao como texto
exemplo consumoc[i]=rdquo[0minus 10]rdquo Comando alternativo de construcao
consumoc2=ifelse(consumolt=10[0-10]Acima de 10)
valorc2=ifelse(valorlt=20[0-20]Acima de 20)
limitacao deste laco e que utilizado apenas para duas condicoes Para lacoscom mais de duas condicoes podemos usar os seguintes comandos
valorc3=numeric(length(valor))
for(i in 1length(valor))if (valor[i]lt20) valorc3[i]=[0-20)
else if (valor[i]lt30)
valorc3[i]=[20-30) else valorc3[i]=[30 a +
table(valorc3)
128 A funcao cut()
Alguma funcoes usam lacos para criar novas variaveis categoricas no exem-plo de valor pago em reais pelo consumo de agua podemos construir cate-gorias por quartis de 25 50 75 1 da seguinte maneira
q=cut(valorquantile(valor) includelowest=T)
table(q)
q
[135165] (165222] (222327] (327693]
17 16 16 16
Outras formas podem ser usando intervalos a criterio pessoal no exemplo aseguir consideramos com valor mınimo 13 e valor maximo 70 com amplitudedo intervalo de 19 e com classes fechadas no mınimo e aberto no maximo
valr=cut(valmseq(137019)right=Fincludeupper=T)
table(valr)
valr
[1332) [3251) [5170)
48 15 2
129 Criando funcoes Teste que compara duas medias
Como exemplo implementamos a estatıstica de comparacao de duasamostras independentes
Castaneda Daniel F N 2013 25
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2643
130 Coeficiente de regressao 1 INICIANDO O R
testeduas lt- function(y1 y2)
+ n1 lt- length(y1) n2 lt- length(y2)
+ yb1 lt- mean(y1) yb2 lt- mean(y2)
+ s1 lt- var(y1) s2 lt- var(y2)
+ s lt- ((n1-1)s1 + (n2-1)s2)(n1+n2-2)
+ tst lt- (yb1 - yb2)sqrt(s(1n1 + 1n2))
+ tst
+
x=runif(20)
y=rnorm(20)
testeduas(xy)
[1] 2874636
Uma forma alternativa e usando a funcao ttest()
ttest(xy)
Welch Two Sample t-test
data x and y
t = 28746 df = 21784 p-value = 0008858
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
01846283 11429380sample estimates
mean of x mean of y
05539270 -01098562
130 Coeficiente de regressao
Implementando o calculo da tangente (inclinacao) do coeficiente no mo-delo de regressao linear simples
mq1lt- function(X y)
+ X lt- qr(X)
+ qrcoef(X y)+
mq1(xy)
[1] -008755885
Castaneda Daniel F N 2013 26
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2743
131 Teste Qui- Quadrado 1 INICIANDO O R
131 Teste Qui- Quadrado
Util para associar linhas e colunas considere os dados em d com as se-guintes hipotesesH0 nao ha associacao entre linhas e colunasHa ha associacao entre linhas e colunas
chisqtest(d)
Pearsonrsquos Chi-squared test
data d
X-squared = 46497 df = 4 p-value = 03252
Warning message
In chisqtest(d) Aproximac~ao Qui-quadrado pode estar incorreta
Para um nıvel α = 0 05 de significancia podemos afirmar que nao haevidencias para afirmar que a associacao entre linhas e colunas (linhas ecolunas sao independentes) Um outro exemplo do uso da distribuicao Qui-quadrado e verificar se um conjunto de dados provem de uma determinadadistribuicao teorica
chisqtest(c)
Chi-squared test for given probabilities
data c
X-squared = 22549 df = 5 p-value = 00004116
Pelo p-value podemos afirmar que a 0 05 de significancia nao ha evi-dencias para afirmar que a distribuicao dos numeros em c sejam uniformesPara implementar este teste de associacao no exemplo de consumo de aguaconsiderando a classificacao mediante lacos (ver lacos no R) entre consumoce valorc temos
table(consumocvalorc)
valorc
consumoc 0 1
0 24 0
Castaneda Daniel F N 2013 27
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2843
132 Teste t - student 1 INICIANDO O R
1 3 38
chisqtest(consumocvalorc)$expected
chisqtest(consumocvalorc)$observed
chisqtest(consumocvalorc)
Pearsonrsquos Chi-squared test with Yatesrsquo continuity correction
data consumoc and valorc
X-squared = 498015 df = 1 p-value = 1701e-12
barplot(table(consumocvalorc) beside=T)
Concluimos que ha associacao entre consumo de agua e o valor pago em
reais
132 Teste t - student
O teste mais usado pelos estatısticos e util para comparar medias deduas amostras tanto independente como emparelhadasExemplo considere as exportacoes mensais (FOB-US) do Brasil durante osanos de 2009 minus 2010 Apos digitacao das observacoes temos
exp2009
[1] 9781920 9586406 11809225 12321617 11984585 14467785 14141930
[8] 13840850 13863222 14081686 12652892 14462624
exp2010[1] 1130507 1219724 1572750 1516121 1770250 1709391 1767292 1923625
[9] 1883279 1838042 1768733 2091814
H0 A medias anuais das exportacoes durante 2009 e 2010 e a mesmaHa CC
ttest(exp2009exp2010paired = FALSE)
Welch Two Sample t-test
data exp2009 and exp2010
t = -42813 df = 18202 p-value = 00004394
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-6075666 -2077757
sample estimates
mean of x mean of y
Castaneda Daniel F N 2013 28
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2943
133 Teste F 1 INICIANDO O R
1274956 1682627
Conclusao nao ha evidencias para aceitar que a media das exportacoesde 2009 e 2010 e a mesma
Quando um conjunto de dados e dado em formato de matriz (dataframe)podemos realizar o teste t de uma coluna em funcao da outra por exemplono consumo de agua queremos testar a hipotese nula H0 o valor de con-sumo de agua e o mesmo construindo ou nao versus a hipotese alternativaHa Caso contrario
attach(ca)
ttest(valor~Construindo)
Welch Two Sample t-test
data valor by Construindo
t = -58383 df = 21731 p-value = 7465e-06
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-2288867 -1088356
sample estimates
mean in group 0 mean in group 1
2115271 3803882
Concluımos que nao ha evidencias para aceitar que o valor de consumode agua e o mesmo quando estamos construindo ( p minus valor lt 005)
Exemplos adicionais podem ser comparando entre as variaveis clas-sificadas (ver secao de lacos) da seguinte forma
ttest(valor~consumoc)
ttest(consumo~valorc)
boxplot(consumo~valorc2 main=Consumo e valor pago em Reais)
boxplot(consumo~valorc3 main=Consumo e valor pago em Reais)
133 Teste F
Para determinar se ha a mesma variabilidade no valor de consumoquando estamos ou nao construindo utilizamos o teste F A hipotese nulae H0 O valor de consumo de agua tem a mesma variabilidade quandoconstruımos que quando nao construımos No R temos
Castaneda Daniel F N 2013 29
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3043
133 Teste F 1 INICIANDO O R
vartest(valor~Construindo)
F test to compare two variances
data valor by Construindo
F = 04834 num df = 47 denom df = 16 p-value = 005478
alternative hypothesis true ratio of variances is not equal to 1
95 percent confidence interval
0194815 1014916
sample estimates
ratio of variances
04834048
Concluımos que nao ha evidencias para rejeitar a hipotese nula por tanto
a variabilidade no valor de consumo e o mesmoO correspondente grafico (Box-plot) e apresentado a seguir
boxplot(valor~Construindo col=8 names=c(n~ao construc~ao construc~ao))
natildeo construccedilatildeo construccedilatildeo
2 0
3 0
4 0
5 0
6 0
7 0
Figura 4 Valor pago em reais no consumo de agua
Em alguns casos ha necessidade de identificar se a variabilidade dasexportacoes e a mesma comparando 2009 e 2010H0 As exportacoes de 2009 e 2010 tem a mesma variabilidade (dados men-sais coletados do site httpwwwipeadatagov)Ha CC
Castaneda Daniel F N 2013 30
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3143
134 Graficos 1 INICIANDO O R
vartest(exp2009exp2010)
F test to compare two variances
data exp2009 and exp2010
F = 03728 num df = 11 denom df = 11 p-value = 01166
alternative hypothesis true ratio of variances is not equal to 1
95 percent confidence interval
01073346 12951624
sample estimates
ratio of variances
03728482
Conclusao Nao houve mudancas na variabilidade das exportacoes de
2009 e 2010
134 Graficos
Considere os dados mensais das exportacoes do Brasil (FOB) durante2009 e 2010 para realizar um grafico de box-plot fazemos
boxplot(exp2009exp2010 main=exportac~oes do Brasil
names=c(20092010))
2009 2010
1 0 0 0 0
1 2 0 0 0
1 4 0 0 0
1 6 0 0 0
1 8 0 0 0
2 0
0 0 0
exportaccedilotildees do Brasil
Figura 5 Exportacoes FOB em dolares
Para o grafico da funcao acumulativa das exportacoes
plot(ecdf(exp2010) dopoint=FALSE verticals=TRUE
lty=3 xlim=c(1000023000))
lines(ecdf(exp2009) dopoint=FALSE verticals=TRUE
col=2)
Castaneda Daniel F N 2013 31
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3243
134 Graficos 1 INICIANDO O R
1 00 00 1 20 00 1 40 00 1 60 00 1 80 00 2 00 00 2 20 00
0 0
0 2
0 4
0 6
0 8
1 0
ecdf(exp2010)
x
F n ( x )
Figura 6 Funcao acumulada das exportacoes 2009-2010
Considere as exportacoes do Brasil um histograma e Q-Q plot sera
hist(exp main=Exportac~oes FOB-US col=8)
qqnorm(exp xlim=c(-55)ylim=c(-100021000))
qqline(exp)
Exportaccedilotildees FOBminusUS$
exp
F r e q u e n c y
0 5000 10000 15000 20000
0
5 0
1 0 0
1 5 0
minus4 minus2 0 2 4
0
5 0 0 0
1 0 0 0 0
1 5 0 0 0
2 0 0 0 0
Normal QminusQ Plot
Theoretical Quantiles
S a m p l e Q u a n t i l e s
Figura 7 Graficos das Exportacoes no Brasil 2001-2010
Para ativar alguns graficos pacotes sao necessarios exemplo
library(MASS)
Castaneda Daniel F N 2013 32
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3343
134 Graficos 1 INICIANDO O R
par(mfrow=c(21))
z = rnorm(500000)
hist(z prob=T)
curve(dnorm(x)add=T)
histscott(z prob=T)
Histogram of z
z
D e n s i t y
minus4 minus2 0 2 4
0 0
0 2
Histogram of x
z
D e n s i t y
minus4 minus2 0 2 4
0 0
0 2
0 4
Figura 8 Histograma de numeros aleatorios normais
boxcox(dist~speed data=cars) transformac~ao Box-Cox
minus2 minus1 0 1 2
minus 4 0 0
minus 3 5 0
minus 3 0 0
minus 2 5 0
λ
l o g minus
L i k e l i h o o d
95
Figura 9 Valor otimo na transformacao Box-Cox
Castaneda Daniel F N 2013 33
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3443
135 Tabelas 1 INICIANDO O R
Para ter um alcance maior sobre a capacidade grafica do R podemos
usar as seguintes funcoes
demo(graphics)
demo(image)
demo(persp)
demo(recursion)
demo(plotmath)
demo(package = packages(allavailable = TRUE))
135 Tabelas
Algumas tabelas estatısticas podem ser construıdas com a funcao table()estado=c(PBPEALSEBAMGESRJPBPEAL
SEBAMGESRJPBPEALSEBAMGESRJ
PBPEALSEBAMGESRJ)
estadof=factor(estado)
estadof
[1] PB PE AL SE BA MG ES RJ PB PE AL SE BA MG ES RJ PB PE AL SE BA
[22] MG ES RJ PB PE AL SE BA MG ES RJ
Levels AL BA ES MG PB PE RJ SE
setseed(10)
salarios=c(round(runif(32)100))
salarios
[1] 51 31 43 69 9 23 27 27 62 43 65 57 11 60 36 43 5 26 40 84 86 62 78 36 41
[26] 71 84 24 77 36 54 9
salariom=tapply(salariosestadofmean)
salariom
AL BA ES MG PB PE RJ SE
5800 4575 4875 4525 3975 4275 2875 5850
salariof=factor(cut(salariosbreaks=0+15(07)))
salariof
[1] (4560] (3045] (3045] (6075] (015] (1530] (1530] (1530] (6075]
[10] (3045] (6075] (4560] (015] (4560] (3045] (3045] (015] (1530]
[19] (3045] (7590] (7590] (6075] (7590] (3045] (3045] (6075] (7590]
[28] (1530] (7590] (3045] (4560] (015]
Levels (015] (1530] (3045] (4560] (6075] (7590]
table(salariofestadof)
estadof
Castaneda Daniel F N 2013 34
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3543
136 Comandos adicionais 2 R E ECONOMETRIA
salariof AL BA ES MG PB PE RJ SE
(015] 0 2 0 0 1 0 1 0
(1530] 0 0 1 1 0 1 1 1
(3045] 2 0 1 1 1 2 2 0
(4560] 0 0 1 1 1 0 0 1
(6075] 1 0 0 1 1 1 0 1
(7590] 1 2 1 0 0 0 0 1
table(salariofestadof)
estadof
salariof AL BA ES MG PB PE RJ SE
(015] 1 1 0 0 1 0 1 2
(1530] 0 0 1 1 0 0 1 1
(3045] 0 0 2 0 0 1 0 0
(4560] 2 0 1 0 0 1 0 0
(6075] 0 1 0 2 3 0 1 0
(7590] 0 1 0 1 0 2 0 1
(90105] 0 1 0 0 0 0 1 0
136 Comandos adicionais
Em situacoes onde a ausencia de informacao ou dados faltantes(missing)as funcoes do R precisam declarar esta ausencia com o comando narm=T
indicando que a informacao apresenta dados faltantes Exemplo
df=c(2NA58NA) O ultimo elemento esta ausente
mean(f) Comando padr~ao para calcular a media
[1] NA
mean(fnarm=T) Comando declarando a ausencia de elementos
[1] 5
2 R e Econometria
Dados economicos precisam de uma atencao matematica para dar fun-
damento a suas teorias Atualmente pelo avanco computacional nao habarreiras para serem aplicadas e torna-se ate divertida se definimos a plata-forma de trabalho computacional A econometria requer de uma abordagemdiferenciada pois faz uso de da teoria economica economia matematica es-tatıstica economica estatıstica matematica e inferencia estatıstica Esta
Castaneda Daniel F N 2013 35
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3643
21 Tipos de Dados 2 R E ECONOMETRIA
disciplina aproxima a Estatıstica da Economia onde a teoria economica for-
mula as hipoteses Por exemplo uma reducao de precos de uma mercadoriadevera aumentar a quantidade demandada dessa mercadoria considerandouma relacao inversa entre preco e quantidade demandada ou a despesa deconsumo per capita depende da renda per capita considerando uma relacaodireta ou seja a medida que a renda aumenta a despesa tende a aumentarOutro exemplo onde consideremos a area microeconomica consumo de aguade uma residencia e o valor pago e natural imaginar que ha uma relacaodireta entre consumo e valor pago pelo consumo Porem precisamos saberqual e quanto e esta forca de relacao por tanto o econometrista forneceesta informacao usando a inferencia estatıstica e a estatıstica economicaAs estimativas de esta relacao fica por conta de estatıstica matematica
Para completar e cerrar este circulo de disciplinas abordadas na Econo-metria precisamos utilizar uma ferramenta de calculo computacional quebrinde estabilidade precisao e rapidez nos seus resultados para superartudo isto utilizaremos o ambiente R A econometria surge como uma disci-plina autonoma em virtude de aglutinar todas estas areas do conhecimentomerecendo um estudo proprio
21 Tipos de Dados
Os tipos de dados sao
1 Dados de corte transversal (cross-section) sao dados de uma ou maisvariaveis coletadas no mesmo ponto do tempo Por exemplo os censosno Brasil sao coletados num instante do tempo No censo variaveisdemograficas sao exploradas como contagem da populacao numerode indivıduos em cada famılia idade dos integrantes da famılia ouvariaveis economicas como renda consumo tipo de moradia (alugadaou propria) etc estes dados sao adquiridas a cada decada pelo IBGE
2 Dados longitudinais ou de series temporais sao caracterizadas porobservacoes ao longo do tempo No Brasil um site que disponibilizadados desta natureza e o IPEADATA
3 Dados de painel e uma mistura de dados de corte transversal e longi-tudinais ou ao longo do tempo estudamos o comportamento de unida-des individuais Por exemplo series mensal do ındice de precos serieanuais do produto interno bruto (PIB) ou serie anual da balanca co-mercial dos municıpios do Brasil considerando cada municıpio comounidades individuais
Castaneda Daniel F N 2013 36
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3743
22 Metodologia 2 R E ECONOMETRIA
22 Metodologia
Os passos da metodologia econometrica tradicional ou classica se iniciadesde a formulacao da hipotese ate as conclusoes em geral sao
221 Hipotese
Como referencia usaremos a hipotese nula H 0 a qual nulifica qualquerdiferenca e a hipoteses alternativa H a aquela que contradiz total ou par-cialmente a hipotese nula Exemplo
1 H 0 nao existe uma relacao entre consumo de agua e valor pago pela
mesma
2 Ha existe uma relacao entre consumo de agua e valor pago pelamesma
A hipotese alternativa pode ser dividida em tres possibilidades no exem-plo do consumo de agua pode ser dividida em existe alguma relacao oua relacao e negativa ou a relacao e positiva A primeira denomina-se dehipotese alternativa com teste bicaudal o segundo de teste unicaudal a es-querda e finalmente o ultimo com teste unicaudal a direita Nosso exemploconsidere H a existe alguma relacao (teste bicaudal)
222 Modelo matematico
Usaremos uma funcao de consumo simples
Y = β 1 + β 2X (11)
A variavel dependente Y valor pago pelo consumo e estimado por Y A variavel independente e X consumo de agua em m3 β 1 representa ovalor pago quando nao ha consumo de agua Nosso interesse e determinara tangente ou a variacao pelo consumo β 2
223 Modelo econometrico do valor pago
O modelo matematico fornece a relacao determinıstica entre valor pagoem reais e consumo de agua porem as relacoes entre as variaveis economicassao em geral inexatas Assim ao longo do tempo no podemos esperar que ovalor pago e o consumo em m3 se situem exatamente numa linha reta isto
Castaneda Daniel F N 2013 37
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3843
22 Metodologia 2 R E ECONOMETRIA
por que alem do consumo outras variaveis afetam o valor pago por exemplo
os dias de consumo o perıodo de reforma da casa ou a inflacao podendoalterar o valor pago pelo consumo
224 Nıvel de significancia
Denominado de α frequentemente usa-se α = 005 em situacoes derisco usa-se α = 001 Em testes bicaudais divide-se α em duas partes elocalizam-se nos extremos da distribuicao de prova Para testes unicaudaislocaliza-se no extremo da distribuicao indicada pela hipotese alternativaNosso exemplo α = 005 e por tanto α2 = 0025
225 Obtencao de Dados
Considere 65 observacoes (mes a mes) do consumo de agua em umaresidencia e o valor pago em reais durante o perıodo de 122005 a 042011Ver dados no apendice A Um plot e apresentado a seguir
10 15 20
2 0
3 0
4 0
5 0
6 0
7 0
Valor pago em reais de consumo de aacutegua
Variaacutevel independenteConsumo em m3
V a r i aacute v e l d e p e n d e n t e V a l o r p a g o
Y = minus12365+3007X
Figura 10 Relacao causal entre consumo e valor pago em reais
Podemos observar visualmente que ha uma relacao positiva entre valorpago e consumo de agua onde a variacao pelo consumo ou variacao dovalor pago (tangente) β 2 cresce positivamente Precisamos verificar se estavariacao β 2 e estatisticamente diferente de zero (significativa)
Castaneda Daniel F N 2013 38
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3943
22 Metodologia 2 R E ECONOMETRIA
226 Estatıstica de prova
Denominada de funcao pivo ou estatıstica de teste No ambito pa-rametrico usa-se as estatısticas t student (amostras pequenas) quando ne grande e indiferente o uso da t student ou normal No exemplo para tes-tar qual a inclinacao da variacao pelo consumo de agua usamos a seguinteestatıstica
t0 =β 2
dp(β 2)asymp tnminus2gl (12)
onde t0 e o valor calculado da estatıstica t β 2 e a estimativa do parametro(variacao pelo consumo) β 2 dp(β 2) e o desvio padrao da estimativa doparametro β 2 o valor t0 segue uma distribuicao t-student com nminus2 graus deliberdade(gl) Os graus de liberdade e calculado diferenciando o tamanhoda amostra com o numero de parametro do modelo (n-p) O valor quantılicotnminus2gl(0025) corresponde a distribuicao t-student com 0025 de significanciacom n minus 2 graus de liberdade e n e o numero total de observacoes Nossoexemplo β 2 = 3007 e dp(β 2) = 013 por tanto t0 = 2313 e comparadocom o valor da tabela da t-student com 63 gl e com α2 = 0025 sendo estevalor igual 19983
227 Tipos de erro
Ocorre o erro tipo I (α) ao se rejeitar a hipotese de nulidade quandodeveria aceita-la Por outro lado quando se aceita a hipotese de nulidadequando deveria rejeita-la comete-se o erro tipo II (β ) Nas duas situacoestomou-se uma decisao errada O interesse e a minimizacao dos erros tipo Ie II que na pratica so e possıvel aumentando-se o tamanho da amostra Porrazoes diversas o aumento do tamanho da amostra muitas vezes torna-se im-praticavel A gravidade do erro tipo I e distinta da do erro tipo II quando seconsegue identificar o erro mais grave a opcao e a minimizacao deste poremquando a probabilidade de ocorrencia de um tipo de erro diminui a do outroaumenta e vice versa Podemos observar este criterio na seguinte tabela
Nao rejeita rejeitaH0 verdadeira Correto (1 minus α) Erro do tipo I (α)H0 falsa Erro do tipo II (β ) Correto (1minus β )
Castaneda Daniel F N 2013 39
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4043
22 Metodologia 2 R E ECONOMETRIA
228 Regra de Decisao
Os pacotes ou plataformas estatısticas apresentam o valor observado dafuncao pivo e o p minus valor (Area de probabilidade esta relacionada comonıvel de significancia) assim a funcao pivo apresenta o valor numerico nafuncao de densidade da Estatıstica exemplo dentro da densidade da normalQuando o pvalor e menor do que α = 005 no caso do teste unicaudal (eα = 0025 no caso bicaudal) concluımos que nao ha evidencia suficiente paraaceitar H0 Caso contrario se o p minus valor for maior que α = 005 podemosconcluir que nao ha evidencia suficiente para rejeitar H0 Nosso exemplot0 = 2313 gt 1998 (1998 e valor da distribuicao t com 63 gl e nıvel designificancia bicaudal de 005) este valor localiza-se na cauda positiva da
distribuicao com 63 graus de liberdade(n minus 2 = 65 minus 2) Por outro lado o pminus valor lt 0025 por tanto nao ha evidencias para aceitar H0 em favor deaceitar que o coeficiente de inclinacao (ou tangente) e positiva No recorrerdo livro usaremos codigos para as medidas do pminusvalor que em geral apareceem todo comando summary() Como consequencia a linha que aparece aseguir sera excluıda das saıdas do R
Signif codes 0 0001 001 005 01 1
sera interpretada da seguinte maneira
bull 0 significancia menor que 0001
bull 0001 significancia menor que 001
bull 001 significancia menor que 005
bull 005 significancia menor que 01
bull 01 significancia menor que 1
229 Conclusoes
Esta parte do teste de hipoteses e explicada em conjunto O Estatıstico eo Economista que sao os profissionais da area em que as observacoes foramcoletadas decidem sobre as providencias futuras No exemplo podemosafirmar que a cada metro cubico a mais de consumo de agua sera pago emmedia 3 reais a mais No momento este valor pago pode parecer alto poremna falta de este liquido elementar este valor pode aumentar e por tantosofrera mudancas
Castaneda Daniel F N 2013 40
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4143
23 Previs˜ oes 2 R E ECONOMETRIA
23 Previsoes
Muitas vezes estamos interessados em determinar o que acontece quandouma quantidade de consumo de agua em m3 e utilizada e qual o valor pagoem reais Por exemplo se nosso interesse e saber quanto sera pago por 20m3
de consumo de agua em uma residencia A conta a realizar eValor pago = minus12365 + 3007 lowast 20 = 47775 reaisA interpretacao deste valor e em media o valor pago em reais por 20m3 deagua consumida e de aproximadamente 478 reais
231 Resıduos
Uma questao fundamental em econometria e identificar o comportamentodos resıduos de um modelo Considere Y o valor real pago e Y valor pagoestimado a partir de um modelo entao este erro e aleatorio e definido por
ϵi = Y i minus Y i (13)
A abordagem mais formal dos erros e feita nos proximos capıtulosUma questao importante e determinar qual o comportamento da estima-tiva destes erros aos quais chamamos de resıduos Para determinar a nor-malidade dos resıduos realizamos o teste de Jarque Bera com a funcao
jarqueberatest() da biblioteca tseries com o seguinte grafico
minus2 minus1 0 1 2
minus 5
0
5
1 0
resiacuteduos do modelo valor= f(consumo)
Theoretical Quantiles
S a m p l e Q u a n t i l e s
Figura 11 Normalidade dos resıduos
Castaneda Daniel F N 2013 41
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4243
24 Exercıcios REFER ENCIAS
24 Exercıcios
1 Por que a econometria precisa ser uma disciplina autonoma
2 Que e econometria
3 Pesquise dados de corte transversal corte longitudinal e de painel
4 Construa uma metodologia econometrica para o consumo familiar emfuncao da renda familiar (linear)
5 No item anterior e possıvel encontrar uma relacao quadratica
6 Quais sao os pressupostos basicos de um modelo de regressao linear
simples
7 Como e chamado o parametro de inclinacao ou tangente num modelode regressao linear simples em econometria
8 Que e o projeto R
9 R e um programa econometrico
Referencias
[1] Albert Jim (2009) Bayesian computation with R Editora SpringerSecond Edition New York USA
[2] Borde Arvind (1992) TEX by example A beginneracutes guide Ed Aca-demic Press Professional United States of America
[3] Carneiro Orlando (1997) Econometria Bacute asica Teoria e Aplicac˜ oes Editora Atlas Segunda Edicao son Paulo
[4] Conover W J (1999) Practical nonparametric statistics 3ed NewYork
[5] Cribari Neto F (2002) C for Econometricians conputational Econo-
mics 14 p135-149
[6] Dalgaard Peter(2008) Introductory Statistics with R Editora SpringerSecond Edition New York USA
[7] Ehlers Ricardo(2007) Analise de series Temporais Universidade Fe-deral do Parana
Castaneda Daniel F N 2013 42
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4343
REFER ENCIAS REFER ENCIAS
[8] Frery Alejandro Cribari-Neto Francisco(2011)Elementos de
Estatıstica conputacional Usando Plataformas de Software Li-vreGratuito Publicacoes Matematicas Editora IMPA
[9] Gujarati Damodar N (2000) Econometria Bacute asica Makron Books Ter-ceira Edicao son Paulo
[10] Knuth DE (1981)The Art of conputer Programming Third EditionVolume 2 Seminumerical Algorithms Addison-Wesley Publishingconpany Massachusetts
[11] Korgi Rodrigo de Castro (2003) El universo LAT E X Editora Facultadde Ciencias Segunda Edicao Bogota
[12] Krawczyk H How to Predict Congruential Generators InJournal of Algorithms V 13 N 4 1992
[13] LrsquoEcuyer P (2001) Software for uniform random number generationdistinguishing the good and the bad In Proceedings of the 2001 WinterSimulation Conference
[14] Maindonald John Braun W John(2010) Data analysis and graphics using R an example-based approach Cambridge University Press NewYork USA
[15] Mingoti(2005)Analise De Dados Atraves De Metodos De Estatistica Multivariada - Uma Abordagem Aplicada Editora UFMG Belo Hori-zonte
Castaneda Daniel F N 2013 43
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2143
125 Distribuic˜ oes de probabilidade 1 INICIANDO O R
tapply(valorConstruindomean)
0 1
2115271 3803882
sapply(camean)
dado valor consumo diasconsumo Construindo
330000000 255690769 126153846 307076923 02615385
lapply(camean) verificar
125 Distribuicoes de probabilidade
R proporciona uma serie de funcoes para variaveis aleatorias estatısticasconhecidas dentro destas funcoes temos distribuicao aleatorizacao proba-
bilidade e quantidadeDistribuicao nome no R argumentos adicionaisbeta beta shape1shap2npcbinomial binom sizeprobcauchy cauchy locationscalechi-quadrado chisq dfnpcexponencial exp rateF f df1df2npcgamma gamma shapescalegeometric geom probhypergeometric hyper mnk
log-normal lnorm meanlogsdloglogistic logis locationscalenegativa binomial nbinom sizeprobnormal norm meansdpoisson pois lambdat-student t dfncpuniforme unif minmaxweibull weibull shapescalewilcoxon wilcoxon mn
Nomes iniciando com ldquodrdquocalculara a densidade da funcao ldquoprdquoparacalcular a probabilidade ou funcao acumulada ldquoqrdquopara o valor quantılico eldquorrdquopara simulacao de numeros aleatoriosExemplos
rpois(105) 10 numeros aleatorios da dist poisson com parametro 5
[1] 3 2 3 1 8 6 1 3 2 3
Castaneda Daniel F N 2013 21
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2243
126 Algoritmos de programac˜ ao no R 1 INICIANDO O R
rnorm(5) 5 numeros aleatorios da normal padr~ao
[1] 004659011 -005019082 -128753167 115411245 -137573809
qt(09550) valor quantilico da t com 50 gl
[1] 1675905
qchisq(0951) valor da qui-quadrado
com 95 de confianc a e 1 g l
[1] 3841459
dpois(45) densidade da dist poisson x=4 parametro=5
[1] 01754674
ppois(45) P(xlt=4) parametro=5
[1] 04404933
126 Algoritmos de programacao no R
R e uma linguagem de programacao orientada a objetos que alem de ana-lisar dados tem sua propria programacao aqui usaremos esta programacaopara analises de estatısticas e econometria Para maiores detalhes podemospesquisar em Venables and Ripley (2000 e 2002) Voce pode estender afuncionalidade do R criando novas funcoes ou programando por exemplo
medianamediarazao lt- function(x)
return(median(x)mean(x))
setseed(20)
z = rexp(10000)
medianamediarazao(z)
[1] 06925193
Construindo a mediana
mediana=function(x)
oddeven=length(x)2
if (oddeven == 0) (sort(x)[length(x)2]+sort(x)[1+ length(x)2])2
else sort(x)[ceiling(length(x)2)]
Construindo a media geometrica
mediageometrica = function (x) exp(mean(log(x)))
Construindo a media harmonica
Castaneda Daniel F N 2013 22
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2343
126 Algoritmos de programac˜ ao no R 1 INICIANDO O R
mediaharmonica=function (x) 1mean(1x)
Um algoritmo que envolva as medidas de tendencia central
medidascentrais = function(y medida)
switch(medida
media = mean(y)
mgeometrica = exp(mean(log(y)))
mharmonica = 1mean(1y)
mediana = median(y)
stop(Medida n~ao inclusa))
medidascentrais(ymedia)
Gerando uma distribuicao uniforme para o lancamento de um dado
ndado=function(x) return(round(runif(x)6+05))
hist(ndado(100000)
Com o comando sample podemos realizar este mesmo experimento daseguinte maneira
gerando=sample(16 100000 replace=TRUE)
hist(gerando)
Considere o seguinte objeto c
c=c(122715365)
Para determinar que classe de objeto e o vetor c podemos identificarusando os seguintes comandos
ischaracter(c)
[1] FALSE
isnumeric(c)
[1] TRUE
A este objeto c podemos a signar nome a cada valor definido da seguinteforma
names(c)=c(abcdef)
c
a b c d e f
10 22 70 150 30 65
Castaneda Daniel F N 2013 23
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2443
127 Lacos no R 1 INICIANDO O R
Podemos associar uma comparacao logica com o vetor c da seguinte
forma
cgt3
a b c d e f
FALSE FALSE TRUE TRUE FALSE TRUE
Quando estamos diante de uma matriz podemos definir os nomes dascolunas com colnames() e os nomes das linhas com rownames() veja oexemplo
d=matrix(c(223582858)33)
colnames(d)=c(c1c2c3)
rownames(d)=c(1o2o3o)
d
c1 c2 c3
1o 2 5 8
2o 2 8 5
3o 3 2 8
A matriz d e entendida como um conjunto de dados que podem serassociados as linhas e as colunas Para determinar se ha associacao entrelinhas e colunas o teste utilizado pode se o qui-quadrado com a funcaochisqtest()
127 Lacos no R
Em algumas situacoes variaveis contınuas podem ser transformadas em variaveisordinais ou dummy para realizar estas operacoes o R proporciona varioslacos como else if ou ifelseExemplo para construir variaveis binarias considere o consumo de aguaonde consumo menor ou igual a 10 m3 e zero e acima de 10 m3 e 1 Ovalor de consumo sendo zero se o valor e menor ou igual a 20 reais e 1 casocontrario
consumoc=numeric(length(consumo))
for(i in 1length(consumo))if (consumo[i]lt=10) consumoc[i]=0
else consumoc[i]=1
valorc=numeric(length(valor))
for(i in 1length(valor))if (valor[i]lt=20) valorc[i]=0 else valorc[i]=1
Castaneda Daniel F N 2013 24
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2543
128 A func˜ ao cut() 1 INICIANDO O R
Nota Podemos construir os lacos considerando a condicao como texto
exemplo consumoc[i]=rdquo[0minus 10]rdquo Comando alternativo de construcao
consumoc2=ifelse(consumolt=10[0-10]Acima de 10)
valorc2=ifelse(valorlt=20[0-20]Acima de 20)
limitacao deste laco e que utilizado apenas para duas condicoes Para lacoscom mais de duas condicoes podemos usar os seguintes comandos
valorc3=numeric(length(valor))
for(i in 1length(valor))if (valor[i]lt20) valorc3[i]=[0-20)
else if (valor[i]lt30)
valorc3[i]=[20-30) else valorc3[i]=[30 a +
table(valorc3)
128 A funcao cut()
Alguma funcoes usam lacos para criar novas variaveis categoricas no exem-plo de valor pago em reais pelo consumo de agua podemos construir cate-gorias por quartis de 25 50 75 1 da seguinte maneira
q=cut(valorquantile(valor) includelowest=T)
table(q)
q
[135165] (165222] (222327] (327693]
17 16 16 16
Outras formas podem ser usando intervalos a criterio pessoal no exemplo aseguir consideramos com valor mınimo 13 e valor maximo 70 com amplitudedo intervalo de 19 e com classes fechadas no mınimo e aberto no maximo
valr=cut(valmseq(137019)right=Fincludeupper=T)
table(valr)
valr
[1332) [3251) [5170)
48 15 2
129 Criando funcoes Teste que compara duas medias
Como exemplo implementamos a estatıstica de comparacao de duasamostras independentes
Castaneda Daniel F N 2013 25
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2643
130 Coeficiente de regressao 1 INICIANDO O R
testeduas lt- function(y1 y2)
+ n1 lt- length(y1) n2 lt- length(y2)
+ yb1 lt- mean(y1) yb2 lt- mean(y2)
+ s1 lt- var(y1) s2 lt- var(y2)
+ s lt- ((n1-1)s1 + (n2-1)s2)(n1+n2-2)
+ tst lt- (yb1 - yb2)sqrt(s(1n1 + 1n2))
+ tst
+
x=runif(20)
y=rnorm(20)
testeduas(xy)
[1] 2874636
Uma forma alternativa e usando a funcao ttest()
ttest(xy)
Welch Two Sample t-test
data x and y
t = 28746 df = 21784 p-value = 0008858
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
01846283 11429380sample estimates
mean of x mean of y
05539270 -01098562
130 Coeficiente de regressao
Implementando o calculo da tangente (inclinacao) do coeficiente no mo-delo de regressao linear simples
mq1lt- function(X y)
+ X lt- qr(X)
+ qrcoef(X y)+
mq1(xy)
[1] -008755885
Castaneda Daniel F N 2013 26
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2743
131 Teste Qui- Quadrado 1 INICIANDO O R
131 Teste Qui- Quadrado
Util para associar linhas e colunas considere os dados em d com as se-guintes hipotesesH0 nao ha associacao entre linhas e colunasHa ha associacao entre linhas e colunas
chisqtest(d)
Pearsonrsquos Chi-squared test
data d
X-squared = 46497 df = 4 p-value = 03252
Warning message
In chisqtest(d) Aproximac~ao Qui-quadrado pode estar incorreta
Para um nıvel α = 0 05 de significancia podemos afirmar que nao haevidencias para afirmar que a associacao entre linhas e colunas (linhas ecolunas sao independentes) Um outro exemplo do uso da distribuicao Qui-quadrado e verificar se um conjunto de dados provem de uma determinadadistribuicao teorica
chisqtest(c)
Chi-squared test for given probabilities
data c
X-squared = 22549 df = 5 p-value = 00004116
Pelo p-value podemos afirmar que a 0 05 de significancia nao ha evi-dencias para afirmar que a distribuicao dos numeros em c sejam uniformesPara implementar este teste de associacao no exemplo de consumo de aguaconsiderando a classificacao mediante lacos (ver lacos no R) entre consumoce valorc temos
table(consumocvalorc)
valorc
consumoc 0 1
0 24 0
Castaneda Daniel F N 2013 27
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2843
132 Teste t - student 1 INICIANDO O R
1 3 38
chisqtest(consumocvalorc)$expected
chisqtest(consumocvalorc)$observed
chisqtest(consumocvalorc)
Pearsonrsquos Chi-squared test with Yatesrsquo continuity correction
data consumoc and valorc
X-squared = 498015 df = 1 p-value = 1701e-12
barplot(table(consumocvalorc) beside=T)
Concluimos que ha associacao entre consumo de agua e o valor pago em
reais
132 Teste t - student
O teste mais usado pelos estatısticos e util para comparar medias deduas amostras tanto independente como emparelhadasExemplo considere as exportacoes mensais (FOB-US) do Brasil durante osanos de 2009 minus 2010 Apos digitacao das observacoes temos
exp2009
[1] 9781920 9586406 11809225 12321617 11984585 14467785 14141930
[8] 13840850 13863222 14081686 12652892 14462624
exp2010[1] 1130507 1219724 1572750 1516121 1770250 1709391 1767292 1923625
[9] 1883279 1838042 1768733 2091814
H0 A medias anuais das exportacoes durante 2009 e 2010 e a mesmaHa CC
ttest(exp2009exp2010paired = FALSE)
Welch Two Sample t-test
data exp2009 and exp2010
t = -42813 df = 18202 p-value = 00004394
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-6075666 -2077757
sample estimates
mean of x mean of y
Castaneda Daniel F N 2013 28
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2943
133 Teste F 1 INICIANDO O R
1274956 1682627
Conclusao nao ha evidencias para aceitar que a media das exportacoesde 2009 e 2010 e a mesma
Quando um conjunto de dados e dado em formato de matriz (dataframe)podemos realizar o teste t de uma coluna em funcao da outra por exemplono consumo de agua queremos testar a hipotese nula H0 o valor de con-sumo de agua e o mesmo construindo ou nao versus a hipotese alternativaHa Caso contrario
attach(ca)
ttest(valor~Construindo)
Welch Two Sample t-test
data valor by Construindo
t = -58383 df = 21731 p-value = 7465e-06
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-2288867 -1088356
sample estimates
mean in group 0 mean in group 1
2115271 3803882
Concluımos que nao ha evidencias para aceitar que o valor de consumode agua e o mesmo quando estamos construindo ( p minus valor lt 005)
Exemplos adicionais podem ser comparando entre as variaveis clas-sificadas (ver secao de lacos) da seguinte forma
ttest(valor~consumoc)
ttest(consumo~valorc)
boxplot(consumo~valorc2 main=Consumo e valor pago em Reais)
boxplot(consumo~valorc3 main=Consumo e valor pago em Reais)
133 Teste F
Para determinar se ha a mesma variabilidade no valor de consumoquando estamos ou nao construindo utilizamos o teste F A hipotese nulae H0 O valor de consumo de agua tem a mesma variabilidade quandoconstruımos que quando nao construımos No R temos
Castaneda Daniel F N 2013 29
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3043
133 Teste F 1 INICIANDO O R
vartest(valor~Construindo)
F test to compare two variances
data valor by Construindo
F = 04834 num df = 47 denom df = 16 p-value = 005478
alternative hypothesis true ratio of variances is not equal to 1
95 percent confidence interval
0194815 1014916
sample estimates
ratio of variances
04834048
Concluımos que nao ha evidencias para rejeitar a hipotese nula por tanto
a variabilidade no valor de consumo e o mesmoO correspondente grafico (Box-plot) e apresentado a seguir
boxplot(valor~Construindo col=8 names=c(n~ao construc~ao construc~ao))
natildeo construccedilatildeo construccedilatildeo
2 0
3 0
4 0
5 0
6 0
7 0
Figura 4 Valor pago em reais no consumo de agua
Em alguns casos ha necessidade de identificar se a variabilidade dasexportacoes e a mesma comparando 2009 e 2010H0 As exportacoes de 2009 e 2010 tem a mesma variabilidade (dados men-sais coletados do site httpwwwipeadatagov)Ha CC
Castaneda Daniel F N 2013 30
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3143
134 Graficos 1 INICIANDO O R
vartest(exp2009exp2010)
F test to compare two variances
data exp2009 and exp2010
F = 03728 num df = 11 denom df = 11 p-value = 01166
alternative hypothesis true ratio of variances is not equal to 1
95 percent confidence interval
01073346 12951624
sample estimates
ratio of variances
03728482
Conclusao Nao houve mudancas na variabilidade das exportacoes de
2009 e 2010
134 Graficos
Considere os dados mensais das exportacoes do Brasil (FOB) durante2009 e 2010 para realizar um grafico de box-plot fazemos
boxplot(exp2009exp2010 main=exportac~oes do Brasil
names=c(20092010))
2009 2010
1 0 0 0 0
1 2 0 0 0
1 4 0 0 0
1 6 0 0 0
1 8 0 0 0
2 0
0 0 0
exportaccedilotildees do Brasil
Figura 5 Exportacoes FOB em dolares
Para o grafico da funcao acumulativa das exportacoes
plot(ecdf(exp2010) dopoint=FALSE verticals=TRUE
lty=3 xlim=c(1000023000))
lines(ecdf(exp2009) dopoint=FALSE verticals=TRUE
col=2)
Castaneda Daniel F N 2013 31
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3243
134 Graficos 1 INICIANDO O R
1 00 00 1 20 00 1 40 00 1 60 00 1 80 00 2 00 00 2 20 00
0 0
0 2
0 4
0 6
0 8
1 0
ecdf(exp2010)
x
F n ( x )
Figura 6 Funcao acumulada das exportacoes 2009-2010
Considere as exportacoes do Brasil um histograma e Q-Q plot sera
hist(exp main=Exportac~oes FOB-US col=8)
qqnorm(exp xlim=c(-55)ylim=c(-100021000))
qqline(exp)
Exportaccedilotildees FOBminusUS$
exp
F r e q u e n c y
0 5000 10000 15000 20000
0
5 0
1 0 0
1 5 0
minus4 minus2 0 2 4
0
5 0 0 0
1 0 0 0 0
1 5 0 0 0
2 0 0 0 0
Normal QminusQ Plot
Theoretical Quantiles
S a m p l e Q u a n t i l e s
Figura 7 Graficos das Exportacoes no Brasil 2001-2010
Para ativar alguns graficos pacotes sao necessarios exemplo
library(MASS)
Castaneda Daniel F N 2013 32
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3343
134 Graficos 1 INICIANDO O R
par(mfrow=c(21))
z = rnorm(500000)
hist(z prob=T)
curve(dnorm(x)add=T)
histscott(z prob=T)
Histogram of z
z
D e n s i t y
minus4 minus2 0 2 4
0 0
0 2
Histogram of x
z
D e n s i t y
minus4 minus2 0 2 4
0 0
0 2
0 4
Figura 8 Histograma de numeros aleatorios normais
boxcox(dist~speed data=cars) transformac~ao Box-Cox
minus2 minus1 0 1 2
minus 4 0 0
minus 3 5 0
minus 3 0 0
minus 2 5 0
λ
l o g minus
L i k e l i h o o d
95
Figura 9 Valor otimo na transformacao Box-Cox
Castaneda Daniel F N 2013 33
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3443
135 Tabelas 1 INICIANDO O R
Para ter um alcance maior sobre a capacidade grafica do R podemos
usar as seguintes funcoes
demo(graphics)
demo(image)
demo(persp)
demo(recursion)
demo(plotmath)
demo(package = packages(allavailable = TRUE))
135 Tabelas
Algumas tabelas estatısticas podem ser construıdas com a funcao table()estado=c(PBPEALSEBAMGESRJPBPEAL
SEBAMGESRJPBPEALSEBAMGESRJ
PBPEALSEBAMGESRJ)
estadof=factor(estado)
estadof
[1] PB PE AL SE BA MG ES RJ PB PE AL SE BA MG ES RJ PB PE AL SE BA
[22] MG ES RJ PB PE AL SE BA MG ES RJ
Levels AL BA ES MG PB PE RJ SE
setseed(10)
salarios=c(round(runif(32)100))
salarios
[1] 51 31 43 69 9 23 27 27 62 43 65 57 11 60 36 43 5 26 40 84 86 62 78 36 41
[26] 71 84 24 77 36 54 9
salariom=tapply(salariosestadofmean)
salariom
AL BA ES MG PB PE RJ SE
5800 4575 4875 4525 3975 4275 2875 5850
salariof=factor(cut(salariosbreaks=0+15(07)))
salariof
[1] (4560] (3045] (3045] (6075] (015] (1530] (1530] (1530] (6075]
[10] (3045] (6075] (4560] (015] (4560] (3045] (3045] (015] (1530]
[19] (3045] (7590] (7590] (6075] (7590] (3045] (3045] (6075] (7590]
[28] (1530] (7590] (3045] (4560] (015]
Levels (015] (1530] (3045] (4560] (6075] (7590]
table(salariofestadof)
estadof
Castaneda Daniel F N 2013 34
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3543
136 Comandos adicionais 2 R E ECONOMETRIA
salariof AL BA ES MG PB PE RJ SE
(015] 0 2 0 0 1 0 1 0
(1530] 0 0 1 1 0 1 1 1
(3045] 2 0 1 1 1 2 2 0
(4560] 0 0 1 1 1 0 0 1
(6075] 1 0 0 1 1 1 0 1
(7590] 1 2 1 0 0 0 0 1
table(salariofestadof)
estadof
salariof AL BA ES MG PB PE RJ SE
(015] 1 1 0 0 1 0 1 2
(1530] 0 0 1 1 0 0 1 1
(3045] 0 0 2 0 0 1 0 0
(4560] 2 0 1 0 0 1 0 0
(6075] 0 1 0 2 3 0 1 0
(7590] 0 1 0 1 0 2 0 1
(90105] 0 1 0 0 0 0 1 0
136 Comandos adicionais
Em situacoes onde a ausencia de informacao ou dados faltantes(missing)as funcoes do R precisam declarar esta ausencia com o comando narm=T
indicando que a informacao apresenta dados faltantes Exemplo
df=c(2NA58NA) O ultimo elemento esta ausente
mean(f) Comando padr~ao para calcular a media
[1] NA
mean(fnarm=T) Comando declarando a ausencia de elementos
[1] 5
2 R e Econometria
Dados economicos precisam de uma atencao matematica para dar fun-
damento a suas teorias Atualmente pelo avanco computacional nao habarreiras para serem aplicadas e torna-se ate divertida se definimos a plata-forma de trabalho computacional A econometria requer de uma abordagemdiferenciada pois faz uso de da teoria economica economia matematica es-tatıstica economica estatıstica matematica e inferencia estatıstica Esta
Castaneda Daniel F N 2013 35
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3643
21 Tipos de Dados 2 R E ECONOMETRIA
disciplina aproxima a Estatıstica da Economia onde a teoria economica for-
mula as hipoteses Por exemplo uma reducao de precos de uma mercadoriadevera aumentar a quantidade demandada dessa mercadoria considerandouma relacao inversa entre preco e quantidade demandada ou a despesa deconsumo per capita depende da renda per capita considerando uma relacaodireta ou seja a medida que a renda aumenta a despesa tende a aumentarOutro exemplo onde consideremos a area microeconomica consumo de aguade uma residencia e o valor pago e natural imaginar que ha uma relacaodireta entre consumo e valor pago pelo consumo Porem precisamos saberqual e quanto e esta forca de relacao por tanto o econometrista forneceesta informacao usando a inferencia estatıstica e a estatıstica economicaAs estimativas de esta relacao fica por conta de estatıstica matematica
Para completar e cerrar este circulo de disciplinas abordadas na Econo-metria precisamos utilizar uma ferramenta de calculo computacional quebrinde estabilidade precisao e rapidez nos seus resultados para superartudo isto utilizaremos o ambiente R A econometria surge como uma disci-plina autonoma em virtude de aglutinar todas estas areas do conhecimentomerecendo um estudo proprio
21 Tipos de Dados
Os tipos de dados sao
1 Dados de corte transversal (cross-section) sao dados de uma ou maisvariaveis coletadas no mesmo ponto do tempo Por exemplo os censosno Brasil sao coletados num instante do tempo No censo variaveisdemograficas sao exploradas como contagem da populacao numerode indivıduos em cada famılia idade dos integrantes da famılia ouvariaveis economicas como renda consumo tipo de moradia (alugadaou propria) etc estes dados sao adquiridas a cada decada pelo IBGE
2 Dados longitudinais ou de series temporais sao caracterizadas porobservacoes ao longo do tempo No Brasil um site que disponibilizadados desta natureza e o IPEADATA
3 Dados de painel e uma mistura de dados de corte transversal e longi-tudinais ou ao longo do tempo estudamos o comportamento de unida-des individuais Por exemplo series mensal do ındice de precos serieanuais do produto interno bruto (PIB) ou serie anual da balanca co-mercial dos municıpios do Brasil considerando cada municıpio comounidades individuais
Castaneda Daniel F N 2013 36
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3743
22 Metodologia 2 R E ECONOMETRIA
22 Metodologia
Os passos da metodologia econometrica tradicional ou classica se iniciadesde a formulacao da hipotese ate as conclusoes em geral sao
221 Hipotese
Como referencia usaremos a hipotese nula H 0 a qual nulifica qualquerdiferenca e a hipoteses alternativa H a aquela que contradiz total ou par-cialmente a hipotese nula Exemplo
1 H 0 nao existe uma relacao entre consumo de agua e valor pago pela
mesma
2 Ha existe uma relacao entre consumo de agua e valor pago pelamesma
A hipotese alternativa pode ser dividida em tres possibilidades no exem-plo do consumo de agua pode ser dividida em existe alguma relacao oua relacao e negativa ou a relacao e positiva A primeira denomina-se dehipotese alternativa com teste bicaudal o segundo de teste unicaudal a es-querda e finalmente o ultimo com teste unicaudal a direita Nosso exemploconsidere H a existe alguma relacao (teste bicaudal)
222 Modelo matematico
Usaremos uma funcao de consumo simples
Y = β 1 + β 2X (11)
A variavel dependente Y valor pago pelo consumo e estimado por Y A variavel independente e X consumo de agua em m3 β 1 representa ovalor pago quando nao ha consumo de agua Nosso interesse e determinara tangente ou a variacao pelo consumo β 2
223 Modelo econometrico do valor pago
O modelo matematico fornece a relacao determinıstica entre valor pagoem reais e consumo de agua porem as relacoes entre as variaveis economicassao em geral inexatas Assim ao longo do tempo no podemos esperar que ovalor pago e o consumo em m3 se situem exatamente numa linha reta isto
Castaneda Daniel F N 2013 37
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3843
22 Metodologia 2 R E ECONOMETRIA
por que alem do consumo outras variaveis afetam o valor pago por exemplo
os dias de consumo o perıodo de reforma da casa ou a inflacao podendoalterar o valor pago pelo consumo
224 Nıvel de significancia
Denominado de α frequentemente usa-se α = 005 em situacoes derisco usa-se α = 001 Em testes bicaudais divide-se α em duas partes elocalizam-se nos extremos da distribuicao de prova Para testes unicaudaislocaliza-se no extremo da distribuicao indicada pela hipotese alternativaNosso exemplo α = 005 e por tanto α2 = 0025
225 Obtencao de Dados
Considere 65 observacoes (mes a mes) do consumo de agua em umaresidencia e o valor pago em reais durante o perıodo de 122005 a 042011Ver dados no apendice A Um plot e apresentado a seguir
10 15 20
2 0
3 0
4 0
5 0
6 0
7 0
Valor pago em reais de consumo de aacutegua
Variaacutevel independenteConsumo em m3
V a r i aacute v e l d e p e n d e n t e V a l o r p a g o
Y = minus12365+3007X
Figura 10 Relacao causal entre consumo e valor pago em reais
Podemos observar visualmente que ha uma relacao positiva entre valorpago e consumo de agua onde a variacao pelo consumo ou variacao dovalor pago (tangente) β 2 cresce positivamente Precisamos verificar se estavariacao β 2 e estatisticamente diferente de zero (significativa)
Castaneda Daniel F N 2013 38
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3943
22 Metodologia 2 R E ECONOMETRIA
226 Estatıstica de prova
Denominada de funcao pivo ou estatıstica de teste No ambito pa-rametrico usa-se as estatısticas t student (amostras pequenas) quando ne grande e indiferente o uso da t student ou normal No exemplo para tes-tar qual a inclinacao da variacao pelo consumo de agua usamos a seguinteestatıstica
t0 =β 2
dp(β 2)asymp tnminus2gl (12)
onde t0 e o valor calculado da estatıstica t β 2 e a estimativa do parametro(variacao pelo consumo) β 2 dp(β 2) e o desvio padrao da estimativa doparametro β 2 o valor t0 segue uma distribuicao t-student com nminus2 graus deliberdade(gl) Os graus de liberdade e calculado diferenciando o tamanhoda amostra com o numero de parametro do modelo (n-p) O valor quantılicotnminus2gl(0025) corresponde a distribuicao t-student com 0025 de significanciacom n minus 2 graus de liberdade e n e o numero total de observacoes Nossoexemplo β 2 = 3007 e dp(β 2) = 013 por tanto t0 = 2313 e comparadocom o valor da tabela da t-student com 63 gl e com α2 = 0025 sendo estevalor igual 19983
227 Tipos de erro
Ocorre o erro tipo I (α) ao se rejeitar a hipotese de nulidade quandodeveria aceita-la Por outro lado quando se aceita a hipotese de nulidadequando deveria rejeita-la comete-se o erro tipo II (β ) Nas duas situacoestomou-se uma decisao errada O interesse e a minimizacao dos erros tipo Ie II que na pratica so e possıvel aumentando-se o tamanho da amostra Porrazoes diversas o aumento do tamanho da amostra muitas vezes torna-se im-praticavel A gravidade do erro tipo I e distinta da do erro tipo II quando seconsegue identificar o erro mais grave a opcao e a minimizacao deste poremquando a probabilidade de ocorrencia de um tipo de erro diminui a do outroaumenta e vice versa Podemos observar este criterio na seguinte tabela
Nao rejeita rejeitaH0 verdadeira Correto (1 minus α) Erro do tipo I (α)H0 falsa Erro do tipo II (β ) Correto (1minus β )
Castaneda Daniel F N 2013 39
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4043
22 Metodologia 2 R E ECONOMETRIA
228 Regra de Decisao
Os pacotes ou plataformas estatısticas apresentam o valor observado dafuncao pivo e o p minus valor (Area de probabilidade esta relacionada comonıvel de significancia) assim a funcao pivo apresenta o valor numerico nafuncao de densidade da Estatıstica exemplo dentro da densidade da normalQuando o pvalor e menor do que α = 005 no caso do teste unicaudal (eα = 0025 no caso bicaudal) concluımos que nao ha evidencia suficiente paraaceitar H0 Caso contrario se o p minus valor for maior que α = 005 podemosconcluir que nao ha evidencia suficiente para rejeitar H0 Nosso exemplot0 = 2313 gt 1998 (1998 e valor da distribuicao t com 63 gl e nıvel designificancia bicaudal de 005) este valor localiza-se na cauda positiva da
distribuicao com 63 graus de liberdade(n minus 2 = 65 minus 2) Por outro lado o pminus valor lt 0025 por tanto nao ha evidencias para aceitar H0 em favor deaceitar que o coeficiente de inclinacao (ou tangente) e positiva No recorrerdo livro usaremos codigos para as medidas do pminusvalor que em geral apareceem todo comando summary() Como consequencia a linha que aparece aseguir sera excluıda das saıdas do R
Signif codes 0 0001 001 005 01 1
sera interpretada da seguinte maneira
bull 0 significancia menor que 0001
bull 0001 significancia menor que 001
bull 001 significancia menor que 005
bull 005 significancia menor que 01
bull 01 significancia menor que 1
229 Conclusoes
Esta parte do teste de hipoteses e explicada em conjunto O Estatıstico eo Economista que sao os profissionais da area em que as observacoes foramcoletadas decidem sobre as providencias futuras No exemplo podemosafirmar que a cada metro cubico a mais de consumo de agua sera pago emmedia 3 reais a mais No momento este valor pago pode parecer alto poremna falta de este liquido elementar este valor pode aumentar e por tantosofrera mudancas
Castaneda Daniel F N 2013 40
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4143
23 Previs˜ oes 2 R E ECONOMETRIA
23 Previsoes
Muitas vezes estamos interessados em determinar o que acontece quandouma quantidade de consumo de agua em m3 e utilizada e qual o valor pagoem reais Por exemplo se nosso interesse e saber quanto sera pago por 20m3
de consumo de agua em uma residencia A conta a realizar eValor pago = minus12365 + 3007 lowast 20 = 47775 reaisA interpretacao deste valor e em media o valor pago em reais por 20m3 deagua consumida e de aproximadamente 478 reais
231 Resıduos
Uma questao fundamental em econometria e identificar o comportamentodos resıduos de um modelo Considere Y o valor real pago e Y valor pagoestimado a partir de um modelo entao este erro e aleatorio e definido por
ϵi = Y i minus Y i (13)
A abordagem mais formal dos erros e feita nos proximos capıtulosUma questao importante e determinar qual o comportamento da estima-tiva destes erros aos quais chamamos de resıduos Para determinar a nor-malidade dos resıduos realizamos o teste de Jarque Bera com a funcao
jarqueberatest() da biblioteca tseries com o seguinte grafico
minus2 minus1 0 1 2
minus 5
0
5
1 0
resiacuteduos do modelo valor= f(consumo)
Theoretical Quantiles
S a m p l e Q u a n t i l e s
Figura 11 Normalidade dos resıduos
Castaneda Daniel F N 2013 41
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4243
24 Exercıcios REFER ENCIAS
24 Exercıcios
1 Por que a econometria precisa ser uma disciplina autonoma
2 Que e econometria
3 Pesquise dados de corte transversal corte longitudinal e de painel
4 Construa uma metodologia econometrica para o consumo familiar emfuncao da renda familiar (linear)
5 No item anterior e possıvel encontrar uma relacao quadratica
6 Quais sao os pressupostos basicos de um modelo de regressao linear
simples
7 Como e chamado o parametro de inclinacao ou tangente num modelode regressao linear simples em econometria
8 Que e o projeto R
9 R e um programa econometrico
Referencias
[1] Albert Jim (2009) Bayesian computation with R Editora SpringerSecond Edition New York USA
[2] Borde Arvind (1992) TEX by example A beginneracutes guide Ed Aca-demic Press Professional United States of America
[3] Carneiro Orlando (1997) Econometria Bacute asica Teoria e Aplicac˜ oes Editora Atlas Segunda Edicao son Paulo
[4] Conover W J (1999) Practical nonparametric statistics 3ed NewYork
[5] Cribari Neto F (2002) C for Econometricians conputational Econo-
mics 14 p135-149
[6] Dalgaard Peter(2008) Introductory Statistics with R Editora SpringerSecond Edition New York USA
[7] Ehlers Ricardo(2007) Analise de series Temporais Universidade Fe-deral do Parana
Castaneda Daniel F N 2013 42
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4343
REFER ENCIAS REFER ENCIAS
[8] Frery Alejandro Cribari-Neto Francisco(2011)Elementos de
Estatıstica conputacional Usando Plataformas de Software Li-vreGratuito Publicacoes Matematicas Editora IMPA
[9] Gujarati Damodar N (2000) Econometria Bacute asica Makron Books Ter-ceira Edicao son Paulo
[10] Knuth DE (1981)The Art of conputer Programming Third EditionVolume 2 Seminumerical Algorithms Addison-Wesley Publishingconpany Massachusetts
[11] Korgi Rodrigo de Castro (2003) El universo LAT E X Editora Facultadde Ciencias Segunda Edicao Bogota
[12] Krawczyk H How to Predict Congruential Generators InJournal of Algorithms V 13 N 4 1992
[13] LrsquoEcuyer P (2001) Software for uniform random number generationdistinguishing the good and the bad In Proceedings of the 2001 WinterSimulation Conference
[14] Maindonald John Braun W John(2010) Data analysis and graphics using R an example-based approach Cambridge University Press NewYork USA
[15] Mingoti(2005)Analise De Dados Atraves De Metodos De Estatistica Multivariada - Uma Abordagem Aplicada Editora UFMG Belo Hori-zonte
Castaneda Daniel F N 2013 43
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2243
126 Algoritmos de programac˜ ao no R 1 INICIANDO O R
rnorm(5) 5 numeros aleatorios da normal padr~ao
[1] 004659011 -005019082 -128753167 115411245 -137573809
qt(09550) valor quantilico da t com 50 gl
[1] 1675905
qchisq(0951) valor da qui-quadrado
com 95 de confianc a e 1 g l
[1] 3841459
dpois(45) densidade da dist poisson x=4 parametro=5
[1] 01754674
ppois(45) P(xlt=4) parametro=5
[1] 04404933
126 Algoritmos de programacao no R
R e uma linguagem de programacao orientada a objetos que alem de ana-lisar dados tem sua propria programacao aqui usaremos esta programacaopara analises de estatısticas e econometria Para maiores detalhes podemospesquisar em Venables and Ripley (2000 e 2002) Voce pode estender afuncionalidade do R criando novas funcoes ou programando por exemplo
medianamediarazao lt- function(x)
return(median(x)mean(x))
setseed(20)
z = rexp(10000)
medianamediarazao(z)
[1] 06925193
Construindo a mediana
mediana=function(x)
oddeven=length(x)2
if (oddeven == 0) (sort(x)[length(x)2]+sort(x)[1+ length(x)2])2
else sort(x)[ceiling(length(x)2)]
Construindo a media geometrica
mediageometrica = function (x) exp(mean(log(x)))
Construindo a media harmonica
Castaneda Daniel F N 2013 22
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2343
126 Algoritmos de programac˜ ao no R 1 INICIANDO O R
mediaharmonica=function (x) 1mean(1x)
Um algoritmo que envolva as medidas de tendencia central
medidascentrais = function(y medida)
switch(medida
media = mean(y)
mgeometrica = exp(mean(log(y)))
mharmonica = 1mean(1y)
mediana = median(y)
stop(Medida n~ao inclusa))
medidascentrais(ymedia)
Gerando uma distribuicao uniforme para o lancamento de um dado
ndado=function(x) return(round(runif(x)6+05))
hist(ndado(100000)
Com o comando sample podemos realizar este mesmo experimento daseguinte maneira
gerando=sample(16 100000 replace=TRUE)
hist(gerando)
Considere o seguinte objeto c
c=c(122715365)
Para determinar que classe de objeto e o vetor c podemos identificarusando os seguintes comandos
ischaracter(c)
[1] FALSE
isnumeric(c)
[1] TRUE
A este objeto c podemos a signar nome a cada valor definido da seguinteforma
names(c)=c(abcdef)
c
a b c d e f
10 22 70 150 30 65
Castaneda Daniel F N 2013 23
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2443
127 Lacos no R 1 INICIANDO O R
Podemos associar uma comparacao logica com o vetor c da seguinte
forma
cgt3
a b c d e f
FALSE FALSE TRUE TRUE FALSE TRUE
Quando estamos diante de uma matriz podemos definir os nomes dascolunas com colnames() e os nomes das linhas com rownames() veja oexemplo
d=matrix(c(223582858)33)
colnames(d)=c(c1c2c3)
rownames(d)=c(1o2o3o)
d
c1 c2 c3
1o 2 5 8
2o 2 8 5
3o 3 2 8
A matriz d e entendida como um conjunto de dados que podem serassociados as linhas e as colunas Para determinar se ha associacao entrelinhas e colunas o teste utilizado pode se o qui-quadrado com a funcaochisqtest()
127 Lacos no R
Em algumas situacoes variaveis contınuas podem ser transformadas em variaveisordinais ou dummy para realizar estas operacoes o R proporciona varioslacos como else if ou ifelseExemplo para construir variaveis binarias considere o consumo de aguaonde consumo menor ou igual a 10 m3 e zero e acima de 10 m3 e 1 Ovalor de consumo sendo zero se o valor e menor ou igual a 20 reais e 1 casocontrario
consumoc=numeric(length(consumo))
for(i in 1length(consumo))if (consumo[i]lt=10) consumoc[i]=0
else consumoc[i]=1
valorc=numeric(length(valor))
for(i in 1length(valor))if (valor[i]lt=20) valorc[i]=0 else valorc[i]=1
Castaneda Daniel F N 2013 24
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2543
128 A func˜ ao cut() 1 INICIANDO O R
Nota Podemos construir os lacos considerando a condicao como texto
exemplo consumoc[i]=rdquo[0minus 10]rdquo Comando alternativo de construcao
consumoc2=ifelse(consumolt=10[0-10]Acima de 10)
valorc2=ifelse(valorlt=20[0-20]Acima de 20)
limitacao deste laco e que utilizado apenas para duas condicoes Para lacoscom mais de duas condicoes podemos usar os seguintes comandos
valorc3=numeric(length(valor))
for(i in 1length(valor))if (valor[i]lt20) valorc3[i]=[0-20)
else if (valor[i]lt30)
valorc3[i]=[20-30) else valorc3[i]=[30 a +
table(valorc3)
128 A funcao cut()
Alguma funcoes usam lacos para criar novas variaveis categoricas no exem-plo de valor pago em reais pelo consumo de agua podemos construir cate-gorias por quartis de 25 50 75 1 da seguinte maneira
q=cut(valorquantile(valor) includelowest=T)
table(q)
q
[135165] (165222] (222327] (327693]
17 16 16 16
Outras formas podem ser usando intervalos a criterio pessoal no exemplo aseguir consideramos com valor mınimo 13 e valor maximo 70 com amplitudedo intervalo de 19 e com classes fechadas no mınimo e aberto no maximo
valr=cut(valmseq(137019)right=Fincludeupper=T)
table(valr)
valr
[1332) [3251) [5170)
48 15 2
129 Criando funcoes Teste que compara duas medias
Como exemplo implementamos a estatıstica de comparacao de duasamostras independentes
Castaneda Daniel F N 2013 25
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2643
130 Coeficiente de regressao 1 INICIANDO O R
testeduas lt- function(y1 y2)
+ n1 lt- length(y1) n2 lt- length(y2)
+ yb1 lt- mean(y1) yb2 lt- mean(y2)
+ s1 lt- var(y1) s2 lt- var(y2)
+ s lt- ((n1-1)s1 + (n2-1)s2)(n1+n2-2)
+ tst lt- (yb1 - yb2)sqrt(s(1n1 + 1n2))
+ tst
+
x=runif(20)
y=rnorm(20)
testeduas(xy)
[1] 2874636
Uma forma alternativa e usando a funcao ttest()
ttest(xy)
Welch Two Sample t-test
data x and y
t = 28746 df = 21784 p-value = 0008858
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
01846283 11429380sample estimates
mean of x mean of y
05539270 -01098562
130 Coeficiente de regressao
Implementando o calculo da tangente (inclinacao) do coeficiente no mo-delo de regressao linear simples
mq1lt- function(X y)
+ X lt- qr(X)
+ qrcoef(X y)+
mq1(xy)
[1] -008755885
Castaneda Daniel F N 2013 26
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2743
131 Teste Qui- Quadrado 1 INICIANDO O R
131 Teste Qui- Quadrado
Util para associar linhas e colunas considere os dados em d com as se-guintes hipotesesH0 nao ha associacao entre linhas e colunasHa ha associacao entre linhas e colunas
chisqtest(d)
Pearsonrsquos Chi-squared test
data d
X-squared = 46497 df = 4 p-value = 03252
Warning message
In chisqtest(d) Aproximac~ao Qui-quadrado pode estar incorreta
Para um nıvel α = 0 05 de significancia podemos afirmar que nao haevidencias para afirmar que a associacao entre linhas e colunas (linhas ecolunas sao independentes) Um outro exemplo do uso da distribuicao Qui-quadrado e verificar se um conjunto de dados provem de uma determinadadistribuicao teorica
chisqtest(c)
Chi-squared test for given probabilities
data c
X-squared = 22549 df = 5 p-value = 00004116
Pelo p-value podemos afirmar que a 0 05 de significancia nao ha evi-dencias para afirmar que a distribuicao dos numeros em c sejam uniformesPara implementar este teste de associacao no exemplo de consumo de aguaconsiderando a classificacao mediante lacos (ver lacos no R) entre consumoce valorc temos
table(consumocvalorc)
valorc
consumoc 0 1
0 24 0
Castaneda Daniel F N 2013 27
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2843
132 Teste t - student 1 INICIANDO O R
1 3 38
chisqtest(consumocvalorc)$expected
chisqtest(consumocvalorc)$observed
chisqtest(consumocvalorc)
Pearsonrsquos Chi-squared test with Yatesrsquo continuity correction
data consumoc and valorc
X-squared = 498015 df = 1 p-value = 1701e-12
barplot(table(consumocvalorc) beside=T)
Concluimos que ha associacao entre consumo de agua e o valor pago em
reais
132 Teste t - student
O teste mais usado pelos estatısticos e util para comparar medias deduas amostras tanto independente como emparelhadasExemplo considere as exportacoes mensais (FOB-US) do Brasil durante osanos de 2009 minus 2010 Apos digitacao das observacoes temos
exp2009
[1] 9781920 9586406 11809225 12321617 11984585 14467785 14141930
[8] 13840850 13863222 14081686 12652892 14462624
exp2010[1] 1130507 1219724 1572750 1516121 1770250 1709391 1767292 1923625
[9] 1883279 1838042 1768733 2091814
H0 A medias anuais das exportacoes durante 2009 e 2010 e a mesmaHa CC
ttest(exp2009exp2010paired = FALSE)
Welch Two Sample t-test
data exp2009 and exp2010
t = -42813 df = 18202 p-value = 00004394
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-6075666 -2077757
sample estimates
mean of x mean of y
Castaneda Daniel F N 2013 28
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2943
133 Teste F 1 INICIANDO O R
1274956 1682627
Conclusao nao ha evidencias para aceitar que a media das exportacoesde 2009 e 2010 e a mesma
Quando um conjunto de dados e dado em formato de matriz (dataframe)podemos realizar o teste t de uma coluna em funcao da outra por exemplono consumo de agua queremos testar a hipotese nula H0 o valor de con-sumo de agua e o mesmo construindo ou nao versus a hipotese alternativaHa Caso contrario
attach(ca)
ttest(valor~Construindo)
Welch Two Sample t-test
data valor by Construindo
t = -58383 df = 21731 p-value = 7465e-06
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-2288867 -1088356
sample estimates
mean in group 0 mean in group 1
2115271 3803882
Concluımos que nao ha evidencias para aceitar que o valor de consumode agua e o mesmo quando estamos construindo ( p minus valor lt 005)
Exemplos adicionais podem ser comparando entre as variaveis clas-sificadas (ver secao de lacos) da seguinte forma
ttest(valor~consumoc)
ttest(consumo~valorc)
boxplot(consumo~valorc2 main=Consumo e valor pago em Reais)
boxplot(consumo~valorc3 main=Consumo e valor pago em Reais)
133 Teste F
Para determinar se ha a mesma variabilidade no valor de consumoquando estamos ou nao construindo utilizamos o teste F A hipotese nulae H0 O valor de consumo de agua tem a mesma variabilidade quandoconstruımos que quando nao construımos No R temos
Castaneda Daniel F N 2013 29
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3043
133 Teste F 1 INICIANDO O R
vartest(valor~Construindo)
F test to compare two variances
data valor by Construindo
F = 04834 num df = 47 denom df = 16 p-value = 005478
alternative hypothesis true ratio of variances is not equal to 1
95 percent confidence interval
0194815 1014916
sample estimates
ratio of variances
04834048
Concluımos que nao ha evidencias para rejeitar a hipotese nula por tanto
a variabilidade no valor de consumo e o mesmoO correspondente grafico (Box-plot) e apresentado a seguir
boxplot(valor~Construindo col=8 names=c(n~ao construc~ao construc~ao))
natildeo construccedilatildeo construccedilatildeo
2 0
3 0
4 0
5 0
6 0
7 0
Figura 4 Valor pago em reais no consumo de agua
Em alguns casos ha necessidade de identificar se a variabilidade dasexportacoes e a mesma comparando 2009 e 2010H0 As exportacoes de 2009 e 2010 tem a mesma variabilidade (dados men-sais coletados do site httpwwwipeadatagov)Ha CC
Castaneda Daniel F N 2013 30
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3143
134 Graficos 1 INICIANDO O R
vartest(exp2009exp2010)
F test to compare two variances
data exp2009 and exp2010
F = 03728 num df = 11 denom df = 11 p-value = 01166
alternative hypothesis true ratio of variances is not equal to 1
95 percent confidence interval
01073346 12951624
sample estimates
ratio of variances
03728482
Conclusao Nao houve mudancas na variabilidade das exportacoes de
2009 e 2010
134 Graficos
Considere os dados mensais das exportacoes do Brasil (FOB) durante2009 e 2010 para realizar um grafico de box-plot fazemos
boxplot(exp2009exp2010 main=exportac~oes do Brasil
names=c(20092010))
2009 2010
1 0 0 0 0
1 2 0 0 0
1 4 0 0 0
1 6 0 0 0
1 8 0 0 0
2 0
0 0 0
exportaccedilotildees do Brasil
Figura 5 Exportacoes FOB em dolares
Para o grafico da funcao acumulativa das exportacoes
plot(ecdf(exp2010) dopoint=FALSE verticals=TRUE
lty=3 xlim=c(1000023000))
lines(ecdf(exp2009) dopoint=FALSE verticals=TRUE
col=2)
Castaneda Daniel F N 2013 31
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3243
134 Graficos 1 INICIANDO O R
1 00 00 1 20 00 1 40 00 1 60 00 1 80 00 2 00 00 2 20 00
0 0
0 2
0 4
0 6
0 8
1 0
ecdf(exp2010)
x
F n ( x )
Figura 6 Funcao acumulada das exportacoes 2009-2010
Considere as exportacoes do Brasil um histograma e Q-Q plot sera
hist(exp main=Exportac~oes FOB-US col=8)
qqnorm(exp xlim=c(-55)ylim=c(-100021000))
qqline(exp)
Exportaccedilotildees FOBminusUS$
exp
F r e q u e n c y
0 5000 10000 15000 20000
0
5 0
1 0 0
1 5 0
minus4 minus2 0 2 4
0
5 0 0 0
1 0 0 0 0
1 5 0 0 0
2 0 0 0 0
Normal QminusQ Plot
Theoretical Quantiles
S a m p l e Q u a n t i l e s
Figura 7 Graficos das Exportacoes no Brasil 2001-2010
Para ativar alguns graficos pacotes sao necessarios exemplo
library(MASS)
Castaneda Daniel F N 2013 32
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3343
134 Graficos 1 INICIANDO O R
par(mfrow=c(21))
z = rnorm(500000)
hist(z prob=T)
curve(dnorm(x)add=T)
histscott(z prob=T)
Histogram of z
z
D e n s i t y
minus4 minus2 0 2 4
0 0
0 2
Histogram of x
z
D e n s i t y
minus4 minus2 0 2 4
0 0
0 2
0 4
Figura 8 Histograma de numeros aleatorios normais
boxcox(dist~speed data=cars) transformac~ao Box-Cox
minus2 minus1 0 1 2
minus 4 0 0
minus 3 5 0
minus 3 0 0
minus 2 5 0
λ
l o g minus
L i k e l i h o o d
95
Figura 9 Valor otimo na transformacao Box-Cox
Castaneda Daniel F N 2013 33
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3443
135 Tabelas 1 INICIANDO O R
Para ter um alcance maior sobre a capacidade grafica do R podemos
usar as seguintes funcoes
demo(graphics)
demo(image)
demo(persp)
demo(recursion)
demo(plotmath)
demo(package = packages(allavailable = TRUE))
135 Tabelas
Algumas tabelas estatısticas podem ser construıdas com a funcao table()estado=c(PBPEALSEBAMGESRJPBPEAL
SEBAMGESRJPBPEALSEBAMGESRJ
PBPEALSEBAMGESRJ)
estadof=factor(estado)
estadof
[1] PB PE AL SE BA MG ES RJ PB PE AL SE BA MG ES RJ PB PE AL SE BA
[22] MG ES RJ PB PE AL SE BA MG ES RJ
Levels AL BA ES MG PB PE RJ SE
setseed(10)
salarios=c(round(runif(32)100))
salarios
[1] 51 31 43 69 9 23 27 27 62 43 65 57 11 60 36 43 5 26 40 84 86 62 78 36 41
[26] 71 84 24 77 36 54 9
salariom=tapply(salariosestadofmean)
salariom
AL BA ES MG PB PE RJ SE
5800 4575 4875 4525 3975 4275 2875 5850
salariof=factor(cut(salariosbreaks=0+15(07)))
salariof
[1] (4560] (3045] (3045] (6075] (015] (1530] (1530] (1530] (6075]
[10] (3045] (6075] (4560] (015] (4560] (3045] (3045] (015] (1530]
[19] (3045] (7590] (7590] (6075] (7590] (3045] (3045] (6075] (7590]
[28] (1530] (7590] (3045] (4560] (015]
Levels (015] (1530] (3045] (4560] (6075] (7590]
table(salariofestadof)
estadof
Castaneda Daniel F N 2013 34
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3543
136 Comandos adicionais 2 R E ECONOMETRIA
salariof AL BA ES MG PB PE RJ SE
(015] 0 2 0 0 1 0 1 0
(1530] 0 0 1 1 0 1 1 1
(3045] 2 0 1 1 1 2 2 0
(4560] 0 0 1 1 1 0 0 1
(6075] 1 0 0 1 1 1 0 1
(7590] 1 2 1 0 0 0 0 1
table(salariofestadof)
estadof
salariof AL BA ES MG PB PE RJ SE
(015] 1 1 0 0 1 0 1 2
(1530] 0 0 1 1 0 0 1 1
(3045] 0 0 2 0 0 1 0 0
(4560] 2 0 1 0 0 1 0 0
(6075] 0 1 0 2 3 0 1 0
(7590] 0 1 0 1 0 2 0 1
(90105] 0 1 0 0 0 0 1 0
136 Comandos adicionais
Em situacoes onde a ausencia de informacao ou dados faltantes(missing)as funcoes do R precisam declarar esta ausencia com o comando narm=T
indicando que a informacao apresenta dados faltantes Exemplo
df=c(2NA58NA) O ultimo elemento esta ausente
mean(f) Comando padr~ao para calcular a media
[1] NA
mean(fnarm=T) Comando declarando a ausencia de elementos
[1] 5
2 R e Econometria
Dados economicos precisam de uma atencao matematica para dar fun-
damento a suas teorias Atualmente pelo avanco computacional nao habarreiras para serem aplicadas e torna-se ate divertida se definimos a plata-forma de trabalho computacional A econometria requer de uma abordagemdiferenciada pois faz uso de da teoria economica economia matematica es-tatıstica economica estatıstica matematica e inferencia estatıstica Esta
Castaneda Daniel F N 2013 35
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3643
21 Tipos de Dados 2 R E ECONOMETRIA
disciplina aproxima a Estatıstica da Economia onde a teoria economica for-
mula as hipoteses Por exemplo uma reducao de precos de uma mercadoriadevera aumentar a quantidade demandada dessa mercadoria considerandouma relacao inversa entre preco e quantidade demandada ou a despesa deconsumo per capita depende da renda per capita considerando uma relacaodireta ou seja a medida que a renda aumenta a despesa tende a aumentarOutro exemplo onde consideremos a area microeconomica consumo de aguade uma residencia e o valor pago e natural imaginar que ha uma relacaodireta entre consumo e valor pago pelo consumo Porem precisamos saberqual e quanto e esta forca de relacao por tanto o econometrista forneceesta informacao usando a inferencia estatıstica e a estatıstica economicaAs estimativas de esta relacao fica por conta de estatıstica matematica
Para completar e cerrar este circulo de disciplinas abordadas na Econo-metria precisamos utilizar uma ferramenta de calculo computacional quebrinde estabilidade precisao e rapidez nos seus resultados para superartudo isto utilizaremos o ambiente R A econometria surge como uma disci-plina autonoma em virtude de aglutinar todas estas areas do conhecimentomerecendo um estudo proprio
21 Tipos de Dados
Os tipos de dados sao
1 Dados de corte transversal (cross-section) sao dados de uma ou maisvariaveis coletadas no mesmo ponto do tempo Por exemplo os censosno Brasil sao coletados num instante do tempo No censo variaveisdemograficas sao exploradas como contagem da populacao numerode indivıduos em cada famılia idade dos integrantes da famılia ouvariaveis economicas como renda consumo tipo de moradia (alugadaou propria) etc estes dados sao adquiridas a cada decada pelo IBGE
2 Dados longitudinais ou de series temporais sao caracterizadas porobservacoes ao longo do tempo No Brasil um site que disponibilizadados desta natureza e o IPEADATA
3 Dados de painel e uma mistura de dados de corte transversal e longi-tudinais ou ao longo do tempo estudamos o comportamento de unida-des individuais Por exemplo series mensal do ındice de precos serieanuais do produto interno bruto (PIB) ou serie anual da balanca co-mercial dos municıpios do Brasil considerando cada municıpio comounidades individuais
Castaneda Daniel F N 2013 36
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3743
22 Metodologia 2 R E ECONOMETRIA
22 Metodologia
Os passos da metodologia econometrica tradicional ou classica se iniciadesde a formulacao da hipotese ate as conclusoes em geral sao
221 Hipotese
Como referencia usaremos a hipotese nula H 0 a qual nulifica qualquerdiferenca e a hipoteses alternativa H a aquela que contradiz total ou par-cialmente a hipotese nula Exemplo
1 H 0 nao existe uma relacao entre consumo de agua e valor pago pela
mesma
2 Ha existe uma relacao entre consumo de agua e valor pago pelamesma
A hipotese alternativa pode ser dividida em tres possibilidades no exem-plo do consumo de agua pode ser dividida em existe alguma relacao oua relacao e negativa ou a relacao e positiva A primeira denomina-se dehipotese alternativa com teste bicaudal o segundo de teste unicaudal a es-querda e finalmente o ultimo com teste unicaudal a direita Nosso exemploconsidere H a existe alguma relacao (teste bicaudal)
222 Modelo matematico
Usaremos uma funcao de consumo simples
Y = β 1 + β 2X (11)
A variavel dependente Y valor pago pelo consumo e estimado por Y A variavel independente e X consumo de agua em m3 β 1 representa ovalor pago quando nao ha consumo de agua Nosso interesse e determinara tangente ou a variacao pelo consumo β 2
223 Modelo econometrico do valor pago
O modelo matematico fornece a relacao determinıstica entre valor pagoem reais e consumo de agua porem as relacoes entre as variaveis economicassao em geral inexatas Assim ao longo do tempo no podemos esperar que ovalor pago e o consumo em m3 se situem exatamente numa linha reta isto
Castaneda Daniel F N 2013 37
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3843
22 Metodologia 2 R E ECONOMETRIA
por que alem do consumo outras variaveis afetam o valor pago por exemplo
os dias de consumo o perıodo de reforma da casa ou a inflacao podendoalterar o valor pago pelo consumo
224 Nıvel de significancia
Denominado de α frequentemente usa-se α = 005 em situacoes derisco usa-se α = 001 Em testes bicaudais divide-se α em duas partes elocalizam-se nos extremos da distribuicao de prova Para testes unicaudaislocaliza-se no extremo da distribuicao indicada pela hipotese alternativaNosso exemplo α = 005 e por tanto α2 = 0025
225 Obtencao de Dados
Considere 65 observacoes (mes a mes) do consumo de agua em umaresidencia e o valor pago em reais durante o perıodo de 122005 a 042011Ver dados no apendice A Um plot e apresentado a seguir
10 15 20
2 0
3 0
4 0
5 0
6 0
7 0
Valor pago em reais de consumo de aacutegua
Variaacutevel independenteConsumo em m3
V a r i aacute v e l d e p e n d e n t e V a l o r p a g o
Y = minus12365+3007X
Figura 10 Relacao causal entre consumo e valor pago em reais
Podemos observar visualmente que ha uma relacao positiva entre valorpago e consumo de agua onde a variacao pelo consumo ou variacao dovalor pago (tangente) β 2 cresce positivamente Precisamos verificar se estavariacao β 2 e estatisticamente diferente de zero (significativa)
Castaneda Daniel F N 2013 38
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3943
22 Metodologia 2 R E ECONOMETRIA
226 Estatıstica de prova
Denominada de funcao pivo ou estatıstica de teste No ambito pa-rametrico usa-se as estatısticas t student (amostras pequenas) quando ne grande e indiferente o uso da t student ou normal No exemplo para tes-tar qual a inclinacao da variacao pelo consumo de agua usamos a seguinteestatıstica
t0 =β 2
dp(β 2)asymp tnminus2gl (12)
onde t0 e o valor calculado da estatıstica t β 2 e a estimativa do parametro(variacao pelo consumo) β 2 dp(β 2) e o desvio padrao da estimativa doparametro β 2 o valor t0 segue uma distribuicao t-student com nminus2 graus deliberdade(gl) Os graus de liberdade e calculado diferenciando o tamanhoda amostra com o numero de parametro do modelo (n-p) O valor quantılicotnminus2gl(0025) corresponde a distribuicao t-student com 0025 de significanciacom n minus 2 graus de liberdade e n e o numero total de observacoes Nossoexemplo β 2 = 3007 e dp(β 2) = 013 por tanto t0 = 2313 e comparadocom o valor da tabela da t-student com 63 gl e com α2 = 0025 sendo estevalor igual 19983
227 Tipos de erro
Ocorre o erro tipo I (α) ao se rejeitar a hipotese de nulidade quandodeveria aceita-la Por outro lado quando se aceita a hipotese de nulidadequando deveria rejeita-la comete-se o erro tipo II (β ) Nas duas situacoestomou-se uma decisao errada O interesse e a minimizacao dos erros tipo Ie II que na pratica so e possıvel aumentando-se o tamanho da amostra Porrazoes diversas o aumento do tamanho da amostra muitas vezes torna-se im-praticavel A gravidade do erro tipo I e distinta da do erro tipo II quando seconsegue identificar o erro mais grave a opcao e a minimizacao deste poremquando a probabilidade de ocorrencia de um tipo de erro diminui a do outroaumenta e vice versa Podemos observar este criterio na seguinte tabela
Nao rejeita rejeitaH0 verdadeira Correto (1 minus α) Erro do tipo I (α)H0 falsa Erro do tipo II (β ) Correto (1minus β )
Castaneda Daniel F N 2013 39
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4043
22 Metodologia 2 R E ECONOMETRIA
228 Regra de Decisao
Os pacotes ou plataformas estatısticas apresentam o valor observado dafuncao pivo e o p minus valor (Area de probabilidade esta relacionada comonıvel de significancia) assim a funcao pivo apresenta o valor numerico nafuncao de densidade da Estatıstica exemplo dentro da densidade da normalQuando o pvalor e menor do que α = 005 no caso do teste unicaudal (eα = 0025 no caso bicaudal) concluımos que nao ha evidencia suficiente paraaceitar H0 Caso contrario se o p minus valor for maior que α = 005 podemosconcluir que nao ha evidencia suficiente para rejeitar H0 Nosso exemplot0 = 2313 gt 1998 (1998 e valor da distribuicao t com 63 gl e nıvel designificancia bicaudal de 005) este valor localiza-se na cauda positiva da
distribuicao com 63 graus de liberdade(n minus 2 = 65 minus 2) Por outro lado o pminus valor lt 0025 por tanto nao ha evidencias para aceitar H0 em favor deaceitar que o coeficiente de inclinacao (ou tangente) e positiva No recorrerdo livro usaremos codigos para as medidas do pminusvalor que em geral apareceem todo comando summary() Como consequencia a linha que aparece aseguir sera excluıda das saıdas do R
Signif codes 0 0001 001 005 01 1
sera interpretada da seguinte maneira
bull 0 significancia menor que 0001
bull 0001 significancia menor que 001
bull 001 significancia menor que 005
bull 005 significancia menor que 01
bull 01 significancia menor que 1
229 Conclusoes
Esta parte do teste de hipoteses e explicada em conjunto O Estatıstico eo Economista que sao os profissionais da area em que as observacoes foramcoletadas decidem sobre as providencias futuras No exemplo podemosafirmar que a cada metro cubico a mais de consumo de agua sera pago emmedia 3 reais a mais No momento este valor pago pode parecer alto poremna falta de este liquido elementar este valor pode aumentar e por tantosofrera mudancas
Castaneda Daniel F N 2013 40
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4143
23 Previs˜ oes 2 R E ECONOMETRIA
23 Previsoes
Muitas vezes estamos interessados em determinar o que acontece quandouma quantidade de consumo de agua em m3 e utilizada e qual o valor pagoem reais Por exemplo se nosso interesse e saber quanto sera pago por 20m3
de consumo de agua em uma residencia A conta a realizar eValor pago = minus12365 + 3007 lowast 20 = 47775 reaisA interpretacao deste valor e em media o valor pago em reais por 20m3 deagua consumida e de aproximadamente 478 reais
231 Resıduos
Uma questao fundamental em econometria e identificar o comportamentodos resıduos de um modelo Considere Y o valor real pago e Y valor pagoestimado a partir de um modelo entao este erro e aleatorio e definido por
ϵi = Y i minus Y i (13)
A abordagem mais formal dos erros e feita nos proximos capıtulosUma questao importante e determinar qual o comportamento da estima-tiva destes erros aos quais chamamos de resıduos Para determinar a nor-malidade dos resıduos realizamos o teste de Jarque Bera com a funcao
jarqueberatest() da biblioteca tseries com o seguinte grafico
minus2 minus1 0 1 2
minus 5
0
5
1 0
resiacuteduos do modelo valor= f(consumo)
Theoretical Quantiles
S a m p l e Q u a n t i l e s
Figura 11 Normalidade dos resıduos
Castaneda Daniel F N 2013 41
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4243
24 Exercıcios REFER ENCIAS
24 Exercıcios
1 Por que a econometria precisa ser uma disciplina autonoma
2 Que e econometria
3 Pesquise dados de corte transversal corte longitudinal e de painel
4 Construa uma metodologia econometrica para o consumo familiar emfuncao da renda familiar (linear)
5 No item anterior e possıvel encontrar uma relacao quadratica
6 Quais sao os pressupostos basicos de um modelo de regressao linear
simples
7 Como e chamado o parametro de inclinacao ou tangente num modelode regressao linear simples em econometria
8 Que e o projeto R
9 R e um programa econometrico
Referencias
[1] Albert Jim (2009) Bayesian computation with R Editora SpringerSecond Edition New York USA
[2] Borde Arvind (1992) TEX by example A beginneracutes guide Ed Aca-demic Press Professional United States of America
[3] Carneiro Orlando (1997) Econometria Bacute asica Teoria e Aplicac˜ oes Editora Atlas Segunda Edicao son Paulo
[4] Conover W J (1999) Practical nonparametric statistics 3ed NewYork
[5] Cribari Neto F (2002) C for Econometricians conputational Econo-
mics 14 p135-149
[6] Dalgaard Peter(2008) Introductory Statistics with R Editora SpringerSecond Edition New York USA
[7] Ehlers Ricardo(2007) Analise de series Temporais Universidade Fe-deral do Parana
Castaneda Daniel F N 2013 42
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4343
REFER ENCIAS REFER ENCIAS
[8] Frery Alejandro Cribari-Neto Francisco(2011)Elementos de
Estatıstica conputacional Usando Plataformas de Software Li-vreGratuito Publicacoes Matematicas Editora IMPA
[9] Gujarati Damodar N (2000) Econometria Bacute asica Makron Books Ter-ceira Edicao son Paulo
[10] Knuth DE (1981)The Art of conputer Programming Third EditionVolume 2 Seminumerical Algorithms Addison-Wesley Publishingconpany Massachusetts
[11] Korgi Rodrigo de Castro (2003) El universo LAT E X Editora Facultadde Ciencias Segunda Edicao Bogota
[12] Krawczyk H How to Predict Congruential Generators InJournal of Algorithms V 13 N 4 1992
[13] LrsquoEcuyer P (2001) Software for uniform random number generationdistinguishing the good and the bad In Proceedings of the 2001 WinterSimulation Conference
[14] Maindonald John Braun W John(2010) Data analysis and graphics using R an example-based approach Cambridge University Press NewYork USA
[15] Mingoti(2005)Analise De Dados Atraves De Metodos De Estatistica Multivariada - Uma Abordagem Aplicada Editora UFMG Belo Hori-zonte
Castaneda Daniel F N 2013 43
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2343
126 Algoritmos de programac˜ ao no R 1 INICIANDO O R
mediaharmonica=function (x) 1mean(1x)
Um algoritmo que envolva as medidas de tendencia central
medidascentrais = function(y medida)
switch(medida
media = mean(y)
mgeometrica = exp(mean(log(y)))
mharmonica = 1mean(1y)
mediana = median(y)
stop(Medida n~ao inclusa))
medidascentrais(ymedia)
Gerando uma distribuicao uniforme para o lancamento de um dado
ndado=function(x) return(round(runif(x)6+05))
hist(ndado(100000)
Com o comando sample podemos realizar este mesmo experimento daseguinte maneira
gerando=sample(16 100000 replace=TRUE)
hist(gerando)
Considere o seguinte objeto c
c=c(122715365)
Para determinar que classe de objeto e o vetor c podemos identificarusando os seguintes comandos
ischaracter(c)
[1] FALSE
isnumeric(c)
[1] TRUE
A este objeto c podemos a signar nome a cada valor definido da seguinteforma
names(c)=c(abcdef)
c
a b c d e f
10 22 70 150 30 65
Castaneda Daniel F N 2013 23
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2443
127 Lacos no R 1 INICIANDO O R
Podemos associar uma comparacao logica com o vetor c da seguinte
forma
cgt3
a b c d e f
FALSE FALSE TRUE TRUE FALSE TRUE
Quando estamos diante de uma matriz podemos definir os nomes dascolunas com colnames() e os nomes das linhas com rownames() veja oexemplo
d=matrix(c(223582858)33)
colnames(d)=c(c1c2c3)
rownames(d)=c(1o2o3o)
d
c1 c2 c3
1o 2 5 8
2o 2 8 5
3o 3 2 8
A matriz d e entendida como um conjunto de dados que podem serassociados as linhas e as colunas Para determinar se ha associacao entrelinhas e colunas o teste utilizado pode se o qui-quadrado com a funcaochisqtest()
127 Lacos no R
Em algumas situacoes variaveis contınuas podem ser transformadas em variaveisordinais ou dummy para realizar estas operacoes o R proporciona varioslacos como else if ou ifelseExemplo para construir variaveis binarias considere o consumo de aguaonde consumo menor ou igual a 10 m3 e zero e acima de 10 m3 e 1 Ovalor de consumo sendo zero se o valor e menor ou igual a 20 reais e 1 casocontrario
consumoc=numeric(length(consumo))
for(i in 1length(consumo))if (consumo[i]lt=10) consumoc[i]=0
else consumoc[i]=1
valorc=numeric(length(valor))
for(i in 1length(valor))if (valor[i]lt=20) valorc[i]=0 else valorc[i]=1
Castaneda Daniel F N 2013 24
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2543
128 A func˜ ao cut() 1 INICIANDO O R
Nota Podemos construir os lacos considerando a condicao como texto
exemplo consumoc[i]=rdquo[0minus 10]rdquo Comando alternativo de construcao
consumoc2=ifelse(consumolt=10[0-10]Acima de 10)
valorc2=ifelse(valorlt=20[0-20]Acima de 20)
limitacao deste laco e que utilizado apenas para duas condicoes Para lacoscom mais de duas condicoes podemos usar os seguintes comandos
valorc3=numeric(length(valor))
for(i in 1length(valor))if (valor[i]lt20) valorc3[i]=[0-20)
else if (valor[i]lt30)
valorc3[i]=[20-30) else valorc3[i]=[30 a +
table(valorc3)
128 A funcao cut()
Alguma funcoes usam lacos para criar novas variaveis categoricas no exem-plo de valor pago em reais pelo consumo de agua podemos construir cate-gorias por quartis de 25 50 75 1 da seguinte maneira
q=cut(valorquantile(valor) includelowest=T)
table(q)
q
[135165] (165222] (222327] (327693]
17 16 16 16
Outras formas podem ser usando intervalos a criterio pessoal no exemplo aseguir consideramos com valor mınimo 13 e valor maximo 70 com amplitudedo intervalo de 19 e com classes fechadas no mınimo e aberto no maximo
valr=cut(valmseq(137019)right=Fincludeupper=T)
table(valr)
valr
[1332) [3251) [5170)
48 15 2
129 Criando funcoes Teste que compara duas medias
Como exemplo implementamos a estatıstica de comparacao de duasamostras independentes
Castaneda Daniel F N 2013 25
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2643
130 Coeficiente de regressao 1 INICIANDO O R
testeduas lt- function(y1 y2)
+ n1 lt- length(y1) n2 lt- length(y2)
+ yb1 lt- mean(y1) yb2 lt- mean(y2)
+ s1 lt- var(y1) s2 lt- var(y2)
+ s lt- ((n1-1)s1 + (n2-1)s2)(n1+n2-2)
+ tst lt- (yb1 - yb2)sqrt(s(1n1 + 1n2))
+ tst
+
x=runif(20)
y=rnorm(20)
testeduas(xy)
[1] 2874636
Uma forma alternativa e usando a funcao ttest()
ttest(xy)
Welch Two Sample t-test
data x and y
t = 28746 df = 21784 p-value = 0008858
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
01846283 11429380sample estimates
mean of x mean of y
05539270 -01098562
130 Coeficiente de regressao
Implementando o calculo da tangente (inclinacao) do coeficiente no mo-delo de regressao linear simples
mq1lt- function(X y)
+ X lt- qr(X)
+ qrcoef(X y)+
mq1(xy)
[1] -008755885
Castaneda Daniel F N 2013 26
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2743
131 Teste Qui- Quadrado 1 INICIANDO O R
131 Teste Qui- Quadrado
Util para associar linhas e colunas considere os dados em d com as se-guintes hipotesesH0 nao ha associacao entre linhas e colunasHa ha associacao entre linhas e colunas
chisqtest(d)
Pearsonrsquos Chi-squared test
data d
X-squared = 46497 df = 4 p-value = 03252
Warning message
In chisqtest(d) Aproximac~ao Qui-quadrado pode estar incorreta
Para um nıvel α = 0 05 de significancia podemos afirmar que nao haevidencias para afirmar que a associacao entre linhas e colunas (linhas ecolunas sao independentes) Um outro exemplo do uso da distribuicao Qui-quadrado e verificar se um conjunto de dados provem de uma determinadadistribuicao teorica
chisqtest(c)
Chi-squared test for given probabilities
data c
X-squared = 22549 df = 5 p-value = 00004116
Pelo p-value podemos afirmar que a 0 05 de significancia nao ha evi-dencias para afirmar que a distribuicao dos numeros em c sejam uniformesPara implementar este teste de associacao no exemplo de consumo de aguaconsiderando a classificacao mediante lacos (ver lacos no R) entre consumoce valorc temos
table(consumocvalorc)
valorc
consumoc 0 1
0 24 0
Castaneda Daniel F N 2013 27
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2843
132 Teste t - student 1 INICIANDO O R
1 3 38
chisqtest(consumocvalorc)$expected
chisqtest(consumocvalorc)$observed
chisqtest(consumocvalorc)
Pearsonrsquos Chi-squared test with Yatesrsquo continuity correction
data consumoc and valorc
X-squared = 498015 df = 1 p-value = 1701e-12
barplot(table(consumocvalorc) beside=T)
Concluimos que ha associacao entre consumo de agua e o valor pago em
reais
132 Teste t - student
O teste mais usado pelos estatısticos e util para comparar medias deduas amostras tanto independente como emparelhadasExemplo considere as exportacoes mensais (FOB-US) do Brasil durante osanos de 2009 minus 2010 Apos digitacao das observacoes temos
exp2009
[1] 9781920 9586406 11809225 12321617 11984585 14467785 14141930
[8] 13840850 13863222 14081686 12652892 14462624
exp2010[1] 1130507 1219724 1572750 1516121 1770250 1709391 1767292 1923625
[9] 1883279 1838042 1768733 2091814
H0 A medias anuais das exportacoes durante 2009 e 2010 e a mesmaHa CC
ttest(exp2009exp2010paired = FALSE)
Welch Two Sample t-test
data exp2009 and exp2010
t = -42813 df = 18202 p-value = 00004394
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-6075666 -2077757
sample estimates
mean of x mean of y
Castaneda Daniel F N 2013 28
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2943
133 Teste F 1 INICIANDO O R
1274956 1682627
Conclusao nao ha evidencias para aceitar que a media das exportacoesde 2009 e 2010 e a mesma
Quando um conjunto de dados e dado em formato de matriz (dataframe)podemos realizar o teste t de uma coluna em funcao da outra por exemplono consumo de agua queremos testar a hipotese nula H0 o valor de con-sumo de agua e o mesmo construindo ou nao versus a hipotese alternativaHa Caso contrario
attach(ca)
ttest(valor~Construindo)
Welch Two Sample t-test
data valor by Construindo
t = -58383 df = 21731 p-value = 7465e-06
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-2288867 -1088356
sample estimates
mean in group 0 mean in group 1
2115271 3803882
Concluımos que nao ha evidencias para aceitar que o valor de consumode agua e o mesmo quando estamos construindo ( p minus valor lt 005)
Exemplos adicionais podem ser comparando entre as variaveis clas-sificadas (ver secao de lacos) da seguinte forma
ttest(valor~consumoc)
ttest(consumo~valorc)
boxplot(consumo~valorc2 main=Consumo e valor pago em Reais)
boxplot(consumo~valorc3 main=Consumo e valor pago em Reais)
133 Teste F
Para determinar se ha a mesma variabilidade no valor de consumoquando estamos ou nao construindo utilizamos o teste F A hipotese nulae H0 O valor de consumo de agua tem a mesma variabilidade quandoconstruımos que quando nao construımos No R temos
Castaneda Daniel F N 2013 29
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3043
133 Teste F 1 INICIANDO O R
vartest(valor~Construindo)
F test to compare two variances
data valor by Construindo
F = 04834 num df = 47 denom df = 16 p-value = 005478
alternative hypothesis true ratio of variances is not equal to 1
95 percent confidence interval
0194815 1014916
sample estimates
ratio of variances
04834048
Concluımos que nao ha evidencias para rejeitar a hipotese nula por tanto
a variabilidade no valor de consumo e o mesmoO correspondente grafico (Box-plot) e apresentado a seguir
boxplot(valor~Construindo col=8 names=c(n~ao construc~ao construc~ao))
natildeo construccedilatildeo construccedilatildeo
2 0
3 0
4 0
5 0
6 0
7 0
Figura 4 Valor pago em reais no consumo de agua
Em alguns casos ha necessidade de identificar se a variabilidade dasexportacoes e a mesma comparando 2009 e 2010H0 As exportacoes de 2009 e 2010 tem a mesma variabilidade (dados men-sais coletados do site httpwwwipeadatagov)Ha CC
Castaneda Daniel F N 2013 30
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3143
134 Graficos 1 INICIANDO O R
vartest(exp2009exp2010)
F test to compare two variances
data exp2009 and exp2010
F = 03728 num df = 11 denom df = 11 p-value = 01166
alternative hypothesis true ratio of variances is not equal to 1
95 percent confidence interval
01073346 12951624
sample estimates
ratio of variances
03728482
Conclusao Nao houve mudancas na variabilidade das exportacoes de
2009 e 2010
134 Graficos
Considere os dados mensais das exportacoes do Brasil (FOB) durante2009 e 2010 para realizar um grafico de box-plot fazemos
boxplot(exp2009exp2010 main=exportac~oes do Brasil
names=c(20092010))
2009 2010
1 0 0 0 0
1 2 0 0 0
1 4 0 0 0
1 6 0 0 0
1 8 0 0 0
2 0
0 0 0
exportaccedilotildees do Brasil
Figura 5 Exportacoes FOB em dolares
Para o grafico da funcao acumulativa das exportacoes
plot(ecdf(exp2010) dopoint=FALSE verticals=TRUE
lty=3 xlim=c(1000023000))
lines(ecdf(exp2009) dopoint=FALSE verticals=TRUE
col=2)
Castaneda Daniel F N 2013 31
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3243
134 Graficos 1 INICIANDO O R
1 00 00 1 20 00 1 40 00 1 60 00 1 80 00 2 00 00 2 20 00
0 0
0 2
0 4
0 6
0 8
1 0
ecdf(exp2010)
x
F n ( x )
Figura 6 Funcao acumulada das exportacoes 2009-2010
Considere as exportacoes do Brasil um histograma e Q-Q plot sera
hist(exp main=Exportac~oes FOB-US col=8)
qqnorm(exp xlim=c(-55)ylim=c(-100021000))
qqline(exp)
Exportaccedilotildees FOBminusUS$
exp
F r e q u e n c y
0 5000 10000 15000 20000
0
5 0
1 0 0
1 5 0
minus4 minus2 0 2 4
0
5 0 0 0
1 0 0 0 0
1 5 0 0 0
2 0 0 0 0
Normal QminusQ Plot
Theoretical Quantiles
S a m p l e Q u a n t i l e s
Figura 7 Graficos das Exportacoes no Brasil 2001-2010
Para ativar alguns graficos pacotes sao necessarios exemplo
library(MASS)
Castaneda Daniel F N 2013 32
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3343
134 Graficos 1 INICIANDO O R
par(mfrow=c(21))
z = rnorm(500000)
hist(z prob=T)
curve(dnorm(x)add=T)
histscott(z prob=T)
Histogram of z
z
D e n s i t y
minus4 minus2 0 2 4
0 0
0 2
Histogram of x
z
D e n s i t y
minus4 minus2 0 2 4
0 0
0 2
0 4
Figura 8 Histograma de numeros aleatorios normais
boxcox(dist~speed data=cars) transformac~ao Box-Cox
minus2 minus1 0 1 2
minus 4 0 0
minus 3 5 0
minus 3 0 0
minus 2 5 0
λ
l o g minus
L i k e l i h o o d
95
Figura 9 Valor otimo na transformacao Box-Cox
Castaneda Daniel F N 2013 33
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3443
135 Tabelas 1 INICIANDO O R
Para ter um alcance maior sobre a capacidade grafica do R podemos
usar as seguintes funcoes
demo(graphics)
demo(image)
demo(persp)
demo(recursion)
demo(plotmath)
demo(package = packages(allavailable = TRUE))
135 Tabelas
Algumas tabelas estatısticas podem ser construıdas com a funcao table()estado=c(PBPEALSEBAMGESRJPBPEAL
SEBAMGESRJPBPEALSEBAMGESRJ
PBPEALSEBAMGESRJ)
estadof=factor(estado)
estadof
[1] PB PE AL SE BA MG ES RJ PB PE AL SE BA MG ES RJ PB PE AL SE BA
[22] MG ES RJ PB PE AL SE BA MG ES RJ
Levels AL BA ES MG PB PE RJ SE
setseed(10)
salarios=c(round(runif(32)100))
salarios
[1] 51 31 43 69 9 23 27 27 62 43 65 57 11 60 36 43 5 26 40 84 86 62 78 36 41
[26] 71 84 24 77 36 54 9
salariom=tapply(salariosestadofmean)
salariom
AL BA ES MG PB PE RJ SE
5800 4575 4875 4525 3975 4275 2875 5850
salariof=factor(cut(salariosbreaks=0+15(07)))
salariof
[1] (4560] (3045] (3045] (6075] (015] (1530] (1530] (1530] (6075]
[10] (3045] (6075] (4560] (015] (4560] (3045] (3045] (015] (1530]
[19] (3045] (7590] (7590] (6075] (7590] (3045] (3045] (6075] (7590]
[28] (1530] (7590] (3045] (4560] (015]
Levels (015] (1530] (3045] (4560] (6075] (7590]
table(salariofestadof)
estadof
Castaneda Daniel F N 2013 34
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3543
136 Comandos adicionais 2 R E ECONOMETRIA
salariof AL BA ES MG PB PE RJ SE
(015] 0 2 0 0 1 0 1 0
(1530] 0 0 1 1 0 1 1 1
(3045] 2 0 1 1 1 2 2 0
(4560] 0 0 1 1 1 0 0 1
(6075] 1 0 0 1 1 1 0 1
(7590] 1 2 1 0 0 0 0 1
table(salariofestadof)
estadof
salariof AL BA ES MG PB PE RJ SE
(015] 1 1 0 0 1 0 1 2
(1530] 0 0 1 1 0 0 1 1
(3045] 0 0 2 0 0 1 0 0
(4560] 2 0 1 0 0 1 0 0
(6075] 0 1 0 2 3 0 1 0
(7590] 0 1 0 1 0 2 0 1
(90105] 0 1 0 0 0 0 1 0
136 Comandos adicionais
Em situacoes onde a ausencia de informacao ou dados faltantes(missing)as funcoes do R precisam declarar esta ausencia com o comando narm=T
indicando que a informacao apresenta dados faltantes Exemplo
df=c(2NA58NA) O ultimo elemento esta ausente
mean(f) Comando padr~ao para calcular a media
[1] NA
mean(fnarm=T) Comando declarando a ausencia de elementos
[1] 5
2 R e Econometria
Dados economicos precisam de uma atencao matematica para dar fun-
damento a suas teorias Atualmente pelo avanco computacional nao habarreiras para serem aplicadas e torna-se ate divertida se definimos a plata-forma de trabalho computacional A econometria requer de uma abordagemdiferenciada pois faz uso de da teoria economica economia matematica es-tatıstica economica estatıstica matematica e inferencia estatıstica Esta
Castaneda Daniel F N 2013 35
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3643
21 Tipos de Dados 2 R E ECONOMETRIA
disciplina aproxima a Estatıstica da Economia onde a teoria economica for-
mula as hipoteses Por exemplo uma reducao de precos de uma mercadoriadevera aumentar a quantidade demandada dessa mercadoria considerandouma relacao inversa entre preco e quantidade demandada ou a despesa deconsumo per capita depende da renda per capita considerando uma relacaodireta ou seja a medida que a renda aumenta a despesa tende a aumentarOutro exemplo onde consideremos a area microeconomica consumo de aguade uma residencia e o valor pago e natural imaginar que ha uma relacaodireta entre consumo e valor pago pelo consumo Porem precisamos saberqual e quanto e esta forca de relacao por tanto o econometrista forneceesta informacao usando a inferencia estatıstica e a estatıstica economicaAs estimativas de esta relacao fica por conta de estatıstica matematica
Para completar e cerrar este circulo de disciplinas abordadas na Econo-metria precisamos utilizar uma ferramenta de calculo computacional quebrinde estabilidade precisao e rapidez nos seus resultados para superartudo isto utilizaremos o ambiente R A econometria surge como uma disci-plina autonoma em virtude de aglutinar todas estas areas do conhecimentomerecendo um estudo proprio
21 Tipos de Dados
Os tipos de dados sao
1 Dados de corte transversal (cross-section) sao dados de uma ou maisvariaveis coletadas no mesmo ponto do tempo Por exemplo os censosno Brasil sao coletados num instante do tempo No censo variaveisdemograficas sao exploradas como contagem da populacao numerode indivıduos em cada famılia idade dos integrantes da famılia ouvariaveis economicas como renda consumo tipo de moradia (alugadaou propria) etc estes dados sao adquiridas a cada decada pelo IBGE
2 Dados longitudinais ou de series temporais sao caracterizadas porobservacoes ao longo do tempo No Brasil um site que disponibilizadados desta natureza e o IPEADATA
3 Dados de painel e uma mistura de dados de corte transversal e longi-tudinais ou ao longo do tempo estudamos o comportamento de unida-des individuais Por exemplo series mensal do ındice de precos serieanuais do produto interno bruto (PIB) ou serie anual da balanca co-mercial dos municıpios do Brasil considerando cada municıpio comounidades individuais
Castaneda Daniel F N 2013 36
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3743
22 Metodologia 2 R E ECONOMETRIA
22 Metodologia
Os passos da metodologia econometrica tradicional ou classica se iniciadesde a formulacao da hipotese ate as conclusoes em geral sao
221 Hipotese
Como referencia usaremos a hipotese nula H 0 a qual nulifica qualquerdiferenca e a hipoteses alternativa H a aquela que contradiz total ou par-cialmente a hipotese nula Exemplo
1 H 0 nao existe uma relacao entre consumo de agua e valor pago pela
mesma
2 Ha existe uma relacao entre consumo de agua e valor pago pelamesma
A hipotese alternativa pode ser dividida em tres possibilidades no exem-plo do consumo de agua pode ser dividida em existe alguma relacao oua relacao e negativa ou a relacao e positiva A primeira denomina-se dehipotese alternativa com teste bicaudal o segundo de teste unicaudal a es-querda e finalmente o ultimo com teste unicaudal a direita Nosso exemploconsidere H a existe alguma relacao (teste bicaudal)
222 Modelo matematico
Usaremos uma funcao de consumo simples
Y = β 1 + β 2X (11)
A variavel dependente Y valor pago pelo consumo e estimado por Y A variavel independente e X consumo de agua em m3 β 1 representa ovalor pago quando nao ha consumo de agua Nosso interesse e determinara tangente ou a variacao pelo consumo β 2
223 Modelo econometrico do valor pago
O modelo matematico fornece a relacao determinıstica entre valor pagoem reais e consumo de agua porem as relacoes entre as variaveis economicassao em geral inexatas Assim ao longo do tempo no podemos esperar que ovalor pago e o consumo em m3 se situem exatamente numa linha reta isto
Castaneda Daniel F N 2013 37
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3843
22 Metodologia 2 R E ECONOMETRIA
por que alem do consumo outras variaveis afetam o valor pago por exemplo
os dias de consumo o perıodo de reforma da casa ou a inflacao podendoalterar o valor pago pelo consumo
224 Nıvel de significancia
Denominado de α frequentemente usa-se α = 005 em situacoes derisco usa-se α = 001 Em testes bicaudais divide-se α em duas partes elocalizam-se nos extremos da distribuicao de prova Para testes unicaudaislocaliza-se no extremo da distribuicao indicada pela hipotese alternativaNosso exemplo α = 005 e por tanto α2 = 0025
225 Obtencao de Dados
Considere 65 observacoes (mes a mes) do consumo de agua em umaresidencia e o valor pago em reais durante o perıodo de 122005 a 042011Ver dados no apendice A Um plot e apresentado a seguir
10 15 20
2 0
3 0
4 0
5 0
6 0
7 0
Valor pago em reais de consumo de aacutegua
Variaacutevel independenteConsumo em m3
V a r i aacute v e l d e p e n d e n t e V a l o r p a g o
Y = minus12365+3007X
Figura 10 Relacao causal entre consumo e valor pago em reais
Podemos observar visualmente que ha uma relacao positiva entre valorpago e consumo de agua onde a variacao pelo consumo ou variacao dovalor pago (tangente) β 2 cresce positivamente Precisamos verificar se estavariacao β 2 e estatisticamente diferente de zero (significativa)
Castaneda Daniel F N 2013 38
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3943
22 Metodologia 2 R E ECONOMETRIA
226 Estatıstica de prova
Denominada de funcao pivo ou estatıstica de teste No ambito pa-rametrico usa-se as estatısticas t student (amostras pequenas) quando ne grande e indiferente o uso da t student ou normal No exemplo para tes-tar qual a inclinacao da variacao pelo consumo de agua usamos a seguinteestatıstica
t0 =β 2
dp(β 2)asymp tnminus2gl (12)
onde t0 e o valor calculado da estatıstica t β 2 e a estimativa do parametro(variacao pelo consumo) β 2 dp(β 2) e o desvio padrao da estimativa doparametro β 2 o valor t0 segue uma distribuicao t-student com nminus2 graus deliberdade(gl) Os graus de liberdade e calculado diferenciando o tamanhoda amostra com o numero de parametro do modelo (n-p) O valor quantılicotnminus2gl(0025) corresponde a distribuicao t-student com 0025 de significanciacom n minus 2 graus de liberdade e n e o numero total de observacoes Nossoexemplo β 2 = 3007 e dp(β 2) = 013 por tanto t0 = 2313 e comparadocom o valor da tabela da t-student com 63 gl e com α2 = 0025 sendo estevalor igual 19983
227 Tipos de erro
Ocorre o erro tipo I (α) ao se rejeitar a hipotese de nulidade quandodeveria aceita-la Por outro lado quando se aceita a hipotese de nulidadequando deveria rejeita-la comete-se o erro tipo II (β ) Nas duas situacoestomou-se uma decisao errada O interesse e a minimizacao dos erros tipo Ie II que na pratica so e possıvel aumentando-se o tamanho da amostra Porrazoes diversas o aumento do tamanho da amostra muitas vezes torna-se im-praticavel A gravidade do erro tipo I e distinta da do erro tipo II quando seconsegue identificar o erro mais grave a opcao e a minimizacao deste poremquando a probabilidade de ocorrencia de um tipo de erro diminui a do outroaumenta e vice versa Podemos observar este criterio na seguinte tabela
Nao rejeita rejeitaH0 verdadeira Correto (1 minus α) Erro do tipo I (α)H0 falsa Erro do tipo II (β ) Correto (1minus β )
Castaneda Daniel F N 2013 39
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4043
22 Metodologia 2 R E ECONOMETRIA
228 Regra de Decisao
Os pacotes ou plataformas estatısticas apresentam o valor observado dafuncao pivo e o p minus valor (Area de probabilidade esta relacionada comonıvel de significancia) assim a funcao pivo apresenta o valor numerico nafuncao de densidade da Estatıstica exemplo dentro da densidade da normalQuando o pvalor e menor do que α = 005 no caso do teste unicaudal (eα = 0025 no caso bicaudal) concluımos que nao ha evidencia suficiente paraaceitar H0 Caso contrario se o p minus valor for maior que α = 005 podemosconcluir que nao ha evidencia suficiente para rejeitar H0 Nosso exemplot0 = 2313 gt 1998 (1998 e valor da distribuicao t com 63 gl e nıvel designificancia bicaudal de 005) este valor localiza-se na cauda positiva da
distribuicao com 63 graus de liberdade(n minus 2 = 65 minus 2) Por outro lado o pminus valor lt 0025 por tanto nao ha evidencias para aceitar H0 em favor deaceitar que o coeficiente de inclinacao (ou tangente) e positiva No recorrerdo livro usaremos codigos para as medidas do pminusvalor que em geral apareceem todo comando summary() Como consequencia a linha que aparece aseguir sera excluıda das saıdas do R
Signif codes 0 0001 001 005 01 1
sera interpretada da seguinte maneira
bull 0 significancia menor que 0001
bull 0001 significancia menor que 001
bull 001 significancia menor que 005
bull 005 significancia menor que 01
bull 01 significancia menor que 1
229 Conclusoes
Esta parte do teste de hipoteses e explicada em conjunto O Estatıstico eo Economista que sao os profissionais da area em que as observacoes foramcoletadas decidem sobre as providencias futuras No exemplo podemosafirmar que a cada metro cubico a mais de consumo de agua sera pago emmedia 3 reais a mais No momento este valor pago pode parecer alto poremna falta de este liquido elementar este valor pode aumentar e por tantosofrera mudancas
Castaneda Daniel F N 2013 40
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4143
23 Previs˜ oes 2 R E ECONOMETRIA
23 Previsoes
Muitas vezes estamos interessados em determinar o que acontece quandouma quantidade de consumo de agua em m3 e utilizada e qual o valor pagoem reais Por exemplo se nosso interesse e saber quanto sera pago por 20m3
de consumo de agua em uma residencia A conta a realizar eValor pago = minus12365 + 3007 lowast 20 = 47775 reaisA interpretacao deste valor e em media o valor pago em reais por 20m3 deagua consumida e de aproximadamente 478 reais
231 Resıduos
Uma questao fundamental em econometria e identificar o comportamentodos resıduos de um modelo Considere Y o valor real pago e Y valor pagoestimado a partir de um modelo entao este erro e aleatorio e definido por
ϵi = Y i minus Y i (13)
A abordagem mais formal dos erros e feita nos proximos capıtulosUma questao importante e determinar qual o comportamento da estima-tiva destes erros aos quais chamamos de resıduos Para determinar a nor-malidade dos resıduos realizamos o teste de Jarque Bera com a funcao
jarqueberatest() da biblioteca tseries com o seguinte grafico
minus2 minus1 0 1 2
minus 5
0
5
1 0
resiacuteduos do modelo valor= f(consumo)
Theoretical Quantiles
S a m p l e Q u a n t i l e s
Figura 11 Normalidade dos resıduos
Castaneda Daniel F N 2013 41
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4243
24 Exercıcios REFER ENCIAS
24 Exercıcios
1 Por que a econometria precisa ser uma disciplina autonoma
2 Que e econometria
3 Pesquise dados de corte transversal corte longitudinal e de painel
4 Construa uma metodologia econometrica para o consumo familiar emfuncao da renda familiar (linear)
5 No item anterior e possıvel encontrar uma relacao quadratica
6 Quais sao os pressupostos basicos de um modelo de regressao linear
simples
7 Como e chamado o parametro de inclinacao ou tangente num modelode regressao linear simples em econometria
8 Que e o projeto R
9 R e um programa econometrico
Referencias
[1] Albert Jim (2009) Bayesian computation with R Editora SpringerSecond Edition New York USA
[2] Borde Arvind (1992) TEX by example A beginneracutes guide Ed Aca-demic Press Professional United States of America
[3] Carneiro Orlando (1997) Econometria Bacute asica Teoria e Aplicac˜ oes Editora Atlas Segunda Edicao son Paulo
[4] Conover W J (1999) Practical nonparametric statistics 3ed NewYork
[5] Cribari Neto F (2002) C for Econometricians conputational Econo-
mics 14 p135-149
[6] Dalgaard Peter(2008) Introductory Statistics with R Editora SpringerSecond Edition New York USA
[7] Ehlers Ricardo(2007) Analise de series Temporais Universidade Fe-deral do Parana
Castaneda Daniel F N 2013 42
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4343
REFER ENCIAS REFER ENCIAS
[8] Frery Alejandro Cribari-Neto Francisco(2011)Elementos de
Estatıstica conputacional Usando Plataformas de Software Li-vreGratuito Publicacoes Matematicas Editora IMPA
[9] Gujarati Damodar N (2000) Econometria Bacute asica Makron Books Ter-ceira Edicao son Paulo
[10] Knuth DE (1981)The Art of conputer Programming Third EditionVolume 2 Seminumerical Algorithms Addison-Wesley Publishingconpany Massachusetts
[11] Korgi Rodrigo de Castro (2003) El universo LAT E X Editora Facultadde Ciencias Segunda Edicao Bogota
[12] Krawczyk H How to Predict Congruential Generators InJournal of Algorithms V 13 N 4 1992
[13] LrsquoEcuyer P (2001) Software for uniform random number generationdistinguishing the good and the bad In Proceedings of the 2001 WinterSimulation Conference
[14] Maindonald John Braun W John(2010) Data analysis and graphics using R an example-based approach Cambridge University Press NewYork USA
[15] Mingoti(2005)Analise De Dados Atraves De Metodos De Estatistica Multivariada - Uma Abordagem Aplicada Editora UFMG Belo Hori-zonte
Castaneda Daniel F N 2013 43
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2443
127 Lacos no R 1 INICIANDO O R
Podemos associar uma comparacao logica com o vetor c da seguinte
forma
cgt3
a b c d e f
FALSE FALSE TRUE TRUE FALSE TRUE
Quando estamos diante de uma matriz podemos definir os nomes dascolunas com colnames() e os nomes das linhas com rownames() veja oexemplo
d=matrix(c(223582858)33)
colnames(d)=c(c1c2c3)
rownames(d)=c(1o2o3o)
d
c1 c2 c3
1o 2 5 8
2o 2 8 5
3o 3 2 8
A matriz d e entendida como um conjunto de dados que podem serassociados as linhas e as colunas Para determinar se ha associacao entrelinhas e colunas o teste utilizado pode se o qui-quadrado com a funcaochisqtest()
127 Lacos no R
Em algumas situacoes variaveis contınuas podem ser transformadas em variaveisordinais ou dummy para realizar estas operacoes o R proporciona varioslacos como else if ou ifelseExemplo para construir variaveis binarias considere o consumo de aguaonde consumo menor ou igual a 10 m3 e zero e acima de 10 m3 e 1 Ovalor de consumo sendo zero se o valor e menor ou igual a 20 reais e 1 casocontrario
consumoc=numeric(length(consumo))
for(i in 1length(consumo))if (consumo[i]lt=10) consumoc[i]=0
else consumoc[i]=1
valorc=numeric(length(valor))
for(i in 1length(valor))if (valor[i]lt=20) valorc[i]=0 else valorc[i]=1
Castaneda Daniel F N 2013 24
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2543
128 A func˜ ao cut() 1 INICIANDO O R
Nota Podemos construir os lacos considerando a condicao como texto
exemplo consumoc[i]=rdquo[0minus 10]rdquo Comando alternativo de construcao
consumoc2=ifelse(consumolt=10[0-10]Acima de 10)
valorc2=ifelse(valorlt=20[0-20]Acima de 20)
limitacao deste laco e que utilizado apenas para duas condicoes Para lacoscom mais de duas condicoes podemos usar os seguintes comandos
valorc3=numeric(length(valor))
for(i in 1length(valor))if (valor[i]lt20) valorc3[i]=[0-20)
else if (valor[i]lt30)
valorc3[i]=[20-30) else valorc3[i]=[30 a +
table(valorc3)
128 A funcao cut()
Alguma funcoes usam lacos para criar novas variaveis categoricas no exem-plo de valor pago em reais pelo consumo de agua podemos construir cate-gorias por quartis de 25 50 75 1 da seguinte maneira
q=cut(valorquantile(valor) includelowest=T)
table(q)
q
[135165] (165222] (222327] (327693]
17 16 16 16
Outras formas podem ser usando intervalos a criterio pessoal no exemplo aseguir consideramos com valor mınimo 13 e valor maximo 70 com amplitudedo intervalo de 19 e com classes fechadas no mınimo e aberto no maximo
valr=cut(valmseq(137019)right=Fincludeupper=T)
table(valr)
valr
[1332) [3251) [5170)
48 15 2
129 Criando funcoes Teste que compara duas medias
Como exemplo implementamos a estatıstica de comparacao de duasamostras independentes
Castaneda Daniel F N 2013 25
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2643
130 Coeficiente de regressao 1 INICIANDO O R
testeduas lt- function(y1 y2)
+ n1 lt- length(y1) n2 lt- length(y2)
+ yb1 lt- mean(y1) yb2 lt- mean(y2)
+ s1 lt- var(y1) s2 lt- var(y2)
+ s lt- ((n1-1)s1 + (n2-1)s2)(n1+n2-2)
+ tst lt- (yb1 - yb2)sqrt(s(1n1 + 1n2))
+ tst
+
x=runif(20)
y=rnorm(20)
testeduas(xy)
[1] 2874636
Uma forma alternativa e usando a funcao ttest()
ttest(xy)
Welch Two Sample t-test
data x and y
t = 28746 df = 21784 p-value = 0008858
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
01846283 11429380sample estimates
mean of x mean of y
05539270 -01098562
130 Coeficiente de regressao
Implementando o calculo da tangente (inclinacao) do coeficiente no mo-delo de regressao linear simples
mq1lt- function(X y)
+ X lt- qr(X)
+ qrcoef(X y)+
mq1(xy)
[1] -008755885
Castaneda Daniel F N 2013 26
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2743
131 Teste Qui- Quadrado 1 INICIANDO O R
131 Teste Qui- Quadrado
Util para associar linhas e colunas considere os dados em d com as se-guintes hipotesesH0 nao ha associacao entre linhas e colunasHa ha associacao entre linhas e colunas
chisqtest(d)
Pearsonrsquos Chi-squared test
data d
X-squared = 46497 df = 4 p-value = 03252
Warning message
In chisqtest(d) Aproximac~ao Qui-quadrado pode estar incorreta
Para um nıvel α = 0 05 de significancia podemos afirmar que nao haevidencias para afirmar que a associacao entre linhas e colunas (linhas ecolunas sao independentes) Um outro exemplo do uso da distribuicao Qui-quadrado e verificar se um conjunto de dados provem de uma determinadadistribuicao teorica
chisqtest(c)
Chi-squared test for given probabilities
data c
X-squared = 22549 df = 5 p-value = 00004116
Pelo p-value podemos afirmar que a 0 05 de significancia nao ha evi-dencias para afirmar que a distribuicao dos numeros em c sejam uniformesPara implementar este teste de associacao no exemplo de consumo de aguaconsiderando a classificacao mediante lacos (ver lacos no R) entre consumoce valorc temos
table(consumocvalorc)
valorc
consumoc 0 1
0 24 0
Castaneda Daniel F N 2013 27
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2843
132 Teste t - student 1 INICIANDO O R
1 3 38
chisqtest(consumocvalorc)$expected
chisqtest(consumocvalorc)$observed
chisqtest(consumocvalorc)
Pearsonrsquos Chi-squared test with Yatesrsquo continuity correction
data consumoc and valorc
X-squared = 498015 df = 1 p-value = 1701e-12
barplot(table(consumocvalorc) beside=T)
Concluimos que ha associacao entre consumo de agua e o valor pago em
reais
132 Teste t - student
O teste mais usado pelos estatısticos e util para comparar medias deduas amostras tanto independente como emparelhadasExemplo considere as exportacoes mensais (FOB-US) do Brasil durante osanos de 2009 minus 2010 Apos digitacao das observacoes temos
exp2009
[1] 9781920 9586406 11809225 12321617 11984585 14467785 14141930
[8] 13840850 13863222 14081686 12652892 14462624
exp2010[1] 1130507 1219724 1572750 1516121 1770250 1709391 1767292 1923625
[9] 1883279 1838042 1768733 2091814
H0 A medias anuais das exportacoes durante 2009 e 2010 e a mesmaHa CC
ttest(exp2009exp2010paired = FALSE)
Welch Two Sample t-test
data exp2009 and exp2010
t = -42813 df = 18202 p-value = 00004394
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-6075666 -2077757
sample estimates
mean of x mean of y
Castaneda Daniel F N 2013 28
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2943
133 Teste F 1 INICIANDO O R
1274956 1682627
Conclusao nao ha evidencias para aceitar que a media das exportacoesde 2009 e 2010 e a mesma
Quando um conjunto de dados e dado em formato de matriz (dataframe)podemos realizar o teste t de uma coluna em funcao da outra por exemplono consumo de agua queremos testar a hipotese nula H0 o valor de con-sumo de agua e o mesmo construindo ou nao versus a hipotese alternativaHa Caso contrario
attach(ca)
ttest(valor~Construindo)
Welch Two Sample t-test
data valor by Construindo
t = -58383 df = 21731 p-value = 7465e-06
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-2288867 -1088356
sample estimates
mean in group 0 mean in group 1
2115271 3803882
Concluımos que nao ha evidencias para aceitar que o valor de consumode agua e o mesmo quando estamos construindo ( p minus valor lt 005)
Exemplos adicionais podem ser comparando entre as variaveis clas-sificadas (ver secao de lacos) da seguinte forma
ttest(valor~consumoc)
ttest(consumo~valorc)
boxplot(consumo~valorc2 main=Consumo e valor pago em Reais)
boxplot(consumo~valorc3 main=Consumo e valor pago em Reais)
133 Teste F
Para determinar se ha a mesma variabilidade no valor de consumoquando estamos ou nao construindo utilizamos o teste F A hipotese nulae H0 O valor de consumo de agua tem a mesma variabilidade quandoconstruımos que quando nao construımos No R temos
Castaneda Daniel F N 2013 29
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3043
133 Teste F 1 INICIANDO O R
vartest(valor~Construindo)
F test to compare two variances
data valor by Construindo
F = 04834 num df = 47 denom df = 16 p-value = 005478
alternative hypothesis true ratio of variances is not equal to 1
95 percent confidence interval
0194815 1014916
sample estimates
ratio of variances
04834048
Concluımos que nao ha evidencias para rejeitar a hipotese nula por tanto
a variabilidade no valor de consumo e o mesmoO correspondente grafico (Box-plot) e apresentado a seguir
boxplot(valor~Construindo col=8 names=c(n~ao construc~ao construc~ao))
natildeo construccedilatildeo construccedilatildeo
2 0
3 0
4 0
5 0
6 0
7 0
Figura 4 Valor pago em reais no consumo de agua
Em alguns casos ha necessidade de identificar se a variabilidade dasexportacoes e a mesma comparando 2009 e 2010H0 As exportacoes de 2009 e 2010 tem a mesma variabilidade (dados men-sais coletados do site httpwwwipeadatagov)Ha CC
Castaneda Daniel F N 2013 30
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3143
134 Graficos 1 INICIANDO O R
vartest(exp2009exp2010)
F test to compare two variances
data exp2009 and exp2010
F = 03728 num df = 11 denom df = 11 p-value = 01166
alternative hypothesis true ratio of variances is not equal to 1
95 percent confidence interval
01073346 12951624
sample estimates
ratio of variances
03728482
Conclusao Nao houve mudancas na variabilidade das exportacoes de
2009 e 2010
134 Graficos
Considere os dados mensais das exportacoes do Brasil (FOB) durante2009 e 2010 para realizar um grafico de box-plot fazemos
boxplot(exp2009exp2010 main=exportac~oes do Brasil
names=c(20092010))
2009 2010
1 0 0 0 0
1 2 0 0 0
1 4 0 0 0
1 6 0 0 0
1 8 0 0 0
2 0
0 0 0
exportaccedilotildees do Brasil
Figura 5 Exportacoes FOB em dolares
Para o grafico da funcao acumulativa das exportacoes
plot(ecdf(exp2010) dopoint=FALSE verticals=TRUE
lty=3 xlim=c(1000023000))
lines(ecdf(exp2009) dopoint=FALSE verticals=TRUE
col=2)
Castaneda Daniel F N 2013 31
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3243
134 Graficos 1 INICIANDO O R
1 00 00 1 20 00 1 40 00 1 60 00 1 80 00 2 00 00 2 20 00
0 0
0 2
0 4
0 6
0 8
1 0
ecdf(exp2010)
x
F n ( x )
Figura 6 Funcao acumulada das exportacoes 2009-2010
Considere as exportacoes do Brasil um histograma e Q-Q plot sera
hist(exp main=Exportac~oes FOB-US col=8)
qqnorm(exp xlim=c(-55)ylim=c(-100021000))
qqline(exp)
Exportaccedilotildees FOBminusUS$
exp
F r e q u e n c y
0 5000 10000 15000 20000
0
5 0
1 0 0
1 5 0
minus4 minus2 0 2 4
0
5 0 0 0
1 0 0 0 0
1 5 0 0 0
2 0 0 0 0
Normal QminusQ Plot
Theoretical Quantiles
S a m p l e Q u a n t i l e s
Figura 7 Graficos das Exportacoes no Brasil 2001-2010
Para ativar alguns graficos pacotes sao necessarios exemplo
library(MASS)
Castaneda Daniel F N 2013 32
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3343
134 Graficos 1 INICIANDO O R
par(mfrow=c(21))
z = rnorm(500000)
hist(z prob=T)
curve(dnorm(x)add=T)
histscott(z prob=T)
Histogram of z
z
D e n s i t y
minus4 minus2 0 2 4
0 0
0 2
Histogram of x
z
D e n s i t y
minus4 minus2 0 2 4
0 0
0 2
0 4
Figura 8 Histograma de numeros aleatorios normais
boxcox(dist~speed data=cars) transformac~ao Box-Cox
minus2 minus1 0 1 2
minus 4 0 0
minus 3 5 0
minus 3 0 0
minus 2 5 0
λ
l o g minus
L i k e l i h o o d
95
Figura 9 Valor otimo na transformacao Box-Cox
Castaneda Daniel F N 2013 33
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3443
135 Tabelas 1 INICIANDO O R
Para ter um alcance maior sobre a capacidade grafica do R podemos
usar as seguintes funcoes
demo(graphics)
demo(image)
demo(persp)
demo(recursion)
demo(plotmath)
demo(package = packages(allavailable = TRUE))
135 Tabelas
Algumas tabelas estatısticas podem ser construıdas com a funcao table()estado=c(PBPEALSEBAMGESRJPBPEAL
SEBAMGESRJPBPEALSEBAMGESRJ
PBPEALSEBAMGESRJ)
estadof=factor(estado)
estadof
[1] PB PE AL SE BA MG ES RJ PB PE AL SE BA MG ES RJ PB PE AL SE BA
[22] MG ES RJ PB PE AL SE BA MG ES RJ
Levels AL BA ES MG PB PE RJ SE
setseed(10)
salarios=c(round(runif(32)100))
salarios
[1] 51 31 43 69 9 23 27 27 62 43 65 57 11 60 36 43 5 26 40 84 86 62 78 36 41
[26] 71 84 24 77 36 54 9
salariom=tapply(salariosestadofmean)
salariom
AL BA ES MG PB PE RJ SE
5800 4575 4875 4525 3975 4275 2875 5850
salariof=factor(cut(salariosbreaks=0+15(07)))
salariof
[1] (4560] (3045] (3045] (6075] (015] (1530] (1530] (1530] (6075]
[10] (3045] (6075] (4560] (015] (4560] (3045] (3045] (015] (1530]
[19] (3045] (7590] (7590] (6075] (7590] (3045] (3045] (6075] (7590]
[28] (1530] (7590] (3045] (4560] (015]
Levels (015] (1530] (3045] (4560] (6075] (7590]
table(salariofestadof)
estadof
Castaneda Daniel F N 2013 34
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3543
136 Comandos adicionais 2 R E ECONOMETRIA
salariof AL BA ES MG PB PE RJ SE
(015] 0 2 0 0 1 0 1 0
(1530] 0 0 1 1 0 1 1 1
(3045] 2 0 1 1 1 2 2 0
(4560] 0 0 1 1 1 0 0 1
(6075] 1 0 0 1 1 1 0 1
(7590] 1 2 1 0 0 0 0 1
table(salariofestadof)
estadof
salariof AL BA ES MG PB PE RJ SE
(015] 1 1 0 0 1 0 1 2
(1530] 0 0 1 1 0 0 1 1
(3045] 0 0 2 0 0 1 0 0
(4560] 2 0 1 0 0 1 0 0
(6075] 0 1 0 2 3 0 1 0
(7590] 0 1 0 1 0 2 0 1
(90105] 0 1 0 0 0 0 1 0
136 Comandos adicionais
Em situacoes onde a ausencia de informacao ou dados faltantes(missing)as funcoes do R precisam declarar esta ausencia com o comando narm=T
indicando que a informacao apresenta dados faltantes Exemplo
df=c(2NA58NA) O ultimo elemento esta ausente
mean(f) Comando padr~ao para calcular a media
[1] NA
mean(fnarm=T) Comando declarando a ausencia de elementos
[1] 5
2 R e Econometria
Dados economicos precisam de uma atencao matematica para dar fun-
damento a suas teorias Atualmente pelo avanco computacional nao habarreiras para serem aplicadas e torna-se ate divertida se definimos a plata-forma de trabalho computacional A econometria requer de uma abordagemdiferenciada pois faz uso de da teoria economica economia matematica es-tatıstica economica estatıstica matematica e inferencia estatıstica Esta
Castaneda Daniel F N 2013 35
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3643
21 Tipos de Dados 2 R E ECONOMETRIA
disciplina aproxima a Estatıstica da Economia onde a teoria economica for-
mula as hipoteses Por exemplo uma reducao de precos de uma mercadoriadevera aumentar a quantidade demandada dessa mercadoria considerandouma relacao inversa entre preco e quantidade demandada ou a despesa deconsumo per capita depende da renda per capita considerando uma relacaodireta ou seja a medida que a renda aumenta a despesa tende a aumentarOutro exemplo onde consideremos a area microeconomica consumo de aguade uma residencia e o valor pago e natural imaginar que ha uma relacaodireta entre consumo e valor pago pelo consumo Porem precisamos saberqual e quanto e esta forca de relacao por tanto o econometrista forneceesta informacao usando a inferencia estatıstica e a estatıstica economicaAs estimativas de esta relacao fica por conta de estatıstica matematica
Para completar e cerrar este circulo de disciplinas abordadas na Econo-metria precisamos utilizar uma ferramenta de calculo computacional quebrinde estabilidade precisao e rapidez nos seus resultados para superartudo isto utilizaremos o ambiente R A econometria surge como uma disci-plina autonoma em virtude de aglutinar todas estas areas do conhecimentomerecendo um estudo proprio
21 Tipos de Dados
Os tipos de dados sao
1 Dados de corte transversal (cross-section) sao dados de uma ou maisvariaveis coletadas no mesmo ponto do tempo Por exemplo os censosno Brasil sao coletados num instante do tempo No censo variaveisdemograficas sao exploradas como contagem da populacao numerode indivıduos em cada famılia idade dos integrantes da famılia ouvariaveis economicas como renda consumo tipo de moradia (alugadaou propria) etc estes dados sao adquiridas a cada decada pelo IBGE
2 Dados longitudinais ou de series temporais sao caracterizadas porobservacoes ao longo do tempo No Brasil um site que disponibilizadados desta natureza e o IPEADATA
3 Dados de painel e uma mistura de dados de corte transversal e longi-tudinais ou ao longo do tempo estudamos o comportamento de unida-des individuais Por exemplo series mensal do ındice de precos serieanuais do produto interno bruto (PIB) ou serie anual da balanca co-mercial dos municıpios do Brasil considerando cada municıpio comounidades individuais
Castaneda Daniel F N 2013 36
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3743
22 Metodologia 2 R E ECONOMETRIA
22 Metodologia
Os passos da metodologia econometrica tradicional ou classica se iniciadesde a formulacao da hipotese ate as conclusoes em geral sao
221 Hipotese
Como referencia usaremos a hipotese nula H 0 a qual nulifica qualquerdiferenca e a hipoteses alternativa H a aquela que contradiz total ou par-cialmente a hipotese nula Exemplo
1 H 0 nao existe uma relacao entre consumo de agua e valor pago pela
mesma
2 Ha existe uma relacao entre consumo de agua e valor pago pelamesma
A hipotese alternativa pode ser dividida em tres possibilidades no exem-plo do consumo de agua pode ser dividida em existe alguma relacao oua relacao e negativa ou a relacao e positiva A primeira denomina-se dehipotese alternativa com teste bicaudal o segundo de teste unicaudal a es-querda e finalmente o ultimo com teste unicaudal a direita Nosso exemploconsidere H a existe alguma relacao (teste bicaudal)
222 Modelo matematico
Usaremos uma funcao de consumo simples
Y = β 1 + β 2X (11)
A variavel dependente Y valor pago pelo consumo e estimado por Y A variavel independente e X consumo de agua em m3 β 1 representa ovalor pago quando nao ha consumo de agua Nosso interesse e determinara tangente ou a variacao pelo consumo β 2
223 Modelo econometrico do valor pago
O modelo matematico fornece a relacao determinıstica entre valor pagoem reais e consumo de agua porem as relacoes entre as variaveis economicassao em geral inexatas Assim ao longo do tempo no podemos esperar que ovalor pago e o consumo em m3 se situem exatamente numa linha reta isto
Castaneda Daniel F N 2013 37
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3843
22 Metodologia 2 R E ECONOMETRIA
por que alem do consumo outras variaveis afetam o valor pago por exemplo
os dias de consumo o perıodo de reforma da casa ou a inflacao podendoalterar o valor pago pelo consumo
224 Nıvel de significancia
Denominado de α frequentemente usa-se α = 005 em situacoes derisco usa-se α = 001 Em testes bicaudais divide-se α em duas partes elocalizam-se nos extremos da distribuicao de prova Para testes unicaudaislocaliza-se no extremo da distribuicao indicada pela hipotese alternativaNosso exemplo α = 005 e por tanto α2 = 0025
225 Obtencao de Dados
Considere 65 observacoes (mes a mes) do consumo de agua em umaresidencia e o valor pago em reais durante o perıodo de 122005 a 042011Ver dados no apendice A Um plot e apresentado a seguir
10 15 20
2 0
3 0
4 0
5 0
6 0
7 0
Valor pago em reais de consumo de aacutegua
Variaacutevel independenteConsumo em m3
V a r i aacute v e l d e p e n d e n t e V a l o r p a g o
Y = minus12365+3007X
Figura 10 Relacao causal entre consumo e valor pago em reais
Podemos observar visualmente que ha uma relacao positiva entre valorpago e consumo de agua onde a variacao pelo consumo ou variacao dovalor pago (tangente) β 2 cresce positivamente Precisamos verificar se estavariacao β 2 e estatisticamente diferente de zero (significativa)
Castaneda Daniel F N 2013 38
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3943
22 Metodologia 2 R E ECONOMETRIA
226 Estatıstica de prova
Denominada de funcao pivo ou estatıstica de teste No ambito pa-rametrico usa-se as estatısticas t student (amostras pequenas) quando ne grande e indiferente o uso da t student ou normal No exemplo para tes-tar qual a inclinacao da variacao pelo consumo de agua usamos a seguinteestatıstica
t0 =β 2
dp(β 2)asymp tnminus2gl (12)
onde t0 e o valor calculado da estatıstica t β 2 e a estimativa do parametro(variacao pelo consumo) β 2 dp(β 2) e o desvio padrao da estimativa doparametro β 2 o valor t0 segue uma distribuicao t-student com nminus2 graus deliberdade(gl) Os graus de liberdade e calculado diferenciando o tamanhoda amostra com o numero de parametro do modelo (n-p) O valor quantılicotnminus2gl(0025) corresponde a distribuicao t-student com 0025 de significanciacom n minus 2 graus de liberdade e n e o numero total de observacoes Nossoexemplo β 2 = 3007 e dp(β 2) = 013 por tanto t0 = 2313 e comparadocom o valor da tabela da t-student com 63 gl e com α2 = 0025 sendo estevalor igual 19983
227 Tipos de erro
Ocorre o erro tipo I (α) ao se rejeitar a hipotese de nulidade quandodeveria aceita-la Por outro lado quando se aceita a hipotese de nulidadequando deveria rejeita-la comete-se o erro tipo II (β ) Nas duas situacoestomou-se uma decisao errada O interesse e a minimizacao dos erros tipo Ie II que na pratica so e possıvel aumentando-se o tamanho da amostra Porrazoes diversas o aumento do tamanho da amostra muitas vezes torna-se im-praticavel A gravidade do erro tipo I e distinta da do erro tipo II quando seconsegue identificar o erro mais grave a opcao e a minimizacao deste poremquando a probabilidade de ocorrencia de um tipo de erro diminui a do outroaumenta e vice versa Podemos observar este criterio na seguinte tabela
Nao rejeita rejeitaH0 verdadeira Correto (1 minus α) Erro do tipo I (α)H0 falsa Erro do tipo II (β ) Correto (1minus β )
Castaneda Daniel F N 2013 39
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4043
22 Metodologia 2 R E ECONOMETRIA
228 Regra de Decisao
Os pacotes ou plataformas estatısticas apresentam o valor observado dafuncao pivo e o p minus valor (Area de probabilidade esta relacionada comonıvel de significancia) assim a funcao pivo apresenta o valor numerico nafuncao de densidade da Estatıstica exemplo dentro da densidade da normalQuando o pvalor e menor do que α = 005 no caso do teste unicaudal (eα = 0025 no caso bicaudal) concluımos que nao ha evidencia suficiente paraaceitar H0 Caso contrario se o p minus valor for maior que α = 005 podemosconcluir que nao ha evidencia suficiente para rejeitar H0 Nosso exemplot0 = 2313 gt 1998 (1998 e valor da distribuicao t com 63 gl e nıvel designificancia bicaudal de 005) este valor localiza-se na cauda positiva da
distribuicao com 63 graus de liberdade(n minus 2 = 65 minus 2) Por outro lado o pminus valor lt 0025 por tanto nao ha evidencias para aceitar H0 em favor deaceitar que o coeficiente de inclinacao (ou tangente) e positiva No recorrerdo livro usaremos codigos para as medidas do pminusvalor que em geral apareceem todo comando summary() Como consequencia a linha que aparece aseguir sera excluıda das saıdas do R
Signif codes 0 0001 001 005 01 1
sera interpretada da seguinte maneira
bull 0 significancia menor que 0001
bull 0001 significancia menor que 001
bull 001 significancia menor que 005
bull 005 significancia menor que 01
bull 01 significancia menor que 1
229 Conclusoes
Esta parte do teste de hipoteses e explicada em conjunto O Estatıstico eo Economista que sao os profissionais da area em que as observacoes foramcoletadas decidem sobre as providencias futuras No exemplo podemosafirmar que a cada metro cubico a mais de consumo de agua sera pago emmedia 3 reais a mais No momento este valor pago pode parecer alto poremna falta de este liquido elementar este valor pode aumentar e por tantosofrera mudancas
Castaneda Daniel F N 2013 40
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4143
23 Previs˜ oes 2 R E ECONOMETRIA
23 Previsoes
Muitas vezes estamos interessados em determinar o que acontece quandouma quantidade de consumo de agua em m3 e utilizada e qual o valor pagoem reais Por exemplo se nosso interesse e saber quanto sera pago por 20m3
de consumo de agua em uma residencia A conta a realizar eValor pago = minus12365 + 3007 lowast 20 = 47775 reaisA interpretacao deste valor e em media o valor pago em reais por 20m3 deagua consumida e de aproximadamente 478 reais
231 Resıduos
Uma questao fundamental em econometria e identificar o comportamentodos resıduos de um modelo Considere Y o valor real pago e Y valor pagoestimado a partir de um modelo entao este erro e aleatorio e definido por
ϵi = Y i minus Y i (13)
A abordagem mais formal dos erros e feita nos proximos capıtulosUma questao importante e determinar qual o comportamento da estima-tiva destes erros aos quais chamamos de resıduos Para determinar a nor-malidade dos resıduos realizamos o teste de Jarque Bera com a funcao
jarqueberatest() da biblioteca tseries com o seguinte grafico
minus2 minus1 0 1 2
minus 5
0
5
1 0
resiacuteduos do modelo valor= f(consumo)
Theoretical Quantiles
S a m p l e Q u a n t i l e s
Figura 11 Normalidade dos resıduos
Castaneda Daniel F N 2013 41
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4243
24 Exercıcios REFER ENCIAS
24 Exercıcios
1 Por que a econometria precisa ser uma disciplina autonoma
2 Que e econometria
3 Pesquise dados de corte transversal corte longitudinal e de painel
4 Construa uma metodologia econometrica para o consumo familiar emfuncao da renda familiar (linear)
5 No item anterior e possıvel encontrar uma relacao quadratica
6 Quais sao os pressupostos basicos de um modelo de regressao linear
simples
7 Como e chamado o parametro de inclinacao ou tangente num modelode regressao linear simples em econometria
8 Que e o projeto R
9 R e um programa econometrico
Referencias
[1] Albert Jim (2009) Bayesian computation with R Editora SpringerSecond Edition New York USA
[2] Borde Arvind (1992) TEX by example A beginneracutes guide Ed Aca-demic Press Professional United States of America
[3] Carneiro Orlando (1997) Econometria Bacute asica Teoria e Aplicac˜ oes Editora Atlas Segunda Edicao son Paulo
[4] Conover W J (1999) Practical nonparametric statistics 3ed NewYork
[5] Cribari Neto F (2002) C for Econometricians conputational Econo-
mics 14 p135-149
[6] Dalgaard Peter(2008) Introductory Statistics with R Editora SpringerSecond Edition New York USA
[7] Ehlers Ricardo(2007) Analise de series Temporais Universidade Fe-deral do Parana
Castaneda Daniel F N 2013 42
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4343
REFER ENCIAS REFER ENCIAS
[8] Frery Alejandro Cribari-Neto Francisco(2011)Elementos de
Estatıstica conputacional Usando Plataformas de Software Li-vreGratuito Publicacoes Matematicas Editora IMPA
[9] Gujarati Damodar N (2000) Econometria Bacute asica Makron Books Ter-ceira Edicao son Paulo
[10] Knuth DE (1981)The Art of conputer Programming Third EditionVolume 2 Seminumerical Algorithms Addison-Wesley Publishingconpany Massachusetts
[11] Korgi Rodrigo de Castro (2003) El universo LAT E X Editora Facultadde Ciencias Segunda Edicao Bogota
[12] Krawczyk H How to Predict Congruential Generators InJournal of Algorithms V 13 N 4 1992
[13] LrsquoEcuyer P (2001) Software for uniform random number generationdistinguishing the good and the bad In Proceedings of the 2001 WinterSimulation Conference
[14] Maindonald John Braun W John(2010) Data analysis and graphics using R an example-based approach Cambridge University Press NewYork USA
[15] Mingoti(2005)Analise De Dados Atraves De Metodos De Estatistica Multivariada - Uma Abordagem Aplicada Editora UFMG Belo Hori-zonte
Castaneda Daniel F N 2013 43
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2543
128 A func˜ ao cut() 1 INICIANDO O R
Nota Podemos construir os lacos considerando a condicao como texto
exemplo consumoc[i]=rdquo[0minus 10]rdquo Comando alternativo de construcao
consumoc2=ifelse(consumolt=10[0-10]Acima de 10)
valorc2=ifelse(valorlt=20[0-20]Acima de 20)
limitacao deste laco e que utilizado apenas para duas condicoes Para lacoscom mais de duas condicoes podemos usar os seguintes comandos
valorc3=numeric(length(valor))
for(i in 1length(valor))if (valor[i]lt20) valorc3[i]=[0-20)
else if (valor[i]lt30)
valorc3[i]=[20-30) else valorc3[i]=[30 a +
table(valorc3)
128 A funcao cut()
Alguma funcoes usam lacos para criar novas variaveis categoricas no exem-plo de valor pago em reais pelo consumo de agua podemos construir cate-gorias por quartis de 25 50 75 1 da seguinte maneira
q=cut(valorquantile(valor) includelowest=T)
table(q)
q
[135165] (165222] (222327] (327693]
17 16 16 16
Outras formas podem ser usando intervalos a criterio pessoal no exemplo aseguir consideramos com valor mınimo 13 e valor maximo 70 com amplitudedo intervalo de 19 e com classes fechadas no mınimo e aberto no maximo
valr=cut(valmseq(137019)right=Fincludeupper=T)
table(valr)
valr
[1332) [3251) [5170)
48 15 2
129 Criando funcoes Teste que compara duas medias
Como exemplo implementamos a estatıstica de comparacao de duasamostras independentes
Castaneda Daniel F N 2013 25
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2643
130 Coeficiente de regressao 1 INICIANDO O R
testeduas lt- function(y1 y2)
+ n1 lt- length(y1) n2 lt- length(y2)
+ yb1 lt- mean(y1) yb2 lt- mean(y2)
+ s1 lt- var(y1) s2 lt- var(y2)
+ s lt- ((n1-1)s1 + (n2-1)s2)(n1+n2-2)
+ tst lt- (yb1 - yb2)sqrt(s(1n1 + 1n2))
+ tst
+
x=runif(20)
y=rnorm(20)
testeduas(xy)
[1] 2874636
Uma forma alternativa e usando a funcao ttest()
ttest(xy)
Welch Two Sample t-test
data x and y
t = 28746 df = 21784 p-value = 0008858
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
01846283 11429380sample estimates
mean of x mean of y
05539270 -01098562
130 Coeficiente de regressao
Implementando o calculo da tangente (inclinacao) do coeficiente no mo-delo de regressao linear simples
mq1lt- function(X y)
+ X lt- qr(X)
+ qrcoef(X y)+
mq1(xy)
[1] -008755885
Castaneda Daniel F N 2013 26
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2743
131 Teste Qui- Quadrado 1 INICIANDO O R
131 Teste Qui- Quadrado
Util para associar linhas e colunas considere os dados em d com as se-guintes hipotesesH0 nao ha associacao entre linhas e colunasHa ha associacao entre linhas e colunas
chisqtest(d)
Pearsonrsquos Chi-squared test
data d
X-squared = 46497 df = 4 p-value = 03252
Warning message
In chisqtest(d) Aproximac~ao Qui-quadrado pode estar incorreta
Para um nıvel α = 0 05 de significancia podemos afirmar que nao haevidencias para afirmar que a associacao entre linhas e colunas (linhas ecolunas sao independentes) Um outro exemplo do uso da distribuicao Qui-quadrado e verificar se um conjunto de dados provem de uma determinadadistribuicao teorica
chisqtest(c)
Chi-squared test for given probabilities
data c
X-squared = 22549 df = 5 p-value = 00004116
Pelo p-value podemos afirmar que a 0 05 de significancia nao ha evi-dencias para afirmar que a distribuicao dos numeros em c sejam uniformesPara implementar este teste de associacao no exemplo de consumo de aguaconsiderando a classificacao mediante lacos (ver lacos no R) entre consumoce valorc temos
table(consumocvalorc)
valorc
consumoc 0 1
0 24 0
Castaneda Daniel F N 2013 27
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2843
132 Teste t - student 1 INICIANDO O R
1 3 38
chisqtest(consumocvalorc)$expected
chisqtest(consumocvalorc)$observed
chisqtest(consumocvalorc)
Pearsonrsquos Chi-squared test with Yatesrsquo continuity correction
data consumoc and valorc
X-squared = 498015 df = 1 p-value = 1701e-12
barplot(table(consumocvalorc) beside=T)
Concluimos que ha associacao entre consumo de agua e o valor pago em
reais
132 Teste t - student
O teste mais usado pelos estatısticos e util para comparar medias deduas amostras tanto independente como emparelhadasExemplo considere as exportacoes mensais (FOB-US) do Brasil durante osanos de 2009 minus 2010 Apos digitacao das observacoes temos
exp2009
[1] 9781920 9586406 11809225 12321617 11984585 14467785 14141930
[8] 13840850 13863222 14081686 12652892 14462624
exp2010[1] 1130507 1219724 1572750 1516121 1770250 1709391 1767292 1923625
[9] 1883279 1838042 1768733 2091814
H0 A medias anuais das exportacoes durante 2009 e 2010 e a mesmaHa CC
ttest(exp2009exp2010paired = FALSE)
Welch Two Sample t-test
data exp2009 and exp2010
t = -42813 df = 18202 p-value = 00004394
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-6075666 -2077757
sample estimates
mean of x mean of y
Castaneda Daniel F N 2013 28
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2943
133 Teste F 1 INICIANDO O R
1274956 1682627
Conclusao nao ha evidencias para aceitar que a media das exportacoesde 2009 e 2010 e a mesma
Quando um conjunto de dados e dado em formato de matriz (dataframe)podemos realizar o teste t de uma coluna em funcao da outra por exemplono consumo de agua queremos testar a hipotese nula H0 o valor de con-sumo de agua e o mesmo construindo ou nao versus a hipotese alternativaHa Caso contrario
attach(ca)
ttest(valor~Construindo)
Welch Two Sample t-test
data valor by Construindo
t = -58383 df = 21731 p-value = 7465e-06
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-2288867 -1088356
sample estimates
mean in group 0 mean in group 1
2115271 3803882
Concluımos que nao ha evidencias para aceitar que o valor de consumode agua e o mesmo quando estamos construindo ( p minus valor lt 005)
Exemplos adicionais podem ser comparando entre as variaveis clas-sificadas (ver secao de lacos) da seguinte forma
ttest(valor~consumoc)
ttest(consumo~valorc)
boxplot(consumo~valorc2 main=Consumo e valor pago em Reais)
boxplot(consumo~valorc3 main=Consumo e valor pago em Reais)
133 Teste F
Para determinar se ha a mesma variabilidade no valor de consumoquando estamos ou nao construindo utilizamos o teste F A hipotese nulae H0 O valor de consumo de agua tem a mesma variabilidade quandoconstruımos que quando nao construımos No R temos
Castaneda Daniel F N 2013 29
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3043
133 Teste F 1 INICIANDO O R
vartest(valor~Construindo)
F test to compare two variances
data valor by Construindo
F = 04834 num df = 47 denom df = 16 p-value = 005478
alternative hypothesis true ratio of variances is not equal to 1
95 percent confidence interval
0194815 1014916
sample estimates
ratio of variances
04834048
Concluımos que nao ha evidencias para rejeitar a hipotese nula por tanto
a variabilidade no valor de consumo e o mesmoO correspondente grafico (Box-plot) e apresentado a seguir
boxplot(valor~Construindo col=8 names=c(n~ao construc~ao construc~ao))
natildeo construccedilatildeo construccedilatildeo
2 0
3 0
4 0
5 0
6 0
7 0
Figura 4 Valor pago em reais no consumo de agua
Em alguns casos ha necessidade de identificar se a variabilidade dasexportacoes e a mesma comparando 2009 e 2010H0 As exportacoes de 2009 e 2010 tem a mesma variabilidade (dados men-sais coletados do site httpwwwipeadatagov)Ha CC
Castaneda Daniel F N 2013 30
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3143
134 Graficos 1 INICIANDO O R
vartest(exp2009exp2010)
F test to compare two variances
data exp2009 and exp2010
F = 03728 num df = 11 denom df = 11 p-value = 01166
alternative hypothesis true ratio of variances is not equal to 1
95 percent confidence interval
01073346 12951624
sample estimates
ratio of variances
03728482
Conclusao Nao houve mudancas na variabilidade das exportacoes de
2009 e 2010
134 Graficos
Considere os dados mensais das exportacoes do Brasil (FOB) durante2009 e 2010 para realizar um grafico de box-plot fazemos
boxplot(exp2009exp2010 main=exportac~oes do Brasil
names=c(20092010))
2009 2010
1 0 0 0 0
1 2 0 0 0
1 4 0 0 0
1 6 0 0 0
1 8 0 0 0
2 0
0 0 0
exportaccedilotildees do Brasil
Figura 5 Exportacoes FOB em dolares
Para o grafico da funcao acumulativa das exportacoes
plot(ecdf(exp2010) dopoint=FALSE verticals=TRUE
lty=3 xlim=c(1000023000))
lines(ecdf(exp2009) dopoint=FALSE verticals=TRUE
col=2)
Castaneda Daniel F N 2013 31
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3243
134 Graficos 1 INICIANDO O R
1 00 00 1 20 00 1 40 00 1 60 00 1 80 00 2 00 00 2 20 00
0 0
0 2
0 4
0 6
0 8
1 0
ecdf(exp2010)
x
F n ( x )
Figura 6 Funcao acumulada das exportacoes 2009-2010
Considere as exportacoes do Brasil um histograma e Q-Q plot sera
hist(exp main=Exportac~oes FOB-US col=8)
qqnorm(exp xlim=c(-55)ylim=c(-100021000))
qqline(exp)
Exportaccedilotildees FOBminusUS$
exp
F r e q u e n c y
0 5000 10000 15000 20000
0
5 0
1 0 0
1 5 0
minus4 minus2 0 2 4
0
5 0 0 0
1 0 0 0 0
1 5 0 0 0
2 0 0 0 0
Normal QminusQ Plot
Theoretical Quantiles
S a m p l e Q u a n t i l e s
Figura 7 Graficos das Exportacoes no Brasil 2001-2010
Para ativar alguns graficos pacotes sao necessarios exemplo
library(MASS)
Castaneda Daniel F N 2013 32
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3343
134 Graficos 1 INICIANDO O R
par(mfrow=c(21))
z = rnorm(500000)
hist(z prob=T)
curve(dnorm(x)add=T)
histscott(z prob=T)
Histogram of z
z
D e n s i t y
minus4 minus2 0 2 4
0 0
0 2
Histogram of x
z
D e n s i t y
minus4 minus2 0 2 4
0 0
0 2
0 4
Figura 8 Histograma de numeros aleatorios normais
boxcox(dist~speed data=cars) transformac~ao Box-Cox
minus2 minus1 0 1 2
minus 4 0 0
minus 3 5 0
minus 3 0 0
minus 2 5 0
λ
l o g minus
L i k e l i h o o d
95
Figura 9 Valor otimo na transformacao Box-Cox
Castaneda Daniel F N 2013 33
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3443
135 Tabelas 1 INICIANDO O R
Para ter um alcance maior sobre a capacidade grafica do R podemos
usar as seguintes funcoes
demo(graphics)
demo(image)
demo(persp)
demo(recursion)
demo(plotmath)
demo(package = packages(allavailable = TRUE))
135 Tabelas
Algumas tabelas estatısticas podem ser construıdas com a funcao table()estado=c(PBPEALSEBAMGESRJPBPEAL
SEBAMGESRJPBPEALSEBAMGESRJ
PBPEALSEBAMGESRJ)
estadof=factor(estado)
estadof
[1] PB PE AL SE BA MG ES RJ PB PE AL SE BA MG ES RJ PB PE AL SE BA
[22] MG ES RJ PB PE AL SE BA MG ES RJ
Levels AL BA ES MG PB PE RJ SE
setseed(10)
salarios=c(round(runif(32)100))
salarios
[1] 51 31 43 69 9 23 27 27 62 43 65 57 11 60 36 43 5 26 40 84 86 62 78 36 41
[26] 71 84 24 77 36 54 9
salariom=tapply(salariosestadofmean)
salariom
AL BA ES MG PB PE RJ SE
5800 4575 4875 4525 3975 4275 2875 5850
salariof=factor(cut(salariosbreaks=0+15(07)))
salariof
[1] (4560] (3045] (3045] (6075] (015] (1530] (1530] (1530] (6075]
[10] (3045] (6075] (4560] (015] (4560] (3045] (3045] (015] (1530]
[19] (3045] (7590] (7590] (6075] (7590] (3045] (3045] (6075] (7590]
[28] (1530] (7590] (3045] (4560] (015]
Levels (015] (1530] (3045] (4560] (6075] (7590]
table(salariofestadof)
estadof
Castaneda Daniel F N 2013 34
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3543
136 Comandos adicionais 2 R E ECONOMETRIA
salariof AL BA ES MG PB PE RJ SE
(015] 0 2 0 0 1 0 1 0
(1530] 0 0 1 1 0 1 1 1
(3045] 2 0 1 1 1 2 2 0
(4560] 0 0 1 1 1 0 0 1
(6075] 1 0 0 1 1 1 0 1
(7590] 1 2 1 0 0 0 0 1
table(salariofestadof)
estadof
salariof AL BA ES MG PB PE RJ SE
(015] 1 1 0 0 1 0 1 2
(1530] 0 0 1 1 0 0 1 1
(3045] 0 0 2 0 0 1 0 0
(4560] 2 0 1 0 0 1 0 0
(6075] 0 1 0 2 3 0 1 0
(7590] 0 1 0 1 0 2 0 1
(90105] 0 1 0 0 0 0 1 0
136 Comandos adicionais
Em situacoes onde a ausencia de informacao ou dados faltantes(missing)as funcoes do R precisam declarar esta ausencia com o comando narm=T
indicando que a informacao apresenta dados faltantes Exemplo
df=c(2NA58NA) O ultimo elemento esta ausente
mean(f) Comando padr~ao para calcular a media
[1] NA
mean(fnarm=T) Comando declarando a ausencia de elementos
[1] 5
2 R e Econometria
Dados economicos precisam de uma atencao matematica para dar fun-
damento a suas teorias Atualmente pelo avanco computacional nao habarreiras para serem aplicadas e torna-se ate divertida se definimos a plata-forma de trabalho computacional A econometria requer de uma abordagemdiferenciada pois faz uso de da teoria economica economia matematica es-tatıstica economica estatıstica matematica e inferencia estatıstica Esta
Castaneda Daniel F N 2013 35
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3643
21 Tipos de Dados 2 R E ECONOMETRIA
disciplina aproxima a Estatıstica da Economia onde a teoria economica for-
mula as hipoteses Por exemplo uma reducao de precos de uma mercadoriadevera aumentar a quantidade demandada dessa mercadoria considerandouma relacao inversa entre preco e quantidade demandada ou a despesa deconsumo per capita depende da renda per capita considerando uma relacaodireta ou seja a medida que a renda aumenta a despesa tende a aumentarOutro exemplo onde consideremos a area microeconomica consumo de aguade uma residencia e o valor pago e natural imaginar que ha uma relacaodireta entre consumo e valor pago pelo consumo Porem precisamos saberqual e quanto e esta forca de relacao por tanto o econometrista forneceesta informacao usando a inferencia estatıstica e a estatıstica economicaAs estimativas de esta relacao fica por conta de estatıstica matematica
Para completar e cerrar este circulo de disciplinas abordadas na Econo-metria precisamos utilizar uma ferramenta de calculo computacional quebrinde estabilidade precisao e rapidez nos seus resultados para superartudo isto utilizaremos o ambiente R A econometria surge como uma disci-plina autonoma em virtude de aglutinar todas estas areas do conhecimentomerecendo um estudo proprio
21 Tipos de Dados
Os tipos de dados sao
1 Dados de corte transversal (cross-section) sao dados de uma ou maisvariaveis coletadas no mesmo ponto do tempo Por exemplo os censosno Brasil sao coletados num instante do tempo No censo variaveisdemograficas sao exploradas como contagem da populacao numerode indivıduos em cada famılia idade dos integrantes da famılia ouvariaveis economicas como renda consumo tipo de moradia (alugadaou propria) etc estes dados sao adquiridas a cada decada pelo IBGE
2 Dados longitudinais ou de series temporais sao caracterizadas porobservacoes ao longo do tempo No Brasil um site que disponibilizadados desta natureza e o IPEADATA
3 Dados de painel e uma mistura de dados de corte transversal e longi-tudinais ou ao longo do tempo estudamos o comportamento de unida-des individuais Por exemplo series mensal do ındice de precos serieanuais do produto interno bruto (PIB) ou serie anual da balanca co-mercial dos municıpios do Brasil considerando cada municıpio comounidades individuais
Castaneda Daniel F N 2013 36
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3743
22 Metodologia 2 R E ECONOMETRIA
22 Metodologia
Os passos da metodologia econometrica tradicional ou classica se iniciadesde a formulacao da hipotese ate as conclusoes em geral sao
221 Hipotese
Como referencia usaremos a hipotese nula H 0 a qual nulifica qualquerdiferenca e a hipoteses alternativa H a aquela que contradiz total ou par-cialmente a hipotese nula Exemplo
1 H 0 nao existe uma relacao entre consumo de agua e valor pago pela
mesma
2 Ha existe uma relacao entre consumo de agua e valor pago pelamesma
A hipotese alternativa pode ser dividida em tres possibilidades no exem-plo do consumo de agua pode ser dividida em existe alguma relacao oua relacao e negativa ou a relacao e positiva A primeira denomina-se dehipotese alternativa com teste bicaudal o segundo de teste unicaudal a es-querda e finalmente o ultimo com teste unicaudal a direita Nosso exemploconsidere H a existe alguma relacao (teste bicaudal)
222 Modelo matematico
Usaremos uma funcao de consumo simples
Y = β 1 + β 2X (11)
A variavel dependente Y valor pago pelo consumo e estimado por Y A variavel independente e X consumo de agua em m3 β 1 representa ovalor pago quando nao ha consumo de agua Nosso interesse e determinara tangente ou a variacao pelo consumo β 2
223 Modelo econometrico do valor pago
O modelo matematico fornece a relacao determinıstica entre valor pagoem reais e consumo de agua porem as relacoes entre as variaveis economicassao em geral inexatas Assim ao longo do tempo no podemos esperar que ovalor pago e o consumo em m3 se situem exatamente numa linha reta isto
Castaneda Daniel F N 2013 37
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3843
22 Metodologia 2 R E ECONOMETRIA
por que alem do consumo outras variaveis afetam o valor pago por exemplo
os dias de consumo o perıodo de reforma da casa ou a inflacao podendoalterar o valor pago pelo consumo
224 Nıvel de significancia
Denominado de α frequentemente usa-se α = 005 em situacoes derisco usa-se α = 001 Em testes bicaudais divide-se α em duas partes elocalizam-se nos extremos da distribuicao de prova Para testes unicaudaislocaliza-se no extremo da distribuicao indicada pela hipotese alternativaNosso exemplo α = 005 e por tanto α2 = 0025
225 Obtencao de Dados
Considere 65 observacoes (mes a mes) do consumo de agua em umaresidencia e o valor pago em reais durante o perıodo de 122005 a 042011Ver dados no apendice A Um plot e apresentado a seguir
10 15 20
2 0
3 0
4 0
5 0
6 0
7 0
Valor pago em reais de consumo de aacutegua
Variaacutevel independenteConsumo em m3
V a r i aacute v e l d e p e n d e n t e V a l o r p a g o
Y = minus12365+3007X
Figura 10 Relacao causal entre consumo e valor pago em reais
Podemos observar visualmente que ha uma relacao positiva entre valorpago e consumo de agua onde a variacao pelo consumo ou variacao dovalor pago (tangente) β 2 cresce positivamente Precisamos verificar se estavariacao β 2 e estatisticamente diferente de zero (significativa)
Castaneda Daniel F N 2013 38
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3943
22 Metodologia 2 R E ECONOMETRIA
226 Estatıstica de prova
Denominada de funcao pivo ou estatıstica de teste No ambito pa-rametrico usa-se as estatısticas t student (amostras pequenas) quando ne grande e indiferente o uso da t student ou normal No exemplo para tes-tar qual a inclinacao da variacao pelo consumo de agua usamos a seguinteestatıstica
t0 =β 2
dp(β 2)asymp tnminus2gl (12)
onde t0 e o valor calculado da estatıstica t β 2 e a estimativa do parametro(variacao pelo consumo) β 2 dp(β 2) e o desvio padrao da estimativa doparametro β 2 o valor t0 segue uma distribuicao t-student com nminus2 graus deliberdade(gl) Os graus de liberdade e calculado diferenciando o tamanhoda amostra com o numero de parametro do modelo (n-p) O valor quantılicotnminus2gl(0025) corresponde a distribuicao t-student com 0025 de significanciacom n minus 2 graus de liberdade e n e o numero total de observacoes Nossoexemplo β 2 = 3007 e dp(β 2) = 013 por tanto t0 = 2313 e comparadocom o valor da tabela da t-student com 63 gl e com α2 = 0025 sendo estevalor igual 19983
227 Tipos de erro
Ocorre o erro tipo I (α) ao se rejeitar a hipotese de nulidade quandodeveria aceita-la Por outro lado quando se aceita a hipotese de nulidadequando deveria rejeita-la comete-se o erro tipo II (β ) Nas duas situacoestomou-se uma decisao errada O interesse e a minimizacao dos erros tipo Ie II que na pratica so e possıvel aumentando-se o tamanho da amostra Porrazoes diversas o aumento do tamanho da amostra muitas vezes torna-se im-praticavel A gravidade do erro tipo I e distinta da do erro tipo II quando seconsegue identificar o erro mais grave a opcao e a minimizacao deste poremquando a probabilidade de ocorrencia de um tipo de erro diminui a do outroaumenta e vice versa Podemos observar este criterio na seguinte tabela
Nao rejeita rejeitaH0 verdadeira Correto (1 minus α) Erro do tipo I (α)H0 falsa Erro do tipo II (β ) Correto (1minus β )
Castaneda Daniel F N 2013 39
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4043
22 Metodologia 2 R E ECONOMETRIA
228 Regra de Decisao
Os pacotes ou plataformas estatısticas apresentam o valor observado dafuncao pivo e o p minus valor (Area de probabilidade esta relacionada comonıvel de significancia) assim a funcao pivo apresenta o valor numerico nafuncao de densidade da Estatıstica exemplo dentro da densidade da normalQuando o pvalor e menor do que α = 005 no caso do teste unicaudal (eα = 0025 no caso bicaudal) concluımos que nao ha evidencia suficiente paraaceitar H0 Caso contrario se o p minus valor for maior que α = 005 podemosconcluir que nao ha evidencia suficiente para rejeitar H0 Nosso exemplot0 = 2313 gt 1998 (1998 e valor da distribuicao t com 63 gl e nıvel designificancia bicaudal de 005) este valor localiza-se na cauda positiva da
distribuicao com 63 graus de liberdade(n minus 2 = 65 minus 2) Por outro lado o pminus valor lt 0025 por tanto nao ha evidencias para aceitar H0 em favor deaceitar que o coeficiente de inclinacao (ou tangente) e positiva No recorrerdo livro usaremos codigos para as medidas do pminusvalor que em geral apareceem todo comando summary() Como consequencia a linha que aparece aseguir sera excluıda das saıdas do R
Signif codes 0 0001 001 005 01 1
sera interpretada da seguinte maneira
bull 0 significancia menor que 0001
bull 0001 significancia menor que 001
bull 001 significancia menor que 005
bull 005 significancia menor que 01
bull 01 significancia menor que 1
229 Conclusoes
Esta parte do teste de hipoteses e explicada em conjunto O Estatıstico eo Economista que sao os profissionais da area em que as observacoes foramcoletadas decidem sobre as providencias futuras No exemplo podemosafirmar que a cada metro cubico a mais de consumo de agua sera pago emmedia 3 reais a mais No momento este valor pago pode parecer alto poremna falta de este liquido elementar este valor pode aumentar e por tantosofrera mudancas
Castaneda Daniel F N 2013 40
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4143
23 Previs˜ oes 2 R E ECONOMETRIA
23 Previsoes
Muitas vezes estamos interessados em determinar o que acontece quandouma quantidade de consumo de agua em m3 e utilizada e qual o valor pagoem reais Por exemplo se nosso interesse e saber quanto sera pago por 20m3
de consumo de agua em uma residencia A conta a realizar eValor pago = minus12365 + 3007 lowast 20 = 47775 reaisA interpretacao deste valor e em media o valor pago em reais por 20m3 deagua consumida e de aproximadamente 478 reais
231 Resıduos
Uma questao fundamental em econometria e identificar o comportamentodos resıduos de um modelo Considere Y o valor real pago e Y valor pagoestimado a partir de um modelo entao este erro e aleatorio e definido por
ϵi = Y i minus Y i (13)
A abordagem mais formal dos erros e feita nos proximos capıtulosUma questao importante e determinar qual o comportamento da estima-tiva destes erros aos quais chamamos de resıduos Para determinar a nor-malidade dos resıduos realizamos o teste de Jarque Bera com a funcao
jarqueberatest() da biblioteca tseries com o seguinte grafico
minus2 minus1 0 1 2
minus 5
0
5
1 0
resiacuteduos do modelo valor= f(consumo)
Theoretical Quantiles
S a m p l e Q u a n t i l e s
Figura 11 Normalidade dos resıduos
Castaneda Daniel F N 2013 41
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4243
24 Exercıcios REFER ENCIAS
24 Exercıcios
1 Por que a econometria precisa ser uma disciplina autonoma
2 Que e econometria
3 Pesquise dados de corte transversal corte longitudinal e de painel
4 Construa uma metodologia econometrica para o consumo familiar emfuncao da renda familiar (linear)
5 No item anterior e possıvel encontrar uma relacao quadratica
6 Quais sao os pressupostos basicos de um modelo de regressao linear
simples
7 Como e chamado o parametro de inclinacao ou tangente num modelode regressao linear simples em econometria
8 Que e o projeto R
9 R e um programa econometrico
Referencias
[1] Albert Jim (2009) Bayesian computation with R Editora SpringerSecond Edition New York USA
[2] Borde Arvind (1992) TEX by example A beginneracutes guide Ed Aca-demic Press Professional United States of America
[3] Carneiro Orlando (1997) Econometria Bacute asica Teoria e Aplicac˜ oes Editora Atlas Segunda Edicao son Paulo
[4] Conover W J (1999) Practical nonparametric statistics 3ed NewYork
[5] Cribari Neto F (2002) C for Econometricians conputational Econo-
mics 14 p135-149
[6] Dalgaard Peter(2008) Introductory Statistics with R Editora SpringerSecond Edition New York USA
[7] Ehlers Ricardo(2007) Analise de series Temporais Universidade Fe-deral do Parana
Castaneda Daniel F N 2013 42
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4343
REFER ENCIAS REFER ENCIAS
[8] Frery Alejandro Cribari-Neto Francisco(2011)Elementos de
Estatıstica conputacional Usando Plataformas de Software Li-vreGratuito Publicacoes Matematicas Editora IMPA
[9] Gujarati Damodar N (2000) Econometria Bacute asica Makron Books Ter-ceira Edicao son Paulo
[10] Knuth DE (1981)The Art of conputer Programming Third EditionVolume 2 Seminumerical Algorithms Addison-Wesley Publishingconpany Massachusetts
[11] Korgi Rodrigo de Castro (2003) El universo LAT E X Editora Facultadde Ciencias Segunda Edicao Bogota
[12] Krawczyk H How to Predict Congruential Generators InJournal of Algorithms V 13 N 4 1992
[13] LrsquoEcuyer P (2001) Software for uniform random number generationdistinguishing the good and the bad In Proceedings of the 2001 WinterSimulation Conference
[14] Maindonald John Braun W John(2010) Data analysis and graphics using R an example-based approach Cambridge University Press NewYork USA
[15] Mingoti(2005)Analise De Dados Atraves De Metodos De Estatistica Multivariada - Uma Abordagem Aplicada Editora UFMG Belo Hori-zonte
Castaneda Daniel F N 2013 43
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2643
130 Coeficiente de regressao 1 INICIANDO O R
testeduas lt- function(y1 y2)
+ n1 lt- length(y1) n2 lt- length(y2)
+ yb1 lt- mean(y1) yb2 lt- mean(y2)
+ s1 lt- var(y1) s2 lt- var(y2)
+ s lt- ((n1-1)s1 + (n2-1)s2)(n1+n2-2)
+ tst lt- (yb1 - yb2)sqrt(s(1n1 + 1n2))
+ tst
+
x=runif(20)
y=rnorm(20)
testeduas(xy)
[1] 2874636
Uma forma alternativa e usando a funcao ttest()
ttest(xy)
Welch Two Sample t-test
data x and y
t = 28746 df = 21784 p-value = 0008858
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
01846283 11429380sample estimates
mean of x mean of y
05539270 -01098562
130 Coeficiente de regressao
Implementando o calculo da tangente (inclinacao) do coeficiente no mo-delo de regressao linear simples
mq1lt- function(X y)
+ X lt- qr(X)
+ qrcoef(X y)+
mq1(xy)
[1] -008755885
Castaneda Daniel F N 2013 26
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2743
131 Teste Qui- Quadrado 1 INICIANDO O R
131 Teste Qui- Quadrado
Util para associar linhas e colunas considere os dados em d com as se-guintes hipotesesH0 nao ha associacao entre linhas e colunasHa ha associacao entre linhas e colunas
chisqtest(d)
Pearsonrsquos Chi-squared test
data d
X-squared = 46497 df = 4 p-value = 03252
Warning message
In chisqtest(d) Aproximac~ao Qui-quadrado pode estar incorreta
Para um nıvel α = 0 05 de significancia podemos afirmar que nao haevidencias para afirmar que a associacao entre linhas e colunas (linhas ecolunas sao independentes) Um outro exemplo do uso da distribuicao Qui-quadrado e verificar se um conjunto de dados provem de uma determinadadistribuicao teorica
chisqtest(c)
Chi-squared test for given probabilities
data c
X-squared = 22549 df = 5 p-value = 00004116
Pelo p-value podemos afirmar que a 0 05 de significancia nao ha evi-dencias para afirmar que a distribuicao dos numeros em c sejam uniformesPara implementar este teste de associacao no exemplo de consumo de aguaconsiderando a classificacao mediante lacos (ver lacos no R) entre consumoce valorc temos
table(consumocvalorc)
valorc
consumoc 0 1
0 24 0
Castaneda Daniel F N 2013 27
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2843
132 Teste t - student 1 INICIANDO O R
1 3 38
chisqtest(consumocvalorc)$expected
chisqtest(consumocvalorc)$observed
chisqtest(consumocvalorc)
Pearsonrsquos Chi-squared test with Yatesrsquo continuity correction
data consumoc and valorc
X-squared = 498015 df = 1 p-value = 1701e-12
barplot(table(consumocvalorc) beside=T)
Concluimos que ha associacao entre consumo de agua e o valor pago em
reais
132 Teste t - student
O teste mais usado pelos estatısticos e util para comparar medias deduas amostras tanto independente como emparelhadasExemplo considere as exportacoes mensais (FOB-US) do Brasil durante osanos de 2009 minus 2010 Apos digitacao das observacoes temos
exp2009
[1] 9781920 9586406 11809225 12321617 11984585 14467785 14141930
[8] 13840850 13863222 14081686 12652892 14462624
exp2010[1] 1130507 1219724 1572750 1516121 1770250 1709391 1767292 1923625
[9] 1883279 1838042 1768733 2091814
H0 A medias anuais das exportacoes durante 2009 e 2010 e a mesmaHa CC
ttest(exp2009exp2010paired = FALSE)
Welch Two Sample t-test
data exp2009 and exp2010
t = -42813 df = 18202 p-value = 00004394
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-6075666 -2077757
sample estimates
mean of x mean of y
Castaneda Daniel F N 2013 28
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2943
133 Teste F 1 INICIANDO O R
1274956 1682627
Conclusao nao ha evidencias para aceitar que a media das exportacoesde 2009 e 2010 e a mesma
Quando um conjunto de dados e dado em formato de matriz (dataframe)podemos realizar o teste t de uma coluna em funcao da outra por exemplono consumo de agua queremos testar a hipotese nula H0 o valor de con-sumo de agua e o mesmo construindo ou nao versus a hipotese alternativaHa Caso contrario
attach(ca)
ttest(valor~Construindo)
Welch Two Sample t-test
data valor by Construindo
t = -58383 df = 21731 p-value = 7465e-06
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-2288867 -1088356
sample estimates
mean in group 0 mean in group 1
2115271 3803882
Concluımos que nao ha evidencias para aceitar que o valor de consumode agua e o mesmo quando estamos construindo ( p minus valor lt 005)
Exemplos adicionais podem ser comparando entre as variaveis clas-sificadas (ver secao de lacos) da seguinte forma
ttest(valor~consumoc)
ttest(consumo~valorc)
boxplot(consumo~valorc2 main=Consumo e valor pago em Reais)
boxplot(consumo~valorc3 main=Consumo e valor pago em Reais)
133 Teste F
Para determinar se ha a mesma variabilidade no valor de consumoquando estamos ou nao construindo utilizamos o teste F A hipotese nulae H0 O valor de consumo de agua tem a mesma variabilidade quandoconstruımos que quando nao construımos No R temos
Castaneda Daniel F N 2013 29
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3043
133 Teste F 1 INICIANDO O R
vartest(valor~Construindo)
F test to compare two variances
data valor by Construindo
F = 04834 num df = 47 denom df = 16 p-value = 005478
alternative hypothesis true ratio of variances is not equal to 1
95 percent confidence interval
0194815 1014916
sample estimates
ratio of variances
04834048
Concluımos que nao ha evidencias para rejeitar a hipotese nula por tanto
a variabilidade no valor de consumo e o mesmoO correspondente grafico (Box-plot) e apresentado a seguir
boxplot(valor~Construindo col=8 names=c(n~ao construc~ao construc~ao))
natildeo construccedilatildeo construccedilatildeo
2 0
3 0
4 0
5 0
6 0
7 0
Figura 4 Valor pago em reais no consumo de agua
Em alguns casos ha necessidade de identificar se a variabilidade dasexportacoes e a mesma comparando 2009 e 2010H0 As exportacoes de 2009 e 2010 tem a mesma variabilidade (dados men-sais coletados do site httpwwwipeadatagov)Ha CC
Castaneda Daniel F N 2013 30
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3143
134 Graficos 1 INICIANDO O R
vartest(exp2009exp2010)
F test to compare two variances
data exp2009 and exp2010
F = 03728 num df = 11 denom df = 11 p-value = 01166
alternative hypothesis true ratio of variances is not equal to 1
95 percent confidence interval
01073346 12951624
sample estimates
ratio of variances
03728482
Conclusao Nao houve mudancas na variabilidade das exportacoes de
2009 e 2010
134 Graficos
Considere os dados mensais das exportacoes do Brasil (FOB) durante2009 e 2010 para realizar um grafico de box-plot fazemos
boxplot(exp2009exp2010 main=exportac~oes do Brasil
names=c(20092010))
2009 2010
1 0 0 0 0
1 2 0 0 0
1 4 0 0 0
1 6 0 0 0
1 8 0 0 0
2 0
0 0 0
exportaccedilotildees do Brasil
Figura 5 Exportacoes FOB em dolares
Para o grafico da funcao acumulativa das exportacoes
plot(ecdf(exp2010) dopoint=FALSE verticals=TRUE
lty=3 xlim=c(1000023000))
lines(ecdf(exp2009) dopoint=FALSE verticals=TRUE
col=2)
Castaneda Daniel F N 2013 31
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3243
134 Graficos 1 INICIANDO O R
1 00 00 1 20 00 1 40 00 1 60 00 1 80 00 2 00 00 2 20 00
0 0
0 2
0 4
0 6
0 8
1 0
ecdf(exp2010)
x
F n ( x )
Figura 6 Funcao acumulada das exportacoes 2009-2010
Considere as exportacoes do Brasil um histograma e Q-Q plot sera
hist(exp main=Exportac~oes FOB-US col=8)
qqnorm(exp xlim=c(-55)ylim=c(-100021000))
qqline(exp)
Exportaccedilotildees FOBminusUS$
exp
F r e q u e n c y
0 5000 10000 15000 20000
0
5 0
1 0 0
1 5 0
minus4 minus2 0 2 4
0
5 0 0 0
1 0 0 0 0
1 5 0 0 0
2 0 0 0 0
Normal QminusQ Plot
Theoretical Quantiles
S a m p l e Q u a n t i l e s
Figura 7 Graficos das Exportacoes no Brasil 2001-2010
Para ativar alguns graficos pacotes sao necessarios exemplo
library(MASS)
Castaneda Daniel F N 2013 32
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3343
134 Graficos 1 INICIANDO O R
par(mfrow=c(21))
z = rnorm(500000)
hist(z prob=T)
curve(dnorm(x)add=T)
histscott(z prob=T)
Histogram of z
z
D e n s i t y
minus4 minus2 0 2 4
0 0
0 2
Histogram of x
z
D e n s i t y
minus4 minus2 0 2 4
0 0
0 2
0 4
Figura 8 Histograma de numeros aleatorios normais
boxcox(dist~speed data=cars) transformac~ao Box-Cox
minus2 minus1 0 1 2
minus 4 0 0
minus 3 5 0
minus 3 0 0
minus 2 5 0
λ
l o g minus
L i k e l i h o o d
95
Figura 9 Valor otimo na transformacao Box-Cox
Castaneda Daniel F N 2013 33
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3443
135 Tabelas 1 INICIANDO O R
Para ter um alcance maior sobre a capacidade grafica do R podemos
usar as seguintes funcoes
demo(graphics)
demo(image)
demo(persp)
demo(recursion)
demo(plotmath)
demo(package = packages(allavailable = TRUE))
135 Tabelas
Algumas tabelas estatısticas podem ser construıdas com a funcao table()estado=c(PBPEALSEBAMGESRJPBPEAL
SEBAMGESRJPBPEALSEBAMGESRJ
PBPEALSEBAMGESRJ)
estadof=factor(estado)
estadof
[1] PB PE AL SE BA MG ES RJ PB PE AL SE BA MG ES RJ PB PE AL SE BA
[22] MG ES RJ PB PE AL SE BA MG ES RJ
Levels AL BA ES MG PB PE RJ SE
setseed(10)
salarios=c(round(runif(32)100))
salarios
[1] 51 31 43 69 9 23 27 27 62 43 65 57 11 60 36 43 5 26 40 84 86 62 78 36 41
[26] 71 84 24 77 36 54 9
salariom=tapply(salariosestadofmean)
salariom
AL BA ES MG PB PE RJ SE
5800 4575 4875 4525 3975 4275 2875 5850
salariof=factor(cut(salariosbreaks=0+15(07)))
salariof
[1] (4560] (3045] (3045] (6075] (015] (1530] (1530] (1530] (6075]
[10] (3045] (6075] (4560] (015] (4560] (3045] (3045] (015] (1530]
[19] (3045] (7590] (7590] (6075] (7590] (3045] (3045] (6075] (7590]
[28] (1530] (7590] (3045] (4560] (015]
Levels (015] (1530] (3045] (4560] (6075] (7590]
table(salariofestadof)
estadof
Castaneda Daniel F N 2013 34
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3543
136 Comandos adicionais 2 R E ECONOMETRIA
salariof AL BA ES MG PB PE RJ SE
(015] 0 2 0 0 1 0 1 0
(1530] 0 0 1 1 0 1 1 1
(3045] 2 0 1 1 1 2 2 0
(4560] 0 0 1 1 1 0 0 1
(6075] 1 0 0 1 1 1 0 1
(7590] 1 2 1 0 0 0 0 1
table(salariofestadof)
estadof
salariof AL BA ES MG PB PE RJ SE
(015] 1 1 0 0 1 0 1 2
(1530] 0 0 1 1 0 0 1 1
(3045] 0 0 2 0 0 1 0 0
(4560] 2 0 1 0 0 1 0 0
(6075] 0 1 0 2 3 0 1 0
(7590] 0 1 0 1 0 2 0 1
(90105] 0 1 0 0 0 0 1 0
136 Comandos adicionais
Em situacoes onde a ausencia de informacao ou dados faltantes(missing)as funcoes do R precisam declarar esta ausencia com o comando narm=T
indicando que a informacao apresenta dados faltantes Exemplo
df=c(2NA58NA) O ultimo elemento esta ausente
mean(f) Comando padr~ao para calcular a media
[1] NA
mean(fnarm=T) Comando declarando a ausencia de elementos
[1] 5
2 R e Econometria
Dados economicos precisam de uma atencao matematica para dar fun-
damento a suas teorias Atualmente pelo avanco computacional nao habarreiras para serem aplicadas e torna-se ate divertida se definimos a plata-forma de trabalho computacional A econometria requer de uma abordagemdiferenciada pois faz uso de da teoria economica economia matematica es-tatıstica economica estatıstica matematica e inferencia estatıstica Esta
Castaneda Daniel F N 2013 35
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3643
21 Tipos de Dados 2 R E ECONOMETRIA
disciplina aproxima a Estatıstica da Economia onde a teoria economica for-
mula as hipoteses Por exemplo uma reducao de precos de uma mercadoriadevera aumentar a quantidade demandada dessa mercadoria considerandouma relacao inversa entre preco e quantidade demandada ou a despesa deconsumo per capita depende da renda per capita considerando uma relacaodireta ou seja a medida que a renda aumenta a despesa tende a aumentarOutro exemplo onde consideremos a area microeconomica consumo de aguade uma residencia e o valor pago e natural imaginar que ha uma relacaodireta entre consumo e valor pago pelo consumo Porem precisamos saberqual e quanto e esta forca de relacao por tanto o econometrista forneceesta informacao usando a inferencia estatıstica e a estatıstica economicaAs estimativas de esta relacao fica por conta de estatıstica matematica
Para completar e cerrar este circulo de disciplinas abordadas na Econo-metria precisamos utilizar uma ferramenta de calculo computacional quebrinde estabilidade precisao e rapidez nos seus resultados para superartudo isto utilizaremos o ambiente R A econometria surge como uma disci-plina autonoma em virtude de aglutinar todas estas areas do conhecimentomerecendo um estudo proprio
21 Tipos de Dados
Os tipos de dados sao
1 Dados de corte transversal (cross-section) sao dados de uma ou maisvariaveis coletadas no mesmo ponto do tempo Por exemplo os censosno Brasil sao coletados num instante do tempo No censo variaveisdemograficas sao exploradas como contagem da populacao numerode indivıduos em cada famılia idade dos integrantes da famılia ouvariaveis economicas como renda consumo tipo de moradia (alugadaou propria) etc estes dados sao adquiridas a cada decada pelo IBGE
2 Dados longitudinais ou de series temporais sao caracterizadas porobservacoes ao longo do tempo No Brasil um site que disponibilizadados desta natureza e o IPEADATA
3 Dados de painel e uma mistura de dados de corte transversal e longi-tudinais ou ao longo do tempo estudamos o comportamento de unida-des individuais Por exemplo series mensal do ındice de precos serieanuais do produto interno bruto (PIB) ou serie anual da balanca co-mercial dos municıpios do Brasil considerando cada municıpio comounidades individuais
Castaneda Daniel F N 2013 36
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3743
22 Metodologia 2 R E ECONOMETRIA
22 Metodologia
Os passos da metodologia econometrica tradicional ou classica se iniciadesde a formulacao da hipotese ate as conclusoes em geral sao
221 Hipotese
Como referencia usaremos a hipotese nula H 0 a qual nulifica qualquerdiferenca e a hipoteses alternativa H a aquela que contradiz total ou par-cialmente a hipotese nula Exemplo
1 H 0 nao existe uma relacao entre consumo de agua e valor pago pela
mesma
2 Ha existe uma relacao entre consumo de agua e valor pago pelamesma
A hipotese alternativa pode ser dividida em tres possibilidades no exem-plo do consumo de agua pode ser dividida em existe alguma relacao oua relacao e negativa ou a relacao e positiva A primeira denomina-se dehipotese alternativa com teste bicaudal o segundo de teste unicaudal a es-querda e finalmente o ultimo com teste unicaudal a direita Nosso exemploconsidere H a existe alguma relacao (teste bicaudal)
222 Modelo matematico
Usaremos uma funcao de consumo simples
Y = β 1 + β 2X (11)
A variavel dependente Y valor pago pelo consumo e estimado por Y A variavel independente e X consumo de agua em m3 β 1 representa ovalor pago quando nao ha consumo de agua Nosso interesse e determinara tangente ou a variacao pelo consumo β 2
223 Modelo econometrico do valor pago
O modelo matematico fornece a relacao determinıstica entre valor pagoem reais e consumo de agua porem as relacoes entre as variaveis economicassao em geral inexatas Assim ao longo do tempo no podemos esperar que ovalor pago e o consumo em m3 se situem exatamente numa linha reta isto
Castaneda Daniel F N 2013 37
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3843
22 Metodologia 2 R E ECONOMETRIA
por que alem do consumo outras variaveis afetam o valor pago por exemplo
os dias de consumo o perıodo de reforma da casa ou a inflacao podendoalterar o valor pago pelo consumo
224 Nıvel de significancia
Denominado de α frequentemente usa-se α = 005 em situacoes derisco usa-se α = 001 Em testes bicaudais divide-se α em duas partes elocalizam-se nos extremos da distribuicao de prova Para testes unicaudaislocaliza-se no extremo da distribuicao indicada pela hipotese alternativaNosso exemplo α = 005 e por tanto α2 = 0025
225 Obtencao de Dados
Considere 65 observacoes (mes a mes) do consumo de agua em umaresidencia e o valor pago em reais durante o perıodo de 122005 a 042011Ver dados no apendice A Um plot e apresentado a seguir
10 15 20
2 0
3 0
4 0
5 0
6 0
7 0
Valor pago em reais de consumo de aacutegua
Variaacutevel independenteConsumo em m3
V a r i aacute v e l d e p e n d e n t e V a l o r p a g o
Y = minus12365+3007X
Figura 10 Relacao causal entre consumo e valor pago em reais
Podemos observar visualmente que ha uma relacao positiva entre valorpago e consumo de agua onde a variacao pelo consumo ou variacao dovalor pago (tangente) β 2 cresce positivamente Precisamos verificar se estavariacao β 2 e estatisticamente diferente de zero (significativa)
Castaneda Daniel F N 2013 38
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3943
22 Metodologia 2 R E ECONOMETRIA
226 Estatıstica de prova
Denominada de funcao pivo ou estatıstica de teste No ambito pa-rametrico usa-se as estatısticas t student (amostras pequenas) quando ne grande e indiferente o uso da t student ou normal No exemplo para tes-tar qual a inclinacao da variacao pelo consumo de agua usamos a seguinteestatıstica
t0 =β 2
dp(β 2)asymp tnminus2gl (12)
onde t0 e o valor calculado da estatıstica t β 2 e a estimativa do parametro(variacao pelo consumo) β 2 dp(β 2) e o desvio padrao da estimativa doparametro β 2 o valor t0 segue uma distribuicao t-student com nminus2 graus deliberdade(gl) Os graus de liberdade e calculado diferenciando o tamanhoda amostra com o numero de parametro do modelo (n-p) O valor quantılicotnminus2gl(0025) corresponde a distribuicao t-student com 0025 de significanciacom n minus 2 graus de liberdade e n e o numero total de observacoes Nossoexemplo β 2 = 3007 e dp(β 2) = 013 por tanto t0 = 2313 e comparadocom o valor da tabela da t-student com 63 gl e com α2 = 0025 sendo estevalor igual 19983
227 Tipos de erro
Ocorre o erro tipo I (α) ao se rejeitar a hipotese de nulidade quandodeveria aceita-la Por outro lado quando se aceita a hipotese de nulidadequando deveria rejeita-la comete-se o erro tipo II (β ) Nas duas situacoestomou-se uma decisao errada O interesse e a minimizacao dos erros tipo Ie II que na pratica so e possıvel aumentando-se o tamanho da amostra Porrazoes diversas o aumento do tamanho da amostra muitas vezes torna-se im-praticavel A gravidade do erro tipo I e distinta da do erro tipo II quando seconsegue identificar o erro mais grave a opcao e a minimizacao deste poremquando a probabilidade de ocorrencia de um tipo de erro diminui a do outroaumenta e vice versa Podemos observar este criterio na seguinte tabela
Nao rejeita rejeitaH0 verdadeira Correto (1 minus α) Erro do tipo I (α)H0 falsa Erro do tipo II (β ) Correto (1minus β )
Castaneda Daniel F N 2013 39
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4043
22 Metodologia 2 R E ECONOMETRIA
228 Regra de Decisao
Os pacotes ou plataformas estatısticas apresentam o valor observado dafuncao pivo e o p minus valor (Area de probabilidade esta relacionada comonıvel de significancia) assim a funcao pivo apresenta o valor numerico nafuncao de densidade da Estatıstica exemplo dentro da densidade da normalQuando o pvalor e menor do que α = 005 no caso do teste unicaudal (eα = 0025 no caso bicaudal) concluımos que nao ha evidencia suficiente paraaceitar H0 Caso contrario se o p minus valor for maior que α = 005 podemosconcluir que nao ha evidencia suficiente para rejeitar H0 Nosso exemplot0 = 2313 gt 1998 (1998 e valor da distribuicao t com 63 gl e nıvel designificancia bicaudal de 005) este valor localiza-se na cauda positiva da
distribuicao com 63 graus de liberdade(n minus 2 = 65 minus 2) Por outro lado o pminus valor lt 0025 por tanto nao ha evidencias para aceitar H0 em favor deaceitar que o coeficiente de inclinacao (ou tangente) e positiva No recorrerdo livro usaremos codigos para as medidas do pminusvalor que em geral apareceem todo comando summary() Como consequencia a linha que aparece aseguir sera excluıda das saıdas do R
Signif codes 0 0001 001 005 01 1
sera interpretada da seguinte maneira
bull 0 significancia menor que 0001
bull 0001 significancia menor que 001
bull 001 significancia menor que 005
bull 005 significancia menor que 01
bull 01 significancia menor que 1
229 Conclusoes
Esta parte do teste de hipoteses e explicada em conjunto O Estatıstico eo Economista que sao os profissionais da area em que as observacoes foramcoletadas decidem sobre as providencias futuras No exemplo podemosafirmar que a cada metro cubico a mais de consumo de agua sera pago emmedia 3 reais a mais No momento este valor pago pode parecer alto poremna falta de este liquido elementar este valor pode aumentar e por tantosofrera mudancas
Castaneda Daniel F N 2013 40
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4143
23 Previs˜ oes 2 R E ECONOMETRIA
23 Previsoes
Muitas vezes estamos interessados em determinar o que acontece quandouma quantidade de consumo de agua em m3 e utilizada e qual o valor pagoem reais Por exemplo se nosso interesse e saber quanto sera pago por 20m3
de consumo de agua em uma residencia A conta a realizar eValor pago = minus12365 + 3007 lowast 20 = 47775 reaisA interpretacao deste valor e em media o valor pago em reais por 20m3 deagua consumida e de aproximadamente 478 reais
231 Resıduos
Uma questao fundamental em econometria e identificar o comportamentodos resıduos de um modelo Considere Y o valor real pago e Y valor pagoestimado a partir de um modelo entao este erro e aleatorio e definido por
ϵi = Y i minus Y i (13)
A abordagem mais formal dos erros e feita nos proximos capıtulosUma questao importante e determinar qual o comportamento da estima-tiva destes erros aos quais chamamos de resıduos Para determinar a nor-malidade dos resıduos realizamos o teste de Jarque Bera com a funcao
jarqueberatest() da biblioteca tseries com o seguinte grafico
minus2 minus1 0 1 2
minus 5
0
5
1 0
resiacuteduos do modelo valor= f(consumo)
Theoretical Quantiles
S a m p l e Q u a n t i l e s
Figura 11 Normalidade dos resıduos
Castaneda Daniel F N 2013 41
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4243
24 Exercıcios REFER ENCIAS
24 Exercıcios
1 Por que a econometria precisa ser uma disciplina autonoma
2 Que e econometria
3 Pesquise dados de corte transversal corte longitudinal e de painel
4 Construa uma metodologia econometrica para o consumo familiar emfuncao da renda familiar (linear)
5 No item anterior e possıvel encontrar uma relacao quadratica
6 Quais sao os pressupostos basicos de um modelo de regressao linear
simples
7 Como e chamado o parametro de inclinacao ou tangente num modelode regressao linear simples em econometria
8 Que e o projeto R
9 R e um programa econometrico
Referencias
[1] Albert Jim (2009) Bayesian computation with R Editora SpringerSecond Edition New York USA
[2] Borde Arvind (1992) TEX by example A beginneracutes guide Ed Aca-demic Press Professional United States of America
[3] Carneiro Orlando (1997) Econometria Bacute asica Teoria e Aplicac˜ oes Editora Atlas Segunda Edicao son Paulo
[4] Conover W J (1999) Practical nonparametric statistics 3ed NewYork
[5] Cribari Neto F (2002) C for Econometricians conputational Econo-
mics 14 p135-149
[6] Dalgaard Peter(2008) Introductory Statistics with R Editora SpringerSecond Edition New York USA
[7] Ehlers Ricardo(2007) Analise de series Temporais Universidade Fe-deral do Parana
Castaneda Daniel F N 2013 42
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4343
REFER ENCIAS REFER ENCIAS
[8] Frery Alejandro Cribari-Neto Francisco(2011)Elementos de
Estatıstica conputacional Usando Plataformas de Software Li-vreGratuito Publicacoes Matematicas Editora IMPA
[9] Gujarati Damodar N (2000) Econometria Bacute asica Makron Books Ter-ceira Edicao son Paulo
[10] Knuth DE (1981)The Art of conputer Programming Third EditionVolume 2 Seminumerical Algorithms Addison-Wesley Publishingconpany Massachusetts
[11] Korgi Rodrigo de Castro (2003) El universo LAT E X Editora Facultadde Ciencias Segunda Edicao Bogota
[12] Krawczyk H How to Predict Congruential Generators InJournal of Algorithms V 13 N 4 1992
[13] LrsquoEcuyer P (2001) Software for uniform random number generationdistinguishing the good and the bad In Proceedings of the 2001 WinterSimulation Conference
[14] Maindonald John Braun W John(2010) Data analysis and graphics using R an example-based approach Cambridge University Press NewYork USA
[15] Mingoti(2005)Analise De Dados Atraves De Metodos De Estatistica Multivariada - Uma Abordagem Aplicada Editora UFMG Belo Hori-zonte
Castaneda Daniel F N 2013 43
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2743
131 Teste Qui- Quadrado 1 INICIANDO O R
131 Teste Qui- Quadrado
Util para associar linhas e colunas considere os dados em d com as se-guintes hipotesesH0 nao ha associacao entre linhas e colunasHa ha associacao entre linhas e colunas
chisqtest(d)
Pearsonrsquos Chi-squared test
data d
X-squared = 46497 df = 4 p-value = 03252
Warning message
In chisqtest(d) Aproximac~ao Qui-quadrado pode estar incorreta
Para um nıvel α = 0 05 de significancia podemos afirmar que nao haevidencias para afirmar que a associacao entre linhas e colunas (linhas ecolunas sao independentes) Um outro exemplo do uso da distribuicao Qui-quadrado e verificar se um conjunto de dados provem de uma determinadadistribuicao teorica
chisqtest(c)
Chi-squared test for given probabilities
data c
X-squared = 22549 df = 5 p-value = 00004116
Pelo p-value podemos afirmar que a 0 05 de significancia nao ha evi-dencias para afirmar que a distribuicao dos numeros em c sejam uniformesPara implementar este teste de associacao no exemplo de consumo de aguaconsiderando a classificacao mediante lacos (ver lacos no R) entre consumoce valorc temos
table(consumocvalorc)
valorc
consumoc 0 1
0 24 0
Castaneda Daniel F N 2013 27
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2843
132 Teste t - student 1 INICIANDO O R
1 3 38
chisqtest(consumocvalorc)$expected
chisqtest(consumocvalorc)$observed
chisqtest(consumocvalorc)
Pearsonrsquos Chi-squared test with Yatesrsquo continuity correction
data consumoc and valorc
X-squared = 498015 df = 1 p-value = 1701e-12
barplot(table(consumocvalorc) beside=T)
Concluimos que ha associacao entre consumo de agua e o valor pago em
reais
132 Teste t - student
O teste mais usado pelos estatısticos e util para comparar medias deduas amostras tanto independente como emparelhadasExemplo considere as exportacoes mensais (FOB-US) do Brasil durante osanos de 2009 minus 2010 Apos digitacao das observacoes temos
exp2009
[1] 9781920 9586406 11809225 12321617 11984585 14467785 14141930
[8] 13840850 13863222 14081686 12652892 14462624
exp2010[1] 1130507 1219724 1572750 1516121 1770250 1709391 1767292 1923625
[9] 1883279 1838042 1768733 2091814
H0 A medias anuais das exportacoes durante 2009 e 2010 e a mesmaHa CC
ttest(exp2009exp2010paired = FALSE)
Welch Two Sample t-test
data exp2009 and exp2010
t = -42813 df = 18202 p-value = 00004394
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-6075666 -2077757
sample estimates
mean of x mean of y
Castaneda Daniel F N 2013 28
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2943
133 Teste F 1 INICIANDO O R
1274956 1682627
Conclusao nao ha evidencias para aceitar que a media das exportacoesde 2009 e 2010 e a mesma
Quando um conjunto de dados e dado em formato de matriz (dataframe)podemos realizar o teste t de uma coluna em funcao da outra por exemplono consumo de agua queremos testar a hipotese nula H0 o valor de con-sumo de agua e o mesmo construindo ou nao versus a hipotese alternativaHa Caso contrario
attach(ca)
ttest(valor~Construindo)
Welch Two Sample t-test
data valor by Construindo
t = -58383 df = 21731 p-value = 7465e-06
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-2288867 -1088356
sample estimates
mean in group 0 mean in group 1
2115271 3803882
Concluımos que nao ha evidencias para aceitar que o valor de consumode agua e o mesmo quando estamos construindo ( p minus valor lt 005)
Exemplos adicionais podem ser comparando entre as variaveis clas-sificadas (ver secao de lacos) da seguinte forma
ttest(valor~consumoc)
ttest(consumo~valorc)
boxplot(consumo~valorc2 main=Consumo e valor pago em Reais)
boxplot(consumo~valorc3 main=Consumo e valor pago em Reais)
133 Teste F
Para determinar se ha a mesma variabilidade no valor de consumoquando estamos ou nao construindo utilizamos o teste F A hipotese nulae H0 O valor de consumo de agua tem a mesma variabilidade quandoconstruımos que quando nao construımos No R temos
Castaneda Daniel F N 2013 29
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3043
133 Teste F 1 INICIANDO O R
vartest(valor~Construindo)
F test to compare two variances
data valor by Construindo
F = 04834 num df = 47 denom df = 16 p-value = 005478
alternative hypothesis true ratio of variances is not equal to 1
95 percent confidence interval
0194815 1014916
sample estimates
ratio of variances
04834048
Concluımos que nao ha evidencias para rejeitar a hipotese nula por tanto
a variabilidade no valor de consumo e o mesmoO correspondente grafico (Box-plot) e apresentado a seguir
boxplot(valor~Construindo col=8 names=c(n~ao construc~ao construc~ao))
natildeo construccedilatildeo construccedilatildeo
2 0
3 0
4 0
5 0
6 0
7 0
Figura 4 Valor pago em reais no consumo de agua
Em alguns casos ha necessidade de identificar se a variabilidade dasexportacoes e a mesma comparando 2009 e 2010H0 As exportacoes de 2009 e 2010 tem a mesma variabilidade (dados men-sais coletados do site httpwwwipeadatagov)Ha CC
Castaneda Daniel F N 2013 30
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3143
134 Graficos 1 INICIANDO O R
vartest(exp2009exp2010)
F test to compare two variances
data exp2009 and exp2010
F = 03728 num df = 11 denom df = 11 p-value = 01166
alternative hypothesis true ratio of variances is not equal to 1
95 percent confidence interval
01073346 12951624
sample estimates
ratio of variances
03728482
Conclusao Nao houve mudancas na variabilidade das exportacoes de
2009 e 2010
134 Graficos
Considere os dados mensais das exportacoes do Brasil (FOB) durante2009 e 2010 para realizar um grafico de box-plot fazemos
boxplot(exp2009exp2010 main=exportac~oes do Brasil
names=c(20092010))
2009 2010
1 0 0 0 0
1 2 0 0 0
1 4 0 0 0
1 6 0 0 0
1 8 0 0 0
2 0
0 0 0
exportaccedilotildees do Brasil
Figura 5 Exportacoes FOB em dolares
Para o grafico da funcao acumulativa das exportacoes
plot(ecdf(exp2010) dopoint=FALSE verticals=TRUE
lty=3 xlim=c(1000023000))
lines(ecdf(exp2009) dopoint=FALSE verticals=TRUE
col=2)
Castaneda Daniel F N 2013 31
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3243
134 Graficos 1 INICIANDO O R
1 00 00 1 20 00 1 40 00 1 60 00 1 80 00 2 00 00 2 20 00
0 0
0 2
0 4
0 6
0 8
1 0
ecdf(exp2010)
x
F n ( x )
Figura 6 Funcao acumulada das exportacoes 2009-2010
Considere as exportacoes do Brasil um histograma e Q-Q plot sera
hist(exp main=Exportac~oes FOB-US col=8)
qqnorm(exp xlim=c(-55)ylim=c(-100021000))
qqline(exp)
Exportaccedilotildees FOBminusUS$
exp
F r e q u e n c y
0 5000 10000 15000 20000
0
5 0
1 0 0
1 5 0
minus4 minus2 0 2 4
0
5 0 0 0
1 0 0 0 0
1 5 0 0 0
2 0 0 0 0
Normal QminusQ Plot
Theoretical Quantiles
S a m p l e Q u a n t i l e s
Figura 7 Graficos das Exportacoes no Brasil 2001-2010
Para ativar alguns graficos pacotes sao necessarios exemplo
library(MASS)
Castaneda Daniel F N 2013 32
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3343
134 Graficos 1 INICIANDO O R
par(mfrow=c(21))
z = rnorm(500000)
hist(z prob=T)
curve(dnorm(x)add=T)
histscott(z prob=T)
Histogram of z
z
D e n s i t y
minus4 minus2 0 2 4
0 0
0 2
Histogram of x
z
D e n s i t y
minus4 minus2 0 2 4
0 0
0 2
0 4
Figura 8 Histograma de numeros aleatorios normais
boxcox(dist~speed data=cars) transformac~ao Box-Cox
minus2 minus1 0 1 2
minus 4 0 0
minus 3 5 0
minus 3 0 0
minus 2 5 0
λ
l o g minus
L i k e l i h o o d
95
Figura 9 Valor otimo na transformacao Box-Cox
Castaneda Daniel F N 2013 33
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3443
135 Tabelas 1 INICIANDO O R
Para ter um alcance maior sobre a capacidade grafica do R podemos
usar as seguintes funcoes
demo(graphics)
demo(image)
demo(persp)
demo(recursion)
demo(plotmath)
demo(package = packages(allavailable = TRUE))
135 Tabelas
Algumas tabelas estatısticas podem ser construıdas com a funcao table()estado=c(PBPEALSEBAMGESRJPBPEAL
SEBAMGESRJPBPEALSEBAMGESRJ
PBPEALSEBAMGESRJ)
estadof=factor(estado)
estadof
[1] PB PE AL SE BA MG ES RJ PB PE AL SE BA MG ES RJ PB PE AL SE BA
[22] MG ES RJ PB PE AL SE BA MG ES RJ
Levels AL BA ES MG PB PE RJ SE
setseed(10)
salarios=c(round(runif(32)100))
salarios
[1] 51 31 43 69 9 23 27 27 62 43 65 57 11 60 36 43 5 26 40 84 86 62 78 36 41
[26] 71 84 24 77 36 54 9
salariom=tapply(salariosestadofmean)
salariom
AL BA ES MG PB PE RJ SE
5800 4575 4875 4525 3975 4275 2875 5850
salariof=factor(cut(salariosbreaks=0+15(07)))
salariof
[1] (4560] (3045] (3045] (6075] (015] (1530] (1530] (1530] (6075]
[10] (3045] (6075] (4560] (015] (4560] (3045] (3045] (015] (1530]
[19] (3045] (7590] (7590] (6075] (7590] (3045] (3045] (6075] (7590]
[28] (1530] (7590] (3045] (4560] (015]
Levels (015] (1530] (3045] (4560] (6075] (7590]
table(salariofestadof)
estadof
Castaneda Daniel F N 2013 34
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3543
136 Comandos adicionais 2 R E ECONOMETRIA
salariof AL BA ES MG PB PE RJ SE
(015] 0 2 0 0 1 0 1 0
(1530] 0 0 1 1 0 1 1 1
(3045] 2 0 1 1 1 2 2 0
(4560] 0 0 1 1 1 0 0 1
(6075] 1 0 0 1 1 1 0 1
(7590] 1 2 1 0 0 0 0 1
table(salariofestadof)
estadof
salariof AL BA ES MG PB PE RJ SE
(015] 1 1 0 0 1 0 1 2
(1530] 0 0 1 1 0 0 1 1
(3045] 0 0 2 0 0 1 0 0
(4560] 2 0 1 0 0 1 0 0
(6075] 0 1 0 2 3 0 1 0
(7590] 0 1 0 1 0 2 0 1
(90105] 0 1 0 0 0 0 1 0
136 Comandos adicionais
Em situacoes onde a ausencia de informacao ou dados faltantes(missing)as funcoes do R precisam declarar esta ausencia com o comando narm=T
indicando que a informacao apresenta dados faltantes Exemplo
df=c(2NA58NA) O ultimo elemento esta ausente
mean(f) Comando padr~ao para calcular a media
[1] NA
mean(fnarm=T) Comando declarando a ausencia de elementos
[1] 5
2 R e Econometria
Dados economicos precisam de uma atencao matematica para dar fun-
damento a suas teorias Atualmente pelo avanco computacional nao habarreiras para serem aplicadas e torna-se ate divertida se definimos a plata-forma de trabalho computacional A econometria requer de uma abordagemdiferenciada pois faz uso de da teoria economica economia matematica es-tatıstica economica estatıstica matematica e inferencia estatıstica Esta
Castaneda Daniel F N 2013 35
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3643
21 Tipos de Dados 2 R E ECONOMETRIA
disciplina aproxima a Estatıstica da Economia onde a teoria economica for-
mula as hipoteses Por exemplo uma reducao de precos de uma mercadoriadevera aumentar a quantidade demandada dessa mercadoria considerandouma relacao inversa entre preco e quantidade demandada ou a despesa deconsumo per capita depende da renda per capita considerando uma relacaodireta ou seja a medida que a renda aumenta a despesa tende a aumentarOutro exemplo onde consideremos a area microeconomica consumo de aguade uma residencia e o valor pago e natural imaginar que ha uma relacaodireta entre consumo e valor pago pelo consumo Porem precisamos saberqual e quanto e esta forca de relacao por tanto o econometrista forneceesta informacao usando a inferencia estatıstica e a estatıstica economicaAs estimativas de esta relacao fica por conta de estatıstica matematica
Para completar e cerrar este circulo de disciplinas abordadas na Econo-metria precisamos utilizar uma ferramenta de calculo computacional quebrinde estabilidade precisao e rapidez nos seus resultados para superartudo isto utilizaremos o ambiente R A econometria surge como uma disci-plina autonoma em virtude de aglutinar todas estas areas do conhecimentomerecendo um estudo proprio
21 Tipos de Dados
Os tipos de dados sao
1 Dados de corte transversal (cross-section) sao dados de uma ou maisvariaveis coletadas no mesmo ponto do tempo Por exemplo os censosno Brasil sao coletados num instante do tempo No censo variaveisdemograficas sao exploradas como contagem da populacao numerode indivıduos em cada famılia idade dos integrantes da famılia ouvariaveis economicas como renda consumo tipo de moradia (alugadaou propria) etc estes dados sao adquiridas a cada decada pelo IBGE
2 Dados longitudinais ou de series temporais sao caracterizadas porobservacoes ao longo do tempo No Brasil um site que disponibilizadados desta natureza e o IPEADATA
3 Dados de painel e uma mistura de dados de corte transversal e longi-tudinais ou ao longo do tempo estudamos o comportamento de unida-des individuais Por exemplo series mensal do ındice de precos serieanuais do produto interno bruto (PIB) ou serie anual da balanca co-mercial dos municıpios do Brasil considerando cada municıpio comounidades individuais
Castaneda Daniel F N 2013 36
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3743
22 Metodologia 2 R E ECONOMETRIA
22 Metodologia
Os passos da metodologia econometrica tradicional ou classica se iniciadesde a formulacao da hipotese ate as conclusoes em geral sao
221 Hipotese
Como referencia usaremos a hipotese nula H 0 a qual nulifica qualquerdiferenca e a hipoteses alternativa H a aquela que contradiz total ou par-cialmente a hipotese nula Exemplo
1 H 0 nao existe uma relacao entre consumo de agua e valor pago pela
mesma
2 Ha existe uma relacao entre consumo de agua e valor pago pelamesma
A hipotese alternativa pode ser dividida em tres possibilidades no exem-plo do consumo de agua pode ser dividida em existe alguma relacao oua relacao e negativa ou a relacao e positiva A primeira denomina-se dehipotese alternativa com teste bicaudal o segundo de teste unicaudal a es-querda e finalmente o ultimo com teste unicaudal a direita Nosso exemploconsidere H a existe alguma relacao (teste bicaudal)
222 Modelo matematico
Usaremos uma funcao de consumo simples
Y = β 1 + β 2X (11)
A variavel dependente Y valor pago pelo consumo e estimado por Y A variavel independente e X consumo de agua em m3 β 1 representa ovalor pago quando nao ha consumo de agua Nosso interesse e determinara tangente ou a variacao pelo consumo β 2
223 Modelo econometrico do valor pago
O modelo matematico fornece a relacao determinıstica entre valor pagoem reais e consumo de agua porem as relacoes entre as variaveis economicassao em geral inexatas Assim ao longo do tempo no podemos esperar que ovalor pago e o consumo em m3 se situem exatamente numa linha reta isto
Castaneda Daniel F N 2013 37
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3843
22 Metodologia 2 R E ECONOMETRIA
por que alem do consumo outras variaveis afetam o valor pago por exemplo
os dias de consumo o perıodo de reforma da casa ou a inflacao podendoalterar o valor pago pelo consumo
224 Nıvel de significancia
Denominado de α frequentemente usa-se α = 005 em situacoes derisco usa-se α = 001 Em testes bicaudais divide-se α em duas partes elocalizam-se nos extremos da distribuicao de prova Para testes unicaudaislocaliza-se no extremo da distribuicao indicada pela hipotese alternativaNosso exemplo α = 005 e por tanto α2 = 0025
225 Obtencao de Dados
Considere 65 observacoes (mes a mes) do consumo de agua em umaresidencia e o valor pago em reais durante o perıodo de 122005 a 042011Ver dados no apendice A Um plot e apresentado a seguir
10 15 20
2 0
3 0
4 0
5 0
6 0
7 0
Valor pago em reais de consumo de aacutegua
Variaacutevel independenteConsumo em m3
V a r i aacute v e l d e p e n d e n t e V a l o r p a g o
Y = minus12365+3007X
Figura 10 Relacao causal entre consumo e valor pago em reais
Podemos observar visualmente que ha uma relacao positiva entre valorpago e consumo de agua onde a variacao pelo consumo ou variacao dovalor pago (tangente) β 2 cresce positivamente Precisamos verificar se estavariacao β 2 e estatisticamente diferente de zero (significativa)
Castaneda Daniel F N 2013 38
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3943
22 Metodologia 2 R E ECONOMETRIA
226 Estatıstica de prova
Denominada de funcao pivo ou estatıstica de teste No ambito pa-rametrico usa-se as estatısticas t student (amostras pequenas) quando ne grande e indiferente o uso da t student ou normal No exemplo para tes-tar qual a inclinacao da variacao pelo consumo de agua usamos a seguinteestatıstica
t0 =β 2
dp(β 2)asymp tnminus2gl (12)
onde t0 e o valor calculado da estatıstica t β 2 e a estimativa do parametro(variacao pelo consumo) β 2 dp(β 2) e o desvio padrao da estimativa doparametro β 2 o valor t0 segue uma distribuicao t-student com nminus2 graus deliberdade(gl) Os graus de liberdade e calculado diferenciando o tamanhoda amostra com o numero de parametro do modelo (n-p) O valor quantılicotnminus2gl(0025) corresponde a distribuicao t-student com 0025 de significanciacom n minus 2 graus de liberdade e n e o numero total de observacoes Nossoexemplo β 2 = 3007 e dp(β 2) = 013 por tanto t0 = 2313 e comparadocom o valor da tabela da t-student com 63 gl e com α2 = 0025 sendo estevalor igual 19983
227 Tipos de erro
Ocorre o erro tipo I (α) ao se rejeitar a hipotese de nulidade quandodeveria aceita-la Por outro lado quando se aceita a hipotese de nulidadequando deveria rejeita-la comete-se o erro tipo II (β ) Nas duas situacoestomou-se uma decisao errada O interesse e a minimizacao dos erros tipo Ie II que na pratica so e possıvel aumentando-se o tamanho da amostra Porrazoes diversas o aumento do tamanho da amostra muitas vezes torna-se im-praticavel A gravidade do erro tipo I e distinta da do erro tipo II quando seconsegue identificar o erro mais grave a opcao e a minimizacao deste poremquando a probabilidade de ocorrencia de um tipo de erro diminui a do outroaumenta e vice versa Podemos observar este criterio na seguinte tabela
Nao rejeita rejeitaH0 verdadeira Correto (1 minus α) Erro do tipo I (α)H0 falsa Erro do tipo II (β ) Correto (1minus β )
Castaneda Daniel F N 2013 39
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4043
22 Metodologia 2 R E ECONOMETRIA
228 Regra de Decisao
Os pacotes ou plataformas estatısticas apresentam o valor observado dafuncao pivo e o p minus valor (Area de probabilidade esta relacionada comonıvel de significancia) assim a funcao pivo apresenta o valor numerico nafuncao de densidade da Estatıstica exemplo dentro da densidade da normalQuando o pvalor e menor do que α = 005 no caso do teste unicaudal (eα = 0025 no caso bicaudal) concluımos que nao ha evidencia suficiente paraaceitar H0 Caso contrario se o p minus valor for maior que α = 005 podemosconcluir que nao ha evidencia suficiente para rejeitar H0 Nosso exemplot0 = 2313 gt 1998 (1998 e valor da distribuicao t com 63 gl e nıvel designificancia bicaudal de 005) este valor localiza-se na cauda positiva da
distribuicao com 63 graus de liberdade(n minus 2 = 65 minus 2) Por outro lado o pminus valor lt 0025 por tanto nao ha evidencias para aceitar H0 em favor deaceitar que o coeficiente de inclinacao (ou tangente) e positiva No recorrerdo livro usaremos codigos para as medidas do pminusvalor que em geral apareceem todo comando summary() Como consequencia a linha que aparece aseguir sera excluıda das saıdas do R
Signif codes 0 0001 001 005 01 1
sera interpretada da seguinte maneira
bull 0 significancia menor que 0001
bull 0001 significancia menor que 001
bull 001 significancia menor que 005
bull 005 significancia menor que 01
bull 01 significancia menor que 1
229 Conclusoes
Esta parte do teste de hipoteses e explicada em conjunto O Estatıstico eo Economista que sao os profissionais da area em que as observacoes foramcoletadas decidem sobre as providencias futuras No exemplo podemosafirmar que a cada metro cubico a mais de consumo de agua sera pago emmedia 3 reais a mais No momento este valor pago pode parecer alto poremna falta de este liquido elementar este valor pode aumentar e por tantosofrera mudancas
Castaneda Daniel F N 2013 40
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4143
23 Previs˜ oes 2 R E ECONOMETRIA
23 Previsoes
Muitas vezes estamos interessados em determinar o que acontece quandouma quantidade de consumo de agua em m3 e utilizada e qual o valor pagoem reais Por exemplo se nosso interesse e saber quanto sera pago por 20m3
de consumo de agua em uma residencia A conta a realizar eValor pago = minus12365 + 3007 lowast 20 = 47775 reaisA interpretacao deste valor e em media o valor pago em reais por 20m3 deagua consumida e de aproximadamente 478 reais
231 Resıduos
Uma questao fundamental em econometria e identificar o comportamentodos resıduos de um modelo Considere Y o valor real pago e Y valor pagoestimado a partir de um modelo entao este erro e aleatorio e definido por
ϵi = Y i minus Y i (13)
A abordagem mais formal dos erros e feita nos proximos capıtulosUma questao importante e determinar qual o comportamento da estima-tiva destes erros aos quais chamamos de resıduos Para determinar a nor-malidade dos resıduos realizamos o teste de Jarque Bera com a funcao
jarqueberatest() da biblioteca tseries com o seguinte grafico
minus2 minus1 0 1 2
minus 5
0
5
1 0
resiacuteduos do modelo valor= f(consumo)
Theoretical Quantiles
S a m p l e Q u a n t i l e s
Figura 11 Normalidade dos resıduos
Castaneda Daniel F N 2013 41
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4243
24 Exercıcios REFER ENCIAS
24 Exercıcios
1 Por que a econometria precisa ser uma disciplina autonoma
2 Que e econometria
3 Pesquise dados de corte transversal corte longitudinal e de painel
4 Construa uma metodologia econometrica para o consumo familiar emfuncao da renda familiar (linear)
5 No item anterior e possıvel encontrar uma relacao quadratica
6 Quais sao os pressupostos basicos de um modelo de regressao linear
simples
7 Como e chamado o parametro de inclinacao ou tangente num modelode regressao linear simples em econometria
8 Que e o projeto R
9 R e um programa econometrico
Referencias
[1] Albert Jim (2009) Bayesian computation with R Editora SpringerSecond Edition New York USA
[2] Borde Arvind (1992) TEX by example A beginneracutes guide Ed Aca-demic Press Professional United States of America
[3] Carneiro Orlando (1997) Econometria Bacute asica Teoria e Aplicac˜ oes Editora Atlas Segunda Edicao son Paulo
[4] Conover W J (1999) Practical nonparametric statistics 3ed NewYork
[5] Cribari Neto F (2002) C for Econometricians conputational Econo-
mics 14 p135-149
[6] Dalgaard Peter(2008) Introductory Statistics with R Editora SpringerSecond Edition New York USA
[7] Ehlers Ricardo(2007) Analise de series Temporais Universidade Fe-deral do Parana
Castaneda Daniel F N 2013 42
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4343
REFER ENCIAS REFER ENCIAS
[8] Frery Alejandro Cribari-Neto Francisco(2011)Elementos de
Estatıstica conputacional Usando Plataformas de Software Li-vreGratuito Publicacoes Matematicas Editora IMPA
[9] Gujarati Damodar N (2000) Econometria Bacute asica Makron Books Ter-ceira Edicao son Paulo
[10] Knuth DE (1981)The Art of conputer Programming Third EditionVolume 2 Seminumerical Algorithms Addison-Wesley Publishingconpany Massachusetts
[11] Korgi Rodrigo de Castro (2003) El universo LAT E X Editora Facultadde Ciencias Segunda Edicao Bogota
[12] Krawczyk H How to Predict Congruential Generators InJournal of Algorithms V 13 N 4 1992
[13] LrsquoEcuyer P (2001) Software for uniform random number generationdistinguishing the good and the bad In Proceedings of the 2001 WinterSimulation Conference
[14] Maindonald John Braun W John(2010) Data analysis and graphics using R an example-based approach Cambridge University Press NewYork USA
[15] Mingoti(2005)Analise De Dados Atraves De Metodos De Estatistica Multivariada - Uma Abordagem Aplicada Editora UFMG Belo Hori-zonte
Castaneda Daniel F N 2013 43
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2843
132 Teste t - student 1 INICIANDO O R
1 3 38
chisqtest(consumocvalorc)$expected
chisqtest(consumocvalorc)$observed
chisqtest(consumocvalorc)
Pearsonrsquos Chi-squared test with Yatesrsquo continuity correction
data consumoc and valorc
X-squared = 498015 df = 1 p-value = 1701e-12
barplot(table(consumocvalorc) beside=T)
Concluimos que ha associacao entre consumo de agua e o valor pago em
reais
132 Teste t - student
O teste mais usado pelos estatısticos e util para comparar medias deduas amostras tanto independente como emparelhadasExemplo considere as exportacoes mensais (FOB-US) do Brasil durante osanos de 2009 minus 2010 Apos digitacao das observacoes temos
exp2009
[1] 9781920 9586406 11809225 12321617 11984585 14467785 14141930
[8] 13840850 13863222 14081686 12652892 14462624
exp2010[1] 1130507 1219724 1572750 1516121 1770250 1709391 1767292 1923625
[9] 1883279 1838042 1768733 2091814
H0 A medias anuais das exportacoes durante 2009 e 2010 e a mesmaHa CC
ttest(exp2009exp2010paired = FALSE)
Welch Two Sample t-test
data exp2009 and exp2010
t = -42813 df = 18202 p-value = 00004394
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-6075666 -2077757
sample estimates
mean of x mean of y
Castaneda Daniel F N 2013 28
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2943
133 Teste F 1 INICIANDO O R
1274956 1682627
Conclusao nao ha evidencias para aceitar que a media das exportacoesde 2009 e 2010 e a mesma
Quando um conjunto de dados e dado em formato de matriz (dataframe)podemos realizar o teste t de uma coluna em funcao da outra por exemplono consumo de agua queremos testar a hipotese nula H0 o valor de con-sumo de agua e o mesmo construindo ou nao versus a hipotese alternativaHa Caso contrario
attach(ca)
ttest(valor~Construindo)
Welch Two Sample t-test
data valor by Construindo
t = -58383 df = 21731 p-value = 7465e-06
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-2288867 -1088356
sample estimates
mean in group 0 mean in group 1
2115271 3803882
Concluımos que nao ha evidencias para aceitar que o valor de consumode agua e o mesmo quando estamos construindo ( p minus valor lt 005)
Exemplos adicionais podem ser comparando entre as variaveis clas-sificadas (ver secao de lacos) da seguinte forma
ttest(valor~consumoc)
ttest(consumo~valorc)
boxplot(consumo~valorc2 main=Consumo e valor pago em Reais)
boxplot(consumo~valorc3 main=Consumo e valor pago em Reais)
133 Teste F
Para determinar se ha a mesma variabilidade no valor de consumoquando estamos ou nao construindo utilizamos o teste F A hipotese nulae H0 O valor de consumo de agua tem a mesma variabilidade quandoconstruımos que quando nao construımos No R temos
Castaneda Daniel F N 2013 29
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3043
133 Teste F 1 INICIANDO O R
vartest(valor~Construindo)
F test to compare two variances
data valor by Construindo
F = 04834 num df = 47 denom df = 16 p-value = 005478
alternative hypothesis true ratio of variances is not equal to 1
95 percent confidence interval
0194815 1014916
sample estimates
ratio of variances
04834048
Concluımos que nao ha evidencias para rejeitar a hipotese nula por tanto
a variabilidade no valor de consumo e o mesmoO correspondente grafico (Box-plot) e apresentado a seguir
boxplot(valor~Construindo col=8 names=c(n~ao construc~ao construc~ao))
natildeo construccedilatildeo construccedilatildeo
2 0
3 0
4 0
5 0
6 0
7 0
Figura 4 Valor pago em reais no consumo de agua
Em alguns casos ha necessidade de identificar se a variabilidade dasexportacoes e a mesma comparando 2009 e 2010H0 As exportacoes de 2009 e 2010 tem a mesma variabilidade (dados men-sais coletados do site httpwwwipeadatagov)Ha CC
Castaneda Daniel F N 2013 30
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3143
134 Graficos 1 INICIANDO O R
vartest(exp2009exp2010)
F test to compare two variances
data exp2009 and exp2010
F = 03728 num df = 11 denom df = 11 p-value = 01166
alternative hypothesis true ratio of variances is not equal to 1
95 percent confidence interval
01073346 12951624
sample estimates
ratio of variances
03728482
Conclusao Nao houve mudancas na variabilidade das exportacoes de
2009 e 2010
134 Graficos
Considere os dados mensais das exportacoes do Brasil (FOB) durante2009 e 2010 para realizar um grafico de box-plot fazemos
boxplot(exp2009exp2010 main=exportac~oes do Brasil
names=c(20092010))
2009 2010
1 0 0 0 0
1 2 0 0 0
1 4 0 0 0
1 6 0 0 0
1 8 0 0 0
2 0
0 0 0
exportaccedilotildees do Brasil
Figura 5 Exportacoes FOB em dolares
Para o grafico da funcao acumulativa das exportacoes
plot(ecdf(exp2010) dopoint=FALSE verticals=TRUE
lty=3 xlim=c(1000023000))
lines(ecdf(exp2009) dopoint=FALSE verticals=TRUE
col=2)
Castaneda Daniel F N 2013 31
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3243
134 Graficos 1 INICIANDO O R
1 00 00 1 20 00 1 40 00 1 60 00 1 80 00 2 00 00 2 20 00
0 0
0 2
0 4
0 6
0 8
1 0
ecdf(exp2010)
x
F n ( x )
Figura 6 Funcao acumulada das exportacoes 2009-2010
Considere as exportacoes do Brasil um histograma e Q-Q plot sera
hist(exp main=Exportac~oes FOB-US col=8)
qqnorm(exp xlim=c(-55)ylim=c(-100021000))
qqline(exp)
Exportaccedilotildees FOBminusUS$
exp
F r e q u e n c y
0 5000 10000 15000 20000
0
5 0
1 0 0
1 5 0
minus4 minus2 0 2 4
0
5 0 0 0
1 0 0 0 0
1 5 0 0 0
2 0 0 0 0
Normal QminusQ Plot
Theoretical Quantiles
S a m p l e Q u a n t i l e s
Figura 7 Graficos das Exportacoes no Brasil 2001-2010
Para ativar alguns graficos pacotes sao necessarios exemplo
library(MASS)
Castaneda Daniel F N 2013 32
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3343
134 Graficos 1 INICIANDO O R
par(mfrow=c(21))
z = rnorm(500000)
hist(z prob=T)
curve(dnorm(x)add=T)
histscott(z prob=T)
Histogram of z
z
D e n s i t y
minus4 minus2 0 2 4
0 0
0 2
Histogram of x
z
D e n s i t y
minus4 minus2 0 2 4
0 0
0 2
0 4
Figura 8 Histograma de numeros aleatorios normais
boxcox(dist~speed data=cars) transformac~ao Box-Cox
minus2 minus1 0 1 2
minus 4 0 0
minus 3 5 0
minus 3 0 0
minus 2 5 0
λ
l o g minus
L i k e l i h o o d
95
Figura 9 Valor otimo na transformacao Box-Cox
Castaneda Daniel F N 2013 33
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3443
135 Tabelas 1 INICIANDO O R
Para ter um alcance maior sobre a capacidade grafica do R podemos
usar as seguintes funcoes
demo(graphics)
demo(image)
demo(persp)
demo(recursion)
demo(plotmath)
demo(package = packages(allavailable = TRUE))
135 Tabelas
Algumas tabelas estatısticas podem ser construıdas com a funcao table()estado=c(PBPEALSEBAMGESRJPBPEAL
SEBAMGESRJPBPEALSEBAMGESRJ
PBPEALSEBAMGESRJ)
estadof=factor(estado)
estadof
[1] PB PE AL SE BA MG ES RJ PB PE AL SE BA MG ES RJ PB PE AL SE BA
[22] MG ES RJ PB PE AL SE BA MG ES RJ
Levels AL BA ES MG PB PE RJ SE
setseed(10)
salarios=c(round(runif(32)100))
salarios
[1] 51 31 43 69 9 23 27 27 62 43 65 57 11 60 36 43 5 26 40 84 86 62 78 36 41
[26] 71 84 24 77 36 54 9
salariom=tapply(salariosestadofmean)
salariom
AL BA ES MG PB PE RJ SE
5800 4575 4875 4525 3975 4275 2875 5850
salariof=factor(cut(salariosbreaks=0+15(07)))
salariof
[1] (4560] (3045] (3045] (6075] (015] (1530] (1530] (1530] (6075]
[10] (3045] (6075] (4560] (015] (4560] (3045] (3045] (015] (1530]
[19] (3045] (7590] (7590] (6075] (7590] (3045] (3045] (6075] (7590]
[28] (1530] (7590] (3045] (4560] (015]
Levels (015] (1530] (3045] (4560] (6075] (7590]
table(salariofestadof)
estadof
Castaneda Daniel F N 2013 34
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3543
136 Comandos adicionais 2 R E ECONOMETRIA
salariof AL BA ES MG PB PE RJ SE
(015] 0 2 0 0 1 0 1 0
(1530] 0 0 1 1 0 1 1 1
(3045] 2 0 1 1 1 2 2 0
(4560] 0 0 1 1 1 0 0 1
(6075] 1 0 0 1 1 1 0 1
(7590] 1 2 1 0 0 0 0 1
table(salariofestadof)
estadof
salariof AL BA ES MG PB PE RJ SE
(015] 1 1 0 0 1 0 1 2
(1530] 0 0 1 1 0 0 1 1
(3045] 0 0 2 0 0 1 0 0
(4560] 2 0 1 0 0 1 0 0
(6075] 0 1 0 2 3 0 1 0
(7590] 0 1 0 1 0 2 0 1
(90105] 0 1 0 0 0 0 1 0
136 Comandos adicionais
Em situacoes onde a ausencia de informacao ou dados faltantes(missing)as funcoes do R precisam declarar esta ausencia com o comando narm=T
indicando que a informacao apresenta dados faltantes Exemplo
df=c(2NA58NA) O ultimo elemento esta ausente
mean(f) Comando padr~ao para calcular a media
[1] NA
mean(fnarm=T) Comando declarando a ausencia de elementos
[1] 5
2 R e Econometria
Dados economicos precisam de uma atencao matematica para dar fun-
damento a suas teorias Atualmente pelo avanco computacional nao habarreiras para serem aplicadas e torna-se ate divertida se definimos a plata-forma de trabalho computacional A econometria requer de uma abordagemdiferenciada pois faz uso de da teoria economica economia matematica es-tatıstica economica estatıstica matematica e inferencia estatıstica Esta
Castaneda Daniel F N 2013 35
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3643
21 Tipos de Dados 2 R E ECONOMETRIA
disciplina aproxima a Estatıstica da Economia onde a teoria economica for-
mula as hipoteses Por exemplo uma reducao de precos de uma mercadoriadevera aumentar a quantidade demandada dessa mercadoria considerandouma relacao inversa entre preco e quantidade demandada ou a despesa deconsumo per capita depende da renda per capita considerando uma relacaodireta ou seja a medida que a renda aumenta a despesa tende a aumentarOutro exemplo onde consideremos a area microeconomica consumo de aguade uma residencia e o valor pago e natural imaginar que ha uma relacaodireta entre consumo e valor pago pelo consumo Porem precisamos saberqual e quanto e esta forca de relacao por tanto o econometrista forneceesta informacao usando a inferencia estatıstica e a estatıstica economicaAs estimativas de esta relacao fica por conta de estatıstica matematica
Para completar e cerrar este circulo de disciplinas abordadas na Econo-metria precisamos utilizar uma ferramenta de calculo computacional quebrinde estabilidade precisao e rapidez nos seus resultados para superartudo isto utilizaremos o ambiente R A econometria surge como uma disci-plina autonoma em virtude de aglutinar todas estas areas do conhecimentomerecendo um estudo proprio
21 Tipos de Dados
Os tipos de dados sao
1 Dados de corte transversal (cross-section) sao dados de uma ou maisvariaveis coletadas no mesmo ponto do tempo Por exemplo os censosno Brasil sao coletados num instante do tempo No censo variaveisdemograficas sao exploradas como contagem da populacao numerode indivıduos em cada famılia idade dos integrantes da famılia ouvariaveis economicas como renda consumo tipo de moradia (alugadaou propria) etc estes dados sao adquiridas a cada decada pelo IBGE
2 Dados longitudinais ou de series temporais sao caracterizadas porobservacoes ao longo do tempo No Brasil um site que disponibilizadados desta natureza e o IPEADATA
3 Dados de painel e uma mistura de dados de corte transversal e longi-tudinais ou ao longo do tempo estudamos o comportamento de unida-des individuais Por exemplo series mensal do ındice de precos serieanuais do produto interno bruto (PIB) ou serie anual da balanca co-mercial dos municıpios do Brasil considerando cada municıpio comounidades individuais
Castaneda Daniel F N 2013 36
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3743
22 Metodologia 2 R E ECONOMETRIA
22 Metodologia
Os passos da metodologia econometrica tradicional ou classica se iniciadesde a formulacao da hipotese ate as conclusoes em geral sao
221 Hipotese
Como referencia usaremos a hipotese nula H 0 a qual nulifica qualquerdiferenca e a hipoteses alternativa H a aquela que contradiz total ou par-cialmente a hipotese nula Exemplo
1 H 0 nao existe uma relacao entre consumo de agua e valor pago pela
mesma
2 Ha existe uma relacao entre consumo de agua e valor pago pelamesma
A hipotese alternativa pode ser dividida em tres possibilidades no exem-plo do consumo de agua pode ser dividida em existe alguma relacao oua relacao e negativa ou a relacao e positiva A primeira denomina-se dehipotese alternativa com teste bicaudal o segundo de teste unicaudal a es-querda e finalmente o ultimo com teste unicaudal a direita Nosso exemploconsidere H a existe alguma relacao (teste bicaudal)
222 Modelo matematico
Usaremos uma funcao de consumo simples
Y = β 1 + β 2X (11)
A variavel dependente Y valor pago pelo consumo e estimado por Y A variavel independente e X consumo de agua em m3 β 1 representa ovalor pago quando nao ha consumo de agua Nosso interesse e determinara tangente ou a variacao pelo consumo β 2
223 Modelo econometrico do valor pago
O modelo matematico fornece a relacao determinıstica entre valor pagoem reais e consumo de agua porem as relacoes entre as variaveis economicassao em geral inexatas Assim ao longo do tempo no podemos esperar que ovalor pago e o consumo em m3 se situem exatamente numa linha reta isto
Castaneda Daniel F N 2013 37
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3843
22 Metodologia 2 R E ECONOMETRIA
por que alem do consumo outras variaveis afetam o valor pago por exemplo
os dias de consumo o perıodo de reforma da casa ou a inflacao podendoalterar o valor pago pelo consumo
224 Nıvel de significancia
Denominado de α frequentemente usa-se α = 005 em situacoes derisco usa-se α = 001 Em testes bicaudais divide-se α em duas partes elocalizam-se nos extremos da distribuicao de prova Para testes unicaudaislocaliza-se no extremo da distribuicao indicada pela hipotese alternativaNosso exemplo α = 005 e por tanto α2 = 0025
225 Obtencao de Dados
Considere 65 observacoes (mes a mes) do consumo de agua em umaresidencia e o valor pago em reais durante o perıodo de 122005 a 042011Ver dados no apendice A Um plot e apresentado a seguir
10 15 20
2 0
3 0
4 0
5 0
6 0
7 0
Valor pago em reais de consumo de aacutegua
Variaacutevel independenteConsumo em m3
V a r i aacute v e l d e p e n d e n t e V a l o r p a g o
Y = minus12365+3007X
Figura 10 Relacao causal entre consumo e valor pago em reais
Podemos observar visualmente que ha uma relacao positiva entre valorpago e consumo de agua onde a variacao pelo consumo ou variacao dovalor pago (tangente) β 2 cresce positivamente Precisamos verificar se estavariacao β 2 e estatisticamente diferente de zero (significativa)
Castaneda Daniel F N 2013 38
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3943
22 Metodologia 2 R E ECONOMETRIA
226 Estatıstica de prova
Denominada de funcao pivo ou estatıstica de teste No ambito pa-rametrico usa-se as estatısticas t student (amostras pequenas) quando ne grande e indiferente o uso da t student ou normal No exemplo para tes-tar qual a inclinacao da variacao pelo consumo de agua usamos a seguinteestatıstica
t0 =β 2
dp(β 2)asymp tnminus2gl (12)
onde t0 e o valor calculado da estatıstica t β 2 e a estimativa do parametro(variacao pelo consumo) β 2 dp(β 2) e o desvio padrao da estimativa doparametro β 2 o valor t0 segue uma distribuicao t-student com nminus2 graus deliberdade(gl) Os graus de liberdade e calculado diferenciando o tamanhoda amostra com o numero de parametro do modelo (n-p) O valor quantılicotnminus2gl(0025) corresponde a distribuicao t-student com 0025 de significanciacom n minus 2 graus de liberdade e n e o numero total de observacoes Nossoexemplo β 2 = 3007 e dp(β 2) = 013 por tanto t0 = 2313 e comparadocom o valor da tabela da t-student com 63 gl e com α2 = 0025 sendo estevalor igual 19983
227 Tipos de erro
Ocorre o erro tipo I (α) ao se rejeitar a hipotese de nulidade quandodeveria aceita-la Por outro lado quando se aceita a hipotese de nulidadequando deveria rejeita-la comete-se o erro tipo II (β ) Nas duas situacoestomou-se uma decisao errada O interesse e a minimizacao dos erros tipo Ie II que na pratica so e possıvel aumentando-se o tamanho da amostra Porrazoes diversas o aumento do tamanho da amostra muitas vezes torna-se im-praticavel A gravidade do erro tipo I e distinta da do erro tipo II quando seconsegue identificar o erro mais grave a opcao e a minimizacao deste poremquando a probabilidade de ocorrencia de um tipo de erro diminui a do outroaumenta e vice versa Podemos observar este criterio na seguinte tabela
Nao rejeita rejeitaH0 verdadeira Correto (1 minus α) Erro do tipo I (α)H0 falsa Erro do tipo II (β ) Correto (1minus β )
Castaneda Daniel F N 2013 39
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4043
22 Metodologia 2 R E ECONOMETRIA
228 Regra de Decisao
Os pacotes ou plataformas estatısticas apresentam o valor observado dafuncao pivo e o p minus valor (Area de probabilidade esta relacionada comonıvel de significancia) assim a funcao pivo apresenta o valor numerico nafuncao de densidade da Estatıstica exemplo dentro da densidade da normalQuando o pvalor e menor do que α = 005 no caso do teste unicaudal (eα = 0025 no caso bicaudal) concluımos que nao ha evidencia suficiente paraaceitar H0 Caso contrario se o p minus valor for maior que α = 005 podemosconcluir que nao ha evidencia suficiente para rejeitar H0 Nosso exemplot0 = 2313 gt 1998 (1998 e valor da distribuicao t com 63 gl e nıvel designificancia bicaudal de 005) este valor localiza-se na cauda positiva da
distribuicao com 63 graus de liberdade(n minus 2 = 65 minus 2) Por outro lado o pminus valor lt 0025 por tanto nao ha evidencias para aceitar H0 em favor deaceitar que o coeficiente de inclinacao (ou tangente) e positiva No recorrerdo livro usaremos codigos para as medidas do pminusvalor que em geral apareceem todo comando summary() Como consequencia a linha que aparece aseguir sera excluıda das saıdas do R
Signif codes 0 0001 001 005 01 1
sera interpretada da seguinte maneira
bull 0 significancia menor que 0001
bull 0001 significancia menor que 001
bull 001 significancia menor que 005
bull 005 significancia menor que 01
bull 01 significancia menor que 1
229 Conclusoes
Esta parte do teste de hipoteses e explicada em conjunto O Estatıstico eo Economista que sao os profissionais da area em que as observacoes foramcoletadas decidem sobre as providencias futuras No exemplo podemosafirmar que a cada metro cubico a mais de consumo de agua sera pago emmedia 3 reais a mais No momento este valor pago pode parecer alto poremna falta de este liquido elementar este valor pode aumentar e por tantosofrera mudancas
Castaneda Daniel F N 2013 40
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4143
23 Previs˜ oes 2 R E ECONOMETRIA
23 Previsoes
Muitas vezes estamos interessados em determinar o que acontece quandouma quantidade de consumo de agua em m3 e utilizada e qual o valor pagoem reais Por exemplo se nosso interesse e saber quanto sera pago por 20m3
de consumo de agua em uma residencia A conta a realizar eValor pago = minus12365 + 3007 lowast 20 = 47775 reaisA interpretacao deste valor e em media o valor pago em reais por 20m3 deagua consumida e de aproximadamente 478 reais
231 Resıduos
Uma questao fundamental em econometria e identificar o comportamentodos resıduos de um modelo Considere Y o valor real pago e Y valor pagoestimado a partir de um modelo entao este erro e aleatorio e definido por
ϵi = Y i minus Y i (13)
A abordagem mais formal dos erros e feita nos proximos capıtulosUma questao importante e determinar qual o comportamento da estima-tiva destes erros aos quais chamamos de resıduos Para determinar a nor-malidade dos resıduos realizamos o teste de Jarque Bera com a funcao
jarqueberatest() da biblioteca tseries com o seguinte grafico
minus2 minus1 0 1 2
minus 5
0
5
1 0
resiacuteduos do modelo valor= f(consumo)
Theoretical Quantiles
S a m p l e Q u a n t i l e s
Figura 11 Normalidade dos resıduos
Castaneda Daniel F N 2013 41
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4243
24 Exercıcios REFER ENCIAS
24 Exercıcios
1 Por que a econometria precisa ser uma disciplina autonoma
2 Que e econometria
3 Pesquise dados de corte transversal corte longitudinal e de painel
4 Construa uma metodologia econometrica para o consumo familiar emfuncao da renda familiar (linear)
5 No item anterior e possıvel encontrar uma relacao quadratica
6 Quais sao os pressupostos basicos de um modelo de regressao linear
simples
7 Como e chamado o parametro de inclinacao ou tangente num modelode regressao linear simples em econometria
8 Que e o projeto R
9 R e um programa econometrico
Referencias
[1] Albert Jim (2009) Bayesian computation with R Editora SpringerSecond Edition New York USA
[2] Borde Arvind (1992) TEX by example A beginneracutes guide Ed Aca-demic Press Professional United States of America
[3] Carneiro Orlando (1997) Econometria Bacute asica Teoria e Aplicac˜ oes Editora Atlas Segunda Edicao son Paulo
[4] Conover W J (1999) Practical nonparametric statistics 3ed NewYork
[5] Cribari Neto F (2002) C for Econometricians conputational Econo-
mics 14 p135-149
[6] Dalgaard Peter(2008) Introductory Statistics with R Editora SpringerSecond Edition New York USA
[7] Ehlers Ricardo(2007) Analise de series Temporais Universidade Fe-deral do Parana
Castaneda Daniel F N 2013 42
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4343
REFER ENCIAS REFER ENCIAS
[8] Frery Alejandro Cribari-Neto Francisco(2011)Elementos de
Estatıstica conputacional Usando Plataformas de Software Li-vreGratuito Publicacoes Matematicas Editora IMPA
[9] Gujarati Damodar N (2000) Econometria Bacute asica Makron Books Ter-ceira Edicao son Paulo
[10] Knuth DE (1981)The Art of conputer Programming Third EditionVolume 2 Seminumerical Algorithms Addison-Wesley Publishingconpany Massachusetts
[11] Korgi Rodrigo de Castro (2003) El universo LAT E X Editora Facultadde Ciencias Segunda Edicao Bogota
[12] Krawczyk H How to Predict Congruential Generators InJournal of Algorithms V 13 N 4 1992
[13] LrsquoEcuyer P (2001) Software for uniform random number generationdistinguishing the good and the bad In Proceedings of the 2001 WinterSimulation Conference
[14] Maindonald John Braun W John(2010) Data analysis and graphics using R an example-based approach Cambridge University Press NewYork USA
[15] Mingoti(2005)Analise De Dados Atraves De Metodos De Estatistica Multivariada - Uma Abordagem Aplicada Editora UFMG Belo Hori-zonte
Castaneda Daniel F N 2013 43
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 2943
133 Teste F 1 INICIANDO O R
1274956 1682627
Conclusao nao ha evidencias para aceitar que a media das exportacoesde 2009 e 2010 e a mesma
Quando um conjunto de dados e dado em formato de matriz (dataframe)podemos realizar o teste t de uma coluna em funcao da outra por exemplono consumo de agua queremos testar a hipotese nula H0 o valor de con-sumo de agua e o mesmo construindo ou nao versus a hipotese alternativaHa Caso contrario
attach(ca)
ttest(valor~Construindo)
Welch Two Sample t-test
data valor by Construindo
t = -58383 df = 21731 p-value = 7465e-06
alternative hypothesis true difference in means is not equal to 0
95 percent confidence interval
-2288867 -1088356
sample estimates
mean in group 0 mean in group 1
2115271 3803882
Concluımos que nao ha evidencias para aceitar que o valor de consumode agua e o mesmo quando estamos construindo ( p minus valor lt 005)
Exemplos adicionais podem ser comparando entre as variaveis clas-sificadas (ver secao de lacos) da seguinte forma
ttest(valor~consumoc)
ttest(consumo~valorc)
boxplot(consumo~valorc2 main=Consumo e valor pago em Reais)
boxplot(consumo~valorc3 main=Consumo e valor pago em Reais)
133 Teste F
Para determinar se ha a mesma variabilidade no valor de consumoquando estamos ou nao construindo utilizamos o teste F A hipotese nulae H0 O valor de consumo de agua tem a mesma variabilidade quandoconstruımos que quando nao construımos No R temos
Castaneda Daniel F N 2013 29
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3043
133 Teste F 1 INICIANDO O R
vartest(valor~Construindo)
F test to compare two variances
data valor by Construindo
F = 04834 num df = 47 denom df = 16 p-value = 005478
alternative hypothesis true ratio of variances is not equal to 1
95 percent confidence interval
0194815 1014916
sample estimates
ratio of variances
04834048
Concluımos que nao ha evidencias para rejeitar a hipotese nula por tanto
a variabilidade no valor de consumo e o mesmoO correspondente grafico (Box-plot) e apresentado a seguir
boxplot(valor~Construindo col=8 names=c(n~ao construc~ao construc~ao))
natildeo construccedilatildeo construccedilatildeo
2 0
3 0
4 0
5 0
6 0
7 0
Figura 4 Valor pago em reais no consumo de agua
Em alguns casos ha necessidade de identificar se a variabilidade dasexportacoes e a mesma comparando 2009 e 2010H0 As exportacoes de 2009 e 2010 tem a mesma variabilidade (dados men-sais coletados do site httpwwwipeadatagov)Ha CC
Castaneda Daniel F N 2013 30
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3143
134 Graficos 1 INICIANDO O R
vartest(exp2009exp2010)
F test to compare two variances
data exp2009 and exp2010
F = 03728 num df = 11 denom df = 11 p-value = 01166
alternative hypothesis true ratio of variances is not equal to 1
95 percent confidence interval
01073346 12951624
sample estimates
ratio of variances
03728482
Conclusao Nao houve mudancas na variabilidade das exportacoes de
2009 e 2010
134 Graficos
Considere os dados mensais das exportacoes do Brasil (FOB) durante2009 e 2010 para realizar um grafico de box-plot fazemos
boxplot(exp2009exp2010 main=exportac~oes do Brasil
names=c(20092010))
2009 2010
1 0 0 0 0
1 2 0 0 0
1 4 0 0 0
1 6 0 0 0
1 8 0 0 0
2 0
0 0 0
exportaccedilotildees do Brasil
Figura 5 Exportacoes FOB em dolares
Para o grafico da funcao acumulativa das exportacoes
plot(ecdf(exp2010) dopoint=FALSE verticals=TRUE
lty=3 xlim=c(1000023000))
lines(ecdf(exp2009) dopoint=FALSE verticals=TRUE
col=2)
Castaneda Daniel F N 2013 31
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3243
134 Graficos 1 INICIANDO O R
1 00 00 1 20 00 1 40 00 1 60 00 1 80 00 2 00 00 2 20 00
0 0
0 2
0 4
0 6
0 8
1 0
ecdf(exp2010)
x
F n ( x )
Figura 6 Funcao acumulada das exportacoes 2009-2010
Considere as exportacoes do Brasil um histograma e Q-Q plot sera
hist(exp main=Exportac~oes FOB-US col=8)
qqnorm(exp xlim=c(-55)ylim=c(-100021000))
qqline(exp)
Exportaccedilotildees FOBminusUS$
exp
F r e q u e n c y
0 5000 10000 15000 20000
0
5 0
1 0 0
1 5 0
minus4 minus2 0 2 4
0
5 0 0 0
1 0 0 0 0
1 5 0 0 0
2 0 0 0 0
Normal QminusQ Plot
Theoretical Quantiles
S a m p l e Q u a n t i l e s
Figura 7 Graficos das Exportacoes no Brasil 2001-2010
Para ativar alguns graficos pacotes sao necessarios exemplo
library(MASS)
Castaneda Daniel F N 2013 32
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3343
134 Graficos 1 INICIANDO O R
par(mfrow=c(21))
z = rnorm(500000)
hist(z prob=T)
curve(dnorm(x)add=T)
histscott(z prob=T)
Histogram of z
z
D e n s i t y
minus4 minus2 0 2 4
0 0
0 2
Histogram of x
z
D e n s i t y
minus4 minus2 0 2 4
0 0
0 2
0 4
Figura 8 Histograma de numeros aleatorios normais
boxcox(dist~speed data=cars) transformac~ao Box-Cox
minus2 minus1 0 1 2
minus 4 0 0
minus 3 5 0
minus 3 0 0
minus 2 5 0
λ
l o g minus
L i k e l i h o o d
95
Figura 9 Valor otimo na transformacao Box-Cox
Castaneda Daniel F N 2013 33
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3443
135 Tabelas 1 INICIANDO O R
Para ter um alcance maior sobre a capacidade grafica do R podemos
usar as seguintes funcoes
demo(graphics)
demo(image)
demo(persp)
demo(recursion)
demo(plotmath)
demo(package = packages(allavailable = TRUE))
135 Tabelas
Algumas tabelas estatısticas podem ser construıdas com a funcao table()estado=c(PBPEALSEBAMGESRJPBPEAL
SEBAMGESRJPBPEALSEBAMGESRJ
PBPEALSEBAMGESRJ)
estadof=factor(estado)
estadof
[1] PB PE AL SE BA MG ES RJ PB PE AL SE BA MG ES RJ PB PE AL SE BA
[22] MG ES RJ PB PE AL SE BA MG ES RJ
Levels AL BA ES MG PB PE RJ SE
setseed(10)
salarios=c(round(runif(32)100))
salarios
[1] 51 31 43 69 9 23 27 27 62 43 65 57 11 60 36 43 5 26 40 84 86 62 78 36 41
[26] 71 84 24 77 36 54 9
salariom=tapply(salariosestadofmean)
salariom
AL BA ES MG PB PE RJ SE
5800 4575 4875 4525 3975 4275 2875 5850
salariof=factor(cut(salariosbreaks=0+15(07)))
salariof
[1] (4560] (3045] (3045] (6075] (015] (1530] (1530] (1530] (6075]
[10] (3045] (6075] (4560] (015] (4560] (3045] (3045] (015] (1530]
[19] (3045] (7590] (7590] (6075] (7590] (3045] (3045] (6075] (7590]
[28] (1530] (7590] (3045] (4560] (015]
Levels (015] (1530] (3045] (4560] (6075] (7590]
table(salariofestadof)
estadof
Castaneda Daniel F N 2013 34
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3543
136 Comandos adicionais 2 R E ECONOMETRIA
salariof AL BA ES MG PB PE RJ SE
(015] 0 2 0 0 1 0 1 0
(1530] 0 0 1 1 0 1 1 1
(3045] 2 0 1 1 1 2 2 0
(4560] 0 0 1 1 1 0 0 1
(6075] 1 0 0 1 1 1 0 1
(7590] 1 2 1 0 0 0 0 1
table(salariofestadof)
estadof
salariof AL BA ES MG PB PE RJ SE
(015] 1 1 0 0 1 0 1 2
(1530] 0 0 1 1 0 0 1 1
(3045] 0 0 2 0 0 1 0 0
(4560] 2 0 1 0 0 1 0 0
(6075] 0 1 0 2 3 0 1 0
(7590] 0 1 0 1 0 2 0 1
(90105] 0 1 0 0 0 0 1 0
136 Comandos adicionais
Em situacoes onde a ausencia de informacao ou dados faltantes(missing)as funcoes do R precisam declarar esta ausencia com o comando narm=T
indicando que a informacao apresenta dados faltantes Exemplo
df=c(2NA58NA) O ultimo elemento esta ausente
mean(f) Comando padr~ao para calcular a media
[1] NA
mean(fnarm=T) Comando declarando a ausencia de elementos
[1] 5
2 R e Econometria
Dados economicos precisam de uma atencao matematica para dar fun-
damento a suas teorias Atualmente pelo avanco computacional nao habarreiras para serem aplicadas e torna-se ate divertida se definimos a plata-forma de trabalho computacional A econometria requer de uma abordagemdiferenciada pois faz uso de da teoria economica economia matematica es-tatıstica economica estatıstica matematica e inferencia estatıstica Esta
Castaneda Daniel F N 2013 35
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3643
21 Tipos de Dados 2 R E ECONOMETRIA
disciplina aproxima a Estatıstica da Economia onde a teoria economica for-
mula as hipoteses Por exemplo uma reducao de precos de uma mercadoriadevera aumentar a quantidade demandada dessa mercadoria considerandouma relacao inversa entre preco e quantidade demandada ou a despesa deconsumo per capita depende da renda per capita considerando uma relacaodireta ou seja a medida que a renda aumenta a despesa tende a aumentarOutro exemplo onde consideremos a area microeconomica consumo de aguade uma residencia e o valor pago e natural imaginar que ha uma relacaodireta entre consumo e valor pago pelo consumo Porem precisamos saberqual e quanto e esta forca de relacao por tanto o econometrista forneceesta informacao usando a inferencia estatıstica e a estatıstica economicaAs estimativas de esta relacao fica por conta de estatıstica matematica
Para completar e cerrar este circulo de disciplinas abordadas na Econo-metria precisamos utilizar uma ferramenta de calculo computacional quebrinde estabilidade precisao e rapidez nos seus resultados para superartudo isto utilizaremos o ambiente R A econometria surge como uma disci-plina autonoma em virtude de aglutinar todas estas areas do conhecimentomerecendo um estudo proprio
21 Tipos de Dados
Os tipos de dados sao
1 Dados de corte transversal (cross-section) sao dados de uma ou maisvariaveis coletadas no mesmo ponto do tempo Por exemplo os censosno Brasil sao coletados num instante do tempo No censo variaveisdemograficas sao exploradas como contagem da populacao numerode indivıduos em cada famılia idade dos integrantes da famılia ouvariaveis economicas como renda consumo tipo de moradia (alugadaou propria) etc estes dados sao adquiridas a cada decada pelo IBGE
2 Dados longitudinais ou de series temporais sao caracterizadas porobservacoes ao longo do tempo No Brasil um site que disponibilizadados desta natureza e o IPEADATA
3 Dados de painel e uma mistura de dados de corte transversal e longi-tudinais ou ao longo do tempo estudamos o comportamento de unida-des individuais Por exemplo series mensal do ındice de precos serieanuais do produto interno bruto (PIB) ou serie anual da balanca co-mercial dos municıpios do Brasil considerando cada municıpio comounidades individuais
Castaneda Daniel F N 2013 36
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3743
22 Metodologia 2 R E ECONOMETRIA
22 Metodologia
Os passos da metodologia econometrica tradicional ou classica se iniciadesde a formulacao da hipotese ate as conclusoes em geral sao
221 Hipotese
Como referencia usaremos a hipotese nula H 0 a qual nulifica qualquerdiferenca e a hipoteses alternativa H a aquela que contradiz total ou par-cialmente a hipotese nula Exemplo
1 H 0 nao existe uma relacao entre consumo de agua e valor pago pela
mesma
2 Ha existe uma relacao entre consumo de agua e valor pago pelamesma
A hipotese alternativa pode ser dividida em tres possibilidades no exem-plo do consumo de agua pode ser dividida em existe alguma relacao oua relacao e negativa ou a relacao e positiva A primeira denomina-se dehipotese alternativa com teste bicaudal o segundo de teste unicaudal a es-querda e finalmente o ultimo com teste unicaudal a direita Nosso exemploconsidere H a existe alguma relacao (teste bicaudal)
222 Modelo matematico
Usaremos uma funcao de consumo simples
Y = β 1 + β 2X (11)
A variavel dependente Y valor pago pelo consumo e estimado por Y A variavel independente e X consumo de agua em m3 β 1 representa ovalor pago quando nao ha consumo de agua Nosso interesse e determinara tangente ou a variacao pelo consumo β 2
223 Modelo econometrico do valor pago
O modelo matematico fornece a relacao determinıstica entre valor pagoem reais e consumo de agua porem as relacoes entre as variaveis economicassao em geral inexatas Assim ao longo do tempo no podemos esperar que ovalor pago e o consumo em m3 se situem exatamente numa linha reta isto
Castaneda Daniel F N 2013 37
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3843
22 Metodologia 2 R E ECONOMETRIA
por que alem do consumo outras variaveis afetam o valor pago por exemplo
os dias de consumo o perıodo de reforma da casa ou a inflacao podendoalterar o valor pago pelo consumo
224 Nıvel de significancia
Denominado de α frequentemente usa-se α = 005 em situacoes derisco usa-se α = 001 Em testes bicaudais divide-se α em duas partes elocalizam-se nos extremos da distribuicao de prova Para testes unicaudaislocaliza-se no extremo da distribuicao indicada pela hipotese alternativaNosso exemplo α = 005 e por tanto α2 = 0025
225 Obtencao de Dados
Considere 65 observacoes (mes a mes) do consumo de agua em umaresidencia e o valor pago em reais durante o perıodo de 122005 a 042011Ver dados no apendice A Um plot e apresentado a seguir
10 15 20
2 0
3 0
4 0
5 0
6 0
7 0
Valor pago em reais de consumo de aacutegua
Variaacutevel independenteConsumo em m3
V a r i aacute v e l d e p e n d e n t e V a l o r p a g o
Y = minus12365+3007X
Figura 10 Relacao causal entre consumo e valor pago em reais
Podemos observar visualmente que ha uma relacao positiva entre valorpago e consumo de agua onde a variacao pelo consumo ou variacao dovalor pago (tangente) β 2 cresce positivamente Precisamos verificar se estavariacao β 2 e estatisticamente diferente de zero (significativa)
Castaneda Daniel F N 2013 38
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3943
22 Metodologia 2 R E ECONOMETRIA
226 Estatıstica de prova
Denominada de funcao pivo ou estatıstica de teste No ambito pa-rametrico usa-se as estatısticas t student (amostras pequenas) quando ne grande e indiferente o uso da t student ou normal No exemplo para tes-tar qual a inclinacao da variacao pelo consumo de agua usamos a seguinteestatıstica
t0 =β 2
dp(β 2)asymp tnminus2gl (12)
onde t0 e o valor calculado da estatıstica t β 2 e a estimativa do parametro(variacao pelo consumo) β 2 dp(β 2) e o desvio padrao da estimativa doparametro β 2 o valor t0 segue uma distribuicao t-student com nminus2 graus deliberdade(gl) Os graus de liberdade e calculado diferenciando o tamanhoda amostra com o numero de parametro do modelo (n-p) O valor quantılicotnminus2gl(0025) corresponde a distribuicao t-student com 0025 de significanciacom n minus 2 graus de liberdade e n e o numero total de observacoes Nossoexemplo β 2 = 3007 e dp(β 2) = 013 por tanto t0 = 2313 e comparadocom o valor da tabela da t-student com 63 gl e com α2 = 0025 sendo estevalor igual 19983
227 Tipos de erro
Ocorre o erro tipo I (α) ao se rejeitar a hipotese de nulidade quandodeveria aceita-la Por outro lado quando se aceita a hipotese de nulidadequando deveria rejeita-la comete-se o erro tipo II (β ) Nas duas situacoestomou-se uma decisao errada O interesse e a minimizacao dos erros tipo Ie II que na pratica so e possıvel aumentando-se o tamanho da amostra Porrazoes diversas o aumento do tamanho da amostra muitas vezes torna-se im-praticavel A gravidade do erro tipo I e distinta da do erro tipo II quando seconsegue identificar o erro mais grave a opcao e a minimizacao deste poremquando a probabilidade de ocorrencia de um tipo de erro diminui a do outroaumenta e vice versa Podemos observar este criterio na seguinte tabela
Nao rejeita rejeitaH0 verdadeira Correto (1 minus α) Erro do tipo I (α)H0 falsa Erro do tipo II (β ) Correto (1minus β )
Castaneda Daniel F N 2013 39
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4043
22 Metodologia 2 R E ECONOMETRIA
228 Regra de Decisao
Os pacotes ou plataformas estatısticas apresentam o valor observado dafuncao pivo e o p minus valor (Area de probabilidade esta relacionada comonıvel de significancia) assim a funcao pivo apresenta o valor numerico nafuncao de densidade da Estatıstica exemplo dentro da densidade da normalQuando o pvalor e menor do que α = 005 no caso do teste unicaudal (eα = 0025 no caso bicaudal) concluımos que nao ha evidencia suficiente paraaceitar H0 Caso contrario se o p minus valor for maior que α = 005 podemosconcluir que nao ha evidencia suficiente para rejeitar H0 Nosso exemplot0 = 2313 gt 1998 (1998 e valor da distribuicao t com 63 gl e nıvel designificancia bicaudal de 005) este valor localiza-se na cauda positiva da
distribuicao com 63 graus de liberdade(n minus 2 = 65 minus 2) Por outro lado o pminus valor lt 0025 por tanto nao ha evidencias para aceitar H0 em favor deaceitar que o coeficiente de inclinacao (ou tangente) e positiva No recorrerdo livro usaremos codigos para as medidas do pminusvalor que em geral apareceem todo comando summary() Como consequencia a linha que aparece aseguir sera excluıda das saıdas do R
Signif codes 0 0001 001 005 01 1
sera interpretada da seguinte maneira
bull 0 significancia menor que 0001
bull 0001 significancia menor que 001
bull 001 significancia menor que 005
bull 005 significancia menor que 01
bull 01 significancia menor que 1
229 Conclusoes
Esta parte do teste de hipoteses e explicada em conjunto O Estatıstico eo Economista que sao os profissionais da area em que as observacoes foramcoletadas decidem sobre as providencias futuras No exemplo podemosafirmar que a cada metro cubico a mais de consumo de agua sera pago emmedia 3 reais a mais No momento este valor pago pode parecer alto poremna falta de este liquido elementar este valor pode aumentar e por tantosofrera mudancas
Castaneda Daniel F N 2013 40
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4143
23 Previs˜ oes 2 R E ECONOMETRIA
23 Previsoes
Muitas vezes estamos interessados em determinar o que acontece quandouma quantidade de consumo de agua em m3 e utilizada e qual o valor pagoem reais Por exemplo se nosso interesse e saber quanto sera pago por 20m3
de consumo de agua em uma residencia A conta a realizar eValor pago = minus12365 + 3007 lowast 20 = 47775 reaisA interpretacao deste valor e em media o valor pago em reais por 20m3 deagua consumida e de aproximadamente 478 reais
231 Resıduos
Uma questao fundamental em econometria e identificar o comportamentodos resıduos de um modelo Considere Y o valor real pago e Y valor pagoestimado a partir de um modelo entao este erro e aleatorio e definido por
ϵi = Y i minus Y i (13)
A abordagem mais formal dos erros e feita nos proximos capıtulosUma questao importante e determinar qual o comportamento da estima-tiva destes erros aos quais chamamos de resıduos Para determinar a nor-malidade dos resıduos realizamos o teste de Jarque Bera com a funcao
jarqueberatest() da biblioteca tseries com o seguinte grafico
minus2 minus1 0 1 2
minus 5
0
5
1 0
resiacuteduos do modelo valor= f(consumo)
Theoretical Quantiles
S a m p l e Q u a n t i l e s
Figura 11 Normalidade dos resıduos
Castaneda Daniel F N 2013 41
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4243
24 Exercıcios REFER ENCIAS
24 Exercıcios
1 Por que a econometria precisa ser uma disciplina autonoma
2 Que e econometria
3 Pesquise dados de corte transversal corte longitudinal e de painel
4 Construa uma metodologia econometrica para o consumo familiar emfuncao da renda familiar (linear)
5 No item anterior e possıvel encontrar uma relacao quadratica
6 Quais sao os pressupostos basicos de um modelo de regressao linear
simples
7 Como e chamado o parametro de inclinacao ou tangente num modelode regressao linear simples em econometria
8 Que e o projeto R
9 R e um programa econometrico
Referencias
[1] Albert Jim (2009) Bayesian computation with R Editora SpringerSecond Edition New York USA
[2] Borde Arvind (1992) TEX by example A beginneracutes guide Ed Aca-demic Press Professional United States of America
[3] Carneiro Orlando (1997) Econometria Bacute asica Teoria e Aplicac˜ oes Editora Atlas Segunda Edicao son Paulo
[4] Conover W J (1999) Practical nonparametric statistics 3ed NewYork
[5] Cribari Neto F (2002) C for Econometricians conputational Econo-
mics 14 p135-149
[6] Dalgaard Peter(2008) Introductory Statistics with R Editora SpringerSecond Edition New York USA
[7] Ehlers Ricardo(2007) Analise de series Temporais Universidade Fe-deral do Parana
Castaneda Daniel F N 2013 42
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4343
REFER ENCIAS REFER ENCIAS
[8] Frery Alejandro Cribari-Neto Francisco(2011)Elementos de
Estatıstica conputacional Usando Plataformas de Software Li-vreGratuito Publicacoes Matematicas Editora IMPA
[9] Gujarati Damodar N (2000) Econometria Bacute asica Makron Books Ter-ceira Edicao son Paulo
[10] Knuth DE (1981)The Art of conputer Programming Third EditionVolume 2 Seminumerical Algorithms Addison-Wesley Publishingconpany Massachusetts
[11] Korgi Rodrigo de Castro (2003) El universo LAT E X Editora Facultadde Ciencias Segunda Edicao Bogota
[12] Krawczyk H How to Predict Congruential Generators InJournal of Algorithms V 13 N 4 1992
[13] LrsquoEcuyer P (2001) Software for uniform random number generationdistinguishing the good and the bad In Proceedings of the 2001 WinterSimulation Conference
[14] Maindonald John Braun W John(2010) Data analysis and graphics using R an example-based approach Cambridge University Press NewYork USA
[15] Mingoti(2005)Analise De Dados Atraves De Metodos De Estatistica Multivariada - Uma Abordagem Aplicada Editora UFMG Belo Hori-zonte
Castaneda Daniel F N 2013 43
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3043
133 Teste F 1 INICIANDO O R
vartest(valor~Construindo)
F test to compare two variances
data valor by Construindo
F = 04834 num df = 47 denom df = 16 p-value = 005478
alternative hypothesis true ratio of variances is not equal to 1
95 percent confidence interval
0194815 1014916
sample estimates
ratio of variances
04834048
Concluımos que nao ha evidencias para rejeitar a hipotese nula por tanto
a variabilidade no valor de consumo e o mesmoO correspondente grafico (Box-plot) e apresentado a seguir
boxplot(valor~Construindo col=8 names=c(n~ao construc~ao construc~ao))
natildeo construccedilatildeo construccedilatildeo
2 0
3 0
4 0
5 0
6 0
7 0
Figura 4 Valor pago em reais no consumo de agua
Em alguns casos ha necessidade de identificar se a variabilidade dasexportacoes e a mesma comparando 2009 e 2010H0 As exportacoes de 2009 e 2010 tem a mesma variabilidade (dados men-sais coletados do site httpwwwipeadatagov)Ha CC
Castaneda Daniel F N 2013 30
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3143
134 Graficos 1 INICIANDO O R
vartest(exp2009exp2010)
F test to compare two variances
data exp2009 and exp2010
F = 03728 num df = 11 denom df = 11 p-value = 01166
alternative hypothesis true ratio of variances is not equal to 1
95 percent confidence interval
01073346 12951624
sample estimates
ratio of variances
03728482
Conclusao Nao houve mudancas na variabilidade das exportacoes de
2009 e 2010
134 Graficos
Considere os dados mensais das exportacoes do Brasil (FOB) durante2009 e 2010 para realizar um grafico de box-plot fazemos
boxplot(exp2009exp2010 main=exportac~oes do Brasil
names=c(20092010))
2009 2010
1 0 0 0 0
1 2 0 0 0
1 4 0 0 0
1 6 0 0 0
1 8 0 0 0
2 0
0 0 0
exportaccedilotildees do Brasil
Figura 5 Exportacoes FOB em dolares
Para o grafico da funcao acumulativa das exportacoes
plot(ecdf(exp2010) dopoint=FALSE verticals=TRUE
lty=3 xlim=c(1000023000))
lines(ecdf(exp2009) dopoint=FALSE verticals=TRUE
col=2)
Castaneda Daniel F N 2013 31
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3243
134 Graficos 1 INICIANDO O R
1 00 00 1 20 00 1 40 00 1 60 00 1 80 00 2 00 00 2 20 00
0 0
0 2
0 4
0 6
0 8
1 0
ecdf(exp2010)
x
F n ( x )
Figura 6 Funcao acumulada das exportacoes 2009-2010
Considere as exportacoes do Brasil um histograma e Q-Q plot sera
hist(exp main=Exportac~oes FOB-US col=8)
qqnorm(exp xlim=c(-55)ylim=c(-100021000))
qqline(exp)
Exportaccedilotildees FOBminusUS$
exp
F r e q u e n c y
0 5000 10000 15000 20000
0
5 0
1 0 0
1 5 0
minus4 minus2 0 2 4
0
5 0 0 0
1 0 0 0 0
1 5 0 0 0
2 0 0 0 0
Normal QminusQ Plot
Theoretical Quantiles
S a m p l e Q u a n t i l e s
Figura 7 Graficos das Exportacoes no Brasil 2001-2010
Para ativar alguns graficos pacotes sao necessarios exemplo
library(MASS)
Castaneda Daniel F N 2013 32
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3343
134 Graficos 1 INICIANDO O R
par(mfrow=c(21))
z = rnorm(500000)
hist(z prob=T)
curve(dnorm(x)add=T)
histscott(z prob=T)
Histogram of z
z
D e n s i t y
minus4 minus2 0 2 4
0 0
0 2
Histogram of x
z
D e n s i t y
minus4 minus2 0 2 4
0 0
0 2
0 4
Figura 8 Histograma de numeros aleatorios normais
boxcox(dist~speed data=cars) transformac~ao Box-Cox
minus2 minus1 0 1 2
minus 4 0 0
minus 3 5 0
minus 3 0 0
minus 2 5 0
λ
l o g minus
L i k e l i h o o d
95
Figura 9 Valor otimo na transformacao Box-Cox
Castaneda Daniel F N 2013 33
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3443
135 Tabelas 1 INICIANDO O R
Para ter um alcance maior sobre a capacidade grafica do R podemos
usar as seguintes funcoes
demo(graphics)
demo(image)
demo(persp)
demo(recursion)
demo(plotmath)
demo(package = packages(allavailable = TRUE))
135 Tabelas
Algumas tabelas estatısticas podem ser construıdas com a funcao table()estado=c(PBPEALSEBAMGESRJPBPEAL
SEBAMGESRJPBPEALSEBAMGESRJ
PBPEALSEBAMGESRJ)
estadof=factor(estado)
estadof
[1] PB PE AL SE BA MG ES RJ PB PE AL SE BA MG ES RJ PB PE AL SE BA
[22] MG ES RJ PB PE AL SE BA MG ES RJ
Levels AL BA ES MG PB PE RJ SE
setseed(10)
salarios=c(round(runif(32)100))
salarios
[1] 51 31 43 69 9 23 27 27 62 43 65 57 11 60 36 43 5 26 40 84 86 62 78 36 41
[26] 71 84 24 77 36 54 9
salariom=tapply(salariosestadofmean)
salariom
AL BA ES MG PB PE RJ SE
5800 4575 4875 4525 3975 4275 2875 5850
salariof=factor(cut(salariosbreaks=0+15(07)))
salariof
[1] (4560] (3045] (3045] (6075] (015] (1530] (1530] (1530] (6075]
[10] (3045] (6075] (4560] (015] (4560] (3045] (3045] (015] (1530]
[19] (3045] (7590] (7590] (6075] (7590] (3045] (3045] (6075] (7590]
[28] (1530] (7590] (3045] (4560] (015]
Levels (015] (1530] (3045] (4560] (6075] (7590]
table(salariofestadof)
estadof
Castaneda Daniel F N 2013 34
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3543
136 Comandos adicionais 2 R E ECONOMETRIA
salariof AL BA ES MG PB PE RJ SE
(015] 0 2 0 0 1 0 1 0
(1530] 0 0 1 1 0 1 1 1
(3045] 2 0 1 1 1 2 2 0
(4560] 0 0 1 1 1 0 0 1
(6075] 1 0 0 1 1 1 0 1
(7590] 1 2 1 0 0 0 0 1
table(salariofestadof)
estadof
salariof AL BA ES MG PB PE RJ SE
(015] 1 1 0 0 1 0 1 2
(1530] 0 0 1 1 0 0 1 1
(3045] 0 0 2 0 0 1 0 0
(4560] 2 0 1 0 0 1 0 0
(6075] 0 1 0 2 3 0 1 0
(7590] 0 1 0 1 0 2 0 1
(90105] 0 1 0 0 0 0 1 0
136 Comandos adicionais
Em situacoes onde a ausencia de informacao ou dados faltantes(missing)as funcoes do R precisam declarar esta ausencia com o comando narm=T
indicando que a informacao apresenta dados faltantes Exemplo
df=c(2NA58NA) O ultimo elemento esta ausente
mean(f) Comando padr~ao para calcular a media
[1] NA
mean(fnarm=T) Comando declarando a ausencia de elementos
[1] 5
2 R e Econometria
Dados economicos precisam de uma atencao matematica para dar fun-
damento a suas teorias Atualmente pelo avanco computacional nao habarreiras para serem aplicadas e torna-se ate divertida se definimos a plata-forma de trabalho computacional A econometria requer de uma abordagemdiferenciada pois faz uso de da teoria economica economia matematica es-tatıstica economica estatıstica matematica e inferencia estatıstica Esta
Castaneda Daniel F N 2013 35
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3643
21 Tipos de Dados 2 R E ECONOMETRIA
disciplina aproxima a Estatıstica da Economia onde a teoria economica for-
mula as hipoteses Por exemplo uma reducao de precos de uma mercadoriadevera aumentar a quantidade demandada dessa mercadoria considerandouma relacao inversa entre preco e quantidade demandada ou a despesa deconsumo per capita depende da renda per capita considerando uma relacaodireta ou seja a medida que a renda aumenta a despesa tende a aumentarOutro exemplo onde consideremos a area microeconomica consumo de aguade uma residencia e o valor pago e natural imaginar que ha uma relacaodireta entre consumo e valor pago pelo consumo Porem precisamos saberqual e quanto e esta forca de relacao por tanto o econometrista forneceesta informacao usando a inferencia estatıstica e a estatıstica economicaAs estimativas de esta relacao fica por conta de estatıstica matematica
Para completar e cerrar este circulo de disciplinas abordadas na Econo-metria precisamos utilizar uma ferramenta de calculo computacional quebrinde estabilidade precisao e rapidez nos seus resultados para superartudo isto utilizaremos o ambiente R A econometria surge como uma disci-plina autonoma em virtude de aglutinar todas estas areas do conhecimentomerecendo um estudo proprio
21 Tipos de Dados
Os tipos de dados sao
1 Dados de corte transversal (cross-section) sao dados de uma ou maisvariaveis coletadas no mesmo ponto do tempo Por exemplo os censosno Brasil sao coletados num instante do tempo No censo variaveisdemograficas sao exploradas como contagem da populacao numerode indivıduos em cada famılia idade dos integrantes da famılia ouvariaveis economicas como renda consumo tipo de moradia (alugadaou propria) etc estes dados sao adquiridas a cada decada pelo IBGE
2 Dados longitudinais ou de series temporais sao caracterizadas porobservacoes ao longo do tempo No Brasil um site que disponibilizadados desta natureza e o IPEADATA
3 Dados de painel e uma mistura de dados de corte transversal e longi-tudinais ou ao longo do tempo estudamos o comportamento de unida-des individuais Por exemplo series mensal do ındice de precos serieanuais do produto interno bruto (PIB) ou serie anual da balanca co-mercial dos municıpios do Brasil considerando cada municıpio comounidades individuais
Castaneda Daniel F N 2013 36
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3743
22 Metodologia 2 R E ECONOMETRIA
22 Metodologia
Os passos da metodologia econometrica tradicional ou classica se iniciadesde a formulacao da hipotese ate as conclusoes em geral sao
221 Hipotese
Como referencia usaremos a hipotese nula H 0 a qual nulifica qualquerdiferenca e a hipoteses alternativa H a aquela que contradiz total ou par-cialmente a hipotese nula Exemplo
1 H 0 nao existe uma relacao entre consumo de agua e valor pago pela
mesma
2 Ha existe uma relacao entre consumo de agua e valor pago pelamesma
A hipotese alternativa pode ser dividida em tres possibilidades no exem-plo do consumo de agua pode ser dividida em existe alguma relacao oua relacao e negativa ou a relacao e positiva A primeira denomina-se dehipotese alternativa com teste bicaudal o segundo de teste unicaudal a es-querda e finalmente o ultimo com teste unicaudal a direita Nosso exemploconsidere H a existe alguma relacao (teste bicaudal)
222 Modelo matematico
Usaremos uma funcao de consumo simples
Y = β 1 + β 2X (11)
A variavel dependente Y valor pago pelo consumo e estimado por Y A variavel independente e X consumo de agua em m3 β 1 representa ovalor pago quando nao ha consumo de agua Nosso interesse e determinara tangente ou a variacao pelo consumo β 2
223 Modelo econometrico do valor pago
O modelo matematico fornece a relacao determinıstica entre valor pagoem reais e consumo de agua porem as relacoes entre as variaveis economicassao em geral inexatas Assim ao longo do tempo no podemos esperar que ovalor pago e o consumo em m3 se situem exatamente numa linha reta isto
Castaneda Daniel F N 2013 37
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3843
22 Metodologia 2 R E ECONOMETRIA
por que alem do consumo outras variaveis afetam o valor pago por exemplo
os dias de consumo o perıodo de reforma da casa ou a inflacao podendoalterar o valor pago pelo consumo
224 Nıvel de significancia
Denominado de α frequentemente usa-se α = 005 em situacoes derisco usa-se α = 001 Em testes bicaudais divide-se α em duas partes elocalizam-se nos extremos da distribuicao de prova Para testes unicaudaislocaliza-se no extremo da distribuicao indicada pela hipotese alternativaNosso exemplo α = 005 e por tanto α2 = 0025
225 Obtencao de Dados
Considere 65 observacoes (mes a mes) do consumo de agua em umaresidencia e o valor pago em reais durante o perıodo de 122005 a 042011Ver dados no apendice A Um plot e apresentado a seguir
10 15 20
2 0
3 0
4 0
5 0
6 0
7 0
Valor pago em reais de consumo de aacutegua
Variaacutevel independenteConsumo em m3
V a r i aacute v e l d e p e n d e n t e V a l o r p a g o
Y = minus12365+3007X
Figura 10 Relacao causal entre consumo e valor pago em reais
Podemos observar visualmente que ha uma relacao positiva entre valorpago e consumo de agua onde a variacao pelo consumo ou variacao dovalor pago (tangente) β 2 cresce positivamente Precisamos verificar se estavariacao β 2 e estatisticamente diferente de zero (significativa)
Castaneda Daniel F N 2013 38
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3943
22 Metodologia 2 R E ECONOMETRIA
226 Estatıstica de prova
Denominada de funcao pivo ou estatıstica de teste No ambito pa-rametrico usa-se as estatısticas t student (amostras pequenas) quando ne grande e indiferente o uso da t student ou normal No exemplo para tes-tar qual a inclinacao da variacao pelo consumo de agua usamos a seguinteestatıstica
t0 =β 2
dp(β 2)asymp tnminus2gl (12)
onde t0 e o valor calculado da estatıstica t β 2 e a estimativa do parametro(variacao pelo consumo) β 2 dp(β 2) e o desvio padrao da estimativa doparametro β 2 o valor t0 segue uma distribuicao t-student com nminus2 graus deliberdade(gl) Os graus de liberdade e calculado diferenciando o tamanhoda amostra com o numero de parametro do modelo (n-p) O valor quantılicotnminus2gl(0025) corresponde a distribuicao t-student com 0025 de significanciacom n minus 2 graus de liberdade e n e o numero total de observacoes Nossoexemplo β 2 = 3007 e dp(β 2) = 013 por tanto t0 = 2313 e comparadocom o valor da tabela da t-student com 63 gl e com α2 = 0025 sendo estevalor igual 19983
227 Tipos de erro
Ocorre o erro tipo I (α) ao se rejeitar a hipotese de nulidade quandodeveria aceita-la Por outro lado quando se aceita a hipotese de nulidadequando deveria rejeita-la comete-se o erro tipo II (β ) Nas duas situacoestomou-se uma decisao errada O interesse e a minimizacao dos erros tipo Ie II que na pratica so e possıvel aumentando-se o tamanho da amostra Porrazoes diversas o aumento do tamanho da amostra muitas vezes torna-se im-praticavel A gravidade do erro tipo I e distinta da do erro tipo II quando seconsegue identificar o erro mais grave a opcao e a minimizacao deste poremquando a probabilidade de ocorrencia de um tipo de erro diminui a do outroaumenta e vice versa Podemos observar este criterio na seguinte tabela
Nao rejeita rejeitaH0 verdadeira Correto (1 minus α) Erro do tipo I (α)H0 falsa Erro do tipo II (β ) Correto (1minus β )
Castaneda Daniel F N 2013 39
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4043
22 Metodologia 2 R E ECONOMETRIA
228 Regra de Decisao
Os pacotes ou plataformas estatısticas apresentam o valor observado dafuncao pivo e o p minus valor (Area de probabilidade esta relacionada comonıvel de significancia) assim a funcao pivo apresenta o valor numerico nafuncao de densidade da Estatıstica exemplo dentro da densidade da normalQuando o pvalor e menor do que α = 005 no caso do teste unicaudal (eα = 0025 no caso bicaudal) concluımos que nao ha evidencia suficiente paraaceitar H0 Caso contrario se o p minus valor for maior que α = 005 podemosconcluir que nao ha evidencia suficiente para rejeitar H0 Nosso exemplot0 = 2313 gt 1998 (1998 e valor da distribuicao t com 63 gl e nıvel designificancia bicaudal de 005) este valor localiza-se na cauda positiva da
distribuicao com 63 graus de liberdade(n minus 2 = 65 minus 2) Por outro lado o pminus valor lt 0025 por tanto nao ha evidencias para aceitar H0 em favor deaceitar que o coeficiente de inclinacao (ou tangente) e positiva No recorrerdo livro usaremos codigos para as medidas do pminusvalor que em geral apareceem todo comando summary() Como consequencia a linha que aparece aseguir sera excluıda das saıdas do R
Signif codes 0 0001 001 005 01 1
sera interpretada da seguinte maneira
bull 0 significancia menor que 0001
bull 0001 significancia menor que 001
bull 001 significancia menor que 005
bull 005 significancia menor que 01
bull 01 significancia menor que 1
229 Conclusoes
Esta parte do teste de hipoteses e explicada em conjunto O Estatıstico eo Economista que sao os profissionais da area em que as observacoes foramcoletadas decidem sobre as providencias futuras No exemplo podemosafirmar que a cada metro cubico a mais de consumo de agua sera pago emmedia 3 reais a mais No momento este valor pago pode parecer alto poremna falta de este liquido elementar este valor pode aumentar e por tantosofrera mudancas
Castaneda Daniel F N 2013 40
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4143
23 Previs˜ oes 2 R E ECONOMETRIA
23 Previsoes
Muitas vezes estamos interessados em determinar o que acontece quandouma quantidade de consumo de agua em m3 e utilizada e qual o valor pagoem reais Por exemplo se nosso interesse e saber quanto sera pago por 20m3
de consumo de agua em uma residencia A conta a realizar eValor pago = minus12365 + 3007 lowast 20 = 47775 reaisA interpretacao deste valor e em media o valor pago em reais por 20m3 deagua consumida e de aproximadamente 478 reais
231 Resıduos
Uma questao fundamental em econometria e identificar o comportamentodos resıduos de um modelo Considere Y o valor real pago e Y valor pagoestimado a partir de um modelo entao este erro e aleatorio e definido por
ϵi = Y i minus Y i (13)
A abordagem mais formal dos erros e feita nos proximos capıtulosUma questao importante e determinar qual o comportamento da estima-tiva destes erros aos quais chamamos de resıduos Para determinar a nor-malidade dos resıduos realizamos o teste de Jarque Bera com a funcao
jarqueberatest() da biblioteca tseries com o seguinte grafico
minus2 minus1 0 1 2
minus 5
0
5
1 0
resiacuteduos do modelo valor= f(consumo)
Theoretical Quantiles
S a m p l e Q u a n t i l e s
Figura 11 Normalidade dos resıduos
Castaneda Daniel F N 2013 41
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4243
24 Exercıcios REFER ENCIAS
24 Exercıcios
1 Por que a econometria precisa ser uma disciplina autonoma
2 Que e econometria
3 Pesquise dados de corte transversal corte longitudinal e de painel
4 Construa uma metodologia econometrica para o consumo familiar emfuncao da renda familiar (linear)
5 No item anterior e possıvel encontrar uma relacao quadratica
6 Quais sao os pressupostos basicos de um modelo de regressao linear
simples
7 Como e chamado o parametro de inclinacao ou tangente num modelode regressao linear simples em econometria
8 Que e o projeto R
9 R e um programa econometrico
Referencias
[1] Albert Jim (2009) Bayesian computation with R Editora SpringerSecond Edition New York USA
[2] Borde Arvind (1992) TEX by example A beginneracutes guide Ed Aca-demic Press Professional United States of America
[3] Carneiro Orlando (1997) Econometria Bacute asica Teoria e Aplicac˜ oes Editora Atlas Segunda Edicao son Paulo
[4] Conover W J (1999) Practical nonparametric statistics 3ed NewYork
[5] Cribari Neto F (2002) C for Econometricians conputational Econo-
mics 14 p135-149
[6] Dalgaard Peter(2008) Introductory Statistics with R Editora SpringerSecond Edition New York USA
[7] Ehlers Ricardo(2007) Analise de series Temporais Universidade Fe-deral do Parana
Castaneda Daniel F N 2013 42
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4343
REFER ENCIAS REFER ENCIAS
[8] Frery Alejandro Cribari-Neto Francisco(2011)Elementos de
Estatıstica conputacional Usando Plataformas de Software Li-vreGratuito Publicacoes Matematicas Editora IMPA
[9] Gujarati Damodar N (2000) Econometria Bacute asica Makron Books Ter-ceira Edicao son Paulo
[10] Knuth DE (1981)The Art of conputer Programming Third EditionVolume 2 Seminumerical Algorithms Addison-Wesley Publishingconpany Massachusetts
[11] Korgi Rodrigo de Castro (2003) El universo LAT E X Editora Facultadde Ciencias Segunda Edicao Bogota
[12] Krawczyk H How to Predict Congruential Generators InJournal of Algorithms V 13 N 4 1992
[13] LrsquoEcuyer P (2001) Software for uniform random number generationdistinguishing the good and the bad In Proceedings of the 2001 WinterSimulation Conference
[14] Maindonald John Braun W John(2010) Data analysis and graphics using R an example-based approach Cambridge University Press NewYork USA
[15] Mingoti(2005)Analise De Dados Atraves De Metodos De Estatistica Multivariada - Uma Abordagem Aplicada Editora UFMG Belo Hori-zonte
Castaneda Daniel F N 2013 43
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3143
134 Graficos 1 INICIANDO O R
vartest(exp2009exp2010)
F test to compare two variances
data exp2009 and exp2010
F = 03728 num df = 11 denom df = 11 p-value = 01166
alternative hypothesis true ratio of variances is not equal to 1
95 percent confidence interval
01073346 12951624
sample estimates
ratio of variances
03728482
Conclusao Nao houve mudancas na variabilidade das exportacoes de
2009 e 2010
134 Graficos
Considere os dados mensais das exportacoes do Brasil (FOB) durante2009 e 2010 para realizar um grafico de box-plot fazemos
boxplot(exp2009exp2010 main=exportac~oes do Brasil
names=c(20092010))
2009 2010
1 0 0 0 0
1 2 0 0 0
1 4 0 0 0
1 6 0 0 0
1 8 0 0 0
2 0
0 0 0
exportaccedilotildees do Brasil
Figura 5 Exportacoes FOB em dolares
Para o grafico da funcao acumulativa das exportacoes
plot(ecdf(exp2010) dopoint=FALSE verticals=TRUE
lty=3 xlim=c(1000023000))
lines(ecdf(exp2009) dopoint=FALSE verticals=TRUE
col=2)
Castaneda Daniel F N 2013 31
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3243
134 Graficos 1 INICIANDO O R
1 00 00 1 20 00 1 40 00 1 60 00 1 80 00 2 00 00 2 20 00
0 0
0 2
0 4
0 6
0 8
1 0
ecdf(exp2010)
x
F n ( x )
Figura 6 Funcao acumulada das exportacoes 2009-2010
Considere as exportacoes do Brasil um histograma e Q-Q plot sera
hist(exp main=Exportac~oes FOB-US col=8)
qqnorm(exp xlim=c(-55)ylim=c(-100021000))
qqline(exp)
Exportaccedilotildees FOBminusUS$
exp
F r e q u e n c y
0 5000 10000 15000 20000
0
5 0
1 0 0
1 5 0
minus4 minus2 0 2 4
0
5 0 0 0
1 0 0 0 0
1 5 0 0 0
2 0 0 0 0
Normal QminusQ Plot
Theoretical Quantiles
S a m p l e Q u a n t i l e s
Figura 7 Graficos das Exportacoes no Brasil 2001-2010
Para ativar alguns graficos pacotes sao necessarios exemplo
library(MASS)
Castaneda Daniel F N 2013 32
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3343
134 Graficos 1 INICIANDO O R
par(mfrow=c(21))
z = rnorm(500000)
hist(z prob=T)
curve(dnorm(x)add=T)
histscott(z prob=T)
Histogram of z
z
D e n s i t y
minus4 minus2 0 2 4
0 0
0 2
Histogram of x
z
D e n s i t y
minus4 minus2 0 2 4
0 0
0 2
0 4
Figura 8 Histograma de numeros aleatorios normais
boxcox(dist~speed data=cars) transformac~ao Box-Cox
minus2 minus1 0 1 2
minus 4 0 0
minus 3 5 0
minus 3 0 0
minus 2 5 0
λ
l o g minus
L i k e l i h o o d
95
Figura 9 Valor otimo na transformacao Box-Cox
Castaneda Daniel F N 2013 33
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3443
135 Tabelas 1 INICIANDO O R
Para ter um alcance maior sobre a capacidade grafica do R podemos
usar as seguintes funcoes
demo(graphics)
demo(image)
demo(persp)
demo(recursion)
demo(plotmath)
demo(package = packages(allavailable = TRUE))
135 Tabelas
Algumas tabelas estatısticas podem ser construıdas com a funcao table()estado=c(PBPEALSEBAMGESRJPBPEAL
SEBAMGESRJPBPEALSEBAMGESRJ
PBPEALSEBAMGESRJ)
estadof=factor(estado)
estadof
[1] PB PE AL SE BA MG ES RJ PB PE AL SE BA MG ES RJ PB PE AL SE BA
[22] MG ES RJ PB PE AL SE BA MG ES RJ
Levels AL BA ES MG PB PE RJ SE
setseed(10)
salarios=c(round(runif(32)100))
salarios
[1] 51 31 43 69 9 23 27 27 62 43 65 57 11 60 36 43 5 26 40 84 86 62 78 36 41
[26] 71 84 24 77 36 54 9
salariom=tapply(salariosestadofmean)
salariom
AL BA ES MG PB PE RJ SE
5800 4575 4875 4525 3975 4275 2875 5850
salariof=factor(cut(salariosbreaks=0+15(07)))
salariof
[1] (4560] (3045] (3045] (6075] (015] (1530] (1530] (1530] (6075]
[10] (3045] (6075] (4560] (015] (4560] (3045] (3045] (015] (1530]
[19] (3045] (7590] (7590] (6075] (7590] (3045] (3045] (6075] (7590]
[28] (1530] (7590] (3045] (4560] (015]
Levels (015] (1530] (3045] (4560] (6075] (7590]
table(salariofestadof)
estadof
Castaneda Daniel F N 2013 34
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3543
136 Comandos adicionais 2 R E ECONOMETRIA
salariof AL BA ES MG PB PE RJ SE
(015] 0 2 0 0 1 0 1 0
(1530] 0 0 1 1 0 1 1 1
(3045] 2 0 1 1 1 2 2 0
(4560] 0 0 1 1 1 0 0 1
(6075] 1 0 0 1 1 1 0 1
(7590] 1 2 1 0 0 0 0 1
table(salariofestadof)
estadof
salariof AL BA ES MG PB PE RJ SE
(015] 1 1 0 0 1 0 1 2
(1530] 0 0 1 1 0 0 1 1
(3045] 0 0 2 0 0 1 0 0
(4560] 2 0 1 0 0 1 0 0
(6075] 0 1 0 2 3 0 1 0
(7590] 0 1 0 1 0 2 0 1
(90105] 0 1 0 0 0 0 1 0
136 Comandos adicionais
Em situacoes onde a ausencia de informacao ou dados faltantes(missing)as funcoes do R precisam declarar esta ausencia com o comando narm=T
indicando que a informacao apresenta dados faltantes Exemplo
df=c(2NA58NA) O ultimo elemento esta ausente
mean(f) Comando padr~ao para calcular a media
[1] NA
mean(fnarm=T) Comando declarando a ausencia de elementos
[1] 5
2 R e Econometria
Dados economicos precisam de uma atencao matematica para dar fun-
damento a suas teorias Atualmente pelo avanco computacional nao habarreiras para serem aplicadas e torna-se ate divertida se definimos a plata-forma de trabalho computacional A econometria requer de uma abordagemdiferenciada pois faz uso de da teoria economica economia matematica es-tatıstica economica estatıstica matematica e inferencia estatıstica Esta
Castaneda Daniel F N 2013 35
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3643
21 Tipos de Dados 2 R E ECONOMETRIA
disciplina aproxima a Estatıstica da Economia onde a teoria economica for-
mula as hipoteses Por exemplo uma reducao de precos de uma mercadoriadevera aumentar a quantidade demandada dessa mercadoria considerandouma relacao inversa entre preco e quantidade demandada ou a despesa deconsumo per capita depende da renda per capita considerando uma relacaodireta ou seja a medida que a renda aumenta a despesa tende a aumentarOutro exemplo onde consideremos a area microeconomica consumo de aguade uma residencia e o valor pago e natural imaginar que ha uma relacaodireta entre consumo e valor pago pelo consumo Porem precisamos saberqual e quanto e esta forca de relacao por tanto o econometrista forneceesta informacao usando a inferencia estatıstica e a estatıstica economicaAs estimativas de esta relacao fica por conta de estatıstica matematica
Para completar e cerrar este circulo de disciplinas abordadas na Econo-metria precisamos utilizar uma ferramenta de calculo computacional quebrinde estabilidade precisao e rapidez nos seus resultados para superartudo isto utilizaremos o ambiente R A econometria surge como uma disci-plina autonoma em virtude de aglutinar todas estas areas do conhecimentomerecendo um estudo proprio
21 Tipos de Dados
Os tipos de dados sao
1 Dados de corte transversal (cross-section) sao dados de uma ou maisvariaveis coletadas no mesmo ponto do tempo Por exemplo os censosno Brasil sao coletados num instante do tempo No censo variaveisdemograficas sao exploradas como contagem da populacao numerode indivıduos em cada famılia idade dos integrantes da famılia ouvariaveis economicas como renda consumo tipo de moradia (alugadaou propria) etc estes dados sao adquiridas a cada decada pelo IBGE
2 Dados longitudinais ou de series temporais sao caracterizadas porobservacoes ao longo do tempo No Brasil um site que disponibilizadados desta natureza e o IPEADATA
3 Dados de painel e uma mistura de dados de corte transversal e longi-tudinais ou ao longo do tempo estudamos o comportamento de unida-des individuais Por exemplo series mensal do ındice de precos serieanuais do produto interno bruto (PIB) ou serie anual da balanca co-mercial dos municıpios do Brasil considerando cada municıpio comounidades individuais
Castaneda Daniel F N 2013 36
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3743
22 Metodologia 2 R E ECONOMETRIA
22 Metodologia
Os passos da metodologia econometrica tradicional ou classica se iniciadesde a formulacao da hipotese ate as conclusoes em geral sao
221 Hipotese
Como referencia usaremos a hipotese nula H 0 a qual nulifica qualquerdiferenca e a hipoteses alternativa H a aquela que contradiz total ou par-cialmente a hipotese nula Exemplo
1 H 0 nao existe uma relacao entre consumo de agua e valor pago pela
mesma
2 Ha existe uma relacao entre consumo de agua e valor pago pelamesma
A hipotese alternativa pode ser dividida em tres possibilidades no exem-plo do consumo de agua pode ser dividida em existe alguma relacao oua relacao e negativa ou a relacao e positiva A primeira denomina-se dehipotese alternativa com teste bicaudal o segundo de teste unicaudal a es-querda e finalmente o ultimo com teste unicaudal a direita Nosso exemploconsidere H a existe alguma relacao (teste bicaudal)
222 Modelo matematico
Usaremos uma funcao de consumo simples
Y = β 1 + β 2X (11)
A variavel dependente Y valor pago pelo consumo e estimado por Y A variavel independente e X consumo de agua em m3 β 1 representa ovalor pago quando nao ha consumo de agua Nosso interesse e determinara tangente ou a variacao pelo consumo β 2
223 Modelo econometrico do valor pago
O modelo matematico fornece a relacao determinıstica entre valor pagoem reais e consumo de agua porem as relacoes entre as variaveis economicassao em geral inexatas Assim ao longo do tempo no podemos esperar que ovalor pago e o consumo em m3 se situem exatamente numa linha reta isto
Castaneda Daniel F N 2013 37
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3843
22 Metodologia 2 R E ECONOMETRIA
por que alem do consumo outras variaveis afetam o valor pago por exemplo
os dias de consumo o perıodo de reforma da casa ou a inflacao podendoalterar o valor pago pelo consumo
224 Nıvel de significancia
Denominado de α frequentemente usa-se α = 005 em situacoes derisco usa-se α = 001 Em testes bicaudais divide-se α em duas partes elocalizam-se nos extremos da distribuicao de prova Para testes unicaudaislocaliza-se no extremo da distribuicao indicada pela hipotese alternativaNosso exemplo α = 005 e por tanto α2 = 0025
225 Obtencao de Dados
Considere 65 observacoes (mes a mes) do consumo de agua em umaresidencia e o valor pago em reais durante o perıodo de 122005 a 042011Ver dados no apendice A Um plot e apresentado a seguir
10 15 20
2 0
3 0
4 0
5 0
6 0
7 0
Valor pago em reais de consumo de aacutegua
Variaacutevel independenteConsumo em m3
V a r i aacute v e l d e p e n d e n t e V a l o r p a g o
Y = minus12365+3007X
Figura 10 Relacao causal entre consumo e valor pago em reais
Podemos observar visualmente que ha uma relacao positiva entre valorpago e consumo de agua onde a variacao pelo consumo ou variacao dovalor pago (tangente) β 2 cresce positivamente Precisamos verificar se estavariacao β 2 e estatisticamente diferente de zero (significativa)
Castaneda Daniel F N 2013 38
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3943
22 Metodologia 2 R E ECONOMETRIA
226 Estatıstica de prova
Denominada de funcao pivo ou estatıstica de teste No ambito pa-rametrico usa-se as estatısticas t student (amostras pequenas) quando ne grande e indiferente o uso da t student ou normal No exemplo para tes-tar qual a inclinacao da variacao pelo consumo de agua usamos a seguinteestatıstica
t0 =β 2
dp(β 2)asymp tnminus2gl (12)
onde t0 e o valor calculado da estatıstica t β 2 e a estimativa do parametro(variacao pelo consumo) β 2 dp(β 2) e o desvio padrao da estimativa doparametro β 2 o valor t0 segue uma distribuicao t-student com nminus2 graus deliberdade(gl) Os graus de liberdade e calculado diferenciando o tamanhoda amostra com o numero de parametro do modelo (n-p) O valor quantılicotnminus2gl(0025) corresponde a distribuicao t-student com 0025 de significanciacom n minus 2 graus de liberdade e n e o numero total de observacoes Nossoexemplo β 2 = 3007 e dp(β 2) = 013 por tanto t0 = 2313 e comparadocom o valor da tabela da t-student com 63 gl e com α2 = 0025 sendo estevalor igual 19983
227 Tipos de erro
Ocorre o erro tipo I (α) ao se rejeitar a hipotese de nulidade quandodeveria aceita-la Por outro lado quando se aceita a hipotese de nulidadequando deveria rejeita-la comete-se o erro tipo II (β ) Nas duas situacoestomou-se uma decisao errada O interesse e a minimizacao dos erros tipo Ie II que na pratica so e possıvel aumentando-se o tamanho da amostra Porrazoes diversas o aumento do tamanho da amostra muitas vezes torna-se im-praticavel A gravidade do erro tipo I e distinta da do erro tipo II quando seconsegue identificar o erro mais grave a opcao e a minimizacao deste poremquando a probabilidade de ocorrencia de um tipo de erro diminui a do outroaumenta e vice versa Podemos observar este criterio na seguinte tabela
Nao rejeita rejeitaH0 verdadeira Correto (1 minus α) Erro do tipo I (α)H0 falsa Erro do tipo II (β ) Correto (1minus β )
Castaneda Daniel F N 2013 39
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4043
22 Metodologia 2 R E ECONOMETRIA
228 Regra de Decisao
Os pacotes ou plataformas estatısticas apresentam o valor observado dafuncao pivo e o p minus valor (Area de probabilidade esta relacionada comonıvel de significancia) assim a funcao pivo apresenta o valor numerico nafuncao de densidade da Estatıstica exemplo dentro da densidade da normalQuando o pvalor e menor do que α = 005 no caso do teste unicaudal (eα = 0025 no caso bicaudal) concluımos que nao ha evidencia suficiente paraaceitar H0 Caso contrario se o p minus valor for maior que α = 005 podemosconcluir que nao ha evidencia suficiente para rejeitar H0 Nosso exemplot0 = 2313 gt 1998 (1998 e valor da distribuicao t com 63 gl e nıvel designificancia bicaudal de 005) este valor localiza-se na cauda positiva da
distribuicao com 63 graus de liberdade(n minus 2 = 65 minus 2) Por outro lado o pminus valor lt 0025 por tanto nao ha evidencias para aceitar H0 em favor deaceitar que o coeficiente de inclinacao (ou tangente) e positiva No recorrerdo livro usaremos codigos para as medidas do pminusvalor que em geral apareceem todo comando summary() Como consequencia a linha que aparece aseguir sera excluıda das saıdas do R
Signif codes 0 0001 001 005 01 1
sera interpretada da seguinte maneira
bull 0 significancia menor que 0001
bull 0001 significancia menor que 001
bull 001 significancia menor que 005
bull 005 significancia menor que 01
bull 01 significancia menor que 1
229 Conclusoes
Esta parte do teste de hipoteses e explicada em conjunto O Estatıstico eo Economista que sao os profissionais da area em que as observacoes foramcoletadas decidem sobre as providencias futuras No exemplo podemosafirmar que a cada metro cubico a mais de consumo de agua sera pago emmedia 3 reais a mais No momento este valor pago pode parecer alto poremna falta de este liquido elementar este valor pode aumentar e por tantosofrera mudancas
Castaneda Daniel F N 2013 40
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4143
23 Previs˜ oes 2 R E ECONOMETRIA
23 Previsoes
Muitas vezes estamos interessados em determinar o que acontece quandouma quantidade de consumo de agua em m3 e utilizada e qual o valor pagoem reais Por exemplo se nosso interesse e saber quanto sera pago por 20m3
de consumo de agua em uma residencia A conta a realizar eValor pago = minus12365 + 3007 lowast 20 = 47775 reaisA interpretacao deste valor e em media o valor pago em reais por 20m3 deagua consumida e de aproximadamente 478 reais
231 Resıduos
Uma questao fundamental em econometria e identificar o comportamentodos resıduos de um modelo Considere Y o valor real pago e Y valor pagoestimado a partir de um modelo entao este erro e aleatorio e definido por
ϵi = Y i minus Y i (13)
A abordagem mais formal dos erros e feita nos proximos capıtulosUma questao importante e determinar qual o comportamento da estima-tiva destes erros aos quais chamamos de resıduos Para determinar a nor-malidade dos resıduos realizamos o teste de Jarque Bera com a funcao
jarqueberatest() da biblioteca tseries com o seguinte grafico
minus2 minus1 0 1 2
minus 5
0
5
1 0
resiacuteduos do modelo valor= f(consumo)
Theoretical Quantiles
S a m p l e Q u a n t i l e s
Figura 11 Normalidade dos resıduos
Castaneda Daniel F N 2013 41
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4243
24 Exercıcios REFER ENCIAS
24 Exercıcios
1 Por que a econometria precisa ser uma disciplina autonoma
2 Que e econometria
3 Pesquise dados de corte transversal corte longitudinal e de painel
4 Construa uma metodologia econometrica para o consumo familiar emfuncao da renda familiar (linear)
5 No item anterior e possıvel encontrar uma relacao quadratica
6 Quais sao os pressupostos basicos de um modelo de regressao linear
simples
7 Como e chamado o parametro de inclinacao ou tangente num modelode regressao linear simples em econometria
8 Que e o projeto R
9 R e um programa econometrico
Referencias
[1] Albert Jim (2009) Bayesian computation with R Editora SpringerSecond Edition New York USA
[2] Borde Arvind (1992) TEX by example A beginneracutes guide Ed Aca-demic Press Professional United States of America
[3] Carneiro Orlando (1997) Econometria Bacute asica Teoria e Aplicac˜ oes Editora Atlas Segunda Edicao son Paulo
[4] Conover W J (1999) Practical nonparametric statistics 3ed NewYork
[5] Cribari Neto F (2002) C for Econometricians conputational Econo-
mics 14 p135-149
[6] Dalgaard Peter(2008) Introductory Statistics with R Editora SpringerSecond Edition New York USA
[7] Ehlers Ricardo(2007) Analise de series Temporais Universidade Fe-deral do Parana
Castaneda Daniel F N 2013 42
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4343
REFER ENCIAS REFER ENCIAS
[8] Frery Alejandro Cribari-Neto Francisco(2011)Elementos de
Estatıstica conputacional Usando Plataformas de Software Li-vreGratuito Publicacoes Matematicas Editora IMPA
[9] Gujarati Damodar N (2000) Econometria Bacute asica Makron Books Ter-ceira Edicao son Paulo
[10] Knuth DE (1981)The Art of conputer Programming Third EditionVolume 2 Seminumerical Algorithms Addison-Wesley Publishingconpany Massachusetts
[11] Korgi Rodrigo de Castro (2003) El universo LAT E X Editora Facultadde Ciencias Segunda Edicao Bogota
[12] Krawczyk H How to Predict Congruential Generators InJournal of Algorithms V 13 N 4 1992
[13] LrsquoEcuyer P (2001) Software for uniform random number generationdistinguishing the good and the bad In Proceedings of the 2001 WinterSimulation Conference
[14] Maindonald John Braun W John(2010) Data analysis and graphics using R an example-based approach Cambridge University Press NewYork USA
[15] Mingoti(2005)Analise De Dados Atraves De Metodos De Estatistica Multivariada - Uma Abordagem Aplicada Editora UFMG Belo Hori-zonte
Castaneda Daniel F N 2013 43
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3243
134 Graficos 1 INICIANDO O R
1 00 00 1 20 00 1 40 00 1 60 00 1 80 00 2 00 00 2 20 00
0 0
0 2
0 4
0 6
0 8
1 0
ecdf(exp2010)
x
F n ( x )
Figura 6 Funcao acumulada das exportacoes 2009-2010
Considere as exportacoes do Brasil um histograma e Q-Q plot sera
hist(exp main=Exportac~oes FOB-US col=8)
qqnorm(exp xlim=c(-55)ylim=c(-100021000))
qqline(exp)
Exportaccedilotildees FOBminusUS$
exp
F r e q u e n c y
0 5000 10000 15000 20000
0
5 0
1 0 0
1 5 0
minus4 minus2 0 2 4
0
5 0 0 0
1 0 0 0 0
1 5 0 0 0
2 0 0 0 0
Normal QminusQ Plot
Theoretical Quantiles
S a m p l e Q u a n t i l e s
Figura 7 Graficos das Exportacoes no Brasil 2001-2010
Para ativar alguns graficos pacotes sao necessarios exemplo
library(MASS)
Castaneda Daniel F N 2013 32
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3343
134 Graficos 1 INICIANDO O R
par(mfrow=c(21))
z = rnorm(500000)
hist(z prob=T)
curve(dnorm(x)add=T)
histscott(z prob=T)
Histogram of z
z
D e n s i t y
minus4 minus2 0 2 4
0 0
0 2
Histogram of x
z
D e n s i t y
minus4 minus2 0 2 4
0 0
0 2
0 4
Figura 8 Histograma de numeros aleatorios normais
boxcox(dist~speed data=cars) transformac~ao Box-Cox
minus2 minus1 0 1 2
minus 4 0 0
minus 3 5 0
minus 3 0 0
minus 2 5 0
λ
l o g minus
L i k e l i h o o d
95
Figura 9 Valor otimo na transformacao Box-Cox
Castaneda Daniel F N 2013 33
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3443
135 Tabelas 1 INICIANDO O R
Para ter um alcance maior sobre a capacidade grafica do R podemos
usar as seguintes funcoes
demo(graphics)
demo(image)
demo(persp)
demo(recursion)
demo(plotmath)
demo(package = packages(allavailable = TRUE))
135 Tabelas
Algumas tabelas estatısticas podem ser construıdas com a funcao table()estado=c(PBPEALSEBAMGESRJPBPEAL
SEBAMGESRJPBPEALSEBAMGESRJ
PBPEALSEBAMGESRJ)
estadof=factor(estado)
estadof
[1] PB PE AL SE BA MG ES RJ PB PE AL SE BA MG ES RJ PB PE AL SE BA
[22] MG ES RJ PB PE AL SE BA MG ES RJ
Levels AL BA ES MG PB PE RJ SE
setseed(10)
salarios=c(round(runif(32)100))
salarios
[1] 51 31 43 69 9 23 27 27 62 43 65 57 11 60 36 43 5 26 40 84 86 62 78 36 41
[26] 71 84 24 77 36 54 9
salariom=tapply(salariosestadofmean)
salariom
AL BA ES MG PB PE RJ SE
5800 4575 4875 4525 3975 4275 2875 5850
salariof=factor(cut(salariosbreaks=0+15(07)))
salariof
[1] (4560] (3045] (3045] (6075] (015] (1530] (1530] (1530] (6075]
[10] (3045] (6075] (4560] (015] (4560] (3045] (3045] (015] (1530]
[19] (3045] (7590] (7590] (6075] (7590] (3045] (3045] (6075] (7590]
[28] (1530] (7590] (3045] (4560] (015]
Levels (015] (1530] (3045] (4560] (6075] (7590]
table(salariofestadof)
estadof
Castaneda Daniel F N 2013 34
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3543
136 Comandos adicionais 2 R E ECONOMETRIA
salariof AL BA ES MG PB PE RJ SE
(015] 0 2 0 0 1 0 1 0
(1530] 0 0 1 1 0 1 1 1
(3045] 2 0 1 1 1 2 2 0
(4560] 0 0 1 1 1 0 0 1
(6075] 1 0 0 1 1 1 0 1
(7590] 1 2 1 0 0 0 0 1
table(salariofestadof)
estadof
salariof AL BA ES MG PB PE RJ SE
(015] 1 1 0 0 1 0 1 2
(1530] 0 0 1 1 0 0 1 1
(3045] 0 0 2 0 0 1 0 0
(4560] 2 0 1 0 0 1 0 0
(6075] 0 1 0 2 3 0 1 0
(7590] 0 1 0 1 0 2 0 1
(90105] 0 1 0 0 0 0 1 0
136 Comandos adicionais
Em situacoes onde a ausencia de informacao ou dados faltantes(missing)as funcoes do R precisam declarar esta ausencia com o comando narm=T
indicando que a informacao apresenta dados faltantes Exemplo
df=c(2NA58NA) O ultimo elemento esta ausente
mean(f) Comando padr~ao para calcular a media
[1] NA
mean(fnarm=T) Comando declarando a ausencia de elementos
[1] 5
2 R e Econometria
Dados economicos precisam de uma atencao matematica para dar fun-
damento a suas teorias Atualmente pelo avanco computacional nao habarreiras para serem aplicadas e torna-se ate divertida se definimos a plata-forma de trabalho computacional A econometria requer de uma abordagemdiferenciada pois faz uso de da teoria economica economia matematica es-tatıstica economica estatıstica matematica e inferencia estatıstica Esta
Castaneda Daniel F N 2013 35
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3643
21 Tipos de Dados 2 R E ECONOMETRIA
disciplina aproxima a Estatıstica da Economia onde a teoria economica for-
mula as hipoteses Por exemplo uma reducao de precos de uma mercadoriadevera aumentar a quantidade demandada dessa mercadoria considerandouma relacao inversa entre preco e quantidade demandada ou a despesa deconsumo per capita depende da renda per capita considerando uma relacaodireta ou seja a medida que a renda aumenta a despesa tende a aumentarOutro exemplo onde consideremos a area microeconomica consumo de aguade uma residencia e o valor pago e natural imaginar que ha uma relacaodireta entre consumo e valor pago pelo consumo Porem precisamos saberqual e quanto e esta forca de relacao por tanto o econometrista forneceesta informacao usando a inferencia estatıstica e a estatıstica economicaAs estimativas de esta relacao fica por conta de estatıstica matematica
Para completar e cerrar este circulo de disciplinas abordadas na Econo-metria precisamos utilizar uma ferramenta de calculo computacional quebrinde estabilidade precisao e rapidez nos seus resultados para superartudo isto utilizaremos o ambiente R A econometria surge como uma disci-plina autonoma em virtude de aglutinar todas estas areas do conhecimentomerecendo um estudo proprio
21 Tipos de Dados
Os tipos de dados sao
1 Dados de corte transversal (cross-section) sao dados de uma ou maisvariaveis coletadas no mesmo ponto do tempo Por exemplo os censosno Brasil sao coletados num instante do tempo No censo variaveisdemograficas sao exploradas como contagem da populacao numerode indivıduos em cada famılia idade dos integrantes da famılia ouvariaveis economicas como renda consumo tipo de moradia (alugadaou propria) etc estes dados sao adquiridas a cada decada pelo IBGE
2 Dados longitudinais ou de series temporais sao caracterizadas porobservacoes ao longo do tempo No Brasil um site que disponibilizadados desta natureza e o IPEADATA
3 Dados de painel e uma mistura de dados de corte transversal e longi-tudinais ou ao longo do tempo estudamos o comportamento de unida-des individuais Por exemplo series mensal do ındice de precos serieanuais do produto interno bruto (PIB) ou serie anual da balanca co-mercial dos municıpios do Brasil considerando cada municıpio comounidades individuais
Castaneda Daniel F N 2013 36
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3743
22 Metodologia 2 R E ECONOMETRIA
22 Metodologia
Os passos da metodologia econometrica tradicional ou classica se iniciadesde a formulacao da hipotese ate as conclusoes em geral sao
221 Hipotese
Como referencia usaremos a hipotese nula H 0 a qual nulifica qualquerdiferenca e a hipoteses alternativa H a aquela que contradiz total ou par-cialmente a hipotese nula Exemplo
1 H 0 nao existe uma relacao entre consumo de agua e valor pago pela
mesma
2 Ha existe uma relacao entre consumo de agua e valor pago pelamesma
A hipotese alternativa pode ser dividida em tres possibilidades no exem-plo do consumo de agua pode ser dividida em existe alguma relacao oua relacao e negativa ou a relacao e positiva A primeira denomina-se dehipotese alternativa com teste bicaudal o segundo de teste unicaudal a es-querda e finalmente o ultimo com teste unicaudal a direita Nosso exemploconsidere H a existe alguma relacao (teste bicaudal)
222 Modelo matematico
Usaremos uma funcao de consumo simples
Y = β 1 + β 2X (11)
A variavel dependente Y valor pago pelo consumo e estimado por Y A variavel independente e X consumo de agua em m3 β 1 representa ovalor pago quando nao ha consumo de agua Nosso interesse e determinara tangente ou a variacao pelo consumo β 2
223 Modelo econometrico do valor pago
O modelo matematico fornece a relacao determinıstica entre valor pagoem reais e consumo de agua porem as relacoes entre as variaveis economicassao em geral inexatas Assim ao longo do tempo no podemos esperar que ovalor pago e o consumo em m3 se situem exatamente numa linha reta isto
Castaneda Daniel F N 2013 37
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3843
22 Metodologia 2 R E ECONOMETRIA
por que alem do consumo outras variaveis afetam o valor pago por exemplo
os dias de consumo o perıodo de reforma da casa ou a inflacao podendoalterar o valor pago pelo consumo
224 Nıvel de significancia
Denominado de α frequentemente usa-se α = 005 em situacoes derisco usa-se α = 001 Em testes bicaudais divide-se α em duas partes elocalizam-se nos extremos da distribuicao de prova Para testes unicaudaislocaliza-se no extremo da distribuicao indicada pela hipotese alternativaNosso exemplo α = 005 e por tanto α2 = 0025
225 Obtencao de Dados
Considere 65 observacoes (mes a mes) do consumo de agua em umaresidencia e o valor pago em reais durante o perıodo de 122005 a 042011Ver dados no apendice A Um plot e apresentado a seguir
10 15 20
2 0
3 0
4 0
5 0
6 0
7 0
Valor pago em reais de consumo de aacutegua
Variaacutevel independenteConsumo em m3
V a r i aacute v e l d e p e n d e n t e V a l o r p a g o
Y = minus12365+3007X
Figura 10 Relacao causal entre consumo e valor pago em reais
Podemos observar visualmente que ha uma relacao positiva entre valorpago e consumo de agua onde a variacao pelo consumo ou variacao dovalor pago (tangente) β 2 cresce positivamente Precisamos verificar se estavariacao β 2 e estatisticamente diferente de zero (significativa)
Castaneda Daniel F N 2013 38
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3943
22 Metodologia 2 R E ECONOMETRIA
226 Estatıstica de prova
Denominada de funcao pivo ou estatıstica de teste No ambito pa-rametrico usa-se as estatısticas t student (amostras pequenas) quando ne grande e indiferente o uso da t student ou normal No exemplo para tes-tar qual a inclinacao da variacao pelo consumo de agua usamos a seguinteestatıstica
t0 =β 2
dp(β 2)asymp tnminus2gl (12)
onde t0 e o valor calculado da estatıstica t β 2 e a estimativa do parametro(variacao pelo consumo) β 2 dp(β 2) e o desvio padrao da estimativa doparametro β 2 o valor t0 segue uma distribuicao t-student com nminus2 graus deliberdade(gl) Os graus de liberdade e calculado diferenciando o tamanhoda amostra com o numero de parametro do modelo (n-p) O valor quantılicotnminus2gl(0025) corresponde a distribuicao t-student com 0025 de significanciacom n minus 2 graus de liberdade e n e o numero total de observacoes Nossoexemplo β 2 = 3007 e dp(β 2) = 013 por tanto t0 = 2313 e comparadocom o valor da tabela da t-student com 63 gl e com α2 = 0025 sendo estevalor igual 19983
227 Tipos de erro
Ocorre o erro tipo I (α) ao se rejeitar a hipotese de nulidade quandodeveria aceita-la Por outro lado quando se aceita a hipotese de nulidadequando deveria rejeita-la comete-se o erro tipo II (β ) Nas duas situacoestomou-se uma decisao errada O interesse e a minimizacao dos erros tipo Ie II que na pratica so e possıvel aumentando-se o tamanho da amostra Porrazoes diversas o aumento do tamanho da amostra muitas vezes torna-se im-praticavel A gravidade do erro tipo I e distinta da do erro tipo II quando seconsegue identificar o erro mais grave a opcao e a minimizacao deste poremquando a probabilidade de ocorrencia de um tipo de erro diminui a do outroaumenta e vice versa Podemos observar este criterio na seguinte tabela
Nao rejeita rejeitaH0 verdadeira Correto (1 minus α) Erro do tipo I (α)H0 falsa Erro do tipo II (β ) Correto (1minus β )
Castaneda Daniel F N 2013 39
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4043
22 Metodologia 2 R E ECONOMETRIA
228 Regra de Decisao
Os pacotes ou plataformas estatısticas apresentam o valor observado dafuncao pivo e o p minus valor (Area de probabilidade esta relacionada comonıvel de significancia) assim a funcao pivo apresenta o valor numerico nafuncao de densidade da Estatıstica exemplo dentro da densidade da normalQuando o pvalor e menor do que α = 005 no caso do teste unicaudal (eα = 0025 no caso bicaudal) concluımos que nao ha evidencia suficiente paraaceitar H0 Caso contrario se o p minus valor for maior que α = 005 podemosconcluir que nao ha evidencia suficiente para rejeitar H0 Nosso exemplot0 = 2313 gt 1998 (1998 e valor da distribuicao t com 63 gl e nıvel designificancia bicaudal de 005) este valor localiza-se na cauda positiva da
distribuicao com 63 graus de liberdade(n minus 2 = 65 minus 2) Por outro lado o pminus valor lt 0025 por tanto nao ha evidencias para aceitar H0 em favor deaceitar que o coeficiente de inclinacao (ou tangente) e positiva No recorrerdo livro usaremos codigos para as medidas do pminusvalor que em geral apareceem todo comando summary() Como consequencia a linha que aparece aseguir sera excluıda das saıdas do R
Signif codes 0 0001 001 005 01 1
sera interpretada da seguinte maneira
bull 0 significancia menor que 0001
bull 0001 significancia menor que 001
bull 001 significancia menor que 005
bull 005 significancia menor que 01
bull 01 significancia menor que 1
229 Conclusoes
Esta parte do teste de hipoteses e explicada em conjunto O Estatıstico eo Economista que sao os profissionais da area em que as observacoes foramcoletadas decidem sobre as providencias futuras No exemplo podemosafirmar que a cada metro cubico a mais de consumo de agua sera pago emmedia 3 reais a mais No momento este valor pago pode parecer alto poremna falta de este liquido elementar este valor pode aumentar e por tantosofrera mudancas
Castaneda Daniel F N 2013 40
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4143
23 Previs˜ oes 2 R E ECONOMETRIA
23 Previsoes
Muitas vezes estamos interessados em determinar o que acontece quandouma quantidade de consumo de agua em m3 e utilizada e qual o valor pagoem reais Por exemplo se nosso interesse e saber quanto sera pago por 20m3
de consumo de agua em uma residencia A conta a realizar eValor pago = minus12365 + 3007 lowast 20 = 47775 reaisA interpretacao deste valor e em media o valor pago em reais por 20m3 deagua consumida e de aproximadamente 478 reais
231 Resıduos
Uma questao fundamental em econometria e identificar o comportamentodos resıduos de um modelo Considere Y o valor real pago e Y valor pagoestimado a partir de um modelo entao este erro e aleatorio e definido por
ϵi = Y i minus Y i (13)
A abordagem mais formal dos erros e feita nos proximos capıtulosUma questao importante e determinar qual o comportamento da estima-tiva destes erros aos quais chamamos de resıduos Para determinar a nor-malidade dos resıduos realizamos o teste de Jarque Bera com a funcao
jarqueberatest() da biblioteca tseries com o seguinte grafico
minus2 minus1 0 1 2
minus 5
0
5
1 0
resiacuteduos do modelo valor= f(consumo)
Theoretical Quantiles
S a m p l e Q u a n t i l e s
Figura 11 Normalidade dos resıduos
Castaneda Daniel F N 2013 41
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4243
24 Exercıcios REFER ENCIAS
24 Exercıcios
1 Por que a econometria precisa ser uma disciplina autonoma
2 Que e econometria
3 Pesquise dados de corte transversal corte longitudinal e de painel
4 Construa uma metodologia econometrica para o consumo familiar emfuncao da renda familiar (linear)
5 No item anterior e possıvel encontrar uma relacao quadratica
6 Quais sao os pressupostos basicos de um modelo de regressao linear
simples
7 Como e chamado o parametro de inclinacao ou tangente num modelode regressao linear simples em econometria
8 Que e o projeto R
9 R e um programa econometrico
Referencias
[1] Albert Jim (2009) Bayesian computation with R Editora SpringerSecond Edition New York USA
[2] Borde Arvind (1992) TEX by example A beginneracutes guide Ed Aca-demic Press Professional United States of America
[3] Carneiro Orlando (1997) Econometria Bacute asica Teoria e Aplicac˜ oes Editora Atlas Segunda Edicao son Paulo
[4] Conover W J (1999) Practical nonparametric statistics 3ed NewYork
[5] Cribari Neto F (2002) C for Econometricians conputational Econo-
mics 14 p135-149
[6] Dalgaard Peter(2008) Introductory Statistics with R Editora SpringerSecond Edition New York USA
[7] Ehlers Ricardo(2007) Analise de series Temporais Universidade Fe-deral do Parana
Castaneda Daniel F N 2013 42
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4343
REFER ENCIAS REFER ENCIAS
[8] Frery Alejandro Cribari-Neto Francisco(2011)Elementos de
Estatıstica conputacional Usando Plataformas de Software Li-vreGratuito Publicacoes Matematicas Editora IMPA
[9] Gujarati Damodar N (2000) Econometria Bacute asica Makron Books Ter-ceira Edicao son Paulo
[10] Knuth DE (1981)The Art of conputer Programming Third EditionVolume 2 Seminumerical Algorithms Addison-Wesley Publishingconpany Massachusetts
[11] Korgi Rodrigo de Castro (2003) El universo LAT E X Editora Facultadde Ciencias Segunda Edicao Bogota
[12] Krawczyk H How to Predict Congruential Generators InJournal of Algorithms V 13 N 4 1992
[13] LrsquoEcuyer P (2001) Software for uniform random number generationdistinguishing the good and the bad In Proceedings of the 2001 WinterSimulation Conference
[14] Maindonald John Braun W John(2010) Data analysis and graphics using R an example-based approach Cambridge University Press NewYork USA
[15] Mingoti(2005)Analise De Dados Atraves De Metodos De Estatistica Multivariada - Uma Abordagem Aplicada Editora UFMG Belo Hori-zonte
Castaneda Daniel F N 2013 43
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3343
134 Graficos 1 INICIANDO O R
par(mfrow=c(21))
z = rnorm(500000)
hist(z prob=T)
curve(dnorm(x)add=T)
histscott(z prob=T)
Histogram of z
z
D e n s i t y
minus4 minus2 0 2 4
0 0
0 2
Histogram of x
z
D e n s i t y
minus4 minus2 0 2 4
0 0
0 2
0 4
Figura 8 Histograma de numeros aleatorios normais
boxcox(dist~speed data=cars) transformac~ao Box-Cox
minus2 minus1 0 1 2
minus 4 0 0
minus 3 5 0
minus 3 0 0
minus 2 5 0
λ
l o g minus
L i k e l i h o o d
95
Figura 9 Valor otimo na transformacao Box-Cox
Castaneda Daniel F N 2013 33
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3443
135 Tabelas 1 INICIANDO O R
Para ter um alcance maior sobre a capacidade grafica do R podemos
usar as seguintes funcoes
demo(graphics)
demo(image)
demo(persp)
demo(recursion)
demo(plotmath)
demo(package = packages(allavailable = TRUE))
135 Tabelas
Algumas tabelas estatısticas podem ser construıdas com a funcao table()estado=c(PBPEALSEBAMGESRJPBPEAL
SEBAMGESRJPBPEALSEBAMGESRJ
PBPEALSEBAMGESRJ)
estadof=factor(estado)
estadof
[1] PB PE AL SE BA MG ES RJ PB PE AL SE BA MG ES RJ PB PE AL SE BA
[22] MG ES RJ PB PE AL SE BA MG ES RJ
Levels AL BA ES MG PB PE RJ SE
setseed(10)
salarios=c(round(runif(32)100))
salarios
[1] 51 31 43 69 9 23 27 27 62 43 65 57 11 60 36 43 5 26 40 84 86 62 78 36 41
[26] 71 84 24 77 36 54 9
salariom=tapply(salariosestadofmean)
salariom
AL BA ES MG PB PE RJ SE
5800 4575 4875 4525 3975 4275 2875 5850
salariof=factor(cut(salariosbreaks=0+15(07)))
salariof
[1] (4560] (3045] (3045] (6075] (015] (1530] (1530] (1530] (6075]
[10] (3045] (6075] (4560] (015] (4560] (3045] (3045] (015] (1530]
[19] (3045] (7590] (7590] (6075] (7590] (3045] (3045] (6075] (7590]
[28] (1530] (7590] (3045] (4560] (015]
Levels (015] (1530] (3045] (4560] (6075] (7590]
table(salariofestadof)
estadof
Castaneda Daniel F N 2013 34
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3543
136 Comandos adicionais 2 R E ECONOMETRIA
salariof AL BA ES MG PB PE RJ SE
(015] 0 2 0 0 1 0 1 0
(1530] 0 0 1 1 0 1 1 1
(3045] 2 0 1 1 1 2 2 0
(4560] 0 0 1 1 1 0 0 1
(6075] 1 0 0 1 1 1 0 1
(7590] 1 2 1 0 0 0 0 1
table(salariofestadof)
estadof
salariof AL BA ES MG PB PE RJ SE
(015] 1 1 0 0 1 0 1 2
(1530] 0 0 1 1 0 0 1 1
(3045] 0 0 2 0 0 1 0 0
(4560] 2 0 1 0 0 1 0 0
(6075] 0 1 0 2 3 0 1 0
(7590] 0 1 0 1 0 2 0 1
(90105] 0 1 0 0 0 0 1 0
136 Comandos adicionais
Em situacoes onde a ausencia de informacao ou dados faltantes(missing)as funcoes do R precisam declarar esta ausencia com o comando narm=T
indicando que a informacao apresenta dados faltantes Exemplo
df=c(2NA58NA) O ultimo elemento esta ausente
mean(f) Comando padr~ao para calcular a media
[1] NA
mean(fnarm=T) Comando declarando a ausencia de elementos
[1] 5
2 R e Econometria
Dados economicos precisam de uma atencao matematica para dar fun-
damento a suas teorias Atualmente pelo avanco computacional nao habarreiras para serem aplicadas e torna-se ate divertida se definimos a plata-forma de trabalho computacional A econometria requer de uma abordagemdiferenciada pois faz uso de da teoria economica economia matematica es-tatıstica economica estatıstica matematica e inferencia estatıstica Esta
Castaneda Daniel F N 2013 35
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3643
21 Tipos de Dados 2 R E ECONOMETRIA
disciplina aproxima a Estatıstica da Economia onde a teoria economica for-
mula as hipoteses Por exemplo uma reducao de precos de uma mercadoriadevera aumentar a quantidade demandada dessa mercadoria considerandouma relacao inversa entre preco e quantidade demandada ou a despesa deconsumo per capita depende da renda per capita considerando uma relacaodireta ou seja a medida que a renda aumenta a despesa tende a aumentarOutro exemplo onde consideremos a area microeconomica consumo de aguade uma residencia e o valor pago e natural imaginar que ha uma relacaodireta entre consumo e valor pago pelo consumo Porem precisamos saberqual e quanto e esta forca de relacao por tanto o econometrista forneceesta informacao usando a inferencia estatıstica e a estatıstica economicaAs estimativas de esta relacao fica por conta de estatıstica matematica
Para completar e cerrar este circulo de disciplinas abordadas na Econo-metria precisamos utilizar uma ferramenta de calculo computacional quebrinde estabilidade precisao e rapidez nos seus resultados para superartudo isto utilizaremos o ambiente R A econometria surge como uma disci-plina autonoma em virtude de aglutinar todas estas areas do conhecimentomerecendo um estudo proprio
21 Tipos de Dados
Os tipos de dados sao
1 Dados de corte transversal (cross-section) sao dados de uma ou maisvariaveis coletadas no mesmo ponto do tempo Por exemplo os censosno Brasil sao coletados num instante do tempo No censo variaveisdemograficas sao exploradas como contagem da populacao numerode indivıduos em cada famılia idade dos integrantes da famılia ouvariaveis economicas como renda consumo tipo de moradia (alugadaou propria) etc estes dados sao adquiridas a cada decada pelo IBGE
2 Dados longitudinais ou de series temporais sao caracterizadas porobservacoes ao longo do tempo No Brasil um site que disponibilizadados desta natureza e o IPEADATA
3 Dados de painel e uma mistura de dados de corte transversal e longi-tudinais ou ao longo do tempo estudamos o comportamento de unida-des individuais Por exemplo series mensal do ındice de precos serieanuais do produto interno bruto (PIB) ou serie anual da balanca co-mercial dos municıpios do Brasil considerando cada municıpio comounidades individuais
Castaneda Daniel F N 2013 36
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3743
22 Metodologia 2 R E ECONOMETRIA
22 Metodologia
Os passos da metodologia econometrica tradicional ou classica se iniciadesde a formulacao da hipotese ate as conclusoes em geral sao
221 Hipotese
Como referencia usaremos a hipotese nula H 0 a qual nulifica qualquerdiferenca e a hipoteses alternativa H a aquela que contradiz total ou par-cialmente a hipotese nula Exemplo
1 H 0 nao existe uma relacao entre consumo de agua e valor pago pela
mesma
2 Ha existe uma relacao entre consumo de agua e valor pago pelamesma
A hipotese alternativa pode ser dividida em tres possibilidades no exem-plo do consumo de agua pode ser dividida em existe alguma relacao oua relacao e negativa ou a relacao e positiva A primeira denomina-se dehipotese alternativa com teste bicaudal o segundo de teste unicaudal a es-querda e finalmente o ultimo com teste unicaudal a direita Nosso exemploconsidere H a existe alguma relacao (teste bicaudal)
222 Modelo matematico
Usaremos uma funcao de consumo simples
Y = β 1 + β 2X (11)
A variavel dependente Y valor pago pelo consumo e estimado por Y A variavel independente e X consumo de agua em m3 β 1 representa ovalor pago quando nao ha consumo de agua Nosso interesse e determinara tangente ou a variacao pelo consumo β 2
223 Modelo econometrico do valor pago
O modelo matematico fornece a relacao determinıstica entre valor pagoem reais e consumo de agua porem as relacoes entre as variaveis economicassao em geral inexatas Assim ao longo do tempo no podemos esperar que ovalor pago e o consumo em m3 se situem exatamente numa linha reta isto
Castaneda Daniel F N 2013 37
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3843
22 Metodologia 2 R E ECONOMETRIA
por que alem do consumo outras variaveis afetam o valor pago por exemplo
os dias de consumo o perıodo de reforma da casa ou a inflacao podendoalterar o valor pago pelo consumo
224 Nıvel de significancia
Denominado de α frequentemente usa-se α = 005 em situacoes derisco usa-se α = 001 Em testes bicaudais divide-se α em duas partes elocalizam-se nos extremos da distribuicao de prova Para testes unicaudaislocaliza-se no extremo da distribuicao indicada pela hipotese alternativaNosso exemplo α = 005 e por tanto α2 = 0025
225 Obtencao de Dados
Considere 65 observacoes (mes a mes) do consumo de agua em umaresidencia e o valor pago em reais durante o perıodo de 122005 a 042011Ver dados no apendice A Um plot e apresentado a seguir
10 15 20
2 0
3 0
4 0
5 0
6 0
7 0
Valor pago em reais de consumo de aacutegua
Variaacutevel independenteConsumo em m3
V a r i aacute v e l d e p e n d e n t e V a l o r p a g o
Y = minus12365+3007X
Figura 10 Relacao causal entre consumo e valor pago em reais
Podemos observar visualmente que ha uma relacao positiva entre valorpago e consumo de agua onde a variacao pelo consumo ou variacao dovalor pago (tangente) β 2 cresce positivamente Precisamos verificar se estavariacao β 2 e estatisticamente diferente de zero (significativa)
Castaneda Daniel F N 2013 38
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3943
22 Metodologia 2 R E ECONOMETRIA
226 Estatıstica de prova
Denominada de funcao pivo ou estatıstica de teste No ambito pa-rametrico usa-se as estatısticas t student (amostras pequenas) quando ne grande e indiferente o uso da t student ou normal No exemplo para tes-tar qual a inclinacao da variacao pelo consumo de agua usamos a seguinteestatıstica
t0 =β 2
dp(β 2)asymp tnminus2gl (12)
onde t0 e o valor calculado da estatıstica t β 2 e a estimativa do parametro(variacao pelo consumo) β 2 dp(β 2) e o desvio padrao da estimativa doparametro β 2 o valor t0 segue uma distribuicao t-student com nminus2 graus deliberdade(gl) Os graus de liberdade e calculado diferenciando o tamanhoda amostra com o numero de parametro do modelo (n-p) O valor quantılicotnminus2gl(0025) corresponde a distribuicao t-student com 0025 de significanciacom n minus 2 graus de liberdade e n e o numero total de observacoes Nossoexemplo β 2 = 3007 e dp(β 2) = 013 por tanto t0 = 2313 e comparadocom o valor da tabela da t-student com 63 gl e com α2 = 0025 sendo estevalor igual 19983
227 Tipos de erro
Ocorre o erro tipo I (α) ao se rejeitar a hipotese de nulidade quandodeveria aceita-la Por outro lado quando se aceita a hipotese de nulidadequando deveria rejeita-la comete-se o erro tipo II (β ) Nas duas situacoestomou-se uma decisao errada O interesse e a minimizacao dos erros tipo Ie II que na pratica so e possıvel aumentando-se o tamanho da amostra Porrazoes diversas o aumento do tamanho da amostra muitas vezes torna-se im-praticavel A gravidade do erro tipo I e distinta da do erro tipo II quando seconsegue identificar o erro mais grave a opcao e a minimizacao deste poremquando a probabilidade de ocorrencia de um tipo de erro diminui a do outroaumenta e vice versa Podemos observar este criterio na seguinte tabela
Nao rejeita rejeitaH0 verdadeira Correto (1 minus α) Erro do tipo I (α)H0 falsa Erro do tipo II (β ) Correto (1minus β )
Castaneda Daniel F N 2013 39
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4043
22 Metodologia 2 R E ECONOMETRIA
228 Regra de Decisao
Os pacotes ou plataformas estatısticas apresentam o valor observado dafuncao pivo e o p minus valor (Area de probabilidade esta relacionada comonıvel de significancia) assim a funcao pivo apresenta o valor numerico nafuncao de densidade da Estatıstica exemplo dentro da densidade da normalQuando o pvalor e menor do que α = 005 no caso do teste unicaudal (eα = 0025 no caso bicaudal) concluımos que nao ha evidencia suficiente paraaceitar H0 Caso contrario se o p minus valor for maior que α = 005 podemosconcluir que nao ha evidencia suficiente para rejeitar H0 Nosso exemplot0 = 2313 gt 1998 (1998 e valor da distribuicao t com 63 gl e nıvel designificancia bicaudal de 005) este valor localiza-se na cauda positiva da
distribuicao com 63 graus de liberdade(n minus 2 = 65 minus 2) Por outro lado o pminus valor lt 0025 por tanto nao ha evidencias para aceitar H0 em favor deaceitar que o coeficiente de inclinacao (ou tangente) e positiva No recorrerdo livro usaremos codigos para as medidas do pminusvalor que em geral apareceem todo comando summary() Como consequencia a linha que aparece aseguir sera excluıda das saıdas do R
Signif codes 0 0001 001 005 01 1
sera interpretada da seguinte maneira
bull 0 significancia menor que 0001
bull 0001 significancia menor que 001
bull 001 significancia menor que 005
bull 005 significancia menor que 01
bull 01 significancia menor que 1
229 Conclusoes
Esta parte do teste de hipoteses e explicada em conjunto O Estatıstico eo Economista que sao os profissionais da area em que as observacoes foramcoletadas decidem sobre as providencias futuras No exemplo podemosafirmar que a cada metro cubico a mais de consumo de agua sera pago emmedia 3 reais a mais No momento este valor pago pode parecer alto poremna falta de este liquido elementar este valor pode aumentar e por tantosofrera mudancas
Castaneda Daniel F N 2013 40
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4143
23 Previs˜ oes 2 R E ECONOMETRIA
23 Previsoes
Muitas vezes estamos interessados em determinar o que acontece quandouma quantidade de consumo de agua em m3 e utilizada e qual o valor pagoem reais Por exemplo se nosso interesse e saber quanto sera pago por 20m3
de consumo de agua em uma residencia A conta a realizar eValor pago = minus12365 + 3007 lowast 20 = 47775 reaisA interpretacao deste valor e em media o valor pago em reais por 20m3 deagua consumida e de aproximadamente 478 reais
231 Resıduos
Uma questao fundamental em econometria e identificar o comportamentodos resıduos de um modelo Considere Y o valor real pago e Y valor pagoestimado a partir de um modelo entao este erro e aleatorio e definido por
ϵi = Y i minus Y i (13)
A abordagem mais formal dos erros e feita nos proximos capıtulosUma questao importante e determinar qual o comportamento da estima-tiva destes erros aos quais chamamos de resıduos Para determinar a nor-malidade dos resıduos realizamos o teste de Jarque Bera com a funcao
jarqueberatest() da biblioteca tseries com o seguinte grafico
minus2 minus1 0 1 2
minus 5
0
5
1 0
resiacuteduos do modelo valor= f(consumo)
Theoretical Quantiles
S a m p l e Q u a n t i l e s
Figura 11 Normalidade dos resıduos
Castaneda Daniel F N 2013 41
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4243
24 Exercıcios REFER ENCIAS
24 Exercıcios
1 Por que a econometria precisa ser uma disciplina autonoma
2 Que e econometria
3 Pesquise dados de corte transversal corte longitudinal e de painel
4 Construa uma metodologia econometrica para o consumo familiar emfuncao da renda familiar (linear)
5 No item anterior e possıvel encontrar uma relacao quadratica
6 Quais sao os pressupostos basicos de um modelo de regressao linear
simples
7 Como e chamado o parametro de inclinacao ou tangente num modelode regressao linear simples em econometria
8 Que e o projeto R
9 R e um programa econometrico
Referencias
[1] Albert Jim (2009) Bayesian computation with R Editora SpringerSecond Edition New York USA
[2] Borde Arvind (1992) TEX by example A beginneracutes guide Ed Aca-demic Press Professional United States of America
[3] Carneiro Orlando (1997) Econometria Bacute asica Teoria e Aplicac˜ oes Editora Atlas Segunda Edicao son Paulo
[4] Conover W J (1999) Practical nonparametric statistics 3ed NewYork
[5] Cribari Neto F (2002) C for Econometricians conputational Econo-
mics 14 p135-149
[6] Dalgaard Peter(2008) Introductory Statistics with R Editora SpringerSecond Edition New York USA
[7] Ehlers Ricardo(2007) Analise de series Temporais Universidade Fe-deral do Parana
Castaneda Daniel F N 2013 42
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4343
REFER ENCIAS REFER ENCIAS
[8] Frery Alejandro Cribari-Neto Francisco(2011)Elementos de
Estatıstica conputacional Usando Plataformas de Software Li-vreGratuito Publicacoes Matematicas Editora IMPA
[9] Gujarati Damodar N (2000) Econometria Bacute asica Makron Books Ter-ceira Edicao son Paulo
[10] Knuth DE (1981)The Art of conputer Programming Third EditionVolume 2 Seminumerical Algorithms Addison-Wesley Publishingconpany Massachusetts
[11] Korgi Rodrigo de Castro (2003) El universo LAT E X Editora Facultadde Ciencias Segunda Edicao Bogota
[12] Krawczyk H How to Predict Congruential Generators InJournal of Algorithms V 13 N 4 1992
[13] LrsquoEcuyer P (2001) Software for uniform random number generationdistinguishing the good and the bad In Proceedings of the 2001 WinterSimulation Conference
[14] Maindonald John Braun W John(2010) Data analysis and graphics using R an example-based approach Cambridge University Press NewYork USA
[15] Mingoti(2005)Analise De Dados Atraves De Metodos De Estatistica Multivariada - Uma Abordagem Aplicada Editora UFMG Belo Hori-zonte
Castaneda Daniel F N 2013 43
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3443
135 Tabelas 1 INICIANDO O R
Para ter um alcance maior sobre a capacidade grafica do R podemos
usar as seguintes funcoes
demo(graphics)
demo(image)
demo(persp)
demo(recursion)
demo(plotmath)
demo(package = packages(allavailable = TRUE))
135 Tabelas
Algumas tabelas estatısticas podem ser construıdas com a funcao table()estado=c(PBPEALSEBAMGESRJPBPEAL
SEBAMGESRJPBPEALSEBAMGESRJ
PBPEALSEBAMGESRJ)
estadof=factor(estado)
estadof
[1] PB PE AL SE BA MG ES RJ PB PE AL SE BA MG ES RJ PB PE AL SE BA
[22] MG ES RJ PB PE AL SE BA MG ES RJ
Levels AL BA ES MG PB PE RJ SE
setseed(10)
salarios=c(round(runif(32)100))
salarios
[1] 51 31 43 69 9 23 27 27 62 43 65 57 11 60 36 43 5 26 40 84 86 62 78 36 41
[26] 71 84 24 77 36 54 9
salariom=tapply(salariosestadofmean)
salariom
AL BA ES MG PB PE RJ SE
5800 4575 4875 4525 3975 4275 2875 5850
salariof=factor(cut(salariosbreaks=0+15(07)))
salariof
[1] (4560] (3045] (3045] (6075] (015] (1530] (1530] (1530] (6075]
[10] (3045] (6075] (4560] (015] (4560] (3045] (3045] (015] (1530]
[19] (3045] (7590] (7590] (6075] (7590] (3045] (3045] (6075] (7590]
[28] (1530] (7590] (3045] (4560] (015]
Levels (015] (1530] (3045] (4560] (6075] (7590]
table(salariofestadof)
estadof
Castaneda Daniel F N 2013 34
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3543
136 Comandos adicionais 2 R E ECONOMETRIA
salariof AL BA ES MG PB PE RJ SE
(015] 0 2 0 0 1 0 1 0
(1530] 0 0 1 1 0 1 1 1
(3045] 2 0 1 1 1 2 2 0
(4560] 0 0 1 1 1 0 0 1
(6075] 1 0 0 1 1 1 0 1
(7590] 1 2 1 0 0 0 0 1
table(salariofestadof)
estadof
salariof AL BA ES MG PB PE RJ SE
(015] 1 1 0 0 1 0 1 2
(1530] 0 0 1 1 0 0 1 1
(3045] 0 0 2 0 0 1 0 0
(4560] 2 0 1 0 0 1 0 0
(6075] 0 1 0 2 3 0 1 0
(7590] 0 1 0 1 0 2 0 1
(90105] 0 1 0 0 0 0 1 0
136 Comandos adicionais
Em situacoes onde a ausencia de informacao ou dados faltantes(missing)as funcoes do R precisam declarar esta ausencia com o comando narm=T
indicando que a informacao apresenta dados faltantes Exemplo
df=c(2NA58NA) O ultimo elemento esta ausente
mean(f) Comando padr~ao para calcular a media
[1] NA
mean(fnarm=T) Comando declarando a ausencia de elementos
[1] 5
2 R e Econometria
Dados economicos precisam de uma atencao matematica para dar fun-
damento a suas teorias Atualmente pelo avanco computacional nao habarreiras para serem aplicadas e torna-se ate divertida se definimos a plata-forma de trabalho computacional A econometria requer de uma abordagemdiferenciada pois faz uso de da teoria economica economia matematica es-tatıstica economica estatıstica matematica e inferencia estatıstica Esta
Castaneda Daniel F N 2013 35
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3643
21 Tipos de Dados 2 R E ECONOMETRIA
disciplina aproxima a Estatıstica da Economia onde a teoria economica for-
mula as hipoteses Por exemplo uma reducao de precos de uma mercadoriadevera aumentar a quantidade demandada dessa mercadoria considerandouma relacao inversa entre preco e quantidade demandada ou a despesa deconsumo per capita depende da renda per capita considerando uma relacaodireta ou seja a medida que a renda aumenta a despesa tende a aumentarOutro exemplo onde consideremos a area microeconomica consumo de aguade uma residencia e o valor pago e natural imaginar que ha uma relacaodireta entre consumo e valor pago pelo consumo Porem precisamos saberqual e quanto e esta forca de relacao por tanto o econometrista forneceesta informacao usando a inferencia estatıstica e a estatıstica economicaAs estimativas de esta relacao fica por conta de estatıstica matematica
Para completar e cerrar este circulo de disciplinas abordadas na Econo-metria precisamos utilizar uma ferramenta de calculo computacional quebrinde estabilidade precisao e rapidez nos seus resultados para superartudo isto utilizaremos o ambiente R A econometria surge como uma disci-plina autonoma em virtude de aglutinar todas estas areas do conhecimentomerecendo um estudo proprio
21 Tipos de Dados
Os tipos de dados sao
1 Dados de corte transversal (cross-section) sao dados de uma ou maisvariaveis coletadas no mesmo ponto do tempo Por exemplo os censosno Brasil sao coletados num instante do tempo No censo variaveisdemograficas sao exploradas como contagem da populacao numerode indivıduos em cada famılia idade dos integrantes da famılia ouvariaveis economicas como renda consumo tipo de moradia (alugadaou propria) etc estes dados sao adquiridas a cada decada pelo IBGE
2 Dados longitudinais ou de series temporais sao caracterizadas porobservacoes ao longo do tempo No Brasil um site que disponibilizadados desta natureza e o IPEADATA
3 Dados de painel e uma mistura de dados de corte transversal e longi-tudinais ou ao longo do tempo estudamos o comportamento de unida-des individuais Por exemplo series mensal do ındice de precos serieanuais do produto interno bruto (PIB) ou serie anual da balanca co-mercial dos municıpios do Brasil considerando cada municıpio comounidades individuais
Castaneda Daniel F N 2013 36
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3743
22 Metodologia 2 R E ECONOMETRIA
22 Metodologia
Os passos da metodologia econometrica tradicional ou classica se iniciadesde a formulacao da hipotese ate as conclusoes em geral sao
221 Hipotese
Como referencia usaremos a hipotese nula H 0 a qual nulifica qualquerdiferenca e a hipoteses alternativa H a aquela que contradiz total ou par-cialmente a hipotese nula Exemplo
1 H 0 nao existe uma relacao entre consumo de agua e valor pago pela
mesma
2 Ha existe uma relacao entre consumo de agua e valor pago pelamesma
A hipotese alternativa pode ser dividida em tres possibilidades no exem-plo do consumo de agua pode ser dividida em existe alguma relacao oua relacao e negativa ou a relacao e positiva A primeira denomina-se dehipotese alternativa com teste bicaudal o segundo de teste unicaudal a es-querda e finalmente o ultimo com teste unicaudal a direita Nosso exemploconsidere H a existe alguma relacao (teste bicaudal)
222 Modelo matematico
Usaremos uma funcao de consumo simples
Y = β 1 + β 2X (11)
A variavel dependente Y valor pago pelo consumo e estimado por Y A variavel independente e X consumo de agua em m3 β 1 representa ovalor pago quando nao ha consumo de agua Nosso interesse e determinara tangente ou a variacao pelo consumo β 2
223 Modelo econometrico do valor pago
O modelo matematico fornece a relacao determinıstica entre valor pagoem reais e consumo de agua porem as relacoes entre as variaveis economicassao em geral inexatas Assim ao longo do tempo no podemos esperar que ovalor pago e o consumo em m3 se situem exatamente numa linha reta isto
Castaneda Daniel F N 2013 37
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3843
22 Metodologia 2 R E ECONOMETRIA
por que alem do consumo outras variaveis afetam o valor pago por exemplo
os dias de consumo o perıodo de reforma da casa ou a inflacao podendoalterar o valor pago pelo consumo
224 Nıvel de significancia
Denominado de α frequentemente usa-se α = 005 em situacoes derisco usa-se α = 001 Em testes bicaudais divide-se α em duas partes elocalizam-se nos extremos da distribuicao de prova Para testes unicaudaislocaliza-se no extremo da distribuicao indicada pela hipotese alternativaNosso exemplo α = 005 e por tanto α2 = 0025
225 Obtencao de Dados
Considere 65 observacoes (mes a mes) do consumo de agua em umaresidencia e o valor pago em reais durante o perıodo de 122005 a 042011Ver dados no apendice A Um plot e apresentado a seguir
10 15 20
2 0
3 0
4 0
5 0
6 0
7 0
Valor pago em reais de consumo de aacutegua
Variaacutevel independenteConsumo em m3
V a r i aacute v e l d e p e n d e n t e V a l o r p a g o
Y = minus12365+3007X
Figura 10 Relacao causal entre consumo e valor pago em reais
Podemos observar visualmente que ha uma relacao positiva entre valorpago e consumo de agua onde a variacao pelo consumo ou variacao dovalor pago (tangente) β 2 cresce positivamente Precisamos verificar se estavariacao β 2 e estatisticamente diferente de zero (significativa)
Castaneda Daniel F N 2013 38
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3943
22 Metodologia 2 R E ECONOMETRIA
226 Estatıstica de prova
Denominada de funcao pivo ou estatıstica de teste No ambito pa-rametrico usa-se as estatısticas t student (amostras pequenas) quando ne grande e indiferente o uso da t student ou normal No exemplo para tes-tar qual a inclinacao da variacao pelo consumo de agua usamos a seguinteestatıstica
t0 =β 2
dp(β 2)asymp tnminus2gl (12)
onde t0 e o valor calculado da estatıstica t β 2 e a estimativa do parametro(variacao pelo consumo) β 2 dp(β 2) e o desvio padrao da estimativa doparametro β 2 o valor t0 segue uma distribuicao t-student com nminus2 graus deliberdade(gl) Os graus de liberdade e calculado diferenciando o tamanhoda amostra com o numero de parametro do modelo (n-p) O valor quantılicotnminus2gl(0025) corresponde a distribuicao t-student com 0025 de significanciacom n minus 2 graus de liberdade e n e o numero total de observacoes Nossoexemplo β 2 = 3007 e dp(β 2) = 013 por tanto t0 = 2313 e comparadocom o valor da tabela da t-student com 63 gl e com α2 = 0025 sendo estevalor igual 19983
227 Tipos de erro
Ocorre o erro tipo I (α) ao se rejeitar a hipotese de nulidade quandodeveria aceita-la Por outro lado quando se aceita a hipotese de nulidadequando deveria rejeita-la comete-se o erro tipo II (β ) Nas duas situacoestomou-se uma decisao errada O interesse e a minimizacao dos erros tipo Ie II que na pratica so e possıvel aumentando-se o tamanho da amostra Porrazoes diversas o aumento do tamanho da amostra muitas vezes torna-se im-praticavel A gravidade do erro tipo I e distinta da do erro tipo II quando seconsegue identificar o erro mais grave a opcao e a minimizacao deste poremquando a probabilidade de ocorrencia de um tipo de erro diminui a do outroaumenta e vice versa Podemos observar este criterio na seguinte tabela
Nao rejeita rejeitaH0 verdadeira Correto (1 minus α) Erro do tipo I (α)H0 falsa Erro do tipo II (β ) Correto (1minus β )
Castaneda Daniel F N 2013 39
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4043
22 Metodologia 2 R E ECONOMETRIA
228 Regra de Decisao
Os pacotes ou plataformas estatısticas apresentam o valor observado dafuncao pivo e o p minus valor (Area de probabilidade esta relacionada comonıvel de significancia) assim a funcao pivo apresenta o valor numerico nafuncao de densidade da Estatıstica exemplo dentro da densidade da normalQuando o pvalor e menor do que α = 005 no caso do teste unicaudal (eα = 0025 no caso bicaudal) concluımos que nao ha evidencia suficiente paraaceitar H0 Caso contrario se o p minus valor for maior que α = 005 podemosconcluir que nao ha evidencia suficiente para rejeitar H0 Nosso exemplot0 = 2313 gt 1998 (1998 e valor da distribuicao t com 63 gl e nıvel designificancia bicaudal de 005) este valor localiza-se na cauda positiva da
distribuicao com 63 graus de liberdade(n minus 2 = 65 minus 2) Por outro lado o pminus valor lt 0025 por tanto nao ha evidencias para aceitar H0 em favor deaceitar que o coeficiente de inclinacao (ou tangente) e positiva No recorrerdo livro usaremos codigos para as medidas do pminusvalor que em geral apareceem todo comando summary() Como consequencia a linha que aparece aseguir sera excluıda das saıdas do R
Signif codes 0 0001 001 005 01 1
sera interpretada da seguinte maneira
bull 0 significancia menor que 0001
bull 0001 significancia menor que 001
bull 001 significancia menor que 005
bull 005 significancia menor que 01
bull 01 significancia menor que 1
229 Conclusoes
Esta parte do teste de hipoteses e explicada em conjunto O Estatıstico eo Economista que sao os profissionais da area em que as observacoes foramcoletadas decidem sobre as providencias futuras No exemplo podemosafirmar que a cada metro cubico a mais de consumo de agua sera pago emmedia 3 reais a mais No momento este valor pago pode parecer alto poremna falta de este liquido elementar este valor pode aumentar e por tantosofrera mudancas
Castaneda Daniel F N 2013 40
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4143
23 Previs˜ oes 2 R E ECONOMETRIA
23 Previsoes
Muitas vezes estamos interessados em determinar o que acontece quandouma quantidade de consumo de agua em m3 e utilizada e qual o valor pagoem reais Por exemplo se nosso interesse e saber quanto sera pago por 20m3
de consumo de agua em uma residencia A conta a realizar eValor pago = minus12365 + 3007 lowast 20 = 47775 reaisA interpretacao deste valor e em media o valor pago em reais por 20m3 deagua consumida e de aproximadamente 478 reais
231 Resıduos
Uma questao fundamental em econometria e identificar o comportamentodos resıduos de um modelo Considere Y o valor real pago e Y valor pagoestimado a partir de um modelo entao este erro e aleatorio e definido por
ϵi = Y i minus Y i (13)
A abordagem mais formal dos erros e feita nos proximos capıtulosUma questao importante e determinar qual o comportamento da estima-tiva destes erros aos quais chamamos de resıduos Para determinar a nor-malidade dos resıduos realizamos o teste de Jarque Bera com a funcao
jarqueberatest() da biblioteca tseries com o seguinte grafico
minus2 minus1 0 1 2
minus 5
0
5
1 0
resiacuteduos do modelo valor= f(consumo)
Theoretical Quantiles
S a m p l e Q u a n t i l e s
Figura 11 Normalidade dos resıduos
Castaneda Daniel F N 2013 41
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4243
24 Exercıcios REFER ENCIAS
24 Exercıcios
1 Por que a econometria precisa ser uma disciplina autonoma
2 Que e econometria
3 Pesquise dados de corte transversal corte longitudinal e de painel
4 Construa uma metodologia econometrica para o consumo familiar emfuncao da renda familiar (linear)
5 No item anterior e possıvel encontrar uma relacao quadratica
6 Quais sao os pressupostos basicos de um modelo de regressao linear
simples
7 Como e chamado o parametro de inclinacao ou tangente num modelode regressao linear simples em econometria
8 Que e o projeto R
9 R e um programa econometrico
Referencias
[1] Albert Jim (2009) Bayesian computation with R Editora SpringerSecond Edition New York USA
[2] Borde Arvind (1992) TEX by example A beginneracutes guide Ed Aca-demic Press Professional United States of America
[3] Carneiro Orlando (1997) Econometria Bacute asica Teoria e Aplicac˜ oes Editora Atlas Segunda Edicao son Paulo
[4] Conover W J (1999) Practical nonparametric statistics 3ed NewYork
[5] Cribari Neto F (2002) C for Econometricians conputational Econo-
mics 14 p135-149
[6] Dalgaard Peter(2008) Introductory Statistics with R Editora SpringerSecond Edition New York USA
[7] Ehlers Ricardo(2007) Analise de series Temporais Universidade Fe-deral do Parana
Castaneda Daniel F N 2013 42
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4343
REFER ENCIAS REFER ENCIAS
[8] Frery Alejandro Cribari-Neto Francisco(2011)Elementos de
Estatıstica conputacional Usando Plataformas de Software Li-vreGratuito Publicacoes Matematicas Editora IMPA
[9] Gujarati Damodar N (2000) Econometria Bacute asica Makron Books Ter-ceira Edicao son Paulo
[10] Knuth DE (1981)The Art of conputer Programming Third EditionVolume 2 Seminumerical Algorithms Addison-Wesley Publishingconpany Massachusetts
[11] Korgi Rodrigo de Castro (2003) El universo LAT E X Editora Facultadde Ciencias Segunda Edicao Bogota
[12] Krawczyk H How to Predict Congruential Generators InJournal of Algorithms V 13 N 4 1992
[13] LrsquoEcuyer P (2001) Software for uniform random number generationdistinguishing the good and the bad In Proceedings of the 2001 WinterSimulation Conference
[14] Maindonald John Braun W John(2010) Data analysis and graphics using R an example-based approach Cambridge University Press NewYork USA
[15] Mingoti(2005)Analise De Dados Atraves De Metodos De Estatistica Multivariada - Uma Abordagem Aplicada Editora UFMG Belo Hori-zonte
Castaneda Daniel F N 2013 43
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3543
136 Comandos adicionais 2 R E ECONOMETRIA
salariof AL BA ES MG PB PE RJ SE
(015] 0 2 0 0 1 0 1 0
(1530] 0 0 1 1 0 1 1 1
(3045] 2 0 1 1 1 2 2 0
(4560] 0 0 1 1 1 0 0 1
(6075] 1 0 0 1 1 1 0 1
(7590] 1 2 1 0 0 0 0 1
table(salariofestadof)
estadof
salariof AL BA ES MG PB PE RJ SE
(015] 1 1 0 0 1 0 1 2
(1530] 0 0 1 1 0 0 1 1
(3045] 0 0 2 0 0 1 0 0
(4560] 2 0 1 0 0 1 0 0
(6075] 0 1 0 2 3 0 1 0
(7590] 0 1 0 1 0 2 0 1
(90105] 0 1 0 0 0 0 1 0
136 Comandos adicionais
Em situacoes onde a ausencia de informacao ou dados faltantes(missing)as funcoes do R precisam declarar esta ausencia com o comando narm=T
indicando que a informacao apresenta dados faltantes Exemplo
df=c(2NA58NA) O ultimo elemento esta ausente
mean(f) Comando padr~ao para calcular a media
[1] NA
mean(fnarm=T) Comando declarando a ausencia de elementos
[1] 5
2 R e Econometria
Dados economicos precisam de uma atencao matematica para dar fun-
damento a suas teorias Atualmente pelo avanco computacional nao habarreiras para serem aplicadas e torna-se ate divertida se definimos a plata-forma de trabalho computacional A econometria requer de uma abordagemdiferenciada pois faz uso de da teoria economica economia matematica es-tatıstica economica estatıstica matematica e inferencia estatıstica Esta
Castaneda Daniel F N 2013 35
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3643
21 Tipos de Dados 2 R E ECONOMETRIA
disciplina aproxima a Estatıstica da Economia onde a teoria economica for-
mula as hipoteses Por exemplo uma reducao de precos de uma mercadoriadevera aumentar a quantidade demandada dessa mercadoria considerandouma relacao inversa entre preco e quantidade demandada ou a despesa deconsumo per capita depende da renda per capita considerando uma relacaodireta ou seja a medida que a renda aumenta a despesa tende a aumentarOutro exemplo onde consideremos a area microeconomica consumo de aguade uma residencia e o valor pago e natural imaginar que ha uma relacaodireta entre consumo e valor pago pelo consumo Porem precisamos saberqual e quanto e esta forca de relacao por tanto o econometrista forneceesta informacao usando a inferencia estatıstica e a estatıstica economicaAs estimativas de esta relacao fica por conta de estatıstica matematica
Para completar e cerrar este circulo de disciplinas abordadas na Econo-metria precisamos utilizar uma ferramenta de calculo computacional quebrinde estabilidade precisao e rapidez nos seus resultados para superartudo isto utilizaremos o ambiente R A econometria surge como uma disci-plina autonoma em virtude de aglutinar todas estas areas do conhecimentomerecendo um estudo proprio
21 Tipos de Dados
Os tipos de dados sao
1 Dados de corte transversal (cross-section) sao dados de uma ou maisvariaveis coletadas no mesmo ponto do tempo Por exemplo os censosno Brasil sao coletados num instante do tempo No censo variaveisdemograficas sao exploradas como contagem da populacao numerode indivıduos em cada famılia idade dos integrantes da famılia ouvariaveis economicas como renda consumo tipo de moradia (alugadaou propria) etc estes dados sao adquiridas a cada decada pelo IBGE
2 Dados longitudinais ou de series temporais sao caracterizadas porobservacoes ao longo do tempo No Brasil um site que disponibilizadados desta natureza e o IPEADATA
3 Dados de painel e uma mistura de dados de corte transversal e longi-tudinais ou ao longo do tempo estudamos o comportamento de unida-des individuais Por exemplo series mensal do ındice de precos serieanuais do produto interno bruto (PIB) ou serie anual da balanca co-mercial dos municıpios do Brasil considerando cada municıpio comounidades individuais
Castaneda Daniel F N 2013 36
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3743
22 Metodologia 2 R E ECONOMETRIA
22 Metodologia
Os passos da metodologia econometrica tradicional ou classica se iniciadesde a formulacao da hipotese ate as conclusoes em geral sao
221 Hipotese
Como referencia usaremos a hipotese nula H 0 a qual nulifica qualquerdiferenca e a hipoteses alternativa H a aquela que contradiz total ou par-cialmente a hipotese nula Exemplo
1 H 0 nao existe uma relacao entre consumo de agua e valor pago pela
mesma
2 Ha existe uma relacao entre consumo de agua e valor pago pelamesma
A hipotese alternativa pode ser dividida em tres possibilidades no exem-plo do consumo de agua pode ser dividida em existe alguma relacao oua relacao e negativa ou a relacao e positiva A primeira denomina-se dehipotese alternativa com teste bicaudal o segundo de teste unicaudal a es-querda e finalmente o ultimo com teste unicaudal a direita Nosso exemploconsidere H a existe alguma relacao (teste bicaudal)
222 Modelo matematico
Usaremos uma funcao de consumo simples
Y = β 1 + β 2X (11)
A variavel dependente Y valor pago pelo consumo e estimado por Y A variavel independente e X consumo de agua em m3 β 1 representa ovalor pago quando nao ha consumo de agua Nosso interesse e determinara tangente ou a variacao pelo consumo β 2
223 Modelo econometrico do valor pago
O modelo matematico fornece a relacao determinıstica entre valor pagoem reais e consumo de agua porem as relacoes entre as variaveis economicassao em geral inexatas Assim ao longo do tempo no podemos esperar que ovalor pago e o consumo em m3 se situem exatamente numa linha reta isto
Castaneda Daniel F N 2013 37
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3843
22 Metodologia 2 R E ECONOMETRIA
por que alem do consumo outras variaveis afetam o valor pago por exemplo
os dias de consumo o perıodo de reforma da casa ou a inflacao podendoalterar o valor pago pelo consumo
224 Nıvel de significancia
Denominado de α frequentemente usa-se α = 005 em situacoes derisco usa-se α = 001 Em testes bicaudais divide-se α em duas partes elocalizam-se nos extremos da distribuicao de prova Para testes unicaudaislocaliza-se no extremo da distribuicao indicada pela hipotese alternativaNosso exemplo α = 005 e por tanto α2 = 0025
225 Obtencao de Dados
Considere 65 observacoes (mes a mes) do consumo de agua em umaresidencia e o valor pago em reais durante o perıodo de 122005 a 042011Ver dados no apendice A Um plot e apresentado a seguir
10 15 20
2 0
3 0
4 0
5 0
6 0
7 0
Valor pago em reais de consumo de aacutegua
Variaacutevel independenteConsumo em m3
V a r i aacute v e l d e p e n d e n t e V a l o r p a g o
Y = minus12365+3007X
Figura 10 Relacao causal entre consumo e valor pago em reais
Podemos observar visualmente que ha uma relacao positiva entre valorpago e consumo de agua onde a variacao pelo consumo ou variacao dovalor pago (tangente) β 2 cresce positivamente Precisamos verificar se estavariacao β 2 e estatisticamente diferente de zero (significativa)
Castaneda Daniel F N 2013 38
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3943
22 Metodologia 2 R E ECONOMETRIA
226 Estatıstica de prova
Denominada de funcao pivo ou estatıstica de teste No ambito pa-rametrico usa-se as estatısticas t student (amostras pequenas) quando ne grande e indiferente o uso da t student ou normal No exemplo para tes-tar qual a inclinacao da variacao pelo consumo de agua usamos a seguinteestatıstica
t0 =β 2
dp(β 2)asymp tnminus2gl (12)
onde t0 e o valor calculado da estatıstica t β 2 e a estimativa do parametro(variacao pelo consumo) β 2 dp(β 2) e o desvio padrao da estimativa doparametro β 2 o valor t0 segue uma distribuicao t-student com nminus2 graus deliberdade(gl) Os graus de liberdade e calculado diferenciando o tamanhoda amostra com o numero de parametro do modelo (n-p) O valor quantılicotnminus2gl(0025) corresponde a distribuicao t-student com 0025 de significanciacom n minus 2 graus de liberdade e n e o numero total de observacoes Nossoexemplo β 2 = 3007 e dp(β 2) = 013 por tanto t0 = 2313 e comparadocom o valor da tabela da t-student com 63 gl e com α2 = 0025 sendo estevalor igual 19983
227 Tipos de erro
Ocorre o erro tipo I (α) ao se rejeitar a hipotese de nulidade quandodeveria aceita-la Por outro lado quando se aceita a hipotese de nulidadequando deveria rejeita-la comete-se o erro tipo II (β ) Nas duas situacoestomou-se uma decisao errada O interesse e a minimizacao dos erros tipo Ie II que na pratica so e possıvel aumentando-se o tamanho da amostra Porrazoes diversas o aumento do tamanho da amostra muitas vezes torna-se im-praticavel A gravidade do erro tipo I e distinta da do erro tipo II quando seconsegue identificar o erro mais grave a opcao e a minimizacao deste poremquando a probabilidade de ocorrencia de um tipo de erro diminui a do outroaumenta e vice versa Podemos observar este criterio na seguinte tabela
Nao rejeita rejeitaH0 verdadeira Correto (1 minus α) Erro do tipo I (α)H0 falsa Erro do tipo II (β ) Correto (1minus β )
Castaneda Daniel F N 2013 39
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4043
22 Metodologia 2 R E ECONOMETRIA
228 Regra de Decisao
Os pacotes ou plataformas estatısticas apresentam o valor observado dafuncao pivo e o p minus valor (Area de probabilidade esta relacionada comonıvel de significancia) assim a funcao pivo apresenta o valor numerico nafuncao de densidade da Estatıstica exemplo dentro da densidade da normalQuando o pvalor e menor do que α = 005 no caso do teste unicaudal (eα = 0025 no caso bicaudal) concluımos que nao ha evidencia suficiente paraaceitar H0 Caso contrario se o p minus valor for maior que α = 005 podemosconcluir que nao ha evidencia suficiente para rejeitar H0 Nosso exemplot0 = 2313 gt 1998 (1998 e valor da distribuicao t com 63 gl e nıvel designificancia bicaudal de 005) este valor localiza-se na cauda positiva da
distribuicao com 63 graus de liberdade(n minus 2 = 65 minus 2) Por outro lado o pminus valor lt 0025 por tanto nao ha evidencias para aceitar H0 em favor deaceitar que o coeficiente de inclinacao (ou tangente) e positiva No recorrerdo livro usaremos codigos para as medidas do pminusvalor que em geral apareceem todo comando summary() Como consequencia a linha que aparece aseguir sera excluıda das saıdas do R
Signif codes 0 0001 001 005 01 1
sera interpretada da seguinte maneira
bull 0 significancia menor que 0001
bull 0001 significancia menor que 001
bull 001 significancia menor que 005
bull 005 significancia menor que 01
bull 01 significancia menor que 1
229 Conclusoes
Esta parte do teste de hipoteses e explicada em conjunto O Estatıstico eo Economista que sao os profissionais da area em que as observacoes foramcoletadas decidem sobre as providencias futuras No exemplo podemosafirmar que a cada metro cubico a mais de consumo de agua sera pago emmedia 3 reais a mais No momento este valor pago pode parecer alto poremna falta de este liquido elementar este valor pode aumentar e por tantosofrera mudancas
Castaneda Daniel F N 2013 40
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4143
23 Previs˜ oes 2 R E ECONOMETRIA
23 Previsoes
Muitas vezes estamos interessados em determinar o que acontece quandouma quantidade de consumo de agua em m3 e utilizada e qual o valor pagoem reais Por exemplo se nosso interesse e saber quanto sera pago por 20m3
de consumo de agua em uma residencia A conta a realizar eValor pago = minus12365 + 3007 lowast 20 = 47775 reaisA interpretacao deste valor e em media o valor pago em reais por 20m3 deagua consumida e de aproximadamente 478 reais
231 Resıduos
Uma questao fundamental em econometria e identificar o comportamentodos resıduos de um modelo Considere Y o valor real pago e Y valor pagoestimado a partir de um modelo entao este erro e aleatorio e definido por
ϵi = Y i minus Y i (13)
A abordagem mais formal dos erros e feita nos proximos capıtulosUma questao importante e determinar qual o comportamento da estima-tiva destes erros aos quais chamamos de resıduos Para determinar a nor-malidade dos resıduos realizamos o teste de Jarque Bera com a funcao
jarqueberatest() da biblioteca tseries com o seguinte grafico
minus2 minus1 0 1 2
minus 5
0
5
1 0
resiacuteduos do modelo valor= f(consumo)
Theoretical Quantiles
S a m p l e Q u a n t i l e s
Figura 11 Normalidade dos resıduos
Castaneda Daniel F N 2013 41
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4243
24 Exercıcios REFER ENCIAS
24 Exercıcios
1 Por que a econometria precisa ser uma disciplina autonoma
2 Que e econometria
3 Pesquise dados de corte transversal corte longitudinal e de painel
4 Construa uma metodologia econometrica para o consumo familiar emfuncao da renda familiar (linear)
5 No item anterior e possıvel encontrar uma relacao quadratica
6 Quais sao os pressupostos basicos de um modelo de regressao linear
simples
7 Como e chamado o parametro de inclinacao ou tangente num modelode regressao linear simples em econometria
8 Que e o projeto R
9 R e um programa econometrico
Referencias
[1] Albert Jim (2009) Bayesian computation with R Editora SpringerSecond Edition New York USA
[2] Borde Arvind (1992) TEX by example A beginneracutes guide Ed Aca-demic Press Professional United States of America
[3] Carneiro Orlando (1997) Econometria Bacute asica Teoria e Aplicac˜ oes Editora Atlas Segunda Edicao son Paulo
[4] Conover W J (1999) Practical nonparametric statistics 3ed NewYork
[5] Cribari Neto F (2002) C for Econometricians conputational Econo-
mics 14 p135-149
[6] Dalgaard Peter(2008) Introductory Statistics with R Editora SpringerSecond Edition New York USA
[7] Ehlers Ricardo(2007) Analise de series Temporais Universidade Fe-deral do Parana
Castaneda Daniel F N 2013 42
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4343
REFER ENCIAS REFER ENCIAS
[8] Frery Alejandro Cribari-Neto Francisco(2011)Elementos de
Estatıstica conputacional Usando Plataformas de Software Li-vreGratuito Publicacoes Matematicas Editora IMPA
[9] Gujarati Damodar N (2000) Econometria Bacute asica Makron Books Ter-ceira Edicao son Paulo
[10] Knuth DE (1981)The Art of conputer Programming Third EditionVolume 2 Seminumerical Algorithms Addison-Wesley Publishingconpany Massachusetts
[11] Korgi Rodrigo de Castro (2003) El universo LAT E X Editora Facultadde Ciencias Segunda Edicao Bogota
[12] Krawczyk H How to Predict Congruential Generators InJournal of Algorithms V 13 N 4 1992
[13] LrsquoEcuyer P (2001) Software for uniform random number generationdistinguishing the good and the bad In Proceedings of the 2001 WinterSimulation Conference
[14] Maindonald John Braun W John(2010) Data analysis and graphics using R an example-based approach Cambridge University Press NewYork USA
[15] Mingoti(2005)Analise De Dados Atraves De Metodos De Estatistica Multivariada - Uma Abordagem Aplicada Editora UFMG Belo Hori-zonte
Castaneda Daniel F N 2013 43
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3643
21 Tipos de Dados 2 R E ECONOMETRIA
disciplina aproxima a Estatıstica da Economia onde a teoria economica for-
mula as hipoteses Por exemplo uma reducao de precos de uma mercadoriadevera aumentar a quantidade demandada dessa mercadoria considerandouma relacao inversa entre preco e quantidade demandada ou a despesa deconsumo per capita depende da renda per capita considerando uma relacaodireta ou seja a medida que a renda aumenta a despesa tende a aumentarOutro exemplo onde consideremos a area microeconomica consumo de aguade uma residencia e o valor pago e natural imaginar que ha uma relacaodireta entre consumo e valor pago pelo consumo Porem precisamos saberqual e quanto e esta forca de relacao por tanto o econometrista forneceesta informacao usando a inferencia estatıstica e a estatıstica economicaAs estimativas de esta relacao fica por conta de estatıstica matematica
Para completar e cerrar este circulo de disciplinas abordadas na Econo-metria precisamos utilizar uma ferramenta de calculo computacional quebrinde estabilidade precisao e rapidez nos seus resultados para superartudo isto utilizaremos o ambiente R A econometria surge como uma disci-plina autonoma em virtude de aglutinar todas estas areas do conhecimentomerecendo um estudo proprio
21 Tipos de Dados
Os tipos de dados sao
1 Dados de corte transversal (cross-section) sao dados de uma ou maisvariaveis coletadas no mesmo ponto do tempo Por exemplo os censosno Brasil sao coletados num instante do tempo No censo variaveisdemograficas sao exploradas como contagem da populacao numerode indivıduos em cada famılia idade dos integrantes da famılia ouvariaveis economicas como renda consumo tipo de moradia (alugadaou propria) etc estes dados sao adquiridas a cada decada pelo IBGE
2 Dados longitudinais ou de series temporais sao caracterizadas porobservacoes ao longo do tempo No Brasil um site que disponibilizadados desta natureza e o IPEADATA
3 Dados de painel e uma mistura de dados de corte transversal e longi-tudinais ou ao longo do tempo estudamos o comportamento de unida-des individuais Por exemplo series mensal do ındice de precos serieanuais do produto interno bruto (PIB) ou serie anual da balanca co-mercial dos municıpios do Brasil considerando cada municıpio comounidades individuais
Castaneda Daniel F N 2013 36
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3743
22 Metodologia 2 R E ECONOMETRIA
22 Metodologia
Os passos da metodologia econometrica tradicional ou classica se iniciadesde a formulacao da hipotese ate as conclusoes em geral sao
221 Hipotese
Como referencia usaremos a hipotese nula H 0 a qual nulifica qualquerdiferenca e a hipoteses alternativa H a aquela que contradiz total ou par-cialmente a hipotese nula Exemplo
1 H 0 nao existe uma relacao entre consumo de agua e valor pago pela
mesma
2 Ha existe uma relacao entre consumo de agua e valor pago pelamesma
A hipotese alternativa pode ser dividida em tres possibilidades no exem-plo do consumo de agua pode ser dividida em existe alguma relacao oua relacao e negativa ou a relacao e positiva A primeira denomina-se dehipotese alternativa com teste bicaudal o segundo de teste unicaudal a es-querda e finalmente o ultimo com teste unicaudal a direita Nosso exemploconsidere H a existe alguma relacao (teste bicaudal)
222 Modelo matematico
Usaremos uma funcao de consumo simples
Y = β 1 + β 2X (11)
A variavel dependente Y valor pago pelo consumo e estimado por Y A variavel independente e X consumo de agua em m3 β 1 representa ovalor pago quando nao ha consumo de agua Nosso interesse e determinara tangente ou a variacao pelo consumo β 2
223 Modelo econometrico do valor pago
O modelo matematico fornece a relacao determinıstica entre valor pagoem reais e consumo de agua porem as relacoes entre as variaveis economicassao em geral inexatas Assim ao longo do tempo no podemos esperar que ovalor pago e o consumo em m3 se situem exatamente numa linha reta isto
Castaneda Daniel F N 2013 37
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3843
22 Metodologia 2 R E ECONOMETRIA
por que alem do consumo outras variaveis afetam o valor pago por exemplo
os dias de consumo o perıodo de reforma da casa ou a inflacao podendoalterar o valor pago pelo consumo
224 Nıvel de significancia
Denominado de α frequentemente usa-se α = 005 em situacoes derisco usa-se α = 001 Em testes bicaudais divide-se α em duas partes elocalizam-se nos extremos da distribuicao de prova Para testes unicaudaislocaliza-se no extremo da distribuicao indicada pela hipotese alternativaNosso exemplo α = 005 e por tanto α2 = 0025
225 Obtencao de Dados
Considere 65 observacoes (mes a mes) do consumo de agua em umaresidencia e o valor pago em reais durante o perıodo de 122005 a 042011Ver dados no apendice A Um plot e apresentado a seguir
10 15 20
2 0
3 0
4 0
5 0
6 0
7 0
Valor pago em reais de consumo de aacutegua
Variaacutevel independenteConsumo em m3
V a r i aacute v e l d e p e n d e n t e V a l o r p a g o
Y = minus12365+3007X
Figura 10 Relacao causal entre consumo e valor pago em reais
Podemos observar visualmente que ha uma relacao positiva entre valorpago e consumo de agua onde a variacao pelo consumo ou variacao dovalor pago (tangente) β 2 cresce positivamente Precisamos verificar se estavariacao β 2 e estatisticamente diferente de zero (significativa)
Castaneda Daniel F N 2013 38
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3943
22 Metodologia 2 R E ECONOMETRIA
226 Estatıstica de prova
Denominada de funcao pivo ou estatıstica de teste No ambito pa-rametrico usa-se as estatısticas t student (amostras pequenas) quando ne grande e indiferente o uso da t student ou normal No exemplo para tes-tar qual a inclinacao da variacao pelo consumo de agua usamos a seguinteestatıstica
t0 =β 2
dp(β 2)asymp tnminus2gl (12)
onde t0 e o valor calculado da estatıstica t β 2 e a estimativa do parametro(variacao pelo consumo) β 2 dp(β 2) e o desvio padrao da estimativa doparametro β 2 o valor t0 segue uma distribuicao t-student com nminus2 graus deliberdade(gl) Os graus de liberdade e calculado diferenciando o tamanhoda amostra com o numero de parametro do modelo (n-p) O valor quantılicotnminus2gl(0025) corresponde a distribuicao t-student com 0025 de significanciacom n minus 2 graus de liberdade e n e o numero total de observacoes Nossoexemplo β 2 = 3007 e dp(β 2) = 013 por tanto t0 = 2313 e comparadocom o valor da tabela da t-student com 63 gl e com α2 = 0025 sendo estevalor igual 19983
227 Tipos de erro
Ocorre o erro tipo I (α) ao se rejeitar a hipotese de nulidade quandodeveria aceita-la Por outro lado quando se aceita a hipotese de nulidadequando deveria rejeita-la comete-se o erro tipo II (β ) Nas duas situacoestomou-se uma decisao errada O interesse e a minimizacao dos erros tipo Ie II que na pratica so e possıvel aumentando-se o tamanho da amostra Porrazoes diversas o aumento do tamanho da amostra muitas vezes torna-se im-praticavel A gravidade do erro tipo I e distinta da do erro tipo II quando seconsegue identificar o erro mais grave a opcao e a minimizacao deste poremquando a probabilidade de ocorrencia de um tipo de erro diminui a do outroaumenta e vice versa Podemos observar este criterio na seguinte tabela
Nao rejeita rejeitaH0 verdadeira Correto (1 minus α) Erro do tipo I (α)H0 falsa Erro do tipo II (β ) Correto (1minus β )
Castaneda Daniel F N 2013 39
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4043
22 Metodologia 2 R E ECONOMETRIA
228 Regra de Decisao
Os pacotes ou plataformas estatısticas apresentam o valor observado dafuncao pivo e o p minus valor (Area de probabilidade esta relacionada comonıvel de significancia) assim a funcao pivo apresenta o valor numerico nafuncao de densidade da Estatıstica exemplo dentro da densidade da normalQuando o pvalor e menor do que α = 005 no caso do teste unicaudal (eα = 0025 no caso bicaudal) concluımos que nao ha evidencia suficiente paraaceitar H0 Caso contrario se o p minus valor for maior que α = 005 podemosconcluir que nao ha evidencia suficiente para rejeitar H0 Nosso exemplot0 = 2313 gt 1998 (1998 e valor da distribuicao t com 63 gl e nıvel designificancia bicaudal de 005) este valor localiza-se na cauda positiva da
distribuicao com 63 graus de liberdade(n minus 2 = 65 minus 2) Por outro lado o pminus valor lt 0025 por tanto nao ha evidencias para aceitar H0 em favor deaceitar que o coeficiente de inclinacao (ou tangente) e positiva No recorrerdo livro usaremos codigos para as medidas do pminusvalor que em geral apareceem todo comando summary() Como consequencia a linha que aparece aseguir sera excluıda das saıdas do R
Signif codes 0 0001 001 005 01 1
sera interpretada da seguinte maneira
bull 0 significancia menor que 0001
bull 0001 significancia menor que 001
bull 001 significancia menor que 005
bull 005 significancia menor que 01
bull 01 significancia menor que 1
229 Conclusoes
Esta parte do teste de hipoteses e explicada em conjunto O Estatıstico eo Economista que sao os profissionais da area em que as observacoes foramcoletadas decidem sobre as providencias futuras No exemplo podemosafirmar que a cada metro cubico a mais de consumo de agua sera pago emmedia 3 reais a mais No momento este valor pago pode parecer alto poremna falta de este liquido elementar este valor pode aumentar e por tantosofrera mudancas
Castaneda Daniel F N 2013 40
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4143
23 Previs˜ oes 2 R E ECONOMETRIA
23 Previsoes
Muitas vezes estamos interessados em determinar o que acontece quandouma quantidade de consumo de agua em m3 e utilizada e qual o valor pagoem reais Por exemplo se nosso interesse e saber quanto sera pago por 20m3
de consumo de agua em uma residencia A conta a realizar eValor pago = minus12365 + 3007 lowast 20 = 47775 reaisA interpretacao deste valor e em media o valor pago em reais por 20m3 deagua consumida e de aproximadamente 478 reais
231 Resıduos
Uma questao fundamental em econometria e identificar o comportamentodos resıduos de um modelo Considere Y o valor real pago e Y valor pagoestimado a partir de um modelo entao este erro e aleatorio e definido por
ϵi = Y i minus Y i (13)
A abordagem mais formal dos erros e feita nos proximos capıtulosUma questao importante e determinar qual o comportamento da estima-tiva destes erros aos quais chamamos de resıduos Para determinar a nor-malidade dos resıduos realizamos o teste de Jarque Bera com a funcao
jarqueberatest() da biblioteca tseries com o seguinte grafico
minus2 minus1 0 1 2
minus 5
0
5
1 0
resiacuteduos do modelo valor= f(consumo)
Theoretical Quantiles
S a m p l e Q u a n t i l e s
Figura 11 Normalidade dos resıduos
Castaneda Daniel F N 2013 41
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4243
24 Exercıcios REFER ENCIAS
24 Exercıcios
1 Por que a econometria precisa ser uma disciplina autonoma
2 Que e econometria
3 Pesquise dados de corte transversal corte longitudinal e de painel
4 Construa uma metodologia econometrica para o consumo familiar emfuncao da renda familiar (linear)
5 No item anterior e possıvel encontrar uma relacao quadratica
6 Quais sao os pressupostos basicos de um modelo de regressao linear
simples
7 Como e chamado o parametro de inclinacao ou tangente num modelode regressao linear simples em econometria
8 Que e o projeto R
9 R e um programa econometrico
Referencias
[1] Albert Jim (2009) Bayesian computation with R Editora SpringerSecond Edition New York USA
[2] Borde Arvind (1992) TEX by example A beginneracutes guide Ed Aca-demic Press Professional United States of America
[3] Carneiro Orlando (1997) Econometria Bacute asica Teoria e Aplicac˜ oes Editora Atlas Segunda Edicao son Paulo
[4] Conover W J (1999) Practical nonparametric statistics 3ed NewYork
[5] Cribari Neto F (2002) C for Econometricians conputational Econo-
mics 14 p135-149
[6] Dalgaard Peter(2008) Introductory Statistics with R Editora SpringerSecond Edition New York USA
[7] Ehlers Ricardo(2007) Analise de series Temporais Universidade Fe-deral do Parana
Castaneda Daniel F N 2013 42
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4343
REFER ENCIAS REFER ENCIAS
[8] Frery Alejandro Cribari-Neto Francisco(2011)Elementos de
Estatıstica conputacional Usando Plataformas de Software Li-vreGratuito Publicacoes Matematicas Editora IMPA
[9] Gujarati Damodar N (2000) Econometria Bacute asica Makron Books Ter-ceira Edicao son Paulo
[10] Knuth DE (1981)The Art of conputer Programming Third EditionVolume 2 Seminumerical Algorithms Addison-Wesley Publishingconpany Massachusetts
[11] Korgi Rodrigo de Castro (2003) El universo LAT E X Editora Facultadde Ciencias Segunda Edicao Bogota
[12] Krawczyk H How to Predict Congruential Generators InJournal of Algorithms V 13 N 4 1992
[13] LrsquoEcuyer P (2001) Software for uniform random number generationdistinguishing the good and the bad In Proceedings of the 2001 WinterSimulation Conference
[14] Maindonald John Braun W John(2010) Data analysis and graphics using R an example-based approach Cambridge University Press NewYork USA
[15] Mingoti(2005)Analise De Dados Atraves De Metodos De Estatistica Multivariada - Uma Abordagem Aplicada Editora UFMG Belo Hori-zonte
Castaneda Daniel F N 2013 43
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3743
22 Metodologia 2 R E ECONOMETRIA
22 Metodologia
Os passos da metodologia econometrica tradicional ou classica se iniciadesde a formulacao da hipotese ate as conclusoes em geral sao
221 Hipotese
Como referencia usaremos a hipotese nula H 0 a qual nulifica qualquerdiferenca e a hipoteses alternativa H a aquela que contradiz total ou par-cialmente a hipotese nula Exemplo
1 H 0 nao existe uma relacao entre consumo de agua e valor pago pela
mesma
2 Ha existe uma relacao entre consumo de agua e valor pago pelamesma
A hipotese alternativa pode ser dividida em tres possibilidades no exem-plo do consumo de agua pode ser dividida em existe alguma relacao oua relacao e negativa ou a relacao e positiva A primeira denomina-se dehipotese alternativa com teste bicaudal o segundo de teste unicaudal a es-querda e finalmente o ultimo com teste unicaudal a direita Nosso exemploconsidere H a existe alguma relacao (teste bicaudal)
222 Modelo matematico
Usaremos uma funcao de consumo simples
Y = β 1 + β 2X (11)
A variavel dependente Y valor pago pelo consumo e estimado por Y A variavel independente e X consumo de agua em m3 β 1 representa ovalor pago quando nao ha consumo de agua Nosso interesse e determinara tangente ou a variacao pelo consumo β 2
223 Modelo econometrico do valor pago
O modelo matematico fornece a relacao determinıstica entre valor pagoem reais e consumo de agua porem as relacoes entre as variaveis economicassao em geral inexatas Assim ao longo do tempo no podemos esperar que ovalor pago e o consumo em m3 se situem exatamente numa linha reta isto
Castaneda Daniel F N 2013 37
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3843
22 Metodologia 2 R E ECONOMETRIA
por que alem do consumo outras variaveis afetam o valor pago por exemplo
os dias de consumo o perıodo de reforma da casa ou a inflacao podendoalterar o valor pago pelo consumo
224 Nıvel de significancia
Denominado de α frequentemente usa-se α = 005 em situacoes derisco usa-se α = 001 Em testes bicaudais divide-se α em duas partes elocalizam-se nos extremos da distribuicao de prova Para testes unicaudaislocaliza-se no extremo da distribuicao indicada pela hipotese alternativaNosso exemplo α = 005 e por tanto α2 = 0025
225 Obtencao de Dados
Considere 65 observacoes (mes a mes) do consumo de agua em umaresidencia e o valor pago em reais durante o perıodo de 122005 a 042011Ver dados no apendice A Um plot e apresentado a seguir
10 15 20
2 0
3 0
4 0
5 0
6 0
7 0
Valor pago em reais de consumo de aacutegua
Variaacutevel independenteConsumo em m3
V a r i aacute v e l d e p e n d e n t e V a l o r p a g o
Y = minus12365+3007X
Figura 10 Relacao causal entre consumo e valor pago em reais
Podemos observar visualmente que ha uma relacao positiva entre valorpago e consumo de agua onde a variacao pelo consumo ou variacao dovalor pago (tangente) β 2 cresce positivamente Precisamos verificar se estavariacao β 2 e estatisticamente diferente de zero (significativa)
Castaneda Daniel F N 2013 38
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3943
22 Metodologia 2 R E ECONOMETRIA
226 Estatıstica de prova
Denominada de funcao pivo ou estatıstica de teste No ambito pa-rametrico usa-se as estatısticas t student (amostras pequenas) quando ne grande e indiferente o uso da t student ou normal No exemplo para tes-tar qual a inclinacao da variacao pelo consumo de agua usamos a seguinteestatıstica
t0 =β 2
dp(β 2)asymp tnminus2gl (12)
onde t0 e o valor calculado da estatıstica t β 2 e a estimativa do parametro(variacao pelo consumo) β 2 dp(β 2) e o desvio padrao da estimativa doparametro β 2 o valor t0 segue uma distribuicao t-student com nminus2 graus deliberdade(gl) Os graus de liberdade e calculado diferenciando o tamanhoda amostra com o numero de parametro do modelo (n-p) O valor quantılicotnminus2gl(0025) corresponde a distribuicao t-student com 0025 de significanciacom n minus 2 graus de liberdade e n e o numero total de observacoes Nossoexemplo β 2 = 3007 e dp(β 2) = 013 por tanto t0 = 2313 e comparadocom o valor da tabela da t-student com 63 gl e com α2 = 0025 sendo estevalor igual 19983
227 Tipos de erro
Ocorre o erro tipo I (α) ao se rejeitar a hipotese de nulidade quandodeveria aceita-la Por outro lado quando se aceita a hipotese de nulidadequando deveria rejeita-la comete-se o erro tipo II (β ) Nas duas situacoestomou-se uma decisao errada O interesse e a minimizacao dos erros tipo Ie II que na pratica so e possıvel aumentando-se o tamanho da amostra Porrazoes diversas o aumento do tamanho da amostra muitas vezes torna-se im-praticavel A gravidade do erro tipo I e distinta da do erro tipo II quando seconsegue identificar o erro mais grave a opcao e a minimizacao deste poremquando a probabilidade de ocorrencia de um tipo de erro diminui a do outroaumenta e vice versa Podemos observar este criterio na seguinte tabela
Nao rejeita rejeitaH0 verdadeira Correto (1 minus α) Erro do tipo I (α)H0 falsa Erro do tipo II (β ) Correto (1minus β )
Castaneda Daniel F N 2013 39
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4043
22 Metodologia 2 R E ECONOMETRIA
228 Regra de Decisao
Os pacotes ou plataformas estatısticas apresentam o valor observado dafuncao pivo e o p minus valor (Area de probabilidade esta relacionada comonıvel de significancia) assim a funcao pivo apresenta o valor numerico nafuncao de densidade da Estatıstica exemplo dentro da densidade da normalQuando o pvalor e menor do que α = 005 no caso do teste unicaudal (eα = 0025 no caso bicaudal) concluımos que nao ha evidencia suficiente paraaceitar H0 Caso contrario se o p minus valor for maior que α = 005 podemosconcluir que nao ha evidencia suficiente para rejeitar H0 Nosso exemplot0 = 2313 gt 1998 (1998 e valor da distribuicao t com 63 gl e nıvel designificancia bicaudal de 005) este valor localiza-se na cauda positiva da
distribuicao com 63 graus de liberdade(n minus 2 = 65 minus 2) Por outro lado o pminus valor lt 0025 por tanto nao ha evidencias para aceitar H0 em favor deaceitar que o coeficiente de inclinacao (ou tangente) e positiva No recorrerdo livro usaremos codigos para as medidas do pminusvalor que em geral apareceem todo comando summary() Como consequencia a linha que aparece aseguir sera excluıda das saıdas do R
Signif codes 0 0001 001 005 01 1
sera interpretada da seguinte maneira
bull 0 significancia menor que 0001
bull 0001 significancia menor que 001
bull 001 significancia menor que 005
bull 005 significancia menor que 01
bull 01 significancia menor que 1
229 Conclusoes
Esta parte do teste de hipoteses e explicada em conjunto O Estatıstico eo Economista que sao os profissionais da area em que as observacoes foramcoletadas decidem sobre as providencias futuras No exemplo podemosafirmar que a cada metro cubico a mais de consumo de agua sera pago emmedia 3 reais a mais No momento este valor pago pode parecer alto poremna falta de este liquido elementar este valor pode aumentar e por tantosofrera mudancas
Castaneda Daniel F N 2013 40
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4143
23 Previs˜ oes 2 R E ECONOMETRIA
23 Previsoes
Muitas vezes estamos interessados em determinar o que acontece quandouma quantidade de consumo de agua em m3 e utilizada e qual o valor pagoem reais Por exemplo se nosso interesse e saber quanto sera pago por 20m3
de consumo de agua em uma residencia A conta a realizar eValor pago = minus12365 + 3007 lowast 20 = 47775 reaisA interpretacao deste valor e em media o valor pago em reais por 20m3 deagua consumida e de aproximadamente 478 reais
231 Resıduos
Uma questao fundamental em econometria e identificar o comportamentodos resıduos de um modelo Considere Y o valor real pago e Y valor pagoestimado a partir de um modelo entao este erro e aleatorio e definido por
ϵi = Y i minus Y i (13)
A abordagem mais formal dos erros e feita nos proximos capıtulosUma questao importante e determinar qual o comportamento da estima-tiva destes erros aos quais chamamos de resıduos Para determinar a nor-malidade dos resıduos realizamos o teste de Jarque Bera com a funcao
jarqueberatest() da biblioteca tseries com o seguinte grafico
minus2 minus1 0 1 2
minus 5
0
5
1 0
resiacuteduos do modelo valor= f(consumo)
Theoretical Quantiles
S a m p l e Q u a n t i l e s
Figura 11 Normalidade dos resıduos
Castaneda Daniel F N 2013 41
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4243
24 Exercıcios REFER ENCIAS
24 Exercıcios
1 Por que a econometria precisa ser uma disciplina autonoma
2 Que e econometria
3 Pesquise dados de corte transversal corte longitudinal e de painel
4 Construa uma metodologia econometrica para o consumo familiar emfuncao da renda familiar (linear)
5 No item anterior e possıvel encontrar uma relacao quadratica
6 Quais sao os pressupostos basicos de um modelo de regressao linear
simples
7 Como e chamado o parametro de inclinacao ou tangente num modelode regressao linear simples em econometria
8 Que e o projeto R
9 R e um programa econometrico
Referencias
[1] Albert Jim (2009) Bayesian computation with R Editora SpringerSecond Edition New York USA
[2] Borde Arvind (1992) TEX by example A beginneracutes guide Ed Aca-demic Press Professional United States of America
[3] Carneiro Orlando (1997) Econometria Bacute asica Teoria e Aplicac˜ oes Editora Atlas Segunda Edicao son Paulo
[4] Conover W J (1999) Practical nonparametric statistics 3ed NewYork
[5] Cribari Neto F (2002) C for Econometricians conputational Econo-
mics 14 p135-149
[6] Dalgaard Peter(2008) Introductory Statistics with R Editora SpringerSecond Edition New York USA
[7] Ehlers Ricardo(2007) Analise de series Temporais Universidade Fe-deral do Parana
Castaneda Daniel F N 2013 42
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4343
REFER ENCIAS REFER ENCIAS
[8] Frery Alejandro Cribari-Neto Francisco(2011)Elementos de
Estatıstica conputacional Usando Plataformas de Software Li-vreGratuito Publicacoes Matematicas Editora IMPA
[9] Gujarati Damodar N (2000) Econometria Bacute asica Makron Books Ter-ceira Edicao son Paulo
[10] Knuth DE (1981)The Art of conputer Programming Third EditionVolume 2 Seminumerical Algorithms Addison-Wesley Publishingconpany Massachusetts
[11] Korgi Rodrigo de Castro (2003) El universo LAT E X Editora Facultadde Ciencias Segunda Edicao Bogota
[12] Krawczyk H How to Predict Congruential Generators InJournal of Algorithms V 13 N 4 1992
[13] LrsquoEcuyer P (2001) Software for uniform random number generationdistinguishing the good and the bad In Proceedings of the 2001 WinterSimulation Conference
[14] Maindonald John Braun W John(2010) Data analysis and graphics using R an example-based approach Cambridge University Press NewYork USA
[15] Mingoti(2005)Analise De Dados Atraves De Metodos De Estatistica Multivariada - Uma Abordagem Aplicada Editora UFMG Belo Hori-zonte
Castaneda Daniel F N 2013 43
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3843
22 Metodologia 2 R E ECONOMETRIA
por que alem do consumo outras variaveis afetam o valor pago por exemplo
os dias de consumo o perıodo de reforma da casa ou a inflacao podendoalterar o valor pago pelo consumo
224 Nıvel de significancia
Denominado de α frequentemente usa-se α = 005 em situacoes derisco usa-se α = 001 Em testes bicaudais divide-se α em duas partes elocalizam-se nos extremos da distribuicao de prova Para testes unicaudaislocaliza-se no extremo da distribuicao indicada pela hipotese alternativaNosso exemplo α = 005 e por tanto α2 = 0025
225 Obtencao de Dados
Considere 65 observacoes (mes a mes) do consumo de agua em umaresidencia e o valor pago em reais durante o perıodo de 122005 a 042011Ver dados no apendice A Um plot e apresentado a seguir
10 15 20
2 0
3 0
4 0
5 0
6 0
7 0
Valor pago em reais de consumo de aacutegua
Variaacutevel independenteConsumo em m3
V a r i aacute v e l d e p e n d e n t e V a l o r p a g o
Y = minus12365+3007X
Figura 10 Relacao causal entre consumo e valor pago em reais
Podemos observar visualmente que ha uma relacao positiva entre valorpago e consumo de agua onde a variacao pelo consumo ou variacao dovalor pago (tangente) β 2 cresce positivamente Precisamos verificar se estavariacao β 2 e estatisticamente diferente de zero (significativa)
Castaneda Daniel F N 2013 38
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3943
22 Metodologia 2 R E ECONOMETRIA
226 Estatıstica de prova
Denominada de funcao pivo ou estatıstica de teste No ambito pa-rametrico usa-se as estatısticas t student (amostras pequenas) quando ne grande e indiferente o uso da t student ou normal No exemplo para tes-tar qual a inclinacao da variacao pelo consumo de agua usamos a seguinteestatıstica
t0 =β 2
dp(β 2)asymp tnminus2gl (12)
onde t0 e o valor calculado da estatıstica t β 2 e a estimativa do parametro(variacao pelo consumo) β 2 dp(β 2) e o desvio padrao da estimativa doparametro β 2 o valor t0 segue uma distribuicao t-student com nminus2 graus deliberdade(gl) Os graus de liberdade e calculado diferenciando o tamanhoda amostra com o numero de parametro do modelo (n-p) O valor quantılicotnminus2gl(0025) corresponde a distribuicao t-student com 0025 de significanciacom n minus 2 graus de liberdade e n e o numero total de observacoes Nossoexemplo β 2 = 3007 e dp(β 2) = 013 por tanto t0 = 2313 e comparadocom o valor da tabela da t-student com 63 gl e com α2 = 0025 sendo estevalor igual 19983
227 Tipos de erro
Ocorre o erro tipo I (α) ao se rejeitar a hipotese de nulidade quandodeveria aceita-la Por outro lado quando se aceita a hipotese de nulidadequando deveria rejeita-la comete-se o erro tipo II (β ) Nas duas situacoestomou-se uma decisao errada O interesse e a minimizacao dos erros tipo Ie II que na pratica so e possıvel aumentando-se o tamanho da amostra Porrazoes diversas o aumento do tamanho da amostra muitas vezes torna-se im-praticavel A gravidade do erro tipo I e distinta da do erro tipo II quando seconsegue identificar o erro mais grave a opcao e a minimizacao deste poremquando a probabilidade de ocorrencia de um tipo de erro diminui a do outroaumenta e vice versa Podemos observar este criterio na seguinte tabela
Nao rejeita rejeitaH0 verdadeira Correto (1 minus α) Erro do tipo I (α)H0 falsa Erro do tipo II (β ) Correto (1minus β )
Castaneda Daniel F N 2013 39
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4043
22 Metodologia 2 R E ECONOMETRIA
228 Regra de Decisao
Os pacotes ou plataformas estatısticas apresentam o valor observado dafuncao pivo e o p minus valor (Area de probabilidade esta relacionada comonıvel de significancia) assim a funcao pivo apresenta o valor numerico nafuncao de densidade da Estatıstica exemplo dentro da densidade da normalQuando o pvalor e menor do que α = 005 no caso do teste unicaudal (eα = 0025 no caso bicaudal) concluımos que nao ha evidencia suficiente paraaceitar H0 Caso contrario se o p minus valor for maior que α = 005 podemosconcluir que nao ha evidencia suficiente para rejeitar H0 Nosso exemplot0 = 2313 gt 1998 (1998 e valor da distribuicao t com 63 gl e nıvel designificancia bicaudal de 005) este valor localiza-se na cauda positiva da
distribuicao com 63 graus de liberdade(n minus 2 = 65 minus 2) Por outro lado o pminus valor lt 0025 por tanto nao ha evidencias para aceitar H0 em favor deaceitar que o coeficiente de inclinacao (ou tangente) e positiva No recorrerdo livro usaremos codigos para as medidas do pminusvalor que em geral apareceem todo comando summary() Como consequencia a linha que aparece aseguir sera excluıda das saıdas do R
Signif codes 0 0001 001 005 01 1
sera interpretada da seguinte maneira
bull 0 significancia menor que 0001
bull 0001 significancia menor que 001
bull 001 significancia menor que 005
bull 005 significancia menor que 01
bull 01 significancia menor que 1
229 Conclusoes
Esta parte do teste de hipoteses e explicada em conjunto O Estatıstico eo Economista que sao os profissionais da area em que as observacoes foramcoletadas decidem sobre as providencias futuras No exemplo podemosafirmar que a cada metro cubico a mais de consumo de agua sera pago emmedia 3 reais a mais No momento este valor pago pode parecer alto poremna falta de este liquido elementar este valor pode aumentar e por tantosofrera mudancas
Castaneda Daniel F N 2013 40
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4143
23 Previs˜ oes 2 R E ECONOMETRIA
23 Previsoes
Muitas vezes estamos interessados em determinar o que acontece quandouma quantidade de consumo de agua em m3 e utilizada e qual o valor pagoem reais Por exemplo se nosso interesse e saber quanto sera pago por 20m3
de consumo de agua em uma residencia A conta a realizar eValor pago = minus12365 + 3007 lowast 20 = 47775 reaisA interpretacao deste valor e em media o valor pago em reais por 20m3 deagua consumida e de aproximadamente 478 reais
231 Resıduos
Uma questao fundamental em econometria e identificar o comportamentodos resıduos de um modelo Considere Y o valor real pago e Y valor pagoestimado a partir de um modelo entao este erro e aleatorio e definido por
ϵi = Y i minus Y i (13)
A abordagem mais formal dos erros e feita nos proximos capıtulosUma questao importante e determinar qual o comportamento da estima-tiva destes erros aos quais chamamos de resıduos Para determinar a nor-malidade dos resıduos realizamos o teste de Jarque Bera com a funcao
jarqueberatest() da biblioteca tseries com o seguinte grafico
minus2 minus1 0 1 2
minus 5
0
5
1 0
resiacuteduos do modelo valor= f(consumo)
Theoretical Quantiles
S a m p l e Q u a n t i l e s
Figura 11 Normalidade dos resıduos
Castaneda Daniel F N 2013 41
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4243
24 Exercıcios REFER ENCIAS
24 Exercıcios
1 Por que a econometria precisa ser uma disciplina autonoma
2 Que e econometria
3 Pesquise dados de corte transversal corte longitudinal e de painel
4 Construa uma metodologia econometrica para o consumo familiar emfuncao da renda familiar (linear)
5 No item anterior e possıvel encontrar uma relacao quadratica
6 Quais sao os pressupostos basicos de um modelo de regressao linear
simples
7 Como e chamado o parametro de inclinacao ou tangente num modelode regressao linear simples em econometria
8 Que e o projeto R
9 R e um programa econometrico
Referencias
[1] Albert Jim (2009) Bayesian computation with R Editora SpringerSecond Edition New York USA
[2] Borde Arvind (1992) TEX by example A beginneracutes guide Ed Aca-demic Press Professional United States of America
[3] Carneiro Orlando (1997) Econometria Bacute asica Teoria e Aplicac˜ oes Editora Atlas Segunda Edicao son Paulo
[4] Conover W J (1999) Practical nonparametric statistics 3ed NewYork
[5] Cribari Neto F (2002) C for Econometricians conputational Econo-
mics 14 p135-149
[6] Dalgaard Peter(2008) Introductory Statistics with R Editora SpringerSecond Edition New York USA
[7] Ehlers Ricardo(2007) Analise de series Temporais Universidade Fe-deral do Parana
Castaneda Daniel F N 2013 42
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4343
REFER ENCIAS REFER ENCIAS
[8] Frery Alejandro Cribari-Neto Francisco(2011)Elementos de
Estatıstica conputacional Usando Plataformas de Software Li-vreGratuito Publicacoes Matematicas Editora IMPA
[9] Gujarati Damodar N (2000) Econometria Bacute asica Makron Books Ter-ceira Edicao son Paulo
[10] Knuth DE (1981)The Art of conputer Programming Third EditionVolume 2 Seminumerical Algorithms Addison-Wesley Publishingconpany Massachusetts
[11] Korgi Rodrigo de Castro (2003) El universo LAT E X Editora Facultadde Ciencias Segunda Edicao Bogota
[12] Krawczyk H How to Predict Congruential Generators InJournal of Algorithms V 13 N 4 1992
[13] LrsquoEcuyer P (2001) Software for uniform random number generationdistinguishing the good and the bad In Proceedings of the 2001 WinterSimulation Conference
[14] Maindonald John Braun W John(2010) Data analysis and graphics using R an example-based approach Cambridge University Press NewYork USA
[15] Mingoti(2005)Analise De Dados Atraves De Metodos De Estatistica Multivariada - Uma Abordagem Aplicada Editora UFMG Belo Hori-zonte
Castaneda Daniel F N 2013 43
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 3943
22 Metodologia 2 R E ECONOMETRIA
226 Estatıstica de prova
Denominada de funcao pivo ou estatıstica de teste No ambito pa-rametrico usa-se as estatısticas t student (amostras pequenas) quando ne grande e indiferente o uso da t student ou normal No exemplo para tes-tar qual a inclinacao da variacao pelo consumo de agua usamos a seguinteestatıstica
t0 =β 2
dp(β 2)asymp tnminus2gl (12)
onde t0 e o valor calculado da estatıstica t β 2 e a estimativa do parametro(variacao pelo consumo) β 2 dp(β 2) e o desvio padrao da estimativa doparametro β 2 o valor t0 segue uma distribuicao t-student com nminus2 graus deliberdade(gl) Os graus de liberdade e calculado diferenciando o tamanhoda amostra com o numero de parametro do modelo (n-p) O valor quantılicotnminus2gl(0025) corresponde a distribuicao t-student com 0025 de significanciacom n minus 2 graus de liberdade e n e o numero total de observacoes Nossoexemplo β 2 = 3007 e dp(β 2) = 013 por tanto t0 = 2313 e comparadocom o valor da tabela da t-student com 63 gl e com α2 = 0025 sendo estevalor igual 19983
227 Tipos de erro
Ocorre o erro tipo I (α) ao se rejeitar a hipotese de nulidade quandodeveria aceita-la Por outro lado quando se aceita a hipotese de nulidadequando deveria rejeita-la comete-se o erro tipo II (β ) Nas duas situacoestomou-se uma decisao errada O interesse e a minimizacao dos erros tipo Ie II que na pratica so e possıvel aumentando-se o tamanho da amostra Porrazoes diversas o aumento do tamanho da amostra muitas vezes torna-se im-praticavel A gravidade do erro tipo I e distinta da do erro tipo II quando seconsegue identificar o erro mais grave a opcao e a minimizacao deste poremquando a probabilidade de ocorrencia de um tipo de erro diminui a do outroaumenta e vice versa Podemos observar este criterio na seguinte tabela
Nao rejeita rejeitaH0 verdadeira Correto (1 minus α) Erro do tipo I (α)H0 falsa Erro do tipo II (β ) Correto (1minus β )
Castaneda Daniel F N 2013 39
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4043
22 Metodologia 2 R E ECONOMETRIA
228 Regra de Decisao
Os pacotes ou plataformas estatısticas apresentam o valor observado dafuncao pivo e o p minus valor (Area de probabilidade esta relacionada comonıvel de significancia) assim a funcao pivo apresenta o valor numerico nafuncao de densidade da Estatıstica exemplo dentro da densidade da normalQuando o pvalor e menor do que α = 005 no caso do teste unicaudal (eα = 0025 no caso bicaudal) concluımos que nao ha evidencia suficiente paraaceitar H0 Caso contrario se o p minus valor for maior que α = 005 podemosconcluir que nao ha evidencia suficiente para rejeitar H0 Nosso exemplot0 = 2313 gt 1998 (1998 e valor da distribuicao t com 63 gl e nıvel designificancia bicaudal de 005) este valor localiza-se na cauda positiva da
distribuicao com 63 graus de liberdade(n minus 2 = 65 minus 2) Por outro lado o pminus valor lt 0025 por tanto nao ha evidencias para aceitar H0 em favor deaceitar que o coeficiente de inclinacao (ou tangente) e positiva No recorrerdo livro usaremos codigos para as medidas do pminusvalor que em geral apareceem todo comando summary() Como consequencia a linha que aparece aseguir sera excluıda das saıdas do R
Signif codes 0 0001 001 005 01 1
sera interpretada da seguinte maneira
bull 0 significancia menor que 0001
bull 0001 significancia menor que 001
bull 001 significancia menor que 005
bull 005 significancia menor que 01
bull 01 significancia menor que 1
229 Conclusoes
Esta parte do teste de hipoteses e explicada em conjunto O Estatıstico eo Economista que sao os profissionais da area em que as observacoes foramcoletadas decidem sobre as providencias futuras No exemplo podemosafirmar que a cada metro cubico a mais de consumo de agua sera pago emmedia 3 reais a mais No momento este valor pago pode parecer alto poremna falta de este liquido elementar este valor pode aumentar e por tantosofrera mudancas
Castaneda Daniel F N 2013 40
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4143
23 Previs˜ oes 2 R E ECONOMETRIA
23 Previsoes
Muitas vezes estamos interessados em determinar o que acontece quandouma quantidade de consumo de agua em m3 e utilizada e qual o valor pagoem reais Por exemplo se nosso interesse e saber quanto sera pago por 20m3
de consumo de agua em uma residencia A conta a realizar eValor pago = minus12365 + 3007 lowast 20 = 47775 reaisA interpretacao deste valor e em media o valor pago em reais por 20m3 deagua consumida e de aproximadamente 478 reais
231 Resıduos
Uma questao fundamental em econometria e identificar o comportamentodos resıduos de um modelo Considere Y o valor real pago e Y valor pagoestimado a partir de um modelo entao este erro e aleatorio e definido por
ϵi = Y i minus Y i (13)
A abordagem mais formal dos erros e feita nos proximos capıtulosUma questao importante e determinar qual o comportamento da estima-tiva destes erros aos quais chamamos de resıduos Para determinar a nor-malidade dos resıduos realizamos o teste de Jarque Bera com a funcao
jarqueberatest() da biblioteca tseries com o seguinte grafico
minus2 minus1 0 1 2
minus 5
0
5
1 0
resiacuteduos do modelo valor= f(consumo)
Theoretical Quantiles
S a m p l e Q u a n t i l e s
Figura 11 Normalidade dos resıduos
Castaneda Daniel F N 2013 41
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4243
24 Exercıcios REFER ENCIAS
24 Exercıcios
1 Por que a econometria precisa ser uma disciplina autonoma
2 Que e econometria
3 Pesquise dados de corte transversal corte longitudinal e de painel
4 Construa uma metodologia econometrica para o consumo familiar emfuncao da renda familiar (linear)
5 No item anterior e possıvel encontrar uma relacao quadratica
6 Quais sao os pressupostos basicos de um modelo de regressao linear
simples
7 Como e chamado o parametro de inclinacao ou tangente num modelode regressao linear simples em econometria
8 Que e o projeto R
9 R e um programa econometrico
Referencias
[1] Albert Jim (2009) Bayesian computation with R Editora SpringerSecond Edition New York USA
[2] Borde Arvind (1992) TEX by example A beginneracutes guide Ed Aca-demic Press Professional United States of America
[3] Carneiro Orlando (1997) Econometria Bacute asica Teoria e Aplicac˜ oes Editora Atlas Segunda Edicao son Paulo
[4] Conover W J (1999) Practical nonparametric statistics 3ed NewYork
[5] Cribari Neto F (2002) C for Econometricians conputational Econo-
mics 14 p135-149
[6] Dalgaard Peter(2008) Introductory Statistics with R Editora SpringerSecond Edition New York USA
[7] Ehlers Ricardo(2007) Analise de series Temporais Universidade Fe-deral do Parana
Castaneda Daniel F N 2013 42
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4343
REFER ENCIAS REFER ENCIAS
[8] Frery Alejandro Cribari-Neto Francisco(2011)Elementos de
Estatıstica conputacional Usando Plataformas de Software Li-vreGratuito Publicacoes Matematicas Editora IMPA
[9] Gujarati Damodar N (2000) Econometria Bacute asica Makron Books Ter-ceira Edicao son Paulo
[10] Knuth DE (1981)The Art of conputer Programming Third EditionVolume 2 Seminumerical Algorithms Addison-Wesley Publishingconpany Massachusetts
[11] Korgi Rodrigo de Castro (2003) El universo LAT E X Editora Facultadde Ciencias Segunda Edicao Bogota
[12] Krawczyk H How to Predict Congruential Generators InJournal of Algorithms V 13 N 4 1992
[13] LrsquoEcuyer P (2001) Software for uniform random number generationdistinguishing the good and the bad In Proceedings of the 2001 WinterSimulation Conference
[14] Maindonald John Braun W John(2010) Data analysis and graphics using R an example-based approach Cambridge University Press NewYork USA
[15] Mingoti(2005)Analise De Dados Atraves De Metodos De Estatistica Multivariada - Uma Abordagem Aplicada Editora UFMG Belo Hori-zonte
Castaneda Daniel F N 2013 43
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4043
22 Metodologia 2 R E ECONOMETRIA
228 Regra de Decisao
Os pacotes ou plataformas estatısticas apresentam o valor observado dafuncao pivo e o p minus valor (Area de probabilidade esta relacionada comonıvel de significancia) assim a funcao pivo apresenta o valor numerico nafuncao de densidade da Estatıstica exemplo dentro da densidade da normalQuando o pvalor e menor do que α = 005 no caso do teste unicaudal (eα = 0025 no caso bicaudal) concluımos que nao ha evidencia suficiente paraaceitar H0 Caso contrario se o p minus valor for maior que α = 005 podemosconcluir que nao ha evidencia suficiente para rejeitar H0 Nosso exemplot0 = 2313 gt 1998 (1998 e valor da distribuicao t com 63 gl e nıvel designificancia bicaudal de 005) este valor localiza-se na cauda positiva da
distribuicao com 63 graus de liberdade(n minus 2 = 65 minus 2) Por outro lado o pminus valor lt 0025 por tanto nao ha evidencias para aceitar H0 em favor deaceitar que o coeficiente de inclinacao (ou tangente) e positiva No recorrerdo livro usaremos codigos para as medidas do pminusvalor que em geral apareceem todo comando summary() Como consequencia a linha que aparece aseguir sera excluıda das saıdas do R
Signif codes 0 0001 001 005 01 1
sera interpretada da seguinte maneira
bull 0 significancia menor que 0001
bull 0001 significancia menor que 001
bull 001 significancia menor que 005
bull 005 significancia menor que 01
bull 01 significancia menor que 1
229 Conclusoes
Esta parte do teste de hipoteses e explicada em conjunto O Estatıstico eo Economista que sao os profissionais da area em que as observacoes foramcoletadas decidem sobre as providencias futuras No exemplo podemosafirmar que a cada metro cubico a mais de consumo de agua sera pago emmedia 3 reais a mais No momento este valor pago pode parecer alto poremna falta de este liquido elementar este valor pode aumentar e por tantosofrera mudancas
Castaneda Daniel F N 2013 40
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4143
23 Previs˜ oes 2 R E ECONOMETRIA
23 Previsoes
Muitas vezes estamos interessados em determinar o que acontece quandouma quantidade de consumo de agua em m3 e utilizada e qual o valor pagoem reais Por exemplo se nosso interesse e saber quanto sera pago por 20m3
de consumo de agua em uma residencia A conta a realizar eValor pago = minus12365 + 3007 lowast 20 = 47775 reaisA interpretacao deste valor e em media o valor pago em reais por 20m3 deagua consumida e de aproximadamente 478 reais
231 Resıduos
Uma questao fundamental em econometria e identificar o comportamentodos resıduos de um modelo Considere Y o valor real pago e Y valor pagoestimado a partir de um modelo entao este erro e aleatorio e definido por
ϵi = Y i minus Y i (13)
A abordagem mais formal dos erros e feita nos proximos capıtulosUma questao importante e determinar qual o comportamento da estima-tiva destes erros aos quais chamamos de resıduos Para determinar a nor-malidade dos resıduos realizamos o teste de Jarque Bera com a funcao
jarqueberatest() da biblioteca tseries com o seguinte grafico
minus2 minus1 0 1 2
minus 5
0
5
1 0
resiacuteduos do modelo valor= f(consumo)
Theoretical Quantiles
S a m p l e Q u a n t i l e s
Figura 11 Normalidade dos resıduos
Castaneda Daniel F N 2013 41
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4243
24 Exercıcios REFER ENCIAS
24 Exercıcios
1 Por que a econometria precisa ser uma disciplina autonoma
2 Que e econometria
3 Pesquise dados de corte transversal corte longitudinal e de painel
4 Construa uma metodologia econometrica para o consumo familiar emfuncao da renda familiar (linear)
5 No item anterior e possıvel encontrar uma relacao quadratica
6 Quais sao os pressupostos basicos de um modelo de regressao linear
simples
7 Como e chamado o parametro de inclinacao ou tangente num modelode regressao linear simples em econometria
8 Que e o projeto R
9 R e um programa econometrico
Referencias
[1] Albert Jim (2009) Bayesian computation with R Editora SpringerSecond Edition New York USA
[2] Borde Arvind (1992) TEX by example A beginneracutes guide Ed Aca-demic Press Professional United States of America
[3] Carneiro Orlando (1997) Econometria Bacute asica Teoria e Aplicac˜ oes Editora Atlas Segunda Edicao son Paulo
[4] Conover W J (1999) Practical nonparametric statistics 3ed NewYork
[5] Cribari Neto F (2002) C for Econometricians conputational Econo-
mics 14 p135-149
[6] Dalgaard Peter(2008) Introductory Statistics with R Editora SpringerSecond Edition New York USA
[7] Ehlers Ricardo(2007) Analise de series Temporais Universidade Fe-deral do Parana
Castaneda Daniel F N 2013 42
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4343
REFER ENCIAS REFER ENCIAS
[8] Frery Alejandro Cribari-Neto Francisco(2011)Elementos de
Estatıstica conputacional Usando Plataformas de Software Li-vreGratuito Publicacoes Matematicas Editora IMPA
[9] Gujarati Damodar N (2000) Econometria Bacute asica Makron Books Ter-ceira Edicao son Paulo
[10] Knuth DE (1981)The Art of conputer Programming Third EditionVolume 2 Seminumerical Algorithms Addison-Wesley Publishingconpany Massachusetts
[11] Korgi Rodrigo de Castro (2003) El universo LAT E X Editora Facultadde Ciencias Segunda Edicao Bogota
[12] Krawczyk H How to Predict Congruential Generators InJournal of Algorithms V 13 N 4 1992
[13] LrsquoEcuyer P (2001) Software for uniform random number generationdistinguishing the good and the bad In Proceedings of the 2001 WinterSimulation Conference
[14] Maindonald John Braun W John(2010) Data analysis and graphics using R an example-based approach Cambridge University Press NewYork USA
[15] Mingoti(2005)Analise De Dados Atraves De Metodos De Estatistica Multivariada - Uma Abordagem Aplicada Editora UFMG Belo Hori-zonte
Castaneda Daniel F N 2013 43
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4143
23 Previs˜ oes 2 R E ECONOMETRIA
23 Previsoes
Muitas vezes estamos interessados em determinar o que acontece quandouma quantidade de consumo de agua em m3 e utilizada e qual o valor pagoem reais Por exemplo se nosso interesse e saber quanto sera pago por 20m3
de consumo de agua em uma residencia A conta a realizar eValor pago = minus12365 + 3007 lowast 20 = 47775 reaisA interpretacao deste valor e em media o valor pago em reais por 20m3 deagua consumida e de aproximadamente 478 reais
231 Resıduos
Uma questao fundamental em econometria e identificar o comportamentodos resıduos de um modelo Considere Y o valor real pago e Y valor pagoestimado a partir de um modelo entao este erro e aleatorio e definido por
ϵi = Y i minus Y i (13)
A abordagem mais formal dos erros e feita nos proximos capıtulosUma questao importante e determinar qual o comportamento da estima-tiva destes erros aos quais chamamos de resıduos Para determinar a nor-malidade dos resıduos realizamos o teste de Jarque Bera com a funcao
jarqueberatest() da biblioteca tseries com o seguinte grafico
minus2 minus1 0 1 2
minus 5
0
5
1 0
resiacuteduos do modelo valor= f(consumo)
Theoretical Quantiles
S a m p l e Q u a n t i l e s
Figura 11 Normalidade dos resıduos
Castaneda Daniel F N 2013 41
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4243
24 Exercıcios REFER ENCIAS
24 Exercıcios
1 Por que a econometria precisa ser uma disciplina autonoma
2 Que e econometria
3 Pesquise dados de corte transversal corte longitudinal e de painel
4 Construa uma metodologia econometrica para o consumo familiar emfuncao da renda familiar (linear)
5 No item anterior e possıvel encontrar uma relacao quadratica
6 Quais sao os pressupostos basicos de um modelo de regressao linear
simples
7 Como e chamado o parametro de inclinacao ou tangente num modelode regressao linear simples em econometria
8 Que e o projeto R
9 R e um programa econometrico
Referencias
[1] Albert Jim (2009) Bayesian computation with R Editora SpringerSecond Edition New York USA
[2] Borde Arvind (1992) TEX by example A beginneracutes guide Ed Aca-demic Press Professional United States of America
[3] Carneiro Orlando (1997) Econometria Bacute asica Teoria e Aplicac˜ oes Editora Atlas Segunda Edicao son Paulo
[4] Conover W J (1999) Practical nonparametric statistics 3ed NewYork
[5] Cribari Neto F (2002) C for Econometricians conputational Econo-
mics 14 p135-149
[6] Dalgaard Peter(2008) Introductory Statistics with R Editora SpringerSecond Edition New York USA
[7] Ehlers Ricardo(2007) Analise de series Temporais Universidade Fe-deral do Parana
Castaneda Daniel F N 2013 42
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4343
REFER ENCIAS REFER ENCIAS
[8] Frery Alejandro Cribari-Neto Francisco(2011)Elementos de
Estatıstica conputacional Usando Plataformas de Software Li-vreGratuito Publicacoes Matematicas Editora IMPA
[9] Gujarati Damodar N (2000) Econometria Bacute asica Makron Books Ter-ceira Edicao son Paulo
[10] Knuth DE (1981)The Art of conputer Programming Third EditionVolume 2 Seminumerical Algorithms Addison-Wesley Publishingconpany Massachusetts
[11] Korgi Rodrigo de Castro (2003) El universo LAT E X Editora Facultadde Ciencias Segunda Edicao Bogota
[12] Krawczyk H How to Predict Congruential Generators InJournal of Algorithms V 13 N 4 1992
[13] LrsquoEcuyer P (2001) Software for uniform random number generationdistinguishing the good and the bad In Proceedings of the 2001 WinterSimulation Conference
[14] Maindonald John Braun W John(2010) Data analysis and graphics using R an example-based approach Cambridge University Press NewYork USA
[15] Mingoti(2005)Analise De Dados Atraves De Metodos De Estatistica Multivariada - Uma Abordagem Aplicada Editora UFMG Belo Hori-zonte
Castaneda Daniel F N 2013 43
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4243
24 Exercıcios REFER ENCIAS
24 Exercıcios
1 Por que a econometria precisa ser uma disciplina autonoma
2 Que e econometria
3 Pesquise dados de corte transversal corte longitudinal e de painel
4 Construa uma metodologia econometrica para o consumo familiar emfuncao da renda familiar (linear)
5 No item anterior e possıvel encontrar uma relacao quadratica
6 Quais sao os pressupostos basicos de um modelo de regressao linear
simples
7 Como e chamado o parametro de inclinacao ou tangente num modelode regressao linear simples em econometria
8 Que e o projeto R
9 R e um programa econometrico
Referencias
[1] Albert Jim (2009) Bayesian computation with R Editora SpringerSecond Edition New York USA
[2] Borde Arvind (1992) TEX by example A beginneracutes guide Ed Aca-demic Press Professional United States of America
[3] Carneiro Orlando (1997) Econometria Bacute asica Teoria e Aplicac˜ oes Editora Atlas Segunda Edicao son Paulo
[4] Conover W J (1999) Practical nonparametric statistics 3ed NewYork
[5] Cribari Neto F (2002) C for Econometricians conputational Econo-
mics 14 p135-149
[6] Dalgaard Peter(2008) Introductory Statistics with R Editora SpringerSecond Edition New York USA
[7] Ehlers Ricardo(2007) Analise de series Temporais Universidade Fe-deral do Parana
Castaneda Daniel F N 2013 42
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4343
REFER ENCIAS REFER ENCIAS
[8] Frery Alejandro Cribari-Neto Francisco(2011)Elementos de
Estatıstica conputacional Usando Plataformas de Software Li-vreGratuito Publicacoes Matematicas Editora IMPA
[9] Gujarati Damodar N (2000) Econometria Bacute asica Makron Books Ter-ceira Edicao son Paulo
[10] Knuth DE (1981)The Art of conputer Programming Third EditionVolume 2 Seminumerical Algorithms Addison-Wesley Publishingconpany Massachusetts
[11] Korgi Rodrigo de Castro (2003) El universo LAT E X Editora Facultadde Ciencias Segunda Edicao Bogota
[12] Krawczyk H How to Predict Congruential Generators InJournal of Algorithms V 13 N 4 1992
[13] LrsquoEcuyer P (2001) Software for uniform random number generationdistinguishing the good and the bad In Proceedings of the 2001 WinterSimulation Conference
[14] Maindonald John Braun W John(2010) Data analysis and graphics using R an example-based approach Cambridge University Press NewYork USA
[15] Mingoti(2005)Analise De Dados Atraves De Metodos De Estatistica Multivariada - Uma Abordagem Aplicada Editora UFMG Belo Hori-zonte
Castaneda Daniel F N 2013 43
8162019 Alguns Comandos No R Aula 1 Minicurso
httpslidepdfcomreaderfullalguns-comandos-no-r-aula-1-minicurso 4343
REFER ENCIAS REFER ENCIAS
[8] Frery Alejandro Cribari-Neto Francisco(2011)Elementos de
Estatıstica conputacional Usando Plataformas de Software Li-vreGratuito Publicacoes Matematicas Editora IMPA
[9] Gujarati Damodar N (2000) Econometria Bacute asica Makron Books Ter-ceira Edicao son Paulo
[10] Knuth DE (1981)The Art of conputer Programming Third EditionVolume 2 Seminumerical Algorithms Addison-Wesley Publishingconpany Massachusetts
[11] Korgi Rodrigo de Castro (2003) El universo LAT E X Editora Facultadde Ciencias Segunda Edicao Bogota
[12] Krawczyk H How to Predict Congruential Generators InJournal of Algorithms V 13 N 4 1992
[13] LrsquoEcuyer P (2001) Software for uniform random number generationdistinguishing the good and the bad In Proceedings of the 2001 WinterSimulation Conference
[14] Maindonald John Braun W John(2010) Data analysis and graphics using R an example-based approach Cambridge University Press NewYork USA
[15] Mingoti(2005)Analise De Dados Atraves De Metodos De Estatistica Multivariada - Uma Abordagem Aplicada Editora UFMG Belo Hori-zonte
Castaneda Daniel F N 2013 43
top related