Корреляционный анализ в системе r

14
Тема 7 Сергей Мастицкий БГУ, Минск, май 2014

Upload: sergey-mastitsky

Post on 25-Jun-2015

646 views

Category:

Data & Analytics


6 download

DESCRIPTION

Приведены примеры выполнения корреляционного анализа в среде статистических вычислений R.

TRANSCRIPT

Page 1: Корреляционный анализ в системе R

Тема 7

Сергей Мастицкий БГУ, Минск, май 2014

Page 2: Корреляционный анализ в системе R

Корреляция отражает степень связи

между двумя переменными

Коэффициент корреляции выражает эту

степень количественно

-1 ≤ r ≤ +1

Author: Sergey Mastitsky

Page 3: Корреляционный анализ в системе R

Author: Sergey Mastitsky

Много примеров здесь: http://www.tylervigen.com/

Page 4: Корреляционный анализ в системе R

7.1. Коэффициент корреляции Пирсона

Подробнее см.: http://r-analytics.blogspot.de/2012/09/blog-post_6280.html

Page 5: Корреляционный анализ в системе R

Предполагает, что:

обе переменные распределены нормально

связь линейна

Коэффициент корреляции Пирсона основан

на расчете ковариации между двумя

переменными:

22 )()(

))((

yyxx

yyxxr

ii

ii

Author: Sergey Mastitsky

Page 6: Корреляционный анализ в системе R

> setwd("~/Introductory R

Course/R_Course_Datasets")

В RStudio:

Environment -> Load Workspace… -> … pH_experiment.rda

Author: Sergey Mastitsky

Page 7: Корреляционный анализ в системе R

> logL <- log(LWdata$Length)

> logW <- log(LWdata$Weight)

> cor(logL, logW)

[1] 0.9807

# Если бы имелись отсутствующие значения: > cor(logL, logW,

use = "complete.obs") # Для расчета r между всеми количественными

переменными в таблице данных, следует просто подать эту таблицу на функцию cor()

Author: Sergey Mastitsky

Page 8: Корреляционный анализ в системе R

> cor.test(logL, logW)

Author: Sergey Mastitsky

Page 9: Корреляционный анализ в системе R

7.2. Коэффициент корреляции Спирмена ()

Page 10: Корреляционный анализ в системе R

Author: Sergey Mastitsky

2.5 3.0 3.5

-4

-3

-2

-1

0

log scale

logL

logW

10 15 20 25 30 35

0.0

0

.4

0.8

1

.2

original scale

Length

Weig

ht

Page 11: Корреляционный анализ в системе R

Histogram of logL

logL

Fre

quency

2.0 2.5 3.0 3.5

020

40

60

Histogram of logW

logW

Fre

quency

-4 -3 -2 -1 0

020

40

60

Histogram of exp(logL)

Length

Fre

quency

5 10 15 20 25 30 35

010

20

30

40

Histogram of exp(logW)

Weight

Fre

quency

0.0 0.2 0.4 0.6 0.8 1.0 1.2

040

80

120

Author: Sergey Mastitsky

Page 12: Корреляционный анализ в системе R

Не предполагает, что данные

распределены каким-то особым образом

Вместо исходных значений использует их

ранги

(!) Интерпретация не настолько проста,

как в случае с коэффициентом Пирсона

(т.к. связь необязательно линейна)

Author: Sergey Mastitsky

Page 13: Корреляционный анализ в системе R

> cor(logL, logW,

method = "spearman")

[1] 0.98196

Author: Sergey Mastitsky

Page 14: Корреляционный анализ в системе R

> cor.test(logL, logW,

method = "spearman")

Author: Sergey Mastitsky