148.примеры решения задач по дисциплине «эконометрика» ...

1

Министерство образования и науки Российской Федерации Ярославский государственный университет им. П.Г. Демидова

Кафедра мировой экономики и статистики

Примеры решения задач по дисциплине «Эконометрика»

Методические указания

Ярославль 2004

Copyright ОАО «ЦКБ «БИБКОМ» & ООО «Aгентство Kнига-Cервис»

2

ББК У.в611я73-4 П 75 УДК 330.43(076.2) Составитель О.В. Зеткина Примеры решения задач по дисциплине «Эконометрика»:

Метод. указания / Сост. О.В. Зеткина; Яросл. гос. ун-т. Ярославль, 2004. 32 с.

Методические указания являются важным элементом в системе

обеспечения базовых дисциплин необходимыми учебно-методиче-скими материалами. Они созданы для методической поддержки прак-тических занятий, проводимых преподавателями кафедры мировой экономики и статистики экономического факультета ЯрГУ им. П.Г. Демидова. Служат для оказания практической помощи в ре-шении наиболее распространенных задач по дисциплине «Экономет-рика».

Рекомендуется для студентов, обучающихся по специальностям 060500 Бухгалтерский учет, анализ и аудит, 060600 Мировая эконо-мика (дисциплина «Эконометрика», блок ЕН), очной формы обуче-ния.

Рецензент: кафедра мировой экономики и статистики Ярослав-

ского государственного университета им. П.Г. Демидова.

© Ярославский государственный университет, 2004 © О.В. Зеткина, 2004


3

Введение «Эконометрика» как самостоятельная дисциплина введена Госу-

дарственными образовательными стандартами высшего профессио-нального образования по специальностям «Мировая экономика», «Бух-галтерский учет и аудит», «Менеджмент» в 2000 году. В связи с малым практическим опытом преподавания «Эконометрики» весьма острой является проблема ее методического обеспечения. Так как зарождение «Эконометрики» стало следствием междисциплинарного подхода к изучению экономики в целом, то от студентов требуется значительная подготовка в области практического применения статистических и ма-тематических методов. Эконометрические модели и методы на совре-менном этапе - это не только мощный инструментарий для получения новых знаний в экономике, но и широко применяемый аппарат для принятия практических решений в прогнозировании деятельности предприятия, банковском деле, бизнесе. Изучение дисциплины «Эко-нометрика» предполагает достаточно свободное владение студентами соответствующими основными компьютерными программами, так как проведение эконометрических расчетов возможно лишь с использова-нием современных информационных технологий.

Методические указания созданы с целью обеспечения методиче-ской поддержки практических занятий, проводимых преподавателями кафедры мировой экономики и статистики экономического факульте-та ЯрГУ им. П.Г. Демидова. Пособие ориентировано на начальный курс эконометрики. Оно может оказать практическую помощь в ре-шении наиболее распространенных задач по дисциплине «Экономет-рика» для студентов всех форм обучения. В пособии рассматривают-ся такие вопросы, как построение эконометрических моделей, выбор метода оценки параметров модели, интерпретация результатов, полу-чение прогнозных оценок, принятие решений о спецификации и идентификации модели.

Принята следующая структура изложения материала: • Краткие методические комментарии, включающие основные

понятия, определения и формулы; • Решение типовых задач «вручную»; • Реализация типовых задач на компьютере с использованием

табличного процессора Exсel.


4

Часть 1. Теоретические аспекты курса «Эконометрика»

Тема 1. Основные понятия корреляционного и регрессионного анализа

Проблема изучения взаимосвязей экономических показателей яв-ляется одной из важнейших в экономическом анализе. Любая эконо-мическая политика заключается в регулировании экономических пе-ременных, и она должна основываться прежде всего на знании того, как эти переменные влияют на другие переменные, являющиеся клю-чевыми для принимающего решение политика. Так, в рыночной эко-номике не представляется возможным непосредственно регулировать темп инфляции, но на него можно воздействовать средствами бюд-жетно-налоговой и кредитно-денежной политики.

В наиболее общем виде при изучении взаимосвязей исследовате-ля интересует количественная оценка их наличия и направления, а также характеристика силы и формы влияния одних факторов на дру-гие. Для решения этого вопроса применяются две группы методов, одна из которых включает в себя методы корреляционного анализа, а другая - регрессионный анализ. В то же время ряд исследователей объединяют эти методы в корреляционно-регрессионный анализ, что объясняется наличием целого ряда схожих вычислительных проце-дур, взаимодополнения при интерпретации результатов, и др.

Задачи собственно корреляционного анализа сводятся к измере-нию тесноты связи между изменяющимися признаками, определе-нию неизвестных причинных связей и оценке факторов, оказываю-щих наибольшее влияние на результативный признак. Задачи регрес-сионного анализа лежат в сфере установления формы зависимости, определения функции регрессии, оценки неизвестных значений зави-симой переменной.

Решение указанных выше задач опирается на соответствующие приемы, алгоритмы, показатели, применение которых дает основание говорить о статистическом изучении взаимосвязей. Вычислительные процедуры представляют самостоятельный интерес, но знание прин-ципов изучения взаимосвязей, возможностей и ограничений тех или иных методов интерпретации результатов являются обязательным условием исследования.


5

Невозможно строить, проверять или улучшать экономические модели без статистического анализа их переменных с использовани-ем реальных статистических данных. Вся сфера экономических ис-следований может быть в определенном смысле охарактеризована как изучение взаимосвязей экономических переменных. При этом инструментарием их базового анализа являются методы статистики и эконометрики.

Методы оценки тесноты связи подразделяются на корреляцион-ные (параметрические) и непараметрические. Параметрические мето-ды основаны на использовании, как правило, оценок нормального распределения и применяются в случаях, когда изучаемая совокуп-ность состоит из величин, которые подчиняются закону нормального распределения. Непараметрические методы не накладывают ограни-чений на закон распределения изучаемых величин.

Простейшим приемом выявления связи между изучаемыми при-знаками х и у является построение корреляционной таблицы. Ее на-глядным изображением служит корреляционное поле, представляю-щее собой график, где на оси абсцисс откладываются значения хi, по оси ординат – уi. По расположению точек, их концентрации в опреде-ленном направлении можно судить о наличии связи между изучае-мыми признаками х и у.

Последовательность точек хi (i = 1, …, n) и среднего значения уi, т.е. у, позволяет построить график, который иллюстрирует зависи-мость среднего значения результативного признака у от факторного х - эмпирическую линию регрессии.

По существу, корреляционная таблица, корреляционное поле, эмпирическая линия регрессии предварительно уже характеризуют взаимосвязь, когда выбраны факторный и результативный признаки и требуется сформулировать предположение о форме и направленности связи.

На практике для количественной оценки тесноты связи для ли-нейной регрессии используется линейный коэффициент парной кор-реляции rxy, (-1≤ rxy ≤ 1), который может определяться следующим образом:

yxyxy

xxy

xyyxyxbrσσσσσ

σ −===

),cov(; (1)


6

222

),cov(xx

xyyxyxbx −

−==

σ ; (2)

∑=

=n

iix

nx

1

1; ∑

=

=n

iiy

ny

1

1; i

n

ii xy

nyx ∑

=

=1

1, (3)

где b - коэффициент линейной регрессии ii bxay +=Λ

; σх, σу - среднее квадратическое отклонение соответствующей

случайной величины; σх

2 - дисперсия признака х. Ковариацией (или корреляционным моментом) случайных ве-

личин х и у называется математическое ожидание произведения от-клонений этих величин от своих математических ожиданий, т.е.:

)(( )[ ])()(),cov( yMyxMxMyx −−= , (4) где cov (x, y) - ковариация признаков х и у;

М(х), М(у) - математическое ожидание случайных величин х и у соответственно.

Для оценки тесноты связи нелинейной регрессии строится ин-декс корреляции ρху (0 ≤ ρху ≤ 1):

2

1

2

12

2

)(

)(11

уу

yу

i

n

i

ii

n

i

у

остху

−

−−=−=

∑

∑

=

Λ

=

σσρ , (5)

где ii bxay +=Λ

. (6) Коэффициент (индекс) корреляции является безразмерной вели-

чиной, так как его значение не зависит от выбора единиц измерения обеих переменных.

Близкая к нулю величина коэффициента корреляции свидетель-ствует об отсутствии линейной связи переменных, но не об отсутст-вии связи между ними вообще. Например, если показатель корреля-ции величин уровней инфляции и безработицы для периода 1970 - 1980-х годов для экономики некоторой страны практически равен ну-лю, не следует говорить сразу о независимости этих показателей в данный период. Следует попытаться построить более сложную мо-дель их связи, учитывающую, возможно, как нелинейность самой за-висимости, так и наличие в ней запаздываний во времени (лагов), а также инерционность динамики соответствующих величин.


7

Равенство нулю коэффициента корреляции для генеральной со-вокупности еще не означает, что он будет в точности нулевым для выборки. Наоборот, он обязательно будет отклоняться от истинного значения, но, чем больше такое отклонение, тем менее оно вероятно при данном объеме выборки. При каждом конкретном значении ко-эффициента корреляции величин х и у для генеральной совокупности выборочный коэффициент корреляции является случайной величиной. Следовательно, случайной величиной является также любая его функция, и требуется указать такую функцию, которая имела бы одно из известных распределений, удобное для табличного анализа. Для выборочного коэффициента корреляции rxy такой функцией является t-статистика, рассчитываемая по формуле

21

2

xy

xyr

nrt−

−=

(7)

и имеющая распределение Стьюдента с (n-2) степенями свободы. Число степеней свободы меньше числа наблюдений на 2, поскольку в формулу коэффициента корреляции входят средние значения х и у, для расчета которых используются две линейные формулы их зави-симости от наблюдений случайных величин. Для коэффициента кор-реляции будет проверяться нулевая гипотеза Н0, т.е. гипотеза о ра-венстве его нулю в генеральной совокупности (более подробно – см. следующую тему).

Тема 2. Статистическая проверка гипотез Оценку генерального параметра получают на основе выбороч-

ного показателя с учетом ошибки репрезентативности. Ошибка вы-борки – это разница между значениями показателя, полученного по выборке, и генеральным параметром. В другом случае в отношении свойств генеральной совокупности выдвигается некоторая гипотеза о величине средней, дисперсии, характере распределения, форме и тес-ноте связи между переменными. Проверка гипотезы осуществляется на основе выявления согласованности эмпирических данных с гипо-тетическими (теоретическими). Если расхождение между сравнивае-мыми величинами не выходит за пределы случайных ошибок, гипоте-зу принимают. При этом не делается никаких заключений относи-тельно правильности самой гипотезы, речь идет лишь о согласован-ности сравниваемых данных. Основой проверки статистических ги-


8

потез являются данные случайных выборок. При этом безразлично, оцениваются ли гипотезы в отношении реальной или гипотетической генеральной совокупности. Последнее открывает путь применения этого метода за пределами собственно выборки: при анализе резуль-татов эксперимента данных сплошного наблюдения, но малой чис-ленности. В этом случае рекомендуется проверить, не вызвана ли ус-тановленная закономерность стечением случайных обстоятельств, насколько она характерна для того комплекса условий, в которых на-ходится изучаемая совокупность.

Статистической гипотезой (обозначается Н) называется про-извольное предположение о свойстве генеральной совокупности, ко-торое проверяется, опираясь на данные выборки. Так может быть вы-двинута гипотеза о том, что средняя µ в генеральной совокупности равна некоторой величине а (записывается Н: µ = а) или о том, что генеральная средняя больше некоторой величины Н : µ > в.

Различают простые и сложные гипотезы. Гипотеза называется простой, если она однозначно характеризуется параметром распре-деления случайной величины. Например, Н: µ = а. Гипотеза называ-ется сложной, если она состоит из конечного или бесконечного чис-ла простых гипотез, при этом указывается некоторая область вероят-ных значений параметра. Например, Н: µ > в. Эта гипотеза состоит из множества простых гипотез Н: µ = с, где с – любое число, большее в.

Гипотезы о параметрах генеральной совокупности называются параметрическими, о распределениях – непараметрическими.

Гипотеза о том, что две совокупности, сравниваемые по одному или нескольким признакам, не отличаются, называется нулевой ги-потезой, или нуль-гипотезой (обозначается Н0). При этом предпола-гается, что действительное различие сравниваемых величин равно нулю, а выявленное по данным отличие от нуля носит случайный ха-рактер. Например, Н0: µ1 = µ2, и т.д.

Нулевая гипотеза отвергается в том случае, если по выборке получается результат, который при истинности выдвинутой нулевой гипотезы маловероятен. Границей невозможного или маловероятно-го обычно считают α = 0,05, т.е. 5%, или 0,01, 0,001. Если ориентиро-ваться на правило «трех сигм» (оно состоит в следующем: σ = 1/6 (хmах - хmin), так как в нормальном распределении в размахе вариации «укладывается» 6σ (±3σ)), то вероятность ошибки α должна быть равна 0,0027. Однако для этого уровня вероятности ошибки зна-


9

чений критериев редко табулируются: как правило, значения крите-риев в статистико-математических таблицах рассчитаны для вероят-ностей ошибки 0,05; 0,01; 0,001.

Статистическим критерием называют правило, устанавли-вающее условия отклонения проверяемой нулевой гипотезы.

Проверка статистических гипотез состоит из следующих эта-пов:

• формулируется в виде статистической гипотезы задача иссле-дования;

• выбирается статистическая характеристика гипотезы; • выбираются испытуемая и альтернативная гипотезы на основе

анализа возможных ошибочных явлений и их последствий; • определяется область допустимых значений, критическая об-

ласть, а также критическое значение статистического критерия (t; F; χ2) по соответствующей таблице;

• вычисляется фактическое значение статистического критерия; • проверяется гипотеза на основе сравнения фактического и кри-

тического значений критерия, и в зависимости от результатов про-верки гипотеза либо отклоняется, либо нет.

При проверке гипотез по одному из критериев возможны два ошибочных решения:

1) неправильное отклонение Н0: ошибка 1-го рода; 2) неправильное принятие Н0: ошибка 2-го рода. В то время как фактически Н0 верна (1) и Н0 не верна (2), прини-

мают два ошибочных решения: • Н0 отклоняется и принимается альтернативная гипотеза; • Н0 не отклоняется. Если, например, установлено, что новое минеральное удобрение

лучше, хотя на самом деле его действие не отличается от старого, то это ошибка 1-го рода. Если мы решили, что оба вида удобрения оди-наковы, то допущена ошибка 2-го рода.

Вероятности, соответствующие неверным решениям, называются риском 1 и риском 2. Риск 1 равен вероятности ошибки α (уровню значимости), риск 2 равен вероятности ошибки β. Поскольку α всегда больше 0, то всегда есть риск ошибки β. Обычно задают значение α и пытаются сделать β возможно малым. Вероятность 1-β называется


10

мощностью критерия: чем она больше, тем меньше вероятность ошибки 2-го рода.

Альтернативная гипотеза Н1 может быть сформулирована по-разному в зависимости от того, какие отклонения от гипотетической величины нас особенно беспокоят: положительные, отрицательные, либо и те, и другие. Соответственно альтернативные гипотезы могут быть записаны:

Н1: µ > а, Н1: µ < а, Н1: µ ≠ а.

Тема 3. Линейная регрессия. Оценка качества регрессионной модели

Начальным пунктом эконометрического анализа зависимостей обычно является оценка линейной зависимости переменных. Это объясняется простотой исследования линейной зависимости. Поэто-му проверка наличия такой зависимости, оценивание ее индикаторов и параметров является одним из важнейших направлений приложе-ния математической статистики.

Наиболее простым для изучения является случай взаимосвязи двух переменных х и у. Если это реальные статистические данные, то мы никогда не получим простую линию – линейную, квадратичную, экспоненциальную и т.д. Всегда будут присутствовать отклонения за-висимой переменной, вызванные ошибками измерения, влиянием не-учтенных величин или случайных факторов. Связь переменных, на которую накладываются воздействия случайных факторов, называет-ся статистической связью. Наличие такой связи заключается в том, что изменение одной переменной приводят к изменению математиче-ского ожидания другой переменной.

Выделяют два типа взаимосвязей между переменными х и у: 1) переменные равноправны, т.е. может быть неизвестно, какая из

двух переменных является независимой, а какая – зависимой; 2) две исследуемые переменные неравноправны, но одна из них

рассматривается как объясняющая (или независимая), а другая как объясняемая (или зависящая от первой).

В первом случае говорят о статистической взаимосвязи корреля-ционного типа. При этом возникают проблемы оценки связи между переменными. Например, связь показателей безработицы и инфляции в данной стране за определенный период времени. Может стоять во-


11

прос, связаны ли между собой эти показатели, и при положительном ответе на него встает задача нахождения формы связи. Вопрос о на-личии связи между экономическими переменными сводится к опре-делению конкретной формулы (спецификации) такой связи, устойчи-вой к изменению числа наблюдений. Для этого используются специ-альные статистические методы и, соответственно, показатели, значе-ния которых определенным образом (и с определенной вероятно-стью) свидетельствуют о наличии или отсутствии линейной связи между переменными.

Во втором случае, когда изменение одной из переменных служит причиной для изменения другой, должно быть оценено уравнение регрессии вида

y = f(x). (8) Уравнение регрессии – это формула статистической связи между

переменными. Формула статистической связи двух переменных на-зывается парной регрессией, зависимость от нескольких переменных - множественной регрессией. Например, Дж. Кейнсом была предло-жена линейная формула зависимости частного потребления С от рас-полагаемого личного дохода Yd : С = С0 + b Yd, где С0 > 0 – величина автономного потребления, 1> b >0 – предельная склонность к потреб-лению.

Выбор формулы связи переменных называется спецификацией уравнения регрессии. В данном случае выбрана линейная формула. Далее требуется оценить значения параметров и проверить надеж-ность оценок.

Построение уравнения регрессии сводится к оценке ее парамет-ров. Для оценки линейных параметров регрессий используют метод наименьших квадратов (МНК), который позволяет получить такие оценки параметров, при которых сумма квадратов отклонений факти-ческих значений yi результативного признака у от теоретических ŷi минимальна, т.е.

min)( 2

1→−

Λ

=∑ i

n

ii yy . (9)

В линейном случае ii bxay +=Λ

задача сводится к решению следую-щей системы линейных уравнений:


12

=+

=+

∑∑∑

∑∑

===

==

n

iii

n

ii

n

ii

n

ii

n

ii

xyxbxa

yxbna

11

2

1

11

(10)

Для нахождения а и в воспользуемся готовыми формулами, кото-рые легко получаются решением системы:

=+

=+

xyxbxa

yxba2 (11)

xbya −= , 2x

xyxybσ

⋅−⋅= . (12)

Оценку качества построенной модели даст коэффициент R2 =

rxy2 (R2 = ρxy

2 индекс) детерминации, а также средняя ошибка ап-проксимации:

%1001111 i

in

i

n

ii y

iyyn

An

AΛ

==

−== ∑∑ . (13)

Традиционно считается, что допустимый предел значений А не более 8 - 10%. В этом случае модель оценивается как достаточно точ-ная, в противном случае говорят о плохом качестве построенной мо-дели.

Одной из наиболее эффективных оценок адекватности регресси-онной модели, мерой качества уравнения регрессии, или, как гово-рят, мерой качества подгонки регрессионной модели к наблюдаемым значениям, характеристикой прогностической силы анализируемой регрессионной модели является коэффициент детерминации (0 ≤ R2 ≤ 1), определяемый по формуле:

QQ

QQR eR −== 12

. (14)

Коэффициент детерминации R2 показывает, какая часть (доля) дисперсии результативного признака у обусловлена вариацией объяс-няющей переменной. Показатель (1 - R2) характеризует долю диспер-сии у, вызванную влиянием остальных, не учтенных в модели факто-ров. Например, если R2 = 0,982, уравнением регрессии объясняется 98,2% результативного признака, а на долю прочих факторов прихо-


13

дится лишь 1,8% ее дисперсии (так называемая остаточная диспер-сия). Чем ближе значение R2 к единице, тем большую долю измене-ния результативного фактора у можно объяснить за счет вариации включенного в модель фактора х, меньше роль прочих факторов, и, следовательно, линейная модель хорошо аппроксимирует исходные данные (наблюдения «теснее примыкают» к линии регрессии), и мо-дель можно использовать для прогноза значений результативного признака.

Заметим, что коэффициент детерминации R2 имеет смысл рас-сматривать только при наличии свободного члена в уравнении рег-рессии, так как лишь в этом случае верны равенства:

Q = QR + Qe;

QQ

QQR eR −== 12 . (15)

Если известен коэффициент детерминации R2, то критерий зна-

чимости уравнения регрессии или самого коэффициента детермина-ции может быть записан в виде

2;1;2

2

)1)(1()(

kkFmRmnRF α>−−

−= . (16)

В случае парной линейной модели коэффициент детерминации

равен квадрату коэффициента корреляции. Тогда

общу

объяснуxyrR

.2

222

σσ

== . (17)

Существуют 2 этапа интерпретации уравнения регрессии. Первый состоит в словесном истолковании уравнения так, чтобы

оно было понятно человеку, не являющемуся специалистом в области эконометрики и статистики.

На втором этапе необходимо решить, следует ли ограничиться первым этапом или провести более детальное исследование зависи-мости.


14

1-й этап будет проиллюстрирован моделью регрессии для функ-ции спроса, т.е. регрессией между расходами потребителя на питание у и располагаемым личным доходом х по данным, приведенным в таблице 1 для США за период с 1959 по 1983 год1

Таблица 1 .

Личные потребительские расходы на питание населения

с 1959 по 1983 год Год 1959 1960 1961 1962 1963 1964 1965 1966 1967 1968 х 479,7 489,7 503,8 524,9 542,3 580,8 616,3 646,8 673,5 701,3 у 99,7 100,9 102,5 103,5 104,6 108,8 113,7 116,6 118,6 123,4

Год 1969 1970 1971 1972 1973 1974 1975 1976 1977 1978 х 722,5 751,6 779,2 810,3 865,3 858,4 875,8 906,8 942,9 988,8 у 125,9 129,4 130,0 132,4 129,4 128,1 132,3 139,7 145,2 146,1

Год 1979 1980 1981 1982 1983 среднее х 1015,5 1021,6 1049,3 1058,3 1095,4 780,032 у 149,3 153,2 153,0 154,6 161,2 128,084

Предположим, что истинная модель представлена в аддитивной

линейной форме вида: y = α + βx + u (18)

и оценена регрессия: xy 093,0009,55 +=Λ

Коэффициент при х, называемый коэффициентом наклона, пока-зывает, что если х увеличивается на одну единицу, то у возрастает на 0,093 единицы. Как х, так и у измеряются в миллиардах долларов в постоянных ценах, таким образом коэффициент наклона показывает, что если доход увеличивается на 1 млрд. дол., то расходы на питание возрастают на 93 млн. дол. Другими словами, из каждого дополни-тельного доллара дохода 9,3 цента будут израсходованы на питание. Относительно постоянной в уравнении а можно сказать, что она по-казывает прогнозируемый уровень у, когда х = 0. Если х = 0 находит-ся достаточно далеко от выборочных значений х, то буквальная ин-терпретация может привести к неверным результатам; даже если ли-ния регрессии достаточно точно описывает значения наблюдаемой

1 Данные взяты из учебника К. Доугерти «Введение в эконометрику».


15

выборки, нет гарантии, что так же будет при экстраполяции влево или вправо. В данном случае константа выполняет единственную функцию: она позволяет определить положение линии регрессии на графике.

Тема 4. Оценка существенности параметров линейной регрессии и корреляции. F-критерий

Фишера. Дисперсионный анализ После построения уравнения линейной регрессии проводится

оценка значимости как уравнения в целом, так и отдельных его пара-метров.

Проверить значимость уравнения регрессии – это установить, соответствует ли математическая модель, выражающая зависимость между переменными, экспериментальным данным и достаточно ли включенных в уравнение объясняющих переменных (одной или не-скольких) для описания зависимой переменной.

Оценка значимости уравнения регрессии в целом дается с помо-щью F-критерия Фишера. При этом выдвигается нулевая гипотеза, что коэффициент регрессии равен нулю, следовательно, фактор х не оказывает влияния на результат у.

Величина F-отношения (F-критерий) получается при сопостав-лении факторной и остаточной дисперсии в расчете на одну степень свободы.

F= Dфакт / Dост. (19) F-критерий проверки для нулевой гипотезы

Н0: Dфакт = Dост. (20) Если нулевая гипотеза справедлива, то факторная и остаточная

дисперсии не отличаются друг от друга. Для Н0 необходимо опро-вержение, если факторная дисперсия превышает остаточную в не-сколько раз.

Английским статистиком Снедекором разработаны таблицы кри-тических значений F-отношений при разных уровнях существенности нулевой гипотезы и различном числе степеней свободы. Табличное значение F-критерия – это максимальная величина отношения дис-персий, которая может иметь место при случайном их расхождении для данного уровня вероятности наличия нулевой гипотезы. Вычис-ленное значение F-отношения признается достоверным (отличным от


16

1), если оно больше табличного. В этом случае нулевая гипотеза об отсутствии связи признаков отклоняется и делается вывод о сущест-венности этой связи: если Fфакт > Fтабл, то Н0 отклоняется.

Если же величина оказалась меньше табличной Fфакт < Fтабл, то вероятность нулевой гипотезы меньше заданного уровня (например, 0,05), и она не может быть отклонена без серьезного риска сделать неправильный вывод о наличии связи.

Проверка значимости уравнения регрессии производится на ос-нове дисперсионного анализа. В математической статистике диспер-сионный анализ рассматривается как самостоятельный инструмент (метод) статистического анализа. В эконометрике же он применяется как вспомогательное средство для изучения качества модели. Цен-тральное место в анализе дисперсии занимает разложение общей суммы квадратов отклонений переменной у от среднего значения у на 2 части - «объясненную» и «необъясненную» и может быть пред-ставлена следующим образом:

Общая сумма квад-ратов отклонений

= Сумма квадратов отклонений, объяс-ненная регрессией

+ Остаточная сум-ма квадратов от-

клонений

=−∑=

2

1

)( yyn

ii +−∑

=

Λ2

1

)( yyn

ii

2

1

)( i

n

ii yy

Λ

=

−∑ , (21)

где ii bxay +=Λ

, или

Q = QR + Qe, (22) где Q - общая сумма квадратов отклонений;

QR - сумма квадратов отклонений, обусловленная регрессией; Qe - остаточная сумма квадратов отклонений.

Q = 2

1

22

1

)( ynyyyn

ii

n

ii −=− ∑∑

==; (23)

QR = 2

1

22

1

)()( xxbyyn

ii

n

ii −=− ∑∑

==

Λ

; (24)

Qe = 2

1

)( i

n

ii yy

Λ

=

−∑ . (25)


17

Таблица 2 Схема дисперсионного анализа

Компоненты дисперсии

Сумма квадратов

Число степеней свободы

Средние квадраты

Регрессия 2

1

)( yyQn

iiR −= ∑

=

Λ m – 1 Dфакт =1

2

−=

mQs R

R

Остаточная 2

1

)( i

n

iie yyQ

Λ

=

−= ∑ n – m Dост =mn

Qs R

−=2

Общая 2

1

)( yyQn

ii −= ∑

=

n – 1

Средние квадраты 2

Rs и s2 представляют собой несмещенные оценки зависимой переменной, обусловленные соответственно рег-рессией или объясняющей переменной х и воздействием неучтенных случайных факторов и ошибок; m – число оцениваемых параметров регрессии, n – число наблюдений.

При отсутствии линейной зависимости между зависимой и объ-

ясняющей(ими) переменной случайные величины 2Rs и s2 имеют χ2 –

распределение соответственно с (m-1) и (n-m) степенями свободы, а их отношение – F-распределение с теми же степенями свободы. По-этому уравнение регрессии значимо на уровне α, если фактически на-блюдаемое значение статистики больше Fα, k1, k2:

2;1;2

2

)1()(

kkR

e

R Fss

mQmnQF α>=−−

= , (26)

где 2;1; kkFα - табличное значение F – критерия Фишера, определен-ное на уровне значимости α при k1 = m-1 и k2 = n-m числе степеней свободы.

Учитывая смысл величин 2Rs и s2, можно сказать, что значение F

показывает, в какой мере регрессия лучше оценивает значение зави-симой переменной по сравнению с ее средней.

В случае парной линейной регрессии m = 2, и уравнение регрес-сии значимо на уровне α, если

2;1;)2(

−>−

= ne

R FQnQF α . (27)


18

В линейной регрессии обычно оценивается значимость не только уравнения в целом, но и отдельных его параметров. С этой целью по каждому из параметров определяется его стандартная ошибка, назы-ваемая стандартной ошибкой коэффициента.

Оценки истинных, но неизвестных значений параметров – это числа, зависящие от количества и состава наблюдений, т.е. от выбор-ки. При различных выборках мы получили бы различные оценки. Ес-ли продолжать брать все больше выборок и получать дополнитель-ные оценки, то оценки каждого параметра будут соответствовать не-которому распределению вероятностей, которое может быть сумми-ровано как среднее, и мера дисперсиовательно, сравниваемые пара-метры распределены нормально. Нормальное распределение имеет следующее свойство: область, находящаяся в пределах 1,96 стандарт-ного отклонения от его среднего значения, составляет 95% всей об-ласти. Учитывая это, можно указать такой интервал вокруг оценки параметра, что с вероятностью 95% истинное значение параметра ле-жит внутри этого интервала. Данный интервал, называемый 95%-ным доверительным интервалом, определяется так:

b ± 1,96 среднего квадратического отклонения от b. Можно проверить гипотезу о том, что истинное значение пара-

метра равно нулю, изучая ее t-статистику, которая определяется сле-дующим образом:

bошибкаяст андарт наbt = . (28)

В ряде прикладных задач требуется оценить значимость коэффи-циента корреляции r. При этом исходят из того, что при отсутствии корреляционной связи t-статистика, найденная по формуле

21

2

xy

xyr

nrt−

−= имеет t-распределение Стьюдента с (n-2) степенями

свободы. Коэффициент корреляции rxy значим на уровне α, (иначе – гипо-

теза Н0 о равенстве генерального коэффициента корреляции нулю от-вергается), если

2;121

2−−>

−

−= n

xy

xy tr

nrt α , (29)


19

где 2;1 −− nt α - табличное значение t- критерия Стьюдента, определенное на уровне значимости α при числе степеней свободы (n-2).

Процедура оценивания существенности коэффициента корреля-ции не отличается от рассмотренной выше для коэффициента регрес-сии: вычисляется значение t-критерия, его величина сравнивается с табличным значением при (n-2) степенях свободы.

Проверка гипотез о значимости коэффициентов регрессии и кор-реляции равносильна проверке гипотезы о существенности линейного уравнения регрессии.

Часть 2. Решение типовых задач Задача 1 По семи территориям Уральского региона за 2002 год известны

значения двух признаков: • у - расходы на покупку продовольственных товаров в общих

расходах, %; • х - среднедневная заработная плата одного работающего, руб.

Таблица 3 Исходные данные

Номер Район у х 1 Удмуртская респ. 68,8 45,1 2 Свердловская обл. 61,2 59 3 Башкортостан 59,9 57,2 4 Челябинская обл. 56,7 61,8 5 Пермская обл. 55 58,8 6 Курганская обл. 54,3 47,2 7 Оренбургская обл. 49,3 55,2

Задание 1. Для характеристики зависимости у от х рассчитать параметры

следующих функций: 1) линейной; 2) степенной; 3) показательной; 4) равносторонней гиперболы.


20

Оценить каждую модель через коэффициент детерминации R2, среднюю ошибку аппроксимации А и F-критерий Фишера.

Решение 1) Линейная регрессия ŷ = а + b х.

=+

=+

∑∑∑

∑∑

===

==

n

iii

n

ii

n

ii

n

ii

n

ii

xyxbxa

yxbna

11

2

1

11

Для определения параметров а и в линейной регрессии по исход-

ным данным рассчитываем ∑∑∑∑∑=====

n

ii

n

ii

n

iii

n

ii

n

ii yxyxxy

1

2

1

2

111

,,,, . Результаты

промежуточных вычислений приведены в таблице 4. Таблица 4

Вычисления для линейной функции y x yx x2 y2 ŷ у – ŷ Ai 1 68,8 45,1 3102,88 2034,01 4733,44 61,3 7,5 10,9 2 61,2 59,0 3610,80 3481,00 3745,44 56,5 4,7 7,7 3 59,9 57,2 3426,28 3271,84 3588,01 57,1 2,8 4,7 4 56,7 61,8 3504,06 3819,24 3214,89 55,5 1,2 2,1 5 55,0 58,8 3234,00 3457,44 3025,00 56,5 -1,5 2,7 6 54,3 47,2 2562,96 2227,84 2948,49 60,5 -6,2 11,4 7 49,3 55,2 2721,36 3047,04 2430,49 57,8 -8,5 17,2

Итого 405,2 384,3 22162,34 21338,41 23685,76 405,2 0,0 56,7 Среднее значение

57,89 54,90 3166,05 3048,34 3383,68 х х 8,1

σ 5,74 5,86 х х х х х х σ2 32,92 34,34 х х х х х х b =

σ 2х

х у -х у ⋅⋅ = 86,5

9,5489,5705,31662

⋅− ≈ -0,35;

a = у - b 88,769,5435,089,57х ≈⋅+=⋅ . Уравнение регрессии: ŷ = 76,88 - 0,35 х. С увеличением среднедневной заработной платы на 1 руб. доля

расходов на покупку продовольственных товаров снижается в сред-нем на 0,35-процентного пункта.

Для определения направления и тесноты связи рассчитаем ли-нейный коэффициент парной корреляции:


21

357,074,586,535,0 −=⋅−==

σσ

yxbr xy

Связь по тесноте умеренная, по направлению - обратная. Определим коэффициент детерминации. Для этого: • можно рассчитать по формуле R2 = rxy

2 = (-0,357) 2 = 0,127; • получить в рамках оценивания параметров регрессии на ком-

пьютере. Вариация результата на 12,7% объясняется вариацией фак-тора х.

Подставляя в уравнение регрессии фактические значения хi, оп-ределим теоретические (расчётные) значения ŷ i. Найдём величину средней ошибки аппроксимации А . Проведем расчеты согласно фор-муле, промежуточные вычисления даны в таблице 4.

%100

1

1

1

1

iyiy

iyn

inn

i iAn

A

Λ−

∑=

=∑=

=.

А = 8,1%. В среднем расчётные значения отклоняются от факти-ческих на 8,1%.

Рассчитаем F-критерий Фишера: • через коэффициент детерминации R2 по формуле:

)2(1 2

2

−−

= nR

RF

5875,0125,0

×=ефакт ическоF = 0,714.

Критические значения берутся из статистических таблиц соглас-но приведенному в теоретической части построению.

Fкритическое при α=1% = 16,26. Fкритическое при α=5% = 6,61. Fфактическое > Fкритическое при α=5%. Гипотеза H0 не принимается

при 5%-ном уровне значимости, что говорит о значимости уравнения регрессии в целом.

Fфактическое < Fкритическое при α=1%. Полученное значение указывает на необходимость принять гипотезу H0 о случайной природе выявленной зависимости и статистической незначимости параметров уравнения и показателя тесноты связи.


22

• значение F-статистики можно получить в рамках оценивания регрессии, что будет продемонстрировано далее в рамках проведения регрессионного анализа на компьютере с использованием встроенных функций.

2) Степенная модель: ŷ = a хb. Проведём процедуру линеаризации путём логарифмирования

обеих частей уравнения: xlgbalgylg ⋅+= ,

XbC ⋅+=Υ , где Y = lg y, X = lg x, C = lg a.

Таблица 5 Промежуточные вычисления с использованием

логарифмов исходных данных

Y X YX Y2 X2 ŷ у – ŷ (у – ŷ)2 Ai 1 1,8376 1,6542 3,0398 3,3768 2,7364 61,0 7,8 60,8 11,3 2 1,7868 1,7709 3,1642 3,1927 3,1361 56,3 4,9 24,0 8,0 3 1,7774 1,7574 3,1236 3,1592 3,0885 56,8 3,1 9,6 5,2 4 1,7536 1,7910 3,1407 3,0751 3,2077 55,5 1,2 1,4 2,1 5 1,7404 1,7694 3,0795 3,0290 3,1308 56,3 -1,3 1,7 2,4 6 1,7348 1,6739 2,9039 3,0095 2,8019 60,2 -5,9 34,8 10,9 7 1,6928 1,7419 2,9487 2,8656 3,0342 57,4 -8,1 65,6 16,4

Итого 12,3234 12,1587 21,4003 21,7078 21,1355 403,5 1,7 197,9 56,3 Среднее значе-

ние

1,7605 1,7370 3,0572 3,1011 3,0194 Х х 28,27 8,0

σ 0,0425 0,0484 х х х Х х х х σ2 0,0018 0,0023 х х х Х х х х

Рассчитаем С (или lg a) и b:

298,00484,0

7370,17605,10572,322

−≈⋅−

=⋅−⋅

=x

XYXYbσ

278,27370,1298,07605,1XbYC =⋅+=⋅−= . Получим линейное уравнение: Ŷ = 2,278 – 0,298Х. Выполнив его

потенцирование, перейдем к следующему виду:


23

298,07,189298,010 278,2 −⋅=−⋅=Λ

iхixy . Подставляя в данное уравнение фактические значения хi, получа-

ем теоретические значения результата ŷi. По ним рассчитаем показа-тели: тесноты связи – индекс корреляции ρ ху

и среднюю ошибку ап-проксимации А :

2

1

2

12

2

)(

)(11

уу

yу

i

n

i

ii

n

i

у

остху

−

−−=−=

∑

∑

=

Λ

=

σσρ =

92,3227,281− = 0,3758,

%0,8А = . Характеристики степенной модели указывают, что она несколько

лучше линейной функции описывает взаимосвязь.

92,058445,01555,01

12

2

=⋅=−−

⋅−

=mmn

x

xyфактF

ρ

ρ

где ,фактF6,6таблF >= при уровне значимости α = 0,05.

Следовательно, принимается гипотеза Но о статистически незна-чимых параметрах этого уравнения. Этот результат можно объяснить сравнительно невысокой теснотой выявленной зависимости и не-большим числом наблюдений.

3) Показательная функция: ŷ = а bx. Уравнение регрессии показательной функции:

ŷ = 77,24 * 0,9947х. Решение аналогично предыдущей задаче 1.

Задача 2 По совокупности 30-ти предприятий торговли изучается зависи-

мость между признаками: х – цена за товар А, тыс. руб.; у – прибыль торгового предприятия, млн. руб. При оценке регрессионной модели были получены следующие промежуточные результаты:


24

2

1

)( i

n

ii yy

Λ

=

−∑ =39000,

=−∑=

2

1

)( yyn

ii 120000.

• Поясните, какой показатель корреляции можно определить по этим данным.

• Проведите дисперсионный анализ для расчета F-критерия Фи-шера.

Для вычислений будем использовать следующие формулы: 2

1

22

1

)( ynyyyn

ii

n

ii −=− ∑∑

== - общая сумма квадратов отклонений;

2

1

22

1

)()( xxbyyn

ii

n

ii −=− ∑∑

==

Λ

– сумма квадратов отклонений,

обусловленная регрессией; 2

1

)( i

n

ii yy

Λ

=

−∑ – остаточная сумма квадратов отклонений.

• Сравните фактическое значение F-критерия с табличным. Сде-

лайте выводы. Решение • По указанным данным можно определить индекс корреляции

рху для нелинейной регрессии:

2)(1

2)(11

2

21

уiуn

i

iyiуn

i

у

остху

−∑=

Λ−∑

=−=−=σ

σρ = 0,822.

1)( 2∑ −

=

Λ

yyD i

факт , 2

)( 2

−

−= ∑

Λ

nyy

D iiост ,

ост

факт

DD

F = или )2(1 2

2

−⋅−

= np

pF

xy

xy .

Dфакт = 120000 – 39000 = 81000; Dост = 39000 / 28 = 1393;

тогда F = 58 или


25

58)230(676,01

676,0≈−⋅

−=F

.64,7;20,4

01,0

05,0

=

=

=

=

α

α

FF

Поскольку Fфакт>Fтабл как при 1%-ном, так и при 5%-ном уровне значимости, то можно сделать вывод о значимости уравнения регрес-сии.

Задача 3 Для трех видов продукции А, В и С модели зависимости удель-

ных постоянных расходов от объема выпускаемой продукции выгля-дит следующим образом:

=

+==

5,040

7,080600

xYxY

Y

C

B

A

• Определите коэффициент эластичности по каждому виду про-дукции и поясните их смысл.

• Каким должен быть объем выпускаемой продукции, чтобы ко-эффициенты эластичности для продукции В и С были равны?

Решение

−

=+

=

−=

эласт ичнымалоизависимостЭ

ххЭ

анеэласт ичнабсолют ноьзависимостЭ

С

В

А

5,07,080

7,00

Коэффициент эластичности функции В зависит от значений фак-тора х.

3,11435,040

7,05,0)7,080(

5,07,080

7,0

≈=

=⋅+

=+

=

xx

xxx

xЭЭ СВ

Объем выпускаемой продук-ции в случае равенства коэффи-циентов эластичности для про-дукции В и С должен быть равен 114,3.


26

Часть 3. Реализация типовых задач на компьютере

Посредством табличного процессора Exсel существует возмож-ность ускорить вычисления необходимых статистических характери-стик.

Следует учесть, что при вычислении среднего значения, диспер-сии, среднеквадратического отклонения берется генеральная сово-купность, а не выборка. Воспользовавшись оператором «Мастер функций» в категории «Статистические», вызываем функции:

1. СРЗНАЧ (число 1, число 2, …) - для расчета среднего значе-ния;

2. ДИСПР (число 1, число 2, …) – генеральной дисперсии; 3. СТАНДОТКЛОНП (число 1, число 2, …) – стандартного от-

клонения. 4. КОРРЕЛ (массив 1, массив 2) – коэффициента корреляции ме-

жду двумя множествами данных; 5. ЛИНЕЙН – для вычисления параметров линейной регрессии; 6. ЛГРФПРИБЛ – для вычисления параметров экспоненциальной

функции. На основе данных таблицы 3 проведем расчет статистических ха-

рактеристик с использованием компьютера.

Таблица 6

Результат вычисления функции ЛИНЕЙН

b -0,34593 76,8771 a Стандартная ошибка b 0,4097 22,6202 Стандартная ошибка а

Коэффициент детерминации

0,12479 6,35151 Стандартная ошибка у

F статистика 0,71292 5 Число степеней свободы Регрессионная сумма

квадратов 28,7603 201,708 Остаточная сумма

квадратов Построение уравнения регрессии показательной кривой в значи-

тельной степени облегчает работа со встроенной статистической функцией ЛГРФПРИБЛ. Порядок вычисления аналогичен примене-нию функции ЛИНЕЙН.


27

Таблица 7

Результат вычисления функции ЛГРФПРИБЛ

b 0,99467 77,2403 a Стандартная ошибка b 0,00707 0,39011 Стандартная ошибка а




квадратов 0,00686 0,05999 Остаточная сумма квад-

ратов

Задача 4 По территориям региона приводятся данные за 2002 год (табл. 8).

Таблица 8 Исходные данные

Номер территории региона

х - прожиточный минимум, руб.

у - среднедневная заработная плата, руб.

1 78 133 2 82 148 3 87 134 4 79 154 5 89 162 6 106 195 7 67 139 8 88 158 9 73 152 10 87 162 11 76 159 12 115 173

Итого 1027 1869 Среднее 85,58333 155,75

σ2 167,7431 273,3542 σ 12,95157 16,53343

Задание 1. Для характеристики зависимости у от х рассчитать параметры

следующих функций:


28

1) линейной; 2) показательной. 2. Оценить статистическую значимость параметров регрессии и

корреляции. Решение Уравнение линейной регрессии имеет вид: ŷ = а + в х.

Таблица 9 Результат вычисления функции ЛИНЕЙН

b 0,920431 76,97649 a Стандартная ошибка b 0,279716 24,21156 Стандартная ошибка а





квадратов

Таблица 10

Расчет прогнозируемых значений и их отклонений от фактических

Номер территории региона

х у ŷ у- ŷ

1 78 133 148,76 -15,76 2 82 148 152,44 -4,44 3 87 134 157,04 -23,04 4 79 154 149,68 4,32 5 89 162 158,88 3,12 6 106 195 174,52 20,48 7 67 139 138,64 0,36 8 88 158 157,96 0,04 9 73 152 144,16 7,84

10 87 162 157,04 4,96 11 76 159 146,92 12,08 12 115 173 182,8 -9,8

Итого 1027 1869 1868,84 0,16 среднее 85,58333 155,75

σ2 167,7431 273,3542 σ 12,95157 16,53343


29

Уравнение регрессии показательной функции будет найдено в виде: ŷ = а bx.

Исходное уравнение: y = a bx для приведения к линейному виду прологарифмировано. Получено уравнение: ln y = ln a + х ln b.

Произведем замену ln y = Y, ln b = B, ln a = C. Получено Y = C + Bx.

Таблица 11

Расчет прогнозируемых значений и их отклонений от фактических

х у lny(Y) ŷ у - ŷ 78 133 4,89 148,41 -15,41 82 148 5,00 151,80 -3,80 87 134 4,90 156,15 -22,15 79 154 5,04 149,25 4,75 89 162 5,09 157,92 4,08 106 195 5,27 173,84 21,16 67 139 4,93 139,47 -0,47 88 158 5,06 157,03 0,97 73 152 5,02 144,28 7,72 87 162 5,09 156,15 5,85 76 159 5,07 146,74 12,26 115 173 5,15 182,90 -9,90

Воспользуемся функцией ЛИНЕЙН для получения оценок пара-

метров регрессии и статистических характеристик.

Таблица 12

Результат вычисления функции ЛИНЕЙН

В 0,005648 4,559469 С Стандартная ошибка В 0,001791 0,154997 Стандартная ошибка С

Коэффициент детерминации 0,498671 0,08034 Стандартная ошибка У F статистика 9,946979 10 Число степеней свободы

Регрессионная сумма квадратов

0,064202 0,064544 Остаточная сумма квадратов


30

Таблица 13 Исходные и промежуточные параметры регрессии

lnb(B) 0,01 4,56 lna(C)

b 1,01 95,53 a

Получили уравнение регрессии вида xY 01,056,4 +=Λ

Потенцированием получим значение a. Тогда исходное уравне-

ние регрессии имеет следующий вид:

ŷ = 95,53×1,01x. Можно использовать встроенную статистическую функцию

ЛГРФПРИБЛ. Тогда не потребуется предварительного вычисления логарифмов исходных данных. Параметры уравнения регрессии бу-дут найдены непосредственно из первой строки таблицы, полученной с помощью функции ЛГРФПРИБЛ.

Таблица 14

Результат вычисления функции ЛГРФПРИБЛ

b 1,005664 95,53277 а

Стандартная ошибка b 0,001791 0,154997 Стандартная ошибка а Коэффициент детерминации 0,498671 0,08034 Стандартная ошибка у



квадратов Уравнение регрессии показательной функции: ŷ = 95,53×1,01x.


31

Содержание

Введение ..................................................................................................... 3

Часть 1 Теоретические аспекты курса «Эконометрика» ................ 4

Тема 1. Основные понятия корреляционного и регрессионного анализа ......................................................................................... 4

Тема 2. Статистическая проверка гипотез........................................... 7 Тема 3. Линейная регрессия. Оценка качества регрессионной

модели ....................................................................................... 10 Тема 4. Оценка существенности параметров линейной

регрессии и корреляции. F-критерий Фишера. Дисперсионный анализ ............................................................ 15

Часть 2. Решение типовых задач ........................................................ 19

Часть 3. Реализация типовых задач на компьютере ...................... 26


32

Учебное издание

Составитель Зеткина Оксана Валерьевна


Редактор, корректор А.А. Антонова Компьютерная верстка И.Н. Ивановой

Подписано в печать 16.09.2004. Формат 60х84/16. Бумага тип. Усл. печ. л. 1,9. Уч.-изд. л. 1,3.

Тираж 100 экз. Заказ .

Оригинал-макет подготовлен в редакционно-издательском отделе Ярославского государственного университета.

Отпечатано на ризографе.

Ярославский государственный университет. 150000 Ярославль, ул. Советская, 14.


33


34



148.примеры решения задач по дисциплине «эконометрика» ...

Documents