Коэффициент корреляции считается значимым с вероятностью ошибки альфа если - Oshibs.top

Предмет,
метод и задачи эконометрики

Эконометрика
— это наука, в которой на базе реальных
статистических данных строятся,
анализируются и совершенствуются
математические модели реальных
экономических явлений. Эконометрика
позволяет найти количественное
подтверждение либо опровержение того
или иного экономического закона либо
гипотезы. Таким образом, эконометрика
– наука, которая дает количественное
выражение взаимосвязей экономических
явлений и процессов. Зарождение
эконометрики является следствием
междисциплинарного подхода к изучению
экономики. Эконометрика
представляет собой комбинацию трех
областей знания:

• Экономической
теории

• Статистики

• Математики

Большинство
эконометрических методов и приемов
заимствовано из математической
статистики. Однако методы математической
статистики универсальны и не учитывают
специфики экономических данных, которая
заключается в следующем:

1)
данные не являются результатом
контролируемого эксперимента;

2)
невозможность проводить многократные
эксперименты (из-за изменения внешних
условий);

3)
экономические данные часто содержат
ошибки измерения. В эконометрике
разрабатываются специальные методы
анализа, позволяющие, если не устранить,
то, по крайней мере, снизить влияние
этих ошибок на полученные результаты.

Эти
особенности рождают ряд специфических
проблем, решение которых не входит в
математическую статистику.

Таким
образом, эконометрика связывает между
собой экономическую теорию и экономическую
статистику и с помощью математико-статистических
методов придает конкретное количественное
выражение общим закономерностям,
устанавливаемым экономической теорией.

Предмет
исследования эконометрики как науки
– экономические явления. Но в отличие
от экономической теории эконометрика
делает упор на количественные, а не на
качественные аспекты этих явлений.
Например, экономическая теория утверждает,
что спрос на товар с ростом его цены
убывает. Но при этом практически
неисследованным остается вопрос, как
быстро и по какому закону происходит
это убывание для определенного товара.
Эконометрика отвечает на этот вопрос
для каждого конкретного случая.

Основные
задачи эконометрики:

1.
Построение эконометрических моделей,
т.е. представление экономических моделей
в математической форме, удобной для
проведения эмпирического анализа.

2.
Оценка параметров построенной модели,
делающих выбранную модель наиболее
адекватной реальным данным.

3.
Проверка качества найденных параметров
модели и самой модели в целом.

4.
Использование построенных моделей для
объяснения поведения исследуемых
экономических показателей, прогнозирования
и предсказания, а также для осмысленного
проведения экономической политики.

Методы:
корреляционный, регрессионный,
компонентный и кластерный анализы, а
также такие распространенные
эконометрические модели, как
производственные функции и системы
одновременных уравнений.

В
чем состоит назначение эконометрики
и особенности эконометрического подхода
к исследованию

Особенности
эк-го подхода: практическая
наука, которая использует реальные
данные

Целевое
назначение эконометрики –
эмпирический вывод экономических
закономерностей.

Основные
задачи эконометрики
состоят в построении моделей, выражающей
выводимые закономерности, оценка их
параметров и проверка гипотез о
закономерностях изменения и связях
экономических показателей; модельное
описание конкретных количественных
взаимосвязей, существующих между
экономическими показателями.

Принятие
решений, практический и научный интерес,
обоснование и доказательство теорий.

Виды
переменных в эконометрике

Основные
этапы эконометрического моделирования

Признаки
«хорошей» модели:

1.
Скупость (простота). Модель должна быть
максимально простой. Данное свойство
определяется тем фактом, что модель не
отражает действительность идеально, а
является ее упрощением. Поэтому из двух
моделей, приблизительно одинаково
отражающих реальность, предпочтение
отдается модели, содержащей меньшее
число объясняющих переменных.

2.
Единственность. Для любого набора
статистических данных определяемые
коэффициенты должны вычисляться
однозначно.

3.
Максимальное соответствие. Уравнение
тем лучше, чем большую часть разброса
зависимой переменной оно может объяснить.

4.
Согласованность с теорией. Никакое
уравнение не может быть признано
качественным, если оно не соответствует
известным теоретическим предпосылкам.
Другими словами, модель обязательно
должна опираться на теоретический
фундамент, так как в противном случае
результат использования регрессионного
уравнения может быть весьма плачевным.

5.
Прогнозные качества. Модель может быть
признана качественной, если полученные
на ее основе прогнозы подтверждаются
реальностью.

Примеры
эконометрических моделей и сфер их
применения

Выделяют
три основных класса моделей.

I.
Регрессионные модели с одним уравнением

Линейные

Нелинейные

II.
Модели временных рядов, полученные с
помощью следующих методов

Экспоненциального
сглаживания

Сезонной
декомпозиции

Авторегрессии

ARIMA
и др.5

III.
Системы одновременных уравнений

Пример.
Модель спроса и предложения описывается
следующей системой уравнений:

Классификация
задач, решаемых с помощью эконометрической
модели:

I.
По конечным прикладным целям

прогноз
экономических и социально-экономических
показателей, характеризующих состояние
и развитие анализируемой системы;

имитация
возможных сценариев социально-экономического
развития системы для выявления того,
как планируемые изменения тех или иных
поддающихся управлению параметров
скажутся на выходных характеристиках.

II.
По уровню иерархии выделяют задачи,
решаемые на:

макроуровне
(страна в целом);

мезоуровне
(уровне регионов, отраслей, корпораций);

микроуровне
(на уровне семьи, предприятия, фирмы).

III.
По профилю анализируемой экономической
системы выделяют задачи, направленные
на

решение
проблем:

рынка;

инвестиционной,
финансовой или социальной политики;

ценообразования;

распределительных
отношений;

спроса
и потребления;

на
определенный комплекс проблем. Однако,
чем шире комплекс проблем, тем меньше
шансов провести эконометрическое
исследование достаточно эффективно.

Какие
задачи решаются с помощью корреляционного
анализа

Задачи:

Исследование
взаимосвязи между параметрами,
определение ее частоты.
Правильная
идентификация модели.
Помогает
в выборе нужных параметров.
Прогнозирование.
Если известно поведение одного параметра,
то можно предсказать поведение другого
параметра, коррелирующего с первым.
Классификация
и идентификация объектов. Корреляционный
анализ помогает подобрать набор
независимых признаков для классификации.

Парный
коэффициент корреляции. Основные
понятия и свойства.

Парный
коэффициент корреляции характеризует
тесноту линейной зависимости между
двумя переменными на фоне действия всех
остальных показателей, входящих в
модель. Данные коэффициенты корреляции
изменяются в пределах от -1 до +1, причем,
чем ближе коэффициент корреляции к +1,
тем сильнее зависимость между переменными.
Если коэффициент корреляции больше 0,
то связь положительная, а если меньше
нуля – отрицательная.

Св-ва
к-та:

Размерная
величина (-1-1), стандартизирован,
анализирует линейную взаимосвязь.

Вопрос
Зачем и как проверять значимость парного
коэффициента корреляции и строить его
интервальную оценку

К-ты
корреляции как статистические величины
подвергаются в анализе оценки на
достоверность. Это объясняется тем, что
любая совокупность наблюдений представляет
собой некоторую выборку, следовательно,
значение любого показателя, вычисленное
на основе выборки, не может рассматриваться
как истинное, а является только более
или менее точной его оценкой. В связи с
этим, возникает необходимость проверки
существенности (значимости) признака.

Предположим,
что по данным выборочной совокупности
была построена линейная модель парной
регрессии. Задача состоит в проверке
значимости парного коэффициента
корреляции между результативной
переменной у и факторной переменной х.

Основная
гипотеза состоит в предположении о
незначимости парного коэффициента
корреляции, т. е.

Н0:rxy=0.

Обратная
или конкурирующая гипотеза состоит в
предположении о значимости парного
коэффициента корреляции, т. е.

Н1:rxy/=0.

Данные
гипотезы проверяются с помощью t-критерия
Стьюдента.

Наблюдаемое
значение t-критерия (вычисленное на
основе выборочных данных) сравнивают
с критическим значением t-критерия,
которое определяется по таблице
распределения Стьюдента.

При
проверке значимости парного коэффициента
корреляции критическое значение
t-критерия определяется как tкрит(a;n-h),
где а – уровень значимости, (n-h) – число
степеней свободы, которое определяется
по таблице распределений t-критерия
Стьюдента.

При
проверке основной гипотезы вида Н0:rxy=0
наблюдаемое значение t-критерия Стьюдента
рассчитывается по формуле:

где
ryx – выборочный парный коэффициент
корреляции между результативной
переменной у и факторной переменной х,
который рассчитывается по формуле:

(ryx) –
величина стандартной ошибки парного
выборочного коэффициента корреляции.

Показатель
стандартной ошибки парного выборочного
коэффициента корреляции для линейной
модели парной регрессии рассчитывается
по формуле:

Если
данное выражение подставить в формулу
для расчёта наблюдаемого значения
t-критерия для проверки гипотезы вида
Н0:rxy=0, то получим:

При
проверке основной гипотезы возможны
следующие ситуации:

Если
наблюдаемое значение t-критерия
(вычисленное по выборочным данным) по
модулю больше критического значения
t-критерия (определённого по таблице
распределения Стьюдента), т. е.

tнабл|>t

Если
наблюдаемое значение t-критерия
(вычисленное по выборочным данным) по
модулю меньше или равно критического
значения t-критерия (определённого по
таблице распреляционная зависимость
между исследуемыми переменными
отсутствует, и продолжение регрессионного
анализа считается нецелесообразным.

Применение
t-статистики Стьюдента для проверки
гипотезы вида Н0:rxy=0 основано на выполнении
двух условий:

1)
если объём выборочной совокупности
достаточно велик (n>=30);

2)
коэффициент корреляции по модулю
значительно меньше единицы:

0,45<=|ryx|<=0.75.

В
том случае, если модуль парного выборочного
коэффициента корреляции близок к
единице, то гипотеза вида Н0:rxy=0 также
может быть проверена с помощью
z-статистики. Данный метод оценки
значимости парного коэффициента
корреляции был предложен Р.
Фишером.

Между
величиной z и парным выборочным
коэффициентом корреляции существует
отношение вида:

В
связи с тем, что величина z является
нормально распределённой величиной,
то проверка основной
гипотезы о незначимости парного
коэффициента корреляции сводится к
провреке основной гипотезы о незначимости
величины z:

Н0:z=0.

Обратная
или конкурирующая гипотеза состоит в
предположении о значимости величины
z, т. е.

Н1:z/=0.

Данные
гипотезы проверяются с помощью t-критерия
Стьюдента.

При
проверке основной гипотезы вида Н0:z=0
наблюдаемое значение t-критерия Стьюдента
рассчитывается по формуле:

Показатель
стандартной ошибки величины z для
линейной модели парной регрессии
рассчитывается по формуле:

При
проверке основной гипотезы возможны
следующие ситуации:

Частный
коэффициент корреляции. Основные
понятия и свойства, как анализировать
парные и частные коэффициенты корреляции

Основная
задача корреляционного анализа состоит
в оценке корреляционной матрицы
генеральной совокупности по выборке и
определении на ее основе оценок парных,
частных и множественных коэффициентов
корреляции и детерминации.

Парный
коэффициент – это коэффициент корреляции,
который характеризует тесноту линейной
зависимости между двумя переменными
на фоне действия всех остальных
показателей, входящих в модель. Частный
коэффициент корреляции – это коэффициент,
который характеризует тесноту линейной
зависимости между двумя переменными
при исключении влияния всех остальных
показателей, входящих в модель.

Свойства:

1.
Коэффициент корреляции принимает
значения на отрезке [-1;1], т. е. -1 <r<1.
Чем ближе | r|
к единице, тем теснее связь.

2.
При r
= ±1 корреляционная связь представляет
линейную функциональную зависимость.
При этом все наблюдаемые значения
располагаются на прямой линии.

3.
При r
= 0 линейная корреляционная связь
отсутствует. При этом линия регрессии
параллельна оси Ох

4.
Если коэффициент корреляции больше 0,
то связь положительная, а если меньше
нуля — отрицательная.

Для
пар. коэф. кор.:

=

где
x_i и
y_i —
значения признаков х и у соответственно
для i-ro объекта, i=1, .., n; n — число
объектов; и —
средние арифметические значения
признаков х и у соответственно.

Для
част.коэф.кор.:
=

Где

– множественный коэффициент детерминации,
характеризующий долю вариации
результативного признака, обусловленную
изменением всех учтенных факторов;

—
множественный коэффициент детерминации,
характеризующий долю вариации
результативного признака, обусловленную
изменением

Зачем
и как проверять значимость частного
коэффициента корреляции и строить его
интервальную оценку

Если
коэффициент корреляции незначим, то
признаки х и y считаются независимыми
в генеральной совокупности.

Значимость
частных и парных коэффициентов корреляции,
т.е. гипотеза H0: p=0, проверяется по
t-критерию Стъюдента. Наблюдаемое
значение критерия находится по формуле:

где

r	—	соответственно оценка частного или парного коэффициент корреляции;
1	—	порядок частного коэффициент корреляции, т.е. число фиксируемых факторов.

Для
парного коэффициента корреляции l=0.

Напомним,
что проверяемый коэффициент корреляции
считается значимым, т.е. гипотеза H0: р=0
отвергается с вероятностью ошибки α,
если t набл по модулю будет больше, чем
tкр, определяемое по таблицам t-распределение
для заданного a и ν= n — l — 2.

Значимость
коэффициентов корреляции можно также
проверить с помощью таблиц Фишера-Иейтса.

Для
значимых параметров связи имеет смысл
найти интервальные оценки.

При
определении с надежностью g доверительного
интервала для значимого парного или
частного коэффициентов корреляции р
используют Z-преобразование Фишера и
предварительно устанавливают интервальную
оценку для Z

где
ty вычисляют по таблице интегральной
функции Лапласа из условия

Значение
Z’ определяют по таблице Z — преобразования
по найденному значению p. Функция
нечетная, т. е.

Обратный
переход от Z к ρ осуществляют также по
таблице Z — преобразования, после
использования которой получают
интервальную оценку для ρ с надежностью
γ :

Таким
образом, с вероятностью γ гарантируется,
что генеральный коэффициент корреляции
ρ будет находиться в интервале (rmin,
rmax).

Полученная
интервальная оценка подтверждает вывод
о значимости (незначимости) парного
коэффициента корреляции.

Правило
построения интервальных оценок для
парного и частного коэффициентов
корреляции

Для
значимых параметров связи имеет смысл
найти интервальные оценки.

где
t_y
вычисляют по таблице интегральной
функции Лапласа из условия

Значение
Z’ определяют по таблице Z — преобразования
по найденному значению p. Функция
нечетная, т. е.

Таким
образом, с вероятностью γ гарантируется,
что генеральный коэффициент корреляции
ρ будет находиться в интервале (r_min,
r_max).

Правило
проверки значимости оценок для парного
и частного коэффициентов корреляции

Значимость
частных и парных коэффициентов корреляции,
т.е. гипотеза H₀:
p=0, проверяется по t-критерию Стъюдента.
Наблюдаемое значение критерия находится
по формуле:

где

r	—	соответственно оценка частного или парного коэффициент корреляции;
1	—	порядок частного коэффициент корреляции, т.е. число фиксируемых факторов.

Для
парного коэффициента корреляции l=0.

Напомним,
что проверяемый коэффициент корреляции
считается значимым, т.е. гипотеза H₀:
р=0 отвергается с вероятностью ошибки
α, если t набл по модулю будет больше,
чем t_кр,
определяемое по таблицам t-распределение
для заданного a и ν= n — l — 2.

Значимость
коэффициентов корреляции можно также
проверить с помощью таблиц Фишера-Иейтса.

Общее
и различие в задачах корреляционного
и регрессионного анализа

Корреляционный
анализ —
метод обработки статистических данных,
с помощью которого измеряется теснота
связи между двумя или более переменными.
Корреляционный анализ тесно связан
с регрессионным
анализом (также
часто встречается термин
«корреляционно-регрессионный
анализ»,
который является более общим статистическим
понятием), с его помощью определяют
необходимость включения тех или иных
факторов в уравнение множественной
регрессии, а также оценивают полученное
уравнение регрессии на соответствие
выявленным связям.

Регрессионный анализ — статистический
метод исследования
влияния одной или нескольких независимых
переменных на зависимую
переменную .
Цели регрессионного анализа:

Определение
степени детерминированности вариации критериальной
(зависимой) переменной предикторами (независимыми
переменными)

Предсказание
значения зависимой переменной с помощью
независимой(-ых)

Определение
вклада отдельных независимых переменных
в вариацию зависимой

Регрессионный
анализ нельзя использовать для определения
наличия тесноты связи между переменными,
поскольку наличие такой связи и есть
предпосылка для примененияанализа.

Понятие
уравнение регрессии, цель и задачи его
построения

Регрессионный анализ — статистический
метод исследования
влияния одной или нескольких независимых
переменных на зависимую
переменную .

Обычно
предполагается, что случайная величина
Y имеет нормальный закон распределения
с условным математическим ожиданием
,являющимся
функцией от аргументов x_j,
и с постоянной, не зависящей от аргументов
дисперсией
.

Для
проведения регрессионного анализа из
( k+1) -мерной генеральной совокупности
(Y,X₁,X₂,…,X_j,…,X_jk)
берется выборка объемом n и каждое i-ое
наблюдение (объект) характеризуется
значениями переменных (y_i,x_i1,x_i2,…,x_ij,…,x_i)
, где x_ij
— значение j-ой переменной для i-го
наблюдения (i=1,2,…,n), y_i
— значение результативного признака
для i-го наблюдения.

Наиболее
часто используемая множественная
линейная модель регрессионного анализа
имеет вид:

(2.1)

где
e i — случайные ошибки наблюдения,
независимые между собой, имеют нулевую
среднюю и дисперсию
.

Отметим,
что модель (2.1) справедлива для всех
i=1,2,.., n, линейна относительно неизвестных
параметров
и
аргументов.

Как
следует из (2.1) коэффициент регрессии
показывает,
на какую величину в среднем изменится
результативный признак Y, если переменную
X_j
увеличить на единицу измерения, т. е.
является нормативным коэффициентом.

В
матричной форме регрессионная модель
имеет вид:

(2.2)

где
Y — случайный вектор — столбец размерности
(n x 1) наблюдаемых значений результативного
признака (y₁,
y₂,…,
y_n);
X — матрица размерности [n x (k+1)] наблюдаемых
значений аргументов. Элемент матрицы
x_ij
рассматривается как неслучайная величина
(i=1,2,…,n; j=0,1,2,…k); b — вектор — столбец
размерности [(k+1)* 1] неизвестных, подлежащих
оценке параметров (коэффициентов
регрессии) модели;
—
случайный вектор — столбец размерности
(n*1) ошибок наблюдений (остатков).
Компоненты вектора_i
независимы между собой, имеют нормальный
закон распределения с нулевым
математическим ожиданием (M_ei=0)
и неизвестной дисперсией
(D_i=).

На
практике рекомендуется, чтобы n превышало
k не менее, чем в три раза.

В
модели (2.2)

Единицы
в первом столбце матрицы призваны
обеспечить наличие свободного члена в
модели (2.1). Здесь предполагается, что
существует переменная х 0, которая во
всех наблюдениях принимает значения =
1.

Основная
задача регрессионного анализа заключается
в нахождении по выборке объемом n оценки
неизвестных коэффициентов регрессии
модели
(2.1) или вектора b в (2.2).

Так
как в регрессионном анализе x_j
рассматриваются как неслучайные
величины, а M=0,
то согласно (2.1) уравнение регрессии
имеет вид:

(2.3)

для
всех i= 1,2,…,n, или в матричной форме:

(2.4)

где
—
вектор-столбец с элементами₁,…,_i,…,_n.

Для
оценки вектора
наиболее
часто используют метод наименьших
квадратов (МНК), согласно которому в
качестве оценки принимают вектор b,
который минимизирует сумму квадратов
отклонения наблюдаемых значений y_i
от модельных значений
_i,
т. е. квадратичную форму:

Наблюдаемые
и модельные значения показаны на рис.
2.1.

Рис.
2.1. Наблюдаемые и модельные значения
результативной величины у

Дифференцируя,
с учетом (2.4) и (2.3) квадратичную форму Q
по
и
приравнивая производные нулю получим
систему нормальных уравнений:

для
всех j = 0,1,…, k

Решая
которую и получаем вектор оценок b, где
b=(b₀b₁…b_k)^T

Согласно
методу наименьших квадратов, вектор
оценок коэффициентов регрессии получается
по формуле:

(2.5)

X^T	—	транспортированная матрица X;
(X^TX)^-1	—	матрица, обратная матрице X^TX.

Зная
вектор оценок коэффициентов регрессии
b найдем оценку
уравнения
регрессии:

Или
в матричном виде:

где

Оценка
ковариационной матрицы коэффициентов
регрессии вектора b определяется из
выражения:

(2.7)

где

(2.8)

Учитывая,
что на главной диагонали ковариационной
матрицы находятся дисперсии коэффициентов
регрессии, имеем:

для
j=1,2,…,k,k+1

(2.9)

Геометрическая
и содержательная интерпретация
коэффициентов уравнения парной линейной
регрессии

Одним
из важнейших факторов интерпретации
коэффициентов регрессии является вид
полученной модели. Например, для линейно
эконометрической модели вида у = а0+а1*х
экономическая интерпретация коэффициентов
регрессии а0 и а1 будет следующей: с
увеличением уровня фактора х на единицу
значение результата увеличивается на
а1 единиц. Влияние неучтенных факторов
составляет а0 ед. Если в результате
моделирования была получена гиперболическая
модель вида у = а0+а1/х, то экономическая
интерпретация коэффициентов регрессии
для такой модели будет следующим:
свободный член рассматриваемой
зависимости а0 представляет собой
обобщенное воздействие всех неучтенных
факторов на зависимый показатель;
экономический смысл коэффициента
регрессии а1 определяется условиями
анализа, например, при анализе зависимости
трудоемкости производства в сельском
хозяйстве коэффициент регрессии а1 в
указанной гиперболической модели будет
означать некий расчетный объем затрат
труда, который находится в зависимости
от урожайности.

Коэффициенты
линейной регрессии показывают скорость
изменения зависимой переменной по
данному фактору, при фиксированных
остальных факторах (в линейной модели
эта скорость постоянна)

Содержательная
интерпретация коэффициентов регрессии
множественной линейной регрессии

Коэффициент
множественной регрессии bj показывает,
на какую величину в среднем изменится
результативный признак Y, если переменную
Xj увеличить на единицу измерения, т. е.
является нормативным коэффициентом.

Коэффициенты
уравнения показывают количественное
воздействие каждого фактора на
результативный показатель при неизменности
других.

Множественный
коэффициент корреляции характеризует
тесноту линейной связи между одной
переменной (результативной) и остальными,
входящими в модель; изменяется в пределах
от 0 до 1. Квадрат множественного
коэффициент корреляции называется
множественным коэффициентом детерминации.
Он характеризует долю дисперсии одной
переменной (результативной), обусловленной
влиянием всех остальных переменных
(аргументов), входящих в модель.

Методика
проведения корреляционного анализа

Допустим,
проводится независимое измерение
различных параметров у одного типа
объектов. Из этих данных можно получить
качественно новую информацию — о
взаимосвязи этих параметров.

Взаимосвязь
между переменными необходимо
охарактеризовать численно с помощью
коэффициента корреляции.

Он
рассчитывается следующим образом:

Есть
массив из n точек {x1,i, x2,i}

Рассчитываются
средние значения для каждого параметра:

И
коэффициент корреляции:

Изменяется
в пределах от -1 до 1. В данном случае это
линейный коэффициент корреляции, он
показывает линейную взаимосвязь между
x1 и x2: r равен 1 (или -1), если связь линейна.

Коэффициент
r является случайной величиной, поскольку
вычисляется из случайных величин. Для
него можно выдвигать и проверять
следующие гипотезы:

1.
Коэффициент корреляции значимо отличается
от нуля (т.е. есть взаимосвязь между
величинами):

Тестовая
статистика вычисляется по формуле:

И
сравнивается с табличным значением
коэффициента Стьюдента t(p = 0.95, f = ) = 1.96

Если
тестовая статистика больше табличного
значения, то коэффициент значимо
отличается от нуля. По формуле видно,
что чем больше измерений n, тем лучше
(больше тестовая статистика, вероятнее,
что коэффициент значимо отличается от
нуля)

2.
Отличие между двумя коэффициентами
корреляции значимо:

Тестовая
статистика:

Также
сравнивается с табличным значением
t(p,)

Методами
корреляционного анализа решаются
следующие задачи:

1)
Взаимосвязь. Есть ли взаимосвязь между
параметрами?

2)
Прогнозирование. Если известно поведение
одного параметра, то можно предсказать
поведение другого параметра, коррелирующего
с первым.

3)
Классификация и идентификация объектов.
Корреляционный анализ помогает подобрать
набор независимых признаков для
классификации.

Методика
проведения регрессионного анализа

Обычно
предполагается, что случайная величина
Y имеет нормальный закон распределения
с условным математическим ожиданием,являющимся функцией от аргументов xj,
и с постоянной, не зависящей от аргументов
дисперсией .

Для
проведения регрессионного анализа из
( k+1) -мерной генеральной совокупности
(Y,X1,X2,…,Xj,…,Xjk) берется выборка объемом
n и каждое i-ое наблюдение (объект)
характеризуется значениями переменных
(yi,xi1,xi2,…,xij,…,xi) , где xij — значение j-ой
переменной для i-го наблюдения
(i=1,2,…,n), yi — значение результативного
признака для i-го наблюдения.

Наиболее
часто используемая множественная
линейная модель регрессионного анализа
имеет вид:

где
e i — случайные ошибки наблюдения,
независимые между собой, имеют нулевую
среднюю и дисперсию .

В
матричной форме регрессионная модель
имеет вид:

где
Y — случайный вектор — столбец размерности
(n x 1) наблюдаемых значений результативного
признака (y1, y2,…, yn); X — матрица размерности
[n x (k+1)] наблюдаемых значений аргументов.
Элемент матрицы xij рассматривается как
неслучайная величина (i=1,2,…,n; j=0,1,2,…k);
b — вектор — столбец размерности [(k+1)* 1]
неизвестных, подлежащих оценке параметров
(коэффициентов регрессии) модели; —
случайный вектор — столбец размерности
(n*1) ошибок наблюдений (остатков).
Компоненты вектора i независимы между
собой, имеют нормальный закон распределения
с нулевым математическим ожиданием
(Mei=0) и неизвестной дисперсией (D_i=). На практике рекомендуется, чтобы n
превышало k не менее, чем в три раза.

В
модели (2.2)

(2.3)

для
всех i= 1,2,…,n, или в матричной форме:

(2.4)

где
—
вектор-столбец с элементами₁,…,_i,…,_n.

Согласно
методу наименьших квадратов, вектор
оценок коэффициентов регрессии получается
по формуле:

(2.5)

X^T	—	транспортированная матрица X;
(X^TX)^-1	—	матрица, обратная матрице X^TX.

Зная
вектор оценок коэффициентов регрессии
b найдем оценку
уравнения
регрессии:

Или
в матричном виде:

где

Оценка
ковариационной матрицы коэффициентов
регрессии вектора b определяется из
выражения:

(2.7)

где

(2.8)

для
j=1,2,…,k,k+1

(2.9)

Проверяется
значимость уравнения регрессии, т. е.
гипотеза H₀:
=0
(),
проверяется по F-критерию, наблюдаемое
значение которого определяется по
формуле:

	(2.10)

Гипотеза
H₀
отклоняется с вероятностью a, если
F_набл>F_кр.
Из этого следует, что уравнение является
значимым, т. е. хотя бы один из коэффициентов
регрессии отличен от нуля.

Для
проверки значимости отдельных
коэффициентов регрессии, т. е. гипотез
H₀:
=0,
где j=1,2,…k, используют t-критерий и
вычисляют:.
По таблице t-распределения для заданного
a и v= n-k-1, находят t_кр..

Гипотеза
H₀
отвергается с вероятностью a, если
t_набл>t_кр.
Из этого следует, что соответствующий
коэффициент регрессии b_j
значим, т. е. b_j0.
В противном случае коэффициент регрессии
незначим и соответствующая переменная
в модель не включается. Тогда реализуется
алгоритм пошагового регрессионного
анализа, состоящий в том, что исключается
одна из незначимых переменных, которой
соответствует минимальное по абсолютной
величине значение t_набл.
После этого вновь проводят регрессионный
анализ с числом факторов, уменьшенным
на единицу. Алгоритм заканчивается
получением уравнения регрессии со
значимым коэффициентами.

Существуют
и другие алгоритмы пошагового
регрессионного анализа, например, с
последовательным включением факторов.

Множественный
коэффициент корреляции, его интерпретация
и проверка значимости

Множественный
коэффициент корреляции (k-1)-го порядка
фактора (результативного признака) X1
определяется по формуле:

где
|R| — определитель матрицы R.

Значимость
множественного коэффициента корреляции
(или его квадрата — коэффициента
детерминации) проверяется по F — критерию.

Например,
для множественного коэффициента
корреляции проверка значимости сводится
к проверке гипотезы, что генеральный
множественный коэффициент корреляции
равен нулю, т. е. H₀:
p_1/2,..,k=0,
а наблюдаемое значение статистики
находится по формуле:

Множественный
коэффициент корреляции считается
значимым, т. е. имеет место линейная
статистическая зависимость, между X1 и
остальными факторами X2,…,XK, если: Fнабл.
> Fкр. (α,k-1,n-k), где Fкр. определяется по
таблице F — распределения для заданных
α, ν1= k — 1, ν2 = n — k.

В
чем смысл метода наименьших квадратов
(МНК) и свойства МНК-оценок в классической
линейной модели множественной регрессии

Классический
подход к оцениванию параметров линейной
регрессии основан на методе наименьших
квадратов (МНК). Суть метода наименьших
квадратов состоит в том, чтобы найти
такой вектор β оценок неизвестных
коэффициентов модели, при которых сумма
квадратов отклонений (остатков)
наблюдаемых значений зависимой переменной
у от расчётных значений ỹ (рассчитанных
на основании построенной модели
регрессии) была бы минимальной.

Матричная
форма функционала F метода наименьших
квадратов:

Где

–случайный
вектор-столбец значений результативной
переменной размерности (n*1);

–матрица
значений факторной переменной размерности
(n*(m+1)). Первый столбец является единичным,
потому что в модели регрессии коэффициент
β0 умножается на единицу;

В
процессе минимизации функции (1)
неизвестными являются только значения
коэффициентов β0…βm, потому что значения
результативной и факторных переменных
известны из наблюдений. Для определения
минимума функции (1) необходимо вычислить
частные производные этой функции по
каждому из оцениваемых параметров и
приравнять их к нулю. Результатом данной
процедуры будет стационарная система
уравнений для функции (1):

В
первую очередь, отметим, что для линейных
моделей МНК-оценки являются линейными
оценками, как это следует из вышеприведённой
формулы. Для несмещенности МНК-оценок
необходимо и достаточно выполнения
важнейшего условия регрессионного
анализа: условное по факторам математическое
ожидание случайной ошибки должно быть
равно нулю. Данное условие, в частности,
выполнено, если

математическое
ожидание случайных ошибок равно нулю,
и
факторы
и случайные ошибки — независимые
случайные величины.

Первое
условие можно считать выполненным
всегда для моделей с константой, так
как константа берёт на себя ненулевое
математическое ожидание ошибок (поэтому
модели с константой в общем случае
предпочтительнее).

Второе
условие — условие экзогенности факторов
— принципиальное. Если это свойство не
выполнено, то можно считать, что
практически любые оценки будут крайне
неудовлетворительными: они не будут
даже состоятельными (то есть даже очень
большой объём данных не позволяет
получить качественные оценки в этом
случае). В классическом случае делается
более сильное предположение о
детерминированности факторов, в отличие
от случайной ошибки, что автоматически
означает выполнение условия экзогенности.
В общем случае для состоятельности
оценок достаточно выполнения условия
экзогенности вместе со сходимостью
матрицы к некоторой невырожденной
матрице при увеличении объёма выборки
до бесконечности.

Для
того, чтобы кроме состоятельности и
несмещенности, оценки (обычного) МНК
были ещё и эффективными (наилучшими в
классе линейных несмещенных оценок)
необходимо выполнение дополнительных
свойств случайной ошибки:

Постоянная
(одинаковая) дисперсия случайных ошибок
во всех наблюдениях (отсутствие
гетероскедастичности):

Отсутствие
корреляции (автокорреляции) случайных
ошибок в разных наблюдениях между собой

Данные
предположения можно сформулировать
для ковариационной
матрицы вектора
случайных ошибок

Линейная
модель, удовлетворяющая таким условиям,
называется классической.
МНК-оценки для классической линейной
регрессии являются несмещёнными, состоятельными и
наиболее эффективными оценками
в классе всех линейных несмещённых
оценок (в англоязычной литературе иногда
употребляют аббревиатуру BLUE (Best
Linear Unbaised Estimator) —
наилучшая линейная несмещённая оценка;
в отечественной литературе чаще
приводится теорема
Гаусса — Маркова). Как
нетрудно показать, ковариационная
матрица вектора оценок коэффициентов
будет равна:

Эффективность означает,
что эта ковариационная матрица является
«минимальной» (любая линейная комбинация
коэффициентов, и в частности сами
коэффициенты, имеют минимальную
дисперсию), то есть в классе линейных
несмещенных оценок оценки МНК-наилучшие.
Диагональные элементы этой матрицы —
дисперсии оценок коэффициентов —
важные параметры качества полученных
оценок. Однако рассчитать ковариационную
матрицу невозможно, поскольку дисперсия
случайных ошибок неизвестна. Можно
доказать, что несмещённой и состоятельной
(для классической линейной модели)
оценкой дисперсии случайных ошибок
является величина:

Подставив
данное значение в формулу для ковариационной
матрицы и получим оценку ковариационной
матрицы. Полученные оценки также
являются несмещёнными исостоятельными.
Важно также то, что оценка дисперсии
ошибок (а значит и дисперсий коэффициентов)
и оценки параметров модели являются
независимыми случайными величинами,
что позволяет получить тестовые
статистики для проверки гипотез о
коэффициентах модели.

Необходимо
отметить, что если классические
предположения не выполнены, МНК-оценки
параметров не являются
наиболее эффективными оценками
(оставаясь несмещёнными исостоятельными).
Однако, ещё более ухудшается оценка
ковариационной матрицы — она
становится смещённой и несостоятельной.
Это означает, что статистические выводы
о качестве построенной модели в таком
случае могут быть крайне недостоверными.
Одним из вариантов решения последней
проблемы является применение специальных
оценок ковариационной матрицы, которые
являются состоятельными при нарушениях
классических предположений (стандартные
ошибки в форме Уайта и стандартные
ошибки в форме Ньюи-Уест).
Другой подход заключается в применении
так называемого обобщённого
МНК.

Коэффициент
детерминации — это доля дисперсии
зависимой переменной, объясняемая
рассматриваемой моделью зависимости,
то есть объясняющими переменными. Более
точно — это единица минус доля
необъяснённой дисперсии (дисперсии
случайной ошибки модели, или условной
по факторам дисперсии зависимой
переменной) в дисперсии зависимой
переменной. Его рассматривают как
универсальную меру связи одной случайной
величины от множества других.

Коэффициент
детерминации принимает значение от 0
до 1. Чем ближе значение к 1 тем выше
зависимость. При оценке регрессионных
моделей это интерпретируется как
соответствие модели данным. Для
приемлемых моделей предполагается, что
коэффициент детерминации должен быть
хотя бы не меньше 50% (в этом случае
коэффициент множественной корреляции
превышает по модулю 70%). Модели с
коэффициентом детерминации выше 80%
можно признать достаточно хорошими
(коэффициент корреляции превышает 90%).
Значение коэффициента детерминации 1
означает функциональную зависимость
между переменными.

При
отсутствии статистической связи между
объясняемой переменной и факторами,
статистика для линейной регрессии
имеет асимптотическое распределение
, где — количество факторов модели (см.
тест множителей Лагранжа). В случае
линейной регрессии с нормально
распределёнными случайными ошибками
статистика имеет точное (для выборок
любого объёма) распределение Фишера
(см. F-тест). Информация о распределении
этих величин позволяет проверить
статистическую значимость регрессионной
модели исходя из значения коэффициента
детерминации. Фактически в этих тестах
проверяется гипотеза о равенстве
истинного коэффициента детерминации
нулю.

Истинный
коэффициент детерминации модели
зависимости случайной величины y от
факторов x определяется следующим
образом:

где —
условная (по факторам x) дисперсия
зависимой переменной (дисперсия случайной
ошибки модели).

В
данном определении используются истинные
параметры, характеризующие распределение
случайных величин. Если использовать
выборочную оценку значений соответствующих
дисперсий, то получим формулу для
выборочного коэффициента детерминации
(который обычно и подразумевается под
коэффициентом детерминации):

где -сумма
квадратов остатков регрессии,—
фактические и расчетные значения
объясняемой переменной.

—
общая сумма квадратов.

В
случае линейной
регрессии с
константой ,
где—
объяснённая сумма квадратов, поэтому
получаем более простое определение в
этом случае —коэффициент
детерминации — это доля объяснённой
суммы квадратов в общей:

Необходимо
подчеркнуть, что эта формула справедлива
только для модели с константой, в общем
случае необходимо использовать предыдущую
формулу.

22. Какие задачи в регрессионном анализе решаются с помощью t- критерия Стьюдента

t-критерий
Стьюдента — общее название для класса
методов статистической проверки гипотез
(статистических критериев), основанных
на распределении Стьюдента. Наиболее
частые случаи применения t-критерия
связаны с проверкой равенства средних
значений в двух выборках. Одним из
главных достоинств критерия является
широта его применения. Он может быть
использован для сопоставления средних
у связных и несвязных выборок, причем
выборки могут быть не равны по величине.

t-критерий
применяется в двух вариантах – когда
сравниваемые выборки независимы (не
связаны) и когда они зависимы (связаны).

Оценка
значимости модели с
помощью критерия Стьюдента проводится
путем сравнения их значений с величиной
случайной ошибки:

Случайные
ошибки коэффициентов линейной регрессии и
коэффициента корреляции определяются
по формулам:

Сравнивая
фактическое и табличное значения
t-статистики и принимается или
отвергается гипотеза
о значимости модели по параметрам.

Как
и в случае с оценкой значимости уравнения
модели в целом, модель считается
ненадежной если tтабл > tфакт

Источник

53.1. Корреляционный анализ

Корреляционный анализ является одним из методов статистического анализа взаимозависимости нескольких признаков.

Основная задача корреляционного анализа состоит в оценке корреляционной матрицы генеральной совокупности по выборке и определении на основе этой матрицы частных и множественных коэффициентов корреляции и детерминации.

Парный и частный коэффициенты корреляции характеризуют тесноту линейной зависимости между двумя переменными соответственно на фоне действия и при исключении влияния всех остальных показателей, входящих в модель. Они изменяются в пределах от -1 до +1, причем чем ближе коэффициент корреляции к 1, тем сильнее зависимость между переменными. Если коэффициент корреляции больше нуля, то связь положительная, а если меньше нуля — отрицательная.

Множественный коэффициент корреляции характеризует тесноту, линейной связи между одной переменной (результативной) и остальными, входящими в модель; он изменяется в пределах от 0 до 1.

Квадрат множественного коэффициента корреляции называется множественным коэффициентом детерминации. Он характеризует долю дисперсии одной переменной (результативной), обусловленной влиянием всех остальных переменных (аргументов), входящих в модель.

Исходной для анализа является матрица

размерности п х k, i-я строка которой характеризует i-е наблюдение (объект) по всем k показателям (j = 1, 2, …, k).

В корреляционном анализе матрицу Х рассматривают как выборку объема п из k-мерной генеральной совокупности, подчиняющейся k-мерному нормальному закону распределения.

По выборке определяют оценки параметров генеральной совокупности, а именно: вектор средних , вектор средних квадратических отклонений s и корреляционную матрицу R порядка k:

где

(53.1)

(53.2)

x_ij— значение i-го наблюдения j-го фактора,

r_il — выборочный парный коэффициент корреляции, характеризующий тесноту линейной связи между показателями x_j и x_l. При этом r_jl является оценкой генерального парного коэффициента корреляции.

Матрица R является симметричной (r_jl = r_lj) и положительно определенной.

Кроме того, находятся точечные оценки частных и множественных коэффициентов корреляции любого порядка. Например, частный коэффициент корреляции (k — 2)-го порядка между переменными х₁ и х₂ равен

(53.3)

где R_jl — алгебраическое дополнение элемента r_jl корреляционной матрицы R. При этом R_jl = (-l)^j+l M_jl, где M_jl — минор, т.е. определитель матрицы, получаемой из матрицы R путем вычерчивания j-й строки и l-го столбца.

Множественный коэффициент корреляции (k — 1)-го порядка результативного признака x₁ определяется по формуле

(53.4)

где | R | — определитель матрицы R.

Значимость частных и парных коэффициентов корреляции, т.е. гипотеза H₀: ρ = 0, проверяется по t-критерию Стьюдента. Наблюдаемое значение критерия находится по формуле

(53.5)

где r — соответственно оценка частного или парного коэффициента корреляции ρ; l — порядок частного коэффициента корреляции, т.е. число фиксируемых факторов (для парного коэффициента корреляции l=0).

Напомним, что проверяемый коэффициент корреляции считается значимым, т.е. гипотеза H₀: ρ = 0 отвергается с вероятностью ошибки α, если t_набл по модулю будет больше, чем значение t_кр, определяемое по таблицам t-распределения для заданного α и υ = n – l — 2.

Значимость коэффициентов корреляции можно также проверить с помощью таблиц Фишера — Иейтса.

При определении с надежностью у доверительного интервала для значимого парного или частного коэффициента корреляции р используют Z-преобразование Фишера и предварительно устанавливают интервальную оценку для Z:

(53.6)

где t_γ вычисляют по таблице значений интегральной функции Лапласа из условия

значение Z’ определяют по таблице Z-преобразования по найденному значению r. Функция Z’ — нечетная, т.е.

Обратный переход от Z к ρ осуществляют также по таблице Z-преобразования, после использования которой получают интервальную оценку для ρ с надежностью γ:

Таким образом, с вероятностью γ гарантируется, что генеральный коэффициент корреляции ρ будет находиться в интервале (r_min, r_max).

Значимость множественного коэффициента корреляции (или его квадрата — коэффициента детерминации) проверяется по F-критерию. Например, для множественного коэффициента корреляции проверка значимости сводится к проверке гипотезы, что генеральный множественный коэффициент корреляции равен нулю, т.е. H₀: ρ_1/2,…,k = 0, а наблюдаемое значение статистики находится по формуле

(53.7)

Множественный коэффициент корреляции считается значимым, т.е. имеет место линейная статистическая зависимость между х₁ и остальными факторами х₂, …, х_k, если F_набл > F_кр, где F_кр определяется по таблице F-распределения для заданных α, υ₁ = k — 1, υ₂ = n — k.

53.2. Регрессионный анализ

Регрессионный анализ — это статистический метод исследования зависимости случайной величины у от переменных (аргументов) х_j (j = 1, 2,…, k), рассматриваемых в регрессионном анализе как неслучайные величины независимо от истинного закона распределения x_j.

Обычно предполагается, что случайная величина у имеет нормальный закон распределения с условным математическим ожиданием = φ(x₁, …, х_k), являющимся функцией от аргументов х_j и с постоянной, не зависящей от аргументов дисперсией σ².

Для проведения регрессионного анализа из (k + 1)-мерной генеральной совокупности (у, x₁, х₂, …, х_j, …, х_k) берется выборка объемом n, и каждое i-е наблюдение (объект) характеризуется значениями переменных (у_i, x_i1, х_i2, …, х_ij, …, x_ik), где х_ij — значение j-й переменной для i-го наблюдения (i = 1, 2,…, n), у_i — значение результативного признака для i-го наблюдения.

Наиболее часто используемая множественная линейная модель регрессионного анализа имеет вид

(53.8)

где β_j — параметры регрессионной модели;

ε_j — случайные ошибки наблюдения, не зависимые друг от друга, имеют нулевую среднюю и дисперсию σ².

Отметим, что модель (53.8) справедлива для всех i = 1,2, …, n, линейна относительно неизвестных параметров β₀, β₁,…, β_j, …, β_k и аргументов.

Как следует из (53.8), коэффициент регрессии B_j показывает, на какую величину в среднем изменится результативный признак у, если переменную х_j увеличить на единицу измерения, т.е. является нормативным коэффициентом.

В матричной форме регрессионная модель имеет вид

(53.9)

где Y — случайный вектор-столбец размерности п х 1 наблюдаемых значений результативного признака (у₁, у₂,…. у_n); Х— матрица размерности п х (k + 1) наблюдаемых значений аргументов, элемент матрицы х,, рассматривается как неслучайная величина (i = 1, 2, …, n; j=0,1, …, k; x_0i, = 1); β — вектор-столбец размерности (k + 1) х 1 неизвестных, подлежащих оценке параметров модели (коэффициентов регрессии); ε — случайный вектор-столбец размерности п х 1 ошибок наблюдений (остатков). Компоненты вектора ε_i не зависимы друг от друга, имеют нормальный закон распределения с нулевым математическим ожиданием (Mε_i = 0) и неизвестной постоянной σ² (Dε_i = σ²).

На практике рекомендуется, чтобы значение п превышало k не менее чем в три раза.

В модели (53.9)

В первом столбце матрицы Х указываются единицы при наличии свободного члена в модели (53.8). Здесь предполагается, что существует переменная x₀, которая во всех наблюдениях принимает значения, равные единице.

Основная задача регрессионного анализа заключается в нахождении по выборке объемом п оценки неизвестных коэффициентов регрессии β₀, β₁, …, β_k модели (53.8) или вектора β в (53.9).

Так как в регрессионном анализе х_j рассматриваются как неслучайные величины, a Mε_i = 0, то согласно (53.8) уравнение регрессии имеет вид

(53.10)

для всех i = 1, 2, …, п, или в матричной форме:

(53.11)

где — вектор-столбец с элементами ₁…, _i,…, _n.

Для оценки вектора-столбца β наиболее часто используют метод наименьших квадратов, согласно которому в качестве оценки принимают вектор-столбец b, который минимизирует сумму квадратов отклонений наблюдаемых значений у_i от модельных значений _i, т.е. квадратичную форму:

где символом «Т» обозначена транспонированная матрица.

Наблюдаемые и модельные значения результативного признака у показаны на рис. 53.1.

Рис. 53.1. Наблюдаемые и модельные значения результативного признака у

Дифференцируя, с учетом (53.11) и (53.10), квадратичную форму Q по β₀, β₁, …, β_k и приравнивая частные производные к нулю, получим систему нормальных уравнений

решая которую получим вектор-столбец оценок b, где b = (b₀, b₁, …, b_k)^T. Согласно методу наименьших квадратов, вектор-столбец оценок коэффициентов регрессии получается по формуле

(53.12)

Х^T — транспонированная матрица X;

(Х^TХ)^-1 — матрица, обратная матрице Х^TХ.

Зная вектор-столбец b оценок коэффициентов регрессии, найдем оценку уравнения регрессии

(53.13)

или в матричном виде:

Оценка ковариационной матрицы вектора коэффициентов регрессии b определяется выражением

(53.14)

где

(53.15)

Учитывая, что на главной диагонали ковариационной матрицы находятся дисперсии коэффициентов регрессии, имеем

(53.16)

Значимость уравнения регрессии, т.е. гипотеза Н₀: β = 0 (β₀,= β₁ = β_k = 0), проверяется по F-критерию, наблюдаемое значение которого определяется по формуле

(53.17)

По таблице F-распределения для заданных α, v₁ = k + l,v₂= n – k — l находят F_кр.

Гипотеза H₀ отклоняется с вероятностью α, если F_набл > F_кр. Изэтого следует, что уравнение является значимым, т.е. хотя бы один из коэффициентов регрессии отличен от нуля.

Для проверки значимости отдельных коэффициентов регрессии, т.е. гипотезы Н₀: β_j = 0, где j = 1, 2, …, k, используют t-критерий и вычисляют t_набл(b_j) = b_j/ _bj. По таблице t-распределения для заданного α и v = п — k — 1 находят t_кр.

Гипотеза H₀ отвергается с вероятностью α, если t_набл > t_кр. Из этого следует, что соответствующий коэффициент регрессии β_j значим, т.е. β_j ≠ 0. В противном случае коэффициент регрессии незначим и соответствующая переменная в модель не включается. Тогда реализуется алгоритм пошагового регрессионного анализа, состоящий в том, что исключается одна из незначительных переменных, которой соответствует минимальное по абсолютной величине значение t_набл. После этого вновь проводят регрессионный анализ с числом факторов, уменьшенным на единицу. Алгоритм заканчивается получением уравнения регрессии со значимыми коэффициентами.

Существуют и другие алгоритмы пошагового регрессионного анализа, например с последовательным включением факторов.

Наряду с точечными оценками b_j генеральных коэффициентов регрессии β_j регрессионный анализ позволяет получать и интервальные оценки последних с доверительной вероятностью γ.

Интервальная оценка с доверительной вероятностью γ для параметра β_j имеет вид

(53.19)

где t_α находят по таблице t-распределения при вероятности α = 1 — γ и числе степеней свободы v = п — k — 1.

Интервальная оценка для уравнения регрессии в точке, определяемой вектором-столбцом начальных условий X⁰ = (1, x, x,,…, x)^T записывается в виде

(53.20)

Интервал предсказания _n+1 с доверительной вероятностью у определяется как

(53.21)

где t_α определяется по таблице t-распределения при α = 1 — γ и числе степеней свободы v = п — k — 1.

По мере удаления вектора начальных условий х⁰ от вектора средних ширина доверительного интервала при заданном значении γ будет увеличиваться (рис. 53.2), где = (1, ).

Рис. 53.2. Точечная и интервальная оценки уравнения регрессии .

Мультиколлинеарность

Одним из основных препятствий эффективного применения множественного регрессионного анализа является мультиколлинеарность. Она связана с линейной зависимостью между аргументами х₁, х₂, …, х_k. В результате мультиколлинеарности матрица парных коэффициентов корреляции и матрица (X^TX) становятся слабообусловленными, т.е. их определители близки к нулю.

Это приводит к неустойчивости оценок коэффициентов регрессии (53.12), завышению дисперсии s, оценок этих коэффициентов (53.14), так как в их выражения входит обратная матрица (X^TX)^-1, получение которой связано с делением на определитель матрицы (Х^TХ). Отсюда следуют заниженные значения t(b_j). Кроме того, мультиколлинеарность приводит к завышению значения множественного коэффициента корреляции.

На практике о наличии мультиколлинеарности обычно судят по матрице парных коэффициентов корреляции. Если один из элементов матрицы R больше 0,8, т.е. | r_jl | > 0,8, то считают, что имеет место мультиколлинеарность, и в уравнение регрессии следует включать один из показателей — х_j или x_l.

Чтобы избавиться от этого негативного явления, обычно используют алгоритм пошагового регрессионного анализа или строят уравнение регрессии на главных компонентах.

Пример. Построение регрессионного уравнения

Согласно данным двадцати (п = 20) сельскохозяйственных районов, требуется построить регрессионную модель урожайности на основе следующих показателей:

у — урожайность зерновых культур (ц/га);

x₁ — число колесных тракторов (приведенной мощности) на 100 га;

х₂ — число зерноуборочных комбайнов на 100 га;

х₃ — число орудий поверхностной обработки почвы на 100 га;

x₄ — количество удобрений, расходуемых на гектар;

х₅ — количество химических средств оздоровления растений, расходуемых на гектар.

Исходные данные для анализа приведены в табл. 53.1.

Таблица 53.1

Исходные данные для анализа

Решение. С целью предварительного анализа взаимосвязи показателей построена матрица R — таблица парных коэффициентов корреляции.

Анализ матрицы парных коэффициентов корреляции показывает, что результативный признак наиболее тесно связан с показателем х₄ — количеством удобрений, расходуемых на гектар (r_yx4 = 0,58).

В то же время связь между аргументами достаточно тесная. Так, существует практически функциональная связь между числом колесных тракторов (x₁) и числом орудий поверхностной обработки почвы x₃(r_x1x3) = 0,98.

О наличии мультиколлинеарности свидетельствуют также коэффициенты корреляции r_x1x2 = 0,85 и r_x3x2 = 0,88.

Чтобы продемонстрировать отрицательное влияние мультиколлинеарности, рассмотрим рассчитанное на ЭВМ регрессионное уравнение урожайности, включив в него все исходные показатели:

= 3,515 – 0,006x₁ + 15,542x₂ + 110x₃ + 4,475х₄ — 2,932x_5. (53.22)

(-0,01) (0,72) (0,13) (2,90) (-0,95)

В скобках указаны t_набл (β_j) = t_j — расчетные значения t-критерия для проверки гипотезы о значимости коэффициента регрессии Н₀: β_j = 0, j = 1, 2, 3, 4, 5. Критическое значение t_кр = 1,76 найдено по таблице t-распределения при уровне значимости α = 0,1 и числе степеней свободы v = 14. Из уравнения следует, что статистически значимым является коэффициент регрессии только при х₄, так как |t₄| = 2,90 > t_кр = 1,76. Не поддаются экономической интерпретации отрицательные значения коэффициентов регрессии при х₁ и x₅, из чего следует, что повышение насыщенности сельского хозяйства колесными тракторами (х₁) и средствами оздоровления растений (x₅) отрицательно сказывается на урожайности. Таким образом, полученное уравнение регрессии неприемлемо.

После реализации алгоритма пошагового регрессионного анализа с исключением переменных и учетом того, что в уравнение должна войти только одна из трех тесно связанных переменных (x₁, х₂ или x₃), получаем окончательное уравнение регрессии

= 7,342 + 0,345x₁ + 3,294x₄. (53.23)

(11,12) (2,09) (3,02)

Уравнение значимо при α = 0,05, так как F_набл = 266 > F_кр = 3,20, найденного по таблице F-распределения при α = 0,05, v₁ = 3 и v₂ = 17. Значимы и коэффициенты регрессии β₁ и β₄, так как |t_j| > t_кр = 2,11 (при α = 0,05, v = 17). Коэффициент регрессии β₁ следует признать значимым (β₁ ≠ 0) из экономических соображений; при этом t₁ = 2,09 лишь незначительно меньше t_кр = 2,11. В случае если α = 0,1, t_кр = 1,74 и коэффициент регрессии β₁ статистически значим.

Из уравнения регрессии следует, что увеличение на единицу числа тракторов на 100 га пашни приводит к росту урожайности зерновых в среднем на 0,345 ц/га (b₁ = 0,345).

Коэффициенты эластичности Э₁ = 0,068 и Э₄ = 0,161 (Э_j = ) показывают, что при увеличении показателей x₁ и х₄ на 1% урожайность зерновых повышается соответственно на 0,068% и 0,161%.

Множественный коэффициент детерминации r = 0,469 свидетельствует о том, что только 46,9% вариации урожайности объясняется вошедними в модель показателями (x₁ и x₄), т.е. насыщенностью растениеводства тракторами и удобрениями. Остальная часть вариации обусловлена действием неучтенных факторов (х₂, x₃, х₅, погодными условиями и др.). Средняя относительная ошибка аппроксимации = 10,5% свидетельствует об адекватности модели, так же как и величина остаточной дисперсии s² = 1,97.

53.3. Компонентный анализ

Компонентный анализ предназначен для преобразования системы k исходных признаков в систему k новых показателей (главных компонент). Главные компоненты не коррелированы между собой и упорядочены по величине их дисперсий, причем первая главная компонента имеет наибольшую дисперсию, а последняя, k-я — наименьшую. При этом выявляются неявные, непосредственно не измеряемые, но объективно существующие закономерности, обусловленные действием как внутренних, так и внешних причин.

Компонентный анализ является одним из основных методов факторного анализа. В задачах снижения размерности и классификации обычно используются т первых компонент (т << k).

При наличии результативного признака у может быть построено уравнение регрессии на главных компонентах.

На основании матрицы исходных данных

размерности п х k, где х_ij.— значение j-го показателя у i-го наблюдения (i = 1, 2, …, n; j = 1, 2, …. k), вычисляют средние значения показателей а также s₁, …, s_k и матрицу нормированных значений

с элементами

Рассчитывается матрица парных коэффициентов корреляции:

(53.24)

с элементами

(53.25)

где j, l= 1, 2, …. k.

На главной диагонали матрицы R, т.е. при j = l, расположены элементы

Модель компонентного анализа имеет вид

(53.26)

где a_iv — «вес», т.е. факторная нагрузка v-й главной компоненты на j-ю переменную;

f_iv — значение v-й главной компоненты для i-го наблюдения (объекта), где v = 1, 2, …,k.

В матричной форме модель (53.26) имеет вид

(53.27)

f_iv — значение v-й главной компоненты для i-го наблюдения (объекта);

a_iv — значение факторной нагрузки v-й главной компоненты на j-ю переменную.

Матрица F описывает п наблюдений в пространстве k главных компонент. При этом элементы матрицы F нормированы, т.е. f_v = , a главные компоненты не коррелированы между собой. Из этого следует, что

(53.28)

Выражение (53.28) может быть представлено в виде

(53.29)

С целью интерпретации элементов матрицы А рассмотрим выражение для парного коэффициента корреляции между переменной z_j и, например, f₁-й главной компонентой. Так как z_о и f₁ нормированы, будем иметь с учетом (53.26):

Принимая во внимание (53.29), окончательно получим

Рассуждая аналогично, можно записать в общем виде

(53.30)

для всех j = 1, 2, .,., k и v = 1, 2, …. k.

Таким образом, элемент a_jv матрицы факторных нагрузок А характеризует тесноту линейной связи между исходной переменной z_j и главной компонентой f_v, т.е. –1 ≤ a_jv ≤ +1.

Рассмотрим теперь выражение для дисперсии нормированной переменной z_j. С учетом (53.26) будем иметь

где v, v’= 1, 2, …, k.

Учитывая (53.29), окончательно получим

(53.31)

По условию, переменные z_j нормированы и s = 1. Таким образом, дисперсия переменной z_j, согласно (53.31), представлена своими составляющими, определяющими долю вклада в нее всех k главных компонент.

Полный вклад v-й главной компоненты в дисперсию всех k исходных признаков вычисляется по формуле

(53.32)

Одно из основополагающих условий метода главных компонент связано с представлением корреляционной матрицы R через матрицу факторных нагрузок А. Подставив для этого (53.27) в (53.24), будем иметь

Учитывая (53.28), окончательно получим

(53.33)

Перейдем теперь непосредственно к отысканию собственных значений и собственных векторов корреляционной матрицы R.

Из линейной алгебры известно, что для любой симметричной матрицы R всегда существует такая ортогональная матрица U, что выполняется условие

(53.34)

Так как матрица R положительно определена, т.е. ее главные миноры положительны, то все собственные значения λ_v > 0 для любых v =1, 2, …, k.

В компонентном анализе элементы матрицы Λ ранжированы: λ₁ ≥ λ₂ ≥ … ≥ λ_v … ≥ λ_k ≥ 0. Как будет показано ниже, собственное значение λ_v характеризует вклад v-й главной компоненты в суммарную дисперсию исходного признакового пространства.

Таким образом, первая главная компонента вносит наибольший вклад в суммарную дисперсию, а последняя, k-я, — наименьший.

В ортогональной матрице U собственных векторов v-й столбец является собственным вектором, соответствующим λ_v -му значению.

Собственные значения λ₁ ≥ … ≥ λ_v…. ≥ λ_k находятся как корни характеристического уравнения

(53.35)

Собственный вектор V_v, соответствующий собственному значению λ_v корреляционной матрицы R, определяется как отличное от нуля решение уравнения, которое следует из (53.34):

(53.36)

Нормированный собственный вектор U_v равен

Из условия ортогональности матрицы U следует, что U^-1 = U^T, но тогда, по определению, матрицы R и Λ подобны, так как они, согласно (53.34), удовлетворяют условию

Так как у подобных матриц суммы диагональных элементов равны, то

Учитывая, что сумма диагональных элементов матрицы R равна k, будем иметь

Таким образом,

(53.37)

Представим матрицу факторных нагрузок А в виде

(53.38)

а v-й столбец матрицы А — как

где U_v — собственный вектор матрицы R, соответствующий собственному значению λ_v.

Найдем норму вектора А_v:

(53.39)

Здесь учитывалось, что вектор U_v — нормированный и UU_v = 1. Таким образом,

Сравнив полученный результат с (53.32), можно сделать вывод, что собственное значение λ_v характеризует вклад v-й главной компоненты в суммарную дисперсию всех исходных признаков. Из (53.38) следует, что

(53.40)

Согласно (53.37), общий вклад всех главных компонент в суммарную дисперсию равен k. Тогда удельный вклад v-й главной компоненты определяется по формуле .

Суммарный вклад т первых главных компонент определяется из выражения .

Обычно для анализа используют т первых главных компонент, вклад которых в суммарную дисперсию превышает 60—70%.

Матрица факторных нагрузок А используется для экономической интерпретации главных компонент, которые представляют собой линейные функции исходных признаков. Для экономической интерпретации f_v используются лишь те х_j, для которых |a_jv| > 0,5.

Значения главных компонент для каждого i-го объекта (i = 1, 2, …. n) задаются матрицей F.

Матрицу значений главных компонент можно получить из формулы

откуда

Уравнение регрессии на главных компонентах строится по алгоритму пошагового регрессионного анализа, где в качестве аргументов используются главные компоненты, а не исходные показатели. К достоинству последней модели следует отнести тот факт, что главные компоненты не коррелированы. При построении уравнений регрессии следует учитывать все главные компоненты.

Пример. Построение регрессионного уравнения

По данным примера из § 53.2 провести компонентный анализ и построить уравнение регрессии урожайности Y на главных компонентах.

Решение. В примере из § 53.2 пошаговая процедура регрессионного анализа позволила исключить отрицательное значение мультиколлинеарности на качество регрессионной модели за счет значительной потери информации. Из пяти исходных показателей в окончательную модель вошли только два (x₁ и x₄). Более рациональным в условиях мультиколлинеарности можно считать построение уравнения регрессии на главных компонентах, которые являются линейными функциями всех исходных показателей и не коррелированы между собой.

Воспользовавшись методом главных компонент, найдем собственные значения и на их основе — вклад главных компонент в суммарную дисперсию исходных показателей x₁, х₂, х₃, х₄, х₅ (табл. 53.2).

Таблица 53.2

Собственные значения главных компонент

Ограничимся экономической интерпретацией двух первых главных компонент, общий вклад которых в суммарную дисперсию составляет 89,0%. В матрице факторных нагрузок

звездочкой указаны элементы а_jv = rx_jf_v, учитывающиеся при интерпретации главных компонент f_v, где j, v = 1, 2, …, 5.

Из матрицы факторных нагрузок А следует, что первая главная компонента наиболее тесно связана со следующими показателями: x₁ — число колесных тракторов на 100 га (a₁₁ = rx₁f₁ = 0,95); х₂ — число зерноуборочных комбайнов на 100 га (rx₂f₁ = 0,97); х₃ — число орудий поверхностной обработки почвы на 100 га (rx₃f₁ = 0,94). В этой связи первая главная компонента — f₁ — интерпретирована как уровень механизации работ.

Вторая главная компонента — f₂ — тесно связана с количеством удобрений (х₄) и химических средств оздоровления растений (x₅), расходуемых на гектар, и интерпретирована как уровень химизации растениеводства.

Уравнение регрессии на главных компонентах строится по данным вектора значений результативного признака Y и матрицы F значений главных компонент.

Некоррелированность главных компонент между собой и тесноту их связи с результативным признаком у показывает матрица парных коэффициентов корреляции (табл. 53.3).

Анализ матрицы парных коэффициентов корреляции свидетельствует о том, что результативный признак у наиболее тесно связан с первой (r_yf1 = 0,48), третьей (r_yf3 = 0,37) и. второй (r_yf2 = 0,34) главными компонентами. Можно предположить, что только эти главные компоненты войдут в регрессионную модель у.

Таблица 53.3

Матрица парных коэффициентов корреляции

Первоначально в модель у включают все главные компоненты (в скобках указаны расчетные значения t-критерия):

(53.41)

Качество модели характеризуют: множественный коэффициент детерминации r = 0,517, средняя относительная ошибка аппроксимации = 10,4%, остаточная дисперсия s² = 1,79 и F_набл = 121. Ввиду того что F_набл > F_кр =2,85 при α = 0,05, v₁ = 6, v₂ = 14, уравнение регрессии значимо и хотя бы один из коэффициентов регрессии — β₁, β₂, β₃, β₄ — не равен нулю.

Если значимость уравнения регрессии (гипотеза Н₀: β₁ = β₂ = β₃ = β₄ = 0 проверялась при α = 0,05, то значимость коэффициентов регрессии, т.е. гипотезы H₀: β_j= 0 (j = 1, 2, 3, 4), следует проверять при уровне значимости, большем, чем 0,05, например при α = 0,1. Тогда при α = 0,1, v = 14 величина t_кр = 1,76, и значимыми, как следует из уравнения (53.41), являются коэффициенты регрессии β₁, β₂, β₃.

Учитывая, что главные компоненты не коррелированы между собой, можно сразу исключить из уравнения все незначимые коэффициенты, и уравнение примет вид

(53.42)

Сравнив уравнения (53.41) и (53.42), видим, что исключение незначимых главных компонент f₄ и f₅, не отразилось на значениях коэффициентов уравнения b₀ = 9,52, b₁ = 0,93, b₂ = 0,66 и соответствующих t_j (j = 0, 1, 2, 3).

Это обусловлено некоррелированностью главных компонент. Здесь интересна параллель уравнений регрессии по исходным показателям (53.22), (53.23) и главным компонентам (53.41), (53.42).

Уравнение (53.42) значимо, поскольку F_набл = 194 > F_кр = 3,01, найденного при α = 0,05, v₁ = 4, v₂ = 16. Значимы и коэффициенты уравнения, так как t_j > t_кр. = 1,746, соответствующего α = 0,01, v = 16 для j = 0, 1, 2, 3. Коэффициент детерминации r = 0,486 свидетельствует о том, что 48,6% вариации у обусловлено влиянием трех первых главных компонент.

Уравнение (53.42) характеризуется средней относительной ошибкой аппроксимации = 9,99% и остаточной дисперсией s² = 1,91.

Уравнение регрессии на главных компонентах (53.42) обладает несколько лучшими аппроксимирующими свойствами по сравнению с регрессионной моделью (53.23) по исходным показателям: r = 0,486 > r = 0,469; = 9,99% < (х) = 10,5% и s²(f) = 1,91 < s²(x) = 1,97. Кроме того, в уравнении (53.42) главные компоненты являются линейными функциями всех исходных показателей, в то время как в уравнение (53.23) входят только две переменные (x₁ и х₄). В ряде случаев приходится учитывать, что модель (53.42) трудноинтерпретируема, так как в нее входит третья главная компонента f₃, которая нами не интерпретирована и вклад которой в суммарную дисперсию исходных показателей (x₁, …, х₅) составляет всего 8,6%. Однако исключение f₃ из уравнения (53.42) значительно ухудшает аппроксимирующие свойства модели: r = 0,349; = 12,4% и s²(f) = 2,41. Тогда в качестве регрессионной модели урожайности целесообразно выбрать уравнение (53.23).

Источник

Содержание

Оценка значимости коэффициента корреляции
Пример. Значимость коэффициента корреляции
Пример нахождения коэффициента корреляции
Значимость коэффициента корреляции
Коэффициент корреляции и проверка его значимости

Оценка значимости коэффициента корреляции

Так как оценка тесноты связи с помощью коэффициента корреляции проводится, как правило, на основе выборочной информации об изучаемом явлении, то возникает вопрос: насколько правомерно наше заключение по выборочным данным о наличии корреляционной связи в генеральной совокупности, из которой была извлечена выборка?

В связи с этим возникает необходимость оценки значимости (существенности) линейного коэффициента корреляции, дающая возможность распространить выводы по результатам выборки на генеральную совокупность. В зависимости от объема выборочной совокупности предлагаются различные методы оценки существенности линейного коэффициента корреляции.

Оценка значимости коэффициента корреляции при малых объемах выборки выполняется с использованием t-критерия Стьюдента. При этом наблюдаемое (фактическое) значение этого критерия определяется по формуле:

Вычисленное по этой формуле значение сравнивается с критическим значением t-критерия, которое берется из таблицы значений t-критерия Стьюдента с учетом заданного уровня значимости α и числа степеней свободы (n-2).

Если , то полученное значение коэффициента корреляции признается значимым (т.е. нулевая гипотеза, утверждающая равенство нулю коэффициента корреляции, отвергается). И делается вывод, что между исследуемыми переменными есть тесная статистическая взаимосвязь.

Если корреляция между случайными величинами:

– положительная, то при возрастании одной случайной величины другая имеет тенденцию в среднем возрастать;

– отрицательная, то при возрастании одной случайной величины другая имеет тенденцию в среднем убывать.

Источник

Пример. Значимость коэффициента корреляции

Линейное уравнение регрессии имеет вид y=ax+b
1. Параметры уравнения регрессии.
Средние значения

Дисперсия

Среднеквадратическое отклонение

Коэффициент корреляции

Связь между признаком Y фактором X сильная и прямая.
Уравнение регрессии

x	y	x 2	y 2	x·y	y(x)	(y- y ) 2	(y-y(x)) 2	(x-x p ) 2
1	0.4	1	0.16	0.4	0.4357	0.2359	0.0013	9
2	0.6	4	0.36	1.2	0.5857	0.0816	0.0002	4
3	0.7	9	0.49	2.1	0.7357	0.0345	0.0013	1
4	0.9	16	0.81	3.6	0.8857	0.0002	0.0002	0
5	1.1	25	1.21	5.5	1.0357	0.0459	0.0041	1
6	1.3	36	1.69	7.8	1.1857	0.1716	0.0131	4
7	1.2	49	1.44	8.4	1.3357	0.0988	0.0184	9
28	6.2	140	6.16	29	6.2	0.6686	0.0386	28

2. Оценка параметров уравнения регрессии.
Значимость коэффициента корреляции определяется по формуле (см. п. VI):

Для оценки значимости коэффициента корреляции используют критерий Стьюдента. По таблице Стьюдента находим T_табл(n-m-1;α/2) = T_табл(5;0.025) = 2.571 (двусторонняя критическая область)
1-α (95% — доверительный интервал)

Поскольку Tнабл > Tтабл (наблюдаемое значение критерия Tнабл принадлежит критической области), то отклоняем гипотезу о равенстве 0 коэффициента корреляции. Другими словами, коэффициента корреляции статистически — значим.
Интервальная оценка для коэффициента корреляции (доверительный интервал).

Доверительный интервал для коэффициента корреляции.

r(0.695;1)

Источник

Пример нахождения коэффициента корреляции

Другие варианты формул:
или

К_xy — корреляционный момент (коэффициент ковариации)

Для нахождения линейного коэффициента корреляции Пирсона необходимо найти выборочные средние x и y , и их среднеквадратические отклонения σ_x = S(x), σ_y = S(y):

Свойства коэффициента корреляции

|r_xy| ≤ 1;, -1≤x≤1
если X и Y независимы, то r_xy=0 , обратное не всегда верно;
если |r_xy|=1 , то Y=aX+b , |r_xy(X,aX+b)|=1 , где a и b постоянные, а ≠ 0;
|r_xy(X,Y)|=|r_xy(a₁X+b₁, a₂X+b₂)|, где a₁, a₂, b₁, b₂ – постоянные.

Поэтому для проверки направления связи выбирается проверка гипотезы при помощи коэффициента корреляции Пирсона с дальнейшей проверкой на достоверность при помощи t-критерия (пример см. ниже).

Решение онлайн
Видеоинструкция
Оформление Word
Типовые задачи

Вместе с этим калькулятором также используют следующие:
Уравнение множественной регрессии

Пример . На основе данных, приведенных в Приложении 1 и соответствующих Вашему варианту (таблица 2), требуется:

Рассчитать коэффициент линейной парной корреляции и построить уравнение линейной парной регрессии одного признака от другого. Один из признаков, соответствующих Вашему варианту, будет играть роль факторного (х), другой – результативного (y). Причинно-следственные связи между признаками установить самим на основе экономического анализа. Пояснить смысл параметров уравнения.
Определить теоретический коэффициент детерминации и остаточную (необъясненную уравнением регрессии) дисперсию. Сделать вывод.
Оценить статистическую значимость уравнения регрессии в целом на пятипроцентном уровне с помощью F-критерия Фишера. Сделать вывод.
Выполнить прогноз ожидаемого значения признака-результата y при прогнозном значении признака-фактора х, составляющим 105% от среднего уровня х. Оценить точность прогноза, рассчитав ошибку прогноза и его доверительный интервал с вероятностью 0,95.

Решение. Уравнение имеет вид y = ax + b
Средние значения

Коэффициент регрессии: k = a = 4.01
Коэффициент детерминации
R 2 = 0.99 2 = 0.97, т.е. в 97% случаев изменения х приводят к изменению y . Другими словами — точность подбора уравнения регрессии — высокая. Остаточная дисперсия: 3%.

x	y	x 2	y 2	x·y	y(x)	(y_i— y ) 2	(y-y(x)) 2	(x-x p ) 2
1	107	1	11449	107	103.19	333.06	14.5	30.25
2	109	4	11881	218	107.2	264.06	3.23	20.25
3	110	9	12100	330	111.21	232.56	1.47	12.25
4	113	16	12769	452	115.22	150.06	4.95	6.25
5	120	25	14400	600	119.23	27.56	0.59	2.25
6	122	36	14884	732	123.24	10.56	1.55	0.25
7	123	49	15129	861	127.26	5.06	18.11	0.25
8	128	64	16384	1024	131.27	7.56	10.67	2.25
9	136	81	18496	1224	135.28	115.56	0.52	6.25
10	140	100	19600	1400	139.29	217.56	0.51	12.25
11	145	121	21025	1595	143.3	390.06	2.9	20.25
12	150	144	22500	1800	147.31	612.56	7.25	30.25
78	1503	650	190617	10343	1503	2366.25	66.23	143

Примечание: значения y(x) находятся из полученного уравнения регрессии:
y(1) = 4.01*1 + 99.18 = 103.19
y(2) = 4.01*2 + 99.18 = 107.2
. . .

Значимость коэффициента корреляции

Анализ точности определения оценок коэффициентов регрессии

Доверительные интервалы для зависимой переменной

Рассчитаем границы интервала, в котором будет сосредоточено 95% возможных значений Y при неограниченно большом числе наблюдений и X = 7
(122.4;132.11)
Проверка гипотез относительно коэффициентов линейного уравнения регрессии

Статистическая значимость коэффициента регрессии подтверждается (18.63>2.228).

Статистическая значимость коэффициента регрессии подтверждается (62.62>2.228).
Доверительный интервал для коэффициентов уравнения регрессии
Определим доверительные интервалы коэффициентов регрессии, которые с надежность 95% будут следующими (t_табл=2.228):
(a — t_табл·S_a; a + t_табл·S _a)
(3.6205;4.4005)
(b — t_табл·S_b; b + t_табл·S_b)
(96.3117;102.0519)

Пример №2
1. Расчет средних значений x , y : x = ∑x_i n = 660.6 11 = 60.05 y = ∑y_i n = 333.94 11 = 30.36 x·y = ∑x_i·y_i n = 19952.07 11 = 1813.82
2. Расчет дисперсий: S 2 (x) = x_i 2 n — x 2 = 40337.2 11 — 60.05 2 = 60.47 S 2 (y) = y_i 2 n — y 2 = 10329.52 11 — 30.36 2 = 17.43 3. Расчет среднеквадратических отклонений: S(x) = √ S 2 (x) = √ 60.47 = 7.78 S(y) = √ S 2 (y) = √ 17.43 = 4.17
4. Расчет линейного коэффициента корреляции Пирсона: r_xy = x·y — x · y S(x)·S(y) = 1813.82-60.05·30.36 7.78·4.17 = -0.2872 Линейный коэффициент корреляции принимает значения от –1 до +1.
Связи между признаками могут быть слабыми и сильными (тесными). Их критерии оцениваются по шкале Чеддока:
0.1 2 y 2 x·y y(x) (y_i— y ) 2 (y-y(x)) 2 68.5 22.39 4692.25 501.31 1533.72 29.06 63.49 44.44 75.7 29.24 5730.49 854.98 2213.47 27.95 1.25 1.67 52.7 32.92 2777.29 1083.73 1734.88 31.49 6.56 2.04 60.2 33.52 3624.04 1123.59 2017.9 30.34 10 10.14 62.3 30.98 3881.29 959.76 1930.05 30.01 0.39 0.94 48.3 37.17 2332.89 1381.61 1795.31 32.17 46.4 25 56.5 32.12 3192.25 1031.69 1814.78 30.91 3.1 1.47 65.9 31.76 4342.81 1008.7 2092.98 29.46 1.97 5.3 56.2 28.48 3158.44 811.11 1600.58 30.95 3.53 6.11 51.1 23.17 2611.21 536.85 1183.99 31.74 51.67 73.42 63.2 32.19 3994.24 1036.2 2034.41 29.87 3.36 5.37 660.6 333.94 40337.2 10329.52 19952.07 333.94 191.71 175.9

Значимость линейного коэффициента корреляции Пирсона. t_набл = r_xy· √ n-2 √ 1-r_xy 2 = 0.2872· √ 9 √ 1-0.2872 2 = 0.9
По таблице Стьюдента с уровнем значимости α=0.05 и степенями свободы k=n-m-1=11-1-1=9 находим t_крит: t_крит(n-m-1;α/2) = t_крит(9;0.025) = 2.262, где m=1 — количество объясняющих переменных.
Если t_набл > t_критич, то полученное значение коэффициента корреляции Пирсона признается значимым (нулевая гипотеза, утверждающая равенство нулю коэффициента корреляции, отвергается).
Поскольку t_набл , то принимаем гипотезу о равенстве 0 коэффициента корреляции. Другими словами, коэффициент корреляции статистически — не значим
В парной линейной регрессии t 2 _r = t 2 _b и тогда проверка гипотез о значимости коэффициентов регрессии и корреляции равносильна проверке гипотезы о существенности линейного уравнения регрессии.

Интервальная оценка для линейного коэффициента корреляции Пирсона ( r_xy — t_крит· 1-r_xy 2 √ n ; r_xy + t_крит· 1-r_xy 2 √ n )
Доверительный интервал для коэффициента корреляции ( 0.29 — 2.262· 1-0.29 2 √ 11 ; 0.29 + 2.262· 1-0.29 2 √ 11 ) Доверительный интервал для линейного коэффициента корреляции Пирсона: r(-0.9129;0.3386)

Источник

Коэффициент корреляции и проверка его значимости

Одним из важнейших элементов эконометрического анализа является установление наличия и тесноты связи между различными показателями (например, между ценой и спросом, доходом и потреблением, инфляцией и безработицей). Обычно анализ начинают с простейшей – линейной зависимости.

Числовой характеристикой, измеряющей степень тесноты линейной статистической связи между случайными переменными Х и Y, является коэффициент корреляции между Х и Y, который обозначается r = и определяется по формуле

Приведем основные его свойства.

1. Для любых переменных Х и Y абсолютная величина коэффициента корреляции не превосходит единицы: £ 1, или – 1 £ £ + 1.

2. Абсолютная величина коэффициента корреляции равна единице тогда и только тогда, когда между переменными Х и Y существует линейная функциональная зависимость, т. е. Y = aX + b, где a ¹ 0 и b – некоторые постоянные величины. При этом = 1, если a > 0, и = – 1, если a

Из этих свойств вытекает смысл , который состоит в том, что коэффициент корреляции характеризует тесноту линейной статистической связи между переменными Х и Y: чем ближе к единице, тем связь сильнее; чем ближе к нулю, тем связь слабее. Переменные X и Y называются положительно коррелированными, если и отрицательно коррелированными, если

Определение и свойства теоретического коэффициента корреляции показывают, что изучение линейной статистической зависимости между переменными Х и Y имеет смысл лишь тогда, когда величина r = значима (или существенна), т. е. не очень близка к нулю. Однако эта величина на практике, как правило, неизвестна и может быть лишь оценена с помощью выборочных данных.

Точечной оценкой теоретического коэффициента корреляции является выборочный коэффициент корреляции r = r_xy , который находится по формуле

. (2.33)

– выборочные средние переменных X и Y соответственно;

– выборочная дисперсия переменной X;

– выборочная дисперсия переменной Y;

– выборочные среднеквадратические (стандартные) отклонения переменных X и Y соответственно;

– выборочное среднее переменной X× Y .

Исходя из определения (2.33), можно показать, что выборочный коэффициент корреляции также обладает сформулированными выше свойствами 1 – 3.

Если выборка имеет достаточно большой объем и хорошо представляет генеральную совокупность (репрезентативна), то заключение о тесноте линейной зависимости между переменными, полученное по выборочным данным, в известной мере может быть распространено и на генеральную совокупность. Для достижения этой цели используется критерий, основанный на распределении Стьюдента.

Пусть основная гипотеза Н₀состоит в том, что корреляция между Х и Y не значима, т. е. Н₀: = 0. Альтернативная гипотеза Н₁= состоит в том, что корреляция между Х и Y значима. Если справедлива нулевая гипотеза Н₀ и объем выборки n достаточно велик, то статистика

(2.34)

имеет приближенно распределение Стьюдента с (n – 2) степенями свободы.

Для заданного уровня значимости a находим по таблице 1 Приложения

t_1–_a_/2(n – 2) – квантиль порядка (1–a/2) распределения Стьюдента с (n – 2) степенями свободы. Тогда нулевая гипотеза Н₀принимается при выполнении неравенства

Решение. В примере 2.2 были определены

Вычислим далее среднее

По формуле (2.33) находим

Данное значение коэффициента корреляции позволяет сделать вывод о сильной (прямой) линейной статистической зависимости между рассматриваемыми переменными Х и Y.

Проверим гипотезу Н₀: = 0 против альтернативной Н₁: ¹ 0 на уровне значимости a = 0,01. По формуле (2.34) вычислим статистику

С помощью таблицы квантилей распределения Стьюдента определим

t_1–_a_/2(n – 2) = t_{0, 995}(10) = 3,1693. Поскольку | t_r | > t_1–_a_/2(n – 2) (24,098 > 3,1693), то коэффициент корреляции r_x _y статистически значим. Следовательно, существенно отличается от нуля и между переменными Х и Y существует сильная линейная статистическая зависимость. g

Замечание 2.5. Сравнивая формулы (2.7) и (2.33) для коэффициентов регрессии и корреляции соответственно, нетрудно заметить, что в линейной модели между ними существует зависимость:

Так, используя результаты вычислений в примерах 2.2 и 2.6, получаем

Некоторое (незначительное) расхождение с величиной, полученной в примере 2.6, вызвано ошибками округлений. 3

Замечание 2.6. В случае парной линейной регрессионной модели квадрат коэффициента корреляции между зависимой и независимой переменной равен коэффициенту детерминации:

Так для данных примера 2.2 R 2 = 0,983 » (0,9915) 2 = (см. примеры 2.5 и 2.6); неточности в данном случае связаны с округлением вычислений. 3

Контрольные вопросы

1. Что такое функция регрессии?

2. Чем регрессионная модель отличается от функции регрессии?

3. Какая регрессионная модель называется линейной?

4. Какой смысл имеют коэффициенты парного линейного уравнения регрессии?

5. В чем состоит различие между теоретическим и выборочным уравнением регрессии?

6. В чем сущность метода наименьших квадратов (МНК)?

7. Приведите формулы расчета коэффициентов парного линейного уравнения регрессии по МНК.

8. Перечислите предпосылки регрессионного анализа.

9. Сформулируйте основные свойства МНК-оценок.

10. Имеют ли коэффициенты парной линейной регрессии размерность?

11. Как оценивается дисперсия возмущений?

12. Какие факторы влияют на величину стандартных ошибок коэффициентов регрессии?

13. Как строятся интервальные оценки коэффициентов регрессии?

14. Как строятся доверительные полосы для: а) уравнения регрессии; б) индивидуальных значений результирующей переменной?

13. Какие виды прогнозов Вы знаете?

14. В чем суть предсказания: а) среднего значения; б) индивидуальных значений результирующей переменной?

15. Объясните суть коэффициента корреляции.

16. Сформулируйте основные свойства коэффициента корреляции.

17. Почему коэффициент корреляции называют мерой линейной зависимости между переменными?

18. В чем суть значимости коэффициента корреляции и как она проверяется?

19. Опишите «грубое» правило анализа статистической значимости коэффициента корреляции.

20. Как связаны коэффициенты регрессии и корреляции в парной регрессионной линейной модели?

21. В чем суть статистической значимости коэффициентов регрессии? Как она проверяется?

22. Опишите «грубое» правило анализа статистической значимости коэффициентов регрессии.

23. Объясните суть коэффициента детерминации.

24. В чем суть статистической значимости уравнения регрессии? Как она проверяется?

25. Как связаны коэффициенты детерминации и корреляции в парной регрессионной линейной модели?

Источник

22. Какие задачи в регрессионном анализе решаются с помощью t- критерия Стьюдента

53.1. Корреляционный анализ

53.2. Регрессионный анализ

53.3. Компонентный анализ

Оценка значимости коэффициента корреляции

Пример. Значимость коэффициента корреляции

Пример нахождения коэффициента корреляции

Значимость коэффициента корреляции

Коэффициент корреляции и проверка его значимости

Возможно, вам также будет интересно: