Коэффициент корреляции значим с вероятностью ошибки - Oshibs.top - большая энциклопедия ошибок и их решений

Предмет,
метод и задачи эконометрики

Эконометрика
— это наука, в которой на базе реальных
статистических данных строятся,
анализируются и совершенствуются
математические модели реальных
экономических явлений. Эконометрика
позволяет найти количественное
подтверждение либо опровержение того
или иного экономического закона либо
гипотезы. Таким образом, эконометрика
– наука, которая дает количественное
выражение взаимосвязей экономических
явлений и процессов. Зарождение
эконометрики является следствием
междисциплинарного подхода к изучению
экономики. Эконометрика
представляет собой комбинацию трех
областей знания:

• Экономической
теории

• Статистики

• Математики

Большинство
эконометрических методов и приемов
заимствовано из математической
статистики. Однако методы математической
статистики универсальны и не учитывают
специфики экономических данных, которая
заключается в следующем:

1)
данные не являются результатом
контролируемого эксперимента;

2)
невозможность проводить многократные
эксперименты (из-за изменения внешних
условий);

3)
экономические данные часто содержат
ошибки измерения. В эконометрике
разрабатываются специальные методы
анализа, позволяющие, если не устранить,
то, по крайней мере, снизить влияние
этих ошибок на полученные результаты.

Эти
особенности рождают ряд специфических
проблем, решение которых не входит в
математическую статистику.

Таким
образом, эконометрика связывает между
собой экономическую теорию и экономическую
статистику и с помощью математико-статистических
методов придает конкретное количественное
выражение общим закономерностям,
устанавливаемым экономической теорией.

Предмет
исследования эконометрики как науки
– экономические явления. Но в отличие
от экономической теории эконометрика
делает упор на количественные, а не на
качественные аспекты этих явлений.
Например, экономическая теория утверждает,
что спрос на товар с ростом его цены
убывает. Но при этом практически
неисследованным остается вопрос, как
быстро и по какому закону происходит
это убывание для определенного товара.
Эконометрика отвечает на этот вопрос
для каждого конкретного случая.

Основные
задачи эконометрики:

1.
Построение эконометрических моделей,
т.е. представление экономических моделей
в математической форме, удобной для
проведения эмпирического анализа.

2.
Оценка параметров построенной модели,
делающих выбранную модель наиболее
адекватной реальным данным.

3.
Проверка качества найденных параметров
модели и самой модели в целом.

4.
Использование построенных моделей для
объяснения поведения исследуемых
экономических показателей, прогнозирования
и предсказания, а также для осмысленного
проведения экономической политики.

Методы:
корреляционный, регрессионный,
компонентный и кластерный анализы, а
также такие распространенные
эконометрические модели, как
производственные функции и системы
одновременных уравнений.

В
чем состоит назначение эконометрики
и особенности эконометрического подхода
к исследованию

Особенности
эк-го подхода: практическая
наука, которая использует реальные
данные

Целевое
назначение эконометрики –
эмпирический вывод экономических
закономерностей.

Основные
задачи эконометрики
состоят в построении моделей, выражающей
выводимые закономерности, оценка их
параметров и проверка гипотез о
закономерностях изменения и связях
экономических показателей; модельное
описание конкретных количественных
взаимосвязей, существующих между
экономическими показателями.

Принятие
решений, практический и научный интерес,
обоснование и доказательство теорий.

Виды
переменных в эконометрике

Основные
этапы эконометрического моделирования

Признаки
«хорошей» модели:

1.
Скупость (простота). Модель должна быть
максимально простой. Данное свойство
определяется тем фактом, что модель не
отражает действительность идеально, а
является ее упрощением. Поэтому из двух
моделей, приблизительно одинаково
отражающих реальность, предпочтение
отдается модели, содержащей меньшее
число объясняющих переменных.

2.
Единственность. Для любого набора
статистических данных определяемые
коэффициенты должны вычисляться
однозначно.

3.
Максимальное соответствие. Уравнение
тем лучше, чем большую часть разброса
зависимой переменной оно может объяснить.

4.
Согласованность с теорией. Никакое
уравнение не может быть признано
качественным, если оно не соответствует
известным теоретическим предпосылкам.
Другими словами, модель обязательно
должна опираться на теоретический
фундамент, так как в противном случае
результат использования регрессионного
уравнения может быть весьма плачевным.

5.
Прогнозные качества. Модель может быть
признана качественной, если полученные
на ее основе прогнозы подтверждаются
реальностью.

Примеры
эконометрических моделей и сфер их
применения

Выделяют
три основных класса моделей.

I.
Регрессионные модели с одним уравнением

Линейные

Нелинейные

II.
Модели временных рядов, полученные с
помощью следующих методов

Экспоненциального
сглаживания

Сезонной
декомпозиции

Авторегрессии

ARIMA
и др.5

III.
Системы одновременных уравнений

Пример.
Модель спроса и предложения описывается
следующей системой уравнений:

Классификация
задач, решаемых с помощью эконометрической
модели:

I.
По конечным прикладным целям

прогноз
экономических и социально-экономических
показателей, характеризующих состояние
и развитие анализируемой системы;

имитация
возможных сценариев социально-экономического
развития системы для выявления того,
как планируемые изменения тех или иных
поддающихся управлению параметров
скажутся на выходных характеристиках.

II.
По уровню иерархии выделяют задачи,
решаемые на:

макроуровне
(страна в целом);

мезоуровне
(уровне регионов, отраслей, корпораций);

микроуровне
(на уровне семьи, предприятия, фирмы).

III.
По профилю анализируемой экономической
системы выделяют задачи, направленные
на

решение
проблем:

рынка;

инвестиционной,
финансовой или социальной политики;

ценообразования;

распределительных
отношений;

спроса
и потребления;

на
определенный комплекс проблем. Однако,
чем шире комплекс проблем, тем меньше
шансов провести эконометрическое
исследование достаточно эффективно.

Какие
задачи решаются с помощью корреляционного
анализа

Задачи:

Исследование
взаимосвязи между параметрами,
определение ее частоты.
Правильная
идентификация модели.
Помогает
в выборе нужных параметров.
Прогнозирование.
Если известно поведение одного параметра,
то можно предсказать поведение другого
параметра, коррелирующего с первым.
Классификация
и идентификация объектов. Корреляционный
анализ помогает подобрать набор
независимых признаков для классификации.

Парный
коэффициент корреляции. Основные
понятия и свойства.

Парный
коэффициент корреляции характеризует
тесноту линейной зависимости между
двумя переменными на фоне действия всех
остальных показателей, входящих в
модель. Данные коэффициенты корреляции
изменяются в пределах от -1 до +1, причем,
чем ближе коэффициент корреляции к +1,
тем сильнее зависимость между переменными.
Если коэффициент корреляции больше 0,
то связь положительная, а если меньше
нуля – отрицательная.

Св-ва
к-та:

Размерная
величина (-1-1), стандартизирован,
анализирует линейную взаимосвязь.

Вопрос
Зачем и как проверять значимость парного
коэффициента корреляции и строить его
интервальную оценку

К-ты
корреляции как статистические величины
подвергаются в анализе оценки на
достоверность. Это объясняется тем, что
любая совокупность наблюдений представляет
собой некоторую выборку, следовательно,
значение любого показателя, вычисленное
на основе выборки, не может рассматриваться
как истинное, а является только более
или менее точной его оценкой. В связи с
этим, возникает необходимость проверки
существенности (значимости) признака.

Предположим,
что по данным выборочной совокупности
была построена линейная модель парной
регрессии. Задача состоит в проверке
значимости парного коэффициента
корреляции между результативной
переменной у и факторной переменной х.

Основная
гипотеза состоит в предположении о
незначимости парного коэффициента
корреляции, т. е.

Н0:rxy=0.

Обратная
или конкурирующая гипотеза состоит в
предположении о значимости парного
коэффициента корреляции, т. е.

Н1:rxy/=0.

Данные
гипотезы проверяются с помощью t-критерия
Стьюдента.

Наблюдаемое
значение t-критерия (вычисленное на
основе выборочных данных) сравнивают
с критическим значением t-критерия,
которое определяется по таблице
распределения Стьюдента.

При
проверке значимости парного коэффициента
корреляции критическое значение
t-критерия определяется как tкрит(a;n-h),
где а – уровень значимости, (n-h) – число
степеней свободы, которое определяется
по таблице распределений t-критерия
Стьюдента.

При
проверке основной гипотезы вида Н0:rxy=0
наблюдаемое значение t-критерия Стьюдента
рассчитывается по формуле:

где
ryx – выборочный парный коэффициент
корреляции между результативной
переменной у и факторной переменной х,
который рассчитывается по формуле:

(ryx) –
величина стандартной ошибки парного
выборочного коэффициента корреляции.

Показатель
стандартной ошибки парного выборочного
коэффициента корреляции для линейной
модели парной регрессии рассчитывается
по формуле:

Если
данное выражение подставить в формулу
для расчёта наблюдаемого значения
t-критерия для проверки гипотезы вида
Н0:rxy=0, то получим:

При
проверке основной гипотезы возможны
следующие ситуации:

Если
наблюдаемое значение t-критерия
(вычисленное по выборочным данным) по
модулю больше критического значения
t-критерия (определённого по таблице
распределения Стьюдента), т. е.

tнабл|>t

Если
наблюдаемое значение t-критерия
(вычисленное по выборочным данным) по
модулю меньше или равно критического
значения t-критерия (определённого по
таблице распреляционная зависимость
между исследуемыми переменными
отсутствует, и продолжение регрессионного
анализа считается нецелесообразным.

Применение
t-статистики Стьюдента для проверки
гипотезы вида Н0:rxy=0 основано на выполнении
двух условий:

1)
если объём выборочной совокупности
достаточно велик (n>=30);

2)
коэффициент корреляции по модулю
значительно меньше единицы:

0,45<=|ryx|<=0.75.

В
том случае, если модуль парного выборочного
коэффициента корреляции близок к
единице, то гипотеза вида Н0:rxy=0 также
может быть проверена с помощью
z-статистики. Данный метод оценки
значимости парного коэффициента
корреляции был предложен Р.
Фишером.

Между
величиной z и парным выборочным
коэффициентом корреляции существует
отношение вида:

В
связи с тем, что величина z является
нормально распределённой величиной,
то проверка основной
гипотезы о незначимости парного
коэффициента корреляции сводится к
провреке основной гипотезы о незначимости
величины z:

Н0:z=0.

Обратная
или конкурирующая гипотеза состоит в
предположении о значимости величины
z, т. е.

Н1:z/=0.

Данные
гипотезы проверяются с помощью t-критерия
Стьюдента.

При
проверке основной гипотезы вида Н0:z=0
наблюдаемое значение t-критерия Стьюдента
рассчитывается по формуле:

Показатель
стандартной ошибки величины z для
линейной модели парной регрессии
рассчитывается по формуле:

При
проверке основной гипотезы возможны
следующие ситуации:

Частный
коэффициент корреляции. Основные
понятия и свойства, как анализировать
парные и частные коэффициенты корреляции

Основная
задача корреляционного анализа состоит
в оценке корреляционной матрицы
генеральной совокупности по выборке и
определении на ее основе оценок парных,
частных и множественных коэффициентов
корреляции и детерминации.

Парный
коэффициент – это коэффициент корреляции,
который характеризует тесноту линейной
зависимости между двумя переменными
на фоне действия всех остальных
показателей, входящих в модель. Частный
коэффициент корреляции – это коэффициент,
который характеризует тесноту линейной
зависимости между двумя переменными
при исключении влияния всех остальных
показателей, входящих в модель.

Свойства:

1.
Коэффициент корреляции принимает
значения на отрезке [-1;1], т. е. -1 <r<1.
Чем ближе | r|
к единице, тем теснее связь.

2.
При r
= ±1 корреляционная связь представляет
линейную функциональную зависимость.
При этом все наблюдаемые значения
располагаются на прямой линии.

3.
При r
= 0 линейная корреляционная связь
отсутствует. При этом линия регрессии
параллельна оси Ох

4.
Если коэффициент корреляции больше 0,
то связь положительная, а если меньше
нуля — отрицательная.

Для
пар. коэф. кор.:

=

где
x_i и
y_i —
значения признаков х и у соответственно
для i-ro объекта, i=1, .., n; n — число
объектов; и —
средние арифметические значения
признаков х и у соответственно.

Для
част.коэф.кор.:
=

Где

– множественный коэффициент детерминации,
характеризующий долю вариации
результативного признака, обусловленную
изменением всех учтенных факторов;

—
множественный коэффициент детерминации,
характеризующий долю вариации
результативного признака, обусловленную
изменением

Зачем
и как проверять значимость частного
коэффициента корреляции и строить его
интервальную оценку

Если
коэффициент корреляции незначим, то
признаки х и y считаются независимыми
в генеральной совокупности.

Значимость
частных и парных коэффициентов корреляции,
т.е. гипотеза H0: p=0, проверяется по
t-критерию Стъюдента. Наблюдаемое
значение критерия находится по формуле:

где

r	—	соответственно оценка частного или парного коэффициент корреляции;
1	—	порядок частного коэффициент корреляции, т.е. число фиксируемых факторов.

Для
парного коэффициента корреляции l=0.

Напомним,
что проверяемый коэффициент корреляции
считается значимым, т.е. гипотеза H0: р=0
отвергается с вероятностью ошибки α,
если t набл по модулю будет больше, чем
tкр, определяемое по таблицам t-распределение
для заданного a и ν= n — l — 2.

Значимость
коэффициентов корреляции можно также
проверить с помощью таблиц Фишера-Иейтса.

Для
значимых параметров связи имеет смысл
найти интервальные оценки.

При
определении с надежностью g доверительного
интервала для значимого парного или
частного коэффициентов корреляции р
используют Z-преобразование Фишера и
предварительно устанавливают интервальную
оценку для Z

где
ty вычисляют по таблице интегральной
функции Лапласа из условия

Значение
Z’ определяют по таблице Z — преобразования
по найденному значению p. Функция
нечетная, т. е.

Обратный
переход от Z к ρ осуществляют также по
таблице Z — преобразования, после
использования которой получают
интервальную оценку для ρ с надежностью
γ :

Таким
образом, с вероятностью γ гарантируется,
что генеральный коэффициент корреляции
ρ будет находиться в интервале (rmin,
rmax).

Полученная
интервальная оценка подтверждает вывод
о значимости (незначимости) парного
коэффициента корреляции.

Правило
построения интервальных оценок для
парного и частного коэффициентов
корреляции

Для
значимых параметров связи имеет смысл
найти интервальные оценки.

где
t_y
вычисляют по таблице интегральной
функции Лапласа из условия

Значение
Z’ определяют по таблице Z — преобразования
по найденному значению p. Функция
нечетная, т. е.

Таким
образом, с вероятностью γ гарантируется,
что генеральный коэффициент корреляции
ρ будет находиться в интервале (r_min,
r_max).

Правило
проверки значимости оценок для парного
и частного коэффициентов корреляции

Значимость
частных и парных коэффициентов корреляции,
т.е. гипотеза H₀:
p=0, проверяется по t-критерию Стъюдента.
Наблюдаемое значение критерия находится
по формуле:

где

r	—	соответственно оценка частного или парного коэффициент корреляции;
1	—	порядок частного коэффициент корреляции, т.е. число фиксируемых факторов.

Для
парного коэффициента корреляции l=0.

Напомним,
что проверяемый коэффициент корреляции
считается значимым, т.е. гипотеза H₀:
р=0 отвергается с вероятностью ошибки
α, если t набл по модулю будет больше,
чем t_кр,
определяемое по таблицам t-распределение
для заданного a и ν= n — l — 2.

Значимость
коэффициентов корреляции можно также
проверить с помощью таблиц Фишера-Иейтса.

Общее
и различие в задачах корреляционного
и регрессионного анализа

Корреляционный
анализ —
метод обработки статистических данных,
с помощью которого измеряется теснота
связи между двумя или более переменными.
Корреляционный анализ тесно связан
с регрессионным
анализом (также
часто встречается термин
«корреляционно-регрессионный
анализ»,
который является более общим статистическим
понятием), с его помощью определяют
необходимость включения тех или иных
факторов в уравнение множественной
регрессии, а также оценивают полученное
уравнение регрессии на соответствие
выявленным связям.

Регрессионный анализ — статистический
метод исследования
влияния одной или нескольких независимых
переменных на зависимую
переменную .
Цели регрессионного анализа:

Определение
степени детерминированности вариации критериальной
(зависимой) переменной предикторами (независимыми
переменными)

Предсказание
значения зависимой переменной с помощью
независимой(-ых)

Определение
вклада отдельных независимых переменных
в вариацию зависимой

Регрессионный
анализ нельзя использовать для определения
наличия тесноты связи между переменными,
поскольку наличие такой связи и есть
предпосылка для примененияанализа.

Понятие
уравнение регрессии, цель и задачи его
построения

Регрессионный анализ — статистический
метод исследования
влияния одной или нескольких независимых
переменных на зависимую
переменную .

Обычно
предполагается, что случайная величина
Y имеет нормальный закон распределения
с условным математическим ожиданием
,являющимся
функцией от аргументов x_j,
и с постоянной, не зависящей от аргументов
дисперсией
.

Для
проведения регрессионного анализа из
( k+1) -мерной генеральной совокупности
(Y,X₁,X₂,…,X_j,…,X_jk)
берется выборка объемом n и каждое i-ое
наблюдение (объект) характеризуется
значениями переменных (y_i,x_i1,x_i2,…,x_ij,…,x_i)
, где x_ij
— значение j-ой переменной для i-го
наблюдения (i=1,2,…,n), y_i
— значение результативного признака
для i-го наблюдения.

Наиболее
часто используемая множественная
линейная модель регрессионного анализа
имеет вид:

(2.1)

где
e i — случайные ошибки наблюдения,
независимые между собой, имеют нулевую
среднюю и дисперсию
.

Отметим,
что модель (2.1) справедлива для всех
i=1,2,.., n, линейна относительно неизвестных
параметров
и
аргументов.

Как
следует из (2.1) коэффициент регрессии
показывает,
на какую величину в среднем изменится
результативный признак Y, если переменную
X_j
увеличить на единицу измерения, т. е.
является нормативным коэффициентом.

В
матричной форме регрессионная модель
имеет вид:

(2.2)

где
Y — случайный вектор — столбец размерности
(n x 1) наблюдаемых значений результативного
признака (y₁,
y₂,…,
y_n);
X — матрица размерности [n x (k+1)] наблюдаемых
значений аргументов. Элемент матрицы
x_ij
рассматривается как неслучайная величина
(i=1,2,…,n; j=0,1,2,…k); b — вектор — столбец
размерности [(k+1)* 1] неизвестных, подлежащих
оценке параметров (коэффициентов
регрессии) модели;
—
случайный вектор — столбец размерности
(n*1) ошибок наблюдений (остатков).
Компоненты вектора_i
независимы между собой, имеют нормальный
закон распределения с нулевым
математическим ожиданием (M_ei=0)
и неизвестной дисперсией
(D_i=).

На
практике рекомендуется, чтобы n превышало
k не менее, чем в три раза.

В
модели (2.2)

Единицы
в первом столбце матрицы призваны
обеспечить наличие свободного члена в
модели (2.1). Здесь предполагается, что
существует переменная х 0, которая во
всех наблюдениях принимает значения =
1.

Основная
задача регрессионного анализа заключается
в нахождении по выборке объемом n оценки
неизвестных коэффициентов регрессии
модели
(2.1) или вектора b в (2.2).

Так
как в регрессионном анализе x_j
рассматриваются как неслучайные
величины, а M=0,
то согласно (2.1) уравнение регрессии
имеет вид:

(2.3)

для
всех i= 1,2,…,n, или в матричной форме:

(2.4)

где
—
вектор-столбец с элементами₁,…,_i,…,_n.

Для
оценки вектора
наиболее
часто используют метод наименьших
квадратов (МНК), согласно которому в
качестве оценки принимают вектор b,
который минимизирует сумму квадратов
отклонения наблюдаемых значений y_i
от модельных значений
_i,
т. е. квадратичную форму:

Наблюдаемые
и модельные значения показаны на рис.
2.1.

Рис.
2.1. Наблюдаемые и модельные значения
результативной величины у

Дифференцируя,
с учетом (2.4) и (2.3) квадратичную форму Q
по
и
приравнивая производные нулю получим
систему нормальных уравнений:

для
всех j = 0,1,…, k

Решая
которую и получаем вектор оценок b, где
b=(b₀b₁…b_k)^T

Согласно
методу наименьших квадратов, вектор
оценок коэффициентов регрессии получается
по формуле:

(2.5)

X^T	—	транспортированная матрица X;
(X^TX)^-1	—	матрица, обратная матрице X^TX.

Зная
вектор оценок коэффициентов регрессии
b найдем оценку
уравнения
регрессии:

Или
в матричном виде:

где

Оценка
ковариационной матрицы коэффициентов
регрессии вектора b определяется из
выражения:

(2.7)

где

(2.8)

Учитывая,
что на главной диагонали ковариационной
матрицы находятся дисперсии коэффициентов
регрессии, имеем:

для
j=1,2,…,k,k+1

(2.9)

Геометрическая
и содержательная интерпретация
коэффициентов уравнения парной линейной
регрессии

Одним
из важнейших факторов интерпретации
коэффициентов регрессии является вид
полученной модели. Например, для линейно
эконометрической модели вида у = а0+а1*х
экономическая интерпретация коэффициентов
регрессии а0 и а1 будет следующей: с
увеличением уровня фактора х на единицу
значение результата увеличивается на
а1 единиц. Влияние неучтенных факторов
составляет а0 ед. Если в результате
моделирования была получена гиперболическая
модель вида у = а0+а1/х, то экономическая
интерпретация коэффициентов регрессии
для такой модели будет следующим:
свободный член рассматриваемой
зависимости а0 представляет собой
обобщенное воздействие всех неучтенных
факторов на зависимый показатель;
экономический смысл коэффициента
регрессии а1 определяется условиями
анализа, например, при анализе зависимости
трудоемкости производства в сельском
хозяйстве коэффициент регрессии а1 в
указанной гиперболической модели будет
означать некий расчетный объем затрат
труда, который находится в зависимости
от урожайности.

Коэффициенты
линейной регрессии показывают скорость
изменения зависимой переменной по
данному фактору, при фиксированных
остальных факторах (в линейной модели
эта скорость постоянна)

Содержательная
интерпретация коэффициентов регрессии
множественной линейной регрессии

Коэффициент
множественной регрессии bj показывает,
на какую величину в среднем изменится
результативный признак Y, если переменную
Xj увеличить на единицу измерения, т. е.
является нормативным коэффициентом.

Коэффициенты
уравнения показывают количественное
воздействие каждого фактора на
результативный показатель при неизменности
других.

Множественный
коэффициент корреляции характеризует
тесноту линейной связи между одной
переменной (результативной) и остальными,
входящими в модель; изменяется в пределах
от 0 до 1. Квадрат множественного
коэффициент корреляции называется
множественным коэффициентом детерминации.
Он характеризует долю дисперсии одной
переменной (результативной), обусловленной
влиянием всех остальных переменных
(аргументов), входящих в модель.

Методика
проведения корреляционного анализа

Допустим,
проводится независимое измерение
различных параметров у одного типа
объектов. Из этих данных можно получить
качественно новую информацию — о
взаимосвязи этих параметров.

Взаимосвязь
между переменными необходимо
охарактеризовать численно с помощью
коэффициента корреляции.

Он
рассчитывается следующим образом:

Есть
массив из n точек {x1,i, x2,i}

Рассчитываются
средние значения для каждого параметра:

И
коэффициент корреляции:

Изменяется
в пределах от -1 до 1. В данном случае это
линейный коэффициент корреляции, он
показывает линейную взаимосвязь между
x1 и x2: r равен 1 (или -1), если связь линейна.

Коэффициент
r является случайной величиной, поскольку
вычисляется из случайных величин. Для
него можно выдвигать и проверять
следующие гипотезы:

1.
Коэффициент корреляции значимо отличается
от нуля (т.е. есть взаимосвязь между
величинами):

Тестовая
статистика вычисляется по формуле:

И
сравнивается с табличным значением
коэффициента Стьюдента t(p = 0.95, f = ) = 1.96

Если
тестовая статистика больше табличного
значения, то коэффициент значимо
отличается от нуля. По формуле видно,
что чем больше измерений n, тем лучше
(больше тестовая статистика, вероятнее,
что коэффициент значимо отличается от
нуля)

2.
Отличие между двумя коэффициентами
корреляции значимо:

Тестовая
статистика:

Также
сравнивается с табличным значением
t(p,)

Методами
корреляционного анализа решаются
следующие задачи:

1)
Взаимосвязь. Есть ли взаимосвязь между
параметрами?

2)
Прогнозирование. Если известно поведение
одного параметра, то можно предсказать
поведение другого параметра, коррелирующего
с первым.

3)
Классификация и идентификация объектов.
Корреляционный анализ помогает подобрать
набор независимых признаков для
классификации.

Методика
проведения регрессионного анализа

Обычно
предполагается, что случайная величина
Y имеет нормальный закон распределения
с условным математическим ожиданием,являющимся функцией от аргументов xj,
и с постоянной, не зависящей от аргументов
дисперсией .

Для
проведения регрессионного анализа из
( k+1) -мерной генеральной совокупности
(Y,X1,X2,…,Xj,…,Xjk) берется выборка объемом
n и каждое i-ое наблюдение (объект)
характеризуется значениями переменных
(yi,xi1,xi2,…,xij,…,xi) , где xij — значение j-ой
переменной для i-го наблюдения
(i=1,2,…,n), yi — значение результативного
признака для i-го наблюдения.

Наиболее
часто используемая множественная
линейная модель регрессионного анализа
имеет вид:

где
e i — случайные ошибки наблюдения,
независимые между собой, имеют нулевую
среднюю и дисперсию .

В
матричной форме регрессионная модель
имеет вид:

где
Y — случайный вектор — столбец размерности
(n x 1) наблюдаемых значений результативного
признака (y1, y2,…, yn); X — матрица размерности
[n x (k+1)] наблюдаемых значений аргументов.
Элемент матрицы xij рассматривается как
неслучайная величина (i=1,2,…,n; j=0,1,2,…k);
b — вектор — столбец размерности [(k+1)* 1]
неизвестных, подлежащих оценке параметров
(коэффициентов регрессии) модели; —
случайный вектор — столбец размерности
(n*1) ошибок наблюдений (остатков).
Компоненты вектора i независимы между
собой, имеют нормальный закон распределения
с нулевым математическим ожиданием
(Mei=0) и неизвестной дисперсией (D_i=). На практике рекомендуется, чтобы n
превышало k не менее, чем в три раза.

В
модели (2.2)

(2.3)

для
всех i= 1,2,…,n, или в матричной форме:

(2.4)

где
—
вектор-столбец с элементами₁,…,_i,…,_n.

Согласно
методу наименьших квадратов, вектор
оценок коэффициентов регрессии получается
по формуле:

(2.5)

X^T	—	транспортированная матрица X;
(X^TX)^-1	—	матрица, обратная матрице X^TX.

Зная
вектор оценок коэффициентов регрессии
b найдем оценку
уравнения
регрессии:

Или
в матричном виде:

где

Оценка
ковариационной матрицы коэффициентов
регрессии вектора b определяется из
выражения:

(2.7)

где

(2.8)

для
j=1,2,…,k,k+1

(2.9)

Проверяется
значимость уравнения регрессии, т. е.
гипотеза H₀:
=0
(),
проверяется по F-критерию, наблюдаемое
значение которого определяется по
формуле:

	(2.10)

Гипотеза
H₀
отклоняется с вероятностью a, если
F_набл>F_кр.
Из этого следует, что уравнение является
значимым, т. е. хотя бы один из коэффициентов
регрессии отличен от нуля.

Для
проверки значимости отдельных
коэффициентов регрессии, т. е. гипотез
H₀:
=0,
где j=1,2,…k, используют t-критерий и
вычисляют:.
По таблице t-распределения для заданного
a и v= n-k-1, находят t_кр..

Гипотеза
H₀
отвергается с вероятностью a, если
t_набл>t_кр.
Из этого следует, что соответствующий
коэффициент регрессии b_j
значим, т. е. b_j0.
В противном случае коэффициент регрессии
незначим и соответствующая переменная
в модель не включается. Тогда реализуется
алгоритм пошагового регрессионного
анализа, состоящий в том, что исключается
одна из незначимых переменных, которой
соответствует минимальное по абсолютной
величине значение t_набл.
После этого вновь проводят регрессионный
анализ с числом факторов, уменьшенным
на единицу. Алгоритм заканчивается
получением уравнения регрессии со
значимым коэффициентами.

Существуют
и другие алгоритмы пошагового
регрессионного анализа, например, с
последовательным включением факторов.

Множественный
коэффициент корреляции, его интерпретация
и проверка значимости

Множественный
коэффициент корреляции (k-1)-го порядка
фактора (результативного признака) X1
определяется по формуле:

где
|R| — определитель матрицы R.

Значимость
множественного коэффициента корреляции
(или его квадрата — коэффициента
детерминации) проверяется по F — критерию.

Например,
для множественного коэффициента
корреляции проверка значимости сводится
к проверке гипотезы, что генеральный
множественный коэффициент корреляции
равен нулю, т. е. H₀:
p_1/2,..,k=0,
а наблюдаемое значение статистики
находится по формуле:

Множественный
коэффициент корреляции считается
значимым, т. е. имеет место линейная
статистическая зависимость, между X1 и
остальными факторами X2,…,XK, если: Fнабл.
> Fкр. (α,k-1,n-k), где Fкр. определяется по
таблице F — распределения для заданных
α, ν1= k — 1, ν2 = n — k.

В
чем смысл метода наименьших квадратов
(МНК) и свойства МНК-оценок в классической
линейной модели множественной регрессии

Классический
подход к оцениванию параметров линейной
регрессии основан на методе наименьших
квадратов (МНК). Суть метода наименьших
квадратов состоит в том, чтобы найти
такой вектор β оценок неизвестных
коэффициентов модели, при которых сумма
квадратов отклонений (остатков)
наблюдаемых значений зависимой переменной
у от расчётных значений ỹ (рассчитанных
на основании построенной модели
регрессии) была бы минимальной.

Матричная
форма функционала F метода наименьших
квадратов:

Где

–случайный
вектор-столбец значений результативной
переменной размерности (n*1);

–матрица
значений факторной переменной размерности
(n*(m+1)). Первый столбец является единичным,
потому что в модели регрессии коэффициент
β0 умножается на единицу;

В
процессе минимизации функции (1)
неизвестными являются только значения
коэффициентов β0…βm, потому что значения
результативной и факторных переменных
известны из наблюдений. Для определения
минимума функции (1) необходимо вычислить
частные производные этой функции по
каждому из оцениваемых параметров и
приравнять их к нулю. Результатом данной
процедуры будет стационарная система
уравнений для функции (1):

В
первую очередь, отметим, что для линейных
моделей МНК-оценки являются линейными
оценками, как это следует из вышеприведённой
формулы. Для несмещенности МНК-оценок
необходимо и достаточно выполнения
важнейшего условия регрессионного
анализа: условное по факторам математическое
ожидание случайной ошибки должно быть
равно нулю. Данное условие, в частности,
выполнено, если

математическое
ожидание случайных ошибок равно нулю,
и
факторы
и случайные ошибки — независимые
случайные величины.

Первое
условие можно считать выполненным
всегда для моделей с константой, так
как константа берёт на себя ненулевое
математическое ожидание ошибок (поэтому
модели с константой в общем случае
предпочтительнее).

Второе
условие — условие экзогенности факторов
— принципиальное. Если это свойство не
выполнено, то можно считать, что
практически любые оценки будут крайне
неудовлетворительными: они не будут
даже состоятельными (то есть даже очень
большой объём данных не позволяет
получить качественные оценки в этом
случае). В классическом случае делается
более сильное предположение о
детерминированности факторов, в отличие
от случайной ошибки, что автоматически
означает выполнение условия экзогенности.
В общем случае для состоятельности
оценок достаточно выполнения условия
экзогенности вместе со сходимостью
матрицы к некоторой невырожденной
матрице при увеличении объёма выборки
до бесконечности.

Для
того, чтобы кроме состоятельности и
несмещенности, оценки (обычного) МНК
были ещё и эффективными (наилучшими в
классе линейных несмещенных оценок)
необходимо выполнение дополнительных
свойств случайной ошибки:

Постоянная
(одинаковая) дисперсия случайных ошибок
во всех наблюдениях (отсутствие
гетероскедастичности):

Отсутствие
корреляции (автокорреляции) случайных
ошибок в разных наблюдениях между собой

Данные
предположения можно сформулировать
для ковариационной
матрицы вектора
случайных ошибок

Линейная
модель, удовлетворяющая таким условиям,
называется классической.
МНК-оценки для классической линейной
регрессии являются несмещёнными, состоятельными и
наиболее эффективными оценками
в классе всех линейных несмещённых
оценок (в англоязычной литературе иногда
употребляют аббревиатуру BLUE (Best
Linear Unbaised Estimator) —
наилучшая линейная несмещённая оценка;
в отечественной литературе чаще
приводится теорема
Гаусса — Маркова). Как
нетрудно показать, ковариационная
матрица вектора оценок коэффициентов
будет равна:

Эффективность означает,
что эта ковариационная матрица является
«минимальной» (любая линейная комбинация
коэффициентов, и в частности сами
коэффициенты, имеют минимальную
дисперсию), то есть в классе линейных
несмещенных оценок оценки МНК-наилучшие.
Диагональные элементы этой матрицы —
дисперсии оценок коэффициентов —
важные параметры качества полученных
оценок. Однако рассчитать ковариационную
матрицу невозможно, поскольку дисперсия
случайных ошибок неизвестна. Можно
доказать, что несмещённой и состоятельной
(для классической линейной модели)
оценкой дисперсии случайных ошибок
является величина:

Подставив
данное значение в формулу для ковариационной
матрицы и получим оценку ковариационной
матрицы. Полученные оценки также
являются несмещёнными исостоятельными.
Важно также то, что оценка дисперсии
ошибок (а значит и дисперсий коэффициентов)
и оценки параметров модели являются
независимыми случайными величинами,
что позволяет получить тестовые
статистики для проверки гипотез о
коэффициентах модели.

Необходимо
отметить, что если классические
предположения не выполнены, МНК-оценки
параметров не являются
наиболее эффективными оценками
(оставаясь несмещёнными исостоятельными).
Однако, ещё более ухудшается оценка
ковариационной матрицы — она
становится смещённой и несостоятельной.
Это означает, что статистические выводы
о качестве построенной модели в таком
случае могут быть крайне недостоверными.
Одним из вариантов решения последней
проблемы является применение специальных
оценок ковариационной матрицы, которые
являются состоятельными при нарушениях
классических предположений (стандартные
ошибки в форме Уайта и стандартные
ошибки в форме Ньюи-Уест).
Другой подход заключается в применении
так называемого обобщённого
МНК.

Коэффициент
детерминации — это доля дисперсии
зависимой переменной, объясняемая
рассматриваемой моделью зависимости,
то есть объясняющими переменными. Более
точно — это единица минус доля
необъяснённой дисперсии (дисперсии
случайной ошибки модели, или условной
по факторам дисперсии зависимой
переменной) в дисперсии зависимой
переменной. Его рассматривают как
универсальную меру связи одной случайной
величины от множества других.

Коэффициент
детерминации принимает значение от 0
до 1. Чем ближе значение к 1 тем выше
зависимость. При оценке регрессионных
моделей это интерпретируется как
соответствие модели данным. Для
приемлемых моделей предполагается, что
коэффициент детерминации должен быть
хотя бы не меньше 50% (в этом случае
коэффициент множественной корреляции
превышает по модулю 70%). Модели с
коэффициентом детерминации выше 80%
можно признать достаточно хорошими
(коэффициент корреляции превышает 90%).
Значение коэффициента детерминации 1
означает функциональную зависимость
между переменными.

При
отсутствии статистической связи между
объясняемой переменной и факторами,
статистика для линейной регрессии
имеет асимптотическое распределение
, где — количество факторов модели (см.
тест множителей Лагранжа). В случае
линейной регрессии с нормально
распределёнными случайными ошибками
статистика имеет точное (для выборок
любого объёма) распределение Фишера
(см. F-тест). Информация о распределении
этих величин позволяет проверить
статистическую значимость регрессионной
модели исходя из значения коэффициента
детерминации. Фактически в этих тестах
проверяется гипотеза о равенстве
истинного коэффициента детерминации
нулю.

Истинный
коэффициент детерминации модели
зависимости случайной величины y от
факторов x определяется следующим
образом:

где —
условная (по факторам x) дисперсия
зависимой переменной (дисперсия случайной
ошибки модели).

В
данном определении используются истинные
параметры, характеризующие распределение
случайных величин. Если использовать
выборочную оценку значений соответствующих
дисперсий, то получим формулу для
выборочного коэффициента детерминации
(который обычно и подразумевается под
коэффициентом детерминации):

где -сумма
квадратов остатков регрессии,—
фактические и расчетные значения
объясняемой переменной.

—
общая сумма квадратов.

В
случае линейной
регрессии с
константой ,
где—
объяснённая сумма квадратов, поэтому
получаем более простое определение в
этом случае —коэффициент
детерминации — это доля объяснённой
суммы квадратов в общей:

Необходимо
подчеркнуть, что эта формула справедлива
только для модели с константой, в общем
случае необходимо использовать предыдущую
формулу.

22. Какие задачи в регрессионном анализе решаются с помощью t- критерия Стьюдента

t-критерий
Стьюдента — общее название для класса
методов статистической проверки гипотез
(статистических критериев), основанных
на распределении Стьюдента. Наиболее
частые случаи применения t-критерия
связаны с проверкой равенства средних
значений в двух выборках. Одним из
главных достоинств критерия является
широта его применения. Он может быть
использован для сопоставления средних
у связных и несвязных выборок, причем
выборки могут быть не равны по величине.

t-критерий
применяется в двух вариантах – когда
сравниваемые выборки независимы (не
связаны) и когда они зависимы (связаны).

Оценка
значимости модели с
помощью критерия Стьюдента проводится
путем сравнения их значений с величиной
случайной ошибки:

Случайные
ошибки коэффициентов линейной регрессии и
коэффициента корреляции определяются
по формулам:

Сравнивая
фактическое и табличное значения
t-статистики и принимается или
отвергается гипотеза
о значимости модели по параметрам.

Как
и в случае с оценкой значимости уравнения
модели в целом, модель считается
ненадежной если tтабл > tфакт

Источник

Для каждого трейдера важно понимать, что мы работаем с торговыми инструментами, состоящими из пары валют. В отличие от фондового рынка, где, как правило, каждый торговый инструмент это всего лишь одна индивидуальная единица, на Форекс используется измерение стоимости одной валюты в единицах другой. При этом мы не редко можем наблюдать, визуальную схожесть в движении нескольких валютных пар. Это может быть связано с тем, что обе пары могут содержать одну и ту же валюту в обоих случаях. Например, можно говорить о корреляции валютных пар EUR/USD и USD — CHF с отрицательным значением К.

Одним из способов использования корреляции пар в торговле является устранение расхождения инструментов. Например, трейдер выбрал для своей работы две валютные пары, которые коррелируют с К = 0.8. В этом случае, при наблюдении за движением подопытных, человек заметит, что К время от времени меняется, то несколько увеличиваясь, то несколько уменьшаясь. Тем не менее, средние значения коэффициента все равно находятся в диапазоне 0.7<К<0.8.

Как только на рынке наступит ситуация, что К<0.4, например, то это будет означать наличие лишь частичного соответствия в движении обоих инструментов. То есть, при росте одной пары рост другой окажется весьма ограничен. Но, помня о том, что в целом эти инструменты коррелируют с К=0.7 или 0.8, мы можем использовать данный разрыв себе на пользу, открыв позиции в сторону сближения пар.

Нахождение подобных ситуаций и дальнейшее их использование затрудняется непостоянностью значения К. Мы можем не верно толковать новые значения коэффициента, принимая из за ожидаемый нами разрыв, но позже может оказаться, что это новое значение данного коэффициента, которое теперь станет постоянным на определенное время. Существуют специальные корреляционные индикаторы, помогающие трейдерам наблюдать за схождением и расхождением инструментов, а другими словами, за изменениями текущих значений К.

Сложно переоценить значимость коэффициента корреляции в рыночной торговле. Его использование позволяет смотреть на трейдинг более глобально, учитывая движения пар, относительно друг друга. Еще одной областью применения коэффициента стало хеджирование. Желая снизить риски в своей торговле, спекулянты могут проводить хеджирование не только на разных рынках, но и с помощью коррелирующих инструментов. Таким образом, происходит частичное хеджирование.

Для начала разберемся в самой сути такого понятия, как арбитраж. Это несколько логически связанных сделок, направленных на извлечение прибыли из разницы в ценах на одинаковые или связанные активы в одно и то же время на разных рынках (пространственный арбитраж), либо на одном и том же рынке в разные моменты времени (временно́й арбитраж, обычная биржевая спекуляция). Выделяют эквивалентный арбитраж — операции с комбинацией составных или производных активов (опционов, биржевых индексов) и обычных контрактов, когда между теоретически эквивалентными комбинациями на практике возникает разница цен.

Упрощенно арбитраж выглядит следующим образом: торгуются пары или группы инструментов, суммарная стоимость которых должна быть равна определенной величине, исходя из природы инструментов. Например: акции одной и той же компании на различных торговых площадках, группа инструментов входящих в индекс и фьючерс на индекс. При отклонении стоимости корзины от расчетной величины, совершается сделка. Трейдеры-арбитражеры сглаживают дисбаланс цен на родственных» инструментах.

Коэффициент корреляции (Correlation coefficient) — это

В первоначальном виде арбитраж возник на заре развития вторичных (региональных) бирж, когда один итот же актив торговался на разных площадках по разным ценам и с 44 каждым годом разрыв этой цены стремительно сокращался, а вместе с ним скорость арбитражных стратегий и их объем.

Сегодня существует в качестве межбиржевого варианта, когда актив торгуется на биржах разных стран, например на токийской и нью-йоркской, лондонской и франкфуртской. А также на NYSE и NASDAQ в качестве арбитража разных активов, например двух-трех акций из одного сектора.

В основе арбитража лежит такое понятие, как корреляция. корреляция, если простыми словами — это взаимосвязь двух или более событий, т.е. когда происходит одно, то вероятно (статистически подтверждено) и другое. Когда-то корреляции на рынке были невыраженными в моменте, они были растянуты во времени. Вот к примеру, как рассуждают экономисты/аналитики: «Если индекс доллара упадет, цена на нефть должна расти…» или «Если индекс SNP упадет, цена на золото должна вырасти или наоборот…», ну это как бы простые причинно-следственные связи. Однако совершенно очевидно, что если все так просто, то все бы с легкостью зарабатывали, чего, как мы все прекрасно знаем, не происходит. Пример самой жесткой корреляции — это пары типа Евро/Доллар. Они намертво связаны между собой. Малейшее изменение цены одного приводит к мгновенному изменению цены другого. Тут, понятно, корреляция обратная и речь идет о торгуемых инструментах, например, на СМЕ. И данная корреляция действительна в обе стороны. Есть же, например, бумаги, которые сами «ничего не решают», но есть у них «старший», который и скажет, куда им «идти». А есть ситуации, в которых таких «старших» два и более, вот тут совсем все интересно становится.

Когда речь заходит о корреляциях, в том смысле, в каком я их понимаю, неизбежно возникает вопрос: «а кто главный (ведущий)?». Для этого введем понятие «Поводырь» — это будет любой торгуемый инструмент, изменение цены которого приведет к какой-либо реакции того, за которым мы наблюдаем (торгуем).

Основные поводыри для Американского фондового рынка следующие (в порядке убывания силы глобального влияния):

1. Фьючерсный контракт на индекс SNP 500 — главный поводырь, самый влиятельный, нет ни одного ликвидного инструмента, на который бы не оказало влияние изменение цены фьючерсного контракта хотя бы на тик, реакция есть всегда. Вопрос о первичности (кто за кем «ходит»), индекс или фьючерс, всегда рождает много споров, но нас, спекулянтов, скальперов, волнует только одно — кто из них быстрее. Я могу ответственно заявить, что фьючерсный контракт — быстрее, изменчивее (в разы) и главнее в данном контексте.

2. Фьючерс на нефть марки Light Sweet — углеводороды, что тут еще сказать. Сильное влияние оказывает на некоторые сектора, на отдельные индустрии, связанные с нефтедобычей и нефтепереработкой, а также на те отрасли, где существенная статья издержек — топливо и ГСМ, например авиакомпании. Сам актив несколько зависим от Индекса доллара.

3. Фьючерсный контракт на золото (и другие драг. металлы) — Au рулит по-прежнему, ибо мировое «золотое плечо» уже вылезло за все допустимые рамки, не дам источник, но цитату приведу: «В мире обещания продать золото, больше в 100 раз, чем самого золота», как-то так. Т.е. это и мерило ценности некоторых валют, и надежный (однако!) для многих актив, и инструмент хеджирования рисков и еще много чего полезного делает. Также как и нефть, оказывает серьезное влияние на компании, занимающиеся золотодобычей, переработкой, реализацией и прочим. Сам по себе поводырь зависим (в моменте) от Индекса доллара.

4. Индекс доллара — с появлением евро все сильнее стал подвержен колебаниям, связанным с проблемами в Еврозоне, также изменчив за счет спекулятивных действий в торгуемой валютной паре евро/доллар. Сам зависим от макроэкономической статистики, стоимости облигаций (и наоборот тоже, тут уже сложный аналитический расклад, который данной статьи никак не касается, тем более, я не аналитик и тем более, не экономист, а спекулянт. Оказывает влияние на многие товарные фьючерсы, расчет по которым ведется в долларах Соединенных Штатов.

Поводырем вторичным (а иногда и первичным) может также являться акция, которая в данный момент самая сильная/слабая в секторе/индустрии, которая сама по себе является более весомой в индексе из всего сектора. Например, если $C (Citigroup) измениться резко в цене на полпроцента, это мгновенно скажется на остальных акциях, связанных с банковской деятельностью и с финансами, не так сильно отразиться на $JPM и $BAC, но точно «дернет» $BBT и $PNC, к примеру, а уж $FAZ и $FAS отреагируют как следует, по взрослому, с резким изменением котировок и объемом. А вот обратное не будет иметь такого влияния. Если $PNC или какой-нибудь банк Испании или Ирландии не обрушиться на пару процентов, то никто из «толстых» не заметит, однако по цепочке может привести к некоей корректировке на графике. Скажем так, $PNC также входит в состав портфеля, торгуемого в виде ETF $FAZ ($FAS), так вот сильное его ($PNC) изменение приведет к неминуемому (но небольшому) изменению цены индекса, что, закономерно, приведет к корректировке даже $C и $BAC, первого на несколько центов, а второго, возможно, ни на сколько, разве стакан уплотниться в «сильную» сторону. Это один из вариантов, комбинаций может быть очень много. На графике видно, как акции вторичные стоят в рэйндже, пока сильнейшие представители сектора «смотрят» в разные стороны, и как послушно они «идут» за всеми, если направление сильных совпадает:

На графике изображены: SPY — SPDR S&P 500 (белая линия), C — Citigroup, Inc., JPM — JP Morganand Co., BAC — Bank of America Corp Corporation, GS — The Goldman Sachs Group, Inc., BBT — BB&T Corporation, PNC — PNC Financial Services Group Inc.

Теперь давайте рассмотрим какой-нибудь самый необычный пример. Вот Авиакомпании. Например $UAL или $DAL или $LCC, не входят в состав индекса SNP 500 и тем более DJIA, однако довольно объемны, имеют высокую капитализацию, в целом привязаны к рынку, как таковому, но главное — зависят от цен на топливо. И не нужно рассказывать, что у них все поставки фьючерсные, с фиксированной ценой на пару лет вперед и прочее, это все так, но откройте их график минутный и понаблюдайте, что происходит, когда нефть очень резко изменяется в цене. А теперь добавьте сюда индекс доллара, который влияет на них самих, т.к. Цены их услуг — они в долларахи сама нефть зависит от него (доллара), ну и SNP 500, который частенько идет в противоход нефти… Вот их (акции авиакомпаний) разрывает в разные стороны. А еще помню день был, когда у $LCC отчет случился и нефть с рынком в разные стороны… Вот остальных трепало! График выглядел интересно. Вот пример за эту неделю, $LCC валится на растущей черного золота и растущем фьючерсе, и отрастает на падающей черного золота (тикер $USO):

На графике изображены: SPY — SPDR S&P 500 (белая линия), USO — United States Oil, UAL — United Continental Holdings, Inc., LCC — US Airways Group, Inc., DAL — Delta Air Lines Inc.

Также, для дальнейшего понимания написанного мною, потребуется ввести еще один термин — «Драйвер», под которым понимается некое событие, которое сильно влияет на поведение торгуемого актива, либо, что немаловажно, поводыря, за которым мы также наблюдаем, это может быть новость в компании, отчет, понижение/повышение рейтинга или новость, касающаяся сектора в целом, макроэкономическая статистика, изменение ставки вложения инвистиций и другие. Т.е. драйверы глобальные влияют на фьючерсные контракты (поводыри, описанные выше), а те, в свою очередь, на торгуемые инструменты и т.д.

Теперь вопрос: почему акции так одинаково ходят и кто за всем этим стоит? Да все, особенно скальперы, роботы-скальперы, люди-скальперы. Роботы-арбитражеры в первую очередь, а также алгоритмы, котирующие акцию (читай маркетмейеры). Ведь иначе невозможно было бы такую массу акций заставить двигаться более менее одинаково, речь, понятно, внутри дня. Потому что, если мы взглянем на большие таймфреймы, то выясниться, что многие сектора живут своей отдельной жизнью. Вот например, график месячный, с 2000 года:

На нем изображены: XLK — Technology Select Sector SPDR, XLF — Financial Select Sector SPDR, XLP — customer Staples Select Sector SPDR, XLE — energy Select Sector SPDR, XLV — Health Care Select Sector SPDR, XLI — Industrial Select Sector SPDR, XLB — Materials Select Sector SPDR, XLU — Utilities Select Sector SPDR, XLY — customer Discret Select Sector SPDR, SPY — SPDR S&P 500 (белая линия).

Ютилитис какие слабенькие. Интересно, они рванут вверх, за ростом фьючерсного контракта или на малейшем его откате шлёпнутся еще ниже? Разброс относительно $SPY приличный. А вот, что на меньших масштабах времени, дневка, за 2012 год:

Действующие лица те же. В общем есть некое понимание, что графики похожи, но одни сильнее рынка в целом, а другие слабее, в абсолютном выражении, при расчете на начало года. Это все глобально, на год, а вот на месяц:

Действующие лица те же. Меня же в торговле интересует арбитраж внутридневной, график — от пятиминутного до минутного:

Или, например, технологический сектор в пятницу (14.09.2012), смотрите, как на откатах фьючерсного контракта вниз они «валяться» и «стоят» на его росте, между прочим — это и есть входы в шорт:

На графике изображены: SPY — SPDR S&P 500 (белая линия), T — AT&T, Inc., VZ — Verizon Communications Inc., XLK — Technology Select Sector SPDR.

Это, что касательно фьючерсного контракта SNP 500 (на графиках, для моего удобства показан не сам фьючерс, а ETF на индекс SNP 500, учитывая, что график — линия, различий нет совсем). А вот пример акций нефтяной индустрии, в сравнении с черным золотом:

На графике изображены: USO — United States Oil, XOM — Exxon Mobil Corporation, SLB — Schlumberger Limited, CVX — Chevron. Или, например, «золотые» акции, в сравнении, понятно, с золотом:

На графике изображены: GLD — SPDR gold Shares, NEM — Newmont mining industry Corp., KGC — Kinross gold Corporation, ABX — Barrick gold Corporation.

Однако, график — одно, а стакан с лентой (LEVEL II + Time & sales) — совсем другое дело (кстати, именно это и позволяет торговать $SPY, опираясь на фьючерс). Показать в картинках, что происходит и какая реакция — сложно, потому распишу немного словами. Что можем видеть на ведомых, если на ведущих есть большое движение? В первую очередь — изменение котировки без сделок, оно и понятно, акции скоррелированы, а торговать-то некому, ибо акции не первого эшелона, но машинки-котировщики будут исправно двигать биды с оферами, в след за «старшим» братом, держа при этом некий спред, обычно больше 3-4 ц. Если же движение общее, не только на сильных акциях, а на всем рынке в целом, то может произойти сильное движение, с объемом, и с еще большим расширением спреда в противоположную от него (движения) сторону. Например, нефть ($USO) улетела вверх на полпроцента за секунду, в $SLB будет расширен спред в сторону оферов (ASK), чтобы продать повыше, а потом закрыться пониже, поднимая биды (BID). Это один из десятков сценариев, понятно, что всегда есть вариации, но уловить общее можно, если тщательно понаблюдать и проанализировать поведение акций и их поводырей.

Стиль торговли таким образом называется «арбитраж», торгуется, как правило, минимум два инструмента, причем часто в разные стороны, но можно торговать один, рассматривая другие инструменты, как поводырей. Стиль сегодня очень роботизирован, но и для «мануальных скальперов» еще есть место.

Сложим все варианты арбитража в одну табличку и определим четыре варианта действий (простым языком, не пинайте, но так понятно всем будет): что отросло и главное — продавать, а что недоросло — покупать; что упало и главное — покупать, а что недоупало — продавать; что отросло и главное — не трогать, а что недоросло — продавать; что упало и главное — не трогать, а что недоупало — покупать.

Имея ввиду торговлю одного инструмента, чаще поступают так, торгуя по тренду сектора (индустрии): что не главное и отросло сильно — продавать, в случае, когда главное — «стоит и смотрит» вниз (было на вебинаре, кто помнит, $TCK); что не главное и упало сильно — покупать, в случае, когда главное — «стоит и смотрит» вверх.

Еще более кратко сам процесс можно описать так: определяем глобально (по секторам), кто сильный, кто слабый — по дневке; смотрим внутри сектора (на дневках) между акциями тоже самое; смотрим внутри дня на акции (по тренду сектора), опираясь на фьючерсный контракт (+ другие поводыри).

Коэффициент корреляции (Correlation coefficient) — это

Теперь, как определить «главного» в секторе/индустрии. Те, кто первый в столбце, те и рулят, как правило. НО!!! В случае, если нет глобальных новостей по сектору или если нет отчетов у разных акций из этого сектора. Т.е. их главенство имеет место быть в самый скучный понедельник, а не в день статистики, запасов газа, безработицы да еще с отчетом старших акций.

Вычисление коэффициента корреляции портфеля

Итак, перейдем к вычислению средней доходности, дисперсии и стандартного отклонения для портфеля акций, состоящего на 60% из акций А и на 40% из акций В. Мы предполагаем, что доходность по каждой из акций А и В — это случайные величины Rа и Rв. Среднее значение доходности акции А равно 10%, со стандартным отклонением 8,66%. Среднее значение доходности акции В равно 15%, со стандартным отклонением 12%.

Коэффициент корреляции (Correlation coefficient) — это

Теперь нас интересует, каково будет среднее значение доходности портфеля и стандартное отклонение для портфеля. Вопрос средней доходности портфеля решается просто. А вот стандартное отклонение — показатель уровня изменчивости доходности портфеля, не отражает средней изменчивости доходности его компонентов (акций). Причина в том, что диверсификация снижает изменчивость, так как цены различных акций изменяются неодинаково. Во многих случаях снижение стоимости одной акции компенсируется ростом цены на другую.

Ожидаемая доходность нашего портфеля равна средневзвешенной ожидаемых значений доходностей отдельных акций:

Для того, чтобы найти дисперсию и стандартное отклонение доходности портфеля, мы должны знать значения ковариации акций А и В. Ковариация служит для измерения степени совместной изменчивости двух акций. Общая формула вычисления ковариации:

Из формулы видно, что ковариация любой акции с ней самой равна ее дисперсии. В задачах, значение ковариации двух активов будет дано. Или, вместо нее будет дано значение коэффициента корреляции — безразмерной величины, которая стандартизует ковариацию для облегчения сравнения, и принимает значения от -1 до 1. Пусть нам дано, что коэффициент корреляции акций А и В равен 0,7. Формула коэффициента корреляции:

В большинстве случаев, изменение акций происходит в одном направлении. В этом случае коэффициент корреляции и, соответственно, ковариация, положительны. Если акции изменяются соверженно не связанно, тогда коэффициент корреляции и ковариация равны нулю. Если акции изменяются в противоположных направляения — коэффициент корреляции и ковариация отрицательны. Для нахождения дисперсии портфеля, нам надо заполнить матрицу:

Эта матрица очень похожа на матрицу ковариаций. Заполнив матрицу, надо просто сложить полученные в ней величины и найдем дисперсию портфеля:

Вычислим дисперсию портфеля:

Стандартное отклонение равно квадратному корню из дисперсии, то есть:

Легко подсчитать, что только в том случае, если коэффициент корреляции двух акций равен +1, то стандартное отклонение портфеля равно средневзвешенному стандартных отклонений доходности отдельных акций:

Если же коэффициент корреляции равен -1, то стандартное отклонение портфеля равно:

и можно было бы добиться, изменяя пропорции X1 и X2 акций в портфеле, чтобы стандартное отклонение портфеля было равно нулю. К сожалению, в реальности, отрицательная корреляция акций практически не встречается.

Коэффициент корреляции (Correlation coefficient) — это

Применение линейного коэффициента корреляции в трейдинге

Коллеги, добрый день! В настоящей статье я хочу предложить вашему вниманию небольшое исследование, посвященное одному из статистических показателей — линейному коэффициенту корреляции. А также поделюсь некоторыми соображениями по его применению в трейдинге на примере акций Лукойла.

Коэффициент корреляции (Correlation coefficient) — это

Для начала позвольте небольшой экскурс в историю возникновения показателя корреляции (да возблагодарим Википедию!): Корреляция (корреляционная зависимость) — статистическая взаимосвязь двух или нескольких случайных величин (либо величин, которые можно с некоторой допустимой степенью точности считать таковыми). При этом изменения значений одной или нескольких из этих величин сопутствуют систематическому изменению значений другой или других величин. Математической мерой корреляции двух случайных величин служит корреляционное отношение либо коэффициент корреляции. В случае, если изменение одной случайной величины не ведёт к закономерному изменению другой случайной величины, но приводит к изменению другой статистической характеристики данной случайной величины, то подобная связь не считается корреляционной, хотя и является статистической.

Впервые в научный оборот термин «корреляция» ввёл французский палеонтолог Жорж Кювье в XVIII веке. Он разработал «закон корреляции» частей и органов живых существ, с помощью которого можно восстановить облик ископаемого животного, имея в распоряжении лишь часть его останков. В статистике слово «корреляция» первым стал использовать английский биолог и статистик Фрэнсис Гальтон в конце XIX века.

Некоторые виды коэффициентов корреляции могут быть положительными или отрицательными. В первом случае предполагается, что мы можем определить только наличие или отсутствие связи, а во втором — также и ее направление. Если предполагается, что на значениях переменных задано отношение строгого порядка, то отрицательная корреляция — корреляция, при которой увеличение одной переменной связано с уменьшением другой. При этом коэффициент корреляции будет отрицательным. Положительная корреляция в таких условиях — это такая связь, при которой увеличение одной переменной связано с увеличением другой переменной. Возможна также ситуация отсутствия статистической взаимосвязи — например, для независимых случайных величин.

Линейный коэффициент корреляции (далее ЛКК) (коэффициент корреляции Пирсона), который разработали Карл Пирсон, Фрэнсис Эджуорт и Рафаэль Уэлдон в 90-х годах XIX века. Коэффициент корреляции рассчитывается по формуле:

Коэффициент корреляции изменяется в пределах [-1…+1]. Данный метод обработки статистических данных весьма популярен в экономике и социальных науках (в частности в психологии и социологии), хотя сфера применения коэффициентов корреляции обширна: контроль качества промышленной продукции, металловедение, агрохимия, гидробиология, биометрия и прочие. В различных прикладных отраслях приняты разные границы интервалов для оценки тесноты и значимости связи.

Популярность метода обусловлена двумя моментами: коэффициенты корреляции относительно просты в подсчете, их применение не требует специальной математической подготовки. В сочетании с простотой интерпретации, простота применения коэффициента привела к его широкому распространению в сфере анализа статистических данных.

Итак, коллеги, ЛКК определяет: во-первых, наличие связи между двумя потоками данных, во-вторых, силу этой связи (сила связи определяется приближением абсолютного значения ЛКК к единице), в-третьих, направление этой связи (прямая — ЛКК больше единицы или обратная — ЛКК меньше единицы). Важным и необходимым условием для расчета ЛКК является наличие двух одинаковых по количеству данных потоков данных. Так же в общем случае считается, что значения ЛКК можно считать достоверным, если в расчете участвует поток из более, чем 30 пар данных.

Коэффициент корреляции (Correlation coefficient) — это

В Excel расчет значения ЛКК реализован через функцию «КОРРЕЛ()». Пример наличия корреляции: Положительная корреляция: температура окружающего воздуха и продажи летней одежды. Чем теплее на улице, тем больше покупаем летних вещей. Рост температуры — рост продаж. Отрицательная корреляция: та же самая температура окружающего воздуха, но продажи уже зимней одежды. Чем холоднее на улице, тем больше покупаем зимних теплых вещей. Снижение температуры — рост продаж.

Примеры применения ЛКК в трейдинге. Области применения ЛКК в трейдинге достаточно широки. Например, долго считалось, что при падении фондовых рынков в целом растет спрос на золото. То есть между динамикой фондовых рынков и динамикой цен на золото существует обратная корреляционная зависимость. Другой пример. Рост котировок нефти и рост рынков, вес «нефтянки» в которых высок и является значимым. К таким рынкам относится и фондовый рынок России. Но в последние несколько лет, а именно в основном начиная с 2007 года, такие зависимости явно изменились. И либо сильно ослабли, либо исчезли совсем.

У приведенных выше примеров есть одна общая особенность: они построены строго на двух потоках данных, как того и требует формула расчета ЛКК. Тем не менее, в одной из книг, посвященных теории управления капиталом (а именно, Р.Винс «Математика управления капиталом») я нашел интересный подход к построению ЛКК на массиве, состоящем только из одного потока данных. Это может быть, например, непрерывный поток исходов в системных сделках или поток цен какой-то одной акции. О таком методе построения ЛКК ниже.

Коэффициент корреляции (Correlation coefficient) — это

Торговая стратегия, построенная на коэффициенте корреляции

Итак, давайте исследуем, например, поток цен на акции Лукойла (LKOH). Составим поток из недельных свечей. Мне удалось найти архив, начиная с 01.01.2001 и по сей день, то есть поток из почти 600 недельных свечей за десять с половиной лет. Исследовать будем не свечи в целом, а, например, максимальные цены в каждой свечей. Таким образом, перед нами непрерывный поток из 600 данных — максимальные цены в каждой торговой неделе, начиная с 01 января 2001 года. Кроме этих данных, пока никакие другие данные нам не нужны.

На рисунке показана динамика максимальных недельных цен в акциях LKOH. Расчет ЛКК должен дать ответы на вопросы: Есть ли зависимость между максимальными ценами двух любых соседних недель. Если зависимость есть, то какова ее направленность? Коллеги, если упростить, то вопрос можно сформулировать так: Если на истекшей неделе Лукойл обновил свой недельный максимум по сравнению с предыдущей неделей, то можем ли мы ожидать продолжения роста и на будущей неделе? Для расчета ЛКК поток данных требует некоторой трансформации. Составим таблицу:

В таблице на рисунке в последнем столбце, построенном на основе данных столбца «High цена», логика расчета следующая: если максимум текущей недели выше, чем максимум предыдущей недели, то в ячейке стоит значение 1. В противном случае значение равно 0. Таким образом, поток цен преобразован в поток единиц и нулей. Далее произведем расчет ЛКК на основе данных столбца «Обновление High цены». Поскольку для расчета ЛКК необходимо два потока данных, то сделаем следующее:

Как видно из рисунка, поток 2 «сдвинут» относительно потока 1 на один период. Таким образом, из одного потока данных получено два. И теперь смысл расчета ЛКК заключается в выяснении связи между двумя соседними значениями выборки. В нашем случае — максимальными ценами соседних недель (текущей и предыдущей). Теперь собственно по расчету ЛКК. Расчет произведем двумя способами: Охватим весь период выборки (600 недель).

Начиная с 30й недели выборки (август 2001 года) для каждой недели рассчитаем значение ЛКК по последним 30 неделям. То есть для каждой недели рассчитаем т.н. «скользящее» значение ЛКК с периодом n=30 (по аналогии со скользящей средней), поскольку при n>30 в общем случае значение ЛКК считается значимым. Результаты расчетов отражены на рисунке:

Выводы по рисунка: На протяжении всего периода выборки у акций Лукойла наблюдается неярко выраженная положительная корреляция между максимальными ценами соседних недель (красная линия графика с ЛКК = +0,1). То есть факт обновления максимальной цены на текущей неделе по сравнению с предыдущей позволяет сделать предположение о том, что на следующей неделе в сравнении с текущей вероятность обновления максимума выше вероятности НЕобновления максимума.

Коэффициент корреляции (Correlation coefficient) — это

ЛКК, построенное по последним 30 неделям (синяя линия на графике), изменяется в диапазоне от -0,35 (сильная отрицательная корреляция) до +0,6 (очень сильная положительная корреляция). Самый продолжительный период, в течение которого корреляция между недельными максимумами была положительная — это период с мая 2004 года до августа 2007 года. В этот период обновление максимумов на прошлой неделе в большинстве случаев приводило к обновлению максимумов в течение текущей недели. Именно в этот период акции Лукойла агрессивно росли.

Самый продолжительный период, в течение которого корреляция между недельными максимумами была отрицательная — это период с августа 2007 года по июль 2011 года. В этот период недельной обновление максимумов на прошлой неделе в большинстве случаев не приводило к обновлению максимумов в течение текущей недели. И наоборот, НЕобновление недельных максимумов в течение текущей недели в большинстве случае приводило к росту на следующей неделе. В этот период акции Лукойла «запилило» от максимумов весной 2008 года до низов в июле 2009 года.

В точках, где синяя линия находится выше красной, корреляция между недельными максимумами выше средней за период и имеет прямую направленность. В таких точках при обновлении недельных максимумов на текущей неделе наиболее вероятно обновление максимумов в течение следующей недели. В точках, где синяя линия находится ниже красной, корреляция между недельными максимумами ниже средней за период и имеет в основном обратную направленность. В таких точках, в отличие от ситуации п.5, наиболее вероятно обновление максимумов в течение следующей недели при НЕобновлении недельных максимумов текущей недели.

Коллеги, на основании последних двух выводов у меня сформировалась идея тестирования стратегии, построенной на принципах такого парного корреляционного эффекта.

Коэффициент корреляции (Correlation coefficient) — это

Торговля ациями по коэффициенту корреляции

Стратегия, построенная на принципах автокорреляции. Общее описание стратегии. Принципы стратегии: тестируемый инструмент — акции Лукойла (LKOH) на недельном ТФ за период с 01.01.2001 по 31.07.2012; типы совершаемых сделок — исключительно Long; время удержания позиции — вход на Open недельной свечи, выход на Close этой же свечи. Таким образом, удержание позиции строго в течение торговой недели без ухода в бумагах на выходные; внешние факторы — цены на нефть, мировые новости, динамика западных рынков и проч. — не учитываются; внутренние факторы — внутрикорпоративные новости, дивидендные отсечки и проч. — не учитываются.

Принципы формирования сигналов: Методом тестирования определяется некое критическое скользящее значение линейного коэффициента корреляции (далее — ЛККкр) по 30 периодам. Покупка Вариант 1. Если текущее значение ЛКК ВЫШЕ критического значения и на текущей неделе ПРОИЗОШЛО обновление максимума по сравнению с прошлой неделей, то на Open следующей недели происходит покупка. Срок удержания позиции — не позднее Close недели открытия позиции.

Покупка Вариант 2. Если текущее значение ЛКК НИЖЕ критического значения и на текущей неделе НЕ ПРОИЗОШЛО обновление максимума по сравнению с прошлой неделей, то на Open следующей недели происходит покупка. Срок удержания позиции — не позднее Close недели открытия позиции. Во всех остальных случаях — вне позиции (cash). Таким образом, для принятия решения о входе/невходе в позицию необходима информация о максимальных ценах последних 30ти недель. И ничего более сверх этого.

Коэффициент корреляции (Correlation coefficient) — это

Само решение принимается в промежутке между закрытием торговой недели и открытием следующей торговой недели. В случае формирования торгового сигнала трейдеру необходимо находиться в рынке утром первого дня торговой недели для открытия позиции и вечером последнего дня торговой недели для выхода из бумаг. Для тестирования такой стратегии вполне хватило возможностей Excel. У недельного Лукойла критическим значением ЛКК оказалось значение 0,15. Приведу пару примеров для иллюстрации:

Пример 1.

Сигнал от 25.06.12. В данном случае выполнены оба условия покупки: ЛККкр=0,1855 (>0,15) и обновлен максимум предыдущей недели (1805 руб. > 1765 руб.). На основании этого на Open свечи 02.07.12 совершена покупка по 1804 руб. Позиция закрыта на Close свечи 02.07.12, то есть 06.07.12, по цене 1825 руб. Рентабельность сделки составила +1,2% при периоде удержания позиции 5 сессий.

Сигнал от 02.07.12. В данном случае так же выполнены оба условия покупки: ЛККкр=0,2472 (>0,15) и обновлен максимум предыдущей недели (1857 руб. > 1805 руб.). На основании этого на Open свечи 09.07.12 совершена покупка по 1826 руб. Позиция закрыта на Close свечи 09.07.12, то есть 13.07.12, по цене 1818 руб. Рентабельность сделки составила -0,4% при периоде удержания позиции 5 сессий.

Пример 2.

Сигнал от 07.05.12. В данном случае выполнены оба условия покупки: ЛККкр=0,1098 (<0,15) и НЕ обновлен максимум предыдущей недели (1700 руб. < 1802 руб.). На основании этого на Open свечи 14.05.12 совершена покупка по 1684 руб. Позиция закрыта на Close свечи 14.05.12, то есть 18.05.12, по цене 1594 руб. Рентабельность сделки составила -5,4% при периоде удержания позиции 5 сессий.

Сигнал от 14.05.12. В данном случае выполнены оба условия покупки: ЛККкр=0,1258 (<0,15) и НЕ обновлен максимум предыдущей недели (1684 руб. < 1700 руб.). На основании этого на Open свечи 21.05.12 совершена покупка по 1602 руб. Позиция закрыта на Close свечи 21.05.12, то есть 25.05.12, по цене 1639 руб. Рентабельность сделки составила +2,3% при периоде удержания позиции 5 сессий.

Коэффициент корреляции (Correlation coefficient) — это

Сигнал от 21.05.12. В данном случае выполнены оба условия покупки: ЛККкр=0,1336 (<0,15) и НЕ обновлен максимум предыдущей недели (1602 руб. < 1684 руб.). На основании этого на Open свечи 28.05.12 совершена покупка по 1647 руб. Позиция закрыта на Close свечи 28.05.12, то есть 01.06.12, по цене 1742 руб. Рентабельность сделки составила +5,8% при периоде удержания позиции 5 сессий.

Back-testing стратегии. В данном разделе приведу результаты тестирования стратегии в сравнении со стратегией «Buy&Hold» (B&H).

На рисунке показана динамика дохода тестируемой стратегии в сравнении с принципом B&H. За точку отчета (0%) принята цена акций Лукойла в начале января 2001 года (270 руб.). Как видно, принцип B&H опережал стратегию в течение 2001-2008 гг. Падение ранка в 2008 году сравняло результаты обоих стратегий до уровня примерно +200% к старту. Затем, начиная с 2009 года, обе стратегии показали примерно одинаковые результаты и на сегодня корреляционная стратегия незначительно опережает по доходности принцип B&H.

Как видно из профилей графиков, волатильность (риск) принципа B&H гораздо выше волатильности тестируемой стратегии. Размер среднегодовой доходности тестируемой стратегии составляет 20% годовых на всем периоде тестирования.

Риск-менеджмент, основанный на коэффициенте корреляции

Покупка по Варианту 1 (ЛККкр >0,15 + новый максимум)

Из 600 недель тестового периода сигналы по Варианту 1 возникли в 109 случаях (19% потока или каждая пятая неделя). Из 109 сигналов 74 отработали в плюс (68%, или два из трех сигналов). Средний результат положительного исхода равен по модулю среднему результату отрицательного исхода (38 руб./акция) Общий положительный результат потока сигналов сформирован за счет превышения в 2 раза количества положительных исходов над отрицательными исходами.

Коэффициент корреляции (Correlation coefficient) — это

С учетом частоты распределения положительных и отрицательных исходов расчет математического ожидания выглядит следующим образом: Размер ожидаемого успеха +26 руб./акция, Размер ожидаемого убытка -13 руб./акция, Общий ожидаемый результат +13 руб./акция, Размер среднеквадратичного отклонения исходов сигналов составляет 24 руб./акция. Диапазон колебаний исходов сигналов находится в пределах [-11 руб.;+38 руб.], Максимальная серия подряд убыточных сигналов составила 2 сигнала с максимальным риском не более 178 руб./акция. В нынешних ценах это около 9% торгового депозита.

Покупка по Варианту 2 (ЛККкр <0,15 + нет нового максимума)

Фактически покупки по варианту 2 — это покупки против падения рынка. Поэтому показатели риска и волатильности выше, нежели по варианту 1. Из 600 недель тестового периода сигналы по Варианту 2 возникли в 190 случаях (33% потокаили каждая третья неделя). Из 190 сигналов 91 отработали в плюс (48% или половина сигналов). Средний результат положительного исхода равен +66 руб./акция, а отрицательного исхода -50 руб./акция. Общий положительный результат потока сигналов сформирован за счет превышения размера средней прибыли над средним убытком.

Коэффициент корреляции (Correlation coefficient) — это

С учетом частоты распределения положительных и отрицательных исходов расчет математического ожидания выглядит следующим образом: Размер ожидаемого успеха +32 руб./акция, Размер ожидаемого убытка -26 руб./акция, Общий ожидаемый результат +6 руб./акция, Размер среднеквадратичного отклонения исходов сигналов составляет 49 руб./акция. Диапазон колебаний исходов сигналов находится в пределах [-44 руб.;+55 руб.], Максимальная серия подряд убыточных сигналов составила 6 сигналов с максимальным риском 187 руб./акция. В нынешних ценах это около 10% торгового депозита. Стратегия в целом:

Из 600 недель тестового периода сигналы по стратегии в целом возникли в 299 случаях (53% потока или каждая вторая неделя). Из 299 сигналов 165 отработали в плюс (55% или более половины сигналов). Средний результат положительного исхода равен +53 руб./акция, а отрицательного исхода -47 руб./акция. Общий положительный результат потока сигналов сформирован как за счет превышения количества положительных исходов над отрицательными исходами, так и за счет превышения размера средней прибыли над средним убытком.

С учетом частоты распределения положительных и отрицательных исходов расчет математического ожидания выглядит следующим образом: Размер ожидаемого успеха +29 руб./акция, Размер ожидаемого убытка -21 руб./акция, Общий ожидаемый результат +8 руб./акция, Размер среднеквадратичного отклонения исходов сигналов составляет 55 руб./акция. Диапазон колебаний исходов сигналов находится в пределах [-47 руб.;+63 руб.], Максимальная серия подряд убыточных сигналов составила 6 сигналов с максимальным риском 187 руб./акция. В нынешних ценах это около 10% торгового депозита при доходности 20% годовых.

В целом стратегия показала неплохой тренд-следящий результат, а так же оказалась достаточно устойчива в условиях падения 2008 года. Особенно, если учесть усилия трейдера по следованию сигналам. Коллеги, за сим пока все по описанию линейной корреляции и ее применении в трейдинге.

Коэффициент корреляции валютных пар

Рассмотрим такое явление, как межвалютная корреляция на Форексе. Данная методика может существенно повысить понимание рыночных процессов, а также улучшить качество ваших краткосрочных и среднесрочных прогнозов. Существует две разновидности межвалютной корреляции, которые могут помочь в работе трейдера. Рассмотрим подробнее.

Коэффициент корреляции (Correlation coefficient) — это

Корреляция — это статистический термин, означающий наличие взаимосвязанных тенденций изменений между двумя рядами данных. В нашем случае Валютная корреляция — это взаимосвязь между историческими данными курсов одной валютной пары. Или изменения курса одной пары могут быть взаимосвязанными с изменениями другой пары. Данная взаимосвязь чаще всего имеет фундаментальное экономическое обоснование и уходит корнями в особенности всемирного хозяйства. Проще говоря, есть две валютных пары: A/B и C/D. Если между ними есть корреляция, при росте курса A/B может стабильно наблюдаться или рост кусра C/D (тогда это прямая корреляция) или его падение (тогда корреляция буде обратной).

Выше мы говорили о двух разновидностях. Это скользящая и прямая корреляция. Прямая корреляция валютных пар — явление, полезное для повышения точности прогнозов. Даже торгуя на одном инструменте, вы можете повысить точность прогнозирования, применяя анализ нескольких валютных пар. Вернемся к нашим A/B и C/D, допустим, вы торгуете инструментом A/B. Известно, что эти валютные пары в прямой корреляции, то есть вверх и вниз идут синхронно. Ваш технический анализ показал, что пара A/B должна падать. Соответственно, если теханализ пары C/D говорит об обратном, есть повод усомниться в достоверности сигнала. Если же всё совпало, — вы можете с большей уверенностью открывать позицию. Получается, зная взаимосвязи, можно уменьшить количество случайных сигналов. Однако нужно помнить, что корреляционный анализ работает на относительно больших масштабах (в лучшем случае на часовых или получасовых графиках). Если ваша торговая стратегия базируется на «минутках», эти данные могут только помешать.

Следующий вид корреляции — скользящая. Суть в том, что взаимосвязь проявляется на сдвинутом по временной шкале наборе данных. То есть изменение курса пары A/B сейчас является предвестником изменения пары C/D в будущем. Если собрать информацию, достаточно детальную для формирования торговой стратегии, наличие таких корреляций может очень существенно повысить точность. Фактически, у вас появляется инструмент базового прогнозирования курса.

Как анализировать корреляцию?

Чтобы отыскать корреляционную связь, можно пользоваться существующими утилитами из Интернета (которые не сложно найти в Гугле по запросу «корреляция валют форекс») или делать всё руками, в старом добром экселе. Там есть такая замечательная функция КОРРЕЛ, которая показывает корреляцию двух выбранных множеств данных. Берем курсы нескольких инструментов, копируем исторические данные в Эксель и ищем корреляцию. Чтобы искать прямую корреляцию, необходимо выделять два совпадающих по временному промежутку набора данных. Чтобы искать скользящую взаимосвязь, сдвигаем множество вправо или влево на несколько периодов. Корреляция более 0.5 свидетельствует о прямой взаимосвязи, менее 0.5 — об обратной взаимосвязи, в пределах от -0.5 до 0.5 — об отсутствии взаимосвязи. Эти границы более чем условны, следует проверять их на практике…

Коэффициент корреляции (Correlation coefficient) — это

Для того чтобы легче было понять взаимосвязи и соотношение с числом коэффициента корреляции я подготовил рисунки, которые наглядно показывают коэффициент и визуальное сходство двух рядов. В качестве примера взяты рад косинуса и зашумлённый ряд косинусоиды, от амплитуды зашумления зависит коэффициент корреляции:

А здесь пример обратной корреляции валют. Как видим когда одна расчёт другая падает! Как EUR/USD и USD — CHF:

Текущая корреляция наиболее популярных валютных пар. Нужно понимать, что корреляция между валютами не является постоянной, рынок постоянно меняется. Приведенные здесь данные являются примерными, точную информацию нужно рассчитывать самостоятельно. Рассмотрим, как коррелирует с другими инструментами наиболее популярный среди трейдеров инструмент EUR/USD: прямая корреляция с: AUD — USD, BP/USD, NZD — USD; обратная корреляция с: USD-JPY, USD / CHF, USD — CAD.

Еще один любимый нашими трейдерами инструмент — «йенадоллар», USD/JPY. Взгялем на него: прямая: Доллар / Франк, USD / CAD; обратная: EUR/USD, AUS/USD,GBP/USD,NZD/USD. Что касается скользящей корреляции, ловить ее довольно сложно. К примеру, часто цена на золото опережает или немного отстает от GBP — USD. Но такую взаимосвязь нужно рассчитывать чуть ли не для каждого отдельного торгового дня.

Изменение коэффициента корреляции ценовых графиков

В качестве примера корреляции двух пар с положительным К, можно вспомнить о EUR/USD и EUR / JPY. В обоих случаях мы покупаем EUR и продаем вторую валюту. Некоторые пары движутся относительно друг друга, но со временем К может меняться. Например, чтобы определить для своей работы две коррелирующие между собой валютные пары, достаточно найти такую из всего ассортимента, предоставляемого ДЦ, которая бы имела очень низкую волатильность. В 2012 году в качестве такого инструмента вполне могла бы выступать EUR/CHF. Не каждый день ширина ее движения на рынке превышала бы 30 пунктов, что можно считать малой величиной, относительно аналогичных показателей других пар.

Данную валютную пару можно без труда разложить на две пары, используя для этого ту валюту, которая “разбавит” выбранный нами инструмент. Для этого мы берем USD, который позволит представить нам EUR/CHF, как EUR/USD*USD/CHF. Действительно, если перемножить две новых долларовых пары, то в результате мы вновь получаем исследуемую нами EUR/CHF. Данное преобразование говорит о том, что обе пары будут коррелировать между собой, так как их произведение будет демонстрировать значения пары EUR/CHF, а они относительно малы, о чем говорили в самом начале примера.

Коэффициент корреляции (Correlation coefficient) — это

Для уверенной торговли необходимо иметь четкое представление не только об особенностях отдельных инструментов торговли, но и об их взаимодействии друг с другом. Существуют целые торговые стратегии, построенные с использованием К. Могут применяться даже наложения одного ценового графика на другой, для выявления аналогий в движениях цены. Коэффициент может периодически рассчитываться заново, учитывая последние изменения в поведении ценовых графиков.

Коэффициент корреляции в анализе инвестиционного портфеля

Согласно Марковицу, любой инвестор должен основывать свой выбор исключительно на ожидаемой доходности и стандартном отклонении при выборе портфеля. Таким образом, осуществив оценку различных комбинаций портфелей, ондолжен выбрать «лучший», исходя из соотношения ожидаемой доходности и стандартного отклонения этих портфелей. При этом соотношение доходность-риск портфеля остается обычным: чем выше доходность, тем выше риск.

Также, прежде чем приступить к формированию портфеля, необходимо дать определение термину «эффективный портфель». Эффективный портфель — это портфель, который обеспечивает: максимальную ожидаемую доходность для некоторого уровня риска, или минимальный уровень риска для некоторой ожидаемой доходности.

В дальнейшем будем находить эффективные портфели в среде Excel в соответствии со вторым принципом — с минимальным уровнем риска для любой ожидаемой доходности. Для нахождения оптимального портфеля необходимо определить допустимое множество соотношений «риск-доход» для инвестора, которое достигается путем построения минимально-дисперсионной границы портфелей, т.е. границы, на которой лежат портфели с минимальным риском при заданной доходности.

граница src=»/pictures/investments/img1996892_Minimalno_dispersionnaya_granitsa.gif» style=»width: 600px; height: 373px;» title=»Минимально — дисперсионная граница» />

На рисунке выше жирной линией отображена «эффективная граница», а большими точками отмечены возможные комбинации портфелей.

Эффективная граница — это граница, которая определяет эффективное множество портфелей. Портфели, лежащие слева от эффективной границы применить нельзя, т.к. они не принадлежат допустимому множеству. Портфели, находящиеся справа (внутренние портфели) и ниже эффективной границы являются неэффективными, т.к. существуют портфели, которые при данном уровне риска обеспечивают более высокую доходность, либо более низкий риск для данного уровня доходности.

Коэффициент корреляции (Correlation coefficient) — это

Для построения минимально-дисперсионной границы и определения «эффективной границы» нам будут необходимы значения ожидаемых доходностей, рисков (стандартных отклонений) и ковариации активов. Имея эти данные можно приступить к нахождению «эффективных портфелей».

Начнем с расчета ожидаемой доходности портфеля по формуле:

где Хi — доля i-ой бумаги в портфеле, E(ri) — ожидаемая доходность i-ой бумаги. А затем определим дисперсию портфеля, в формуле которой используется двойное суммирование:

И как следствие найдем стандартное отклонение портфеля, которое является квадратным корнем из дисперсии. Для наглядности приведем пример построения эффективной границы при помощи Microsoft Excel, а точнее при помощи встроенного в него компонента Поиск решения.

Зададим долю каждого актива в нашем первоначальном портфеле пропорционально их количеству. Следовательно, доля каждого актива в портфеле составит 1/3, т.е. 33%. Общая доля должна равняться 1, как для портфелей,в которых разрешены «короткие» позиции, так и для тех, в которых запрещены. Сам Марковиц запрещает открывать «короткие» позиции по активам, входящим в портфель, однако современная портфельная это разрешает. Если «короткие» позиции разрешены, то доля по активу будет отображена как -0.33 и средства, вырученные от его продажи, должны быть вложены в другой актив, таким образом, доля активов в портфеле в любом случае будет равняться 1.

Рассчитаем ожидаемую доходность, дисперсию и стандартное отклонение средневзвешенного портфеля:

Как видно из таблицы, для определения дисперсии портфеля нужно просто просуммировать данные в ячейках B19-D19, а квадратный корень из значения ячейки C21 даст нам стандартное отклонение портфеля в ячейке C22. Произведение долей бумаг на их ожидаемую доходность даст нам ожидаемую доходность нашего портфеля, которая отражена в ячейке C23. Окончательный результат средневзвешенного портфеля представлен ниже.

Средняя (ожидаемая) месячная доходность средневзвешенного портфеля 0,28% при риске 6,94%. Теперь можноприменить тот самый второй принцип, о котором было написано выше, т.е. обеспечить минимальный риск при заданном уровне доходности. Для этого воспользуемся функцией «Поиск Решений» из меню «Сервис». Если нет, значит надо открыть «Сервис» выбрать «Надстройки» и установить «Поиск решений». Запускаем «Поиск решений», в пункте «Установить указанную ячейку» указываем ячейку С22, которую будем минимизировать за счет изменения долей бумаг в портфеле, т.е. варьированием значений в ячейках A16-A18. Далее надо добавить два условия, а именно:

— сумма долей должна равняться 1, т.е. ячейка A19 = 1;

— задать доходность, которая нас интересует, к примеру, доходность 0.28% (ячейка С23), которая получилась при расчете средневзвешенного портфеля.

Так как мы запрещаем наличие «коротких» позиций по бумагам в меню «Параметры» надо установить галочку «Неотрицательные значения». Вот так должно выглядеть:

В результате мы получаем:

Итак, задав «Поиск решений» найти минимальное стандартное отклонение при заданной ожидаемой доходности в 0,33% мы получили оптимальный портфель, состоящий на 83% из РАО ЕЭС, на 17% из Лукойла и на 0% из Ростелекома. Несмотря на то, что уровень доходности тот же, что и при средневзвешенном портфеле, риск снизился.

Парный трейдинг и коэффициент корреляции

Понятие корреляция лежит в основе многих прибыльных торговых стратегий валютного рынка. В качестве примера можно привести парный трейдинг, основанный на корреляции валютных пар, позволяющий получить стабильную высокую прибыль на разных коррелирующих инструментах (об этом мы писали в предыдущих статьях) и торгового робота Octopus Arbitrage, его реализующего. В этой статье мы попытаемся просто и доступно объяснить суть корреляции и показать, как это можно применить на практике для парного трейдинга.

Почему было решено посвятить этой теме отдельную статью? Дело вот в чем. Несмотря на то, что корреляция нашла широкое практическое применение, доступное объяснение найти весьма трудно.

Как говорил Альберт Эйнштейн «если ты не можешь объяснить шестилетнему ребенку, чем ты занимаешься, значит, ты шарлатан». К сожалению, математики, пишущие учебные материалы этого принципа не придерживаются. Как только открываешь их талмуды, желая понять достаточно простые вещи, например, корреляция, так на тебя злобно смотрят четырехэтажные формулы, тройные интегралы и двухстраничные доказательства с применением огромного количества матерных слов незнакомых терминов. Самые стойкие засыпают через три минуты прочтения. Менее стойкие — через пять секунд созерцания этой «математической гармонии» создают облако пыли от захлопывающегося талмуда или нажимают крестик в правом верхнем углу экрана.

Корреляция — величина, характеризующая взаимную зависимость двух случайных величин, X и Y, безразлично, определяется ли она некоторой причинной связью или просто случайным совпадением… Итак, что такое корреляция? По сути, корреляция показывает, насколько сильно связаны между собой величины. Если взять две произвольные величины, они могут быть сильно связаны между собой, никак не связаны, или слабо связаны.

Рассмотрим пример. Насколько связаны между собой количество прибыли, которую заработал трейдер за торговую сессию от количества выпитых им чашек кофе за тот же период? Т.е. имеем две величины: количество кружек кофе и прибыль.

Простой и наглядный способ анализа корреляции — загнать эти данные в Microsoft Excel и построить график. Стандартными средствами Excel можно вывести линию тренда, а также коэффициент корреляции R2. Как определяется коэффициент корреляции, поговорим чуть позже, пока лишь скажем, что эта величина изменяется от 0 до 1. При этом 0 — показывает, что связи нет вообще, а 1 — самая сильная связь, какая может быть. Линия тренда при отсутствии связи будет направлена параллельно оси X, при максимально сильной связи — под углом 45 градусов.

Ну что ж, похоже количество выпитого кофе на получение прибыли трейдером не влияет никак. Коэфициент корреляции R2 всего лишь 0,0289, линия тренда почти горизонтальна. Почему так? Возможно, помимо выпитого кофе существует множество факторов, оказывающих куда более существенное влияния на получение прибыли: факторы рынка, работа ДЦ, особенности выбранной торговой стратегии, личные качества трейдера и т.д.

Теперь разберем другой пример. Рассмотрим связь между валютными парами EUR/USD и GBP / USD. Были взяты скользящие средние дневных цен с 2 по 5 декабря 2013 года. Было взято четыре точки для простоты дальнейшего объяснения расчетов. Как правило, для подобных расчетов, точек нужно брать больше.

Теперь, аналогично, предыдущему примеру на основании этих данных построим график в Excel.

Так, здесь видно, что зависимость гораздо сильнее, так как R2 близко к единице, а линия тренда расположена почти под 45о. Можно сказать, что величины здесь коррелируют. Теперь рассмотрим, как рассчитывается коэффициент R. Здесь, к сожалению, без формул не обойтись. Однако, на самом деле, все заумные формулы можно свести к уровню седьмого класса средней школы. Для начала определимся, что у нас есть две «случайные» величины. Обозначим EURUSD как X, а GBPUSD как Y.

Далее хочу отметить, что большинство понятий, математической статистики базируются на среднем значении выборки. Проще говоря, на среднем арифметическом, т.е. сумма всех элементов, поделенная на их число. Вычислим среднее для величин X и Y.

Далее, приведем формулу расчета R2. В ней нет ничего сложного, как может показаться на первый взгляд. Здесь просто используются вычисленные нами средние арифметические:

Подставив выделенное в формулу получаем:

Таким образом, мы получили, посчитав «вручную», то, что автоматически делает Excel. Коэффициент R2 называется еще «коэффициентом Пирсона». Корреляция по EURUSD и GBPUSD, на самом деле, достаточно сильная, на это конечно есть фундаментальные причины, рассмотрение которых находится за рамками этой статьи.

Как корреляцию можно использовать для получения прибыли? Ярким примером может послужить стратегия парного трейдинга. Стратегия подразумевает, что большую часть времени выбранные валютные пары двигаются в рынке синхронно, но расхождения в поведении курсов происходят достаточно часто и каждое значительное рассогласование можно использовать для извлечения прибыли. Когда валютные пары расходятся на определенное количество пунктов: открываются две сделки, на одной паре — продажа, на другой — покупка. Когда пары возвращаются «друг к другу», позиции закрываются и прибыль фиксируется на одной или обеих позициях.

При расхождении инструментов открываются встречные позиции, при возвращении корреляции в исходное положение, встречные ордера закрываются, прибыль фиксируется на одной или обеих позициях

Безусловно, в нашей статье, описаны только основные принципы корреляции и парного трейдинга, поняв которые можно четко уяснить суть. Однако, для того, чтобы получать прибыль на FOREX, одних этих знаний недостаточно. Необходимо использовать специальные индикаторы, понимать расхождение каждой из пар и многое другое. Сколько трейдеров уже набили себе шишек на этом пути!

Коэффициент корреляции (Correlation coefficient) — это

Кроме того, необходимо постоянно быть «в рынке», двадцать четыре часа в сутки, семь дней в неделю, чтобы «не проспать», когда разойдется или же наоборот сойдется корреляция. При этом для устойчивого получения прибыли необходимо использовать не две валютные пары, а больше. Трейдер просто физически не сможет этого сделать. Как же здесь быть?

К счастью, есть уникальный торговый советник Octopus Arbitrage. Правильно настроив его и установив на нескольких парах, от трейдера, как правило, больше ничего не требуется. Все остальное сделает робот. Уникальный алгоритм позволит получать достойную прибыль при минимальных просадках, трейдер просто наблюдает за ростом депозита. Как говорится: «Вкалывают роботы — счастлив человек».

Коэффициент корреляции в психологических исследованиях

Коэффициент корреляции является одним из самых востребованых методов математической статистики в психологических и педагогических исследованиях. Формально простой, этот метод позволяет получить массу информации и сделать такое же количество ошибок. В этой статье мы рассмотрим сущность коэффициента корреляции, его свойства и виды. Слово correlation (корреляция) состоит из приставки «co-», которая обозначает совместность происходящего (по аналогии с «координация») и корня «relation», переводится как «отношение» или «связь» (вспомним public relations — связи с общественностью). Дословно correlation переводится как взаимосвязь.

Коэффициент корреляции — это мера взаимосвязи измеренных явлений. Коэффициент корреляции (обозначается «r») рассчитывается по специальной формуле и изменяется от -1 до +1. Показатели близкие к +1 говорят о том, что при увеличении значения одной переменной увеличивается значение другой переменной. Показатели близкие к -1 свидетельствуют об обратной связи, т.е. При увеличении значений одной переменной, значения другой уменьшаются.

Пример. На большой выборке был проведён тест FPI. Проанализируем взаимосвязи шкал Общительность, Застенчивость, Депрессивность. Начнем с Застенчивости и Депрессивности. Для наглядности, задаём систему координат, на которой по X будет застенчивость, а по Y — депрессивность. Таким образом, каждый человек из выборки исследования может быть изображен точкой на этой системе координат. В результате расчетов, коэффициент корреляции между ними r=0,6992.

Как видим, точки (испытуемые) расположены не хаотично, а выстраиваются вокруг одной линии, причём, глядя на эту линию можно сказать, что чем выше у человека выражена застенчивость, тем больше депрессивность, т. е. эти явления взаимосвязаны. Построим аналогичный график для Застенчивости и Общительности.

Мы видим, что с увеличением застенчивости общительность уменьшается. Их коэффициент корреляции -0,43. Таким образом, коэффициент корреляции больший от 0 до 1 говорит о прямопропорциональной связи (чем больше… тем больше…), а коэффициент от -1 до 0 о обратнопропорциональной (чем больше… тем меньше…). Если бы точки были расположены хаотично, коэффициент корреляции приближался бы к 0.

Коэффициент корреляции отражает степень приближенности точек на графике к прямой. Приведём примеры графиков, отражающих различную степень взаимосвязи (корреляции) переменных исследования. Сильная положительная корреляция:

Слабая положительная корреляция:

Нулевая корреляция:

В подписи у каждого графика кроме значения r есть значение p. p — это вероятность ошибки, о которой будет рассказано отдельно.

Источники и ссылки

ru.wikipedia.org — свободная энциклопедия Википедия

ru.math.wikia.com — математическая энциклопедия

vocabulary.ru — национальная психологическая энциклопедия

basegroup.ru — технологии анализа данных

investpark.ru — портал инвестора ИнвестПарк

megafx.ru — сайт для начинающих на рынке Форекс

psyfactor.org — центр практической психологии

learnspss.ru — сайт профессиональной обработки даных

exceltip.ru — блог о программе Microsoft Excel

economyreview.ru — информационные системы и технологии в экономике

aup.ru — аминистративно-управленческий портал

math-pr.com — решение задач и примеров по высшей математике

neerc.ifmo.ru — Викиконспекты

exponenta.ru — образовательный математический сайт

edu.jobsmarket.ru — курсы повышения квалификации в России и за рубежом

quans.ru — анализ и исследование рынка

Источник

53.1. Корреляционный анализ

Корреляционный анализ является одним из методов статистического анализа взаимозависимости нескольких признаков.

Основная задача корреляционного анализа состоит в оценке корреляционной матрицы генеральной совокупности по выборке и определении на основе этой матрицы частных и множественных коэффициентов корреляции и детерминации.

Парный и частный коэффициенты корреляции характеризуют тесноту линейной зависимости между двумя переменными соответственно на фоне действия и при исключении влияния всех остальных показателей, входящих в модель. Они изменяются в пределах от -1 до +1, причем чем ближе коэффициент корреляции к 1, тем сильнее зависимость между переменными. Если коэффициент корреляции больше нуля, то связь положительная, а если меньше нуля — отрицательная.

Множественный коэффициент корреляции характеризует тесноту, линейной связи между одной переменной (результативной) и остальными, входящими в модель; он изменяется в пределах от 0 до 1.

Квадрат множественного коэффициента корреляции называется множественным коэффициентом детерминации. Он характеризует долю дисперсии одной переменной (результативной), обусловленной влиянием всех остальных переменных (аргументов), входящих в модель.

Исходной для анализа является матрица

размерности п х k, i-я строка которой характеризует i-е наблюдение (объект) по всем k показателям (j = 1, 2, …, k).

В корреляционном анализе матрицу Х рассматривают как выборку объема п из k-мерной генеральной совокупности, подчиняющейся k-мерному нормальному закону распределения.

По выборке определяют оценки параметров генеральной совокупности, а именно: вектор средних , вектор средних квадратических отклонений s и корреляционную матрицу R порядка k:

где

(53.1)

(53.2)

x_ij— значение i-го наблюдения j-го фактора,

r_il — выборочный парный коэффициент корреляции, характеризующий тесноту линейной связи между показателями x_j и x_l. При этом r_jl является оценкой генерального парного коэффициента корреляции.

Матрица R является симметричной (r_jl = r_lj) и положительно определенной.

Кроме того, находятся точечные оценки частных и множественных коэффициентов корреляции любого порядка. Например, частный коэффициент корреляции (k — 2)-го порядка между переменными х₁ и х₂ равен

(53.3)

где R_jl — алгебраическое дополнение элемента r_jl корреляционной матрицы R. При этом R_jl = (-l)^j+l M_jl, где M_jl — минор, т.е. определитель матрицы, получаемой из матрицы R путем вычерчивания j-й строки и l-го столбца.

Множественный коэффициент корреляции (k — 1)-го порядка результативного признака x₁ определяется по формуле

(53.4)

где | R | — определитель матрицы R.

Значимость частных и парных коэффициентов корреляции, т.е. гипотеза H₀: ρ = 0, проверяется по t-критерию Стьюдента. Наблюдаемое значение критерия находится по формуле

(53.5)

где r — соответственно оценка частного или парного коэффициента корреляции ρ; l — порядок частного коэффициента корреляции, т.е. число фиксируемых факторов (для парного коэффициента корреляции l=0).

Напомним, что проверяемый коэффициент корреляции считается значимым, т.е. гипотеза H₀: ρ = 0 отвергается с вероятностью ошибки α, если t_набл по модулю будет больше, чем значение t_кр, определяемое по таблицам t-распределения для заданного α и υ = n – l — 2.

Значимость коэффициентов корреляции можно также проверить с помощью таблиц Фишера — Иейтса.

При определении с надежностью у доверительного интервала для значимого парного или частного коэффициента корреляции р используют Z-преобразование Фишера и предварительно устанавливают интервальную оценку для Z:

(53.6)

где t_γ вычисляют по таблице значений интегральной функции Лапласа из условия

значение Z’ определяют по таблице Z-преобразования по найденному значению r. Функция Z’ — нечетная, т.е.

Обратный переход от Z к ρ осуществляют также по таблице Z-преобразования, после использования которой получают интервальную оценку для ρ с надежностью γ:

Таким образом, с вероятностью γ гарантируется, что генеральный коэффициент корреляции ρ будет находиться в интервале (r_min, r_max).

Значимость множественного коэффициента корреляции (или его квадрата — коэффициента детерминации) проверяется по F-критерию. Например, для множественного коэффициента корреляции проверка значимости сводится к проверке гипотезы, что генеральный множественный коэффициент корреляции равен нулю, т.е. H₀: ρ_1/2,…,k = 0, а наблюдаемое значение статистики находится по формуле

(53.7)

Множественный коэффициент корреляции считается значимым, т.е. имеет место линейная статистическая зависимость между х₁ и остальными факторами х₂, …, х_k, если F_набл > F_кр, где F_кр определяется по таблице F-распределения для заданных α, υ₁ = k — 1, υ₂ = n — k.

53.2. Регрессионный анализ

Регрессионный анализ — это статистический метод исследования зависимости случайной величины у от переменных (аргументов) х_j (j = 1, 2,…, k), рассматриваемых в регрессионном анализе как неслучайные величины независимо от истинного закона распределения x_j.

Обычно предполагается, что случайная величина у имеет нормальный закон распределения с условным математическим ожиданием = φ(x₁, …, х_k), являющимся функцией от аргументов х_j и с постоянной, не зависящей от аргументов дисперсией σ².

Для проведения регрессионного анализа из (k + 1)-мерной генеральной совокупности (у, x₁, х₂, …, х_j, …, х_k) берется выборка объемом n, и каждое i-е наблюдение (объект) характеризуется значениями переменных (у_i, x_i1, х_i2, …, х_ij, …, x_ik), где х_ij — значение j-й переменной для i-го наблюдения (i = 1, 2,…, n), у_i — значение результативного признака для i-го наблюдения.

Наиболее часто используемая множественная линейная модель регрессионного анализа имеет вид

(53.8)

где β_j — параметры регрессионной модели;

ε_j — случайные ошибки наблюдения, не зависимые друг от друга, имеют нулевую среднюю и дисперсию σ².

Отметим, что модель (53.8) справедлива для всех i = 1,2, …, n, линейна относительно неизвестных параметров β₀, β₁,…, β_j, …, β_k и аргументов.

Как следует из (53.8), коэффициент регрессии B_j показывает, на какую величину в среднем изменится результативный признак у, если переменную х_j увеличить на единицу измерения, т.е. является нормативным коэффициентом.

В матричной форме регрессионная модель имеет вид

(53.9)

где Y — случайный вектор-столбец размерности п х 1 наблюдаемых значений результативного признака (у₁, у₂,…. у_n); Х— матрица размерности п х (k + 1) наблюдаемых значений аргументов, элемент матрицы х,, рассматривается как неслучайная величина (i = 1, 2, …, n; j=0,1, …, k; x_0i, = 1); β — вектор-столбец размерности (k + 1) х 1 неизвестных, подлежащих оценке параметров модели (коэффициентов регрессии); ε — случайный вектор-столбец размерности п х 1 ошибок наблюдений (остатков). Компоненты вектора ε_i не зависимы друг от друга, имеют нормальный закон распределения с нулевым математическим ожиданием (Mε_i = 0) и неизвестной постоянной σ² (Dε_i = σ²).

На практике рекомендуется, чтобы значение п превышало k не менее чем в три раза.

В модели (53.9)

В первом столбце матрицы Х указываются единицы при наличии свободного члена в модели (53.8). Здесь предполагается, что существует переменная x₀, которая во всех наблюдениях принимает значения, равные единице.

Основная задача регрессионного анализа заключается в нахождении по выборке объемом п оценки неизвестных коэффициентов регрессии β₀, β₁, …, β_k модели (53.8) или вектора β в (53.9).

Так как в регрессионном анализе х_j рассматриваются как неслучайные величины, a Mε_i = 0, то согласно (53.8) уравнение регрессии имеет вид

(53.10)

для всех i = 1, 2, …, п, или в матричной форме:

(53.11)

где — вектор-столбец с элементами ₁…, _i,…, _n.

Для оценки вектора-столбца β наиболее часто используют метод наименьших квадратов, согласно которому в качестве оценки принимают вектор-столбец b, который минимизирует сумму квадратов отклонений наблюдаемых значений у_i от модельных значений _i, т.е. квадратичную форму:

где символом «Т» обозначена транспонированная матрица.

Наблюдаемые и модельные значения результативного признака у показаны на рис. 53.1.

Рис. 53.1. Наблюдаемые и модельные значения результативного признака у

Дифференцируя, с учетом (53.11) и (53.10), квадратичную форму Q по β₀, β₁, …, β_k и приравнивая частные производные к нулю, получим систему нормальных уравнений

решая которую получим вектор-столбец оценок b, где b = (b₀, b₁, …, b_k)^T. Согласно методу наименьших квадратов, вектор-столбец оценок коэффициентов регрессии получается по формуле

(53.12)

Х^T — транспонированная матрица X;

(Х^TХ)^-1 — матрица, обратная матрице Х^TХ.

Зная вектор-столбец b оценок коэффициентов регрессии, найдем оценку уравнения регрессии

(53.13)

или в матричном виде:

Оценка ковариационной матрицы вектора коэффициентов регрессии b определяется выражением

(53.14)

где

(53.15)

Учитывая, что на главной диагонали ковариационной матрицы находятся дисперсии коэффициентов регрессии, имеем

(53.16)

Значимость уравнения регрессии, т.е. гипотеза Н₀: β = 0 (β₀,= β₁ = β_k = 0), проверяется по F-критерию, наблюдаемое значение которого определяется по формуле

(53.17)

По таблице F-распределения для заданных α, v₁ = k + l,v₂= n – k — l находят F_кр.

Гипотеза H₀ отклоняется с вероятностью α, если F_набл > F_кр. Изэтого следует, что уравнение является значимым, т.е. хотя бы один из коэффициентов регрессии отличен от нуля.

Для проверки значимости отдельных коэффициентов регрессии, т.е. гипотезы Н₀: β_j = 0, где j = 1, 2, …, k, используют t-критерий и вычисляют t_набл(b_j) = b_j/ _bj. По таблице t-распределения для заданного α и v = п — k — 1 находят t_кр.

Гипотеза H₀ отвергается с вероятностью α, если t_набл > t_кр. Из этого следует, что соответствующий коэффициент регрессии β_j значим, т.е. β_j ≠ 0. В противном случае коэффициент регрессии незначим и соответствующая переменная в модель не включается. Тогда реализуется алгоритм пошагового регрессионного анализа, состоящий в том, что исключается одна из незначительных переменных, которой соответствует минимальное по абсолютной величине значение t_набл. После этого вновь проводят регрессионный анализ с числом факторов, уменьшенным на единицу. Алгоритм заканчивается получением уравнения регрессии со значимыми коэффициентами.

Существуют и другие алгоритмы пошагового регрессионного анализа, например с последовательным включением факторов.

Наряду с точечными оценками b_j генеральных коэффициентов регрессии β_j регрессионный анализ позволяет получать и интервальные оценки последних с доверительной вероятностью γ.

Интервальная оценка с доверительной вероятностью γ для параметра β_j имеет вид

(53.19)

где t_α находят по таблице t-распределения при вероятности α = 1 — γ и числе степеней свободы v = п — k — 1.

Интервальная оценка для уравнения регрессии в точке, определяемой вектором-столбцом начальных условий X⁰ = (1, x, x,,…, x)^T записывается в виде

(53.20)

Интервал предсказания _n+1 с доверительной вероятностью у определяется как

(53.21)

где t_α определяется по таблице t-распределения при α = 1 — γ и числе степеней свободы v = п — k — 1.

По мере удаления вектора начальных условий х⁰ от вектора средних ширина доверительного интервала при заданном значении γ будет увеличиваться (рис. 53.2), где = (1, ).

Рис. 53.2. Точечная и интервальная оценки уравнения регрессии .

Мультиколлинеарность

Одним из основных препятствий эффективного применения множественного регрессионного анализа является мультиколлинеарность. Она связана с линейной зависимостью между аргументами х₁, х₂, …, х_k. В результате мультиколлинеарности матрица парных коэффициентов корреляции и матрица (X^TX) становятся слабообусловленными, т.е. их определители близки к нулю.

Это приводит к неустойчивости оценок коэффициентов регрессии (53.12), завышению дисперсии s, оценок этих коэффициентов (53.14), так как в их выражения входит обратная матрица (X^TX)^-1, получение которой связано с делением на определитель матрицы (Х^TХ). Отсюда следуют заниженные значения t(b_j). Кроме того, мультиколлинеарность приводит к завышению значения множественного коэффициента корреляции.

На практике о наличии мультиколлинеарности обычно судят по матрице парных коэффициентов корреляции. Если один из элементов матрицы R больше 0,8, т.е. | r_jl | > 0,8, то считают, что имеет место мультиколлинеарность, и в уравнение регрессии следует включать один из показателей — х_j или x_l.

Чтобы избавиться от этого негативного явления, обычно используют алгоритм пошагового регрессионного анализа или строят уравнение регрессии на главных компонентах.

Пример. Построение регрессионного уравнения

Согласно данным двадцати (п = 20) сельскохозяйственных районов, требуется построить регрессионную модель урожайности на основе следующих показателей:

у — урожайность зерновых культур (ц/га);

x₁ — число колесных тракторов (приведенной мощности) на 100 га;

х₂ — число зерноуборочных комбайнов на 100 га;

х₃ — число орудий поверхностной обработки почвы на 100 га;

x₄ — количество удобрений, расходуемых на гектар;

х₅ — количество химических средств оздоровления растений, расходуемых на гектар.

Исходные данные для анализа приведены в табл. 53.1.

Таблица 53.1

Исходные данные для анализа

Решение. С целью предварительного анализа взаимосвязи показателей построена матрица R — таблица парных коэффициентов корреляции.

Анализ матрицы парных коэффициентов корреляции показывает, что результативный признак наиболее тесно связан с показателем х₄ — количеством удобрений, расходуемых на гектар (r_yx4 = 0,58).

В то же время связь между аргументами достаточно тесная. Так, существует практически функциональная связь между числом колесных тракторов (x₁) и числом орудий поверхностной обработки почвы x₃(r_x1x3) = 0,98.

О наличии мультиколлинеарности свидетельствуют также коэффициенты корреляции r_x1x2 = 0,85 и r_x3x2 = 0,88.

Чтобы продемонстрировать отрицательное влияние мультиколлинеарности, рассмотрим рассчитанное на ЭВМ регрессионное уравнение урожайности, включив в него все исходные показатели:

= 3,515 – 0,006x₁ + 15,542x₂ + 110x₃ + 4,475х₄ — 2,932x_5. (53.22)

(-0,01) (0,72) (0,13) (2,90) (-0,95)

В скобках указаны t_набл (β_j) = t_j — расчетные значения t-критерия для проверки гипотезы о значимости коэффициента регрессии Н₀: β_j = 0, j = 1, 2, 3, 4, 5. Критическое значение t_кр = 1,76 найдено по таблице t-распределения при уровне значимости α = 0,1 и числе степеней свободы v = 14. Из уравнения следует, что статистически значимым является коэффициент регрессии только при х₄, так как |t₄| = 2,90 > t_кр = 1,76. Не поддаются экономической интерпретации отрицательные значения коэффициентов регрессии при х₁ и x₅, из чего следует, что повышение насыщенности сельского хозяйства колесными тракторами (х₁) и средствами оздоровления растений (x₅) отрицательно сказывается на урожайности. Таким образом, полученное уравнение регрессии неприемлемо.

После реализации алгоритма пошагового регрессионного анализа с исключением переменных и учетом того, что в уравнение должна войти только одна из трех тесно связанных переменных (x₁, х₂ или x₃), получаем окончательное уравнение регрессии

= 7,342 + 0,345x₁ + 3,294x₄. (53.23)

(11,12) (2,09) (3,02)

Уравнение значимо при α = 0,05, так как F_набл = 266 > F_кр = 3,20, найденного по таблице F-распределения при α = 0,05, v₁ = 3 и v₂ = 17. Значимы и коэффициенты регрессии β₁ и β₄, так как |t_j| > t_кр = 2,11 (при α = 0,05, v = 17). Коэффициент регрессии β₁ следует признать значимым (β₁ ≠ 0) из экономических соображений; при этом t₁ = 2,09 лишь незначительно меньше t_кр = 2,11. В случае если α = 0,1, t_кр = 1,74 и коэффициент регрессии β₁ статистически значим.

Из уравнения регрессии следует, что увеличение на единицу числа тракторов на 100 га пашни приводит к росту урожайности зерновых в среднем на 0,345 ц/га (b₁ = 0,345).

Коэффициенты эластичности Э₁ = 0,068 и Э₄ = 0,161 (Э_j = ) показывают, что при увеличении показателей x₁ и х₄ на 1% урожайность зерновых повышается соответственно на 0,068% и 0,161%.

Множественный коэффициент детерминации r = 0,469 свидетельствует о том, что только 46,9% вариации урожайности объясняется вошедними в модель показателями (x₁ и x₄), т.е. насыщенностью растениеводства тракторами и удобрениями. Остальная часть вариации обусловлена действием неучтенных факторов (х₂, x₃, х₅, погодными условиями и др.). Средняя относительная ошибка аппроксимации = 10,5% свидетельствует об адекватности модели, так же как и величина остаточной дисперсии s² = 1,97.

53.3. Компонентный анализ

Компонентный анализ предназначен для преобразования системы k исходных признаков в систему k новых показателей (главных компонент). Главные компоненты не коррелированы между собой и упорядочены по величине их дисперсий, причем первая главная компонента имеет наибольшую дисперсию, а последняя, k-я — наименьшую. При этом выявляются неявные, непосредственно не измеряемые, но объективно существующие закономерности, обусловленные действием как внутренних, так и внешних причин.

Компонентный анализ является одним из основных методов факторного анализа. В задачах снижения размерности и классификации обычно используются т первых компонент (т << k).

При наличии результативного признака у может быть построено уравнение регрессии на главных компонентах.

На основании матрицы исходных данных

размерности п х k, где х_ij.— значение j-го показателя у i-го наблюдения (i = 1, 2, …, n; j = 1, 2, …. k), вычисляют средние значения показателей а также s₁, …, s_k и матрицу нормированных значений

с элементами

Рассчитывается матрица парных коэффициентов корреляции:

(53.24)

с элементами

(53.25)

где j, l= 1, 2, …. k.

На главной диагонали матрицы R, т.е. при j = l, расположены элементы

Модель компонентного анализа имеет вид

(53.26)

где a_iv — «вес», т.е. факторная нагрузка v-й главной компоненты на j-ю переменную;

f_iv — значение v-й главной компоненты для i-го наблюдения (объекта), где v = 1, 2, …,k.

В матричной форме модель (53.26) имеет вид

(53.27)

f_iv — значение v-й главной компоненты для i-го наблюдения (объекта);

a_iv — значение факторной нагрузки v-й главной компоненты на j-ю переменную.

Матрица F описывает п наблюдений в пространстве k главных компонент. При этом элементы матрицы F нормированы, т.е. f_v = , a главные компоненты не коррелированы между собой. Из этого следует, что

(53.28)

Выражение (53.28) может быть представлено в виде

(53.29)

С целью интерпретации элементов матрицы А рассмотрим выражение для парного коэффициента корреляции между переменной z_j и, например, f₁-й главной компонентой. Так как z_о и f₁ нормированы, будем иметь с учетом (53.26):

Принимая во внимание (53.29), окончательно получим

Рассуждая аналогично, можно записать в общем виде

(53.30)

для всех j = 1, 2, .,., k и v = 1, 2, …. k.

Таким образом, элемент a_jv матрицы факторных нагрузок А характеризует тесноту линейной связи между исходной переменной z_j и главной компонентой f_v, т.е. –1 ≤ a_jv ≤ +1.

Рассмотрим теперь выражение для дисперсии нормированной переменной z_j. С учетом (53.26) будем иметь

где v, v’= 1, 2, …, k.

Учитывая (53.29), окончательно получим

(53.31)

По условию, переменные z_j нормированы и s = 1. Таким образом, дисперсия переменной z_j, согласно (53.31), представлена своими составляющими, определяющими долю вклада в нее всех k главных компонент.

Полный вклад v-й главной компоненты в дисперсию всех k исходных признаков вычисляется по формуле

(53.32)

Одно из основополагающих условий метода главных компонент связано с представлением корреляционной матрицы R через матрицу факторных нагрузок А. Подставив для этого (53.27) в (53.24), будем иметь

Учитывая (53.28), окончательно получим

(53.33)

Перейдем теперь непосредственно к отысканию собственных значений и собственных векторов корреляционной матрицы R.

Из линейной алгебры известно, что для любой симметричной матрицы R всегда существует такая ортогональная матрица U, что выполняется условие

(53.34)

Так как матрица R положительно определена, т.е. ее главные миноры положительны, то все собственные значения λ_v > 0 для любых v =1, 2, …, k.

В компонентном анализе элементы матрицы Λ ранжированы: λ₁ ≥ λ₂ ≥ … ≥ λ_v … ≥ λ_k ≥ 0. Как будет показано ниже, собственное значение λ_v характеризует вклад v-й главной компоненты в суммарную дисперсию исходного признакового пространства.

Таким образом, первая главная компонента вносит наибольший вклад в суммарную дисперсию, а последняя, k-я, — наименьший.

В ортогональной матрице U собственных векторов v-й столбец является собственным вектором, соответствующим λ_v -му значению.

Собственные значения λ₁ ≥ … ≥ λ_v…. ≥ λ_k находятся как корни характеристического уравнения

(53.35)

Собственный вектор V_v, соответствующий собственному значению λ_v корреляционной матрицы R, определяется как отличное от нуля решение уравнения, которое следует из (53.34):

(53.36)

Нормированный собственный вектор U_v равен

Из условия ортогональности матрицы U следует, что U^-1 = U^T, но тогда, по определению, матрицы R и Λ подобны, так как они, согласно (53.34), удовлетворяют условию

Так как у подобных матриц суммы диагональных элементов равны, то

Учитывая, что сумма диагональных элементов матрицы R равна k, будем иметь

Таким образом,

(53.37)

Представим матрицу факторных нагрузок А в виде

(53.38)

а v-й столбец матрицы А — как

где U_v — собственный вектор матрицы R, соответствующий собственному значению λ_v.

Найдем норму вектора А_v:

(53.39)

Здесь учитывалось, что вектор U_v — нормированный и UU_v = 1. Таким образом,

Сравнив полученный результат с (53.32), можно сделать вывод, что собственное значение λ_v характеризует вклад v-й главной компоненты в суммарную дисперсию всех исходных признаков. Из (53.38) следует, что

(53.40)

Согласно (53.37), общий вклад всех главных компонент в суммарную дисперсию равен k. Тогда удельный вклад v-й главной компоненты определяется по формуле .

Суммарный вклад т первых главных компонент определяется из выражения .

Обычно для анализа используют т первых главных компонент, вклад которых в суммарную дисперсию превышает 60—70%.

Матрица факторных нагрузок А используется для экономической интерпретации главных компонент, которые представляют собой линейные функции исходных признаков. Для экономической интерпретации f_v используются лишь те х_j, для которых |a_jv| > 0,5.

Значения главных компонент для каждого i-го объекта (i = 1, 2, …. n) задаются матрицей F.

Матрицу значений главных компонент можно получить из формулы

откуда

Уравнение регрессии на главных компонентах строится по алгоритму пошагового регрессионного анализа, где в качестве аргументов используются главные компоненты, а не исходные показатели. К достоинству последней модели следует отнести тот факт, что главные компоненты не коррелированы. При построении уравнений регрессии следует учитывать все главные компоненты.

Пример. Построение регрессионного уравнения

По данным примера из § 53.2 провести компонентный анализ и построить уравнение регрессии урожайности Y на главных компонентах.

Решение. В примере из § 53.2 пошаговая процедура регрессионного анализа позволила исключить отрицательное значение мультиколлинеарности на качество регрессионной модели за счет значительной потери информации. Из пяти исходных показателей в окончательную модель вошли только два (x₁ и x₄). Более рациональным в условиях мультиколлинеарности можно считать построение уравнения регрессии на главных компонентах, которые являются линейными функциями всех исходных показателей и не коррелированы между собой.

Воспользовавшись методом главных компонент, найдем собственные значения и на их основе — вклад главных компонент в суммарную дисперсию исходных показателей x₁, х₂, х₃, х₄, х₅ (табл. 53.2).

Таблица 53.2

Собственные значения главных компонент

Ограничимся экономической интерпретацией двух первых главных компонент, общий вклад которых в суммарную дисперсию составляет 89,0%. В матрице факторных нагрузок

звездочкой указаны элементы а_jv = rx_jf_v, учитывающиеся при интерпретации главных компонент f_v, где j, v = 1, 2, …, 5.

Из матрицы факторных нагрузок А следует, что первая главная компонента наиболее тесно связана со следующими показателями: x₁ — число колесных тракторов на 100 га (a₁₁ = rx₁f₁ = 0,95); х₂ — число зерноуборочных комбайнов на 100 га (rx₂f₁ = 0,97); х₃ — число орудий поверхностной обработки почвы на 100 га (rx₃f₁ = 0,94). В этой связи первая главная компонента — f₁ — интерпретирована как уровень механизации работ.

Вторая главная компонента — f₂ — тесно связана с количеством удобрений (х₄) и химических средств оздоровления растений (x₅), расходуемых на гектар, и интерпретирована как уровень химизации растениеводства.

Уравнение регрессии на главных компонентах строится по данным вектора значений результативного признака Y и матрицы F значений главных компонент.

Некоррелированность главных компонент между собой и тесноту их связи с результативным признаком у показывает матрица парных коэффициентов корреляции (табл. 53.3).

Анализ матрицы парных коэффициентов корреляции свидетельствует о том, что результативный признак у наиболее тесно связан с первой (r_yf1 = 0,48), третьей (r_yf3 = 0,37) и. второй (r_yf2 = 0,34) главными компонентами. Можно предположить, что только эти главные компоненты войдут в регрессионную модель у.

Таблица 53.3

Матрица парных коэффициентов корреляции

Первоначально в модель у включают все главные компоненты (в скобках указаны расчетные значения t-критерия):

(53.41)

Качество модели характеризуют: множественный коэффициент детерминации r = 0,517, средняя относительная ошибка аппроксимации = 10,4%, остаточная дисперсия s² = 1,79 и F_набл = 121. Ввиду того что F_набл > F_кр =2,85 при α = 0,05, v₁ = 6, v₂ = 14, уравнение регрессии значимо и хотя бы один из коэффициентов регрессии — β₁, β₂, β₃, β₄ — не равен нулю.

Если значимость уравнения регрессии (гипотеза Н₀: β₁ = β₂ = β₃ = β₄ = 0 проверялась при α = 0,05, то значимость коэффициентов регрессии, т.е. гипотезы H₀: β_j= 0 (j = 1, 2, 3, 4), следует проверять при уровне значимости, большем, чем 0,05, например при α = 0,1. Тогда при α = 0,1, v = 14 величина t_кр = 1,76, и значимыми, как следует из уравнения (53.41), являются коэффициенты регрессии β₁, β₂, β₃.

Учитывая, что главные компоненты не коррелированы между собой, можно сразу исключить из уравнения все незначимые коэффициенты, и уравнение примет вид

(53.42)

Сравнив уравнения (53.41) и (53.42), видим, что исключение незначимых главных компонент f₄ и f₅, не отразилось на значениях коэффициентов уравнения b₀ = 9,52, b₁ = 0,93, b₂ = 0,66 и соответствующих t_j (j = 0, 1, 2, 3).

Это обусловлено некоррелированностью главных компонент. Здесь интересна параллель уравнений регрессии по исходным показателям (53.22), (53.23) и главным компонентам (53.41), (53.42).

Уравнение (53.42) значимо, поскольку F_набл = 194 > F_кр = 3,01, найденного при α = 0,05, v₁ = 4, v₂ = 16. Значимы и коэффициенты уравнения, так как t_j > t_кр. = 1,746, соответствующего α = 0,01, v = 16 для j = 0, 1, 2, 3. Коэффициент детерминации r = 0,486 свидетельствует о том, что 48,6% вариации у обусловлено влиянием трех первых главных компонент.

Уравнение (53.42) характеризуется средней относительной ошибкой аппроксимации = 9,99% и остаточной дисперсией s² = 1,91.

Уравнение регрессии на главных компонентах (53.42) обладает несколько лучшими аппроксимирующими свойствами по сравнению с регрессионной моделью (53.23) по исходным показателям: r = 0,486 > r = 0,469; = 9,99% < (х) = 10,5% и s²(f) = 1,91 < s²(x) = 1,97. Кроме того, в уравнении (53.42) главные компоненты являются линейными функциями всех исходных показателей, в то время как в уравнение (53.23) входят только две переменные (x₁ и х₄). В ряде случаев приходится учитывать, что модель (53.42) трудноинтерпретируема, так как в нее входит третья главная компонента f₃, которая нами не интерпретирована и вклад которой в суммарную дисперсию исходных показателей (x₁, …, х₅) составляет всего 8,6%. Однако исключение f₃ из уравнения (53.42) значительно ухудшает аппроксимирующие свойства модели: r = 0,349; = 12,4% и s²(f) = 2,41. Тогда в качестве регрессионной модели урожайности целесообразно выбрать уравнение (53.23).

Источник

Содержание

Оценка значимости коэффициента корреляции
Пример. Значимость коэффициента корреляции
Пример нахождения коэффициента корреляции
Значимость коэффициента корреляции
Коэффициент корреляции и проверка его значимости

Оценка значимости коэффициента корреляции

Так как оценка тесноты связи с помощью коэффициента корреляции проводится, как правило, на основе выборочной информации об изучаемом явлении, то возникает вопрос: насколько правомерно наше заключение по выборочным данным о наличии корреляционной связи в генеральной совокупности, из которой была извлечена выборка?

В связи с этим возникает необходимость оценки значимости (существенности) линейного коэффициента корреляции, дающая возможность распространить выводы по результатам выборки на генеральную совокупность. В зависимости от объема выборочной совокупности предлагаются различные методы оценки существенности линейного коэффициента корреляции.

Оценка значимости коэффициента корреляции при малых объемах выборки выполняется с использованием t-критерия Стьюдента. При этом наблюдаемое (фактическое) значение этого критерия определяется по формуле:

Вычисленное по этой формуле значение сравнивается с критическим значением t-критерия, которое берется из таблицы значений t-критерия Стьюдента с учетом заданного уровня значимости α и числа степеней свободы (n-2).

Если , то полученное значение коэффициента корреляции признается значимым (т.е. нулевая гипотеза, утверждающая равенство нулю коэффициента корреляции, отвергается). И делается вывод, что между исследуемыми переменными есть тесная статистическая взаимосвязь.

Если корреляция между случайными величинами:

– положительная, то при возрастании одной случайной величины другая имеет тенденцию в среднем возрастать;

– отрицательная, то при возрастании одной случайной величины другая имеет тенденцию в среднем убывать.

Источник

Пример. Значимость коэффициента корреляции

Линейное уравнение регрессии имеет вид y=ax+b
1. Параметры уравнения регрессии.
Средние значения

Дисперсия

Среднеквадратическое отклонение

Коэффициент корреляции

Связь между признаком Y фактором X сильная и прямая.
Уравнение регрессии

x	y	x 2	y 2	x·y	y(x)	(y- y ) 2	(y-y(x)) 2	(x-x p ) 2
1	0.4	1	0.16	0.4	0.4357	0.2359	0.0013	9
2	0.6	4	0.36	1.2	0.5857	0.0816	0.0002	4
3	0.7	9	0.49	2.1	0.7357	0.0345	0.0013	1
4	0.9	16	0.81	3.6	0.8857	0.0002	0.0002	0
5	1.1	25	1.21	5.5	1.0357	0.0459	0.0041	1
6	1.3	36	1.69	7.8	1.1857	0.1716	0.0131	4
7	1.2	49	1.44	8.4	1.3357	0.0988	0.0184	9
28	6.2	140	6.16	29	6.2	0.6686	0.0386	28

2. Оценка параметров уравнения регрессии.
Значимость коэффициента корреляции определяется по формуле (см. п. VI):

Для оценки значимости коэффициента корреляции используют критерий Стьюдента. По таблице Стьюдента находим T_табл(n-m-1;α/2) = T_табл(5;0.025) = 2.571 (двусторонняя критическая область)
1-α (95% — доверительный интервал)

Поскольку Tнабл > Tтабл (наблюдаемое значение критерия Tнабл принадлежит критической области), то отклоняем гипотезу о равенстве 0 коэффициента корреляции. Другими словами, коэффициента корреляции статистически — значим.
Интервальная оценка для коэффициента корреляции (доверительный интервал).

Доверительный интервал для коэффициента корреляции.

r(0.695;1)

Источник

Пример нахождения коэффициента корреляции

Другие варианты формул:
или

К_xy — корреляционный момент (коэффициент ковариации)

Для нахождения линейного коэффициента корреляции Пирсона необходимо найти выборочные средние x и y , и их среднеквадратические отклонения σ_x = S(x), σ_y = S(y):

Свойства коэффициента корреляции

|r_xy| ≤ 1;, -1≤x≤1
если X и Y независимы, то r_xy=0 , обратное не всегда верно;
если |r_xy|=1 , то Y=aX+b , |r_xy(X,aX+b)|=1 , где a и b постоянные, а ≠ 0;
|r_xy(X,Y)|=|r_xy(a₁X+b₁, a₂X+b₂)|, где a₁, a₂, b₁, b₂ – постоянные.

Поэтому для проверки направления связи выбирается проверка гипотезы при помощи коэффициента корреляции Пирсона с дальнейшей проверкой на достоверность при помощи t-критерия (пример см. ниже).

Решение онлайн
Видеоинструкция
Оформление Word
Типовые задачи

Вместе с этим калькулятором также используют следующие:
Уравнение множественной регрессии

Пример . На основе данных, приведенных в Приложении 1 и соответствующих Вашему варианту (таблица 2), требуется:

Рассчитать коэффициент линейной парной корреляции и построить уравнение линейной парной регрессии одного признака от другого. Один из признаков, соответствующих Вашему варианту, будет играть роль факторного (х), другой – результативного (y). Причинно-следственные связи между признаками установить самим на основе экономического анализа. Пояснить смысл параметров уравнения.
Определить теоретический коэффициент детерминации и остаточную (необъясненную уравнением регрессии) дисперсию. Сделать вывод.
Оценить статистическую значимость уравнения регрессии в целом на пятипроцентном уровне с помощью F-критерия Фишера. Сделать вывод.
Выполнить прогноз ожидаемого значения признака-результата y при прогнозном значении признака-фактора х, составляющим 105% от среднего уровня х. Оценить точность прогноза, рассчитав ошибку прогноза и его доверительный интервал с вероятностью 0,95.

Решение. Уравнение имеет вид y = ax + b
Средние значения

Коэффициент регрессии: k = a = 4.01
Коэффициент детерминации
R 2 = 0.99 2 = 0.97, т.е. в 97% случаев изменения х приводят к изменению y . Другими словами — точность подбора уравнения регрессии — высокая. Остаточная дисперсия: 3%.

x	y	x 2	y 2	x·y	y(x)	(y_i— y ) 2	(y-y(x)) 2	(x-x p ) 2
1	107	1	11449	107	103.19	333.06	14.5	30.25
2	109	4	11881	218	107.2	264.06	3.23	20.25
3	110	9	12100	330	111.21	232.56	1.47	12.25
4	113	16	12769	452	115.22	150.06	4.95	6.25
5	120	25	14400	600	119.23	27.56	0.59	2.25
6	122	36	14884	732	123.24	10.56	1.55	0.25
7	123	49	15129	861	127.26	5.06	18.11	0.25
8	128	64	16384	1024	131.27	7.56	10.67	2.25
9	136	81	18496	1224	135.28	115.56	0.52	6.25
10	140	100	19600	1400	139.29	217.56	0.51	12.25
11	145	121	21025	1595	143.3	390.06	2.9	20.25
12	150	144	22500	1800	147.31	612.56	7.25	30.25
78	1503	650	190617	10343	1503	2366.25	66.23	143

Примечание: значения y(x) находятся из полученного уравнения регрессии:
y(1) = 4.01*1 + 99.18 = 103.19
y(2) = 4.01*2 + 99.18 = 107.2
. . .

Значимость коэффициента корреляции

Анализ точности определения оценок коэффициентов регрессии

Доверительные интервалы для зависимой переменной

Рассчитаем границы интервала, в котором будет сосредоточено 95% возможных значений Y при неограниченно большом числе наблюдений и X = 7
(122.4;132.11)
Проверка гипотез относительно коэффициентов линейного уравнения регрессии

Статистическая значимость коэффициента регрессии подтверждается (18.63>2.228).

Статистическая значимость коэффициента регрессии подтверждается (62.62>2.228).
Доверительный интервал для коэффициентов уравнения регрессии
Определим доверительные интервалы коэффициентов регрессии, которые с надежность 95% будут следующими (t_табл=2.228):
(a — t_табл·S_a; a + t_табл·S _a)
(3.6205;4.4005)
(b — t_табл·S_b; b + t_табл·S_b)
(96.3117;102.0519)

Пример №2
1. Расчет средних значений x , y : x = ∑x_i n = 660.6 11 = 60.05 y = ∑y_i n = 333.94 11 = 30.36 x·y = ∑x_i·y_i n = 19952.07 11 = 1813.82
2. Расчет дисперсий: S 2 (x) = x_i 2 n — x 2 = 40337.2 11 — 60.05 2 = 60.47 S 2 (y) = y_i 2 n — y 2 = 10329.52 11 — 30.36 2 = 17.43 3. Расчет среднеквадратических отклонений: S(x) = √ S 2 (x) = √ 60.47 = 7.78 S(y) = √ S 2 (y) = √ 17.43 = 4.17
4. Расчет линейного коэффициента корреляции Пирсона: r_xy = x·y — x · y S(x)·S(y) = 1813.82-60.05·30.36 7.78·4.17 = -0.2872 Линейный коэффициент корреляции принимает значения от –1 до +1.
Связи между признаками могут быть слабыми и сильными (тесными). Их критерии оцениваются по шкале Чеддока:
0.1 2 y 2 x·y y(x) (y_i— y ) 2 (y-y(x)) 2 68.5 22.39 4692.25 501.31 1533.72 29.06 63.49 44.44 75.7 29.24 5730.49 854.98 2213.47 27.95 1.25 1.67 52.7 32.92 2777.29 1083.73 1734.88 31.49 6.56 2.04 60.2 33.52 3624.04 1123.59 2017.9 30.34 10 10.14 62.3 30.98 3881.29 959.76 1930.05 30.01 0.39 0.94 48.3 37.17 2332.89 1381.61 1795.31 32.17 46.4 25 56.5 32.12 3192.25 1031.69 1814.78 30.91 3.1 1.47 65.9 31.76 4342.81 1008.7 2092.98 29.46 1.97 5.3 56.2 28.48 3158.44 811.11 1600.58 30.95 3.53 6.11 51.1 23.17 2611.21 536.85 1183.99 31.74 51.67 73.42 63.2 32.19 3994.24 1036.2 2034.41 29.87 3.36 5.37 660.6 333.94 40337.2 10329.52 19952.07 333.94 191.71 175.9

Значимость линейного коэффициента корреляции Пирсона. t_набл = r_xy· √ n-2 √ 1-r_xy 2 = 0.2872· √ 9 √ 1-0.2872 2 = 0.9
По таблице Стьюдента с уровнем значимости α=0.05 и степенями свободы k=n-m-1=11-1-1=9 находим t_крит: t_крит(n-m-1;α/2) = t_крит(9;0.025) = 2.262, где m=1 — количество объясняющих переменных.
Если t_набл > t_критич, то полученное значение коэффициента корреляции Пирсона признается значимым (нулевая гипотеза, утверждающая равенство нулю коэффициента корреляции, отвергается).
Поскольку t_набл , то принимаем гипотезу о равенстве 0 коэффициента корреляции. Другими словами, коэффициент корреляции статистически — не значим
В парной линейной регрессии t 2 _r = t 2 _b и тогда проверка гипотез о значимости коэффициентов регрессии и корреляции равносильна проверке гипотезы о существенности линейного уравнения регрессии.

Интервальная оценка для линейного коэффициента корреляции Пирсона ( r_xy — t_крит· 1-r_xy 2 √ n ; r_xy + t_крит· 1-r_xy 2 √ n )
Доверительный интервал для коэффициента корреляции ( 0.29 — 2.262· 1-0.29 2 √ 11 ; 0.29 + 2.262· 1-0.29 2 √ 11 ) Доверительный интервал для линейного коэффициента корреляции Пирсона: r(-0.9129;0.3386)

Источник

Коэффициент корреляции и проверка его значимости

Одним из важнейших элементов эконометрического анализа является установление наличия и тесноты связи между различными показателями (например, между ценой и спросом, доходом и потреблением, инфляцией и безработицей). Обычно анализ начинают с простейшей – линейной зависимости.

Числовой характеристикой, измеряющей степень тесноты линейной статистической связи между случайными переменными Х и Y, является коэффициент корреляции между Х и Y, который обозначается r = и определяется по формуле

Приведем основные его свойства.

1. Для любых переменных Х и Y абсолютная величина коэффициента корреляции не превосходит единицы: £ 1, или – 1 £ £ + 1.

2. Абсолютная величина коэффициента корреляции равна единице тогда и только тогда, когда между переменными Х и Y существует линейная функциональная зависимость, т. е. Y = aX + b, где a ¹ 0 и b – некоторые постоянные величины. При этом = 1, если a > 0, и = – 1, если a

Из этих свойств вытекает смысл , который состоит в том, что коэффициент корреляции характеризует тесноту линейной статистической связи между переменными Х и Y: чем ближе к единице, тем связь сильнее; чем ближе к нулю, тем связь слабее. Переменные X и Y называются положительно коррелированными, если и отрицательно коррелированными, если

Определение и свойства теоретического коэффициента корреляции показывают, что изучение линейной статистической зависимости между переменными Х и Y имеет смысл лишь тогда, когда величина r = значима (или существенна), т. е. не очень близка к нулю. Однако эта величина на практике, как правило, неизвестна и может быть лишь оценена с помощью выборочных данных.

Точечной оценкой теоретического коэффициента корреляции является выборочный коэффициент корреляции r = r_xy , который находится по формуле

. (2.33)

– выборочные средние переменных X и Y соответственно;

– выборочная дисперсия переменной X;

– выборочная дисперсия переменной Y;

– выборочные среднеквадратические (стандартные) отклонения переменных X и Y соответственно;

– выборочное среднее переменной X× Y .

Исходя из определения (2.33), можно показать, что выборочный коэффициент корреляции также обладает сформулированными выше свойствами 1 – 3.

Если выборка имеет достаточно большой объем и хорошо представляет генеральную совокупность (репрезентативна), то заключение о тесноте линейной зависимости между переменными, полученное по выборочным данным, в известной мере может быть распространено и на генеральную совокупность. Для достижения этой цели используется критерий, основанный на распределении Стьюдента.

Пусть основная гипотеза Н₀состоит в том, что корреляция между Х и Y не значима, т. е. Н₀: = 0. Альтернативная гипотеза Н₁= состоит в том, что корреляция между Х и Y значима. Если справедлива нулевая гипотеза Н₀ и объем выборки n достаточно велик, то статистика

(2.34)

имеет приближенно распределение Стьюдента с (n – 2) степенями свободы.

Для заданного уровня значимости a находим по таблице 1 Приложения

t_1–_a_/2(n – 2) – квантиль порядка (1–a/2) распределения Стьюдента с (n – 2) степенями свободы. Тогда нулевая гипотеза Н₀принимается при выполнении неравенства

Решение. В примере 2.2 были определены

Вычислим далее среднее

По формуле (2.33) находим

Данное значение коэффициента корреляции позволяет сделать вывод о сильной (прямой) линейной статистической зависимости между рассматриваемыми переменными Х и Y.

Проверим гипотезу Н₀: = 0 против альтернативной Н₁: ¹ 0 на уровне значимости a = 0,01. По формуле (2.34) вычислим статистику

С помощью таблицы квантилей распределения Стьюдента определим

t_1–_a_/2(n – 2) = t_{0, 995}(10) = 3,1693. Поскольку | t_r | > t_1–_a_/2(n – 2) (24,098 > 3,1693), то коэффициент корреляции r_x _y статистически значим. Следовательно, существенно отличается от нуля и между переменными Х и Y существует сильная линейная статистическая зависимость. g

Замечание 2.5. Сравнивая формулы (2.7) и (2.33) для коэффициентов регрессии и корреляции соответственно, нетрудно заметить, что в линейной модели между ними существует зависимость:

Так, используя результаты вычислений в примерах 2.2 и 2.6, получаем

Некоторое (незначительное) расхождение с величиной, полученной в примере 2.6, вызвано ошибками округлений. 3

Замечание 2.6. В случае парной линейной регрессионной модели квадрат коэффициента корреляции между зависимой и независимой переменной равен коэффициенту детерминации:

Так для данных примера 2.2 R 2 = 0,983 » (0,9915) 2 = (см. примеры 2.5 и 2.6); неточности в данном случае связаны с округлением вычислений. 3

Контрольные вопросы

1. Что такое функция регрессии?

2. Чем регрессионная модель отличается от функции регрессии?

3. Какая регрессионная модель называется линейной?

4. Какой смысл имеют коэффициенты парного линейного уравнения регрессии?

5. В чем состоит различие между теоретическим и выборочным уравнением регрессии?

6. В чем сущность метода наименьших квадратов (МНК)?

7. Приведите формулы расчета коэффициентов парного линейного уравнения регрессии по МНК.

8. Перечислите предпосылки регрессионного анализа.

9. Сформулируйте основные свойства МНК-оценок.

10. Имеют ли коэффициенты парной линейной регрессии размерность?

11. Как оценивается дисперсия возмущений?

12. Какие факторы влияют на величину стандартных ошибок коэффициентов регрессии?

13. Как строятся интервальные оценки коэффициентов регрессии?

14. Как строятся доверительные полосы для: а) уравнения регрессии; б) индивидуальных значений результирующей переменной?

13. Какие виды прогнозов Вы знаете?

14. В чем суть предсказания: а) среднего значения; б) индивидуальных значений результирующей переменной?

15. Объясните суть коэффициента корреляции.

16. Сформулируйте основные свойства коэффициента корреляции.

17. Почему коэффициент корреляции называют мерой линейной зависимости между переменными?

18. В чем суть значимости коэффициента корреляции и как она проверяется?

19. Опишите «грубое» правило анализа статистической значимости коэффициента корреляции.

20. Как связаны коэффициенты регрессии и корреляции в парной регрессионной линейной модели?

21. В чем суть статистической значимости коэффициентов регрессии? Как она проверяется?

22. Опишите «грубое» правило анализа статистической значимости коэффициентов регрессии.

23. Объясните суть коэффициента детерминации.

24. В чем суть статистической значимости уравнения регрессии? Как она проверяется?

25. Как связаны коэффициенты детерминации и корреляции в парной регрессионной линейной модели?

Источник

22. Какие задачи в регрессионном анализе решаются с помощью t- критерия Стьюдента

Вычисление коэффициента корреляции портфеля

Применение линейного коэффициента корреляции в трейдинге

Торговая стратегия, построенная на коэффициенте корреляции

Торговля ациями по коэффициенту корреляции

Риск-менеджмент, основанный на коэффициенте корреляции

Коэффициент корреляции валютных пар

Изменение коэффициента корреляции ценовых графиков

Коэффициент корреляции в анализе инвестиционного портфеля

Парный трейдинг и коэффициент корреляции

Коэффициент корреляции в психологических исследованиях

Источники и ссылки

53.1. Корреляционный анализ

53.2. Регрессионный анализ

53.3. Компонентный анализ

Оценка значимости коэффициента корреляции

Пример. Значимость коэффициента корреляции

Пример нахождения коэффициента корреляции

Значимость коэффициента корреляции

Коэффициент корреляции и проверка его значимости

Возможно, вам также будет интересно: