Реферат: Использование корреляционно-регрессионного анализа для обработки экономических статистических данных
Первоначально исследования корреляции проводились в биологии, а позднее распространились и на другие области, в том числе на социально-экономическую. Одновременно с корреляцией начала использоваться и регрессия. Корреляция и регрессия тесно связаны между собой: первая оценивает силу (тесноту) статистической связи, вторая исследует ее форму. И корреляция, и регрессия служат для установления соотношений между явлениями и для определения наличия или отсутствия связи между ними.
Предпосылки корреляционного и регрессионного анализа
Перед рассмотрением предпосылок корреляционного и регрессионного анализа, следует сказать, что общим условием, позволяющим получить более стабильные результаты при построении корреляционных и регрессионных моделей биржевых ставок, является требование однородности исходной информации. Эта информация должна быть обработана на предмет аномальных, т.е. резко выделяющихся из массива данных, наблюдений. Эта процедура выполняется за счет количественной оценки однородности совокупности по какому-либо одномерному или многомерному критерию (в зависимости от исходной информации) и имеет цель тех объектов наблюдения, у которых наилучшее (или наихудшее) условия функционирования по не зависящим или слабо зависящим причинам.
После обработки данных на предмет «аномальности» следует провести проверку, насколько оставшаяся информация удовлетворяет предпосылкам для использования статического аппарата при построении моделей, так как даже незначительные отступления от этих предпосылок часто сводят к нулю получаемый эффект. Следует иметь ввиду, что вероятностное или статистическое решение любой экономической задачи должно основываться на подробном осмыслении исходных математических понятий и предпосылок, корректности и объективности сбора исходной информации, в постоянном сочетании с теснотой связи экономического и математико-статистического анализа.
Для применения корреляционного анализа необходимо, чтобы все рассматриваемые переменные были случайными и имели нормальный закон распределения. Причем выполнение этих условий необходимо только при вероятностной оценке выявленной тесноты связи.
Рассмотрим простейшие случай выявления тесноты связи – двумерную модель корреляционного анализа.
Для характеристики тесноты связи между двумя переменными обычно пользуются парным коэффициентом корреляции , если рассматривать генеральную совокупность, или его оценкой – выборочным парным коэффициентом , если изучается выборочная совокупность. Парный коэффициент корреляции в случае линейной формы связи вычисляют по формуле
,
а его выборочное значение – по формуле
При малом числе наблюдений выборочный коэффициент корреляции удобно вычислять по следующей формуле:
Величина коэффициента корреляции изменяется в интервале .
При между двумя переменными существует функциональная связь, при - прямая функциональная связь. Если , то значение Х и У в выборке некоррелированы; в случае, если система случайных величин имеет двумерное нормальное распределение, то величины Х и У будут и независимыми.
Если коэффициент корреляции находится в интервале , то между величинами Х и У существует обратная корреляционная связь. Это находит подтверждение и при визуальном анализе исходной информации. В этом случае отклонение величины У от среднего значения взяты с обратным знаком.
Если каждая пара значений величин Х и У чаще всего одновременно оказывается выше (ниже) соответствующих средних значений, то между величинами существует прямая корреляционная связь и коэффициент корреляции находится в интервале .
Если же отклонение величины Х от среднего значения одинаково часто вызывают отклонения величины У вниз от среднего значения и при этом отклонения оказываются все время различными, то можно предполагать, что значение коэффициента корреляции стремится к нулю.
Следует отметить, что значение коэффициента корреляции не зависит от единиц измерения и выбора начала отсчета. Это означает, что если переменные Х и У уменьшить (увеличить) в К раз либо на одно и то же число С, то коэффициент корреляции не изменится.
Пакет анализа Microsoft Excel
В состав Microsoft Excel входит набор средств анализа данных (так называемый пакет анализа), предназначенный для решения сложных статистических и инженерных задач. Для проведения анализа данных с помощью этих инструментов следует указать входные данные и выбрать параметры; анализ будет проведен с помощью подходящей статистической или инженерной макрофункции, а результат будет помещен в выходной диапазон. Другие средства позволяют представить результаты анализа в графическом виде.
Графические изображения используются прежде всего для наглядного представления статистических данных, благодаря им существенно облегчается их восприятие и понимание. Существенна их роль и тогда, когда речь идет о контроле полноты и достоверности исходного статистического материала, используемого для обработки и анализа.
Статистические данные приводятся в виде длинных и сложных статистических таблиц (см., например, табл.1), поэтому бывает весьма трудно обнаружить в них имеющиеся неточности и ошибки.
Графическое же представление статистических данных помогает легко и быстро выявить ничем не оправданные пики и впадины, явно не соответствующие изображаемым статистическим данным, аномалии и отклонения. На графике, построенном по данным таблицы 1 (рис.1), наглядно показано распределение курса биржевых ставок в зависимости от времени совершения сделки и цены сделки в рублях.
Графическое представление статистических данных является не только средством иллюстрации статистических данных и контроля их правильности и достоверности. Благодаря своим свойствам оно является важным средством толкования и анализа статистических данных, а в некоторых случаях - единственным и незаменимым способом их обобщения и познания. В частности, оно незаменимо при одновременном изучении нескольких взаимосвязанных экономических явлений, так как позволяет с первого взгляда установить существующие между ними соотношения и связи, различие и подобие, а также выявить особенности их изменений во времени.
Однако, чтобы эффективнее использовать графические изображения статистических данных, необходимо овладеть методикой и техникой их построения. К этому следует добавить, что построенное графическое изображение статистических данных биржевых ставок в наибольшей степени соответствует характеру и содержанию изображаемых данных и поставленной задаче их анализа.
Время |
Цена сделки |
11:16:45 | 99,45 |
11:21:53 | 99,4 |
11:23:09 | 99,31 |
11:23:37 | 99,31 |
11:24:49 | 99 |
11:24:57 | 99 |
11:48:40 | 98,61 |
11:49:45 | 98,99 |
11:53:51 | 98,66 |
11:55:05 | 98,65 |
11:55:24 | 98,7 |
11:58:18 | 98,8 |
11:58:18 | 98,8 |
11:58:24 | 98,65 |
11:58:35 | 98,8 |
Таблица 1. Выборка биржевых ставок относительно времени совершения сделки и цены сделки в рублях за один день работы биржи
Рис.1 Распределение курса биржевых ставок в зависимости от времени совершения сделки и цены сделки в рублях.
Корреляция - один из инструментов пакета анализа Microsoft Excel. Используется для количественной оценки взаимосвязи двух наборов данных, представленных в безразмерном виде. Коэффициент корреляции выборки представляет собой ковариацию двух наборов данных, деленную на произведение их стандартных отклонений.
Корреляционный анализ дает возможность установить ассоциированы ли наборы данных по величине, то есть: большие значения из одного набора данных связаны с большими значениями другого набора (положительная корреляция); или, наоборот, малые значения одного набора связаны с большими значениями другого (отрицательная корреляция); или данные двух диапазонов никак не связаны (корреляция близка к нулю).
Регрессия также является инструментом пакета анализа данных Microsoft Excel.. Линейный регрессионный анализ заключается в подборе графика для набора наблюдений с помощью метода наименьших квадратов. Регрессия используется для анализа воздействия на отдельную зависимую переменную значений одной или более независимых переменных. Например, на курс биржевых ставок влияют несколько факторов, включая такие, как время совершения сделки и ее цена. Регрессия пропорционально распределяет меру качества по этим двум факторам на основе данных функционирования курса биржевых ставок. Результаты регрессии могут быть использованы для предсказания качеств новых, не совершенных еще биржевых сделок. Например, используя результаты таблицы 1, можно с помощью регрессии предсказать цены следующих сделок.
Наблюдение | Предсказанная цена сделки в рублях | Остатки |
1 | 72,22015 | 27,22985 |
2 | 72,76796 | 26,63204 |
3 | 72,90313 | 26,40687 |
4 | 72,95293 | 26,35707 |
5 | 73,08099 | 25,91901 |
6 | 73,09522 | 25,90478 |
7 | 75,62617 | 22,98383 |
8 | 75,74178 | 23,24822 |
9 | 76,17932 | 22,48068 |
10 | 76,31094 | 22,33906 |
11 | 76,34473 | 22,35527 |
12 | 76,65421 | 22,14579 |
13 | 76,65421 | 22,14579 |
14 | 76,66488 | 21,98512 |
15 | 76,68444 | 22,11556 |
Табл.2. Предсказанная цена сделки в рублях
Заключение
Наиболее сложным этапом, завершающим регрессионный анализ, является интерпретация полученных результатов, т.е. перевод их с языка статистики и математики на язык экономики.
Интерпретация моделей регрессии осуществляется методами той отрасли знаний, к которой относятся исследуемые явления. Всякая интерпретация начинается со статистической оценки уравнения регрессии в целом и оценки значимости входящих в модель факторных признаков, т.е. с изучения, как они влияют на величину результативного признака. Чем больше величина коэффициента регрессии, тем значительнее влияние данного признака на моделируемую обработку биржевых ставок. Особое значение при этом имеет знак перед коэффициентом регрессии. Знаки коэффициентов регрессии говорят о характере влияния на результативный признак статистической обработки биржевых ставок. Если факторный признак имеет плюс, то с увеличением данного фактора результативный признак возрастает; если факторный признак со знаком минус, то с его увеличением результативный признак уменьшается. Интерпретация этих знаков полностью определяется социально-экономическим содержанием моделируемого признака. Если его величина изменяется в сторону увеличения, то плюсовые знаки факторных признаков имеют положительное влияние. При изменении результативного признака в сторону снижения положительные значения имеют минусовые знаки факторных признаков. Если экономическая теория подсказывает, что факторный признак должен иметь положительное значение, а он со знаком минус, то необходимо проверить расчеты параметров уравнения регрессии.
Корреляционный и регрессионный анализ позволяет определить зависимость между факторами, а так же проследить влияние задействованных факторов. Эти показатели имеют широкое применение в обработке статистических данных для достижения наилучших показателей биржевых ставок.
Литература
1. В.А. Колемаев, О.В. Староверов, В.Б. Турундаевский «Теория
вероятностей и математическая сатистика»/ М., 1991.
2. «Теория Статистики» под редакцией Р.А. Шмойловой/ «ФиС», 1998.
3. «Многомерный статистический анализ на ЭBM с использованием
пакета Microsoft Excel»/ М., 1997.
4. А.А. Френкель, Е.В. Адамова «Корреляционно регрессионный
анализ в экономических приложениях»/ М., 1987.
5. И.Д.Одинцов «Теория статистики»/ М., 1998.
6. А.Н. Кленин, К.К. Шевченко «Математическая статистика для
экономистов-статистиков»/ М., 1990.