RSS    

   Математическая статистика - (лекции)

p>Распределения выборочных значений параметров нормального распределения Пусть у нас имеется некоторая непрерывная случайная величина X , распределенная нормально с математическим ожиданием m и среднеквадратичным отклонением s. Если мы имеем n наблюдений над такой величиной (имеем выборку объемом n из генеральной совокупности) , то выборочные значения Mx и Sx являются также случайнымивеличинами и нам крайне важно знать их законы распределения. Это необходимо как для оценки доверия к этим показателям, так и для проверки принадлежности исходного распределения к нормальному. Существует ряд теоретически обоснованных выводов по этой проблеме:

· величина имеет нормированное нормальное распределение, что позволяет оценивать Mx при заранее известной дисперсии; · величина имеет так называемое распределение Стьюдента, для которого также имеется выражение плотности вероятности и построены таблицы;

· величина имеет распределение "хи–квадрат", также с аналитической функцией плотности и рассчитанными по ней таблицами.

Отметим, что распределения Стьюдента и "хи–квадрат" имеют свой внутренний параметр, который принято называть числом степеней свободы. Этот параметр полностью определяется объемом выборки (численностью наблюдений) и выбирается обычно равным m =(n – 1).

    Взаимосвязи случайных величин
    Парная корреляция

Прямое толкование термина "корреляция" —стохастическая, вероятная, возможная связь между двумя (парная) или несколькими (множественная) случайными величинами.

Выше говорилось о том, что если для двух случайных величин X и Y имеет место равенство P(X ЗY) = P(X)·P(Y), то эти величины считаются независимыми. Ну, а если это не так! ? Ведь всегда важно знать: насколько зависит одна СВ от другой? Дело не только в присущем людям стремлении анализировать что-либо обязательно в числовом измерении. Уже понятно, что прикладная статистика требует непрерывных вычислений, что использование компьютера вынуждает нас работать с числами, а не с понятиями.

Для числовой оценки взаимосвязи между двумя СВ: Y – с известными M(Y) и sy и X – с M(X) и sx принято использовать так называемый коэффициент корреляции . {3–1}

Обратим внимание на способ вычисления коэффициента корреляции. В числителе находится математическое ожидание произведения отклонений величинX и Y от собственных математических ожиданий. Этот коэффициент может принимать значения от –1 до +1 — в зависимости от тесноты и характера связи между данными СВ. Если коэффициент корреляции равен нулю, то X и Y называют некоррелированными. Считать их независимыми обычно нет оснований — оказывается, что существуют такие, как правило —нелинейные связи величин, при которых коэффициент корреляции равен нулю, хотя величины зависят друг от друга.

Обратное всегда верно — если величины независимы, то R(XY) = 0. Но, если модуль R(XY) равен 1, то есть все основания предполагать наличие линейной связи между Yи X. Именно поэтому часто говорят о линейной корреляции при использовании такого способа оценки связи между СВ.

Если у нас имеется ряд наблюдений за двумя случайными величинами, то можно оценитьвыборочное значение коэффициента корреляции –

    {3–2}

Оценку корреляционной связи двух СВ можно производить и без учета их дисперсий.

    Числитель коэффициента корреляции
    . {3–3}

называют ковариациейслучайных величин, которая также служит мерой связи, но без непосредственного учета дисперсий.

Различие между такими двумя показателями парной связи СВ достаточно существенное.

·Коэффициент корреляции определяет степень, тесноту линейной связи между величинами и является безразмерной величиной.

·Ковариация двух СВ определяет эту связь безотносительно к ее виду и является величиной размерной.

    Множественная корреляция

В ряде случаев статистического анализа приходится решать вопрос о связях нескольких (более 2) СВ или вопрос о множественной корреляции. Пусть X, Y и Z – случайные величины, имеющие математические ожидания M(X), M(Y), M(Z) и среднеквадратичные отклонения sx , sy, sz соответственно. Тогда можно найти парные коэффициенты корреляции Rxy, Rxz, Ryz по приведенной выше формуле. Но этого явно недостаточно –ведь мы на каждом из трех этапов попросту забывали о наличии третьей СВ! Поэтому в случаях множественного корреляционного анализа иногда требуется отыскивать т. н. частные коэффициенты корреляции— например, оценка виляния Z на связь между X и Y производится с помощью коэффициента

И, наконец, можно поставить вопрос —а какова связь между данной СВ и совокупностью остальных? Ответ на такие вопросы дают коэффициенты множественной корреляцииRX. YZ, RY. XZ, RZ. XY, формулы для вычисления которых построены по тем же принципам — учету связи одной из величин со всеми остальными в совокупности.

    Проверка статистических гипотез
    Понятие статистической гипотезы

Как уже отмечалось, основным занятием статистика–прикладника является чаще всего решение вопроса о том, что и как можно извлечь из наблюдений над случайной величиной (выборочных её значений) для последующего использования в практике.

Скажем, для некоторой экономической задачи требуется знание длины очереди автомашин, ожидающих технического обслуживания, а эта величина хоть и выражается целым числом, но является случайной.

Очень редко задачи такого рода имеют “теоретическую платформу” –хотя бы в части закона распределения СВ, не говоря уже о внутренних параметрах этого распределения или его моментах. Чаще всего в нашем распоряжении нет практически ничего, кроме некоторого количества наблюдений за значениями СВ и … необходимости решать задачу.

Выражаясь чисто научным языком, современный подход к статистическим задачам в последние два десятилетия заключается в использовании непараметрической статистики, а не традиционных, классических методов, которые применимы только при заранее известных законах распределений.

Но и в первом, и во втором случаях одной из важнейших задач профессионального статистика является проверка выдвинутых им же предположений или гипотез. Чем же отличаются статистические гипотезы от обычных, житейских предположений? Прежде всего, тем, что статистических гипотезвсегда две и они взаимоисключающие. Одна из них (обычно та, которую предполагают отклонить) носит название нулевой гипотезы Њ0, вторая – альтернативная гипотеза Њ1 всегда отрицает нулевую, противостоит ей. Вся “хитрость” заключается именно в нулевой гипотезе –её надо построить, сформулировать так, чтобы иметь возможность найти интересующие нас вероятности в условиях истинности этой гипотезы. Пусть мы исследуем игральную кость –“проверяем” ее симметричность. Ясно, что в качестве нулевой гипотезой надо считать предположение о полной симметрии кости.

Ведь если Њ0 верна, то вероятности выпадения всех шести цифр на гранях будут одинаковы – по 1/6. А вот выдвижение в качестве нулевой гипотезы предположения об асимметрии кости ничего бы не дало–в этом случае мы ничего не можем сказать о значениях вероятностях выпадения цифр.

С процедурами проверки статистических гипотез неразрывно связано еще одно, непривычное для обычных расчетных работ, понятиеуровня значимости результатов наблюдений. В самом начале курса уже упоминался метод выделения редких событий – вероятность которых не превышает 5 %. Конечно, это значение является чисто условным – в некоторых случаях редкими считают события с вероятностью не более 1 %. Теория вероятностей позволяет обосновать деление случайных событий на три класса–обычные, редкие и исключительные. При этом наблюдение события исключительного дает основания считать, что причины его наступления являются уже неслучайными– имеет место влияние некоторого фактора. Будем далее использовать 5 % уровень значимости, как это принято почти во всех прикладных направлениях статистики, в том числе и в экономике. Итак, если наблюдения относятся к событиям редким (с вероятностью до 5 %), то такие наблюдения и результаты их обработки будем называтьстатистически значимыми. Как же так, спросите вы, – вероятность мала, а предлагается считаться с ней. Все очень просто –если мы вычислили вероятность некоторого результата наблюдения в условиях основной гипотезы и она (априорная вероятность) оказалась очень малой, то чем она меньше, тем больше у нас оснований отвергнутьЊ0. С другой стороны, если мы увидели очень редкое событие –выпадение 10 гербов при 15 подбрасываниях монетки, то значимость такого наблюдения чрезвычайно высока– гипотезу о симметрии вполне можно отбросить.

    Критерии статистических гипотез

Если мы пытаемся решить некоторую статистическую задачу, то в большинстве случаев нам придется заниматься не столько математическими выкладками и числовыми расчетами, сколько принимать решение– какую из выдвинутых нами же статистических гипотез принять (или – какую из них отвергнуть). Так вот, решающее правило, согласно которому мы будем действовать, принято называтьстатистическим критерием. К сожалению, не существует единого, универсального критерия значимости –их приходится разрабатывать в теории и использовать на практике применительно к особенностям конкретных задач.

Вместе с тем, любому критерию значимости присуще одно и то же свойство –во всех случаях мы не получим категоричного указания на “истинную” гипотезу, прямого ответа на вопрос– какую из гипотез нам принять.

Еще более непривычным для человека с навыками искать и находить ответы в расчетных задачах, будет сама форма ответа на вопрос о сравнении гипотезЊ0 и Њ1 –например, в таком виде "если отбросить нулевую гипотезу, то вероятность ошибки такого действия не превосходит 3 % ".

Дальше уже наше дело, принять или отвергнуть ту или иную гипотезу –теория большего дать не в состоянии. Надо понять различие между выделенным утверждением и вроде бы аналогичным– "вероятность верности гипотезы Њ1 составляет 97%" . Все между тем очень просто – вычислить возможно только вероятность ошибочности Њ0 и не более того! Пусть мы интересуемся симметрией обычной монетки и собираемся проводить эксперименты– подбрасывать её и фиксировать результаты. Выдвинем гипотезу – монета симметрична. Если мы собираемся произвести Nподбрасываний и по их итогам проверить гипотезу, должны просчитать вероятности выпадения0, 1, 2 и т. д. до N “гербов”. Конечно, можно выполнить расчеты и после окончания опыта – всё равно это будут априорные вероятности по своей сути. Проиллюстрируем это на рассмотренной ранее ситуации 8 экспериментов с монеткой. Предположим, что частости появления возможных исходов уже вычислены–в таких случаях говорят о наличии выборочного распределения вероятностей. Для нашего эксперимента такое распределение имеет вид:

    Таблица 4–1
    Число наблюдений гербов k
    0
    1
    2
    3
    4
    5
    6
    7
    8
    Вероятность P(X =k) в 1 / 256
    1
    8
    28
    56
    70
    56
    28
    8
    1
    Вероятность P(X Јk) в 1 / 256
    1
    9
    37
    93
    163
    219
    247
    255
    256

Страницы: 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12


Новости


Быстрый поиск

Группа вКонтакте: новости

Пока нет

Новости в Twitter и Facebook

                   

Новости

© 2010.