Теория математической статистики - (реферат)
Теория математической статистики - (реферат)
Дата добавления: март 2006г.
Теория математической статистики
Введение
Истоками математической статистики (М. С. ) является большой объем статистических данных и потребность после их специальной обработки сделать прогноз развития исходной ситуации.
Первый раздел М. С. – описательная статистика –предназначена для сбора, представления в удобном виде и описания исходных данных. Описательная статистика обрабатывает два вида данных: количественные и качественные.
К количественным относятся рост, вес и т. д. к качественным – тип темперамента, пол. Описательная статистика позволяет описать, обобщить, свести к желаемому виду свойства массивов данных.
Второй раздел М. С. – теория статистического вывода –это формализованная система методов решения задач, сводящихся к попытке вывести свойства большого массива данных путем обследования его малой части. Статистический вывод строится на описательной статистике и от частных свойств выборки данных мы переходим к частным свойствам совокупности. Третий раздел М. С. - планирование и анализ эксперта. Разработана для обнаружения и анализа причинных связей между переменными.
Измерение, шкалы и статистика
Измерение –это приписывание чисел объектам в соответствии с определенными правилами. Числа–это удобные в обработке объекты, в которые мы преобразуем определенные свойства нашего восприятия.
Шкала наименований или номинальная шкала. Номинальное измерение сводится к разбиению совокупности объектов на классы в каждом из которых сосредоточены объекты, идентичные по какому-нибудь признаку или свойству, например, по национальности, по полу, по типу темперамента. При данных измерениях каждому из классов присваивается число, но оно используется исключительно как название этого класса и никаких операций над этими числами производить не предполагается.
Порядковое измерение возможно только тогда, когда в квалифицируемых объектах можно различить разную степень признака и свойства, на основе которого производится квалификация (например, конкурс красоты “Умники и умницы”). В данном случае числа используют только одно свое свойство– способность упорядочиваться.
Интервальная шкала принимается тогда, когда можно определить не только количество, свойства или признака в объекте, но также зафиксировать равные различия между объектами, то есть можно ввести единицу измерения для свойства или признака (например, температура, возраст).
Числа при интервальных измерениях имеют свойство упорядоченности и однозначности. Равные разности чисел соответствуют равным разностям значений измеряемого свойства или признака объекта.
Шкала отношений отличается от интервальной только тем, что точка отсчета не произвольна, а указывает на полное отсутствие измеряемого свойства или признака объекта.
Переменные и их измерение
Переменные бывают дискретные и непрерывные. При измерениях, особенно непрерывных свойств или признаков, можно достигнуть только косвенного значения переменной, то есть приближенного к точному и степень этого приближения будет определяться чувствительностью измерения.
Чувствительность определяется минимальной единицей цифровой шкалы, имеющейся в нашем распоряжении.
Пределы для точного значения устанавливаются путем прибавления и вычитания половины чувствительности измерительного процесса.
Множество чисел записывается с использованием произвольной величины с индексом, который указывает порядковый номер величины в цепи данных (xi).
Обозначение S и его свойства
1.
2.
3.
4.
5.
Табулирование и представление данных
Перед анализом и интерпретацией данных их обобщают.
Обобщение – запись данных в виде таблицы. Самый элементарный этап. Ранжирование –упорядочение переменных от максимального до минимального или наоборот. Такое упорядочивание называетсянесгруппированным рангом.
Распределение частот. Проранжированный список сворачивают, указывая все полученные измерения подряд, однократно, а в соседней графе указывают частоту, с которой встречается данная оценка
Распределение сгруппированных частот применяется при большом количестве оценок (100 и более). Оценки группируются по признакам и каждая такая группа называетсяразрядом оценок. В случае полного поглощения этими группами всех данных, мы говорим о распределении сгруппированных частот.
Построение распределения сгруппированных частот
Оценки
Интервал
Подсчет
Частота
90 95 51 112
110-114
1
1
66 78 109 62
105-109
111
3
106 70 89 91
100-104
11
2
84 47 58 93
95-99
1111
4
105 95 59 84
90-94
111
3
83 100 72
85-89
1
1
104 69 74
80-89
111111
6
82 44 75
75-79
1111
4
97 80 81
70-74
1111
4
97 75 71
65-69
111
3
59 75 68
60-64
1
1
55-59
111
3
50-54
1
1
45-49
1
1
44-45
1
1
Предварительно образовывать не менее 12 и более 15. Меньше 12 искажает результат, более 15 затрудняет работу с таблицей.
1) Определяем размах – разницу между максимальной и минимальной оценкой (112-44=69) 2) Выбор интервала разряда: 69: 12=5, 75
Определяем с уменьшением до 5: 69: 15=4, 6
3) Определение границ раздела. Необходимо образовать достаточное количество разрядов, чтобы не потерять самую маленькую и самую большую оценки, поэтому табулирование начнем с величины кратной интервалу. Ближайшее кратное 5 ниже нижней оценки–это 40. И делим на разряды до тех пор, пока не будет охвачена самая высокая оценка. Если необходимо сравнить 2 и более выборки, их помещают в такую же таблицу.
Квантили
Квантили – это способ описать группу измерений. Квантиль – это общее понятие. Квантиль –точка на числовой шкале, которая делит совокупность наблюдений на группы с соответствующими пропорциями в каждой из них.
Квартиль – делит наблюдения на 4 группы (Q)
Дециль – делит наблюдения на 10 групп (D)
Квинтель – делит наблюдения на 5 групп (К)
Процентиль – делит наблюдения на 100 групп (Р)
Определение процентелей
Процентель представляет собой точку, ниже которой лежит Р % - в оценок.
Вычисление процентеля
Оценка
38
37
36
35
34
33
32
31
30
28
29
27
26
25
24
Частота
1
1
3
5
9
8
17
23
24
18
10
3
1
0
2
Накопленная частота
125
124
123
120
115
106
98
81
58
16
34
6
3
2
Для определения 25 процентиля P25 (границы под которой расположены 25% всех выставленных оценок) Общая формула:
где:
n – общее число оценок
L –фактическая нижняя граница того раздела оценок, который включает себя нужную нам оценку
cumf – накопленная в данной нижней границе частота
f – количество оценок в данном разделе
p – определяемый процентиль (в данном случае 0, 25)
p*n = 0, 25*125=31, 25