Ознакомительная версия.
Среднее абсолютное отклонение (mean absolute deviation), или просто среднее отклонение, является средним арифметическим абсолютных значений разности значения каждой точки и среднего арифметического значений всех точек. Другими словами (что и следует из названия), это среднее расстояние, на которое значение точки данных удалено от среднего. В математических терминах:
где М = среднее абсолютное отклонение;
N = общее число точек данных;
X. = значение, соответствующее точке i;
А = среднее арифметическое значений точек данных;
ABS() = функция абсолютного значения.
Уравнение (3.06) дает нам совокупное среднее абсолютное отклонение. Вам следует знать, что можно рассчитать среднее абсолютное отклонение по выборке. Для расчета среднего абсолютного отклонения выборки замените 1 / N в уравнении (3.06) на 1 / (N - 1). Используйте эту версию, когда расчеты ведутся не по всей совокупности данных, а по некоторой выборке.
Самыми распространенными величинами для измерения разброса являются дисперсия и стандартное отклонение. Как и в случае со средним абсолютным отклонением, их можно рассчитать для всей совокупности и для выборки. Далее показана версия для всей совокупности данных, которую можно легко переделать в выборочную версию, заменив l/NHal/(N-l). Дисперсия (variance) чем-то напоминает среднее абсолютное отклонение, но при расчете дисперсии каждая разность значения точки данных и среднего значения возводится в квадрат. В результате, нам не надо брать абсолютное значение каждой разности, так как мы автоматически получаем положительный результат, независимо от того, была эта разность отрицательной или положительной. Кроме того, так как в квадрат возводится каждая из этих величин, крайние выпадающие значения оказывают большее влияние на дисперсию, а не на среднее абсолютное отклонение. В математических терминах:
где V = дисперсия;
N = общее число точек данных;
X. = значение, соответствующее точке i;
А = среднее арифметическое значений точек данных.
Стандартное отклонение (standard deviation) тесно связано с дисперсией (и, следовательно, со средним абсолютным отклонением). Стандартное отклонение является квадратным корнем дисперсии.
Третий момент распределения называется асимметрией (skewness), и он описывает асимметричность распределения относительно среднего значения (рисунок 3-2). В то время как первые два момента распределения имеют размерные величины (то есть те же единицы измерения, что и измеряемые параметры), асимметрия определяется таким способом, что получается безразмерной. Это просто число, которое описывает форму распределения.
Положительное значение асимметрии означает, что хвосты больше с положительной стороны распределения, и наоборот. Совершенно симметричное распределение имеет нулевую асимметрию.
Рисунок 3-2 Асимметрия
Рисунок 3-3 Асимметричное распределение
В симметричном распределении среднее, медиана и мода имеют одинаковое значение. Однако когда распределение имеет ненулевое значение асимметрии, оно может принять вид, показанный на рисунке 3-3. Для асимметричного распределения (любого распределения с ненулевой асимметрией) верно равенство:
(3.08) Среднее - Мода = 3 * (Среднее - Медиана)
Есть много способов для расчета асимметрии, и они часто дают различные ответы. Ниже мы рассмотрим несколько вариантов:
(3.09) S == (Среднее - Мода) / Стандартное отклонение
(3.10) S = (3 * (Среднее - Медиана)) / Стандартное отклонение
Уравнения (3.09) и (3.10) дают нам первый и второй коэффициенты асимметрии Пирсона. Асимметрия также часто определяется следующим образом:
где S = асимметрия;
N = общее число точек данных;
Х = значение, соответствующее точке i;
А = среднее арифметическое значений точек данных;
D = стандартное отклонение значений точек данных.
И наконец, четвертый момент распределения, эксцесс (kurtosis) (см. рисунок 3-4), измеряет, насколько у распределения плоская или острая форма (по сравнению с нормальным распределением). Как и асимметрия, это безразмерная величина. Кривая, менее остроконечная, чем нормальная, имеет эксцесс отрицательный, а кривая, более остроконечная, чем нормальная, имеет эксцесс положительный. Когда пик кривой такой же, как и у кривой нормального распределения, эксцесс равен нулю, и мы будем говорить, что это распределение с нормальным эксцессом.
Как и предыдущие моменты, эксцесс имеет несколько способов расчета. Наиболее распространенными являются:
где К = эксцесс;
Q == семи-интерквартильная широта;
Р = широта перцентиля 10-90.
(3.13) К = (1 / N (∑ (((X - Аi) / D)^ 4))) - 3,
где К = эксцесс;
N = общее число точек данных;
Х = значение, соответствующее точке i;
А = среднее арифметическое значений точек данных;
D = стандартное отклонение значений точек данных.
Рисунок 3-4 Эксцесс
Наконец, необходимо отметить, что «теория», связанная с моментами распределения, намного серьезнее, чем то, что представлено здесь. Для более глубокого понимания вам следует просмотреть книги по статистике, упомянутые в списке рекомендованной литературы. Для наших задач изложенного выше вполне достаточно.
До настоящего момента рассматривалось распределение данных в общем виде. Теперь мы изучим нормальное распределение.
Нормальное распределение
Часто нормальное распределение называют распределением Гаусса, или Муавра, в честь тех, кто, как считается, открыл его — Карл Фридрих Гаусс (1777-1855) и, веком ранее, что не так достоверно, Авраам де Муавр (1667-1754). Нормальное распределение считается наиболее ценным распределением, благодаря тому, что точно моделирует многие явления. Давайте рассмотрим приспособление, более известное как доска Галтона (рисунок 3-5). Это вертикально установленная доска в форме равнобедренного треугольника. В доске расположены колышки, один в верхнем ряду, два во втором, и так далее. Каждый последующий ряд имеет на один колышек больше. Колышки в сечении треугольные, так что, когда падает шарик, у него есть вероятность 50/50 пойти вправо или влево. В основании доски находится серия желобов для подсчета попаданий каждого броска.
Рисунок 3-5 Доска Галтона
Шарики, падающие через доску Галтона и достигающие желобов, начинают формировать нормальное распределение. Чем «глубже» доска (то есть чем больше рядов она имеет) и чем больше шариков бросается, тем ближе конечный результат будет напоминать нормальное распределение.
Нормальное распределение интересно еще и потому, что оно является предельной формой многих других типов распределений. Например, если Х распределено биномиально, а N стремится к бесконечности, то Х стремится к нормальному распределению. Более того, нормальное распределение также является предельной формой многих других ценных распределений вероятности, таких как Пуассона, Стьюдента (или t-распределения). Другими словами, когда количество данных (N), используемое в этих распределениях, увеличивается, они все более напоминают нормальное распределение.
Центральная предельная теорема
Одно из наиболее важных применений нормального распределения относится к распределению средних значений. Средние значения выборок заданного размера, взятые таким образом, что каждый элемент выборки отобран независимо от других, дадут распределение, которое близко к нормальному Это чрезвычайно важный факт, так как он означает, что вы можете получить параметры действительно случайного процесса из средних значений, рассчитанных на основе выборочных данных.
Рисунок 3-6 Экспоненциальное распределение и нормальное распределение
Таким образом, мы можем сформулировать, что если N случайных выборок извлекаются из совокупности всех данных, тогда суммы (или средние значения) выборок будут приблизительно нормально распределяться независимо от распределения совокупности, из которой взяты эти выборки. Близость к нормальному распределению увеличивается, когда N (число выборок) возрастает. В качестве примера рассмотрим распределение чисел от 1 до 100. Это равномерное распределение, где все элементы (в данном случае числа) встречаются только раз. Например, число 82 встречается один раз, так же как и 19, и так далее. Возьмем выборку из пяти элементов и среднее значение этих пяти элементов (мы можем также взять их сумму). Теперь поместим полученные пять элементов обратно, возьмем другую выборку и рассчитаем среднее. Если мы будем продолжать этот процесс дальше, то увидим, что полученные средние нормально распределяются, даже если совокупность, из которой они взяты, распределена равномерно.
Ознакомительная версия.