Как определить какое распределение имеет выборка



Проверка распределения на нормальность в EXCEL

    Группы статей

Построение графика проверки распределения на нормальность ( Normal Probability Plot ) является графическим методом определения соответствия значений выборки нормальным значениям. Для этого используется субъективная визуальная оценка данных, которая описана в статье. Объективным же подходом являются наблюдения за распределением при помощи объективной визуальной оценки результатов анализа гипотетического расхождения с наблюдаемыми данными и анализ степени согласия представляемых величин с явлениями или наблюдение за ними по методу «хорошей взаимности».

В качестве объективной модели для анализа гипотетического распределения можно рассматривать анализ степени его соответствия с наблюдаемыми данными ( goodness — of fit test ). Он рассмотрен в статье.

Из — за наличия неустранимой статистической ошибки выборки, свойственной случайной величине невозможно однозначно ответить на вопрос.

«Взята ли данная выборка из нормального распределения или нет»

. Поэтому, рассмотренный графический метод, скорее, дает ответ на вопрос

«Разумно ли предположение, что оцениваемая выборка взята из нормального распределения »

На графике плотности распределения в шкалах по коэффициенту естественности ( Normal Probability Plot) мы представим как можно оценить нормальность распределения.

  1. (значения выборки x j будут отложены по горизонтальной оси Х);
  2. Преобразуем значения массива, полученные на предыдущем шаге, с помощью НОРМ.СТ.ОБР() и отложим их по вертикальной оси Y.
  3. Каждому значению x j выборки поставьте в соответствие значения (j-0,5)/n, где n – количество значений в выборке , j – значения от 1 до n. Этот массив будет содержать значения от 0,5/n до (n-0,5)/n. Таким образом, диапазон от 0 до 1 будет разбит на равномерные отрезки. Этот диапазон соответствует Z<=z j ;>

Если значения выборки, отложенные по оси Х (если масштабы осей совпадают ), мы получим на графике прямую линию примерно через 0 и под углом 45 градусов к оси х.

Расчеты и графики приведены в файле примера на листе Нормальное .

В файле примера значения выборки сгенерированы в виде формулы =НОРМ. СТ ОБР ( ) * (СЛЧИC(0, 1); -), где Ном и ОБр — это переменные величины на листах или строку F9). Когда перерасчет листа происходит при помощи команды «F8» – все данные из выборок помечаются цветом; если число взято не обязательно равно 0: результат будет получен автоматическими вычислениями. [ / stextbox ] статью. Если значение выборки было составлено для нормального распределения данных то угол наклона кривой даст оценку “», а координатная линия оси ” оценка «А».

В ( ) и в СРЗНАЧ оценки несколько отличаются. У них разные значения параметров для функции CRNMHDOWTCH(В).

Из этих квадратов были получены наименьшие коэффициенты, описанные в статье про регрессионную диагностику. Примечание : В отечественной литературе он называется Метод номограмм (от слова «номос»).

Названия номограмма и вероятностной бумаги используются в математике, статистике. Номограммы используют для описания различных видов информации: от данных из других распределений (не нормальных ). В математической статистики это не только цифры на диаграммах с различными масштабами шкал, которые мы проставляем под разными углами друг к другу; она может использоваться при построении моделей обыкновенных систем или полевых выборок ( они могут быть полученными другими способами)[ / stextbox [] Такую « вероятностный листок» мы практически построили самостоятельно когда нелинейно изменили масштаб шкалы ординат =НОРМ СТ ОБР( ( j — 0, 5 — n )) Интересно посмотреть, как будут выглядеть данные, полученные из выборки из другого распределения ( не нормального!

В файле примера на листке Равномерное приведен график, построенный из непрерывного равномерно распределения. Комментировать его можно как угодно — это не аргумент для рассмотрения нормальности выборки; она должна быть отвергнутой!

При наличии соответствующих условий визуальная проверка выборки может быть сделана с помощью других распределений.