База ГОСТовallgosts.ru » 03. УСЛУГИ. ОРГАНИЗАЦИЯ ФИРМ, УПРАВЛЕНИЕ И КАЧЕСТВО. АДМИНИСТРАЦИЯ. ТРАНСПОРТ. СОЦИОЛОГИЯ. » 03.120. Качество

ГОСТ Р ИСО 16269-4-2017 Статистические методы. Статистическое представление данных. Часть 4. Выявление и обработка выбросов

Обозначение: ГОСТ Р ИСО 16269-4-2017
Наименование: Статистические методы. Статистическое представление данных. Часть 4. Выявление и обработка выбросов
Статус: Принят

Дата введения: 12/01/2018
Дата отмены: -
Заменен на: -
Код ОКС: 03.120.30
Скачать PDF: ГОСТ Р ИСО 16269-4-2017 Статистические методы. Статистическое представление данных. Часть 4. Выявление и обработка выбросов.pdf
Скачать Word:ГОСТ Р ИСО 16269-4-2017 Статистические методы. Статистическое представление данных. Часть 4. Выявление и обработка выбросов.doc


Текст ГОСТ Р ИСО 16269-4-2017 Статистические методы. Статистическое представление данных. Часть 4. Выявление и обработка выбросов



ФЕДЕРАЛЬНОЕ АГЕНТСТВО ПО ТЕХНИЧЕСКОМУ РЕГУЛИРОВАНИЮ И МЕТРОЛОГИИ

НАЦИОНАЛЬНЫЙ

СТАНДАРТ

РОССИЙСКОЙ

ФЕДЕРАЦИИ

ГОСТР

ИСО 16269-4-

2017

Статистические методы

СТАТИСТИЧЕСКОЕ ПРЕДСТАВЛЕНИЕ ДАННЫХ

Часть 4

Выявление и обработка выбросов

(ISO 16269-4:2010, Statistical interpretation of data — Part 4: Detection

and treatment of outliers, IDT)

Издание официальное

Москва

Стандартмиформ

2017

ГОСТ Р ИСО 16269*4—2017

Предисловие

1    ПОДГОТОВЛЕН Открытым акционерным обществом «Научно-исследовательский центр контроля и диагностики технических систем» (АО «НИЦ КД») на основе собственного перевода на русский язык англоязычной версии международного стандарта, указанного в пункте 4

2    ВНЕСЕН Техническим комитетом по стандартизации ТК 125 «Применение статистических методов»

3    УТВЕРЖДЕН И ВВЕДЕН В ДЕЙСТВИЕ Приказом Федерального агентства по техническому регулированию и метрологии от 10 августа 2017 г. N9 865-ст

4    Настоящий стандарт идентичен международному стандарту ИСО 16269-4:2010 «Статистическое представление данных. Часть 4. Выявление и обработка выбросов» (ISO 16269-4:2010 «Statistical interpretation of data — Part 4: Detection and treatment of outliers», IDT).

Международный стандарт разработан Техническим комитетом ISO/ГС 69.

Наименование настоящего стандарта изменено относительно наименования указанного международного стандарта для приведения в соответствие с ГОСТ Р 1.5—2012 (пункт 3.5).

При применении настоящего стандарта рекомендуется использовать вместо ссылочных международных стандартов соответствующие им национальные стандарты Российской Федерации, сведения о которых приведены в дополнительном приложении ДА

5    ВВЕДЕН ВПЕРВЫЕ

Правила применения настоящего стандарта установлены в статье 26 Федерального закона от 29 июня 2015 г. Afe 162-ФЗ «О стандартизации в Российской Федерации». Информация об изменениях к настоящему стандарту публикуется е ежегодном (по состоянию на 1 января текущего года) информационном указателе «Национальные стандарты», а официальный текст изменений и поправок — е ежемесячном информационном указателе «Национальные стандарты». В случае пересмотра (замены) или отмены настоящего стандарта соответствующее уведомление будет опубликовано в ближайшем выпуске ежемесячного информационного указателя «Национальные стандарты». Соответствующая информация, уведомление и тексты размещаются также в информационной системе общего пользования — на официальном сайте Федерального агентства по техническому регулированию и метрологии в сети Интернет ()

© Стамдартинформ. 2017

Настоящий стандарт не может быть полностью или частично воспроизведен, тиражирован и распространен в качестве официального издания без разрешения Федерального агентства по техническому регулированию и метрологии

II

ГОСТ Р ИСО 16269*4—2017

Содержание

1    Область применения................................................................ 1

2    Термины и определения............................................................. 1

3    Обозначения...................................................................... 7

4    Выбросы в одномерных данных....................................................... 8

5    Коррекция влияния выбросов в одномерной выборке.....................................20

6    Выбросы многомерных и регрессионных наборов данных.................................22

Приложение А (обязательное) Алгоритм GESD-процедуры обнаружения выбросов..............31

Приложение 8 (обязательное) Критические значения статистик для критерия наличия выбросов

в выборке из экспоненциального распределения..............................32

Приложение С (обязательное) Значения коэффициентов модифицированной диаграммы

ящик с усами............................................................38

Приложение О (обязательное) Значения коэффициентов коррекции для определения

робастной оценки параметра масштаба.....................................40

Приложение Е (справочное) Критические значения статистики критерия Кохрена................41

Приложение F (обязательное) Руководство по выявлению выбросов в одномерной выборке......45

Библиография.......................................................................47

ГОСТ Р ИСО 16269*4—2017

Введение

Выявление выбросов — одна из старейших проблем анализа данных. Причинами появления вы* бросов могут быть ошибки измерений, ошибки отбора выборки, преднамеренное искажение или некор* ректная фиксация результатов анализа выборки, ошибочные предположения о распределении данных или модели, малое количество наблюдений и т. д.

Выбросы могут искажать и сокращать информацию, содержащуюся в источнике данных или про* цедуре их генерации. В производстве наличие выбросов снижает результативность производственных процессов, качество продукции, а также процедур контроля продукции. Выбросы не всегда следует трактовать как «плохие» или «ошибочные» данные. 8 некоторых случаях выбросы дают важную ии* формацию, которую необходимо учитывать в процессе исследований.

Выявление и анализ выбросов в процессе измерения ведут к более полному пониманию изучаемых процессов и более глубокому анализу данных, и как следствие, к более достоверным выводам.

Так как проблеме обнаружения и обработки выбросов посвящено большое количество литератур* ных публикаций, важной задачей является определение и стандартизация (на международном уровне) этих методов.

Настоящий стандарт содержит шесть приложений. В приложении А приведен алгоритм вычисления статистик и критических значений для выявления выбросов в выборке из нормально распределения. В приложениях В. D и Е приведены таблицы, необходимые для применения рекомендованных в стандарте процедур. В приложении С приведено статистическое обоснование построения диаграмм, помогающих в решении задачи отслеживания выбросов. В приложении F приведено поэтапное руко* водство по применению процедур, установленных в настоящем стандарте, и представлена блок-схема соответствующих действий.

IV

ГОСТ Р ИСО 16269-4—2017

НАЦИОНАЛЬНЫЙ СТАНДАРТ РОССИЙСКОЙ ФЕДЕРАЦИИ

Статистические методы

СТАТИСТИЧЕСКОЕ ПРЕДСТАВЛЕНИЕ ДАННЫХ Часть 4

Выявление и обработка выбросов

Statistical methods. Statistical data presentation. Part 4. Detection and treatment of outliers

Дата введения — 2018—12—01

1    Область применения

В настоящем стандарте установлены статистические критерии и методы графического анализа данных, полученные в результате измерений. В настоящем стандарте приведены рекомендации по методам определения робастных оценок и процедурам проверки наличия выбросов е данных.

Методы, представленные в настоящем стандарте, предназначены главным образом для выявления и обработки выбросов одномерных данных. Однако в настоящем стандарте представлены также некоторые рекомендации по работе с многомерными данными и данными регрессионного анализа.

2    Термины и определения

8 настоящем стандарте применены следующие термины с соответствующими определениями:

2.1    выборка, набор данных (sample, data set): Подмножество генеральной совокупности, состоящее из одной или нескольких выборочных единиц.

Примечание 1 — В зависимости от исследуемой генеральной совокупности выборочными единицами могут быть объекты, числовые значения, а также абстрактные элементы.

Примечание 2 — Выборку из генеральной совокупности, подчиняющуюся нормальному распределению (2.22), гамма-распределению (2.23). экспоненциальному распределению (2.24). распределению Вейбулла (2.25). логнормальному распределению (2.26) или распределению экстремальных значений типа I (2.27) часто называют выборкой из нормального распределения, гамма-распределения, экспоненциального распределения, распределения Вейбулла. логнормального распределения или распределения экстремальных значений типа I соответственно.

2.2    выброс (outlier): Элемент маломощного подмножества выборки, существенно отличающийся от остальных элементов выборки (2.1).

Примечание 1 — Классификация наблюдения или подмножество выборки как выброс (или выбросы) зависит от выбранной модели генеральной совокупности, из которой отобрана выборка. Выброс не рассматривают как истинный элемент генеральной совокупности.

Примечание 2 — Выброс может появиться из другой генеральной совокупности, быть результатом некорректной регистрации данных или общей ошибкой измерений.

Примечание 3 — Подмножество может содержать одно или несколько наблюдений.

2.3    маскировка (masking): Наличие более одного выброса (2.2). затрудняющее обнаружение каждого выброса.

2.4    вероятность ложного обнаружения выбросов (some-outside rate): Вероятность того, что одно или несколько наблюдений незагрязненной выборки, ошибочно классифицированы как выбросы (2.2).

2.5    метод коррекции выбросов (outlier accommodation method): Метод нечувствительный к наличию выбросов (2.2) при принятии решения о генеральной совокупности.

Издание официальное

1

ГОСТ Р ИСО 16269*4—2017

2.6    устойчивая оценка (resistant estimation): Оценка, подверженная лишь малым изменениям при замене небольшой доли набора данных (2.1). элементами, возможно, имеющими значительное от* личие от замененных элементов.

2.7    робастная оценка (robust estimation): Оценка, нечувствительная к небольшим отклонениям от предполагаемой вероятностной модели данных.

Примечание — Примером может быть оценка, полученная метолом, предназначенным для нормального распределения (2.2). при применении к близким распределениям, но имеющим некоторую асимметрию или тяжелые хвосты функции распределения. Группа таких оценок включает в себя L-оценки {взвешенное среднее арифметическое порядковых статистик (2.10)) и М-оцвнки (см. [9]).

2.8    ранг (rank): Положение наблюдаемого значения в упорядоченном наборе наблюдаемых значений.

Примечание 1 — Наблюдаемые значения упорядочивают в неубывающем (ведя отсчет от наименьшего элемента) или в невоэрастаккцем (ведя отсчет от наибольшего элемента) порядке.

Примечание 2 — В соответствии с целями настоящего стандарта одинаковым наблюдаемым значениям присваивают раздое, но последовательные ранги.

2.9    глубина (depth): Наименьший из двух рангов (2.8), присвоенных элементу при упорядочивании выборки (2.1) в неубывающем и невозрастающем порядках.

Примечание 1 — Значение глубины может быть не целым числом (см. приложение А).

Примечание 2 — Для всех полученных значений, оттчных от медианы (2.11). глубина определяет два значения — одно ниже медианы, другое выше медианы. Например, два значения с глубиной 1 представляют собой минимальное и максимальное значение е выборке (2.1).

2.10    порядковая статистика (order statistic): Статистика, определяемая рангом при упорядочивании набора данных в неубывающем порядке.

(ИСО 3534-1:2006. л. 1.9)

Примечание 1 — Пусть (х,. х2.....х„) — неупорядоченная выборка. После ее упорядочивания, обо

значенные заново элементы составляют упорядоченную выборку, где x^S x^S — * X(X)* — 5 *<пу тогда х^— наблюдаемое значение к-й порядковой статистики в выборке объема л.

Примечание 2 — На практике для определения порядковых статистик данных в выборке (2.1) производят их упорядочивание в соответствии с примечанием 1.

2.11    медиана, выборочная медиана, медиана набора чисел 02 (median, sample median, median of a set of numbers. 02): к-я порядковая статистика, где к - ГЛ*1П. если объем выборки — нечетное

Гл“| . Гл + 11 -    L J

число или полусумма ~ -и и 2 -и порядковых статистик, если а — четное число.

(ИСО 3534-1:2006, л. 1.13

Примечание — Медиана является вторым квартилем (Q2).

2.12    первый квартиль, нижний выборочный квартиль О, (first quartite sample lower quartile. О,): Медиана (2.11) первых наименьших (л — 1У2 значений для нечетного числа наблюдений: медиана первых наименьших п/2 значений для четного числа наблюдений.

Примечание 1 — В литературе встречается много разлитых определений выборочного квартиля, что приводит в некоторой степени к различным выводам. В настоящем стандарте приведено определение, которое широко распространено и удобно в применении.

Примечание 2 — Популярными вариантами квартиля являются «сгибы» и «четверти» (2.19 и 2.20). В некоторых случаях (см. примечание 3 в 2.19) первый квартиль и нижняя четверть (2.19) идентичны.

2.13    третий квартиль, верхний выборочный квартиль Qj (third quartile. sample upper quartile. Q3): Медиана (2.11) последних наибольших (о — 1)/2 значений для нечетного числа наблюдений или медиана последних наибольших nf2 значений для четного числа наблюдений.

Примечание 1 — В литературе встречается много различных определений выборочного квартиля, что приводит в некоторой степени к различным выводам. В настоящем стандарте приведено определение, которое широко распространено и удобно в применении.

Примечание 2 — Популярными вариантами квартиля являются «сгибы» и «четверти» (2.19 и 2.20). В некоторых случаях (см. примечание 3 в 2.20) третий квартиль и верхняя четверть (2.20) идентичны.

2

ГОСТ Р ИСО 16269*4—2017

2.14    межквартилькый размах IQR (interquartile range. IQR): Разность третьего квартиля (2.13) и первого квартиля (2.12).

Примечание 1 — Мвжхваргильный размах — широко применяемая сгатисгика для описания рассеяния данных.

Примечание2 — Иногда вместо межхвартильного размаха используют разность верхней четверти (2.20) и нижней четверти (2.19). называемую «четвертным разбросом».

2.15    сводка пяти чисел (five-number summary): Набор значений выборочного минимума, первого квартиля (2.12). медианы (2.11). третьего квартиля (2.13) и выборочного максимума.

Примечание — Сводка пяти чисел дает краткую количественную информацию о положении, рассеянии и размахе данных.

2.16    диаграмма ящик с усами (box plot): Графическое представление (горизонтальное или вертикальное) сводки пяти чисел (2.15).

Примечание 1 — В случае горизонтального представления диаграммы ящик с усами, первый квартиль (2.12) и третий квартиль (2.13) наносят на диаграмму как левую и правую боковые стороны ящика, медиану (2.11) наносят как вертикальную линию, перерезающую ящик; левый ус идет от первого квартиля к наименьшему значению в выборке, не выходящему за нижнюю границу (2.17). правый ус идет от третьего квартиля к наибольшему значению, не выходящему за верхнюю границу (2.18): значения за пределами контрольных границ рассматривают как выбросы. В случае вертикального представления диаграммы, первый и третий кваргили наносят на диаграмму, как нижнюю и верхнюю стороны ящика, медиану наносят как горизонтальную линию, перерезающую ящик: нижний ус идет от первого квартиля к наименьшему значению в выборке, не выходящему за нижнюю границу, верхний ус идет от третьего квартиля к наибольшему значению, не выходящему за верхнюю границу: значения за пределами контрольных границ рассматривают как выбросы.

Примечание 2 — Ширина ящика и длина уса — графические параметры диаграммы, характеризующие данные, например, параметр положения, разброс, асимметрию, длину хвостов и выбросы. На рисунке 1 для сравнения представлена диаграмма ящик с усами и функция плотности для а) равномерного. Ь) копокопообрзэного. с) положительно скошенного и d) отрицательно скошенного распределений. Для каждого распределения над диаграммой ящик с усами приведена соответствующая гистограмма.

Примечание 3 — Диаграмму ящик с усами с нижней (2.17) и верхней (2.16) границами, вычисленными с использованием коэффициента к. рассчитанного на основе объема выборки л и предположении о виде распределения данных, называют модифицированной диаграммой ящик с усами (см. рисунок 2). Построение модифицированной диаграммы ящик с усами представлено в 4.4.

2.17    нижняя граница, нижняя граница отделяющая выбросы, нижнее предельное значение (lower fence, lower outlier cut-off. lower adjacent value): Значение, указанное на диаграмме ящик с усами (2.16). находящееся ниже первого квартиля (2.12) на заданное число к межквартильных раэмахов(2.14).

Примечание — В специализированных пакетах программ статистической обработки данных нижнюю границу обычно вычисляют как Q, - A(Q3 - Q,}. где к берут равным 1.5 или 3.0. В классическом подходе, при к » 1.5 нижнюю границу называют «внутренней нижней границей», а при к = 3.0 нижнюю границу называют «внешней нижней границей».

3

т У * М

ГОСТ Р ИСО 16269*4—2017

Y

200-

160-

100-

0    2    4    0    6    10    12

е) Положительно аюиоммоо расгдоюткде    d} Отртадг**>ио силшеинэе рвярврвяомио

X — значение случайной величины: Y — частота появления X

Рисунок 1 — Диаграммы яшик с усами и соответствующие гистограммы для: а) равномерного. Ь) колоколообразного, с} положительно скошенного и d) отрицательно скошенного распределения

4

х*

ГОСТ Р ИСО 16269-4—2017

Мш. wiwoe выСорданов атаю

т

1,6 к К»

кя

1,9 и ЮЯ

1

Вереде границе (шцшжшне п^нхпфом)

Умомпшм аибормное мммш,

Р0Сп}л(я«нн0» нмяа верхней границы

1)МТМЙОТфППа

Мерши

Первый швртмпь

Минимальное выОорочнэв мнение, ридгкшв—11Р>ч11Н1ИШМй1р»цецы

Ниеде граним (нариаомна пунктиром)

Рисунок 2 — Модифицированная диаграмма ящик с усами с указанными нижней и верхней границами

2.18    верхняя граница, верхняя граница отделяющая выбросы, верхнее предельное значение (upper fence, upper outlier cut-off. upper adjacent value): Значение, указанное на диаграмме ящик с усами, расположенное выше третьего квартиля (2.13) на заданное число к межквартильных раэмахое (2.14).

Примечание — В специализированных пакетах программ статистической обработки данных верхнюю границу обычно вычисляют как О, * JcfO^-Q,). где Xберут равным 1.5 или 3.0. В классическом подходе, при к = 1.5 верхнюю границу называют «внутренней верхней границей», а при к = 3.0 верхнюю границу называют «внешней верхней границей».

2.19    нижняя четверть xL.n (lower fourth. xLn): Для набора наблюдаемых значений    ... sx(n)

величина, равная 0.5[хм ♦ х(М1)] при f- 0 или х^1} при f>0. где i— целая часть л/4. а Г— дробная часть п/4.

Примечание 1 — Даннов определете нижней четверти используют для вычисления рекомендуемых значений kL и кц (см. приложение С): во многих программных продуктах статистической обработки данных вычисление нижней четверти по умолчанию или в качестве выбираемой опции про из вози гея так. как указано в определении.

Примечание 2 — Нижнюю четверть и верхнюю четверть (2.20) вместе иногда называют сгибами.

Примечание 3 — Нижнюю четверть иногда рассматривают как первый квартиль (2.12).

Примечание 4 — При f-0.f-0.5 или / = 0,75 нижняя четверть тождественно равна первому квартилю, например:

Объем выборки о

i т целая часть пН

(* дробная часть ЫА

Первый квартиль

Ниаияя четверть

9

2

0,25

[*<2> + *0)V2

*0)

10

2

0.50

*0)

*01

11

2

0.75

*<Э)

*0)

12

3

0

f*0>+ W2

1*0) + Х(4>У2

5

ГОСТ Р ИСО 16269*4—2017

2.20 верхняя четверть хи.п (lowerfourth. xUn): Для набора наблюдаемых значений х(, (s х<2) s... £ х(о) величина, равная 0,5[х_Л ♦ x(f>i>1)] при f- 0 или х^.,^ при f > 0, где / — целая часть л/4. а Г— дробная часть п/4.

Примечание 1 — Данное определение верхней четверти используют для вычисления рекомендуемых значений ки и kL (см. приложение С); ао многих программных продуктах статистической обработки данных вычисление верхней четверти по умогтчакмю или 8 качестве выбираемой опции производится так. как указано в определении.

Примечание 2 — Нижнюю четверть (2.19) и верхнюю четверть вместе иноща называют сгибами.

Примечание 3 — Верхнюю четверть иногда рассматривают как третий квартиль (2.13).

Примечание 4 — При / = 0. Г = 0,5 или f = 0.75 верхняя четверть тождественно равна третьему квартилю, например:

Объем выборки л

j • целая часть п/Л

/ я дробная часть л/4

Третий квартиль

Верхняя четверть

9

2

0.25

1*(7> + *(в)У2

10

2

0.50

*(в)

*(81

11

2

0.75

*iSi

*(9)

12

3

0

l*<9)+ W2

1х(9) * х(10)1/2

2.21 ошибка первого рода (Type I error): Отклонение нулевой гипотезы, когда она истинна.

[ISO 3534*1:2006. л. 1.46]

Примечание 1 — Ошибка первого рода — это принятие неверного решения. Поэтому, желательно поддерживать вероятность принятия такого ошибочного решения была столь малой, насколько это возможно.

Примечание 2 — Возможно в некоторых ситуациях (например, при определении параметра биномиального распределения р), заданный уровень значимости, например. 0.05, не достижим для дискретных данных.

2.22 нормальное распределение, распределение Гаусса (normal distribution. Gaussian distribution): Распределение непрерывной случайной величины с функцией плотности вероятностей

где х — переменная -*» < х < да; д, о —* параметры -да < д < те, а > 0.

[ISO 3534-1:2006. л. 2.50]

Примечание 1 — Математическое ожидание д — параметр положения, стандартное отклонение а — параметр рассеяния данных.

Примечание 2 — Нормальная выборка является случайной выборкой (2.1). отобранной из генеральной совокупности, подчиняющейся нормальному распределению.

2.23 гамма-распределение (gamma distribution): Распределение непрерывной случайной величины с функцией плотности вероятностей

Дх) =

x^-’expt-x/ft)

р°Г(о)

где х — переменная, х > 0; а. р — параметры, а > 0. р > 0.

[ISO 3534-1:2006. л. 2.56]

Примечание 1 — Гамма-распределение используют при исследовании безотказности для моделирования наработки до отказа. Оно включает экспоненциальное распределение (2.24). а также другие распределения, у которых интенсивность отказов увеличивается во времени.

Примечание 2 — Математическое ожидание гаммв-распределения равно ар. дисперсия равна ар2. Примечание 3 — Выборка гамма-распределения является случайной выборкой (2.1). отобранной из генеральной совокупности, подчиняющейся гамма-распределению.

2.24 экспоненциальное распределение (exponential distribution): Распределение непрерывной случайной величины с функцией плотности вероятностей

= р-'ехр<—хУ р),

где х — переменная, х > 0; р — параметр, р > 0.

[ISO 3534-1:2006. л. 2.58]

6

ГОСТ Р ИСО 16269*4—2017

Примечание 1 — Экспоненциальное распределение является основополагающим при исследовании безотказности в ситуациях отсутствия старения или «памяти».

Примечание 2 — Математическое ожидание экспоненциального распределения равно р. Дисперсия экспоненциального распределения равна р2.

Примечание 3 — Выборка экспоненциального распределения является случайной выборкой (2.1). отобранной из генеральной совокупности, подчиняющейся экспоненциальному распределению.

2.25 распределение Вейбулла, распределение экстремальных значений типа III (Weibuli distribution, type III extreme-value distribution): Распределение непрерывной случайной величины с функцией распределения

FM = 1-axp[-(V) ]■

где х — переменная, х > 0:0. р. к — параметры -<ю < 0 < ж, р > 0. к > 0.

(ISO 3554*1:2006. п. 2.63]

Примечание 1 — Помимо того, что распределение Вейбулла является одним из трех возможных предельных распределений экстремальных значений порядковых статистик, оно также имеет ряд других важных применений, особенно в теории надежности и инженерии. Существует много ситуаций, когда полученные данные могут быть описаны распределением Вейбулла.

Примечание 2 — Параметр 6 является параметром положения или пороговым параметром, это минимальное значение, которое может принимать случайная величина. Параметр р — параметр масштаба (связан со стандартным отклонением случайной величины). Параметр к — параметр формы.

Примечание 3 — Выборка из распределения Вейбулла является случайной выборкой (2.1), отобранной из генеральной совокупности, подчиняющейся распределению Вейбулла.

2.26 логнормальное распределение (lognormal distribution): Распределение случайной величины с функцией плотности вероятностей

где х — переменная, х > 0: д, а — параметры -ж<ц<»и<т>0.

[ИСО 3534*1:2006. п. 2.52]

2.27 распределение экстремальных значений типа I, распределение Гумбеля (type I extreme* value distribution. Gumbel distribution): Распределение случайной величины с функцией распределения

F(x) - ехр{-е-<* -

где х — переменная, х > 0: д, с — параметры -»<м<аеио>0.

Примечание — Распределения экстремальных значений позволяют получить соответствующие распределения для экстремальных порядковых статистик (2.10) х(1| и х^.

[ISO 3534-1:2006. п.2.61]

3 Обозначения

В настоящем стандарте использованы следующие обозначения и сокращения:

GESD — обобщенное экстремальное стьюдентиэированное отклонение:

Ge — статистика Гринвуда;

дЕ „    — критическое значение статистики критерия Гринвуда для объема выборки л:

—    редуцированная выборка объема п - А полученная после удаления из исходной выборки /0 объема п, самого экстремального элемента х<°). затем удаления самого экстремального элемента из редуцированной выборки /, объема п -1. удаления самого экстремальною элемента х^м> из редуцированной выборки /м объема + 1;

Fp.V) yj — процентиль F-распределения уровня р с v, и v2 степенями свободы:

—    критическое значение статистики GESD—критерия при проверке того, что х*'* является выбросом:

7

ГОСТ Р ИСО 16269*4—2017

h

М или Qs

wad

О,

Оз

Щ)

х<'>

*{',>

Хт{о)

Х1 п хО:п

нижняя граница модифицированной диаграммы ящик с усами; верхняя граница модифицированной диаграммы ящик с усами; выборочная медиана;

медиана абсолютного отклонения от медианы; первый квартиль; третий квартиль;

контрольная статистика критерия GESD при проверке того, что является выбросом;

стандартное отклонение, вычисленное по редуцированной выборке /,;

медиана.

дважды взвешенная оценка параметра положения для выборки объема п; оценка Тп в /*й итерации, при объеме выборки, равном л; перцентиль уровня р t— распределения с v степенями свободы; перцентиль уровня р распределения хи-квадрат с v степенями свободы;

/*й элемент в упорядоченном наборе данных; наиболее экстремальное значение редуцированной выборки выборочное среднее редуцированной выборки а — усеченное среднее;

нижняя четверть диаграммы ящик с усами, построенной по выборке объема л; верхняя четверть диаграммы ящик с усами, построенной по выборке объема л.

4 Выбросы в одномерных данных

4.1    Общие положения

4.1.1    Понятие выброса

В простейшем случае выброс представляет собой наблюдение, несовместимое с остальными наблюдениями набора данных. 8 общем случае набор данных может содержать более одного выброса, расположенных, как с одной, так и с двух сторон упорядоченного набора данных. Основная проблема выявления выбросов состоит в определении того, действительно ли наблюдения, не совместимые с остальными данными являются выбросами. Эту задачу решают посредством заданного критерия значимости с учетом предполагаемого распределения данных. Наблюдения, для которых получены значимые результаты, рассматривают как выбросы из предполагаемого распределения.

Важность правильного выбора соответствующего распределения данных нельзя переоценить. На практике часто в качестве распределения данных часто рассматривают нормальное распределение, даже если данные получены из другого источника. Однако ошибочное предположение о распределении данных может приводить к некорректному отнесению элементов выборки к выбросам.

4.1.2    Причины выбросов

Появление выбросов обычно связано с одной или несколькими причинами (детальное рассмотрение приведено в (9]).

a)    Ошибки измерений и регистрации данных. Сюда относят ошибки в точности измерений, некорректно проведенные наблюдения, некорректную регистрацию данных или их введения в базу данных.

b)    Загрязнение данных. Загрязнения данных происходит в том случае, когда данные принадлежат двум или более распределениям, т. в. имеется одно основное распределение и одно или несколько дополнительных распределений (примесей), загрязняющих данные. Если загрязняющие распределения имеют значительно отличающиеся от основного истинные средние, большие значения стандартных отклонений и/или более тяжелые хвосты распределений, чем у основного распределения, то существует возможность того, что экстремальные наблюдения, принадлежащие распределениям-примесям, могут появиться как выбросы основного распределения.

Примечание 1 — Причиной загрязнения может быть ошибка при отборе выборки, когда небольшую часть данных считают полученной из другой совокупности или если было осуществлено преднамеренное искажение (завышение или занижение) результатов эксперимента или опроса.

8

ГОСТ Р ИСО 16269-4—2017

c)    Ошибочное предположение о распределении данных. Набор данных считают полученным из конкретного распределения, но он получен из другого распределения.

Пример — Набор данных считают отобранным из нормального распределения, но он может иметь сильно ассиметричное распределение (например, экспоненциальное или логнормальное) или быть симметричным, но иметь тяжелые хвосты (например, t-распределение). Поэтому наблюдения, далеко отстоящие от медианы распределения, могут быть ошибочно приняты за выбросы, даже если это достоверные данные, принадлежащие ассиметричному распределению или распределению с тяжелыми хвостами.

d)    Редкие наблюдения. В выборках, отобранных (как предполагается) из заданных распределений маловероятные наблюдения могут появиться в очень редких случаях. Экстремальные наблюдения в этом случае обычно принимают за выбросы, но они не являются выбросами.

Примечание 2 — Если генеральная совокупность имеет симметричное распределение с тяжелыми хвостами, то редко поступающие наблюдения могут приводить к ошибочным предположениям о распределении.

4.1.3 Необходимость обнаружения выбросов

выбросы не всегда являются «плохими» или «ошибочными» данными. Они могут быть рассмотрены как индикаторы проявления редких явлений, требующих дальнейшего изучения. Например, если выброс вызван исключительно особенностями промышленной обработки, то важное значение имеет изучение причин выброса.

Многие методы статистической обработки данных и многие получаемые статистики чувствительны к наличию выбросов. Например, выборочные среднее и стандартное отклонения могут изменить свои значения при наличии даже одного выброса, что впоследствии может привести к неверным выводам.

4.2 Проверка данных

Проверку данных начинают с простого визуального контроля полученного набора данных. Для этого строят простые графики, такие как: точечная диаграмма, диаграмма рассеяния, гистограмма, диаграмма стебель—листья, график вероятности, диаграмма ящик с усами; график данных о времени или в порядке не убывания значений. Это может привести к обнаружению новых источников изменчивости и появлению экстремальных значений в наборе данных. Например, бимодальное распределение данных. обнаруженное с помощью гистограммы или диаграммы стебель—листья, может свидетельствовать о загрязнении выборки или смеси данных из двух разных совокупностей. График вероятности и диаграмму ящик с усами рекомендуется использовать для идентификации выбросов. Эти выбросы в дальнейшем необходимо исследовать с помощью методов, представленных в 4.3 или 4.4.

График вероятности позволяет не только осуществлять графическую проверку соответствия наблюдений или большей части наблюдений предполагаемому распределению, но может быть использован для выявления выбросов в наборе данных. Точки на графике вероятности, заметно отклоняющиеся от прямой, вокруг которой лежат все остальные наблюдения, следует рассматривать как возможные выбросы. Графики вероятности используют во многих пакетах программ статистического анализа данных.

Диаграмма ящик с усами — один из наиболее популярных инструментов графического представления данных. Ее используют для определения параметров положения, рассеяния и формы распределения данных. Нижние и верхние границы диаграммы ящик с усами определяют следующим образом

нижняя граница    О, - k(Q3 - Q,).

верхняя граница    О, ♦ fc(Q3 - Q,).    (1)

где Q, и Q3 — первый и третий квартиль выборки; к — константа.

в работе Тьюки [2] наблюдения, лежащие за пределами верхней и нижней границ, при к - 1.5 рассматривают как возможные выбросы, при к * 3 их рассматривают как явные выбросы.

Примечание 1 — Вероятностная бумага для нормального, логнормального, экспоненциального распределения и распределения Ввйбуппа может быть загружена с интернет-ресурса httD://w^w.wertxill.com/GPaper/ index.htm.

Примечание 2 — График вероятности зависит от предположений о виде распределения генеральной совокупности. Например, график вероятности для экспоненциального распределения следует использовать при наличии предположений или априорных знаний о том. что выборка отобрана из генеральной совокупности, подчиняется экспоненциальному закону.

Примечание 3 — При анализе диаграммы ящик с усами, для которой верхняя и нижняя границы определены с помощью {1). большое количество наблюдений может быть ошибочно отнесено к возможным выбросам.

9

ГОСТ Р ИСО 16269*4—2017

если выборка получена из асимметричного распределения. Данная проблема может быть устранена посредством применения модифицированной диаграммы ящик с усами (см. 4.4).

Пример — Точечная диаграмма, гистограмма, диаграмма ящик с усами и диаграмма стебель — листья для проведенной ниже выборки, представлены на рисунках 3 а). 3 Ь), 3 с) и 3 d) соответственно.

0.745

0,883

0,351

0.806

2.908

1.096

1.310

1,261

0,637

1,226

1.418

0.430

1,870

0,543

0.718

1.229

1,312

1,544

0,965

1.034

1.818

1.409

2,773

1,293

0.842

1.469

0.804

2,219

0,892

1.864

1.214

1.093

0,727

1,527

3.463

2.158

1.448

0,725

0,699

2.435

0.724

0.551

0,733

0,793

0.701

1.323

1.067

0,763

1,375

0.763

Данные диаграммы показывают, что распределение выборки имеет более длинный правый хвост, чем левый. По рисункам 3 а), 3 Ь) и 3 d) очевидно, что наибольшее значение 3,463 выглядит как возможный выброс, тогда как диаграмма ящик с усами на рисунке 3 с) определяет три наибольших значения. расположенных над верхней границей, как выбросы. Первая колонка, представленная на рисунке 3 d) диаграммы стебель — листья, показывает глубину, вторая колонка содержит стебли и третья колонка — листья. Значения в колонке глубины содержат суммарное количество листьев снизу или сверху, за исключением значения в скобках, представляющего медиану. Единичный лист указывает на позицию десятичной точки. Единичный лист 0,1 означает, что единичная точка идет перед листом, так первое представленное число равно 0,3, второе и третье 0,4 и 0,5. соответственно. Данный пример рассмотрен также в 4.3.5.

Г

0Л W 1А 2Я 2.6 $.0 3,6 X

•)Томнмм дшгряимс

Параметр папашино 0ДЙ2Я Параметр MMtrrafio <MS24

Ь)Гклофвыин

Логаиормальиов рварядапанш

Нан нстрг iB>rifQHnfl 60

лог    до

1 о &

4 О 46в

1во тттш 226 швт №1 0600 И1 ?tmam

16 1 МЯЛА

а 1

I 1 м в 2 1 а г г 4 2 4 I 7 1

1га 1 а 1 а

114

ej Дшфмма шрк е усам и

фДшрШШСТвСвГЬ-ЛЖПЪЙ

10

X — значение случайной величины: Y — частота появления X Рисунок 3 — Диаграммы, построенные по набору данных

ГОСТ Р ИСО 16269-4—2017

4.3 Выявление выбросов

4.3.1    Общие положения

Существует большое количество методов выявления выбросов (см. [1]). В ИСО 5725-2 (см. [3]) приведены критерии Граббса и Кохрена для идентификации выбросов данных лабораторий. Критерий Грабса применим к отдельным наблюдениям или к выборочным средним наборов данных из нормальных распределений: критерий может быть использован только для выявлений двух наибольших и/или наименьших наблюдений в качестве выбросов в наборе данных. Более общая процедура анализа, представленная в 4.3.2, способна обнаруживать множественные выбросы при анализе отдельных наблюдений или средних арифметических наборов данных, отобранных из нормального распределения. Процедуры, приведенные в 4.3.3 и в 4.3.4, способны обнаруживать множественные выбросы для данных. отобранных из экспоненциального распределения, распределения экстремальных значений типа I. распределения Вейбулла или гамма-распределения. Процедуру, приведенную в 4.3.5. следует применять для обнаружения выбросов в выборках, отобранных из совокупностей с неизвестным законом распределения. Процедура обнаружения выбросов по набору дисперсий, полученных из набора выборок, приведена в 4.3.6.

4.3.2    Выборка из нормального распределения

Один или более выбросов с обеих сторон набора данных из нормального распределения могут быть выявлены при помощи процедуры, известной как обобщенное экстремальное стырдентизирован-мое отклонение (GESD) (см. [4]). Процедура GESD пригодна для контроля ошибки первого рода при обнаружении более чем / выбросов с уровнем значимости а и 1 s / s m. где т — установленное максимальное количество выбросов.

Перед применением данной процедуры следует удостовериться, что большую часть выборочных данных согласуется с нормальным распределением. График вероятности для нормального распределения. приведенный в ИСО 5479 (см. [18]). может быть использован для проверки справедливости предположения о нормальности распределения.

Этапы процедуры GESO

Этап 1. Точки, соответствующие данным выборки ху. х2,.... х„, наносят на график на нормальной вероятностной бумаге. Подсчитывают количество точек, значимо отклоняющихся от прямой линии, которой соответствуют остальные точки графика. Таким образом, получают количество возможных (предполагаемых) выбросов.

Этап 2. Выбирают уровень значимости а и устанавливают количество выбросов т как число большее или равное числу возможных выбросов, полученному на шаге 1. Следующие этапы начинают, считая/s0.

Этап 3. Вычисляют контрольную статистику

где

/0 — исходный набор данных;

/, — редуцированная выборка объема п - /. полученная исключением элемента х*'4* выборки /м, что дает значение /?м; х(/,) — выборочное среднее выборки s[l,) — выборочное стандартное отклонение выборки I,.

Примечание 1 — В случае / = 0 x{j^) и ОД) — выборочное среднее и выборочное стандартное отклонение исходной выборки /ф = {х,. х2. .... х„) объема л. где наибольшим значением среди значений - х(^).

х2 ~ т.....*л ~ х(Ц)} является, например, значение х2 - х(^) далее Яф = [х2 - х(/0)] / ОД) и х*й> = х2. Соответственно.

/, = f (х«»} = (х,. х3.....х„) — редуцированная выборка размера л - 1. полученная исключением элемента х<01.

т. е. х2 из /ф.

Этап 4. Вычисляют критическое значение

(2)

(3)

11

ГОСТ Р ИСО 16269*4—2017

гдер = (1 - at2)1,,п,)и tp v — процентиль уровня 1ООр {-распределения с v степенями свободы. Поскольку выбросы могут быть только среди верхних или нижних экстремальных значений, а заменяют на а/2.

Этап 5.Пусть/-/*1

Этап 6. Повторяют этапы 2—4 до тех пор. пока / не станет равно т.

Этап 7. Если R, £для всех У = 0.1,2.....т. то считают, что выбросы не обнаружены. В противном

случае novt наиболее экстремальных наблюдений х401. х<1>.... х(Лм'~ 1) редуцированных выборок считают выбросами, при этом = 1 + max {/:/?>

0<а    os am    '    '

В приложении А приведен алгоритм программной реализации процедуры выявления выбросов GESD.

Примечание 2 — Применение процедуры GESD эквивалентно применению критерия Граббса для проверки того, является ли наибольшее или наименьшее наблюдение выбросом. Критические значения критерия Граббса приведены в таблице 5 ИСО 5725-2:1994 (3]. они также могут быть аппроксимированы значением при / = 0 (см. этап 4).

Примечание 3 — На практике, выбирают небольшое значение количества возможных выбросов т. Если в выборке ожидается наличие большого количества выбросов, то в этом случае прекращают рассматривать проблему обнаружения выбросов, и для изучения ситуации применяют другие методы. Однако т не должно быть слишком маленьким, в противном случав может присутствовать эффект маскировки.

Пример — Рассмотрим набор данных из 20 наблюдений:

•2,21    *1,84    -0.95    -0.91    -0.36    -0,19    -0,11    -0,10    0.18    0.30

0.43    0.51    0.64    0.67    0.93    1.22    1.35    1.73    5.60    12.6.

еде последние два наблюдения первоначально составляли 0,58 и 1,26, но при регистрации данных запятые, отделяющие десятичные разряды, были ошибочно сдвинуты. Перед применением процедуры GESD для обнаружения выбросов необходимо проверить, что наблюдения соответствуют нормальному распределению. Точки на графике вероятности на нормальной вероятностной бумаге (см. рисунок 4 а)) расположены вблизи прямой линии, за исключением двух точек с наибольшими значениями, заметно отклоняющихся от прямой. Данный график показывает, что набор данных, за исключением двух экстремальных значении, можно считать принадлежащим нормальной совокупности. Данное предположение подтверждает рисунок 4 Ь), где на графике вероятности все данные, за исключением двух крайних значений, расположены внутри границы с уровнем доверия 95 % доверительного интервала. Таким образом, на этапе 2 можно выбрать т-2. Статистика критерия GESD (RJ и ее критическое значение %, для / = 0,1,2 и уровня значимости ц-0.05 представлены ниже.

У

0

1

2

R/

3.6559

3.2634

2.1761

2.7058

2.6785

2.6992

*t

12.60

5.80

-2,21

Так как R0 - 3,6559 >Х0 = 2,7058. R, - 3,2634 >Х1 = 2,6785 и R2 = 2.1761 <Х2 = 2.6992, следовательно, тах //; R,>XJ - 1 и пП1„ = 1 * max {I: R.*XJ = 2. Таким образом обнаружено два выброса, это два наиболее

0SS2    0SUS2

экстремальных значения: х^ = 12.60 и х<°> - 5,80.

Примечание 4 — В этом и в следующем примерах не указаны единицы, в которых выполнены измерения данных, так как они не требуются для графической интерпретации и анализа данных, проводимого в рамках настоящего стандарта.

12

ГОСТ Р ИСО 16269-4—2017

Выборочно» древ мы

49М6

Выборпио» опнаарпю»

агхпонми»

3,17?

Обым выборе!

20

СтзджлкдаАцаорШ1вДц.1Пига

2ЛГ4

Р МИННИ»

<0,005

•)Пяф!К вероятности дли потного наборе данных, нормально» р—уедапы—,

д0с«ри1«пьныА интервал уровня 89%

Y4

1

о1

7\

1

7

Zl

7

п

Т\

Z

П

П

г

f\

П

'

Ш'ЛГ.'Л

ц

5

У

ш

Z.

2

2

2

2

j.

г

г

г

2

d

/

\1

г

1

Г"

L

"Яг

Выборочно» opqffM»

ДОЛвТ

Выборочно» стжняцлио»

отклепы—

1,040

ООь»ы выбор»

16

Статист— АнаорштьД^тт»

0,299

pmm —

«4647

Ь) ГДОжк вероятности рояущфо—ной выборки, нфмяли—раопрр—м, доверительный штеравл уровни 95 Я

XI — значения исходной аыборхи. Х2 — значения редуцированной аы&орхи: V — процент»

Рисунок 4 — Графики вероятности

4.3.3 Экспоненциальная выборка

4.3.3.1    Общие положения

Для выявления выбросов в выборках из генеральной совокупности, подчиняющейся экспоненциальному закону распределения, рекомендуется использовать критерий Гринвуда (см. 4.3.3.2). Однако данный критерий позволяет лишь обнаружить наличие выбросов в выборке, но не позволяет идентифицировать конкретные выбросы и определить количество выбросов в выборке. В 4.3.3.3 и 4.3.3.4 представлены два альтернативных последовательных критерия, позволяющих идентифицировать до т возможных верхних или m возможных нижних выбросов в выборке из экспоненциального распределения.

4.3.3.2    Критерий наличия выбросов Гринвуда

Критерий Гринвуда — мощный критерий, позволяющий обнаружить наличие выбросов в выборке. отобранной из экспоненциального распределения с функцией плотности вероятности. f(x) = Х_'ехр(-(х - а)//.), х г а. где X — параметр масштаба и а — параметр положения или пороговый параметр. Для выборки х,, х2.....х„ объема п, из генеральной совокупности, подчиняющейся экспонен

циальному закону распределения с известным параметром а. статистика критерия имеет вид (см. (1)).

_ Хм(х,-а)2

д.

х.-па

(4)

Высокое значение Ge свидетельствует о наличие некоторого (неизвестного) количества возможных выбросов среди экстремально высоких значений элементов выборки, однако, низкое значение Gs свидетельствует о наличии некоторого (неизвестного) количества возможных выбросов как среди экстремально низких значений, так и представляющих собой комбинацию экстремально низких и экстремально высоких элементов выборки. Нижние и верхние критические значения дЕп статистики Gуровней 2.5 % и 1 % соответственно для заданных значений п представлены в таблице В.1. При неизвестном изначальном параметре а. в качестве его оценки используют наименьшее значение в выборке х(1), а в качестве оценки критического значения Ge используют д£ п.

13

ГОСТ Р ИСО 16269*4—2017

4.3.3.3 Последовательные критерии выявления m возможных выбросов среди наибольших значе* ний выборки

Статистики критерия для выявления т возможных выбросов среди наибольших значений выбор* ки объема п из экспоненциального распределения при известном параметре положения а (см. [5]).

где х(1)£х(2)£ ... £х,л(— порядковые статистики выборки. Значимо большие значения указывают на то. что высокие экстремальные значения являются выбросами. Верхние, соответствующие уровням 5 % и 1 %. критические значения статистики S^, соответствующие уровням 5 % и 1 % для заданных наблюдений л и т - 2.3 и 4 представлены в таблице В.2. Если    то т наибольших наблюдений

считают выбросами: если    для у = т. т-1.....М. но    то / наибольших значений считают

выбросами; если    £ s^n для всех у = 1.2 т, считают, что выбросы в выборке отсутствуют.

В случае, когда параметр а неизвестен, в качестве его оценки используют наименьшее значение в выборке х{1,. а в качестве оценки критического значения Suf используют

4.3.3.4 Последовательные критерии выявления т возможных выбросов среди наименьших зна* чений выборки

Статистики критерия выявления m возможных выбросов среди наименьших значений выборки из экспоненциального распределения объема п при известном параметре положения а (см. {5])

где х(}(£х(2)£ ... £ х(п) — порядковые статистики выборки. Значимо большие значения ^указывают на то. что низкие экстремальные значения являются выбросами. Нижние и верхние критические значения статистики S1: уровня 5%и 1 % соответственно для заданных значений о и m = 2.3 и 4 представлены в таблице В.З. Если    то m наименьших наблюдений считают выбросами; если Sy £ Sy.„ для

j-m. m-1.....М. но    > а^.то / наименьших значений считают выбросами; если £ s^n для всех

у = 1.2.....m считают, что выбросы отсутствуют.

Данный критерий может быть использован только для выявления выбросов в выборке из экспо* ненциального распределения с известным параметром а. Для выборок с неизвестным параметром а. для обнаружения выбросов может быть использована процедура, установленная в 4.4.

Пример —Дамы упорядоченные в порядке возрастания наблюдения объема п = 22.

10,10    10.27    10,85    11,38    12.85    13.13    14,07    14.26    14,51    14,55    15,73

17,43    17,72    18.49    20.75    21,37    22.50    24.22    25.61    33,84    43,00    84.94

На первом этапе использования критерия Гринвуда для определения выбросов следует убедиться, что выборка отобрана из экспоненциального распределения. По графику вероятности с данными выборки, приведенному на рисунке 5 а), видно, что точки данных расположены вблизи прямой линии, за исключением одной или двух точек с наибольшими значениями. Данный график показывает, что выборка. за исключением одного или двух экстремальных значений согласуется с экспоненциальным распределением. Эти выводы подтверждает рисунок 5 Ь), где на графике вероятности все элементы выборки, за исключением двух крайних значений, расположены вблизи прямой линии. Значения оценки параметра положения а = 10,10 статистик критерия Гринвуда Gg = 8386,326/(249,37)2 = 0,13486. В соответствии с таблицей В.1 нижние и верхние критические значения gg-2\ статистики Gg, соответствующие уровню 2,5 %, составляют соответственно 0.0673 и 0,1338. Таким образом, вычисленное значение Gg = 0,13486 выше верхнего критического значения, равного 0,1338, что позволяет сделать заключение о том, что одно или несколько экстремально высоких значений выборки являются выбросами.

- а) I £"7*1Й- а),у = 1. 2.....т.

(S)

SJ* (х0-О) - a}/ Z& (*w - э).у = 1. 2.....т.

(6)

14

ГОСТ Р ИСО 16269-4—2017

а) График мрсятосги экспоненциального Ь)Г>^.ЕВвро*п>«с^»«этонв«ийшьного радпрвдвпа—, построений    распределения. построены»

по исходов выбора»    го рсдорфовонной выборка

XI — значения исходной выборхи. Х2 — значения редуцированной выборхи.

Y — вероятность экспоненциального распределения

Рисунок 5 — Графики вероятности экспоненциального распределения

Так как возможными выбросами являются два верхних экстремальных значения, критерии, представленные е 4.3.3.3. могут быть использованы для проверки того, что выборка содержит два выброса. При ms2,S^s {43.0 - 10.01 )/174.53 = 0,188,5 и. После сравнения этих значений с соответствующими критическим = (84.94 - 10.1)/249.37 = 0.3001 и значениями s^2, = 0.2313 и s^.21 = 0.2834. определенными по таблице В.2 для а = 0.05. только наибольшее значение (84.94) можно считать выбросом при уровне значимости 5 %.

4.3.4 выборки не из нормальных распределений

4.3.4.1 Общие положения

Большое практическое значение имеет выявление выбросов в выборках, взятых не из нормального распределения. Задача выявления выбросов в выборках из экспоненциальных и гамма-распределений стоит, например, при проведении ресурсных испытаний транспортных и речных потоков и т. л.: выборки из распределений экстремальных значений возникают при изучении экстремумов, например, максимальной скорости ветра или максимальных спортивных достижений. Логнормальное распределение и распределение вейбулла часто используют в задачах надежности. В случае, когда семейство распределений известно и является семейством логнормальных распределений, распределений экстремальных значений, гамма-распределений или распределений Вейбулла. рекомендуется выполнять представленные ниже преобразования данных для приведения их к необходимому распределению.

4.3.4.2Для выборки х,. х2.....х„ из логнормального распределения с функцией плотности вероят

ности

преобразованные значения Jnxt. Inx2.....1пхл представляют собой выборку из нормального распределе

ния с математическим ожиданием ц и дисперсией о2. Для обнаружения выбросов в преобразованной выборке может быть применена процедура, представленная в 4.3.2 и/или 4.4.

15

ГОСТ Р ИСО 16269*4—2017

4.3.4.3    Для выборки х,. х2.....хл, взятой из распределения экстремальных значений типа I с функ

цией распределения

Я(Х £ х) = ехр{-ехр(-(х - э)/6|}, -х < х < т>.

преобразованные значения ехр(-х,/Ъ) exp(-xjb) представляют собой выборку из экспоненциального распределения с математическим ожиданием ехр(-а/£>). Для обнаружения выбросов в преобразованной выборке может быть применена процедура, приведенная в 4.3.3 и/или 4.4.

4.3.4.4    Для выборки хд. х2.....х„. из распределения Вейбулла с функцией распределения

Р(Х £ х) = 1 - ехр{-{{х - а)1ЬУ). х>а. £>>0,г>0

преобразованные значения (х, - а/, {х2 - ау.....(хл - а)' представляют собой выборку из экспоненци

ального распределения с математическим ожиданием Ьг. Для обнаружения выбросов к преобразованной выборке может быть применена процедура, приведенная в 4.3.3 и/или 4.4.

Примечание — Если х подчиняется экспоненциальному распределению, то Vx~ подчиняется распределению. близкому к нормальному (см. [6]).

4.3.4.5    Для выборки хг х2.....хп из гамма-распределения с функцией плотности вероятностей

^х) = [Ь* Г(г)]-1 х*-’ ехр(-х/Д). х > 0. b > 0

преобразованные значения 4*2- •••• представляют собой выборку из распределения, близкого к нормальному. Для обнаружения выбросов в преобразованной выборке может быть применена процедура. приведенная в 4.3.2 и/или 4.4.

4.3.5    Выборка из неизвестного распределения

При решении задачи выявления выбросов в выборках из генеральной совокупности с неизвестным асимметричным распределением, общий подход состоит в преобразовании данных из ненормального распределения к такому виду, в котором они будут подчиняться распределению, близкому к нормальному. Затем для обнаружения выбросов к преобразованной выборке может быть применена процедура, приведенная в 4.3.3. Для преобразования исходных данных часто применяют преобразование Бокса-Кокса и преобразование Джонсона.

Семейство преобразований Бокса-Кокса имеет форму (см. [7]):

|"(х+го)\ еслиХ^О;

У jjog(x ♦ го), если X = 0.

где если X * 0. значение го выбирают так. чтобы значение х + го было положительным:

если X = 1. в качестве значения го выбирают ноль, в результате чего исходные данные не изменяются.

В некоторых пакетах программ статистической обработки данных выбор оптимального параметра X происходит автоматически.

Преобразование Джонсона с помощью семейства распределений Джонсона [6] приводит данные к виду, в котором они подчиняются распределению, близкому к нормальному.

Примечание 1 — Преобразование Бокса-Кокса и преобразование Джонсона могут быть выполнены с помощью соответствующих программных средств обработки данных.

Примечание 2 — Преобразование Бокса-Кокса достаточно просто и понятно. Однако преобразование Джонсона применимо к исходным данным, содержащим отрицательные значения.

Пример — Рассматриваемая выборка отобрана из генеральной совокупности с неизвестным распределением (выборка приведена в 4.2). Построенные по ней диаграмма рассеяния, гистограмма, диаграмма ящик с усами и диаграмма стебель—листья (см. рисунок 3) показывают, что данные взяты из асимметричного распределения. Требуется, чтобы распределение преобразованных данных было близко к нормальному. График Бокса-Кокса и график вероятности, представленные на рисунках 6 и 7,

16

ГОСТ Р ИСО 16269-4—2017

получены с помощью типового пакета программ статистической обработки данных. Гоафик. представленный на рисунке 6. соответствует оценке X. равной минус 0,19. и округленное значение оценки У, равное 0,00, использованное при проведении преобразования. На графике также приведена нижняя граница доверительного интервала с уровнем доверия 95 %. равную минус 0.77 и соответствующая верхняя граница доверительного интервала, равная 0,36 (границы на графике показаны вертикальными линиями). На практике следует использовать значения4, полученные с применением общепринятых преобразований, таких как извлечение квадратного корня 0, = 0,5) или вычисление натурального алгоритма 0, = 0). В настоящем примере оценка значения У* равная нулю, представляет собой разумный выбор. так как попадает в доверительный интервал с уровнем доверия 95 %. Таким образом, преобразование с помощью натурального логарифма может быть более предпочтительным, чем преобразование, обеспечивающее определение наилучшей оценки V Графики вероятности исходных и преобразованных данных представлены на рисунке 7. На рисунке 7 Ь) указано p-значение, вычисленное с помощью статистики критерия Андерсона-Дарлинга, равное 0,318, что говорит о том, что преобразованные данные подчиняются распределению, близкому к нормальному.

Хврешермстню*

доадотальмыЙ интервал уровня 95 %

Оценка

-0,19

Нвояя доверительная

0,77

граница

Варав— домрмя—мж

(ДО

Ф»*Щ

Ощуттинманачвнма

0,00

X — Ь. Y — стандартное отклонение. I — нижняя доверительная граница: 2 — верхняя доверительная граница

Рисунок 6 — График Бокса-Кокса

17

ГОСТ Р ИСО 16269*4—2017

YA

Выборе про среднее

1.238

Выборочное стандартное

отклонение

0.9601

Объем выборы

60

Сптютш* Ахмроонв-Дарлимк

64

jHKKMOwe

<0,005

а) !>ефт «аротноаг* д» «жадно* выбор»

ВыВорсмное сроднее

0ДН288

ЕЬборкмкю стандартно»

отклонение

0.4924

Объем выборы

60

Отштнетже Андерооив Дврпинга

0417

рвпаиявю

0Д18

Ь) Графит аарсетноетм для лрейбражнишной шбврии

XT — значения исходной выборки: Х2 — значения преобразованной выборки, Y — проценты Рисунок 7 — Графики вероятности для исходных и преобразованных данных

4.3.6 Критерий Кохрена для выявления выбросов дисперсий

Важной задачей является обнаружение выбросов в наборе дисперсий, вычисленных по наборам выборочных данных, в частности, при определении точности методов измерений [3] посредством межлабораторных исследований. Критерий Кохрена широко используют для определения того, является ли действительно значимым отличие наибольших дисперсий от остальных дисперсий в исследуемом наборе дисперсий.

Для набора дисперсий sf,.... s*. вычисленных по р выборкам, каждая из которых имеет объем л. статистика критерия Кохрена имеет вид

С -

(7)

где s?ax — наибольшее значение дисперсии в наборе из р дисперсий. В таблицах приложения Е приведены критические значения статистики критерия Кохрена (С) с уровнем 5 %. 1 % и 0,01 % для всех значений р от 2 до 40, при этом предполагается, что дисперсии вычислены по выборкам объема л с л от 2 до 10. Если вычисленное значение С превышает критическое значение, то наибольшую дисперсию в исследуемом наборе дисперсий считают выбросом.

Примечание — Критические значения статистики критерия Кохрена. приведенные в приложении Е. в идеале применяют тогда, когда все стандартные отклонения получены по выборкам одинакового объема п.

Пример — Пять лабораторий принимали участие в проведении исследований по определению показателей поглощения влаги. Каждая лаборатория провела восемь экспериментов в условиях повторяемости и в соответствии со стандартным методом измерений. Был получен следующий набор дисперсий.

Номер лаборатории i

1

2

3

4

5

Дисперсия а?

12.134

2.303

3.594

3.319

3.455

В соответствии с таблицей Е.1 критическое значение критерия Кохрена с уровнем доверия 5 % для р = 5 и п = 8 составляет 0.4564. Так как значение статистики критерия Кохрена

18

ГОСТ Р ИСО 16269-4—2017

С = 12,134/(12,134+2.3033,594*3.319*3.455)=О,4892 превышает это критическое значение, то можно считать, что дисперсия, вычисленная по результатам лаборатории 1, значительно превышает дисперсии, полученные по результатам остальных лабораторий.

4.4 Графический критерий выявления выбросов

Для обнаружения выбросов рекомендуется применять модифицированную диаграмму ящик с усами, если распределение совокупности является нормальным или экспоненциальным. 8 отличие от процедур проверки гипотез, приведенных в 4.3. графический критерий выявления выбросов, основанный на диаграмме ящик с усами, не требует предварительного знания о количестве выбросов или расположении выбросов.

При использовании модифицированной диаграммы ящик с усами для определения нижней границы l.f и верхней границы UF вместо первого квартиля Q, и третьего квартиля Q3 используют соответственно нижнюю четверть xLo и верхнюю четверть xUn

“ *i.:n “    я “ *1.:л)    jgj

Up Я XU:b “ *и(*и:л “ *L:ri)

где л — объем выборки:

к| и йи — показатели, зависящие от предполагаемого распределения данных и объема выборки л;

xL — нижняя четверть на диаграмме ящик с усами

[*<;,♦ Vt^2- всли/г°:

*<**>■    если /> 0.

хил — верхняя четверть на диаграмме ящике усами

х _ [ [х(л-п + х{л-г* i    если f=0;

ил    еслиГ>0,

при этом п/4 = / ♦ f. где i — целая часть л/4, a f— дробная часть л/4 и х(1)(1)5... £х(п) — порядковые статистики выборки.

Примечание 1 —Данное определение нижней и верхней четвертей используют для определения значений А, и (см. приложение С), его определяют по умолчанию в большинстве широко используемых пакетах программ статистической обработки данных.

Элементы выборки, расположенные выше верхней границы или ниже нижней границы, рассматривают как возможные выбросы. Характерной особенностью модифицированной диаграммы ящик с усами является определение констант /с, и ки с учетом того, что для выборки, не содержащей выбросов. определена вероятность того, что один или более элементов выборки могут быть ошибочно классифицированы как выбросы, равная установленному малому значению а. При кх - ки - 1.5 модифицированная диаграмма ящик с усами является обычной диаграммой ящик с усами, рассмотренной в 4.2. Для выборок из нормального и экспоненциального распределения при выбранном значении а и 9s ns 500 значения Л, и ки могут быть определены в соответствии с С.2 (см. приложение С).

Примечание 2 — Нижняя граница модифицированной диаграммы ящик с усами, построенной в предположении об экспоненциальном распределении данных, может принимать отрицательные значения, если данные не подчиняются экспоненциальному распределению.

Пример 1 — Для выборки объема п = 20 из примера, рассмотренного в 4.3.2, п/4 = 20/4 = 5, т.е. i = 5 и f= 0, таким образом, оценки нижней и верхней четвертей имеют вид

х,.„= [х(5)(6)}/2 = 0,5(-0,36 - 0,19) * -0,275,

*U:o =    * W/2 = 0.5(-0.93 - 1.22) = 1,075.

Для выборок из нормального распределения с а = 0,05 нижняя и верхняя границы построены для kL - кц - 2,238 (см. пример 1 в приложении С)

Lf * xL:n-kL(xU:n - xL;n) = -0.275 - 2,2382(1.075 * 0,275) - -3,297,

UF = хи.„ - ки(х0.„-хи1) * f.075 - 2,2382(1.075 + 0.275) = 4,097.

19

ГОСТ Р ИСО 16269*4—2017

Таким обрезом, два наиболее экстремальных значения 5,80 и 12,60, лежащие выше верхней границы, следует считать выбросами.

Пример 2 — Для выборки объема л * 22 из примера, рассмотренного в 4.3.3.4, Ы4 = 22/4 -5*1/2 таким образом, оценки нижней и верхней четвертей х1;п =х^ = 13,13 и ху.„ = х^ =22,50.

Для данной выборки с с = 0,05 верхняя и нижняя границы имеют вид:

Таким образом, экстремальное значение 64,94, лежащее выше верхней границы, следует рассматривать как выброс. Значения к, = 0,6650 и ки = 6,2313 получены в примере 2 приложения С.

Пример 3 — Предположим, что второе по величине значение в выборке из примера, приведенного в 4.3.3.4 (43,0), было ошибочно записано как 4,30. Так как значение 4,30 лежит на диаграмме ящик с усами ниже нижней границы Lf = 6,899, то его еле dye/л признать выбросом. Однако из-за эффекта маскировки, формальная процедура проверки в соответствии с 4.3 не расценивает нижнее экстремальное значение 4,30 и верхнее экстремальное значение 84,94, как выбросы.

5 Коррекция влияния выбросов в одномерной выборке

5.1    Робастный анализ данных

Каждый обнаруженный выброс должен быть исследован и объяснен. Если выброс вызван ошиб* кой. причина которой может быть обнаружена (например, канцелярская ошибка, ошибка получения раствора, ошибка измерений и т. д.). то его значение должно быть скорректировано, если истинное значение известно или. в противном случае, удалено. Если наличие выбросов не может быть разумно объяснено, то данные значения не следует удалять; они должны быть обработаны как достоверные наблюдения и использованы в последующем анализе данных с использованием робастных процедур, устойчивых к наличию выбросов. Методы коррекции влияния выбросов, представленные в 5.2 и 5.3, могут снижать влияние выбросов на результат анализа данных без удаления значений, которые рас* познаны как выбросы. Альтернативный способ состоит в проведении анализа дважды при наличии выбросов и без выбросов.

5.2    Робастная оценка параметра положения

5.2.1    Общие положения

Выборочное среднее является оптимальной оценкой параметра положения нормального распре* деления. Однако эта оценка не является устойчивой и робастной оценкой. В литературе предложено большое количество разнообразных процедур получения робастной оценки параметра положения. Усе* ченное среднее, рассмотренное в 5.2.2. широко используют для снижения искажения оценки параме* тра положения при наличии выбросов в выборке из симметричного распределения. Для выборок сово* купности с асимметричным распределением рекомендуется определять оценку параметра положения в соответствии с 5.2.3.

5.2.2    Усеченное среднее

Если в выборке из симметричного распределения возможно наличие выбросов, в качестве оценки центра распределения рекомендуется использовать усеченное среднее.

Пусть XjfjSX'MjS...    — порядковые статистики выборки объема п.

Пусть г = [ил] — наибольшее целое, меньшее или равное ил и g = ал-г—дробная часть ал. где 0 s а s 0.5 — доля выбросов в выборке.

Значение а — усеченного среднего [9]. обозначаемого хт(а), вычисляют как среднее без учета г наименьших и г наибольших значений выборки, но включая в вычисления два ближайших сохраненных значения х(,41) и хг) с уменьшенным весом (1 - д). например.

Примечание 1 — Если ил — целое, то g » 0, таким образом усеченное среднее является выборочным средним усеченной выборки.

lf = xL.n - kL(xU:n - xL:fJ = 13,3 - 0,6650(22.50 + 13,13) = 6.899,

UF = xU:n -    - *l:nf * 22-50 * 6,2313(22.50 - 13,13) = 80,887.

(9)

20

ГОСТ Р ИСО 16269*4—2017

Примечание 2 — Обычно предварительно значение а задают меньше 0.25. Классическое выборочное среднее — это 0-усеченное среднее, тогда как выборочная медиана представляет собой приближенно 0,5-усвчен-нов среднее.

ПримечаниеЗ — Другой распространенной оценкой параметра положения является а-винсоризова иное среднее, в котором г = ап наименьших наблюдений, отброшено до значения х^^и гнаибогьших наблюдений отброшено до т. е. произведена замена г наибольших и г наименьших значений на значение (1 - g) х-^а).

Пример — Для выборки объема п = 20, представленной в 4.3.2, вычислены выборочные среднее и медиана, а также усеченные средние с долей усечения 5%, 10%, 15 %, 18% и 20 94. Получены следующие значения:

1 п 20    1

Выборочное среднее *— Z,_i х, = -—{19.69} = 0.9845.

20 ' 20

1 1

Выборочная медиана - — [хдоу + х^у] = ^(0,30 + 0.43) = 0,365

«К0.05) -гд^.г.од,)    - MW

'X»'11» ~ 20(1 -2-0.10) ^3»СГ>3<> - 0.33375.

- 20(1-2-0.15)    - 0.3257,

'7(0.18) °20(i.;.0i1e)=[(1 - 0.0в)(х(4)♦ «„„> ♦    *,„] = ^0.176 7 4.12) = 0,3356.

'7(0*30) °гц1Ло.20)£"5'<'ГТ5<4-,г) = °'3433'

Данные результаты предполагают, что относительно большое выборочное среднее соответствует наличию двух выбросов, тогда как усеченные средние стабилизируются от 10 % до 20 % усечения набора данных.

5.2.3 Дважды взвешенная оценка параметра положения

Дважды взвешенная оценка параметра положения [9] является устойчивой к наличию выбросов в выборках из асимметричных распределений и робастной по отношению к небольшим отклонениям от

нормального распределения. Для данной выборки х,. х2.....х„ объема л. дважды взвешенная оценка

параметра положения имеет вид

(10)

где 14 = {х- - Гп) I cMad. с = 6.0. Mad = Median(|x, - М\, /= 1. 2.....л) М*выборочмая медиана. Оценку Т„

вычисляют итеративно. Значения V„k] и = (х} - 71**) / cMad являются оценкой Г„ и на к-й итерации, оценка Тп на (к+1}*й итерации

^N<1 И -и?*)2

Итеративный процесс следует продолжать до тех пор, пока последовательность оценок не станет сходиться с требуемой точностью. Например, итерации могут быть прекращены, если 17i**1>- 7W| < 1О-5. Подходящим устойчивым начальным значением 7^0) является выборочная медиана М.

Примечание — В предположении нормальности распределения данных, дважды взвешенная оценка при с = 6.0 означает взвешенное среднее, в котором значениям, отклоняющимся от медианы более чем на четыре стандартных отклонения, присвоен нулевой весовой коэффициент.

Пример—Дважды взвешенная оценка параметра положения для выборки, представленной в 4.3.2, Т„ = 0,176. Она близка к выборочному среднему (0,1565) при замещении двух экстремальных значений (5,80 и 12,8) корректными значениями (0,58 и 1.28).

21

ГОСТ Р ИСО 16269*4—2017

5.3 Робастная оценка дисперсии

5.3.1    Общие положения

Ниже представлены две широко используемые оценки параметра масштаба, устойчивые к выбросам и используемые вместо оценки стандартного отклонения выборки.

5.3.2    Попарное абсолютное отклонение медиан

Постоянная sn — корректирующий множитель, выбираемый так. чтобы гарантировать, что S„ является несмещенной оценкой параметра масштаба предполагаемого распределения (нормального, экспоненциального и т. д.). Для больших выборок из нормального распределения значение sn = 1,1926 (см. [10]). тогда как для больших выборок экспоненциального распределения s„ = 1.6982. Значения s„ для ряда объемов п выборок из нормального распределения приведены в таблице 0.1.

5.3.3 Дважды взвешенная оценка параметра масштаба

Дважды взвешенная оценка параметра масштаба для выборки хг х2.....хл соответствует пред*

ставленной в [9] и имеет вид:

где М — выборочная медиана, и, = (х( - М) I (cMad) и Ma<j - Median(|x, - М|. / = 1. 2.....п) для выборки

объема о из нормального распределения. Рекомендуемое значение для с составляет 9.0. Значения Sbl, основанные на с = 9.0 для ряда объемов п выборок из нормального распределения, приведены в таблице D.1.

Примечание — В предположении нормальности распределения данных, дважды взвешенная оценка для с = 9.0 означает взвешенное среднее, в котором значениям, отклоняющимся от медианы более чем на шесть стандартных отклонений, присваивают нулевой весовой коэффициент.

Пример —Для выборки, представленной в 4.3.2, классическое выборочное стандартное отклонение s, робастные оценки масштаба S„ (см. 5.3.2) и (см. 5.3.3 выше) заданы следующим образом

Эти результаты показывают, что стандартное отклонение s существенно увеличено за счет двух наибольших наблюдений. Соответствующие робастные оценки S„ и имеют относительно небольшие. близкие друг к другу значения.

6 Выбросы многомерных и регрессионных наборов данных

6.1    Общие положения

Задача обнаружения выбросов в наборе многомерных и регрессионных данных является более сложной, чем задача обнаружения выбросов в наборе одномерных данных. Многомерный выброс — это выброс по любой из компонент наблюдения или многомерных координат. Многомерные выбросы также могут быть в некоторой степени скрыты механизмом их появления, и их присутствие обнаруживается только после анализа структуры данных. Выброс регрессионных данных может не быть просто экстремальным значением, а быть наблюдением, которое значимо отклоняется от основной регрессионной модели.

6.2    Выбросы многомерных данных

Общая идея методов выявления выбросов в многомерных наборах данных заключается в преобразовании многомерных данных к одномерным статистикам. Одной из широко используемых статистик является расстояние Махаланобиса. являющееся мерой расстояния от многомерного наблюдения до выборочного среднего набора данных, нормированного при помощи выборочной ковариационной матрицы. Из р переменных (случайных величин) X,. Х2.....Хр составлен упорядоченный набор р-мерный

вектор X * (Х„Х2.....ХР)Т.

S„ = s„Median,(Median, |xf-x;|./*;././= 1. 2,.... л).

(11)

S*    |Zw<i(i-«?>(l-5«?>| '

(12)

s * 3,1772, S„ = 1,015, Sbi- 1.1565.

22

ГОСТ Р ИСО 16269-4—2017

Пусть и = (pv (j2.....цр)т — вектор средних р случайных переменных X. а матрица р * р — матри

ца ковариаций 1. где диагональные элементы являются дисперсиями, а остальные — ковариациями элементов вектора X.

Расстояние Махаланобиса от случайного вектора Хдо вектора средних значений р определено следующим образом

М0 = 7(Х-ц)г    .    (13)

Выбросы в выборке многомерных наблюдений объема п: X,. Х2 Хр могут быть выявлены посредством определения л соответствующих расстояний Махаланобиса M0i - д/(х>-и)г£-11-ц) / - 1. 2..... л. Если вектор X может быть многомерным нормальным распределением со средним ц и матрицей ковариации £ квадрат расстояния Махаланобиса М%, подчиняется распределению хи-квадрат с р степенями свободы.

Приведенная выше формула для вычисления расстояния Махаланобиса зависит от знаний р и £. На практике требуется найти оценки р и £ по выборочным данным. При наличии выбросов робастные оценки для р и £ должны быть получены с помощью метода минимального определителя ковариации (MCD). Метод MCD находит среди л данных наблюдений, те h наблюдений, которые придают определителю матрицы ковариации наименьшее значение. В предположении, что выборка содержит не более 100а % выбросов, значение b следует выбирать близким к (1 - а)л. однако оно должно быть больше целой части числа ((л * р +1)/2]. Тогда среднее и матрица ковариаций, определенным по этим найденным h наблюдениям являются MCD-оценками рмсо и Хмсо для р и £ соответственно. Робастное расстояние для наблюдения х, имеет вид:

■    о*)

8 предположении нормальности распределения данных, консервативный критерий [11] объявляет выбросами те наблюдения, которые имеют робастное расстояние, превышающее критическое значение /j Хо.975*. где To97s^> — процентиль уровня 97.5 % распределения хи-квадрат с р степенями свободы.

Визуальное сопоставление расстояния Махаланобиса с робастным расстоянием, а также результативность использования робастного расстояния в выявлении выбросов показано на примере.

Пример — Дана выборка объема п = 35. содержащая двумерные наблюдения (х1, х2).

Номер

наблюдения (

*2J

Номер

неблюдения 1

*11

“V

Номер

наблюдения i

*1»

*21

1

12,00

12,60

13

12,90

12,95

25

15,60

15,64

2

9,30

10,20

14

12,90

13,50

26

13,25

12,85

3

15,00

14,50

15

13,10

13,80

27

16,83

16,85

4

10,15

19,30

16

16,00

16,25

28

12,00

11,70

5

10,45

10,80

17

13,45

13,00

29

17,30

17,25

6

17,45

16,90

18

13,55

15,20

30

10,65

10,80

7

10,80

11,95

19

14,30

15,10

31

17,55

17,70

8

10,80

10,85

20

14,40

14,55

32

18,20

18,35

9

10,75

11,65

21

13,60

14,35

33

19,10

19,30

10

17,00

17,50

22

14,80

14,99

34

13,55

14,00

11

8,25

17,20

23

10,15

9.90

35

12,55

15,10

12

12,66

13,30

24

15,10

15,15

Для каждого наблюдения вычислены расстояние Махаланобиса и робастное расстояние, и нанесены на график, представленный на рисунке 8; при этом был использован метод MCD при h, равном 32 наблюдениям. Данный график построен при помощи свободно распространяемого пакета программ статистической обработки данных LIBRA [11]. При помощи штриховой линии представлено множество значений, для которых расстояние Махаланобиса равно робастному расстоянию. Гэ-ризонтальная и вертикальная линии пересекаются в точке, соответствующей критической точке

23

ГОСТ Р ИСО 16269*4—2017

.aJx£.97S;p = *17,378    = 2,716. Точки, расположенные за этими линиями, могут быть рассмотрены как

выбросы. Робастное расстояние на данном графике выявляет то. что точки 4, 11 и 35 являются выбросами. Однако расстояние Махаланобиса выявляет в качестве выбросов только точки 4 и 11. То. что расстояние Махаланобиса выявляет в качестве выбросов только точки 4 и 11, может выглядеть как эффект маскировки, рассмотренный в 2.3. При вычислении расстояния Махаланобиса без учета наблюдений 4 и 11. наблюдение 35 также выявлено как выброс.

X — расстояние Махаланобиса. Y — робастное расстояние Для данных, представленных на рисунке 11. наблюдения 4.11 и 35 обозначены своими номерами.

Рисунок 8 — График расстояния Махаланобиса и робастного расстояния

6.3 Выбросы в линейной регрессии 6.3.1 Общие положения

При анализе простой линейной регрессии, случайная точка (Y.X) может быть выбросом как по компоненте У. так и по компоненте X или по обеим. На рисунке 9 представлен график рассеяния точек с координатами (у., х). точка 1 удалена от линии по координате у и. таким образом является выбросом по координате у, но не является выбросом по координате х; точка 3 удалена от остальных точек по ко* ординате х, но по координате у не является выбросом; точка 2 является выбросом как по координате х. так и по координате у.

24

ГОСТ Р ИСО 16269-4—2017

Рисунок 9 — График рассеяния точек (У,Х)

По графику, представленному на рисунке 9. видно, что не все выбросы оказывают различное влияние на положение линии регрессии. Точка 1 имеет координату х. близкую к координатам х других элементов выборки, поэтому оказывает влияние только по координате у. Аналогично координата у точки 3 соответствует координатам у других точек выборки, эта точка оказывает влияние на линию регрессии по координате х. Точка 2 оказывает влияние на линию регрессии, как по координате х. так и по координате у.

6.3.2 Модели линейной регрессии

8 моделях линейной регрессии случайную величину У рассматривают как зависимую от единственной переменной X. линию регрессии строят по точкам (у,. х,}, i- 1.2... .п. принадлежащим выборке объема п. в соответствии с моделью:

£ = Ь0 + £>,х,    <15>

при этом, определяют *-й остаток, как разность между наблюдаемым значением у(. и соответствующим приближенным значением т. е.

*,*&/* 1.2.....п.

С помощью обычного метода наименьших квадратов можно определить значения Ъ0 и б,. так что-

в О .

бы минимизировать сумму квадратов остатков 2.*.1 е?

£(х;-х)у,

bt»-4-•    <16>

£<Х;-Х-)2

Г*1

ь0-у-V.

где х и у — выборочные средние соответственно для компонент х( и у..

Влияние выбросов по X и/или У на построение линии регрессии методом наименьших квадратов может быть проанализировано с помощью оценки значений

9i

У + Д,{Х; - X) = У + {X; - х>

Л

S(X=—х)у, '

I

(г«1

25

ГОСТ Р ИСО 16269*4—2017

или эквивалентно

где значения

.    . 1 t (Х;-Х)(Х,-Х)

пч Л "

I (X*-*)* **1

(17)

вычисляют только на основании независимой переменной X. Значения h являются элементами симме-

О

тричной матрицы Н - (Л^) размера п*п. называемой проекционной матрицей. Из равенства У( = Е

следует, что значения h4 являются показателем того, как значения X влияют на то. насколько суще* ственна роль у•. в получении приближенного значения

Подобным образом, рассматривают случайную величину У. зависящую от р случайных величин X,. Х2.....Хр. для которой значение регрессионной функции для выборки из л элементов

(У,, x.v */2< —> х^). / — 1.2 л представляет собой

+ V,1+ Va + - + fiiV

где Ь} является /*м коэффициентом регрессионной функции, ах — /*е частное значение ;*й случайной независимой переменной х;. Как и в случае с одной независимой переменной. У-й остаток приближения имеет вид е, * у, - у. В матричном виде модель многомерной регрессии записывают следующим образом:

j7-ХЬ.    (18)

где У = (Уг .... ул)г — л-мерный вектор. Ь - (60, й,.....йр)г вектор, размерности (р + 1). X — матрица

л * (р + 1)

1 хп ... х1 х ... х

1 хо1 ... х„р

Вектор коэффициентов находят методом наименьших квадратов

Ь * (ХгХ)-1Хгу    (19)

и вектор значений У может быть получен непосредственно в терминах проекционной матрицы Н:

У*ХЬ«Х(ХгХ)"1Хгу8 Ну.

где у = (у,,..., ул)г — вектор размерности л. состоящий из л значений у.

Н * Х(ХГ Х)-1ХГ

Н — матрица л - л.

6.3.3 Обнаружение выбросов по компоненте У

Робастная процедура обнаружения выбросов по компоненте У в выборке объема л анализирует стъюдентизированные ошибки которые являются ошибками построения регрессионной функции, вычисленными без использования /-го наблюдения. Стьюдентизированные ошибки рассчитывают по формуле (см. (12]).

'■••■Я

-р-2

)rsse“®?

./в 1,2.....л.

(20)

26

ГОСТ Р ИСО 16269*4—2017

где е, = у; - у• — /-й остаток;

hs — диагональный элемент матрицы Н:

fiSSE = 1*1 е? — сумма квадратов остатков, полученных при построении регрессионной функции на основе п наблюдений, при этом количество оцениваемых параметров функции регрессии равно р* 1.

Примечание — Выражение для стьюдентизироеанной ошибки г- (см. [12)) основано на том. что i-e

наблюдение (у(. хл> ха.....х,р) не включено в построение функции регрессии по оставшимся л-1 точкам. Такая

ошибка может быть подсчитана для каждой Ай точки без изменения регрессионной функции в соответствии с уравнением (20).

Стьюденгизированные ошибки rt имеют (-распределение с л-р-2 степенями свободы, наблюдения для которых стъюдентиэированные ошибки, больше чем (1_а/2пп_р_2. следует рассматривать как выбросы по компоненте У.

6.3.4 Обнаружение выбросов по компоненте X

Диагональные элементы матрицы Н также могут быть использованы для определения выбросов по компоненте X. Некоторые полезные свойства элементов hg проекционной матрицы

м О

L*\hg = p* 1,

если hg = 0 или hg - 1. то Л„ = 0 для всех j * /,

где р+1— количество параметров регрессионной модели, включающей постоянный член.

В частном случае, линейной регрессии с единственной независимой переменной (р=1) и постоянным членом, диагональные элементы hg проекционной матрицы Н имеют вид

Л,

1

Л "

It**-*)2

Л-1    *

(21)

Это выражение показывает, что hg характеризует расстояние между значением, принимаемым случайной величиной X в Ай точке и средним арифметическим всех л значений, принимаемых X. Большие значения ЛА говорят о том. что значение х, значительно отклоняется от соответствующих значений большинства наблюдений, о чем свидетельствует то. что при j t i значения |х, - х) меньше, чем при у = /. Диагональные элементы Ьи проекционной матрицы в данном контексте называют влиянием /•го наблюдения. В общем случае />,, считают существенным, если h0 более чем в два раза превосходит

1 11    2(о +1)

среднее Я = —£    = (р + 1) / л. Данное правило означает, что если Л.. 2 ——-. то /*е наблюдение по

пгв1 «    «    п

координате X следует считать выбросом. В соответствии с другим простым критерием (см. [13]):

•    данные с hu менее 0.2 можно безопасно использовать в регрессионном анализе;

•    данные с hu от 0.2 до 0.5 могут быть включены в регрессионный анализ;

•    данные с Л„ более 0.5 должны быть исключены из регрессионного анализа.

6.3.5 Обнаружение влияющих наблюдений

Следующим шагом после выявления выбросов по компоненте У и/или X является установление того, ведет ли удаление точек, соответствующих выявленным выбросам к значительным изменениям построенной регрессионной модели. Широко используют два показателя влияния выявленных выбросов: значение DFFITS и расстояние Кука (см. [12]. [14]).

Значение DFFITS

Обозначение DFFITS представляет собой аббревиатуру английского выражения, означающего «различие приближений». Для /-го наблюдаемого значения DFFITS определяют как

(DFFITS), = в,

[

л-р-2

Kssed-"*)-

(22)

27

ГОСТ Р ИСО 16269*4—2017

где rt — стыодентиэироеанная ошибка, определяемая по формуле (20). Наблюдаемое значение с номе* ром / считают влияющим элементом выборки, если абсолютное значение (DFFITS)., превышает 1 для

малых и средних выборок и превышает 2 yf(p*iyn для больших выборок.

Расстояние Кука

Расстояние Кука, обозначаемое D,, определяют следующим образом

_ (п-р-1)е?Г л„ Л

(23)

где большие значения е, или Ьи дают большие значения Dt. Таким образом, большие значения О. свидетельствуют о влияющих наблюдениях. В (14] сделано предположение, что наблюдения, для кото* рых расстояние Кука превышает значение F0 sopn л-p-v соответствующее процентилю уровня 50 % F-распределения. можно считать влияющими выбросами; здесь о — объем выборки, р+1— количество параметров регрессионной модели (включая свободный член), показывающий количество степеней свободы, связанных с числителем п-р-1 — число степеней свободы, связанных со знаменателем. Наблюдения со значениями расстояния Кука, превышающими F0 50 рИ следует изучить на предмет наличия ошибок при записи полученных данных или других возможных причин появления экстремальных значений.

Примечание — Приведенные методы не эффективны, если два или более влияющих наблюдения расположены близко друг к другу. Дополнительные процедуры, направленные на выявления двух или более влияющих наблюдений, расположенных близко друг к другу, требуют выполнения значительного количества вычислений.

Пример — Проведено исследование по определению связи общего содержания жира е организме человека (У) с толщиной кожной складки над трицепсом (X,) и обхватом бедра (Х^ (см. столбцы 2, 3 и 4 в таблице ниже). Данные исследования представлены в [12]. Трехмерный арафик для точек (V, X,, Х2) приведен на рисунке 10.

Номер наблюдения

Толщина кожной складки над трицепсом

Обхват

бодра

Общее содержание жира

Ошибка

Значение ел ил ни я

Стьюдвитюиро-ванный остаток

/

Хг,

ъ

*

1

19.5

43.1

11.9

•1.683

0.201

-0,730

2

24.7

49.8

22.8

3,643

0.059

1,534

3

30.7

51.9

18.7

-3.176

0.372

-1,656

4

29.8

54.3

20.1

•3.158

0.111

-1,348

5

19.1

42.2

12.9

0.000

0.248

0.000

6

25.6

53.9

21.7

•0.361

0.129

-0.148

7

31.4

58.5

27.1

0,716

0.156

0.298

6

27.9

52.1

25.4

4,015

0.096

1.760

9

22.1

49.9

21.3

2.655

0.115

1,117

10

25.5

53.5

19.3

-2.475

0.110

-1,034

11

31.1

56.6

25.4

0.336

0.120

0.137

12

30.4

56.7

27.2

2.226

0.109

0.923

13

18.7

46.5

11,7

-3.947

0,178

-1.625

14

19.7

44.2

17.8

3.447

0.148

1,524

15

14.6

42.7

12.8

0.571

0.333

0.267

16

29.5

54.4

23.9

0.642

0.095

0.258

17

27.7

55.3

22.6

•0.851

0.106

0.344

18

30.2

58.6

25.4

•0.783

0.197

0,335

19

22.7

48.2

14.8

-2.857

0.067

-1,176

20

25.2

51.0

21.1

1.040

0.050

0.409

28

ГОСТ Р ИСО 16269-4—2017

X — толщина кожной складки над трицопсоы; Y — обхват бедра: 2 — общее содержание жира

Рисунок 10 — График рассеяния для связи общего содержания жира с обхватом бедра и толщиной кожной складки над трицепсом

Методом наименьших квадратов получена функция регрессии

£ = -19.174 ♦ 0.2224xt> «• 0,6594х^

при этом сумма квадратов остатков ftSSE = ef = 109,95: и г. для полученной функции регрессии представлены соответственно в столбцах 5.6 и 7 таблицы выше.

Так как п - 20 и р = 2. то при установленном уровне значимости а = 0.05

*1-о/2л;»-р-2 = *0.99675.16 = 3,5802.

Так как |г| s 3,5802 для всех /. то по компоненте У не выявлено выбросов.

При выявлении выбросов по компоненте X. получено, что Л33 = 0,372 и Л15 ,5 = 0,33 превышают значение

2Л = 2{р ♦ 1)/п* 2(2 + 1)/ 20 = 0.3,

т. е. наблюдения 3 и 15 являются выбросами по компоненте X.

Для определения влияния наблюдений 3 и 15 на построенную линию регрессии подсчитаны соответствующие значения расстояния Кука

_ Щ-3.176)2 °3~ 3(109.95)

Е

0,372

(1-0.372F

-J = 0.490

и £>15 = 0,212. Так как оба значения меньше значения F0 м.3 1? = 0.8212, то наблюдения 3 и 15 не объявлены влияющими выбросами.

Функция регрессии при исключении наблюдения 3 представляет собой

j? = -12.248 ♦ 0.5641*,, ♦ 0.3635*2,

здесь значения оценок параметров существенно отличаются от соответствующих оценок, полученных с учетом 3-го наблюдения.

6.3.6 Робастная регрессионная процедура

Альтернативный подход к выявлению выбросов в регрессионном анализе состоит в построении робастной регрессионной модели для большей части данных и дальнейшем определении выбросов как точек, имеющих наибольшие остатки. Широко используют робастную регрессионную модель, получаемую методом усеченных наименьших квадратов (LTS) [15]. Регрессионные коэффициенты LTS-регрессии получают путем минимизации суммы m наименьших квадратов регрессионных остатков.

Также рассматривают выборку объема п (уу хл, хд.....х^), / = 1. 2.....п, где приближенные значения и

остатки находят по формулам

29

ГОСТ Р ИСО 16269*4—2017

* = б0 +V,,+ --- +Vv в, = у,-у1

соответственно.

В данном случае коэффициенты £>,>.£>,.....Ьр. LTS-регрессии представляют собой значения, мини*

мизирующие сумму квадратов остатков е*, где ej^ является /*й порядковой статистикой квадратов остатков {т. е. остатки сначала возводят в квадрат, а затем упорядочивают), m — количество каблюде* ний (из п наблюдений), в отношении которых делается предположение о том. что они хорошо соответствуют регрессионной модели, полученной методом LTS. Если предполагается, что выборка содержит не более 100а % выбросов, значение m следует брать близким к (1*а)л. но не менее целой части значения |(л+р+1)/2). Наблюдения, содержащие большие остатки, считают выбросами.

Примечание — Оценку коэффициентов LTS-регрессии можно получить с помощью патентованных программных средств статистической обработки данных.

Пример —Для двумерных данных, составляющих выборку, рассмотренную в 6.2. на рисунке 11 представлены две линии регрессии, одна, соответствующая построению с помощью обычного метода наименьших квадратов (OLS), друга с помощью метода усеченных наименьших квадратов (LTS) при т = [0,9п].

В соответствии с 6.2. точки 4. 11 и 35 представляют собой выбросы.

Рисунок 11 — Сравнение линий регрессии, построенных с помощью LTS и OLS

Две наиболее влиятельные точки, расположенные в левом верхнем углу, вызывают отклонение линии регрессии, полученной OLS-методом от основной массы элементов выборки, при этом метод LTS позволяет определить линию регрессии очень хорошо соответствующую данным. Робастная процедура LTS-регрессии по существу игнорирует две влияющих точки, в построение регрессионной модели входит только около 90 % выборочных данных.

30

ГОСТ Р ИСО 16269*4—2017

Приложение А (обязательное)

Алгоритм GESD-лроцедуры обнаружения выбросов

Пусть выборка х,. х2.....х„ объема л огобрана из нормального распределения. Следующий алгоритм описы

вает необходимые этапы обнаружения т возможных выбросов с помощью процедуры обобщенных стьюдентнэи-рованкых экстремальных отклонений (GESD) с уровнем значимости о.

Считывают значения а. т.

Устанавливают / = 0.

Устанавливают /0г12.....х„).

ПОВТОРЯЮТ

Вычисляют выборочное среднее х(/,) и выборочное стандартное отклонение для выборки I,

Устанавливают    (см. примечание 1).

Устанавливают (»/ +1.

ДО ТЕХ ПОР ПОКА НЕ ВЫПОЛНЕНО / »/ +1.

Устанавливают / = 0.

ПОВТОРЯЮТ

Если (R, > аД го х(/) (значение х в ^ участвующее в вычислении значения Я,) считают выброоом. Устанавливают / = / +1.

ДО ТЕХ ПОР ПОКА НЕ ВЫПОЛНЕНО / * / +1.

Примечание 1 — /(41 представляет собой редуцированную выборку объема л-/, полученную удалением точки №. участвующей в вычислении значения R,. из выборки I,-

Примечание 2 — Если R, > л,-для всех/8 0.1. 2.....т. то делают заключение о том. что в выборке нет

тех |х-х(/,)|

Вычисляют статистику R,-—тт

®1'у)

100р.

выбросов.

31

ГОСТ Р ИСО 16269*4—2017

Приложение В

(обязательное)

Критические значения статистик для критерия наличия выбросов в выборке из экспоненциального распределения

Таблица В.1 — Нижние и верхние критические уровни 2.5 % и 1 % значения для статистики Gg критерия Гринвуда для выборки из экспоненциального распределения

О

Нижнее 1 Ч

Нижнее 2.5 Ч

Верх

нее

2.6 Ч

Верх

нее

1 Ч

Л

Нижнее 1 Ч

Ниж

нее

2.5 Ч

Верхнее 2.5 Ч

Верхнее 1 Ч

п

Нижнее t %

Ниж

нее

2.6 %

верхнее 2.5 Ч

Верхнее 1 Ч

2

0.5000

0.5003

0.9754

0.9901

34

0.042 8

0.0443

0.0790

0.0863

62

0.0195

0.0201

0.0301

0.031 9

3

0.3360

0.3402

0.8314

0.8901

35

0.0417

0.0431

0.0765

0.0835

64

0.0191

0.0196

0.0293

0.0311

4

0.2585

0.2658

0.6828

0.7563

36

0.0407

0.0421

0.0742

0.0809

66

0.0187

0.0192

0.0266

0.0302

S

0.2137

0.2217

0.5680

0.6400

37

0.0397

0.0411

0.0720

0.0784

88

0.0183

0.0188

0.0279

0.0295

6

0.1838

0.1914

0.4821

0.5474

38

0.0388

0.0401

0,0699

0.0761

90

0.0179

0.0184

0.0272

0.0288

7

0.1620

0.1689

0,4173

0.4749

39

0.0379

0.0392

0,0680

0.0738

92

0.0176

0.0180

0.0266

0.0281

8

0.1452

0.1514

0.3687

0.4173

40

0.0371

0.0363

0.0661

0.0717

94

0.0173

0.0177

0.0260

0.0274

9

0.1318

0.1374

0.3263

0.3710

41

0.0363

0.0375

0.0643

0.0698

96

0.0169

0.0174

0.0254

0.0268

10

0.1208

0.1260

0.2934

0.3331

42

0.0355

0.0387

0.0626

0.0679

98

0.0166

0.0170

0.0248

0.0262

11

0.1116

0.1164

0.2661

0.3016

43

0.0348

0.0359

0.0610

0.0661

100

0.0163

0.0167

0.0243

0.0256

12

0.1039

0.1082

0.2431

0.2751

44

0.0341

0.0352

0.0595

0.0644

105

0.0166

0.0160

0.0230

0.0242

13

0.0972

0.1012

0.2236

0.2S2S

45

0.0334

0.0345

0.0561

0.0628

110

0.0149

0.0153

0.0219

0.0230

14

0.0913

0.0951

0.2068

0.2330

46

0.0328

0.0338

0.0567

0.0612

115

0.0143

0.0147

0.0209

0.0219

15

0.0862

0.0897

0.1922

0.2161

47

0.0322

0.0332

0.0554

0.0S97

120

0.0136

0.0141

0.0199

0.0209

16

0.0816

0.0849

0.1794

0.2013

48

0.0316

0.0326

0.0541

0.0563

125

0.0133

0.0136

0.0191

0.0200

17

0.0776

0.0807

0.1681

0.1883

49

0.0310

0.0320

0.0529

0.0570

130

0.0128

0.0131

0.0163

0.0191

18

0.0739

0.0768

0.1S81

0.1768

50

0.0305

0.0314

0.0517

0.0557

13S

0.0124

0.0127

0.0176

0.0184

19

0.0706

0.0734

0.1491

0.1664

52

0.0294

0.0303

0.0496

0.0533

140

0.0120

0.0122

0.0169

0.0176

20

0.0676

0.0702

0.1411

0.1572

54

0.0284

0.0293

0.0475

0.0511

145

0.0116

0.0118

0.0163

0.0170

21

0.0648

0.0673

0.1338

0.1468

56

0.0275

0.0264

0.0457

0.0490

150

0.0112

0.0115

0.0157

0.0163

22

0.0623

0.0647

0.1272

0.1412

58

0.0267

0.0275

0.0440

0.0471

155

0.0109

0.0111

0.0152

0.0168

23

0.0600

0.0623

0.1212

0.1343

60

0.0259

0.0267

0.0424

0.0453

160

0.0106

0.0108

0.0146

0.01S2

24

0.0576

0.0600

0.1157

0.1280

62

0.0251

0.0259

0.0409

0.0437

166

0.0103

0.0105

0.0142

0.0147

25

0.0S56

O.OS79

0.1107

0.1223

64

0.0244

0.0251

0.0395

0.0421

170

0.0100

0.0102

0.0137

0.0143

26

0.0540

0.0560

0.1080

0.1170

66

0.0236

0.0244

0.0382

0.0407

175

0.0097

0.0099

0.0133

0.0138

27

0.0522

0.0542

0.1017

0.1121

68

0.0231

0.0238

0.0369

0.0394

180

0.009S

0.0097

0.0129

0.0134

28

0.0S06

0.0525

0.0978

0.1076

70

0.0225

0.0232

0.0358

0.0361

18S

0.0092

0.0094

0.0125

0.0130

29

0.0491

0.0509

0.0941

0.1034

72

0.0220

0.0226

0.0347

0.0369

190

0.0090

0.0092

0.0122

0.0126

30

0.0477

0.0494

0.0906

0,0995

74

0.0214

0.0220

0.0337

0.0358

195

0.0088

0.0090

0.0119

0.0123

31

0.0464

0.0480

0.0874

0.0958

76

0.0209

0.0215

0.0327

0.0347

200

0.0086

0.0087

0.0115

0.0120

32

0.0451

0.0467

0.0844

0.0924

78

0.0204

0.0210

0.031 6

0.0337

225

0.0077

0.0078

0.0102

0.0105

33

0.0439

0.0454

0.081 6

0.0893

60

0.0200

0.0205

0.030 9

0.0328

250

0.0070

0.0071

0.0091

0.0094

Примечание 1 — Каждое критическое значение основано па обработке данных, полученных при исследовании ста миллионов модельных выборок объема п.

Примечание 2 — Каждое значение а таблице округлено вверх до четвертой цифры после запятой, что гарантирует требуемый уровень значимости

32

ГОСТ Р ИСО 16269*4—2017

Таблица В.2 — Верхние критические значения уровня 5 % и 1 % для последовательных критериев обнаружения

верхних выбросов в выборке из экспоненциального распределения при т = 2

т • 2

п

S %

1 Ч

5 Ч

1

Ч

5

£и

*ТЛ

«и

*2л

атл

<1

«У

£и

5

£и

10

0.4348

0.4834

0.5143

0.5696

46

0,1187

0.1522

0.1376

0.1830

11

0.4010

0.4533

0.4748

0.5363

48

0.1145

0.1470

0.1327

0.1769

12

0.3724

0.4269

0.4412

0.5066

50

0.1106

0.1421

0.1282

0.1708

13

0.3480

0.4033

0.4125

0.4793

55

0.1020

0.1314

0.1179

0.1578

14

0.3268

0.3827

0.3868

0.4555

60

0.0946

0.1222

0.1092

0.1467

15

0.3082

0.3639

0.3647

0.4345

65

0,0884

0.1143

0.1020

0.1371

16

0.2916

0.3473

0.3447

0.4149

70

0.0830

0.1074

0.0955

0.1287

17

0.2770

0.3320

0.3273

0.3972

75

0,0783

0.1013

0.0899

0.1214

18

0.2637

0.31ВЭ

0.3114

0.3813

80

0,0741

0.0960

0.0849

0.1150

19

0.2519

0.3058

0.2971

0.3667

85

0,0703

0.0912

0.0807

0.1092

20

0.2413

0.2941

0.2845

0.3529

90

0,0670

0.0869

0.0767

0.1039

21

0.2313

0.2834

0,2723

0.3403

95

0.0639

0.0830

0.0732

0.0992

22

0.2224

0.2735

0.2616

0.3286

100

0,0612

0.0794

0.0700

0.0949

23

0.2142

0.2644

0.2519

0.3175

110

0,0564

0.0732

0.0644

0.0873

24

0.2065

0.2558

0.2426

0.3074

120

0.0524

0.0679

0.0596

0.0810

25

0.1995

0.2478

0.2340

0.2980

130

0,0489

0.0634

0.0556

0.0755

26

0.1929

0.2403

0.2263

0.2888

140

0.0458

0.0595

0.0521

0.0708

27

0.1868

0.2333

0.2190

0.2805

150

0,0432

0.0560

0.0491

0.0666

28

0.1812

0.2268

0.2123

0.2729

160

0,0409

0.0530

0.0464

0.0629

29

0.1757

0.2207

0.2058

0.2654

170

0.0388

0.0503

0.0440

0.0596

30

0.1708

0.2148

0.1998

0.2584

180

0,0369

0.0478

0.0418

0.0567

32

0.1617

0.2041

0.1890

0.2457

190

0.0353

0.0456

0.0399

0.0540

34

0.1535

0.1944

0.1792

0,2339

200

0.0337

0.0436

0.0Э81

0.0516

36

0.1462

0.1857

0.1705

0.2235

220

0,0312

0.0404

0.0351

0.0474

38

0.1397

0.1777

0.1627

0,2139

240

0.0289

0.0373

0.0325

0.0439

40

0.1337

0.1706

0.1555

0.2051

260

0,0269

0.0347

0.0303

0.0409

42

0.1283

0.1639

0.1491

0.1972

280

0.0252

0.0325

0.0284

0.0382

44

0.12ЭЗ

0.1578

0.1432

0.1898

300

0,0238

0.0306

0.0267

0.0359

33

ГОСТ Р ИСО 16269*4—2017

Таблица В.З — Верхние критические значения уровня 5% и 1 % для последовательных критериев обнаружения

верхних выбросов в выборке из экспоненциального распределения при т - 3

т » 3

SK

1 %

5 %

т %

Л

S0

S3r

«и

*гп

еи

*1я

5

fiu

“гп

п

$и

5

5гя

“Эя

яи

S

*1Я

15

0.3058

0,3210

0,3803

0,3577

0.3775

0.4497

55

0,0931

0.1052

0.1367

0.1056

0.1214

0,1635

16

0.2875

0,3035

0,3630

0,3360

0.3569

0.4296

60

0,0863

0.0976

0.1271

0.0975

0,1124

0,1520

17

0.2712

0,2881

0,3470

0,3165

0.3387

0.4112

65

0,0804

0.0912

0,1189

0.0908

0.1048

0,1421

18

0.2570

0,2743

0,3326

0,2994

0.3222

0.3949

70

0,0754

0.0855

0.1117

0.0849

0.0981

0,1333

19

0.2441

0,2619

0,3195

0,2837

0.3074

0.3798

75

0,0710

0.0806

0.1054

0.0799

0.0924

0,1257

20

0.2325

0,2507

0,3072

0,2698

0,2945

0.3658

во

0,0671

0.0762

0.0997

0.0754

0.0872

0.1190

21

0,2221

0,2403

0,2962

0,2579

0,2817

0.3525

85

0,0637

0.0724

0.0947

0.0715

0.0829

0.1130

22

0.2125

0,2309

0,2857

0,2462

0.2707

0.3404

90

0,0606

0,0689

0.0902

0.0679

0.0787

0,1076

23

0.2040

0,2224

0,2761

0,2362

0.2605

0.3290

95

0,0578

0.0658

0.0862

0.0648

0.0752

0,1026

24

0.1961

0,2142

0,2672

0,2268

0.2507

0.3166

100

0,0553

0.0629

0.0824

0.0619

0.0718

0,0981

25

0.1890

0,2066

0,2587

0,2181

0.2419

0.3087

110

0,0509

0,0580

0.0760

0.0569

0.0660

0,0903

26

0.1823

0,2000

0,2509

0,2104

0.2338

0.2993

120

0,0472

0.0538

0.0705

0.0527

0.0612

0,0837

27

0.1761

0,1937

0,2436

0,2029

0,2263

0.2907

130

0,0441

0.0502

0.0658

0.0491

0.0570

0,0780

28

0.1703

0,1878

0,2368

0,1962

0.2191

0.2829

140

0,0413

0.0471

0.0616

0.0460

0.0535

0,0731

29

0.1649

0,1821

0,2303

0,1897

0.2125

0.2749

150

0,0390

0.0444

0.0581

0.0433

0.0503

0,0688

30

0.1600

0,1770

0,2241

0,1840

0,2063

0.2680

160

0,0368

0.0420

0.0549

0.0409

0.0475

0,0650

32

0.1509

0,1674

0,2129

0,1730

0.1951

0.2546

170

0,0350

0.0398

0.0521

0.0388

0.0451

0,0616

34

0.1428

0,1589

0,2028

0,1637

0.1849

0,2426

180

0,0333

0.0379

0.0495

0.0369

0.0428

0,0585

36

0.1356

0,1513

0,1936

0,1552

0.1758

0.2318

190

0,0318

0.0362

0.0472

0.0352

0.0409

0,0557

38

0.1292

0.1444

0,1853

0,1476

0.1679

0,2218

200

0,0304

0.0346

0.0452

0.0336

0.0390

0,0533

40

0.1234

0,1382

0,1778

0,1409

0.1603

0.2125

220

0,0280

0.0318

0.0415

0.0309

0.0359

0,0489

42

0,1182

0,1326

0,1708

0,1348

0.1537

0.2044

240

0,0260

0.0295

0.0385

0.0287

0.0332

0,0453

44

0,1134

0,1274

0,1644

0,1291

0.1474

0.1969

260

0,0242

0.0276

0.0359

0.0267

0.0310

0,0421

46

0.1091

0,1226

0,1585

0,1240

0.1418

0.1898

280

0,0227

0.0258

0.0336

0.0250

0.0290

0.0394

48

50

0.1050

0.1013

0,1182

0,1142

0,1531

0,1480

0,1193

0,1150

0.1367

0.1320

0.1834

0,1769

300

0,0214

0.0243

0.0316

0.0236

0.0273

0,0370

34

ГОСТ Р ИСО 16269*4—2017

Таблица В.4 — Верхние критические значения уровня 5 % и 1 % для последовательных критериев обнаружения

верхних выбросов в выборке из экспоненциального распределения при /п = 4

т « 4

п

S %

1 Ч

S4*

su

s2zi

Su

S**

<и

*ТЛ

20

0.231 9

0.238 1

0.257 3

0.316 4

0.267 5

0.275 8

0.301 3

0.374 7

21

0.220 8

0.227 4

0.246 5

0.304 9

0.254 4

0.263 5

0.288 3

0.360 7

22

0.210 4

0.217 5

0.236 9

0.294 1

0.242 0

0.251 5

0.277 0

0.348 5

23

0.201 3

0.208 8

0.228 0

0.284 2

0.231 0

0.241 2

0.266 2

0.336 8

24

0.192 8

0.200 7

0.219 6

0.275 0

0.221 1

0.231 6

0.256 3

0.326 3

25

0.185 2

0.193 2

0.2120

0.266 2

0.212 1

0.222 7

0.247 3

0.316 3

26

0.178 1

0.186 3

0.204 9

0.258 1

0.203 7

0.214 8

0.239 0

0.306 5

27

0.171 6

0.180 0

0.198 4

0.250 7

0.196 1

0.207 2

0.231 3

0.297 6

26

0.165 6

0.174 0

0.192 4

0.243 6

0.189 0

0.200 2

0.223 8

0.289 7

29

0.160 2

0.168 5

0.1866

0.236 9

0.182 5

0.193 4

0.217 1

0.281 7

30

0.154 9

0.163 4

0.181 1

0.230 5

0.176 4

0.187 6

0.210 9

0.274 5

32

0.145 6

0.154 1

0.171 3

0.219 0

0.165 4

0.176 3

0.199 3

0.260 7

34

0.137 5

0.145 8

0.162 6

0.208 5

0.155 9

0.166 8

0.188 9

0.248 3

36

0.130 2

0.1384

0.154 7

0.199 0

0.147 3

0.158 1

0.179 5

0.237 3

38

0.123 8

0.131 8

0.147 7

0.190 5

0.140 0

0.1504

0.171 4

0.227 0

40

0.118 0

0.125 9

0.141 3

0.182 7

0.133 0

0.143 5

0.163 6

0.217 7

42

0.112 8

0.120 5

0.135 5

0.175 5

0.127 1

0.137 2

0.156 7

0.209 2

44

0.106 0

0.115 6

0.130 2

0.168 9

0.121 5

0.131 4

0.1504

0.201 5

46

0.103 7

0.111 1

0.125 2

0.162 8

0.116 6

0.126 2

0.144 6

0.194 3

46

0.099 7

0.107 0

0.120 8

0.157 2

0.112 0

0.121 4

0.139 3

0.187 8

50

0.096 0

0.103 2

0.116 6

0.151 9

0.107 7

0.1170

0.134 5

0.181 1

55

0.088 1

0.094 8

0.107 4

0.140 4

0.098 6

0.107 3

0.123 7

0.167 2

60

0.081 4

0.087 8

0.099 6

0.130 5

0.090 9

0.099 2

0.114 5

0.155 5

65

0.075 8

0.081 8

0.093 0

0.1220

0.084 5

0.092 3

0.106 8

0.145 4

70

0.070 9

0.076 7

0.087 2

0.114 6

0.078 9

0.086 3

0.099 9

0.136 3

75

0.066 7

0.072 2

0.082 2

0.108 0

0.074 1

0.081 1

0.094 1

0.128 6

60

0.063 0

0.068 2

0.077 7

0.102 3

0.069 9

0.076 5

0.088 8

0.121 7

85

0.059 7

0.064 7

0.073 8

0.097 2

0.066 2

0.072 6

0.084 3

0.115 5

90

0.056 8

0.061 6

0.070 2

0.092 5

0.062 9

0.068 9

0.080 1

0.109 9

95

0.054 1

0.058 7

0.067 0

0.088 3

0.059 8

0.065 7

0.076 5

0.105 0

100

0.051 7

0.056 2

0.064 1

0.084 5

0.057 2

0.062 8

0.073 0

0.100 3

110

0.047 6

0.051 7

0.059 0

0.077 8

0.052 5

0.057 7

0.067 2

0.092 3

120

0.044 1

0.047 9

0.054 7

0.072 2

0.048 6

0.053 4

0.062 2

0.085 5

130

0.041 1

0.044 7

0.051 1

0.067 3

0.045 2

0.049 8

0.057 9

0.079 7

140

0.038 6

0.042 0

0.047 9

0.063 1

0.042 4

0.046 6

0.054 3

0.074 6

150

0.036 3

0.039 5

0.045 1

0.059 5

0.039 8

0.043 9

0.051 1

0.070 2

160

0.034 3

0.037 4

0.042 7

0.056 2

0.037 6

0.0414

0.048 3

0.066 4

170

0.032 6

0.035 5

0.040 5

0.053 3

0.035 7

0.039 3

0.045 8

0.062 9

180

0.031 0

0.033 7

0.0Э8 5

0.050 7

0.033 9

0.037 4

0.043 5

0.059 7

190

0.029 6

0.032 2

0.036 8

0.048 3

0.032 3

0.035 6

0.041 5

0.056 9

200

0.028 3

0.030 8

0.035 2

0.046 2

0.030 9

0.034 0

0.039 6

0.054 3

220

0.026 1

0.028 4

0.032 4

0.042 5

0.028 4

0.031 3

0.036 4

0.049 9

240

0.024 2

0.026 3

0.030 0

0.039 3

0.026 4

0.029 0

0.033 7

0.046 2

260

0.022 6

0.024 6

0.028 0

0.036 6

0.024 6

0.027 0

0.031 4

0.043 0

280

0.021 2

0.023 0

0.026 2

0.034 3

0.023 0

0.025 3

0.029 4

0.040 2

300

0.020 0

0.021 7

0.024 7

0.032 3

0.021 7

0.023 9

0.027 7

0.037 8

35

ГОСТ Р ИСО 16269*4—2017

Таблица В. 5 — Верхние критические значения уровня 5% и 1 % для последовательных критериев обнаружения

нижних выбросов е выборке из экспоненциального распределения при т-2

т *

2

S Ч

1 Ч

S 4

1

4

О

cl

*гл

stn

s2a

eL

stn

ft

eL

*2л

el-

ei*

*r.n

10

0.836 7

0.977 5

0.921 6

0.995 5

29

0.822 4

0.975 9

0.913 0

0.995 2

11

0.834 4

0.977 3

0.920 0

0.995 5

30

0.822 4

0.975 8

0.912 8

0.995 2

12

0.832 6

0.977 0

0.919 1

0.995 5

35

0.821 2

0.975 7

0.912 2

0.995 2

13

0.831 4

0.976 9

0.917 7

0.995 4

40

0.820 4

0.975 6

0.911 7

0.995 2

14

0.830 3

0.976 7

0.917 4

0.995 4

45

0.819 8

0.975 5

0.911 4

0.995 1

15

0.829 2

0.976 6

0.917 3

0.995 3

50

0.819 1

0.975 5

0.911 1

0.995 1

16

0.828 3

0.976 5

0.916 3

0.995 3

60

0.818 9

0.975 5

0.910 8

0.995 1

17

0.827 0

0.976 4

0.915 7

0.995 3

70

0.817 9

0.975 4

0.910 2

0.995 1

16

0.826 6

0.976 4

0.915 7

0.995 3

80

0.817 9

0.975 3

0.909 9

0.995 1

19

0.826 1

0.976 3

0.915 1

0.995 3

90

0.817 2

0.975 3

0.909 9

0.995 1

20

0.825 4

0.976 3

0.914 6

0.995 3

100

0.817 2

0.975 2

0.910 0

0.995 1

21

0.824 8

0.976 2

0.914 5

0.995 2

120

0.816 6

0.975 2

0.909 5

0.995 0

22

0.824 5

0.976 2

0.914 1

0.995 2

140

0.816 6

0.975 2

0.909 1

0.995 0

23

0.824 1

0.976 1

0.914 0

0.995 2

160

0.816 6

0.975 1

0.909 1

0.995 0

24

0.823 6

0.976 1

0.914 0

0.995 2

180

0.816 2

0.975 1

0.908 9

0.995 0

25

0.823 6

0.976 0

0.913 7

0.995 2

200

0.815 9

0.975 1

0.908 9

0.995 0

26

27

28

0.823 1 0.822 8 0.822 5

0.976 0 0.975 9 0.976 0

0.913 5 0.913 2 0.913 0

0.995 2 0.995 2 0.995 2

300

0.815 7

0.975 1

0.909 2

0.995 0

Таблица В.б — Верхние критические значения уровня 5% и 1 % для последовательных критериев обнаружения нижних выбросов в выборке из экспоненциального распределения при л> = 3

m •

3

54

1 4

54

t 4

ft

£U

s3ji

Su

su

S3*

S2;n

Л

sv

s3 :n

sv

S3/>

*гл

cU

53*

S2/>

15

0.7051

0.8555

0.9840

0.8073

0.9314

0.9969

40

0.6888

0.8472

0.9833

0.7937

0.9266

0.9968

16

0.7035

0.8544

0.9840

0.8062

0.9306

0.9969

50

0.6871

0.8462

0.9832

0.7922

0.9260

0,9967

17

0.7019

0.8536

0.9839

0.8050

0.9300

0.9968

60

0.6852

0.8459

0.9832

0.7911

0.9257

0.9967

18

0.7007

0.6532

0.9839

0.8034

0.9300

0.9968

70

0.6843

0.8449

0.9832

0.7904

0.9253

0.9967

19

0.6990

0.8527

0.9838

0.8027

0.9296

0.9968

80

0.6838

0.8449

0.9831

0.7895

0.9251

0.9967

20

0.6980

0.8520

0.9838

0.8015

0.9290

0.9968

90

0.6830

0.8443

0.9831

0.7895

0.9250

0.9967

21

0.6970

0.8517

0.9837

0.8011

0.9288

0.9968

100

0.6832

0.8444

0.9830

0.7887

0.9253

0.9967

22

0.6964

0.8511

0.9837

0.7995

0.9286

0.9968

120

0.6827

0.8438

0.9830

0.7885

0.9247

0.9967

23

0.6956

0.8507

0.9837

0.7995

0.9285

0.9968

140

0.6821

0.8434

0.9830

0.7882

0.9244

0.9967

24

0.6948

0.8502

0.9836

0.7988

0.9285

0.9968

160

0.6821

0.8437

0.9830

0.7877

0.9245

0.9967

25

0.6939

0.8503

0.9836

0.7978

0.9281

0.9968

180

0.6817

0.8436

0.9829

0.7874

0.9242

0.9967

26

0.6935

0.8499

0.9836

0.7980

0.9283

0.9968

200

0.6813

0.8437

0.9830

0.7866

0.9242

0,9967

27

0.6929

0.8495

0.9835

0.7970

0.9280

0.9968

250

0.6812

0.8432

0.9829

0.7869

0.9239

0.9967

28

0.6924

0.8493

0.9835

0.7972

0.9279

0.9968

300

0.6804

0.8431

0.9829

0.7863

0.9243

0.9966

29

0.6919

0.8491

0.9835

0.7969

0.9278

0.9968

30

0.6915

0.8491

0.9834

0.7965

0.9276

0.9968

36

ГОСТ Р ИСО 16269*4—2017

Таблица В.7 — Верхние критические значения уровня 5 % и 1 % для последовательных критериев обнаружения

нижних выбросов в выборке из экспоненциагъного распределения при т - 4

л» » 4

Л

5 %

1 %

cl*

*4л

5зл

SIY>

cL

*47*

SZA

eL

*lrt

20

0.596 1

0.717 0

0.868 3

0.987 6

0.693 5

0.816 4

0.937 7

0.997 6

21

0.594 6

0.716 3

0.868 2

0.987 5

0.691 6

0.815 7

0.937 7

0.997 6

22

0.593 1

0.715 2

0.867 3

0.987 5

0.691 1

0.814 4

0.937 4

0.997 6

23

0.592 0

0.714 5

0.867 0

0.987 5

0.689 6

0.814 2

0.937 3

0.997 6

24

0.591 6

0.7138

0.866 6

0.987 5

0.688 9

0.813 8

0.937 2

0.997 6

25

0.590 3

0.713 0

0.866 6

0.987 5

0.687 3

0.812 6

0.937 0

0.997 6

26

0.589 1

0.712 5

0.866 4

0.987 4

0.685 9

0.812 8

0.937 1

0.997 6

28

0.587 8

0.711 6

0.865 8

0.987 4

0.684 9

0.812 4

0.936 6

0.997 6

30

0.586 7

0.710 6

0.865 5

0.987 3

0.683 7

0.811 3

0.936 6

0.997 6

35

0.584 2

0.709 3

0.864 6

0.987 3

0.682 2

0.809 6

0.936 0

0.997 6

40

0.582 3

0.707 8

0.863 6

0.987 1

0.680 1

0.808 9

0.935 7

0.997 5

45

0.580 8

0.706 3

0.863 1

0.987 1

0.678 4

0.807 9

0.935 4

0.997 5

50

0.579 7

0.706 1

0.862 6

0.987 1

0.677 8

0.807 5

0.935 3

0.997 5

70

0.577 4

0.703 3

0.861 7

0.987 1

0.674 6

0.805 3

0.934 6

0.997 5

100

0.574 9

0.702 1

0.861 1

0.986 9

0.672 8

0.804 4

0.934 4

0.997 5

150

0.573 3

0.701 2

0.860 0

0.987 0

0.671 6

0.803 2

0.933 5

0.997 5

200

0.572 8

0.700 3

0.860 5

0.986 9

0.670 6

0.801 7

0.933 4

0.997 5

37

ГОСТ Р ИСО 16269*4—2017

Приложение С

(обязательное)

Значения коэффициентов модифицированной диаграммы ящик с усами

Когда параметр положения 8 и параметр масштаба о предполагаемого распределения РНл(х) неизвестны, первый и третий квартили функции распределения оценивают посредством нижней четверти XL o и верхней четверти Хил выборки объема л. из распределения F0 в(х). Существует много определений глубины выборочных четвертей. Рекомендуемое определение глубины следующее

Г» + 0.5. если / - 0 глубина четверти = <

г + 1.    если / > 0

где/— целая часть, а /—дробная часть значения п/4. Два значения, имеющие данную глубину, а именно нижнюю выборочную четверть х^ и верхнюю выборочную четверть xU;n данной выборки объема л анализируют в соответствии с 4.4.

Точное выражение, которое может быть применено для оценки коэффициентов kL и Ау, используемых при построении диаграммы ящик с усами для выборки из предполагаемого распределения F0e(x) приведено 8 [16].

J' i {1 - Wn - U-1 >I1 - 'W1J - 1 Щ    = a.    (C.1)

9 *

где

a) a — установленная вероятность того, что в выборке, не содержащей выбросов, одно или более наблюдений будут ошибочно идентифицированы как выбросы;

ь> У, =    - КК* ~    и У,я zun - *и<г«л - ziJ-

с) ftlJftu]{,Z).rrzufl) — совместная функция плотности вероятностей для и

v-mu-tx )■(„-„)■ W'b-)P-’Wif(y)-FMKM[,-W.

d) Zr n = {Xf:n - 6) / <r — т-я порядковая статистика для нормализованной случайной величшы Z- (X- вуа с функцией распределения Я(х);

в) Gfiy) = F(y) / F{z,n) и GJy) = [F(y) - F{zvn)) t [1 - F{zvn%

— неполная бета-функция.

Для определения значений А, и Ау. удовлетворяющих двойному интегральному уравнению (С.1). может быть использован прямой алгоритм поиска.

В случае симметричного распределения 8 уравнении (С.1) используют AL = Ау = А. Для асимметричного распределения значения А, и Ау определяют отдельно при Р(Х < Lp) » 1 - Рт(Х > Up). т.е.    1) =    -к.1)

в уравнении (С.1).

Значения At = Ау = А для выборок объема 9 S п s 500. отобранных из стандартного нормального распределения. могут быть аппроксимированы следующей функцией

А = ехрфо + 6,10(0) + 621п2(л) + Ьз1п3(л) + 641п4(л) + 65lr»s(/i)}.

<С.2>

где 65 = 0, а коэффициенты £»,, / = 0.1. 2. 3.4 приведены е таблице С.1.

Значения А, и Ау для выборки из асимметричного распределения или распределения экстремальных значений, также могут быть определены с помощью уравнения (С.2) с коэффициентами 6^ / = 0. 1. 2. 3. 4 из таблицы С.2.

В случае большого объема выборки значения AL и Ау могут быть аппроксимированы следующим образом

, F-l(1/4)-^W2) и ^(1 -(^/21-^43/4)

L“ я-Чзм)-^^) и и*

где а„ = 1 - (1 - a),/n может быть интегрирована, как вероятность того, что некоторое наблюдение из выборки объема п может быть ошибочно признано выбросом.

38

ГОСТ Р ИСО 16269-4—2017

Пример 1 —Для выявления выбросов в выборке объеме л = 20 из нормального распределения, значение kL= кц = к для о = 0,05 определяют следующим образом

к - ехр{0.83707 + 0.07596 * 1п(20}-0.06119 * 1гЙ(20) + 0.01328 * 1л3(20)-0.00083 * 1п*(20)} = ехр{0.80567) * 2.2382.

Пример 2 —Для выявления выбросов в выборке объема л-22 из экспоненциального распределения, значения kL и ки для о = 0,05 определяют следующим образом

к, = ехр{2,20604 - 1,41752 ■ 1п(20) - 0,24170 ■ 1пг(20) - 0.02057 ■ 1п3(20) * 0.00072 ■ 1п*(20)} -

= вхр(-0,40802) = 0,6650,

ки * ехр{2.74179 - 0.77067 ■ 1п(22) * 0,22688 ■ Inf (22) - 0,02853 ■ ln3<22) * 0.00170 ■ in*(22) - 0.00004 ■ lns(22)} -

- ехр(1,82958) * 6,2313.

Таблица С.1 — Коэффициенты функции аппроксимации коэффициентов к. используемых при построении диаграммы ящик с усами для выборок объема 9 S л s 500 из нормального распределения с неизвестными параметрами

Нормальное распределение

mod(n,4)

*0

*1

й2

*3

Ь*

*5

6

0.05

1

4.01761

-2.35363

0.64618

-0.07893

0.00368

0.01457

2

2.06429

-0.88523

0.22237

-0.02391

0.00099

0.00064

3

0.48006

0.25854

•0.09622

0.01620

-0.00092

0.00407

0

0.83707

0.07596

-0.06119

0.01328

-0.00083

0.00462

0.01

1

6.37902

-3.84770

1.04438

-0.12813

0.00601

0.04183

2

3.98772

-2.00630

0.50277

-0.05677

0.00248

0.00634

3

2.14695

-0.65278

0.11985

-0.00796

0.00013

0.00417

0

2.28507

•0.66052

0.10264

•0.00393

-0.00013

0.00686

Таблица С.2 — Коэффициенты для функции аппроксимации коэффициентов к. используемых при построении диаграммы ящик с усами для выборок объема 9 S n S 500 из экспоненциального распределения с неизвестным параметром

Экспоненциальное распределение

О

коэффициент

mod(n,4)

*0

Ь,

*2

*>з

*4

*6

4

0.10

ЛL

1

3.99024

-3.24052

0.95534

-0.15995

0.01440

•0.00054

0.00022

2

1.13059

-0.72169

0.02306

0.01804

•0.00290

0.00014

0.00019

3

-1.54986

1.60282

-0.82526

0.17801

•0.01829

0.00074

0.00047

0

•1.95058

2.26133

-1.14744

0.24930

-0.02581

0.00105

0.00067

1

3.58501

-1.56711

0.46464

-0.05769

0.00271

0.02172

2

1.79740

-0.22367

0.07684

-0.00733

0.00024

0.00345

3

0.33262

0.83429

-0.21797

0.02979

-0.00153

0.01154

0

1.08640

0.33192

-0.08635

0.01396

•0.00080

0.00807

0.05

kL

1

5.18220

-4.05528

1.22229

-0.20833

0.01901

-0.00072

0.00033

2

2.20604

-1.41752

0.24170

-0.02057

0.00072

0.00011

3

-0.57542

1.02024

•0.65689

0.15043

-0.01586

0.00065

0.00048

0

-1.19027

1 86402

-1.04428

0.23327

•0 02440

0.00099

0.00088

1

5.18029

-2.96781

1.04743

-0.18511

0.01683

•0.00063

0.00385

2

2.74179

-0.77067

0.22688

•0.02853

0.00170

•0.00004

0.00131

3

0.53026

1.19859

-0.50210

0.10967

-0.01158

0.00048

0.00544

0

1.31043

0.60192

-0.30396

0.07456

•0.00832

0.00035

0.00437

0.02

1

6.72983

-5.17448

1.60518

-0.27980

0.02596

-0.00099

0.00052

2

3.53662

-2.31042

0.53046

-0.07255

0.00566

•0.00019

0.00006

3

0.56897

0.32976

-0.45563

0.11723

•0.01292

0.00054

0.00049

0

-0.38125

1 48550

•0 96254

0.22351

-0.02380

0.00098

0 00126

1

5.90497

-2.95227

0.83153

-0.10310

0.00486

0.06900

2

3.79484

-1.32856

0.35393

•0.04015

0.00174

0.00715

3

2.17127

-0.13525

0.01652

0.00286

-0.00033

0.01278

0

2.67762

•0.43964

0.08873

-0.00507

0.00001

0.01325

Примечание — б—максимум абсолютного отклонения значения к от его приближения для каждого класса значений л по модулю 4 (mod(n,4)) и объема выборки 9 S л s 500.

39

ГОСТ Р ИСО 16269*4—2017

Приложение D

(обязательное)

Значения коэффициентов коррекции для определения робастной оценки параметра масштаба

Таблица D.1 — Коэффициенты коррекции 5„ и s^, для определения робастных оценок параметра масштаба S„ и Sfr соответственно

Объем выборки

Л

Коэффициент

Объем выборки

Коэффициент

«л

тр

п

2

0.8666

1.1912

18

1.1961

1.0025

3

2.2051

1.3821

19

1.2438

1.0252

4

1.1385

1.1272

20

1.1951

1.0006

5

1.6081

1.1855

30

1.1927

0.9962

6

1.1858

1.0650

40

1.1921

0.9944

7

1.4297

1.1111

50

1.1920

0.9935

6

1.1989

1.0369

60

1.1920

0.9929

9

1.3500

1.0762

70

1.1921

0.9925

10

1.2015

1.0219

80

1.1921

0.9923

11

1.3074

1.0567

90

1.1922

0.9921

12

1.2006

1.0136

100

1.1923

0.9920

13

1.2814

1.0444

120

1.1924

0.9918

14

1.1994

1.0086

150

1.1925

0.9915

15

1,2647

1.0360

200

1.1926

0.9914

16

1.1976

1,0050

300

1.1927

0.9912

17

1.2526

1.0299

500

1.1927

0.9910

40

ГОСТ Р ИСО 16269-4—2017

Приложение Е

(обязательное)

Критические значения статистики критерия Кохрена

Таблица Е.1 — Критические значения статистики критерия Кохрена уровня 5 %

р

л • 2

л « 3

о*4

п • 5

о ■ в

л ■ 7

л » 8

л > 9

л ■ 10

2

0.998

5

0.975

1

0.939

2

0.905

8

0.877

3

0.853

4

0.833

2

0.816

0

0.801

1

3

0,967

0

0.871

0

0.797

8

0.745

7

0.707

0

0.677

1

0.653

1

0.633

4

0.616

8

4

0.906

5

0.768

0

0.683

9

0.628

8

0.589

5

0.559

9

0.536

5

0.517

6

0.501

8

5

0.841

3

0.683

8

0.598

1

0.544

1

0.506

4

0.478

3

0.456

4

0.438

в

0.424

2

6

0.780

в

0.616

2

0.532

2

0.480

4

0.444

8

0.418

5

0.398

1

0.381

7

0.368

2

7

0.727

0

0.561

2

0.480

0

0.430

8

0.397

2

0.372

6

0.353

6

0.338

4

0.325

9

6

0.679

9

0.515

7

0.437

8

0.391

0

0.359

4

0.336

3

0.318

5

0.304

3

0.292

7

9

0.638

5

0.477

5

0.402

8

0.358

4

0.328

5

0.306

8

0.290

1

0,276

8

0.266

0

10

0.602

1

0.445

0

0.3734

0.331

1

0.302

8

0.282

3

0.266

6

0.254

1

0.243

9

11

0.569

8

0.416

9

0.348

2

0.308

0

0.281

1

0.261

6

0,246

8

0.235

0

0.225

4

12

0.541

0

0.392

4

0.326

5

0.288

0

0.262

4

0.244

0

0.229

9

0.218

7

0.209

6

13

0.515

2

0.370

9

0.307

5

0.270

7

0.246

2

0.228

6

0,215

2

0.204

6

0.196

0

14

0.492

0

0.351

8

0.290

7

0.255

4

0.232

0

0.215

2

0.202

4

0.192

3

0.184

1

15

0,470

9

0.334

7

0.275

8

0.241

9

0.219

5

0.203

4

0.191

2

0.181

5

0.173

7

16

0.451

7

0.319

3

0,262

4

0.229

8

0.208

3

0.192

9

0.181

1

0.171

9

0.164

4

17

0.434

2

0.305

3

0.250

4

0.219

0

0.198

3

0.183

4

0.172

2

0.163

3

0.156

1

18

0.418

1

0.292

7

0.239

5

0.209

2

0.189

2

0.174

9

0.164

1

0.155

6

0.148

6

19

0.403

2

0.281

1

0.229

6

0.200

2

0.181

0

0.167

2

0.156

8

0.148

6

0.141

9

20

0.389

5

0.270

5

0,220

5

0.192

1

0.173

5

0.160

2

0.150

1

0.142

2

0.135

8

21

0.376

7

0.260

7

0.212

1

0.184

6

0.166

6

0.153

8

0.144

0

0.136

4

0.130

2

22

0.364

9

0.251

6

0.204

4

0.177

8

0.160

3

0.147

9

0.138

4

0.131

0

0.125

0

23

0.353

8

0.243

2

0.197

3

0,171

4

0.154

5

0.142

4

0.133

3

0.126

1

0.120

3

24

0.343

4

0.235

4

0.190

7

0.165

5

0.149

1

0.137

4

0.128

5

0.121

6

0.116

0

25

0.333

7

0.228

1

0.184

6

0.160

1

0.144

1

0.132

7

0.124

1

0.117

4

0.111

9

26

0.324

6

0.221

3

0.178

8

0.155

0

0.139

4

0.128

4

0.120

0

0.113

5

0.108

2

27

0.316

0

0.214

9

0.173

5

0.150

2

0.135

1

0.124

3

0.116

2

0.109

6

0.104

7

28

0.307

9

0.208

9

0.168

4

0.145

8

0.131

0

0.120

5

0.112

6

0.106

4

0.101

4

29

0.300

2

0.203

2

0.163

7

0,141

6

0.127

2

0.116

9

0.109

2

0.103

2

0.098

3

30

0.292

9

0.197

9

0.159

2

0.137

6

0.123

6

0.113

6

0.106

1

0.100

2

0.095

4

31

0.286

0

0.192

9

0.155

0

0,133

9

0.120

2

0.110

5

0.103

1

0.097

4

0.092

7

32

0.279

5

0.188

1

0.151

1

0.130

4

0.117

0

0.107

5

0.100

3

0.094

7

0.090

2

33

0.273

3

0.183

6

0.147

3

0,127

1

0.114

0

0.104

7

0.097

7

0.092

2

0.087

8

34

0.267

3

0.179

3

0.143

7

0.124

0

0.111

1

0.102

0

0.095

2

0.089

8

0.085

5

35

0.261

7

0.175

2

0.140

4

0.121

0

0.108

4

0.099

5

0.092

8

0.087

6

0.083

3

41

ГОСТ Р ИСО 16269*4—2017

Окончание таблицы Е. 1

р

л • 2

л » 3

л • 4

л » S

л » 6

о » 7

о » в

о « в

п » 10

36

0.256 3

0.171 3

0.137 1

0.118 1

0.105 8

0.097 1

0.090 6

0.085 4

0.081 3

37

0.251 1

0.167 6

0.134 1

0,115 5

0.103 4

0.094 9

0.068 4

0.083 4

0.079 4

36

0.246 2

0.164 0

0.131 2

0.112 9

0.101 1

0.092 7

0.086 4

0.061 5

0.077 5

39

0.241 4

0.160 7

0.128 4

0,110 4

0.098 8

0.090 6

0.084 5

0.079 6

0.075 8

40

0.236 9

0.157 4

0.125 7

0.108 1

0.096 7

0.068 7

0.082 6

0.077 9

0.074 1

Примечание 1 — р — размерность вектора случайных величин {количество дисперсий); п — обьем выборки (количество репликаций при определении дисперсии).

Примечание 2 — У каждого значения е таблице последний десятичный знак округлен вверх, что обеспечивает требуемый уровень значимости.

Примечание 3 — Каждое значение е таблице получено по результатам моделирования 50 миллионов выборок.

Таблица Е.2 — Критические значения статистики критерия Кохрена уровня 1 %

Р

л » 2

л » 3

л * 4

п • 5

п « в

0*7

о « в

л « »

л ■ 1

1

2

0.999

94

0.995

1

0.979

4

0.958

6

0.937

3

0.917

2

0.898

9

0.882

3

0.867

4

3

0.993

4

0.942

3

0.883

2

0.833

5

0.793

4

0.760

7

0.733

6

0.710

8

0,691

2

4

0.967

6

0.864

3

0.781

5

0.721

3

0.676

2

0.641

1

0.612

9

0.589

8

0.570

3

5

0.927

9

0.788

6

0.695

8

0.632

9

0.587

6

0.553

1

0.525

9

0.503

8

0.485

4

6

0.882

9

0.721

8

0.625

9

0.563

5

0.519

6

0.486

6

0.460

9

0.440

1

0,423

0

7

0.837

7

0.664

5

0.568

5

0.508

0

0.466

0

0.434

8

0.410

6

0.391

2

0.375

2

8

0.794

5

0.615

2

0.521

0

0.462

7

0.422

7

0.393

2

0.370

5

0.352

3

0,337

4

9

0.754

4

0.572

8

0.481

0

0.425

1

0.387

1

0.359

2

0.337

8

0.320

8

0.306

в

10

0.717

5

0.535

9

0.446

9

0.393

4

0,357

2

0.330

9

0.310

6

0.294

6

0.281

4

11

0.683

7

0.503

6

0.417

6

0.366

3

0.331

8

0.306

8

0.287

7

0.272

5

0.260

1

12

0.652

8

0.475

2

0.392

0

0.342

9

0.310

0

0.286

2

0.268

0

0.253

6

0.241

9

13

0.624

5

0.449

9

0.369

5

0.322

4

0.290

9

0.268

2

0.251

0

0.237

3

0.226

2

14

0.598

6

0.427

3

0.349

6

0.304

3

0.274

2

0.252

5

0.236

0

0.223

0

0.212

5

15

0.574

7

0.406

9

0.331

8

0.288

2

0.259

4

0.238

6

0.222

9

0.210

4

0.200

4

16

0.552

8

0.388

6

0.315

8

0.273

9

0,246

1

0.226

2

0.211

1

0.199

3

0,189

6

17

0.532

5

0.371

9

0.301

4

0.260

9

0.234

2

0.215

1

0.200

6

0.189

3

0.180

0

18

0.513

7

0.356

6

0.288

3

0.249

2

0.223

5

0.205

1

0.191

2

0.160

2

0.171

4

19

0.496

2

0.342

6

0.276

4

0.238

6

0.213

7

0.196

0

0.182

6

0.172

1

0.163

5

20

0.479

9

0.329

8

0.265

5

0.228

8

0.204

8

0.187

7

0.174

8

0.164

7

0.156

4

21

0.464

8

0.317

9

0.255

4

0.219

9

0,196

7

0.180

1

0.167

7

0.157

9

0.149

9

22

0.450

6

0.306

9

0.246

1

0.211

7

0.189

2

0,173

2

0.161

1

0.151

7

0.144

0

23

0.437

3

0.296

7

0,237

5

0.204

1

0.182

3

0.166

8

0.155

1

0.145

9

0.138

5

24

0.424

8

0.287

1

0.229

5

0.197

0

0.175

9

0.160

8

0.149

5

0.140

6

0.133

4

25

0.413

0

0.278

2

0.222

1

0.190

5

0.169

9

0,155

3

0.144

3

0.135

7

0.128

8

26

0.401

9

0.269

9

0.215

1

0.184

4

0,164

4

0.150

2

0.139

5

0.131

1

0.124

4

27

0.391

5

0.262

1

0.208

6

0,178

7

0,159

2

0,145

4

0.135

0

0.126

9

0.120

3

28

0.381

6

0.254

8

0.202

5

0.173

3

0.154

3

0.140

9

0.130

8

0.122

9

0.116

5

29

0.372

2

0.247

8

0.196

8

0.168

3

0.149

8

0.136

7

0.126

9

0.119

2

0.113

0

42

ГОСТ Р ИСО 16269-4—2017

Окончание таблицы Е.2

р

л • 2

0*3

о * 4

л « 5

л ■ в

л * 7

л » 8

л»9

л ■ 10

30

0.363

3

0.241

3

0.191

4

0.163

6

0.145

5

0.132

8

0.123

2

0.115

7

0.109

6

31

0.354

8

0.235

1

0.186

3

0.159

1

0.141

5

0.129

0

0.119

7

0.112

4

0.106

5

32

0.346

8

0.229

3

0.181

5

0.154

9

0.137

7

0.125

5

0,116

4

0.109

3

0.103

5

33

0.339

1

0.223

7

0.176

9

0.150

9

0.134

1

0.122

2

0.113

3

0.106

4

0.100

8

34

0.331

8

0.218

4

0.172

6

0.147

2

0.130

7

0.119

1

0,110

4

0.103

6

0.098

1

35

0.324

8

0.213

4

0.168

5

0.143

6

0.127

5

0.116

1

0.107

6

0.101

0

0.095

6

36

0.318

1

0.208

6

0.164

6

0.140

2

0.124

4

0.113

3

0.105

0

0.098

5

0.093

3

37

0.311

7

0.204

1

0.160

9

0.136

9

0.121

5

0.110

6

0.102

5

0.096

1

0.091

0

38

0.305

6

0.199

7

0.157

3

0.133

9

0.118

7

0.108

1

0.100

1

0.093

9

0.088

9

39

0.299

7

0.195

6

0.153

9

0.130

9

0.116

1

0.105

7

0.097

в

0.091

7

0.086

8

40

0.294

1

0.191

6

0.150

7

0.128

1

0.113

6

0.103

3

0.095

7

0.089

7

0.084

9

Примечание 1 — р — размерность вектора случайных величин (количестводисперсий); л — объем выборки (количество репликаций при определении дисперсии).

Примечание 2 — У каждого значения в таблице последний десятичный знак округлен вверх, что обеспечивает требуемый уровень значимости.

Примечание 3 — Каждое значение в таблице получено по резугъгатам моделирования 50 миллионов выборок.

Таблица Е.З — Критические значения статистики критерия Кохрена уровня 0.1 %

р

л » 2

л - 3

л * 4

л » S

л » в

о • 7

о*8

л * 9

л « 1(

)

2

0.999 999 4

0.999

6

0.995

6

0.987

1

0.975

5

0.962

5

0.949

2

0.936

1

0.923

6

3

0.999

4

0.981

8

0.946

3

0.907

9

0.872

6

0.841

4

0.814

2

0.790

3

0.769

3

4

0.993

0

0.937

1

0.870

3

0.813

2

0.766

8

0.728

8

0.697

3

0.670

8

0.648

1

5

0.977

0

0.881

1

0.794

6

0.728

8

0.678

4

0.638

8

0.606

8

0.580

3

0.558

0

6

0.952

9

0.824

5

0.727

1

0.657

9

0.606

8

0,567

6

0.536

4

0,510

9

0.489

7

7

0.923

8

0.771

4

0.668

5

0.598

7

0.548

5

0,510

5

0.480

6

0.456

4

0.436

3

8

0.892

3

0.723

1

0.618

0

0.549

1

0.500

3

0.463

9

0.435

4

0.412

5

0.393

6

9

0.860

2

0.679

6

0.574

4

0.507

0

0.460

0

0.425

2

0.398

1

0.376

5

0.358

7

10

0.828

5

0.640

7

0.536

4

0.471

0

0.425

8

0.392

5

0.366

9

0.346

4

0.329

6

11

0.798

0

0.605

7

0.503

2

0.439

8

0.396

4

0.364

7

0.340

3

0.320

9

0.305

0

12

0.768

8

0.574

3

0.473

9

0.412

6

0.371

0

0.340

6

0.317

4

0.298

9

0.283

9

13

0.741

2

0.545

9

0.447

8

0.388

6

0.348

7

0.319

6

0.297

4

0.279

9

0.265

6

14

0.715

2

0.520

2

0.424

6

0.367

4

0.329

0

0.301

1

0.279

9

0.263

2

0.249

5

15

0.690

6

0.496

9

0.403

7

0.348

4

0.311

4

0.284

7

0.264

5

0.246

4

0.235

4

16

0.667

6

0.475

6

0.384

8

0.331

4

0.295

7

0.270

1

0.250

6

0.235

3

0.222

8

17

0.645

9

0.456

1

0.367

7

0.315

9

0.281

6

0.256

9

0.238

2

0,223

5

0.211

6

18

0.625

5

0.438

1

0.352

1

0.302

0

0.268

8

0.245

0

0.227

0

0.212

9

0.201

4

19

0.606

3

0.421

6

0.337

8

0.289

2

0.257

2

0.234

2

0.216

9

0.203

3

0.192

2

20

0.588

2

0.406

3

0.324

6

0.277

5

0.246

5

0.224

4

0,207

6

0.194

5

0.183

9

21

0.571

1

0.392

1

0.312

5

0.266

в

0.236

7

0.215

3

0.199

2

0.186

5

0.176

2

43

ГОСТ Р ИСО 16269*4—2017

Окончание таблицы Е.З

р

п « Э

О * $

л * в

л ■ 7

л * 8

л * 9

л ■ 10

22

0.555

0

0.378

9

0.301

3

0.256

9

0.227

7

0.207

0

0.191

4

0.179

1

0.169

2

23

0.539

8

0.366

6

0.290

9

0.247

7

0.219

4

0.199

3

0.184

2

0.172

3

0.162

8

24

0.525

4

0.355

1

0,281

2

0.239

2

0.211

7

0.192

2

0.177

6

0.166

1

0.156

8

25

0.511

в

0.344

3

0.272

1

0,231

2

0.204

6

0.185

6

0.171

4

0.160

3

0.151

3

26

0.498

8

0.334

2

0.263

7

0.223

8

0.197

9

0.179

5

0.165

7

0.154

8

0.146

1

27

0.486

5

0.324

6

0,255

8

0.216

9

0.191

6

0.173

7

0.160

3

0.149

8

0.141

3

28

0.474

9

0.315

7

0.248

3

0.210

4

0.185

8

0.168

4

0.155

3

0.145

1

0.136

9

29

0.463

8

0,307

2

0,241

3

0.204

3

0.180

3

0.163

3

0.150

6

0.140

7

0.132

7

30

0.453

2

0.299

2

0.234

7

0,198

6

0.175

2

0.158

6

0.146

2

0.136

5

0.128

7

31

0.443

1

0.291

6

0.228

5

0.193

2

0.170

3

0.154

1

0.142

1

0.132

6

0.125

0

32

0.433

4

0.284

4

0.222

6

0,188

0

0.165

7

0.149

9

0.138

1

0.128

9

0.121

5

33

0.424

2

0,277

6

0,217

0

0,183

2

0.161

4

0.146

0

0.134

4

0.125

5

0.118

2

34

0.415

4

0.271

1

0.211

7

0.178

6

0.157

3

0.142

2

0.131

0

0.122

2

0.115

1

35

0.406

9

0.264

9

0.206

7

0,174

3

0.153

4

0.138

6

0.127

6

0.119

1

0.112

2

36

0.398

8

0.259

0

0.201

9

0.170

1

0.149

7

0.135

3

0.124

5

0.116

1

0.109

4

37

0.391

0

0,253

4

0.197

3

0.166

2

0.146

1

0.132

0

0.121

5

0.113

3

0.106

7

38

0.383

6

0.248

0

0,192

9

0,162

4

0.142

8

0.129

0

0.118

7

0.110

6

0.104

2

39

0.376

4

0.242

9

0,188

8

0.158

8

0.139

6

0.126

1

0.116

0

0.108

1

0.101

8

40

0.369

5

0.238

0

0.184

8

0,155

4

0.136

5

0.123

3

0.113

4

0.105

7

0.099

5

Примечание 1 — р — размерность векторе случайных величин (количество дисперсий); л — объем выборки (количество репликаций при определении дисперсии).

Примечание 2 — У каждого значения в таблице последний десятичный знак округлен вверх, что обеспечивает требуемый уровень значимости.

Примечание 3 — Каждое значение в таблице получено по результатам моделирования 50 миллионов выборок.

44

ГОСТ Р ИСО 16269-4—2017

Приложение F

(справочное)

Руководство по выявлению выбросов в одномерной выборке

Пусть имеется партия, выборка наблюдений или набор выборочных средних или дисперсий. Цегъю является выявление и идентификация выбросов в наборе данных. В данном приложении приведено руководство для пользователей настоящего стандарта. Данное руководство представляет собой набор этапов, выполнение которых соответствует содержанию определенных разделов и подразделов настоящего стандарта. Испогъзуемые в данном приложении обозначения соответствуют обозначениям, примененным в настоящем стандарте.

Этап 1. Представление точек, соответствующих набору данных на графике рассеяния, диаграмме стебель — листья, диаграмме ящик с усами или упорядочивание данных в порядке неубывания

s *(2) ss Х(А> * — s >W

где не or наименьшего наблюдения

Этап 2. Проверка графического представления данных или упорядоченных данных визуального вычисления возможных (предполагаемых) выбросов. При отсутствии сомнений о том. что предполагаемые выбросы действительно являются выбросами, переходят к выполнению этапа 5. Если одно или более наблюдений расположены достаточно далеко от других данных, переходят к выполнению этапа 3: в противном случае принимают решение о том. что выборка не содержит выбросов и может быть использована для дальнейшего анализа данных.

Этап 3. Подтверждают соответствие данных выборочному закону распределения или изменяют вид распределения:

a)    предположение о нормальном распределении данных подтверждают с помощью графика нормальной вероятности на вероятностной бумаге;

b)    предположение об экспоненциальном распределении данных подтверждают с помощью графика экспоненциальной вероятности на вероятностной бумаге:

c)    при предположении о логнормальном распределении данных выполняют преобразование исходных данных к данным, распределение которых близко к нормальному распределению, используя процедуру, проведенную в 4.3.4.2 и с последующей проверкой соответствия преобразованных данных графику нормального распределения на вероятностной бумаге:

d)    при предположении о том. что распределение является распределением экстремальных значений, выполняют преобразование исходных данных к данным, распределение которых близко к экспоненциальному распределению. используя процедуру, приведенную в 4.3.4.3 с последующей проверкой соответствия преобразованных данных графику экспоненциального распределения на вероятностной бумаге:

e)    при предположении о том. что распределение является распределением Вейбулла. выполняют преобразование исходных данных к данным, распределение которых близко к экспоненциальному распределению, ислогь-эуя процедуру, приведенную е 4.3.4.4 с последующей проверкой соответствия преобразованных данных графику зкспоненциагъного распределения на вероятностной бумаге:

f)    при предположении о гамма-распределении данных, выпогмяют преобразование исходных данных к данным. распредележе которых близко к нормальному распределению, испогъзуя процедуру, приведенную в 4.3.4.5 с последующей проверкой соответствия преобразованных данных к графику нормального распределения на вероятностной бумаге:

д)если распределение совокупности, из которой отобрана выборка, неизвестно или предполагаемое распределение не соответствует данным, или распределение не является одним из указанных выше распределений, выполняют преобразование исходных данных к данным, распределение которых бпизхо к нормальному распределению. используя преобразование Бокса-Кокса или преобразование Джонсона с последующей проверкой соответствия преобразованных данных к графику нормального распределения на вероятностной бумаге. Если нормативное распределение не соответствует преобразованным данным, следует перейти к выполнению этапа 6 и провести анализ данных, используя робастные процедуры, приведенные 8 5.

Этап 4. Выполняют проверку того, что предполагаемые выбросы, выявленные на этапе 2. действительно являются выбросами:

a)    если исходные или преобразованные данные согласуются с нормальным распределением, следует использовать процедуру, описанную в 4.3.2 и/или в 4.4:

b)    если исходные данные или преобразованные данные согласуются с экспоненциальным распределением, следует использовать процедуру, описанную в 4.3.3 и/или в 4.4:

c)    если один или несколько предполагаемых выбросов идентифицированы в качестве выбросов, следует перейти к выполнению этапа 5. в противном случае, принимают решение об отсутствии выбросов и ислогъзуют исходные или преобразованные данные для дальнейшего анализа.

Этап 5. Устанавливают причины появления выявленных выбросов.

Этап б. Если причины появления выбросов могут быть установлены, удаляют выявленные выбросы из набора данных, а оставшиеся данные используют для последующего анализа, в противном случае используют робастные процедуры для анализа данных.

45

ГОСТ Р ИСО 16269*4—2017

В блок-схеме, представленной на рисунке F.1. приведены рекомендуемые этапы выявления и обработки выбросов.

46

ГОСТ Р ИСО 16269*4—2017

Библиография

[1]    BARNETT. V. and LEWIS. Т. Outliers in Statistical data. 3rd edition. New York: Wiley. 1994

[2]    TUKEY. J.W. Exploratory data analysis. Reading. Massachusetts: Addison-Wesley. 1977

[3]    ISO 5725*2:1994. Accuracy (trueness and precision) of measurement methods and results — Pari 2: Basic method for the determination of repeatability and reproducibility of a standard measurement method

[4]    ROSNER. B. Percentage Points for a Generalized ESD Many-Outlier Procedure. Technometrics. 25. 1983. pp. 165-172

[5]    KIMBER. A.C.. Tests for many outliers in an exponential sample. Applied Statistics. 31. 1982, pp. 263-271

[6]    KITTLITZ. R.G. Transforming the exponential for SPC applications. Journal of Quality Technology. 31. 1999. pp. 301-308

[7]    BOX. G.E.P. and COX. D.R. An analysis of transformations. Journal of the Royal Statistical Society. Series В 26. 1964. pp. 211-246

[8]    CHOU. Y.. POLANSKY. A.M. and MASON. R.L. Transforming Nonnormal Data to Normality in Statistical Process Control. Journal of Quality Technology. 30. 1998. pp. 133-141

[9]    HOAGLJN. D.C.. MOSTELLER. F. and TUKEY. J.W. Understanding robust and exploratory data analysis. New York: Wiley. 1983

(10]    ROUSSEEUW. P.J. and CROUX, C. Alternatives to the median absolute deviation. Journal of the Amencan Statistical Association. 88. 1993, pp. 1273-1283

(11]    VERBOVEN. S. and HUBERT. M. LIBRA: a MATLAB Library for Robust Analysis. Chemometrics and Intelligent Laboratory Systems. 75. 2005. pp. 127-136

(12]    KUTNER. M.H.. NACHTSHE1M. C.J.. NETER. J. and LI. W. Applied linear statistical models. Singapore: McGraw-Hill. 2005

(13]    HUBER. P.J. Robust Statistics. New York: Wiley. 1961

(14]    COOK. R.D. and WEISBERG. S. Residuals and influence in regression. London: Chapman & Hall. 1982

(15]    ROUSSEEUW. P.J. and LEROY. A.M. Robust Regression and Outlier Detection. New York: John Wiley. 1987

(16]    SIM. C.H., GAN. F.F. and CHANG. T.C. Outlier Labeling with Boxplot Procedures. Journal of the American Statistical Association, 100. 2005. pp. 642-652

(17]    ISO 3534-1:2006. Statistics — Vocabulary and symbols — Part 1: General statistical terms and terms used in probability

(18]    ISO 5479, Statistical interpretation of data — Tests for departure from the normal distribution

47

ГОСТ Р ИСО 16269-4—2017

УДК 658.562.012.7:65.012.122:006.354    ОКС 03.120.30    Т59

Ключевые слова: выборка, распределение, выброс, устойчивая процедура, робастная процедура, робастная оценка, порядковая статистика, глубина

46

БЗ 9—2017/115

Редактор И.М. Саэонкина Технический редактор И.Е. Черепкова Корректор С.И. Фирсова Компьютерная верстка А.А. Ворониной

Сдано в набор <4 08.2017 Подписано в лечат» 24.08.2017. Формат 60*84 Vj. Гарнитура Ариел. Уел. печ, п. 6.05. Уч.-изд. л. 5.45. Тираж 23 эм. За*. 1515.

Подготовлено на основе электронной версии, предоставленной разработчиком стандарта

Издано и отпечатано ао ФГУП «СТАНДАРТИНФОРМ». 123001 Моема. Гранатный пер.. 4.