База ГОСТовallgosts.ru » 35. ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ. МАШИНЫ КОНТОРСКИЕ » 35.240. Применение информационных технологий

ГОСТ Р 57773-2017 Пространственные данные. Качество данных

Обозначение: ГОСТ Р 57773-2017
Наименование: Пространственные данные. Качество данных
Статус: Принят
Дата введения: 06/01/2018
Дата отмены: -
Заменен на: -
Код ОКС: 35.240.70
Скачать PDF: ГОСТ Р 57773-2017 Пространственные данные. Качество данных.pdf
Скачать Word:ГОСТ Р 57773-2017 Пространственные данные. Качество данных.doc

Текст ГОСТ Р 57773-2017 Пространственные данные. Качество данных



ФЕДЕРАЛЬНОЕ АГЕНТСТВО ПО ТЕХНИЧЕСКОМУ РЕГУЛИРОВАНИЮ И МЕТРОЛОГИИ

НАЦИОНАЛЬНЫЙ

СТАНДАРТ

РОССИЙСКОЙ

ФЕДЕРАЦИИ

ГОСТР

57773—

2017

(ИСО 19157: 2013)

ПРОСТРАНСТВЕННЫЕ ДАННЫЕ

Качество данных

{ISO 19157:2013,

Geographic information — Data quality, MOD)

Издание официальное

Москна

Стамдартимформ

2017

ГОСТ Р 57773—2017

Предисловие

1    ПОДГОТОВЛЕН Федеральным государственным бюджетным учреждением «Федеральный научно-технический центр геодезии, картографии и инфраструктуры пространственных данных» (ФГБУ «Центр геодезии, картографии и ИПД») на основе собственною перевода на русский язык англоязычной версии стандарта, указанного в пункте 4

2    ВНЕСЕН Техническим комитетом по стандартизации ТК394 «Географическая информация/гео-матика»

3    УТВЕРЖДЕН И ВВЕДЕН В ДЕЙСТВИЕ Приказом Федерального агентства по техническому регулированию и метрологии от 6 октября 2017 г. № 1367-ст

4    Настоящий стандарт является модифицированным по отношению к международному стандарту ИСО 19157:2013 «Географическая информация — Качество данных» (ISO 19157:2013 «Geographic information — Data quality. MOD»} путем включения дополнительных фраз. слов, ссылок и внесения изменений по отношению к тексту применяемого международного стандарта, которые выделены курсивом. подчеркиванием сплошной горизонтальной линией, а также невключения отдельных структурных элементов, ссылок и дополнительных элементов. Объяснения причин внесения этих технических отклонений приведены во введении.

Сопоставление структуры настоящего стандарта со структурой указанною международного стандарта приведено в дополнительном приложении ДА.

Наименование настоящего стандарта изменено относительно наименования указанного международного стандарта для приведения в соответствие с ГОСТ Р 1.5—2012 (пункт 3.5).

Сведения о соответствии ссылочных национальных стандартов международным стандартам, использованным в качестве ссылочных в примененном международном стандарте, приведены в дополнительном приложении ДБ

5    ВВЕДЕН ВПЕРВЫЕ

Правила применения настоящего стандарта установлены в статье 26 Федерального закона от 29 июня 2015 г. № 162-ФЗ «О стандартизации в Российской Федерации». Информация об изменениях к настоящему стандарту публикуется в ежегодном (по состоянию на 1 янеаря текущего года) информационном указателе «Национальные стандарты», а официальный текст изменений и поправок — в ежемесячном информационном указателе «Национальные стандарты». В случае пересмотра (замены) или отмены настоящего стандарта соответствующее уведомление будет опубликовано в ежемесячном информационном указателе «Национальные стандарты». Соответствующая информация, уведомление и тексты размещаются также в информационной системе общего пользования — на официальном сайте Федерального агентства по техническому регулированию и метрологии в сети Интернет ()

© Стандартинформ. 2017

В Российской Федерации настоящий стандарт не может быть полностью или частично воспроизведен. тиражирован и распространен в качестве официального издания без разрешения Федерального агентства по техническому регулированию и метрологии

И

ГОСТ Р 57773—2017

Содержание

1    Область применения................................................................1

2    Соответствие.......................................................................1

3    Нормативные ссылки.................................................................1

4    Термины и определения.............................................................2

5    Сокращенные термины...............................................................3

6    Обзор качества данных...............................................................3

7    Компоненты качества данных..........................................................ь

7.1    Обзор компонентов...............................................................5

7.2    Единица качества данных {data quality unit)...........................................5

7.3 Элементы качества данных (data quality elements)......................................6

7.4    Дескрипторы элементов качества (descriptors of data quality elements).....................8

7.5    Элементы метакачества (metaquality elements).......................................11

7.6    Дескрипторы элемента метакачества (descriptors of a metaquality element).................12

8    Меры качества данных (data quality measures)...........................................13

8.1    Общие положения...............................................................13

8.2    Стандартизированные меры качества данных........................................13

8.3    Создание определяемых пользователем мер качества данных..........................13

8.4    Каталог мер качества данных......................................................13

8.5    Список компонентов.............................................................13

8.6    Подробное описание компонентов..................................................14

9    Оценка качества данных (data quality evaluation)..........................................15

9.1    Процесс оценки качества данных...................................................15

9.2    Методы оценки качества данных (data quality evaluation methods)........................17

9.3    Обобщение и преобразование (aggregation and derivation)..............................18

10    Отчетность о качестве данных (data quality reporting).....................................18

10.1    Общие положения.............................................................18

10.2    Частные случаи...............................................................19

Приложение А (обязательное) Комплекс проверок..........................................20

Приложение В (справочное) Концепции оценки качества данных и их применение...............21

Приложение С (обязательное) Словарь данных для оценки качества..........................25

Приложение D (обязательное) Перечень стандартизированных мер качества данных............38

Приложение Е (справочное) Оценка и выдача информации о качестве данных..................86

Приложение F (справочное) Методы выборочной оценки...................................108

Приложение G (обязательное) Базовые меры качества данных..............................115

Приложением (справочное) Управление мерами качества данных...........................119

Приложение! (справочное) Руководство по использованию элементов качества...............122

Приложение J (справочное) Обобщение результатов оценки качества........................129

Приложение ДА (справочное) Сопоставление структуры настоящего стандарта со структурой

примененною в нем международного стандарта............................131

Приложение ДБ (справочное) Сведения о соответствии ссылочных национальных стандартов международным стандартам, использованным в качестве ссылочных

в примененном международном стандарте.................................132

Библиография.......................................................................133

Ш

ГОСТ Р 57773—2017

Введение

Пространственные данные все чаще распространяют, обменивают и используют для целей, от* личных от тех. которые предусматривались разработчиком. Информация о качестве доступных данных имеет важнейшее значение для процесса отбора наборов данных, в которых ценность данных напрямую связана с их качеством. Пользователям пространственных данных представляется множество наборов данных на выбор. 8 связи с этим возникает необходимость сравнения качества наборов данных с целью определения тех. которые наилучшим образом отвечают потребностям пользователя.

Цель описания качества пространственных данных состоит в облегчении сравнения и выбора набора данных, которые наилучшим образом удовлетворяют потребностям или требованиям приложений. Полные описания качества наборов данных будут способствовать распространению, обмену и использованию соответствующих наборов данных. Информация о качестве пространственных данных позволяет их разработчику оценить, насколько точно данный набор отвечает критериям, изложенным в спецификации продукта, и помогает пользователям данных оценить способность продукта удовлетворять требованиям его конкретного приложения. Для осуществления такой оценки используется ряд четко определенных процедур в последовательном порядке.

С целью облегчения сравнения важно, чтобы результаты в отчетах информации о качестве данных были выражены в сопоставимом виде, а также чтобы было общее понимание использованных мер качества данных. Эти меры качества обеспечивают дескрипторы качества пространственных данных путем сравнения с данными предметной области. Использование несовместимых мер делает сравнение качества данных невозможным. Настоящий стандарт устанавливает требования к компонентам и структуре мер качества данных и определяет общие базовые меры качества данных.

В настоящем стандарте отмечается, что мнение производителя и мнение пользователя о качестве данных могут не совпадать. Уровень соответствия качеству может быть установлен с помощью спецификации на продукт производителя данных или требований к качеству пользователя данных. Если пользователю данных требуется больше информации о качестве данных, чем предусмотрено их производителем, то пользователь данных может ознакомиться с ходом процесса оценки качества данных у производителя, чтобы получить дополнительную информацию. 8 этом случае требования пользователя данных рассматриваются как спецификация продукта с целью использования в процессе производства данных.

Цель настоящего стандарта — установить принципы описания качества пространственных данных и концепций обработки информации о качестве пространственных данных, а также последовательные и стандартные методы определения и выдачи информации о качестве наборов данных. Задачей стандарта также является обеспечение руководящими принципами процедур оценки количественной информации о качестве пространственных данных.

Настоящий стандарт является модифицированным по отношению к международному стандарту ИСО 19157:2013 «Географическая информация — Качество данных» (ISO 19157:2013 «Geographic information — Data quality»). В настоящий стандарт внесены изменения, необходимые для приведения еги в соответствие современным международным и национальным стандартам, в частности Изменен раздел нормативных ссылок, уточнена библиография, в тексте стандарта приведены ссылки на национальные стандарты.

IV

ГОСТ Р 57773—2017 (ИСО 19157:2013)

НАЦИОНАЛЬНЫЙ СТАНДАРТ РОССИЙСКОЙ ФЕДЕРАЦИИ

ПРОСТРАНСТВЕННЫЕ ДАННЫЕ Качество данных Spatial data. Data quality

Дата введения — 2018—06—01

1    Область применения

Настоящий стандарт устанавливает принципы описания качества пространственных данных, в юм числе.

•    определяет компоненты для описания качества данных:

•    устанавливает компоненты и структуру содержания реестра для мер качества данных;

•    описывает общие процедуры оценки качества пространственных данных.

•    устанавливает принципы составления отчетности о качестве данных.

Настоящий стандарт также определяет меры качества данных для использования при оценке и составлении отчетности об их качестве. Он предназначен для разработчиков данных, обеспечивающих информацию о качестве, для описания и оценки того, насколько набор данных соответствует спецификации продукта, а также для пользователей данных, пытающихся определить, обладают ли конкретные пространственные данные достаточным качеством, необходимым для их частного применения.

Настоящий стандарт не преследует цель определения минимально приемлемых уровней качества пространственных данных.

2    Соответствие

Любой продукт, заявляющий о соответствии настоящему стандарту, должен отвечать всем требованиям, описанным в комплексе проверок, который приведен в приложении А. а именно:

-    процесс оценки качества данных должен пройти проверку, изложенную в разделе А1 приложения А:

-    метаданные о качестве данных должны пройти проверку, изложенную в разделах А.2 и А.З приложения А;

•    независимый отчет о качестве должен пройти проверку, изложенную в разделе А.4 приложения А;

•    меры качества данных должны пройти проверку, изложенную в разделе А.5 приложения А.

3    Нормативные ссылки

8 настоящем стандарте использованы нормативные ссылки на следующие стандарты:

ГОСТ Р 50779.72—99 Статистические методы. Процедуры выборочного контроля по альтернативному признаку. Часть 2. Планы выборочного контроля отдельных партий на основе предельного качества LQ

ГОСТ Р 57668—2017 Пространственные данные. Метаданные. Часть 1. Основные положения

ГОСТ Р 57656—2017 Пространственные данные. Метаданные. Часть 2. Расширения для изображений и матричных данных

ГОСТ Р 57657—2017 Пространственные данные. Спецификация информационного продукта

ГОСТ Р ИСО 2859-3—2009 Статистические методы. Процедуры выборочного контроля по альтернативному признаку. Часть 3. Контроль с пропуском партий

Издание официальное

1

ГОСТ Р 57773—2017

ГОСТ Р ИСО 3951*1—2015 Статистические методы. Процедуры выборочного контроля по количественному признаку. Часть 1. Требования к одноступенчатым планам на основе AQL при контроле последовательных партий по единственной характеристике и единственной AQL

Примечание — При пользовании настоящим стандартом целесообразно проверить действие ссылочных стандартов в информационной системе общего пользования — на официальном сайте Федерального агентства по техническому регулированию и метрологии в сети Интернет или по ежегодному информационному указателю «Национальные стандарты», который опубликован по состоянию на 1 января текущего года, и по выпускам ежемесячно издаваемого информационного указателя «Национальные стандарты» за текущий год. Если заменен ссылочный документ, на который дана недатированная ссылка, то рекомендуется использовать действующую версию этого документа с учетом всех внесенных в данную версию изменений. Если заменен ссылочный документ, на который дана датированная ссылка, то рекомендуется использовать версию этого документа с указанным выше годом утверждения {принятия). Если после утверждения настоящего стандарта в ссылочный документ, на который дана датированная ссылка, внесено изменение, затрагивающее положение, на которое дана ссылка, го это положение рекомендуется применять без учета данного изменения. Если ссылочный стандарт отменен без замены, то положение, в котором дана ссылка на него, рекомендуется применять в части, не затрагивающей эту ссылку.

4 Термины и определения

4.1    точность (accuracy): Степень соответствия результата проверки или измерений принятому истинному значению.

Примечание — В настоящем стандарте истинным значением может выступать эталонное значение, принятое за истинное.

4.2    каталог (catalogue): Набор элементов (4.18) либо электронный или бумажный документ, который содержит информацию о наборе элементов.

4.3    соответствие (conformance): выполнение заданных требований.

4.4    уровень соответствия качества (conformance quality level): Пороговое значение или набор пороговых значений для результирующих оценок качества данных (4.21). по которым определяют степень соответствия набора данных (4.8) спецификации информационного продукта (4.8) или потребностям пользователя.

4.5    корректность (correctness): Соответствие предметной области (4.24).

4.6    спецификация информационного продукта (data product specification): Детальное описание набора данных (4.8) или ряда наборов данных, а также дополнительная информация, которая обеспечивает его (их) создание, поставку и использование другой стороной.

4.7    базовая мера качества данных (data quality basic measure): Универсальная мера качества данных (4.21). используемая как основа для специализированных мер качества данных.

Примечание — Базовые меры качества данных — абстрактные типы данных. Непосредственное их использование при составлении отчета о качестве данных не представляется возможным.

4.8    набор данных (dataset): Идентифицируемая совокупность данных.

Примечание — Набором данных может быть также малая группа данных, которая, хотя и имеет некоторые ограничения в виде пространственной протяженности или типа объекта (4.15). физически расположена в пределах более крупного набора данных. Теоретически набором данных могут быть отдельный объект (4.11) или атрибут объекта (4.12). расположенные в пределах большого набора данных. Печатная копия топографической или морской карты может рассматриваться как набор данных.

4.9    комплект наборов данных (dataset series): Совокупность наборов данных (4.8), обладающих одинаковыми характеристиками.

4.10    метод прямой оценки (direct evaluation method): Метод оценки качества (4.21) набора данных (4.8). основанный на проверке элементов (4.18) набора данных.

4.11    пространственный объект, объект (feature): Абстракция явления реального мира.

Примечание — Объект может быть представлен как тип или экземпляр. Тип объекта (4.15) или экземпляр объекта (4.13) используются в зависимости от назначения.

4.12    атрибут пространственного объекта (feature attribute): Характеристика объекта (4.11).

Примечание —Атрибут объекта имеет имя. характеризуется определенным типом данных и имеет область допустимых значений. Атрибут экземпляра объекта (4.13) также имеет значение атрибута, принадлежащее области допустимых значений.

4.13    экземпляр объекта (feature instance): Объект данного типа (4.15), имеющий определенные значения атрибутов объекта (4.12).

2

ГОСТ Р 57773—2017

4.14    операция с объектом (feature operation): Операция, которую может выполнить любой экзем* пляр некоторого типа пространственного объекта.

4.15    тип объекта (feature type): Класс объектов (4.11). имеющих общие характеристики.

4.16    пространственные данные (spatial data): Данные о пространственных объектах, включающие сведения об их форме, местоположении и свойствах, е том числе представленные с использованием координат.

4.17    метод косвенной оценки (indirect evaluation method): Метод оценки качества (4.21) набора данных (4.8). основанный на дополнительных знаниях.

Примечание — Примером дополнительных знаний служит происхождение набора данных, таких как метод производства или исходные данные.

4.18    элемент (item): То. что может быть описано и рассмотрено отдельно.

Примечание —Элемент может являться любой частью набора данных (4.8). такой как объект (4.11). отношения объектов, атрибут объекта (4.12) или их комбинация.

4.19    метаданные (metadata): Данные о данных.

4.20    метакачество (metaquality): Информация, описывающая качество (4.21) оценки качества данных.

4.21    качество (quality): Степень соответствия совокупности собственных характеристик заявленным требованиям.

4.22    реестр (register): Набор файлов, содержащий идентификаторы элементов (4.18) с описанием соответствующих элементов.

4.23    самостоятельный отчет о качестве (standalone quality report): Свободный текстовый документ. содержащий подробную информацию о примененных методах оценки качества данных (4.21), результатах и мерах.

4.24    предметная область (universe of discourse): Отображение реального или гипотетического мира, которое включает все. что представляет интерес.

5 Сокращенные термины

5.1 Аббревиатуры

ADQR (aggregated data quality results) — AOL (acceptance quality limit)    —

RMSE (root mean square error)    —

UML (Unified Modeling Language) — XML (Extensible Markup Language) —

агрегированные результаты качества данных: допустимый уровень качества: среднеквадратическая ошибка; унифицированный язык моделирования; расширяемый язык разметки.

5.2 Пакетные аббревиатуры

Для обозначения пакета, содержащего класс, предусмотрено использование аббревиатур. Те сокращения. которые предшествуют именам класса, соединяются символом Ниже приводится перечень таких аббревиатур:

CI

(Citation)

ссылки:

ст

(Catalogues)

каталоги;

DQ

(Data Quality)

качество данных;

DQM

(Data Quality Measure)

мера качества данных:

ЕХ

(Extent)

пространственно-временная протяженность;

GF

(General Feature)

основной объект;

МО

(Metadata)

метаданные.

QE

(Quality Extended)

расширенное качество данных:

RE

(Registration)

регистрация.

б Обзор качества данных

Работа с качеством данных включает:

• изучение концепций качества в отношении пространственных данных. В приложении В представлено описание концепций качества данных, применяемых при определении компонентов для описания качества пространственных данных:

3

ГОСТ Р 57773—2017

•    определение уровней соответствия качества данных спецификации информационного продух* та или потребностям пользователя. Разработка спецификации информационного продукта описана в ГОСТ Р 57657:

•    определение аспектов качества в схемах приложения;

•    оценку качества данных;

•    составление отчетности о качестве данных.

Примечание — Создание схем приложения описано в [1].

Оценка качества данных может быть применена к комплекту наборов данных, набору данных или поднабору данных в наборе данных, обладающих общими характеристиками, так что их качество может быть оценено.

Качество данных должно быть описано с помощью элементов качества данных. Элементы качества данных и их дескрипторы применяются для описания степени соответствия набора данных критериям. изложенным в спецификации информационного продукта или требованиях пользователя, и предоставляют количественную информацию о качестве.

Если информация о качестве описывает данные, которые были созданы без детальной спецификации информационного продукта или с наличием спецификации, но при отсутствии в ней количественных мер и дескрипторов, то оценка элемента данных может быть осуществлена посредством неколичественного субъективного подхода в виде описательного результата для каждого элемента.

Некоторая информация о качестве данных может быть получена на основе элементов назначения. использования и происхождения. Такая информация выдается в виде метаданных согласно ГОСТ Р 57668.

Примечание — Назначение описывает обоснование создания набора данных и содержит информацию о его предполагаемом использовании, которое может не совпадать с фактическим использованием набора данных. Использование описывает приложения, в которых использовался набор данных как разработчиком данных, так и другими пользователями данных. Происхождение описывает историю набора данных и производит подсчет жизненного цикла набора данных, начиная со сбора и приобретения, включая составление и преобразование к их текущему мшу. Эта общая, неколичественная информация является наглядной для пользователей и может помочь в оценке качества набора данных, особенно в случаях особого применения, отличного от предполагаемого (см. также 9.2.3).

Настоящий стандарт определяет, что количественные элементы качества данных могут иметь ассоциативное качество, которое называется мета качеством. Метакачество описывает качество результатов оценки качества данных по определенным характеристикам.

Примечание — Концепция метакачества описана в 7.5.

На рисунке 1 представлен обзор информации по качеству данных.

Рисунок 1 — Концептуальная модель качества пространственных данных

4

ГОСТ Р 57773—2017

7 Компоненты качества данных

7.1 Обзор компонентов

Компоненты качества данных описаны в разделе 7. На рисунке 2 представлен обзор компонентов и связей между ними. Подробнее о компонентах и их атрибутах см. е словаре данных в приложении С.

Рисунок 2 — Обзор компонентов качества данных

7.2 Единица качества данных (data quality unit)

Для описания качества пространственных данных могут рассматриваться различные элементы качества и различные лоднаборы данных, с целью описания которых используются единицы качества данных. Единица качества данных — это совокупность области определения и элементов качества данных (см. рисунок 3).

5

ГОСТ Р 57773—2017

00_реМ2шй1у

■* report

OQjEbmetf

+ вСйрв М а_Ййф»

° 1..*

Рисунок 3 — Единица качества данных

Область определений единиц(ы) качества данных задает протяженность, пространственные, и/или временные, и/или общие характеристики, идентифицирующие данные, качество которых должно быть оценено.

Одна область определения качества данных должна быть предусмотрена для каждой единицы качества данных. Один отчет о качестве данных (метаданные или самостоятельный отчет по оценке качества) может включать несколько единиц качества данных, так как часто области для отдельных элементов качества данных различны. Эти различные области могут быть, например, пространственно разделены, перекрываться или даже совпадать.

Ниже приведены примеры того, что определяет область определения качества данных (см. также MD.Scope е ГОСТ Р 57656):

а)    комплект наборов данных:

б)    набор данных:

в)    поднабор данных, определяемый одной или несколькими из следующих характеристик:

1)    типы элементов (наборы типов объектов, атрибутов объектов, операций с объектами или от* ношений объектов);

2)    конкретные элементы (наборы экземпляров объектов, значения атрибутов или экземпляры от* ношений объектов);

3)    географическая протяженность:

4)    временная протяженность (заданные временные рамки и точность временных рамок).

7.3 Элементы качества данных (data quality elements)

7.3.1 Общие положения

Элемент качества данных — это компонент, описывающий определенный аспект качества про* странственных данных, организованный по различным категориям. Данные категории представлены на рисунке 4.

Рисунок 4 — Обзор элементов качества данных

6

ГОСТ Р 57773—2017

7.3.2    Полнота (completeness)

Полнота определяется наличием и отсутствием объектов, их атрибутов и отношений. Она состоит из двух элементов качества данных:

•    присутствие (commission): избыточность данных в наборе данных:

•    отсутствие (omission): отсутствие данных в наборе данных.

7.3.3    Логическая согласованность (logical consistency)

Под логической согласованностью понимают степень соответствия логических правил структуры данных, атрибутов и отношений (структура данных может быть концептуальной, логической или физической). Если эти логические правила документально оформлены в другом источнике (например, в спецификации на информационный продукт), то необходимо ссылаться на этот источник (например, при оценке качества данных). Логическая согласованность состоит из четырех элементов качества данных:

•    концептуальная согласованность (conceptual consistency): соответствие правилам концептуальной схемы:

-    доменная согласованность (domain consistency): соответствие значений атрибутов области допустимых значений;

•    согласованность по формату (format consistency): степень, с которой данные хранятся в соответствии с физической структурой набора данных;

-    топологическая согласованность (topological consistency): корректность представления закодированных топологических характеристик набора данных.

7.3.4    Позиционная точность (positional accuracy)

Под позиционной точностью понимают точность положения объектов внутри пространственной системы координат. Она состоит из трех элементов качества:

-    абсолютная или внешняя точность (absolute or external accuracy): степень соответствия заявленных значений координат значениям координат, принятым в качестве правильных или являющимся правильными:

•    относительная или внутренняя точность (relative or internal accuracy): степень соответствия относительного положения объектов в наборе данных их соответствующим исходным положениям, принятым е качестве правильных или являющимся правильными:

•    позиционная точность матричных данных (gridded data positional accuracy): соответствие значений пространственного позиционирования матричных данных значениям, принятым в качестве правильных или являющимся правильными.

7.3.5    Тематическая точность (thematic accuracy)

Под тематической точностью понимают точность количественных атрибутов и корректность неколичественных атрибутов, классификаций объектов и их отношений. Она состоит из трех элементов качества.

•    правильность классификации (classification correctness): соответствие классов объектов или их атрибутов предметной области (например, реальной ситуации или эталонному набору данных):

-    правильность неколичественных атрибутов (non-quantitative attribute correctness): определение, является ли неколичественный атрибут правильным или неправильным;

•    точность количественных атрибутов (quantitative attribute accuracy): степень соответствия значения количественного атрибута значению, принятому в качестве правильного или являющемуся правильным.

7.3.6    Временное качество (temporal quality)

Под временным качеством понимают качество временных атрибутов и временных отношений объектов. Оно состоит из трех элементов качества:

•    точность измерения времени (accuracy of a time measurement): степень соответствия заявленных временных измерении значениям, принятым в качестве правильных или являющимся правильными;

•    согласованность по времени (temporal consistency): правильность временного порядка событий;

•    временная достоверность (temporal validity): достоверность данных по отношению ко времени.

Примечание — В качестве измерения времени может выступать определенный момент времени или период.

Пример — 33 марте — пример неверных данных.

7.3.7    Элемент применимости (usability element)

Применимость основана на требованиях пользователя. Все элементы качества могут быть использованы для оценки применимости. Оценка применимости может основываться на конкретных

7

ГОСТ Р 57773—2017

требованиях пользователей, которые не могут быть описаны с использованием элементов качества, описанных выше. В этом случае должен использоваться элемент применимости с целью предоставления конкретной информации о качестве в отношении пригодности определенного набора данных для конфетного приложения или удовлетворения набору требований.

При использовании элемента применимости рекомендуется использовать все приемлемые дескрипторы элементов качества (см. 7.4} и определять меры качества в соответствии с разделом 8 или приложением D в целях предоставления детальной информации по оценке.

Пример — С помощью данного элемента производитель данных может продемонстрировать, насколько набор данных пригоден для различных указанных способов использования. Данный элемент может быть применен для подтверждения соответствия набора данных конкретной спецификации.

7.4 Дескрипторы элементов качества (descriptors of data quality elements)

7.4.1 Общие положения

Оценка элемента качества данных осуществляется с помощью:

•    меры (measure): тип оценки:

- метода оценки (evaluation method): процедура, используемая для оценки меры:

•    результата (result): итог оценки.

Данные дескрипторы представлены на рисунке 5 и описаны в 7.4.2, 7.4.3 и 7.4.4.

Рисунок 5 — Дескрипторы элементов качества

7.4.2 Мера (measure)

Элемент качества данных должен ссылаться только на одну меру посредством ссылки (см. рисунок в), указывая идентификатор меры, полностью описанный в другом месте (DQM_Measure. measureldentifier. см. 8.6.1), и/или указывая имя и краткое описание меры.

Примечание — Полное описание можно найти в реестре или каталоге мер. которые могут образовывать часть спецификации информационного продукта или самостоятельного отчета по качеству.

From ISO 19115'1:20И

• D41iType-

MDJdentifier

•    authority :CI„Cit4tion [0..1J

-    code :CbaracterStnng

•    t«deSpitc« :Chf)rj<i*rSiring (0..) |

•    гегяоп :Chsrac«rStnnB

-    dttcnpuon :CbifarlcrStnaf (0..1)

Рисунок 6 — Ссылки на меры качества данных

8

ГОСТ Р 57773—2017

Меры качества данных более подробно описаны в разделе 8 настоящего стандарта. В приложении D приведен список стандартизированных мер качества данных.

Пример — Процент значенийатрибутое, которые являются верными.

Настоящий стандарт устанавливает, что для измерения качества набора данных используются различные методы. Одной меры качества данных может быть недостаточно для полной оценки качества данных, задаваемых областью определения качества данных, а также для предоставления мер качества для всевозможных вариантов использования набора данных. Комбинация мер качества данных может давать полезную информацию. Несколько мер качества данных могут быть описаны для данных, заданных одной областью определения качества данных. 8 этом случае отчет о качестве данных должен включать один экземпляр DQ_Element для каждой примененной меры.

7.4.3 Метод оценки (evaluation method)

Метод оценки качества данных описывает те процедуры и методы, которые применяются к пространственным данным для получения результата оценки качества данных (см. рисунок 7). Для различных элементов качества данных часто используются различные методы оценки.

Для каждой примененной меры качества должен быть включен метод оценки качества. Метод оценки качества данных используется для описания методологии, используемой для применения меры качества данных для данных, задаваемых некоторой областью их определения, или для описания документации. в которой такая методология описывается.

Примечание — Оценка качества ванных подробнее описана в разделе 9.

Пример — Примерами такой документации являются спецификации на информационный продукт. опубликованные статьи или утвержденные отраслевые стандарты.

для каждой оценки следует указывать дату или диапазон дат. Если оценка проводилась в непоследовательном временном порядке, то следует указывать каждую отдельную дату. Даты изложены в соответствии с требованиями (2).

Рисунок 7 — Метод оценки качества данных

7.4.4 Результат (result)

7.4.4.1 Общие положения

Для каждого элемента качества данных должно быть обеспечено не менее одной результирующей оценки качества. Это может быть количественный результат, результат соответствия, описательный результат или результат покрытия (см. также рисунок 8).

Примечание —Для одного элемента качества данных могут применяться различные типы результатов.

Для различных частей набора данных качество часто различается. Поэтому несколько оценок могут быть применены для одного элемента качества данных для более полного и более детального описания количественной информации о качестве. Чтобы избежать повторных описаний мер и проце-

9

ГОСТ Р 57773—2017

Рисунок 8 — Результат оценки качества

дур оценки для нескольких экземпляров элемента качества данных (DQ_Element). можно использовать несколько результатов с областью применения индивидуальных результатов.

Примечание — Результирующая область — это подгруппа области определения качества данных (см. 7.2).

Пример — Набор данных содержит объекты идентичного типа, положение которых было установлено с помощью отличающихся методов и с различной точностью определения местоположения. Однако для всего набора данных применяются одни и те же процедура и мера оценки качества, которые дают различные результаты в зависимости от метода сбора данных. В этом случае может быть желательно иметь несколько результатов с отдельными результирующими областями (зона, охватываемая каждым методом сбора данных) и одной областью определения качества данных (набор данных).

7.4А.2 Количественный результат (quantitative result)
Количественным результатом может быть одно или несколько значений, в зависимости от значений атрибутов valueType и valueStructure. определенных в описании применяемой меры.
Атрибут valueRecordType используется для описания того, как valueType и valueStructure, определенные данной мерой, реализованы для получения значения количественного результата.

Примечание — Атрибут valueRecordType принадлежит к типу RecordType. который является универсальным типом данных согласно [3]. Его значение меняется в зависимости от того, какое решение по реализации используется для получения количественного результата. Пример реализации XML для RecordType дан в (4].

Пример 1 — Использование XML: простой пример: value = 5. valueRecordType = gco:lnteger, valueUnit = «metre.*

Пример 2 — В рамках описания меры, valueType — целочисленная переменная, a valueStructure: матрица (пуп). Значение атрибута количественного результата обеспечивает результат самой матрицы в пределах числового кодирования, использующего определенный тип XML. называемый MatrixType (например). В XML атрибут valueRecordType обеспечивает описание типа MatrixType. Если применяется другая кодировка, то атрибут valueRecordType изменяется для обеспечения описания

10

ГОСТ Р 57773—2017

типа Matrix в другой кодировке. и. соответственно, изменяется реализация вычисления значения атрибута, но само значение остается прежним.

Для каждого результата должна быть установлена отдельная единица значения в соответствую* щих случаях.

Пример 3 — Возможные единицы расстояния: метр, сантиметр, миллиметр.

Пример 4 — Мера •уровень избыточных элементов» (см. таблицу D.3) используется для оценки количества избыточных элементов в наборе данных по отношению к количеству элементов, которые должны быть представлены. Результат количественного значения имеет тип значения Real. В этом случае единица значения указывается в процентах, значение умножается на 100. В атом примере единицей значения является *процент». *%».

7.4.4.3    Результат соответствия (conformance result)

Результат соответствия — это результат сравнения значения или набора значений, полученных в результате применения некоторой меры качества к данным, заданным областью определения каче-ства, с учетом установленного приемлемого уровня соответствия качества.

Когда уровень соответствия качества определен, его сравнивают с полученным результатом с целью выявления того факта, что качество данных удовлетворяет заданному уровню качества.

Результат соответствия может быть установлен для каждой меры. Уровень соответствия качества определяется в соответствующей документации, такой как спецификация к информационному про* дукту или спецификация требований, определенных пользователем. При определении соответствия необходимо ссылаться на соответствующую нормативно-техническую документацию и указывать примененный уровень соответствия качества.

Для одной меры предусмотрено более одного результата соответствия качества данных, если процедура оценки противоречит уровню соответствия, установленного в различных источниках.

7.4.4.4    Описательный результат (descriptive result)

В некоторых случаях (например, при тематических и геонаучных исследованиях) проведение количественной результирующей оценки для элемента качества данных не представляется возможным. Тогда субъективная оценка элемента может быть выражена в текстовом формате в качестве описательного результата качества данных.

Пример — Относительная точность положения выше между геологическим объектом и соседним объектом на топографической карте (дороги, реки, озера и т. д.), чем абсолютная точность положения самого геологического объекта.

Данный описательный результат также может быть использован для проведения короткого синтетического описания результата оценки качества данных, сопровождения полного количественного результата или полной его замены в случае, если количественные значения не могут быть предоставлены.

7.4.4.5    Результат покрытия (coverage result)

Результат покрытия — это результат оценки качества данных, формализованных в виде покрытия. Он описан в ГОСТ Р 57656.

7.5    Элементы метакачества (metaquaiity elements)

Элементы метакачества представляют собой набор количественных и качественных отчетных данных об оценке качества и его результате. Знания о качестве и пригодности метода оценки, примененных мерах и данном результате могут иметь такое же значение, как и сам результат.

Пример оценки метакачества см. в Е.5.3 приложения Е.

Метакачество может быть описано с использованием следующих элементов, представленных на рисунке Э:

• достоверность (confidence): надежность результата качества данных.

Примечание — Количественные показатели достоверности могут быть получены посредством статистических параметров, таких как стандартное отклонение или доверительный интервал с заданным уровнем достоверности.

Пример —Достоверность зависит в первую очередь от используемого метода и его надежности. а также в меньшей мере от соответствующей генеральной совокупности:

11

ГОСТ Р 57773—2017

•    репрезентативность (representativity): степень репрезентативности данных в пределах области определения качества данных в соответствии с результатом выборки.

Примечание — Статистический метод, основанный на выборке, может считаться таким же надежным, как и глобальный метод, когда охвачены все географические зоны и рассматриваемые временные диапазоны, а генеральная совокупность достаточно велика. Важен не только объем выборки, который имеет решающее значение, но и тот факт, насколько точно отражается текущее состояние данных. См. также 9.2.2 и приложение F;

•    гомогенность (homogeneity): ожидаемая или тестируемая однородность результатов, полученных для оценки качества данных.

Примечание — Однородность заключается в сравнении результатов оценки нескольких сегментов глобального набора данных. Это сравнение может быть выражено, например, посредством среднеквадрзтиче-ских ошибок. Гомогенность невозможно оценить в случав общего процесса, так как результат носит глобальный характер.

Примечание — Такие тесты часто проводятся при сборе данных различными операторами в зависимости от зоны или времени сбора данных.

Рисунок 9 — Элементы метакачества

7.6 Дескрипторы элемента метакачества (descriptors of a metaquality element)
Для описания элемента метакачества используются те же дескрипторы, что и для элемента качества [мера, метод оценки и результат (см. 7.4 и рисунок 10)]. Дополнительно должен применяться следующий дескриптор:
• связанный элемент качества.

Примечание — Связанный элемент качества — это элемент, к которому применяется элемент метакачества.

Пример оценки метакачества см. в Е.5.3 приложения Е.

Рисунок 10 — Дескрипторы мегакачества

12

ГОСТ Р 57773—2017

8 Меры качества данных (data quality measures)

8.1    Общие положения

Для облегчения сравнения набора данных необходимо, чтобы результаты в отчетах по качеству данных представлялись в сравнительном виде, а также чтобы имелось общее представление об использованных мерах качества данных. Чтобы сделать оценки качества данных и отчеты о качестве данных (в виде метаданных или самостоятельного отчета по оценке качества) из различных источников сопоставимыми, должны использоваться по возможности стандартизированные меры качества данных. описанные в приложении D.

8.2    Стандартизированные меры качества данных

Перечень стандартизированных мер качества данных приведен в приложении D. Каждая мера качества данных этого списка содержит все необходимые компоненты, указанные в разделе 8. Для каждого элемента качества данных предусмотрено применение нескольких мер. Какие из них использовать. зависит от типа данных и их предполагаемого назначения. Меры из этого перечня должны быть использованы в рамках реализации данного стандарта.

Любой реестр, установленный для управления стандартизированными мерами качества данных, приведен в (5).

8.3    Создание определяемых пользователем мер качества данных

Вследствие природы качества и пространственных данных перечень стандартизированных мер качества данных не может быть полным. Возможны случаи, когда пользователь настоящего стандарта вынужден разрабатывать другие меры качества данных. По возможности эти меры должны быть определены с помощью базовых мер качества данных, описанных в приложении G. а сама мера — в соответствии со структурой, приведенной в разделе 8.

8.4    Каталог мер качества данных

Для более полного описания мер. указанных в отчете по оценке качества данных, каталоги мер качества данных могут быть предоставлены совместно с метаданными или в онлайн-режиме.

Каталог может содержать набор мер. применяемых в одном или нескольких отчетах со всеми необходимыми компонентами для мер качества данных, указанных в настоящем стандарте.

Каталог (как и реестр) позволяет пользователю описывать меру и хранить информацию для того, чтобы иметь возможность ссылаться на него при каждой необходимости, вместо повторного описания меры в отчете по качеству данных.

Приложение Н описывает структуру каталога мер. В (4) представлен XML-механизм для ассоциирования каталога с набором метаданных.

8.5    Список компонентов

Каждая мера качества данных описывается следующими компонентами:

•    идентификатор меры (8.6.1);

-    название (8.6.2);

•    краткое название (8.6.3);

-    название элемента (8.6.4);

-    базовая мера (8.6.5):

-    определение (8.6.6);

•    описание (8.6.7);

•    параметр (8.6.8);

•    тип значения (8.6.9):

•    структура значения (8.6.10);

-    ссылка на источник (8.6.11);

•    пример (8.6.12).

На рисунке 11 представлены компоненты меры качества данных.

13

ГОСТ Р 57773—2017

DQM.Measure

meatureldentlfler :MD.Identifier nan* :Chaia«*rString alias iCharacterStnng (0-*) clcmontXamc :Typ«Name [J-*l definition :Chara<ter5trlng description :DQM .Description (0..1) valueType :TypcNamc valueStraciure :DQM.Valu#Stni«ure |0..IJ example :DQM .Description (0..*)

Огрлннчлнха

(elemenlNome должен иы«1<. значение TypeName данных) (гавоеТуое должен бигь одним из типе*, определенных в ISO/TS I9I&3)

tvaaoeStiucturo в<лочаегс«. вслиреаультат ешмочдег белее чем одно аиа««иив)

»ba«UM***ur*

1..*

0..1

«parameter

0_*

«CodeList» DQM.ValueStruc tore

bag

set

sequence

table

matrix

coverage

• Datatype» DQM.Descripdon

textDeecnptiou :CharacterStrlng extendedDeecrlption ;MD.8row»Graphlc |0-1|

DQM.BasicMeasure

*    name :Ch*racterStrlng

*    definition :Character$tnng

*    example :DQM.Description [D-l]

» valueType sTypeName

Огрдиичешю

(valueType должен быть одним иа типов. onpoAoneMHkuatStyTS 19103)

DQM.Parameter

+ паве iCharecterStnng + definition :CharaclerStnng + description :DQM.Description [0..1]

* valueType rTypeNem*

+ valueStructurr :DQM.ValueStructure 10.. 11

Ограничен не

IvaiuoType должен бы>ь одним иа типов, определенных a ISO/TS 19103}

Рисунок 11 — Меры качества данных

8.6 Подробное описание компонентов

8.6.1    Идентификатор меры (measure identifier)

Идентификатор — это значение, уникально идентифицирующее меру в пространстве имен.

Примечание — Данный идентификатор устанавливает ссылки на меру качества данных в элементах качества данных (см. 7.4.2).

8.6.2    Название (пате)

название — это название меры.

Примечание — Если мера уже имеет общепринятое название, то должно использоваться это название. Если же такого названия не существует, то следует выбрать такое название, которое отражает характер этой меры.

8.6.3    Условное название (alias)

Условное название — это другое отличительное наименование для той же меры качества данных. Им может быть иное общепринятое наименование либо аббревиатура или же краткое имя. Возможно использование более одного условного названия.

8.6.4    Название элемента (element name)

Название элемента — это название элемента качества данных (см. 7.3 и 7.5). к которым применяется некая мера. Возможно использование более одного имени элемента.

8.6.5    Базовая мера (basic measure)

Если какая-либо мера основана на одной из базовых мер. то она должна быть описана его именем. определением и типом значения. Базовые меры идентифицируются по своим именам.

Множество мер основано на подсчете ошибочных элементов. Существуют также некоторые меры, связанные с неопределенностью числовых значений. Для тою чтобы избежать повторений, наиболее

14

ГОСТ Р 57773—2017

распространенные методы построения расчетных мер. а также общие статистические показатели для одно* и двумерных случайных величин должны быть установлены в виде базовых мер.

При необходимости создания новых мер необходимо также использовать базовые меры. Напри* мер. для выдачи информации по незамкнутой мозаичной поверхности или других мер в зависимости от приложения.

Примечание — В приложении G приведены базовые меры.

8.6.6    Определение (definition)

Определение является фундаментальным понятием меры.

Примечание — Если мера является производной от базовой меры, то такое определение основывается на определении базовой меры и специфицируется для этой меры.

8.6.7    Описание (description)

Описание — это описание меры, включающее методы подсчета с учетом всех формул и/или ил* люстрации, необходимые для получения результата применения этой меры.

Если мера использует концепцию ошибок, то должно быть указано, каким образом элемент классифицируется как некорректный. В этом случае качество может быть описано только как корректное или некорректное.

8.6.8    Параметр (parameter)

Параметр — это вспомогательная переменная, используемая мерой. Она должна включать в себя имя. определение и тип значения. Может использоваться более одного параметра.

Примечание — Пример параметра см. е таблице D.66 приложения D.

8.6.9    Тип значения (value type)

Тип значения — это тип данных, используемый для представления результата меры. Должны ис* пользоваться типы данных, определенные в [3].

8.6.10    Структура значения (value structure)

Результат может состоять из множества значений. В таких случаях результат должен быть струк* турирован с использованием структуры значения, как указано е С.3.3 приложения С.

8.6.11    Ссылка на источник (source reference)

Ссылка на источник — это ссылка на документацию с описанием меры.

Когда мера, для которой предоставляется дополнительная информация из внешнего источника, добавляется в перечень стандартизированных мер. то здесь может быть указана ссылка на этот ис* точник.

8.6.12    Пример (example)

Пример — это пример применения меры или результате, полученного при использоеании этой меры. Может быть приведено белее одного примера.

9 Оценка качества данных (data quality evaluation)

9.1    Процесс оценки качества данных

9.1.1    Введение

Процессы оценки качества используются на различных фазах жизненного цикла продукта, при этом в каждой фазе их задачи различаются. Здесь рассматриваются следующие фазы жизненного цик* ла: спецификация, производство, поставка, использование и обновление.

Процесс оценки качества данных представляет собой последовательность этапов для получения результата качества данных.

9.1.2    Последовательность выполнения процесса

Процесс оценки качества представляет собой последовательность шагов, выполняемых для полу* чения результата оценки качества. Рисунок 12 иллюстрирует возможную последовательность действий для оценки качества данных. См. также приложение Е, в котором дано описание концепции оценки и составления отчетности по качеству данных.

Когда оцениваемые пространственные данные неоднородны и разные части имеют разное каче* ство, то тесты должны быть выполнены соответственно для различных частей.

15

ГОСТ Р 57773—2017

Начало процесса оценки

9.1.3 Этапы процесса (process steps)

В таблице 1 представлены этапы процесса.

Таблица 1—Этапы процесса

Этап

процесса

Процесс

Описание

1

Указать единицу(ы) качества данных

Единица качества данных состоит из области определения и элемента (элементов) качества (см. 7.2). Следует использовать все элементы качества. релевантные данным, для которых будет описываться качество.

Примечание — Тестируемые элементы качества данных описаны в 7.3. в приложении I приведены рекомендации по использованию элементов качества

2

Указать меры качества данных

В случае применимости для каждого элемента качества данных следует определять меру. В приложении D приведен список мер качества данных

3

Указать процедуры оценки качества даншх

Процедура оценки качества данных заключается в применении одного или более методов оценки

4

Определить итог оценки качества данных

Результатом является итог применения оценки

В случае невозможности определения мер возможно использование описательного результата

Оценка метакачества может осуществляться после получения итога оценки качества. Последовательность. описанная выше, также применима к оценке метакачества с учетом следующих этапов процесса: указать элемент метакачества и оценку качества, для которых оценивается метакачество, затем указать меру и метод оценки и определить итог оценки метакачества.

ГОСТ Р 57773—2017

9.2 Методы оценки качества данных (data quality evaluation methods)

9.2.1 Классификация методов оценки качества данных

Процедура оценки качества данных включает один или более методов оценки качества данных. Методы оценки качества данных можно разделить на два основных класса: прямая (direct) оценка и косвенная (indirect) оценка. Методы прямой оценки определяют качество данных путем сравнения данных с внутренней иУили внешней информацией. Методы косвенной оценки выводят или оценива-ют качество данных, используя информацию о данных, такую как происхождение. Применение ме* тодов прямой оценки предпочтительнее косвенной оценки. Методы прямой оценки, в свою очередь, классифицируются по источнику информации, необходимой для выполнения оценки внутренней или внешней.

На рисунке 13 представлены классы описываемых методов оценки.

Примечание — Происхождение описано в ГОСТР57668.

Рисунок 13 — Методы оценки качества данных

9.2.2 Прямая оценка (direct evaluation)

Метод прямой оценки — это метод оценки качества набора данных, основанный на проверке эле* ментов в наборе данных.

Методы прямой оценки могут быть классифицированы на внутренние и внешние. Внутренняя прямая (internal direct) оценка качества данных использует только те данные, которые содержатся в оцениваемом наборе данных. Внешняя прямая (external direct) оценка качества требует применения эталонных данных, внешних по отношению к тестируемому набору данных.

Примечание — Эталонные данные — это данные, принятые как представляющие предметную область.

Как для внешних, так и для внутренних методов оценки может использоваться один из следующих методов проверки:

•    полный контроль (full inspection);

•    выборочный контроль (sampling).

При полном контроле тестируется каждый элемент в генеральной совокупности, определенной областью качества данных.

Примечание — Полный контроль богьше всего подходит для небольших генеральных совокупностей или для тестов, которые могут быть выполнены в автоматическом режиме.

17

ГОСТ Р 57773—2017

Выборочный контроль выполняется для проверки поднаборов пространственных данных, заданных областью качества данных.

Примечание — Примеры методов выборочной оценки даны в приложении F.

9.2.3    Косвенная оценка (indirect evaluation)

Метод косвенной оценки — это метод оценки качества набора данных на основе внешних знаний или накопленного опыта работы с информационным продуктом и может быть субъективным.

Эти внешние знания могут включать (но не ограничиваться ими) неколичественную информацию по качеству, такую как использование, происхождение и назначение (см. ГОСТ Р 57668) или другую отчетную информацию о качестве набора данных или данных, использованных для набора данных. Качество данных может быть оценено, например, на основе знаний об источнике, инструментах и методах. использованных для сбора данных и оцененных по отношению к процедурам и спецификациям, разработанным для этого продукта. Косвенная оценка качества данных также может быть основана только на опыте. Если указывается, что выполнена косвенная оценка, то должно быть указано также, как эта оценка была осуществлена.

В некоторых случаях может быть затруднительно или даже невозможно описать косвенно оцененное качество данных в виде количественного результата. В таких случаях качество данных может быть описано в текстовой форме с использованием описательного результата (см. 7.4.4.4).

9.3    Обобщение и преобразование (aggregation and derivation)

Дополнительные результаты можно получить посредством обобщения или преобразования существующих результатов без проведения новой оценки качества данных.

Обобщение объединяет результаты качества из проведенных оценок качества данных, основанных на различных элементах качества данных или различных областях определения качества данных.

Дополнительные результаты также могут быть выведены из существующих результатов, например. когда результат соответствия получен путем сравнения количественного результата с уровнем соответствия. Это полезно, например, если результат выражен не уровнем соответствия.

Примечания

1    Обобщение может быть применено для обобщения результатов различных элементов качества с целью описания их соответствия спецификации информационного продукта.

2    Подробнее об обобщении см. в приложении J. Как излагать информацию по обобщению, описано в 10.2.1 и приложении Е.

3    Как излагать информацию по преобразованию, огмсано в 10.2.2 и приложении Е.

Пример — Если уровень достоверности результата равен 95 % и уровень достоверности уровня соответствия 99 %, то результат может быть пересчитан, чтобы иметь такой же уровень достоверности уровня соответствия.

10 Отчетность о качестве данных (data quality reporting)

10.1 Общие положения

Качество данных должно быть представлено в виде метаданных в соответствии с разделом 7. разделом 10. приложением С. а также ГОС7Р 57668 и ГОСГР 57656.

С целью предоставления более подробной информации, помимо метаданных, может быть дополнительно создан самостоятельный отчет по оценке качества. Его структура определяется в свободной форме. Однако самостоятельный отчет по оценке качества не должен подменять метаданные. Метаданные должны содержать ссылку на самостоятельный отчет по оценке качества, если таковой имеется (см. рисунок 14).

Примечания

1    Более подробную информацию о предоставлении отчета по качеству данных, а также дополнительной роли между метаданными и самостоятельными отчетами по качеству см. также в В.4.Э.2 приложения В.

2    Примеры отчетности по качеству данных приведены в Е.4 приложения Е.

18

ГОСТ Р 57773—2017

Рисунок 14 — Отчетность о качестве данных

10.2 Частные случаи

10.2.1    Отчетность ло обобщению (обобщенные результаты)

Приобобщекии результатов должен предоставляться самостоятельныйотчетокачвстве{81апРа1опе quality report) для дополнения информации, представленной в метаданных. В рамках этого самостоятельного отчета о качестве должна быть представлена детальная информация ло исходному результату с мерой (мерами) и процедурой (процедурами) оценки, обобщенному результату и методу обобщения.

В метаданных:

•    когда несколько показателей качества одного элемента качества объединяются в один показатель этого элемента, то этот показатель должен быть представлен в метаданных е виде результата этого элемента качества данных. Примеры представлены в Е.4.1.2 и Е.4.1.3 приложения Е.

•    когда несколько показателей качества различных элементов объединяются в один показатель, то это должно быть отражено в метаданных в виде результата элемента применения (DQJJsabilityElement). Пример представлен в Е.4.1.4 приложения Е.

В обоих случаях в метаданных должна даваться ло крайней мере ссылка на первоначальный результат проверки качества данных, также может быть представлена информация о мере обобщения и методе обобщения.

10.2.2    Отчетность по преобразованию (производные результаты)

Когда только производные результаты представляются в метаданных, то необходимо сгенерировать самостоятельный отчет по оценке качества, чтобы предоставить исходные результаты по качеству данных, из которых был получен производный результат. 8 метаданные должна быть включена ссылка на самостоятельный отчет по оценке качества и исходный результат качества данных.

Пример — Результат соответствия часто является производным из количественного результата. Если в метаданных указывается только результат соответствия, то тогда количественные результаты должны быть представлены в самостоятельном отчете по оценке качества.

10.2.3    Ссылка на результат проверки качества исходных данных

Когда производный или обобщенный результат(ы) представляются в метаданных, то ссылка на первоначальный результат проверки качества данных может быть дана с использованием двух атрибутов:

- атрибут derivedElement ссылается на элемент качества (и его результаты)], описанные в метаданных:

•    атрибут standaloneQuaiityReportDetails ссылается на часть самостоятельного отчета о качестве, где описан исходный реэультат(ы).

19

ГОСТ Р 57773—2017

Приложение А

(обязательное)

Комплекс проверок

А.1 Наименование проверки: Процесс оценки качества

a)    Цель проверки: убедиться в правильности процесса оценки качества данных.

b)    Метод проверки: проверить, включает ли процесс оценки качества все пункты, указанные в 9.1.3. Что предполагает:

1)    определение положений спецификации на информационный продукт или требований пользователя, имеющих отношение к качеству данных, и их использование для иденгификацгы применимых элементов качества данных и их соответствующей области. Сравнение применяемых элементов качества данных с оцениваемыми элементами качества данных для удостоверения в том. что асе соответствующие элементы качества данных были идентифицированы и оценены по соответствующей области определения;

2)    проверку того, что мера качества данных, применяемая для каждой оценки качества, уместна а соответствии с положениями спецификации на информационный продукт или требованиями пользователя;

3)    проверка того, что процедура оценки качества, примененная для каждой оценки качества данных, уместна а соответствии с положениями спецификации информационного продукта или требованиями пользователя.

c)    Ссылка: 9.1.

d)    Тип проверки: предварительная.

А.2 Наименование проверки: Метаданные о качестве данных

a)    Цель проверки: убедиться в том. что метаданные о качестве данных моделируются в соответствии с моделями UML и словарем данных.

b)    Метод проверки: проверить, что метаданные содержат соответствующие компоненты качества данных и следуют правилам для каждого компонента.

c)    Ссылка: раздел 7. раздел 10 и приложение С.

d)    Тип проверки: предварительная.

А.З Наименование проверки: Соответствие метаданных

a)    Цель проверки: убедиться в том. что метаданные о качестве данных представлены в соответствии с ГОСТ Р 57668 и ГОСТ Р 57656.

b)    Метод проварки: проверить тесты, представленные в ГОСТР 57660. в А.2.1, А.2.2. А.2.3, А.2.4, А.2.5 приложения А.

c)    Ссылка: ГОСТ Р 57668. в А.2.1. А.2.2. А.2.3. А.2.4, А.2.5 приложения А.

d)    Тип проверки: предварительная.

А.4 Наименование проверки: Независимый отчет по оценке качества

a)    Цель проверки: убедиться в том, что самостоятельный отчет по оценке качества включает в себя разделы по всем соответствующим аспектам качества и что описание всех компонентов качества данных следует правилам. определенным а настоящем стандарте.

b)    Метод проверки: проверить, содержит ли самостоятельный отчет по оценке качества все соответствующие компоненты.

c)    Ссылка: раздел 7 и раздал 10.

d)    Тип проверки: предварительная.

А.5 Наименование проверки: Меры качества данных

a)    Цель проверки: убедиться в том. что мера качества данных структурно и семантически точно определена.

b)    Метод проварки: проверить, описаны пи использованные меры качества, как это указано а раздела 8. и смоделированы ли 8 соответствии с моделью UML и словарем данных.

c)    Ссылка: раздел 8 и приложение С.

d)    Тип проверки: предварительная.

20

ГОСТ Р 57773—2017

Приложение В

(справочное)

Концепции оценки качества данных и их применение

В.1 Концептуальные основы качества данных

Набор данных может быть создан для конкретного приложения или для нескольких возможных приложений. Качество набора данных может быть определено только при наличии информации об оценке элементов качества данных и в некоторых случаях косвенно — на основе неколичествеикой качественной информации по использованию. происхождению и назначена) (см. ГОСТ Р 57668). Элементы качества данных оценивают расхождение между набором данных и предметной областью (т. е. правильным набором данных, который соответствует спецификации продукта). Неколичественная информация о качестве предоставляет общую информацию, из которой можно получить связанные с качеством знания.

Концепции оценки качества данных предоставляют важную основу для разработчиков, а также пользователей данных. Разработчик данных получает средства для проверки того, насколько набор данных отражает его предметную область согласно спецификации продукта. Пользователи данных могут оценить качество набора данных для удостоверения в том, что набор данных удовлетворяет требованиям пользовательского применения (см. рисунок В.1).

Заявленные результаты качества являются действительными 8 отношении спецификации информационного продукта или требований пользователей. Если они изменились, то оценка качества должна быть повторена в отношении измененной спецификации или требований. Следует проявлять осторожность при сравнении результатов качества там. где предметная область отличается. Типичным примером этого является преобразование модели в инфраструктурах пространственных данных или при генерализации. Например, при изменении геометрии типа объекта также изменяются резупьтзты позиционной точности.

изготовление используются •    выбор

Данные

Ж.

Рисунок B.t — Концептуальные основы оценки качества данных

21

ГОСТ Р 57773—2017

В.2 Структура наборов данных и компонентов для описания качества

Набор данных можег принадлежать комплекту наборов данных, что означает, что все наборы данных комплекта основаны на одной и той же спецификации жформационного продукта. Качество всех наборов данных, принадлежащих одному комплекту набора данных, может быть одинаковым.

Набор данных может рассматриваться как содержащий большое, хотя и конечное, число под наборов данных. Поднаборы данных, объединенные принадлежностью к одному и тому же типу объекта, атрибуту объекта или отношению, критерию сбора или к одной и той же географической и временной протяженности, часто имеют одинаковое качество. Поднабор данных минимально может состоять из экземпляра объекта, значения атрибута или вида отношения. Концепция оценки качества данных позволяет каждому экземпляру объекта, значению атрибута и виду отношения объекта иметь собственное качество. Качество поднабора данных в наборе данных может не совпадать с качеством остагъной части набора данных, к которому они принадлежат. Концепции оценки качества данных допускают выдачу информации о качестве набора данных и. хроме того, другой информации о качестве лоднабора данных, идентифицируя эти группы как данные, которые определяются спецификой области определения качества данных. Информация о качестве, представленная для нескольких областей определения качества данных, меньше, чем та. что выводится для набора данных, но представляет более полную и подробную картину качества, чем общее качество полного набора данных.

Примечание — Для разработчика данных спецификация информационного продукта описывает предметную область и содержит правила для построения набора данных. Для пользователя данных требования описывают предметную область, которая может совпадать или не совпадать с предметной областью набора данных. Качество набора данных определяется тем. насколько хорошо он представляет предметную область. Качество одного и того же набора данных может отличаться в зависимости от предметной области, относительно которой он оценивается.

Качество набора данных описывается элементами качества данных и их дескрипторами. Некоторая информация. относящаяся к качеству, тахже может быть получена с помощью неколичественных элементов использования. происхождения и назначения.

Метакачество обеспечивает информацию по качеству в отношении оценки качества.

Элементы качества данных позволяют оценить, насхолько набор данных соответствует критериям, изложенным в спецификации информационного продукта, или требованиям пользователя. Элементы качества данных оценивают различными способами и на различных этапах жизненного цикла набора данных. Концепция оценки качества данных подразумевает, что не все элементы качества данных применимы ко всем типам наборов данных. Помимо этого некоторые элементы качества данных являются применимыми к большим наборам данных, в то время как другие больше применимы к подмножеству данных в более крупном наборе данных. Некоторые элементы качества данных применимы как для единичных экземпляров данных, тах и для большего количества, а некоторые применимы только для множества экземпляров.

Настоящий стандарт определяет элементы качества данных в первую очередь как средства идентификации и выдачи различных видов информации о качестве, также он подразумевает, что элементы качества данных часто взаимосвязаны. Например, ошибка в координатах может повлечь за собой по меньшей мере два типа ошибок — позиционную и топологическую (см. приложение I). Значение элементов качества данных с точки зрения продукта и способа, которым обрабатываются элементы качества данных, находится 8 компетенции оценщика качества.

В.З Когда применять процедуры оценки качества

Процедуры оценки качества могут применяться на различных этапах жизненного цикла продукта. Оценка качества может быть применена на следующих стадиях жизненного цикла продукта:

-    разработка спецификации информационного продукта или требований пользователя: при разработке спецификации или определении требований пользователя процедуры оценки качества могут быть использованы для установления уровней соответствия качества, которым должен отвечать конечный продукт. Спецификация информационного продукта или требования пользователя могут включать уровни соответствия качества для данных и процедуры оценки качества, которые должны применяться в процессе производства и обновления:

• контроль качества при создании набора данных: На стадии производства разработчик может применять процедуры оценки качества, которые явно установлены или же не включены в спецификацию информационного продукта, как часть процесса по контролю качества. Описание процедур оценки качества, применяемых для контроля качества продукции, рекомендуется представлять как метаданные происхождения, включая, в частности, оценку качества применяемых процедур, установленные уровни качества соответствия и результаты:

-    проверка на соответствие спецификации информационного продукта: по завершении производства продукта рекомендуется использовать процесс оценки качества для формирования и представления результатов качества данных. По этим результатам можно определить, насколько набор данных соответствует или не соответствует спецификации информационного продукта. Если набор данных проходит проверку (состоящую из серии процедур оценки качества), то его считают готовым к использованию. Результаты по операции проверки следует

22

ГОСТ Р 57773—2017

выдавать в соответствии с разделом 10. Пример описания оценки и выдачи информации о качестве данных см. в приложении Е. Итогом проверки будет принятие либо непринятие набора данных. Если набор данных будет отклонен, то после исправления данных необходимо будет провести новую проверку, и так до тех пор. пока продукт не будет соответствовать спецификации информационного продукта:

-    оценка соответствия набора данных требованиям пользователя: процедуры оценки качества могут быть испогъзованы для удостоверения в том. что набор данных отвечает уровням соответствия качества, установленным требованиями пользователя. При анализе соответствия набора данных требованиям пользователя могут применяться как косвенные, так и прямые методы:

•    контроль качества при обновлении набора данных: процедуры оценки качества применяются к операциям обновления набора данных как для используемых элементов обновления, так и для сравнения качества набора данных до и после обновления.

В.4 Выдача информации о качестве

В.4.1 Зачем выдавать информацию о качестве

Необходимость выдавать информацию о качестве данных существует по ряду причин, включая следующие:

•    способствовать обнаружению и поддерживать использование набора данных.

•    показывать соответствие спецификации информационного продукта или требованиям пользователя:

•    как часть инициатив менеджмента поставщика;

•    уменьшить поток суждений о качестве информации, полученной из набора данных:

-    обеспечить рациональное (оптимальное) принятие решения, когда известно, что все данные содержат дефекты.

В.4.2 Когда выдавать информацию о качестве

Наборы данных постоянно создают, обновляют и объединяют, в результате чего качество или компонент качества набора данных может изменяться. На информацию о качестве набора данных могут повлиять три условия:

-    когда некоторый объем данных удаляется из набора данных, изменяется или добавляется к набору данных:

-    когда изменяется спецификация набора данных или устанавливаются требования нового пользователя к качеству данных:

•    когда изменяется реальный мир.

Первое условие — изменение набора данных — может происходить довольно часто. Многие наборы данных не являются статическими. Происходят увеличение обмена информацией, использование наборов данных в различных целях и обусловленное этим обновление и уточнение наборов данных для удовлетворения различных целей. Если информация о качестве некоторого набора данных изменяется е результате его модификации, то качество этого набора данных должно быть заново оценено и уточнено.

При создании набора данных необходимо обеспечить полное представление обо всех применяемых элементах качества данных. Первоначально могут сообщаться сведения об использовании набора данных его разработчиком (в предположении, что разработчик данных действительно использует такой набор данных). В дальнейшем пользователи данных должны предоставлять информацию об использовании набора данных, если оно отличается от его прямого предназначения, благодаря таким сообщениям появится возможность постоянного обновления этого описательного элемента качества данных для отражения в нем непредвиденных вариантов использования.

Второе условие — изменение спецификации набора данных — чаще всего происходит перед созданием исходного набора данных и выпуском информации о качестве. Вполне вероятно, что по мере использования некоторого набора данных его спецификация будет обновляться для того, чтобы будущие изменения этого набора данных лучше отвечали фактическим потребностям. При изменении спецификации информационного продухта изменяется также и качество текущего набора данных. Информация о качестве набора данных всегда должна отражать текущий набор данных с учетом текущей спецификации информационного продукта.

Третье условие — изменение реального мира — происходит постоянно. Изменения могут быть вызваны природными явлениями, такими как движения земной коры или эрозия почвы, но чаще всего они являются результатом деятельности человека. Изменения, как правило, наступают очень быстро и внезапно. По этой причине время сбора данных, также как и время оценки качества, играют важную роль при оценке качества набора данных. В некоторых случаях даже скорость изменения данных представляет интерес. А в некоторых случаях интерес может также представлять и частота изменений набора данных. Тем не менее настоящий стандарт признает, что выпуск новой информации о качестве данных при каждых изменениях реального мира не представляется возможным.

В.4.3 Как следует выдавать информацию о качестве

В.4.3.1 Иерархический принцип

Дажый стандарт устанавливает принцип иерархического уровня:

Качество данных, определяемое на верхнем уровне (например, комплект наборов данных), применимо и на более низком уровне (например, набор данных), см. таблицу В.1. Если качество данных отличается на верхнем и нижнем уровнях, то необходимо получить дополнительную информацию на более низком уровне.

23

ГОСТ Р 57773—2017

Таблица В.1—Иерархические уровни

Комплекты

Верхний уровень

т

i

Нижний уровень

Набор данных

Поднабор

Тип объекта

Тип атрибута

Экземпляр объекта

Экземпляр атрибута

Примечание — Информация о качестве экземпляра объекта, атрибута объекта или отношений между объектами может быть выдана как атрибут этого экземпляра согласно [1].

ВАЗ.2 Метаданные и самостоятельный отчет по оценке качества

В.4.3.2.1 Общие положения

Информацдо о качестве можно выпускать в виде метаданных и автономного отчета о качестве. Эти два механизма дополняют друг друга, позволяя выдавать информацию об оценке качества данных с различными уровнями детализации:

•    метаданные направлены на предоставление краткой, синтетической и общесгруктурированной информации для обеспечения операционной совместимости метаданных и использования веб-сервисов:

•    самостоятельный отчет по оценке качества может быть использован для получения более подробной информации об оценке качества данных. Он должен прилагаться к набору данных или продукту для возможности непосредственного ознакомления с ним.

Например. 8 случав обобщения различных результатов качества самостоятельный отчет по оценке качества обеспечит полную информацию по исходным результатам (с применимыми процедурами оценки и мерами), результату обобщения и методу обобщения. 8 то время как метаданные могут только описать результат обобщения со ссылкой на исходные результаты, описанные е самостоятельном отчете по оценке качества.

ВАЗ.2.2 Выдача информации о качестве е виде метаданных

Класс MD_Metadata. согласно ГОСТ Р 57668. обобщает мать, одну или несколько единиц качества данных {экземпляры класса DQ_DataQuatily. согласно настоящему стандарту) (см. рисунок В.2).

Рисунок В.2 — Информация о качестве данных

В.4.3.2.3 Выдача информации о качестве е самостоятельном отчете

Стандартизация терминологии элементов качества данных и структуры представления основной информации о качестве данных обеспечивают лучшее понимание и сравнение результатов оценки качества.

В самостоятельный отчет по оценке качества следует включать область применения для однозначного определения пространственно-временной протяженности оцениваемого набора данных.

Каждый отчет должен содержать достаточный объем информации для полного описания соответствующих аспектов качества данных и их результатов. Описание может быть представлено в форме ссылки на документы, такие как спецификация информационного продукта или каталог мер.

Полная структура такого самостоятельного отчета по оценке качества не была стандартизирована, чтобы каждая конкретная организация смогла адаптировать его для своих собственных нужд, методик и процедур оценки. Он может представлять собой свободный текст. Однако информация о качестве должна быть представлена в краткой, понятной и легкодоступной форме. Пример самостоятельного отчета по оценке качества приведен в приложении Е.

24

ГОСТ Р 57773—2017

Приложение С

(обязательное)

Словарь данных для оценки качества

С.1 Обзор словаря данных

С.1.1 Введение

Словарь данных описывает характвристюси модели качества данных, определенной в разделах 7.8.9 и 10. Словарь состоит из табгыц с графами и строками в иерархии для установления отношений и организации информации.

Затемненные строки таблицы представляют классы. Незатемненные строки таблицы представляют атрибуты класса и ассоциации. Классы и атрибуты классов в таблицах словаря данных определяются шестью графами таблицы, описанной в С. 1.2—С. 1.7.

С.1.2 Имя/ролевое имя

Имя роли — это условное обозначение, относящееся к классу или атрибуту класса. Имена классов начинаются с прописной буквы. Пробелы не используются в имени класса. Вместо этого несколько слов соединяются, и каждое новое подслоев начинается с заглавной буквы (например: XnnnYmmm). Имена классов уникальны в пределах всего словаря данных настоящего стандарта. Имена атрибутов класса уникальны в пределах класса, а не всего словаря данных настоящего стандарта. Имена атрибутов класса устанавливаются уникальными в пределах приложения посредством сочетания имени класса и имени атрибута класса. Ролевые имена используются для идентификации абстрактных моделей ассоциаций и начинаются с префикса «Role пате», чтобы отличить их от других атрибутов класса. Имена и имена ролей могут быть на любом другом языке, отличающемся от используемого в настоящем стандарте.

С.1.3 Определение

Определение — это описание класса или атрибута класса.

С.1.4 Признак обязательности

С. 1.4.1 Общие положения

Признак обязагегъности— эго дескриптор, указывающий, подлежит гм класс или атрибут класса обязательному документированию или указывается (т. е. содержит значения) только иногда. Этот дескриптор может иметь следующие значения: О (обязательный). У (условный) или Н (необязательный).

С. 1.4.2 Обязательный (О)

Признак «О» означает, что класс или атрибут класса должны быть указаны.

С.1.4.3 Условный (У)

Признак «У» определяет управляемое электронное условие, при котором хотя бы один класс, атрибут класса или ассоциация являются обязательными. Признак «У» используется в следующих трех ситуациях:

-    представление выбора между двумя или несколькими параметрами. По крайней мере один из параметров является обязательным и должен быть задокументирован,

• документирование класса, атрибута класса или ассоциации, если другой клэос был задокументирован;

-    документирование атрибута класса или ассоциации, если конкретное значение другого атрибута класса уже задокументировано. Для облегчения чтения людьми конкретное значение используется в обычно*! тексте. Однако для проверки условия в электронном интерфейсе пользователя должен использоваться код.

Если ответ на условие положительный, то класс, атрибуты класса или ассоциация должны быть обязательными.

С.1.4.4 Необязательный (Н)

Признак «Н» означает, что класс, атрибут класса или ассоциация метаданных являются необязательными и могут как присутствовать, так и отсутствовать. В кастояцем стандарте для обеспечения интероперабельности между пользователями пространственных данных и производителями определены необязательные классы метаданных и необязательные атрибуты метаданных. Если необязательный класс не используется, то элементы, содержащиеся в этом классе (включая обязательные элементы), тоже не используются.

Необязательные классы могут иметь обязательные элементы; эти элементы становятся обязательными, только если необязательный класс используется.

С.1.5 Максимум вхождений (МВ)

Признак максимума вхождений определяет максимально допустимое количество экземпляров класса, атрибута класса или ассоциации. Единичное вхождение показано как «1»: повторяющееся, без ограничений, вхождение обозначено «N». Допускается фиксированное число вхождений, оттчающаеся от одного, которое будет обозначаться соответствующим числом (т. е. «2», «3» и г. д,).

С.1.6 Тип данных

Тип данных определяет множество различных значений для представления атрибутов класса: например, integer, real, string, DateTime и Boolean. Атрибут типа данных также используется для определения классов, стереотипов и ассоциаций классов.

Примечание —Типы данных определены в [3].

25

ГОСТ Р 57773—2017

С.1.7 Область допустимых значений (домен)

Для класса (затемненные строки) домен указывает номера строк, относящихся к атрибутам классов и ассоциациям этого класса.

Для атрибута класса или ассоциации домен определяет допустимые значения или использование произвольного текста. Понятие «произвольный текст» (free text) означает, что жжаких ограничений на содержание этого поля не накладывается. Целочисленные коды должны применяться для представления значений доменов, содержащих кодовые списки.

С.2 Словарь данных для пакетов качества данных

С.2.1 Качество данных

С.2.1.1 Общие положения

Глобальная модель UML для всего пакета качества данных представлена на рисунке 2. Модель UML приведена на рисунках 3 и 15.

Таблица С.1 — Качество данных

Иыя)ролеоое имя

Определение

Признак

обязательности

Максимум

вхождений

(МВ)

Тип данных

Домен

1

DQ_Data Quality

Информация о качестве данных, заданных областью определения качества данных

Признак

обязательности

ссылочного

объекта

МВ

ссылочного

объекта

Aggregated Class (MD_ Metadata)

Строки 2—4

2

Scope

Конкретные данные, к которым относится информация о качестве

О

1

Class

MD_Scope < < DalaType > > (ПОСТ P ИСО 19115-1:2014)

3

Role name: report

О

N

Association

DQ_Element (Abstract class) (C.2.1.2)

4

Rote лате; standalone-QualilyReport

И

1

Association

DQ_Standalone-QualityReportlnfor-matron (C.2.1.6)

С.2.1.2 Элементы качества данных

Модель UML представлена на рисунках 4. 5. 10и 14.

Таблица С.2—Элементы качества данных

Им я/рол мое имя

Описание

Признак

обязательности

Максимум

вхождений

(МВ)

Тип данных

Домен

5

DO_Element

Количественная информация о качестве данных

Признак

обязательности

ссылочного

объекта

МВ

ссылочного

объекта

Aggregated

Class

(OQ.Dala-

Quatity)

(Abstract

class)

Строки 6—10

6

standalone-

QualilyReport-

Details

Раздел в standа)оле-QualityReport, в котором этот элемент качества данных иш любой связанный элемент качества данных (исходные результаты в случае производного или обобщения) описываются

Н

1

Character

string

Текст

26

ГОСТ Р 57773—2017

Продолжение таблицы С.2

Имя^ролееое

имя

Описание

Признак

обязательности

Максимум

вхождений

(МВ)

Тип данных

Домен

7

Role пате: measure

Ссыпка

на применяемую меру

Н

1

Association

□(^Measure-

Reference

(C.2.1.3)

8

Role лате; evaluatiorv Method

Информация по оценке

Н

1

Association

DQ_Evaluation-Method (C .2.1.4)

9

Role лате; result

Значение (игм набор значений), полученное в результате применения мер качества данных или результате оценки полученного значения (или набора значений) в сравнении с заданным приемлемым уровнем соответствия качества

О

N

Association

DQ_Result (Abstract class) (C.2.1.5)

10

Role лате;

derived-

Element

В случае агрегирования или вывода указывает исходный элемент

Н

N

Association

DQ_Element (Abstract class) (C.2.1.2)

11

DQ_CompMe-

ness

Присутствие или отсутствие данных в наборе, их атрибутов и отношений между ними

Признак

обязательности

ссылочного

объекта

МВ

ссылочного

объекта

Specified Class (DO. Element) (Abstract class)

Строки 6—10

12

DQ_Complete-

nessCommis-

sion

Избыточные данные, присутствующие в наборе

Признак

обязательности

ссылочного

объекта

МВ

ссылочного

объекта

Specified Class (DQ_ Completeness)

Строки 6—10

13

DQ_Gomptete-

nessOmission

Данные, отсутствующие в наборе данных

Признак

обязательности

ссылочного

объекта

МВ

ссылочного

объекта

Specified Class (DQ_ Completeness)

Строки 6—10

14

DQ_Logtcal-

Consistency

Различные аспекты соблюдения логических правил структур данных, атрибутов и отношений {структуры данных могут быть концептуальными. логическими или физическими)

Признак

обязательности

ссылочного

объекта

МВ

ссылочного

объекта

Specified Class (DQ_ Element) (Abstract class)

Строки 6—10

15

DQ_

Conceptual-

Consistency

Соблюдение правил концептуальной схемы

Признак

обязательности

ссылочного

объекта

МВ

ССЫЛОЧНОГО

объекта

Specified Class (DQ_ Logical Consistency)

Строки 6—10

16

DQ_Domain-

Consistency

Соответствие значений доменам допустимых значений

Признак

обязательности

ссылочного

объекта

МВ

ссылочного

объекта

Specified Class (DO. Logical Consistency)

Строки 6—10

27

ГОСТ Р 57773—2017

Продолжение таблицы С.2

Имя^ролееое

имя

Описание

Признак

обязательности

Максимум

вхождений

(МВ)

Тип данных

Домен

17

DQ_Formal-

Conststency

Порядок хранения данных в соответствии с физической структурой набора данных

Признак

обязательности

ссылочного

объекта

МВ

ССЫЛОЧНОГО

объекта

Specified Class (DQ_ Logical Consistency)

Строки 6—10

18

DQ_Topotogi-

calConsistency

Правильность

представления

закодированных

топологических

характеристик набора

данных

Признак

обязательности

ссылочного

объекта

МВ

ссылочного

объекта

Specified Class (DQ_ Logical Consistency)

Строки 6—10

19

DQ_Positional-

Accuracy

Точность

позиционирования

данных

Признак

обязательности

ссылочного

объекта

МВ

ссылочного

объекта

Specified Class (DQ_ Element) (Abstract class)

Строки 6—10

20

DQ_AbsoJute-

Exlemat-

Posibonal-

Accuracy

Соответствие описанных значений положения объектов из набора данных их значениям, принятым в качестве или являющимся истинными

Признак

обязательности

ссылочного

объекта

МВ

ссылочного

объекта

Specified Class (DQ_ Positional Accuracy)

Строки 6—10

21

DQ_Reia-

tivelntemal-

Positional-

Accuracy

Соответствие относительных положений объектов в области определения их относительному положению, принятому в качестве или являющемуся истинным

Признак

обязательности

ссылочного

объекта

МВ

ссылочного

объекта

Specified Class (DQ_ Positional Accuracy)

Строки 6—10

22

DQ_GrkJded-

DataPositional-

Accuracy

Соответствие значений положения сеточных данных их реальным значениям положения

Признак

обязательности

ссылочного

объекта

МВ

ссылочного

объекта

Specified Class (DQ_ Positional Accuracy)

Строки 6—10

23

DQ_Temporal-

Quality

Точность временных атрибутов и временных отношений объектов

Признак

обязательности

ссылочного

объекта

МВ

ССЫЛОЧНОГО

объекта

Specified Class (DQ_ Element) (Abstract class)

Строки 6—10

24

DQ_Accuracy-

OfATime-

Measurement

Правильность временных измерений элемента (вывод ошибок при временном измерении)

Признак

обязательности

ссылочного

объекта

МВ

ссылочного

объекта

Specified Class (DQ_ Temporal Quality)

Строки 6—10

25

DQ_Temporal-

Consistency

Правильность упорядоченных событий или последовательностей. если заявлено

Признак

обязательности

ссылочного

объекта

МВ

ссылочного

объекта

Specified Class (DQ_ Temporal Quality)

Строки 6—10

26

DQ_Temporal-

Validity

Актуальность данных, заданных областью определения, по отношению ко времени

Признак

обязательности

ссылочного

объекта

МВ

ссылочного

объекта

Specified Class (DQ_ Temporal Quality)

Строки 6—10

28

ГОСТ Р 57773—2017

Окончание таблицы С.2

Имя^ролееое

имя

Описание

Признак

обязательности

Максимум

вхождений

<МВ)

Тип данных

Домен

27

DQ_ThemaUc-

Ассигасу

Точность количественных атрибутов и правильность неколиче-ственных атрибутов, а также правильность классификации объектов и их отношений

Признак

обязательности

ссылочного

объекта

МВ

ссылочного

объекта

Specified Ciass (DQ_ Element) (Abstract class)

Строки 6—10

28

DQ_Themat»c-

Ciassificabon-

Correclness

Правильность выбора классов для объектов набора и их атрибутов в рамках предметной области

Признак

обязательности

ссылочного

объекта

МВ

ссылочного

объекта

Specified Class (DQ_ Thematic Accuracy)

Строки 6—10

29

DQ_NonQoan-

titativeAttrib-

uteCorrecl-

ness

Правильность

неколичественных

атрибутов

Признак

обязательности

ссылочного

объекта

МВ

ссылочного

объекта

Specified Class (DQ_ Thematic Aocuracy)

Строки 6—10

30

DQ_Quantita-

liveAtlribute-

Accuracy

Правильность

количественных

атрибутов

Признак

обязательности

ссылочного

объекта

МВ

ссылочного

объекта

Specified Class (DQ_ Thematic Aocuracy)

Строки 6—10

31

DQ.Usability-

Element

Степень соблюдения набором данных определенных требований

Признак обязательности ссылочного объекта

МВ

ссылочного

объекта

Specified Class (DQ_ Element)

Строки 6—10

32

DO Metaquality

Информация о достоверности результатов оценки качества данных

Признак обязательности ссылочного объекта

МВ

ссылочного

объекта

Specified Ciass (DO. Element) (Abstract class)

Строки 33 и 6—10

33

Role name: derivedElement

Производный элемент

О

1

Association

DQ_Element (Abstract class) (С.2.1.2)

34

DQ_Confidenoe

Достоверность результата оценки качества данных

Признак

обязательности

ссылочного

объекта

МВ

ссылочного

объекта

Specified Class (DQ_ Metaquality)

Строки 33 и 6—10

35

DQ_Repre-

sentativrty

Степень того, насколько результат примененной выборки представляет данные в области определения качества данных

Признак

обязательности

ссылочного

объекта

МВ

ссылочного

объекта

Specified Ciass (DO. Metaquality)

Строки 33 и 6—10

36

DQ_Homoge-

neity

Прогнозируемая или тестируемая однородность результатов, полученных для оценки качества данных

Признак обязательности ссылочного объекта

МВ

ссылочного

объекта

Specified Class (DQ_ Metaquality)

Строки 33 и б—10

29

ГОСТ Р 57773—2017

С.2.1.3 Указатель меры

Модель UML представлена на рисунке 6.

Таблица С.З — Указатель меры

ИМЯ^>ОЛ4О0С

имя

Описание

Признак

обязагельности

Максимум

вхождений

<мв>

Тип данных

Домен

37

DQ_Measure-

Reference

Ссылка

на применяемую меру

Признак

обязательности

ссылочного

объекта

МВ

ССЫЛОЧНОГО

объекта

Aggregated Class (DQ_ Element)

Строки 38 40

38

measuretden-

tificabon

Идентификатор меры, значение, уникально идентифицирующее меру в пространстве имен

Н

1

Class

MD_Went»5er < < Data Type > > (см. ГОСТР 57668. B.3.3.3)

39

nameOfMea-

sure

Наименование процедуры оценки, применяемой к данным

У/если «measurel-den№catk>n» не задокументирован

N

Character

string

Текст

40

measure-

Description

Описание меры

Н

1

Character

string

Текст

С.2.1.4 Информация об оценке качества данных Модель UML представлена на рисунках 7 и 13.

Таблица С.4 — Информация об оценке качества данных

Имяфолсоое

иыо

Описание

Признак

обязательности

Максимум

вхождений

(МВ)

Тип данных

Домен

41

DO_Evalua-tion Method

Описание

примененного метода и процедуры оценки

Признак

обязательности

ссылочного

объекта

МВ

ссылочного

объекта

Aggregated Class (DQ_ Element)

Строки 42—46

42

evakjation-

MethodType

Тип метода, используемого для оценки качества данных

Н

1

Class

DO_Evaluation-MethodTypeCode < < CodeList > > (C.3.2)

43

evakjabon-Method Description

Описание метода оценки

Н

1

Character-

String

Текст

44

evatuation-

Procedure

Ссылка

на информацию о процедуре оценки

Н

1

Class

CI_Citation < < Data Type > > (см. ГОСТ P 57668. B.3.2.1)

45

referenceOoc

Информация о документах, на которые ссыпаются при разработке и применении методов оценки качества данных

Н

N

Class

CI_Citation < < Data Type > > (см. ГОСТ P 57668. B.3.2.1)

30

ГОСТ Р 57773—2017

Окончание таблицы С.4

Имя^ролеоое

нищ

Описание

Признак

обязательности

Махсиыум

вхождений

<мв>

Тип данных

воней

46

dateTime

Дата или временной интервал, в котором применялась мера

Н

N

Class

DateTime (cm. [3])

47

DQ_Data-

Evaluation

Метод оценки данных

Признак

обязательности

ссылочного

объекта

МВ

ссылочного

объекта

Specified

Class (DQ_

Evaluation-

Method)

(Abstract

class)

Строки 42—46

48

DQ_Ful1ln-

spection

Полная проверка

Признак

обязательности

ссылочного

объекта

МВ

ссылочного

объекта

Specified Class (DQ_ DataEvalu-ation)

Строки 42—46

49

DQJndirect-E valuation

Непрямая оценка

Признак

обязательности

ссылочного

объекта

МВ

ссылочного

объекта

Specified Class (DO. DataE valuation)

Строки 42—46 и 50

50

deductive-

source

Информация, согласно которой данные используются в качестве историков дедуктивного метода оценки

О

1

Character-

String

Текст

51

DQ_Sample-

Basedln-

spection

Контроль на основе выборки

Признак

обязательности

ссылочного

объекта

МВ

ссылочного

объекта

Specified Class (DO_ DataE valuation)

Строки 42—46 и 52—54

52

sampling-

Scheme

Информация о типе выборочной схемы и описании процедуры выборочного контроля

О

1

Character-

String

Текст

53

lotDescription

Информация по составлению партии

О

1

Character-

String

Текст

54

samplingRabo

Информация о том. скогъко в среднем выборок извлекается из каждой партии генеральной совокупности

О

1

Character-

String

Текст

55

DO_Agg rogation Derivation

Метод агрегирования или деривации

Признак

обязательности

ссылочного

объекта

МВ

ссылочного

объекта

Specified Class (DQ_ Evaluation)

Строки 42—46

31

ГОСТ Р 57773—2017

С.2.1.5 Результат оценки качества данных Модель UML представлена на рисунке 8.

Таблица С.5 — Результат оценки качества данных

Имя/ропеоое

имя

Описание

Приамах

обязательности

Максимум

вхождений

(Мв)

Тип данных

Домен

56

DQ_Resvlt

Обобщение нескольких специфических классов результатов

Признак

обязательности

ссылочного

объекта

МВ

ссылочного

объекта

Aggregated Class (DQ_ Element) (Abstract class)

Строки 57—58

57

resullScope

Область

определения

результата

Н

1

Class

MD Scope (ГОСТ P 57668)

58

dateTime

Дата генерирования результата

Н

1

Class

DateTime (cm. [6])

59

DQ_Conform-

anceResult

Информация о результате сравнения полученного значения (или набора значений) с заданным допустимым уровнем качества

Признак обязательности ссылочного объекта

МВ

ссылочного

объекта

Specified Class (DQ_ Result)

Строки 60—62 и 57—58

60

specification

Ссылка на спецификацию продукта или требования пользователя, с которыми сравнивается результат

О

1

Class

CI_Citation < < Data Type > > (см. ГОСТ P 57668. таблица B.3.2.1)

61

explanation

Разъяснение смысла соответствия для этого результата

Н

1

Character-

String

Текст

62

pass

Признак соответствия результата, где 0 означает несоответствие, а 1 — соответствие

О

1

Boolean

1 =да 0 = нет

63

DQ_Quantita-

liveResult

Значения игы информация о значениях(или набора значений), полученных в результате применения меры качества данных

Признак

обязательности

ссылочного

объекта

МВ

ссылочного

объекта

Specified Class (DQ_ Result)

Строки 64—66 и 57—58

64

value

Количественное значение или значения, определенные в результате выполнения процедуры оценки и в соответствии с типом значения и valueStruclure. определенных для моды

О

N

Class

Record (см. [3])

32

ГОСТ Р 57773—2017

Окончание таблицы С.5

Имя/ропсоое

имя

Описание

Признак

обязательности

Максимум

вхождений

(МВ)

Тип данных

Домен

65

valueUnit

Единица измерения результата оценхи качества

Н

1

Class

UnitOfMeasure (cm. 13))

66

value-

RecordType

Тил значения результата оценки качества в зависимости от реализации

Н

1

Class

RecordType <<Metaclass >> (cm. [3))

67

DQ_Descrip-

tiveResult

Описательный результат оценки качества

Признак

обязательности

ссылочного

объекта

МВ

ССЫЛОЧНОГО

объекта

Specified Class (DQ Result)

Строки 68 и 57—58

68

statement

Текстовое выражение описательного результата

О

1

Character-

String

Текст

С2Л .6 Информация о самостоятельном отчете по оценхе качества Модель UML представлена на рисунке 14.

Таблица С.6— Информация о самостоятельном отчете по качеству

Имя/ропевое

имя

Описание

Признак

обязательности

Максимум

вхождений

(МВ)

Тип данных

Домен

69

DQ_Stan-

daloneOuality-

Reportlnfor-

mation

Ссылка на внешний самостоятельный отчет об оценке качества

Признак

обязательности

ссылочного

объекта

МВ

ссылочного

объекта

Class

Строки 70—71

70

reportRefe-

rence

Ссылка на сводный самостоятельный отчет об оценке качества

О

1

Class

CI_Citatk>n < < Data Type > > (см. ГОСТР 57668. таблица В.3.2.1)

71

abstract

Краткое описание сводного

самостоятельного отчета об оценхе качества

О

1

Character-

String

Текст

С.2.2 Мера качества данных

С.2.2.1 Общее представление

Модель UML мер представлена на рисунке 11.

С.2.2.2 Меры качества данных

Модель UML представлена на рисунке 11.

Таблица С.7 — Меры качества данных

Имя/ролевое

имя

Описание

Признак

обязательности

Максимум

вхождении

(МВ)

Тип данных

Домен

72

DQM.

Measure

Мера качества данных

Признак

обязательности

ссылочного

объекта

МВ

ссылочного

объекта

Class

Строки 73—84

33

ГОСТ Р 57773—2017

Продолжение таблицы С.7

Имя^ролееое

имя

Описание

Признак

обязательности

Максимум

вхождений

(МВ)

Тип данных

Домен

73

measurelden-

tifier

Значение.уникально идентифицирующее меру а пространстве имен

О

1

Class

MDJdentifier < < Data Type > > (см. ГОСТ P 57666. таблица B.3.3.3)

74

Name

Наименование меры качества, применяемой к данным

О

1

Character-

String

Текст

75

alias

Другое общепринятое наименование, сокращенное или краткое название той же меры качества данных

Н

N

Character-

String

Текст

76

etementName

Наименование элемента качества данных для оценки качества

О

N

Class

TypeName < < type > > (cm. PI)

77

definition

Определение фундаментальной концепции меры качества данных

О

1

Character-

String

Текст

78

description

Описание меры качества данных, включая все формулы и'или иллюстрации. необходимые для получения результата при применении меры

У/если описания недостаточно для понимания концепции меры качества

1

Class

DQM_Description < < Datatype > > (C.2.2.5)

79

valueType

Тип значения для вывода информации о результате оценки качества данных (должны быть одним из типов данных, определенных в (3])

О

1

Class

TypeName < < type > > (cm. 13»

80

valueStructure

Структура для представления информации о комплексных результатах оценки качества

Н

1

Class

DQM_ValoeStruc-

ture

< < CodeLtst > > (C.3.3)

81

Пример

Пример

использования меры качества данных

Н

N

Class

DOM Description (C.2.2.5)

82

Role лате; basicMeasure

Наименование базовой меры качества данных, из которой мера качества данных происходит

У/если

происходит из базовой меры

1

Association

DQM_Bas»cMea-

sure

(C.2.2.3)

34

ГОСТ Р 57773—2017

Окончание таблицы 0.7

Имя^ролсеое

имя

Описание

Приамах

обязательности

Максимум

вхождений

(МВ)

Тип данных

Домен

83

Role лате;

sourceRefe-

гепсе

Ссылка на источник элемента, который был взят из внешнего источника

У/есгы внешний источник существует

N

Association

DQM_SourceRe-

ference

(С.2.2.6)

84

Role лате; parameter

Вспомогательная переменная, используемая мерой качества данных, включая ее наименование. определение и в некоторых случаях ее описание

У/еспи

потребуется

N

Association

DOM Parameter (С.2.2.4)

С.2.2.3 Базовая мера качества данных Модель UML представлена на рисунке 11.

Таблица С.8 — Базовая мера качества данных

Имяфолввос

ИЫЯ

Описание

Признак

обязательности

Максимум

вхождении

(МВ)

Тип данных

Домен

85

DOM.Basic-

Measure

Базовая мера качества данных

Признак

обязательности

ссылочного

объекта

МВ

ССЫЛОЧНОГО

объекта

Class

Строки 86—89

86

name

Наименование базовой меры качества. применяемой к данным

О

1

Character-

String

Текст

87

definition

Описание базовой меры качества данных

О

1

Character-

String

Текст

88

Пример

Пример использования меры качества данных

Н

1

Class

DQM_Descriptk>n < < Datatype > > (С.2.2.5)

89

vaJueType

Тип значения для вывода информации о результате оценки качества данных (должны быть одним из типов данных, определенных в [3])

О

1

Class

TypeName < < type > > (см. [3])

С.2.2.4 Параметр оценки качества данных Модель UML представлена на рисунке 11.

Таблица С.9—Параметр оценки качества данных

Иыя/ролмое

имя

Описание

Признак

обязательности

Максимум

вхождений

(МВ)

Тип данных

Доыен

90

DQM_Para-

meter

Параметр оценки качества данных

Признак

обязательности

ссылочного

объекта

МВ

ССЫЛОЧНОГО

объекта

Class

Строки 91—95

35

ГОСТ Р 57773—2017

Окончание таблицы С.9

Иуя/репееос

имя

Описание

Признак

обязательности

Максимум око «тений (МВ)

Тип денных

Домен

91

пате

Наименование параметра оценки качества данных

О

1

Character-

String

Текст

92

definition

Определение параметра оценки качества данных

О

1

Character-

String

Текст

93

description

Описание параметра оценки качества данных

Н

1

Class

DQM_Description < < Datatype > > (С.2.2.5)

94

valoeType

Тип значения для вывода информации о результате оценки качества данных (должны быть одним из типов данных, определенных в (3])

О

1

Class

TypeName <<type>> (см. (3J)

95

valueStructure

Структура параметра оценки качества данных

Н

1

Class

DQM_ValueStructure < < CodeList > > (C.3.3)

С.2.2.5 Описание меры качества данных Модель UML представлена на рисунке 11.

Таблица С.10 — Дескриптор качества данных

Имя«'ролеоес

имя

Описание

Признак

обязательности

Максимум

вхождений

(МВ)

Тип данных

Домен

96

DQM_Descnp-

tion

Описание меры качества данных

Признак

обязательности

ссылочного

объекта

МВ

ссылочного

объекта

Class

Строки 97—98

97

textDe scnption

Текстовое описание

О

1

Character-

String

Текст

98

extended Description

Пример

Н

1

Class

MD BrowseGraphc {с*л~ГОСТ Р 57668. В.2.3.2)

С.2.2.6 Указатель источника меры качества данных Модель UML представлена на рисунке 11.

Таблица С.11 — Указание источника меры качества данных

Имя/ролеаое иып

Описание

Признак

обязательности

Максимум

вхождений

(МВ)

Тип данных

Домен

99

DQM_

SourceRefe-

rence

Ссылка

на источник меры качества данных

Признак

обязательности

ссылочного

объекта

МВ

ССЫЛОЧНОГО

объекта

Class

Строка 100

100

Citation

Ссылка на источник

О

1

Class

Ci_Citation < < Data Type > > (см. ГОСТЯ 57668)

36

ГОСТ Р 57773—2017

С.З Списки значений С.3.1 Введение

Классы со стереотипом «CodeLisi» представлены ниже. Они не содержат графы «признак обязательности». «максимум вхождений», «тип данных» и «домен».

С.3.2 Тип метода для оценки

Таблица С.12 — Тип метода для оценки

Наименование

Донги

Определенно

1

DQ_EvaluationMethodType-

Code

EvalMethTypeCd

Тип метода, используемого для оценки качества набора данных

2

directlntemai

001

Метод оценки качества набора данных, базирующийся на исследовании элементов внутри набора, где вся информация, необходимая для оценки, уже содержится в наборе данных

3

directExtemal

002

Метод оценки качества набора данных, базирующийся на исследовании элементов внутри набора, где требуется дополнительная информация, не содержащаяся в наборе данных

4

indirect

003

Метод оценки качества набора данных, базирующийся на внешних знаниях

С.3.3 Структура значений

Таблица С.13 — Структура значений

Наименование

Код домена

Определение

1

DQM.ValueStructure

VblueStructureCd

2

bag

001

Конечная, неупорядоченная совокупность связанных элементов {объектов или значений). 8 которой допускается их повторение [7]

3

set

002

Неупорядоченная совокупность взаимосвязанных не повторяющихся элементов [7]

4

sequence

003

Конечная упорядоченная совокупность взаимосвязанных элементов (объектов или значений), е которой допускается их повторение [7]

5

table

004

Упорядоченная структура данных. 8 которой каждый элемент может быть идентифицирован с помощью аргументов или ключей (8]

6

matrix

005

Прямоугольный массив чисел {9]

7

coverage

006

Модель объекта. представлявшая собой функцию. возвращающую значения из диапазона допустимых значений для каждой точки в пространственной, временной или пространственно-временной области определения [10]

37

ГОСТ Р 57773—2017

Приложение D (обязательное)

Перечень стандартизированных мер качества данных

D.1 Введение

В данном приложении устанавливается и определяется перечень стандартизированных мер качества данных. Настоящее приложение определяет меры качества данных. С целью получения четко определенной и сравнимой информации о качестве настоятельно рекомендуется проводить оценку и отчетность по качеству данных с использованием таких мер качества.

D.2 Полнота

D.2.1 Присутствие

Меры качества данных для присутствия элементов качества данных представлены в таблицах D. 1—0.4. Таблица 0.1 — Избыточный элемент

Компонент

Описание

1

Название

Избыточный элемент

2

Краткое название

3

Название элемента

Присутствие

4

Базовая мера

Индикатор ошибок

5

Определение

Признак того, что элемент неверно представлен в данных

6

Описание

7

Параметр

8

Тип значения

Булева переменная (значение «true» указывает на то. что элемент является избыточным)

9

Структура значения

10

Ссылка на исгочжк

11

Пример

True (8 наборе данных а качестве зданий классифицировано больше элементов. чем в предметной области)

12

Идентификатор

1

Таблица 0.2—Количество избыточных элементов

Ni

Компонент

Описание

1

Название

Количество избыточных элементов

2

Кратхое название

3

Название элемента

Присутствие

4

Базовая мера

Подсчет ошибок

5

Определение

Количество элементов в наборе данных или выборке, которые не должны быть представлены

6

Описание

7

Параметр

8

Тип значения

integer (целое)

9

Структура значения

38

ГОСТ Р 57773—2017

Окончание таблицы D.2

Компонент

Описание

10

Ссылка на источник

11

Пример

2 (в наборе данных содержится 12 зданий, в то время как в предметной области только 10}

12

Идентификатор

2

Таблица D.3— Коэффициент избыточных элементов

Компонент

Описание

1

Название

Коэффициент избыточных элементов

2

Краткое название

3

Название элемента

Присутствие

4

Базовая мера

Частота ошибок

5

Определение

Число избыточных элементе» в наборе данных или выборке по отношению к числу элементов, которые должны быть представлены

6

Описание

7

Параметр

в

Тип значения

Real (вещественное)

9

Структура значения

10

Ссыгжа на источник

11

Пример

10 % (в наборе данных представлено на 10 % больше зданий, чем в предметной области)

12

Идентификатор

3

Таблица D.4 — Количество повторяющихся экземпляров объекта

Компонент

Описание

1

Название

Количество повторяющихся экземпляров объекта

2

Краткое название

3

Название элемента

Присутствие

4

Базовая мера

Подсчет ошибок

5

Определение

Общее количество точных дубликатов экземпляров объектов в данных

6

Описание

Количество всех элементов в наборе данных с дублированной геометрией, которые определяются некорректно

7

Параметр

в

Тип значения

Integer

9

Структура значения

10

Ссыгка на источник

11

Пример

Объекты с идентичными атрибутами и координатами:

Д две (или более) точки, расположенные поверх друг друта:

—1 две {или более) кривые, расположенные поверх друг друга:

J^J две (или более) поверхности, расположенные поверх друг друга

12

Идентификатор

4

39

ГОСТ Р 57773—2017

D.2.2 Отсутствие

Меры качества данных для элемента качества данных «отсутствие» представлены а таблицах D.5—0.7.

Таблица 0.5 — Отсутствующий элемент

Компонент

Описание

1

Название

Отсутствующий элемент

2

Краткое название

3

Название элемента

Отсутствие

4

Базовая мера

Индикатор ошибок

5

Определение

Признак того, что элемент отсутствует в данных

6

Описание

7

Параметр

6

Тип значения

Булева переменная {значение «true* указывает на то. что элемент отсутствует)

9

Структура значения

10

Ссылка на источник

11

Пример

Спецификацией информационного продукта задается отбор всех башен выше 300 м. Мера качества данных «отсутствующий элемент» позволяет оценщику данных или их пользователю выдать отчет о том. что конкретный элемент, в данном случае объект типа «башня» (название зависит от схемы приложения), отсутствует.

Область определения качества данных: все башни высотой > 300.

Пример результата оценки полноты определенного набора данных:

Отсутствующий элемент = true для г

Имя башни = Эйфелева башня

12

Идентификатор

5

Таблица О.б — Число отсутствующих элементов

Ni

Компонент

Описание

1

Название

Количество отсутствующих элементов

2

Кратхов название

3

Название элемента

Отсутствие

4

Базовая мера

Подсчет ошибок

5

Определение

Количество всех элементов, которые должны присутствовать в наборе данных или выборке, но отсутствуют

6

Описание

7

Параметр

8

Тип значения

Integer

9

Структура значения

10

Ссылка на источник

11

Пример

2 (е наборе даншх присутствуют 10 домов, тогда как в предметной области — 12)

12

Идентификатор

б

40

ГОСТ Р 57773—2017

Таблица 0.7 — Коэффициент отсутствующих элементов

Компонент

Описание

1

Название

Коэффициент избыточных элементов

2

Краткое название

3

Название элемента

Отсутствие

4

Базовая мера

Частота ошибок

5

Определение

Число отсутствующих элементов в наборе данных или выборке по отношению к числу элементов, которые должны быть представлены

6

Описание

7

Параметр

8

Тип значения

Real

9

Структура значения

10

Ссылка на источник

11

Пример

10 % (в наборе данных представлено на 10% меньше домов, чем в предметной области)

12

Идентификатор

7

D.3 Логическая согласованность D.3.1 Концептуальная согласованность

Меры качества данных для под элемента качества данных «концептуальная согласованность» даны в таблицах 0.8—0.13.

Таблица 0.8 — Несогласованность с концептуальной схемой

Компонент

Описание

1

Название

Несогласованность с концептуальной схемой

2

Краткое название

3

Название элемента

Концептуальная согласованность

4

Базовая мера

Индикатор ошибки

5

Определение

Показатель того, что объект не отвечает правилам соответствующей концепту-агъной схемы

в

Описание

7

Параметр

в

Тип значения

Булева переменная (значение «true» указывает на то. что элемент не отвечает правилам соответствующей концептуальной схемы)

9

Структура значения

10

Ссылка на источник

11

Пример

True (существует связь одного объекта, которая не определена е концептуальной схеме)

12

Идентификатор

8

41

ГОСТ Р 57773—2017

Таблица 0.9 — Согласованность с концептуальной схемой

Компонент

Описание

1

Название

Согласованность с концептуальной схемой

2

Краткое название

3

Название элемента

Концептуальная согласованность

4

Базовая мера

Индикатор корректности

5

Определение

Показатель того, что элемент отвечает правилам соответствующей концептуальной схемы

6

Описание

7

Параметр

8

Тип значения

Булева переменная (значение «true» указывает на то. что элемент отвечает правилам соответствующей концептуальной схемы)

9

Структура значения

10

Ссылка на источник

11

Пример

12

Идентификатор

9

Таблица D.10 — Число объектов, не согласованных с правилами концептуальной схемы

Компонент

Описание

1

Название

Число объектов, не согласованных с правилами концептуагьной схемы

2

Краткое название

3

Название элемента

Концептуальная согласованность

4

Базовая мера

Подсчет ошибок

5

Определение

Количество всех объектов в наборе данных, которые не отвечают правилам концептуальной схемы

6

Описание

Если концептуальная схема явно или неявно описывает правила, то эти правила должны быть соблюдены. Нарушением таких правил может быть, например, неверное расположение объектов в рамках заданной допустимой погрешности, дублирование объектов и неверное перекрытие объектов

7

Параметр

8

Тип значения

integer

9

Структура значения

10

Ссылка на источник

11

Пример

Пример 1: Башни с одинаковыми атрибутами и в рамках допустимости поиска (допустимый поиск ■ 10 м)

<£) ОцО

42

ГОСТ Р 57773—2017

Окончание таблицы D. 10

Компонент

Описание

11

Пример

Пример 2: Мост имеет недопустимое транспортное сообщение. Применение категории дороги

Л

Пример 3: Недопустимое расположение аэропорта е озере

Прммр 4: Недопустимое перекрытие области объекта «озеро» и линейного объекта «железная дорога»

Обозначения:

1    — мост: 3 — оэвро:

2    — железная дорога: 4 — аэропорт

12

Идентификатор

10

Таблица D.11 —Число неверных перекрытий поверхностей

Компонент

Описание

1

Название

Число неверных перекрытий поверхностей

2

Краткое название

Перекрытие поверхностей

3

Название элемента

Концептуальная согласованность

4

Базовая мера

Подсчет ошибок

5

Определение

Общее количество некорректных перекрытий в данных

6

Описание

Приложение определяет, какие поверхности могут пересекаться, а какие не должны. Не все перекрывающиеся поверхности обязательно являются некорректными. При представлении отчета об этой мере качества данных должно быть указано также, какие типы объектов не должны пересекаться

43

ГОСТ Р 57773—2017

Окончание таблицы D.11

Компонент

Описание

7

Параметр

в

Тип значения

Integer

9

Структура значения

10

Ссылка на источник

11

Пример

Обозначения:

1    — поверхность 1;

2    — поверхность 2:

3    — область перекрытия

12

Идентификатор

11

Таблице 0.12 — Уровень несогласованности в отношении правил концептуальной схемы

Nt

Компонент

Описание

1

Название

Уровень несогласованности в отношении правил концептуальной схемы

2

Краткое название

3

Название элемента

Концептуальная согласованность

4

Базовая мера

Частота ошибок

5

Определение

Количество объектов в наборе данных, которые не соответствуют правилам концептуальной схемы по отношению к общему числу этих объектов, которые должны быть в наборе данных

6

Описание

7

Параметр

в

Тип значения

Real

9

Структура значения

10

Ссылка на источник

11

Пример

2%

12

Идентификатор

12

Таблица 0.13 — Уровень согласованности с правилами концептуальной схемы

Компонент

Описание

1

Название

Уровень согласованности с правилами концептуальной схемы

2

Краткое название

3

Название элемента

Концептуальная согласованность

4

Базовая мера

Уровень корректных объектов

44

ГОСТ Р 57773—2017

Окончание таблицы D. 13

Компонент

Описание

5

Определение

Количество объектов в наборе данных в соответствии с правилами концептуальной схемы по отношению к общему числу объектов

6

Описание

7

Параметр

8

Тип значения

Rea!

9

Структура значения

10

Ссылка на источник

11

Пример

90%

12

Идентификатор

13

D.3.2 Доменная согласованность

Меры качества данных для под элемента качества данных «доменная согласованность» представлены в таблицах 0.14—0.18.

Таблица 0.14 — Несогласованность области значений

Компонент

Описание

1

Название

Несогласованность области значений

2

Краткое название

3

Название элемента

Доменная согласованность

4

Базовая мера

Индикатор ошибок

5

Определение

Показатель несогласованности объекта с его областью значения

6

Описание

7

Параметр

8

Тип значения

Булева переменная (значение «true» указывает на то. что объект не согласуется с областью значений)

9

Структура значения

10

Ссылка на источник

11

Пример

12

Идентификатор

14

Таблица 0.15 — Согласованность области значений

Ni

Компонент

Описание

1

Название

Согласованность области значений

2

Кратхое название

3

Название элемента

Доменная согласованность

4

Базовая мера

Индикатор корректности

5

Определение

Показатель согласованности объекта с областью значений

6

Описание

7

Параметр

45

ГОСТ Р 57773—2017

Окончание таблицы D. 15

Компонент

Описание

6

Тип значения

Булева переменная {значение «true» указывает на то. что объект согласуется с областью значений)

9

Структура значения

10

Ссылка на источник

11

Пример

12

Идентификатор

15

Таблица D.16 — Количество несогласованных объектов со своей областью значений

Компонент

Описание

1

Название

Количество несогласованных объектов со своей областью значений

2

Краткое название

3

Название элемента

Доменная согласованность

4

Базовая мера

Подсчет ошибок

5

Определение

Количество всех объектов в наборе данных, которые не согласуются с областью значений

6

Описание

7

Параметр

6

Тип значения

Integer

9

Структура значения

10

Указатель источника

11

Пример

12

Идентификатор

16

Таблица 0.17 — Степень согласованности области значений

Ni

Компонент

Описание

1

Название

Степень согласованности области значений

2

Кратхое название

3

Название элемента

Доменная согласованность

4

Базовая мера

Частота корректных объектов

5

Определение

Количество объектов в наборе данных, которые соответствуют области значений по отношению к общему количеству объектов в наборе данных

6

Описание

7

Параметр

в

Тип значения

Real

9

Структура значения

10

Ссылка на источник

11

Пример

12

Идентификатор

17

46

ГОСТ Р 57773—2017

Таблица 0.18 — Степень несогласованности области значений

N1

Компонент

Описание

1

Название

Степень несогласованности области значений

2

Краткое название

3

Название элемента

Доменная согласованность

4

Базовая мера

Частота ошибок

5

Определение

Количество объектов в наборе данных, которые не соответствуют области значений по отношению к общему количеству объектов в наборе данных

6

Описание

7

Параметр

8

Тип значения

Real

9

Структура значения

10

Ссылка на источник

11

Пример

12

Идентификатор

18

D.3.3 Согласованность по формату

Меры качества данных для подэпеменга качества данных «согласованность по формату» даны е таблицах 0.19—0.21.

Таблица 0.19 — Конфликты физической структуры

Компонент

Описание

1

Название

Конфликты физической структуры

2

Краткое название

3

Название элемента

Согласованность по формату

4

Базовая мера

Индикатор ошибок

5

Определение

Показатель того, что объекты конфликтуют с физической структурой набора данных

6

Описание

7

Параметр

8

Тип значения

Булева переменная {значение «true» указывает на конфликт физической структуры)

9

Структура значения

10

Ссылка на источник

11

Пример

True (набор данных хранится в неправильном формате и шейл-файле вместо gml)

12

Идентификатор

19

Таблица 0.20 — Количество конфликтов физической структуры

Nt

Компонент

Описание

1

Название

Количество конфликтов физической структуры

2

Краткое название

47

ГОСТ Р 57773—2017

Окончание таблицы D.20

Компонент

Описание

3

Название элемента

Согласованность по формату

4

Базовая мера

Подсчет ошибок

5

Определение

Количество всех объектов, которые хранятся в конфликте с физической структурой набора данных

6

Описание

7

Параметр

8

Тип значения

Integer

9

Структура значения

10

Ссылка на источник

11

Пример

5 (применен код 5 для типа «жилое помещение», хотя по требованию в спецификации информационного продукта должно быть не более чем 3)

12

Идентификатор

19

Таблица D.21 — Частота конфликтов физической структуры

N1

Компонент

Описание

1

Название

Частота конфликтов физической структуры

2

Краткое название

3

Название элемента

Согласованность по формату

4

Базовая мера

Частота ошибок

5

Определение

Количество объектов в наборе данных, которые хранятся в конфгмкте с физической структурой набора данных, деленное на общее количество элементов

6

Описание

7

Параметр

8

Тип значения

Real

9

Структура значения

10

Ссылка на источник

11

Пример

12

Идентификатор

20

D.3.4 Топологическая согласованность

Меры качества ранных в таблицах 0.22—0.28 предназначены для проверки топологической согласованности геометрических представлений объектов. Они не могут служить в качестве мер согласованности заданных описаний топологии с использованием топологических объектов, определенных в [7].

Таблица D.22 — Количество некорректных соединений точки и кривой

Компонент

Описание

1

Название

Количество некорректных соединений точки и кривой

2

Краткое название

Посторонние узлы

3

Название элемента

Топологическая согласованность

4

Базовая мера

Подсчет ошибок

48

ГОСТ Р 57773—2017

Окончание таблицы D.22

Компонент

Описание

5

Определение

Количество некорректных соединений «точка — кривая# в наборе данных

6

Описание

Соединение между точкой и кривой образуется 8 месте соприкосновения кривых. Эти кривые имеют внутренние топологические отношения, которые должны отражать истинную комбинацию. Если соединение точки и кривой противоречит предметной области, то такое соединение некорректно е отношении этой меры качества данных. Мера качества данных подсчитывает количество ошибок такого рода

7

Параметр

8

Тип значения

Integer

9

Структура значения

10

Ссылка на источник

11

Пример

Пример 1: Соединение к;

1

ивой в двух точках вместо одной.

Пояснение:

Перекресток двух дорог

Пример 2: Система aei ленное число вершин, е нога согласования для i

* \ _ *-

Пояснения:

1    — узел соединения:

2    — допустимый устано

должен образовать пересечение «+».

оматически размещает точки на кривой через опреде-(строенное в программный код. где нет пространствен-очки и кривой.

-V-'

2

еденный предел

12

Идентификатор

21

Таблица 0.23 — Степень некорректных соединений точки и кривой

Компонент

Описание

1

Название

Степень некорректных соединений точки и кривой

2

Краткое название

3

Название элемента

Топологическая согласованность

4

Базовая мера

Частота ошибок

5

Определение

Количество неверных узловых соединений по отношению к числу предполагаемых соединений

49

ГОСТ Р 57773—2017

Окончание таблицы D.23

Компонент

Описание

6

Описание

Соединение между точкой и кривой образуется в месте соприкосновения кривых. Эти кривые имеют внутренние топологические отношения, которые должны отражать истинную комбинацию. Если соединение точки и кривой противоречит предметной области, то такое соединение некорректно в отношении этой меры качества данных. Эта г лера качества данных выдает некорректные соединения «точка — кривая» по отношению к общему числу таких соединений

7

Параметр

в

Тип значения

Real

9

Структура значения

10

Ссылка на источник

11

Пример

12

Идентификатор

22

Таблица 0.24 — Количество пропущенных соединений из-за «недохода»

Компонент

Описание

1

Название

Количество пропущенных соединений из-за «недохода»

2

Краткое название

«Не доход»

3

Название элемента

Топологическая согласованность

4

Базовая мера

Подсчет ошибок

5

Определение

Количество объектов в наборе данных в рамках допустимой погрешности параметров. не совпавших друг с другом из-за «недохода»

6

Описание

7

Параметр

Радиус поиска от конца недоведенной (висячей) линии

в

Тип значения

integer

9

Структура значения

10

Ссылка на источник

11

Пример

/V

Дора»/

Обозначение:

1 — устойчивость поиска = 3 м

12

Идентификатор

23

Таблица 0.25 — Количество пропущенных соединений из-за «перехода»

Компонент

Описание

1

Название

Количество пропущенных соединений из-за «перехода»

2

Краткое название

«Переход»

3

Название элемента

Топологическая согласованность

4

Базовая мера

Подсчет ошибок

50

ГОСТ Р 57773—2017

Окончание таблицы D.25

Компонент

Описание

5

Определение

Количество объектов в наборе данных, не согласованных между собой из-за перехода за границу в пределах параметра допуска

6

Описание

7

Параметр

Поисковый допуск минимальной длины перехода за границу в наборе данных

8

Тип значения

integer

9

Структура значения

10

Ссылка на источник

11

Пример

Даро-а Л

Ум

Доре*/'

Обозначение:

1 — устойчивость поиска = 3 м

12

Идентификатор

24

Таблица 0.26 — Количество недопустимых «разрывов»

Компонент

Описание

1

Название

Количество недопустимых «разрывов»

2

Краткое название

«Разрывы»

3

Название элемента

Топологическая согласованность

4

Базовая мера

Подсчет ошибок

5

Определение

Количество всех объектов в наборе данных, которые представляют недопустимые разрывы поверхностей

6

Описание

Разрыв — это непреднамеренно созданная область, которая возникает из-за неверного цифрового преобразования соседних поверхностей. Между границами смежных поверхностей могут случайно образовываться в небольших количествах «пробелы» или «перекрытия», что приводит к топологической ошибке

7

Параметр

Данная мера качества включает два параметра.

Параметр 1

Название: максимальная площадь области разрыва.

Описание: максимальная площадь, которая определяет верхний предел разрыва. Это предотвращает от ошибочного распознавания поверхности с извилистыми границами и большой областью в качестве разрыва.

Тип значения: Rea)

Параметр 2

Название: показатель толщины.

Описание: показатель толщины должен быть действительным числом от 0 до 1. Данный показатель определяется по следующей формуле:

Т — показатель толщины.

Т =4л (ппощадь]/[перимегр]2.

Т = 1 значение соответствует окружности, которая имеет самое большое значение (площадь] / (перимет р]2.

Т = 0 значение соответствует линии, которая имеет наименьшее значение (пло-щадьу[г>ериметр(2.

Описание: показатель толщины не зависит от размера поверхности, и чем ближе значение к 0. гем тоньше будет выбранная поверхность разрыва.

Тип значения: Real

51

ГОСТ Р 57773—2017

Окончание таблицы D.26

Компонент

Описание

6

Тип значения

Integer

9

Структура значения

10

Ссылка на источник

[111

11

Пример

Х-Д

Обозначения:

1    — одинарная дренажная линия;

2    — двойная дренажная пиния

a)    параметр максимальной площади предотвращает верное изображение двойной дренажной пинии от пометки ее как ошибки.

Обозначения:

1    — песок;

2    — разрыв:

3    — двойной линейный дренаж

b)    разрыв меньше, чем максимальный параметр, и проверяется на возможную ошибку

12

Идентифи катар

24

52

ГОСТ Р 57773—2017

Та бп и ц а 0.27 — Количество некорректных самопересечений

Компонент

Описание

1

Название

Количество некорректных самопересечений

2

Краткое название

Петли

3

Название элемента

Топологическая согласованность

4

Базовая мера

Подсчет ошибок

5

Определение

Общее количество некорректных пересечений объектов

6

Описание

7

Параметр

в

Тип значения

Integer

9

Структура значения

10

Ссылка на источник

11

Пример

К

N,

Обозначения:

1    —адате 1:

2    — некорректное пересечение (петля)

12

Идентификатор

26

Таблица D.28 — Количество некорректных самопервкрыгий

Компонент

Описание

1

Название

Количество некорректных самоперекрытий

2

Краткое название

«Отдача»

3

Название элемента

Топологическая согласованность

4

Базовая мера

Подсчет ошибок

5

Определение

Общее количество некорректных самопересечений объектов

6

Описание

7

Параметр

в

Тип значения

integer

9

Структура значения

10

Ссылка на источник

11

Пример

Обозначение: а) вершины

12

Идентификатор

27

53

ГОСТ Р 57773—2017

D.4 Позиционная точность

D.4.1 Абсолютная или внешняя точность

D.4.1.1 Основные меры для позиционной неопределенности

Основные меры качества данных для позиционной неопределенности для элемента качества «абсолютная/ внешняя точность» даны в таблицах 0.29—0.34.

Таблица 0.29 — Среднее значение позиционной неопределенности

Компонент

Описание

1

Название

Среднее значение позиционной неопределенности (10. 20 и 30)

2

Краткое название

3

Название элемента

Абсолютная или внешняя точность

4

Базовая мера

Не применяется

5

Определение

6

Описание

Среднее значение позиционной неопределенности набора позиций, где позиционные неопределенности определяется как расстояние между измеряемым положением и тем. которое взято в качестве соответствующего истинного положения Ю: * |*я>|

2D; el=^xm-xnf*(y«i-y«f '

3D: =Jta - *«, )г *{ум - у»)2 * (*», - н )2 -

Средняя позиционная неопределенность горизонтальной абсолютной или внешней позиции вычисляется по формуле _ , и в = —Те,.

Также следует указывать критерий для установления соответствия (например, позволяющий устанавливать согласованность к ближайшей позиции, на вершинах или вдоль линий). Кригерий'кригврии поиска соответствующих точек должны представляться вместе с результатом оценки качества данных.

Эта мера качества данных отлична от стандартного отклонения

7

Параметр

6

Тип значения

Мера

9

Структура значения

10

Ссылка на источник

11

Пример

12

Идентификатор

28

Таблица 0.30 — Смещение позиции

Компонент

Описание

1

Название

Смещение позиций (10. 2D и 3D)

2

Краткое название

3

Название элемента

Абсолютная или внешняя точность

4

Базовая мера

Не применяется

54

ГОСТ Р 57773—2017

Окончание таблицы D.30

Компонент

Описание

5

Определение

Для множества точек, где расстояние не превышает определенную предельную величину, среднее арифметическое расстояний между их измеренными позициями и той. что взята в качестве истинной позиции

6

Описание

Для числа точек (N) измеренные позиции представлены как координаты хт. ут и z„i в зависимости от измерения, в котором измеряется положение точки. Соответствующий набор координат х„, у0 и zb представляет истинную позицию. Отклонение и смещение рассчитываются следующим образом:

Единичное отклонение:

*М1ШХМ-*Ь'

=Ут/-Ут/.

ви = 2т/ ~ '

Смещение:

* «,

Ш,Ж

* W

у

...ib.

г N

4

•к»

Критерий для установления согласования также следует указывать (например, с учетом согласования к ближайшей позиции, на узлах или вдоль линий). Крите-риЗДсритерии для поиска соответствующих точек должны представляться вместе с результатом оценки качества данных

7

Параметр

в

Тил значения

Мера

9

Структура значения

10

Ссылка на источник

11

Пример

12

Идентификатор

128

Таблица D.31 — Среднее значение позиционной неопределенности без учета выбросов

Компонент

Описание

1

Название

Среднее значение позиционной неопределенности без учета выбросов (2D)

2

Краткое название

3

Название элемента

Абсолютная или внешняя точность

4

Базовая мера

Не применяется

5

Определение

Для множества точек, расстояние которых не превышает определенный порог, среднее арифметическое расстояние между их измеренными позициями и той. что взята е качестве истинной позиции

55

ГОСТ Р 57773—2017

Окончание таблицы D.31

Компонент

Описание

6

Описание

Для числа точек (N) измеренные позиции представлены как координаты хт.

и z„i в зависимости от измерения, в котором измеряется положение точки. Соответствующий набор координат xft-. у0 и представляет истинную позицию. Все позиционные неопределенности выше определенного порога в затем исключаются из набора. Позидоонная неопределенность рассчитывается следующим образом:

е._ ei.ece/s<W 0, если е; > emdx

Расчет е(- определяется мерой качества данных «среднее значение позиционной неопределенности» в одно-, двух- и трехмерных измерениях.

Для оставшегося числа ошибок (Л/д) среднее значение горизонтального абсолютного положения вычисляется следующим образом:

, N

в, исключая выбросы. =—Те'.

Критерий для установления согласования также следует указывать (например, с учетом согласования к ближайшей позиции, на узлах или вдоль линий). Крите-риЛ'критерии для поиска соответствующих точек должны представляться вместе с результатом оценки качества данных

7

Параметр

Название:

Определение: порог для принятой позиционной неопределенности. Тип значения: число

6

Тип значения

Мера

9

Структура значения

10

Ссылка на источник

11

Пример

12

Идентификатор

29

Таблица 0.32 — Позиционная неопределенность выше задан ной предельной величины

Компонент

Описание

1

Название

Число позиционных неопределенностей вышезаданной предельной ветчины

2

Краткое название

3

Название элемента

Абсолютная или внешняя точность

4

Базовая мера

Подсчет ошибок

5

Определение

Число позиционных неопределенностей выше заданного порогового значения для набора позиций.

Ошибки определяются как расстояние между измеренным положением и тем. которое заявлено в качестве истинного

6

Описание

Для тела точек (N) измеренные позиции представлены как координаты хт. Ут и zmi8 зависимости от измерения, в котором измеряется положение точки. Соответствующий набор координат х6. yfi и гь представляет истинную позицию. Расчет е, определяется мерой качества данных «среднее значение позиционной неопределенности» а одно-, двух- и трехмерных измерениях.

Всякая позиционная неопределенность, превышающая установленный порог еп*х (•/> ®пмиЛ считавгся ошибкой.

Критерий для установления согласования также следует указывать (например, с учетом согласования к ближайшей позиции, на узлах или вдоль линий). Крите-риЭДсритерии для поиска соответствующих точек должны представляться вместе с результатом оценки качества данных.

56

ГОСТ Р 57773—2017

Окончание таблицы D.32

Компонент

Описание

7

Параметр

Название: е___

пах

Определение: порог для принятой позиционной неопределенности. Тип значения: число

б

Тип значения

Integer

9

Структура значения

10

Ссылка на источник

11

Пример

12

Идентификатор

30

Таблица 0.33— Уровень позиционных ошибок выше заданного порога

Компонент

Описание

1

Название

Уровень позиционных ошибок выше заданного порога

2

Краткое название

3

Название элемента

Абсолютная или внешняя точность

4

Базовая мера

Не применяется

5

Определение

Число позиционных неопределенностей выше заданного порогового значения для набора позиций по отношению к общему количеству измеренных положений.

Ошибки определяются как расстояние между измеренным положением и тем. которое заявлено в качестве истинного

6

Описание

Для 'мела точек (N) измеренные позиции представлены как координаты хт. ут и гт в зависимости от измерения, в котором измеряется положение точки. Соответствующий набор координат xft, у0 и г6 представляет истинную позицию. Расчет е, определяется мерой качества данных «среднее значение позиционной неопределенности» в одно-, двух- и трехмерных измерениях.

Всякая позиционная неопределенность, превышающая установленный порот еггах (ei> етах)- считается ошибкой. Количество ошибок установлено в зависимости от общего количества измеренных точек.

Критерий для установления согласования также следует указывать (например, с учетом согласования к ближайшей позиции, на узлах или вдоль линий). Крите-рий/критерии для поиска соответствующих точек должны представляться вместе с результатом оценки качества данных

7

Параметр

Название: е___

max

Определение: порог, выше которого подсчитывается позиционная неопределенность.

Тип значения: число

6

Тип значения

Real

9

Структура значения

10

Ссылка на источник

11

Пример

25 % узлов в пределах области определения качества данных имеют погрешность расстояния больше 1 м

12

Идентификатор

31

57

ГОСТ Р 57773—2017

Таблица 0.34 — Ковариационная матрица

N1

Компонент

Описание

1

2

3

4

5

Название

Ковариационная матрица

Краткое название

Вариационно-ковариационная матрица

Название элемента

Абсолютная или внешняя точность

Базовая мера

Не применяется

Определение

Симметричная квадратная матрица с дисперсией координат точек на главной диагонали и ковариацией между этими координатами по надиагональным элементам

Описание

Ковариационная матрица генерализует концепцию дисперсии от одномерного до N-ro измерения, т. е. от скалярных случайных величш до векторных случайных величин {кортежи скалярных случайных величин).

(1) 10-координаты {например, данные высоты)

Векторная случайная величина:

х =

Ковариационная матрица:

I., -

lV,

I* .

, где я„ ж«

л* определяет объект дисперсии х,. ее квадратный корень задает стандарт-эв отклонен

a    .

*1 V *<

нов отклонение этого элемента о

Корреляция мееду двумя элементами может быть вычислена по формуле о

=;

Если координаты некоррелироеаны, то недиагональные объекты имеют значение 0.

(2) 20-координаты Векторная случайная величина:

*.

/>

X ж

V

I/.J

Ковариационная матрица:

о2

я

о

*1

*1 У\

*1 Хя

°»v.

°л

аг,гя

'г.*1

58

ГОСТ Р 57773—2017

Окончание таблицы D.34

Компонент

Описание

Описание

(3) ЗО-координаты Векторная случайная величина:

У«

x«j?

&

Ковариационная матрица:

-

а*.

ev,

°*А

°*,г.

вХА

... огл

агА

в«А

СТКА

aV„

в

"Vn

V.

V

... о}

°*А

°-А

V,

в

... а ,

'**П

(4) произвольно выбранные координаты Векторная случайная величина:

Х =

Ковариационная матрица:

г -‘•хх

2

... а.

о—

a

с

II

2

а—

Ь

= «

<т = а.

... 2

*•

Й, гь

а—

г j

Параметр

Тип значения

Мера

Структура значения

Матрица

10

Ссылка на источник

11

Пример

12

Идентификатор

32

D.4.1.2 Вертикальная позиционная неопределенность

Измерения высоты представляют собой позиционные наблюдения в одном измерении, а значит, высоту можно рассматривать как одномерную случайную величину. Поэтому меры качества данных для позиционной неопределенности основаны на базовой мере качества данных «одномерная случайная величина».

Меры качества данных для вертикальной позиционной неопределенности педэлемента качества данных «абсолютная/внешняя точность» представлены в таблицах D.35—D.43.

59

ГОСТ Р 57773—2017

Таблица 0.35 — Линейное вероятное отклонение

Компонент

Описание

1

Название

Линейное вероятное отклонение

2

Кратхое название

LEP

3

Название элемента

Абсолютная или внешняя точность

4

Базовая мера

LE50 или LE50(r) в зависимости от процедуры оценки

5

Определение

Половина длины интервала, определяемого верхним и нижним пределом, в котором истинное значение находится с вероятностью 50 %

6

Описание

См. 6.3.2

7

Параметр

в

Тип значения

Мера

9

Структура значения

10

Ссылка на источник

11

Пример

12

Идентификатор

33

Таблица D.36 — Стандартное линейное отклонение

Ni

Компонент

Описание

1

Название

Стандартное линейное отклонение

2

Краткое название

SLE

3

Название элемента

Абсолютная или внешняя точность

4

Базовая мера

LE68.3 или LE68.3(r) в зависимости от процедуры оценси

5

Определение

Половина длины интервала, определяемого верхним и нижним пределом, в котором истинное значение находится с вероятностью 68.3 %

6

Описание

См. 6.3.2

7

Параметр

в

Тип значения

Мера

9

Структура значения

10

Ссылка на источник

11

Пример

12

Идентификатор

34

Таблица 0.37 — Линейная картографическая точность при 90-проценгном уровне значимости

Компонент

Описание

1

Название

Линейная картографическая точность при 90-процентном уровне значимости

2

Краткое название

LMAS 90 %

3

Название элемента

Абсолютная или внешняя точность

4

Базовая мера

LE90 или LE90(r) в зависимости от процедуры оценки

5

Определение

Половина длины интервала, определяемого верхним и нижним пределом, в котором истинное значение находится с вероятностью 90 %

6

Описание

См. 6.3.2

60

ГОСТ Р 57773—2017

Окончание таблицы D.37

Компонент

Описание

7

Параметр

в

Тип значения

Мера

9

Структура значения

10

Ссылка на источник

11

Пример

12

Идентификатор

35

Таблица D.38 — Линейная картографическая точность при 95-проценгном уровне значимости

Nt

Компонент

Описание

1

Название

Линейная картографическая точность при 95-процентном уровне значимости

2

Краткое название

LMAS 95 %

3

Название элемента

Абсолютная или внешняя точность

4

Базовая мера

LE95 или LE95<r) в зависимости от процедуры оценки

5

Определение

Половина дгмиы интервала, определяемого верхним и нижним пределом, в котором истинное значение находится с вероятностью 95 %

6

Описание

Си. G.3.2

7

Параметр

в

Тип значения

Мера

9

Структура значения

10

Ссылка на источник

11

Пример

12

Идентификатор

36

Таблица D.39 — Линейная картографическая точность при 99-процентном уровне значимости

Компонент

Описание

1

Название

Линейная картографическая точность при 99-процентном уровне значимости

2

Краткое название

LMAS 99 %

3

Название элемента

Абсолютная или внешняя точность

4

Базовая мера

LE99 или LE99(r) в зависимости от процедуры оценки

5

Определение

Половина длины интервала, определяемого верхним и нижним пределом, в котором истинное значение находится с вероятностью 99 %

6

Описание

См. G.3.2

7

Параметр

6

Тил значения

Мера

9

Структура значения

10

Ссылка на источник

11

Пример

12

Идентификатор

37

61

ГОСТ Р 57773—2017

Таблица 0.40 — Уровень высокой линейной достоверности

Компонент

Описание

1

Название

Уровень высокой линейной достоверности

2

Кратхое название

3

Название элемента

Абсолютная или внешняя точность

4

Базовая мера

LE99.8 или LE99.8(r) в зависимости от процедуры оценки

5

Определение

Половина длины интервала, определяемого верхним и нижним пределом, в котором истинное значение находится с вероятностью 99.8 %

6

Описание

См. 6.3.2

7

Параметр

б

Тип значения

Мера

9

Структура значения

10

Ссылка на источник

11

Пример

12

Идентификатор

38

Таблица 0.41—Средняя квадратическая ошибка

Компонент

Описание

1

Название

Среднеквадрагическая ошибка

2

Краткое название

RMSE

3

Название элемента

Абсолютная или внешняя точность

4

Базовая мера

Не применяется

5

Определение

6

Описание

Истинное значение измеряемой величины Z известно как zt. Исходя из этого, оценка

гривадкт к срапившедратичесхоА ошибке RM8E ■ а.

7

Параметр

8

Тип значения

Мера

9

Структура значения

10

Ссылка на источник

11

Пример

12

Идентификатор

39

Таблица 0.42 — Абсолютная линейная ошибка при 90-процентном уровне значимости смещенных вертикальных данных

Компонент

Описание

1

Название

Абсолютная линейная ошибка при 90-процентном уровне значимости смещенных вертикальных данных (Вариант 1)

2

Кратхое название

LMAS

62

ГОСТ Р 57773—2017

Окончание таблицы D.42

Компонент

Описание

3

Название элемента

Абсолютная или внешняя точность

4

Базовая мера

Не применяется

5

Определение

Абсолютная вертикальная точность координат данных, выраженная в терминах линейной ошибки при 90-процентной вероятности наличия смещения

6

Описание

Сравнение данных (источник) и контроль (эталон) вычисляется следующим образом:

1.    Вычисление абсолютной погрешности в вертикальном измерении в каждой точке:

источник V,- эталон V, при i - 1 ... N.

2.    Вычисление абсолютного значения смешения:

3.    Вычисление линейного стандартного отклонения измеренных различий между тестируемым продуктом и эталонным источником:

о». = .t-УйЦ2.

* 1р,г, ’

4.    Вычисление линейного стандартного отклонения ошибок в эталонном источнике:

5.    Вычисление линейного стандартного отклонения ошибок в тестируемом продукте:

av .

6.    Вычисление соотношения (ratio) абсолютной величины средней ошибки к стандартному отклонению:

ratio = J—1.

7.    Если ratio > 1.4. то LMAS = av (1.282 + ratio].

8.    Если ratio S 1.4. то LMAS = <jy (1.6435 + 0.92 ' ratio2 - 0.28 • ratio3]

7

Параметр

8

Тип значения

Мера

9

Структура значения

10

Ссылка на источник

LIZ)

11

Пример

12

Идентификатор

40

Таблица D.43 — Абсолютная линейная ошибка при 90-лроцентном уровне значимости смещенных вертикальных данных

Компонент

Описание

1

Название

Абсолютная линейная ошибка при 90-процвнтном уровне значимости смещенных вертикальных данных (Вариант 2)

2

Краткое название

ALE

3

Название элемента

Абсолютная или внешняя точность

63

ГОСТ Р 57773—2017

Окончание таблицы D.43

Компонент

Описание

4

Базовая мера

Не применяется

5

Определение

Абсолютная вертикальная точность координат данных, выраженная в терминах линейной ошибки при 90-процентной вероятности наличия смещения

6

Описание

Сравнение данных (источника) с эталоном вычисляется следующим образом:

1.    Вычисление абсолютной погрешности в вертикальном измерении в каждой точке:

= источник V, - эталону, при г» 1 ... N.

2.    Вычисление средней ошибки по вертикали:

|5ч- Ijsv;.

W .-1

3.    Вычисление стандартного отклонения ошибок по вертикали:

4.    Вычисление «оотжяиажя (nrto) аВсолютной шличины среди»* ошибки к

стандартному отклонению:

ratio = |8У.

5.    Если ratio > 1.4. тогда к = 1,2815.

6.    Если ratio £ 1.4. тогда вычисление к проводится на основе соотношения вертикального смещения к стандартному отклонению высот с помощью кубического полинома в соответствии с табличными значениями, определенными в Справочнике таблиц по теории вероятностей и статистики (Handbook of Tables for Probability and Statistics) (12]:

к = t6435-(0.999556-ratio) + (0.923237 ratio2>-(0.282533 • ratio3).

7.    Вычисление LE90 для источника:

8.    Вычисление абсолютного LE90:

= +'-^0иС1(иии*

7

Параметр

Название: обьем выборки.

Определение: используется, как правило, минимум 30 точек, что не всегда возможно в зависимости от идентифицируемых хонтрогъных точек. Для 10-про-центной выборки уровня атрибуции объектов от генеральной совокупности объектов.

Тип значения: Real

в

Тип значения

Мера

9

Структура значения

10

Ссылка на источник

[13]

14]

[12]

11

Пример

12

Идентификатор

41

D.4.1.3 Горизонтальная позиционная неопределенность

Горизонтальные координаты точки определяются 20-координатами. Неопределенность координаты любой точки можно описать с помощью базовых мер качества данных для двухмерной случайной величины, описанной в G.3.3. Меры качества данных для горизонтальной позиционной неопределенности элемента качества данных «абсолютная/внешняя точность» представлены в таблицах D.44—0.53.

64

ГОСТ Р 57773—2017

Таблица 0.44 — Стандартное круговое отклонение

Компонент

Описание

1

Название

Стандартное круговое отклонение

2

Краткое название

Стандартная круговая ошибка, точечная ошибка по Гельмергу. CSE

3

Название элемента

Абсолютная или внешняя точность

4

Базовая мера

СЕ39.4

5

Определение

Радиус описывающей окружности, в которой истинное положение точек расположено с вероятностью 39,4 %

6

Описание

См. 6.3.3

7

Параметр

6

Тип значения

Мера

9

Структура значения

10

Ссылка на источник

11

Пример

12

Идентификатор

42

Таблица 0.45 — Вероятная круговая ошибка

Компонент

Описание

1

Название

Вероятная круговая ошибка

2

Краткое название

СЕР

3

Название элемента

Абсолютная или внешняя точность

4

Базовая мера

CES0

5

Определение

Радиус описывающей окружности, в которой истинное положение точек расположено с вероятностью 50 %

6

Описание

См. G.3.3

7

Параметр

8

Тип значения

Мера

9

Структура значения

10

Ссылка на источник

11

Пример

12

Идентификатор

43

Таблица 0.46 — Стандарт круговой картографической точности

Компонент

Описание

1

Название

Круговая ошибка при 90-процентном уровне значимости

2

Краткое название

Стандарт круговой картографической точности (CMAS)

3

Название элемента

Абсолютная или внешняя точность

4

Базовая мера

СЕ90

5

Определение

Радиус описывающей окружности, в которой истинное положение точек расположено с вероятностью 90 %

65

ГОСТ Р 57773—2017

Окончание таблицы D.46

Компонент

Описание

6

Описание

См. G.3.3

7

Параметр

в

Тип значения

Мера

9

Структура значения

10

Ссылка на источник

11

Пример

12

Идентификатор

44

Таблица D.47 — Круговая ошибка при 95-проценгном уровне значимости

Компонент

Описание

1

Название

Круговая ошибка при 95-процентном уровне значимости

2

Краткое название

Точность навигации

3

Название элемента

Абсолютная или внешняя точность

4

Базовая мера

СЕ95

5

Определение

Радиус описывающей окружности, в которой истинное положение точек расположено с вероятностью 95 %

6

Описание

См. G.3.3

7

Параметр

в

Тип значения

Мера

9

Структура значения

10

Ссылка на источник

11

Пример

12

Идентификатор

45

Таблица D.48 — Почти достоверная круговая ошибка

Ni

Компонент

Описание

1

Название

Почти достоверная круговая ошибка

2

Краткое название

CNCE

3

Название элемента

Абсолютная или внешняя точность

4

Базовая мера

СЕ99.8

5

Определение

Радиус описывающей окружности, в которой истинное положение точек расположено с вероятностью 99.8 %

6

Описание

См. G.3.3

7

Параметр

в

Тил значения

Мера

9

Структура значения

10

Ссылка на источник

11

Пример

12

Идентификатор

46

66

ГОСТ Р 57773—2017

Таблица 0.49 — Среднеквадрагическая ошибка планиметрии

N1

Компонент

Описание

1

Название

Средне квадратическая ошибка планиметрии

2

Краткое название

RMSEP

3

Название элемента

Абсолютная или внешняя точность

4

Базовая мера

Не применяется

5

Определение

Радиус окружности вокруг заданной точки, в которой истинное значение расположено с вероятностью Р

6

Описание

Истинные значения наблюдаемых координат X и У известны как х, и у(. Исходя из этого, статистическая оценка

° 1 [(*«./ - *1 f * -X,)2]

приводит к среднеквадрагической ошибке планиметрии RMSEP = а

7

Параметр

6

Тил значения

Мера

9

Структура значения

10

Ссылка на источник

11

Пример

12

Идентификатор

47

Таблица D.50 — Абсолютная круговая ошибка при 90-лроцвнтном уровне значимости смешенных данных

Компонент

Описание

1

Название

Абсолютная круговая ошибка при 90-процентном уровне значимости смещенных данных (Вариант 2)

2

Краткое название

Мера абсолютной горизонтальной точности при 90-проиенгном уровне значимости смешенных данных (CMAS)

3

Название элемента

Абсолютная или внешняя точность

4

Базовая мера

Не применяется

5

Определение

Абсолютная гори зонт атъная точность координат данных, выраженная в терминах фуговой ошибки при вероятности 90 %, учитывая наличие смешения

6

Описание

Сравнение данных (источник) и контроль (эталон) вычисляется следующим образом:

1.    Вычисление абсолютной погрешности в горизонтальной плоскости в каждой точке и каждой координате X, и У,:

( = (источникХ( - эталон Х() и 6У, = (источник У, - эталон У(.) при i» 1 ... N.

2. Вычисление средней горизонтальной ошибки каждой координаты:

1 N

1Х= — УйХ

14 1 ' и

87=1|йу,.

67

ГОСТ Р 57773—2017

Окончание таблицы D.50

Компонент

Описание

6

Описание

3.    Вычисление линежого стандартного отклонешя измеренных различий между тестируемым продуктом и эталонным источником:

4.    Вычисление линейного стандартного отклонения ошибок а эталонном источнике:

°СЯ-

5.    Вычисление линейного стандартного отклонения ошибок а тестируемом продукте:

ЯС =lfnCU *aCR ■

6.    Вычисление абсолютной круговой ошибки при 90-процентном уровне достоверности смещенных данных (CMAS):

CMAS = пс 1,2943+ | М '6Y +0.7254

l t J

7

Параметр

8

Тил значения

Мера

9

Структура значения

10

Ссылка на источник

[12]

11

Пример

12

Идентификатор

48

Таблица 0.51 — Абсолютная круговая ошибка при 90-процентном уровне значимости неравномерно распределенных данных

Компонент

Описание

1

Название

Абсолютная круговая ошибка при 90-процентном уровне значимости смещенных данных

2

Краткое название

АСЕ

3

Название элемента

Абсолютная или внешняя точность

4

Базовая мера

Не применяется

5

Определение

Абсолютная горизонтальная точность координат данных, выраженная в терминах круговой ошибки при вероятности 90 %. учитывая наличие смещения

6

Описание

Сравнение данных (источник) с эталоном вычисляется следующим образом:

1.    Вычисление абсолютной погрешности в горизонтальной плоскости в каждой точке:

ДН,* ^источник X, - эталон X.)2 + (источник У. - эталон У,)2 при г = 1 ... N.

2.    Вычисление сродней горизонтальной ошибки:

68

ГОСТ Р 57773—2017

Окончание таблицы D.51

Компонент

Описание

6

Описание

3.    Вычисление стандартного отклонения горизонтальных ошибок:

/w-Г

4.    Вычисление соотношения (ratio) абсолютной величины средней ошибки к стандартному отклонению:

ratio - |ц*|/я* .

5.    Если ratio > 1.4. то А = 1.2815.

6.    Если ratio S 1.4, то вычисление А проводится на основе соотношения вертикального смешения к стандартному отклонению высот с помощью кубического полинома в соответствии с табличными значениями, определенными в CRC (Справочнике таблиц по теории вероятностей и статистики) [12].

к - 1.6435 - (0.999556 ratio) + (0.923237 • ratio2) - (0.282533 rat»3).

7.    Вычисление СЕ90 для источника:

СЕ90могсс = |цм| + (*■«„).

8.    Вычисление абсолютного СЕ90;

СЕ90ЛВ1 =^CE90?rjI,OH +СЕ90^С1Г1ЧН1,[

7

Параметр

Название: объем выборки.

Определение: используется, как правило, минимум 30 точек, что не всегда возможно е зависимости от идентифицируемых контрольных точек. Для 10-про-центной выборки уровня атрибуции объектов от генеральной совокупности объектов.

Тип значения: Real

в

Тип значения

Мера

9

Структура значения

10

Ссылка на источник

(13)

W

11

Пример

12

Идентификатор

49

Таблица 0.52 — Элшпснеопределенности

Компонент

Описание

1

Название

Эллипс неопределенности

2

Краткое название

Стандартный эллипс ошибок точек

3

Название элемента

Абсолютная или внешняя точность

4

Базовая мера

Не применяется

5

Определение

20-эллипс с двумя основными осями с указанием направления и значения самой высокой и самой низкой неопределенности 20-точки

6

Описание

Из заданной ковариационной матрицы (меры качества данных, таблица 0.34) 20-координат точек элементы, описывающие эллипс неопределенности, могут быть определены на основе их собственных значений.

Для одной точки к ковариационная матрица имеет вид

£* в

ях

ГГ2 О

- я2

L “»** у» J

ГД0(Чг,^-

69

ГОСТ Р 57773—2017

Окончание таблицы D.52

Компонент

Описание

6

Описание

Направление a (bearing) основной полуоси эллипса неопределенности может быть вычислено по формуле

1    __ .Лг,

0 = — aretan-

2    а* -я»

\ к» и

в=Jj*I-+ Jk -°l, f * *1.„ -fa -”?.Г ♦“"v. j

7

Параметр

6

Тип значения

Мера

9

Структура значения

Последовательность (a. b, q>)

10

Ссылка на источник

11

Пример

12

Идентификатор

50

Таблица D.53 — Доверительный эллипс

Компонент

Описание

1

Название

Эллипс достоверности

2

Краткое название

Доверительный эллипс ошибок точек

3

Название элемента

Абсолютная или внешняя точность

4

Базовая мера

Не применяется

5

Определение

20-эллипс с двумя основными осями с указанием направления и значения самой высокой и самой низкой неопределенности 20-точки

6

Описание

Из заданной ковариационной матрицы (меры качества данных, таблица D.34) элементы, описывающие эллипс неопределенности, могут быть определены на основе их собственных значений.

Для одной точки к ковариационная матрица имеет вид

Г 1

£k s * ДЛЯ <1 ш <Т

** п л2 *»У» *»**

[ У* *к У» J

Направление a (bearing) основной полуоси эллипса неопределенности может быть вычислено по формуле

0 = —aretan , и

2

<■*<*„ *fa, j

70

ГОСТ Р 57773—2017

Окончание таблицы D.53

Компонент

Описание

6

Описание

Со значениями для х?.|( (2)-раслределения 2D доверительного эллипса

Р= 1 а = 95% 5.99 Р= 1 а = 99 % 9,21

7

Параметр

Название: значительный уровень. Определение: 1 -а.

Тип значения: число

в

Тип значения

Мера

9

Структура значения

Последовательность (в, Ь, ф)

10

Ссылка на источник

11

Пример

12

Идентификатор

51

D.4.1.4 Относительная или внутренняя точность

Данный элемент качества предусматривает использование тех же мер качества данных, что и элемент «абсолютная или внешняя точность)*. Разница заключается лишь в методе оценки.

Относительная точность между объектами может быть выражена с помощью мер качества данных «относительная вертикальная ошибка» и «относительная горизонтальная ошибка», которые представлены в таблицах D.54 и D.55.

Таблица D.54 — Относительная вертикальная ошибка

Ni

Компонент

Описание

1

Название

Относительная вертикальная ошибка

2

Кратхое название

Rel LE90

3

Название элемента

Абсолютная или внешняя точность

4

Базовая мера

Не применяется

5

Определение

Оценка случайных ошибок между объектами рельефа в одном наборе данных или карте/графике. Эго функция случайной ошибки в двух возвышениях по отношению к общей высотной (вертикальной) дате

6

Описание

Сравнение данных (источник) с эталоном вычисляется следующим образом:

1.    Определение всех возможных комбинаций пар точек.

Комбинации Пар точек = m = л(л1 у2.

2.    Вычисление абсолютной вертикальной ошибки в каждой точке:

AZ = Измеренная высота/ - Эталонная высота- при / = 1 ...п.

3.    Вычисление относительной вертикальной ошибки для всех комбинаций пар точек:

d = л2k sZ- при к - 1 ... ml. Js к * 1 ... т.

4.    Вычисление относительного вертикального стандартного отклонения

5.    Вычисление относительной LE путем приведения сигмы к 90-процентному уровню значимости:

Rel LE90 =1,645oZre|

71

ГОСТ Р 57773—2017

Окончание таблицы D.54

Компонент

Описание

7

Параметр

Название: п.

Определение: объем выборки. Тип значения. Integer

б

Тип значения

Мера

9

Структура значения

10

Ссылка на источник

[13]

11

Пример

12

Идентификатор

52

Таблица 0.55— Относительная горизонтальная ошибка

Компонент

Описание

1

Название

Относительная горизонтальная ошибка

2

Краткое название

Rel СЕ90

3

Название элемента

Абсолютная или внешняя точность

4

Базовая мера

Не применяется

5

Определение

Оценка случайных ошибок 8 горизонтальной позиции между объектами 8 наборе данных или харте/графике

6

Описание

Сравнение данных (источник) с эталоном вычисляется следующим образом:

1.    Определение всех возможных комбинаций пар точек:

Комбинации пар точек = т = л(л1)/2.

2.    Вычисление абсолютной погрешности 8 X и У плоскостях в каждой точке: АХ, = Измеренное X, - Эталонное X, при / ■ 1 ... л.

А У, = Измеренное У, - Эталонное У, при 1 » 1 ... п.

3.    Вычисление относительной погрешности в X и У плоскостях для всех комбинаций пар точки:

АХге|ф* ДХк - АХ; при к = 1 ... m1./ = А + 1 ... гп.

ДУге1 ц = ДУ^- ДУ; при к = 1 ... /л1./« Jc+ 1 ... ш.

4.    Вычисление относительного стандартного отклонения на каждой оси: о

о - |2>Г-"‘"“■Ул.-Т *

5.    Вычисление относительного горизонтального стандартного отклонения:

fat +л?

„ _ VrM

f 2

6.    Вычисление относительной LE путем приведения сигмы к 90-процентному уровню значимости:

Rel СЕ90 = 2.146яНгЫ

7

Параметр

Название: п.

Определение: объем выборки. Тип значения: Integer

72

ГОСТ Р 57773—2017

Окончание таблицы D.55

Компонент

Описание

6

Тип значения

Мера

9

Структура значения

10

Ссылка на источник

[13]

11

Пример

12

Идентификатор

53

D.4.2 Точность позиционирования данных относительно координатной сетки

Для описания сеточных данных могут использоваться те же меры качества, что и для гориэонтагъной пози-циональмой неопределенности в соответствии с 0.4.1.3. Для описания групповых значений в растрах может применяться точность количественных атрибутов в соответствии с D.6.3.

D.5 Точность временных измерений

Временные измерения можно рассматривать как одномерные случайные величины. Использование базовых мер качества данных согласно G.3.2 привадит к мерам качества данных в соответствии с таблицами 0.56—0.61.

Таблица 0.56— Временная точность при 68.3-процентном уровне значимости

Компонент

Описание

1

Название

Временная точность при 68.3-процентном уровне значимости

2

Краткое название

3

Название элемента

Точность измерения времени

4

Базовая мера

LE68.3 или LE68.3(r) в зависимости от процедуры оценки

5

Определение

Половина длины интервала, определяемого верхним и нижним пределом, в котором истинное значение экземпляра времени лежит с вероятностью 68.3 %

6

Описание

См. G.3.2

7

Параметр

8

Тил значения

Мера

9

Структура значения

10

Ссылка на источник

11

Пример

12

Идентификатор

54

Таблица 0.57 — Временная точность при 50-про цент ном уровне значимости

Компонент

Описание

1

Название

Временная точность при 50-процентном уровне значимости

2

Краткое название

3

Название элемента

Точность измерения времени

4

Базовая мера

LE50 или LE50(r) 8 зависимости от процедуры оценки

5

Определение

Половина длины интервала, определяемого верхним и нижним пределом, в котором истинное значение экземпляра времени лежит с вероятностью 50 %

6

Описание

См. G.3.2

7

Параметр

73

ГОСТ Р 57773—2017

Окончание таблицы D.57

Компонент

Описание

6

Тип значения

Мера

9

Структура значения

10

Ссылка на источник

11

Пример

12

Идентификатор

55

Таблица 0.58 — Временная точность при 90-процентом уровне значимости

на

Компонент

Описание

1

Название

Временная точность при 90-проиенгном уровне значимости

2

Краткое название

3

Название элемента

Точность измерения времени

4

Базовая мера

LE90 или LE90(r) в зависимости от процедуры оценки

5

Определение

Половина длины интервала, определяемого верхним и нижним пределом, в котором истинное значение экземпляра времени лежит с вероятностью 90 %

6

Описание

См. 6.3.2

7

Параметр

6

Тип значения

Мера

9

Структура значения

10

Ссылка на источник

11

Пример

12

Идентификатор

56

Таблица D.59 — Временная точность при 95-процен том уровне значимости

Компонент

Описание

1

Название

Временная точность при 95-процентном уровне значимости

2

Краткое название

3

Название элемента

Точность измерения времени

4

Базовая мера

LE95 или LE95<r) в зависимости от процедуры оценки

5

Определение

Половина длины интервала, определяемого верхним и нижним пределом, в котором истинное значение экземпляра времени лежит с вероятностью 95 %

6

Описание

См. G.3.2

7

Параметр

8

Тип значения

Мера

9

Структура значения

10

Ссылка на источник

11

Пример

12

Идентификатор

57

74

ГОСТ Р 57773—2017

Таблица 0.60 — Временная точность при 99-процентном уровне значимости

Компонент

Описание

1

Название

Временная точность при 99-процентном уровне значимости

2

Краткое название

3

Название элемента

Точность измерения времени

4

Базовая мера

LE99 или LE99(r) в зависимости от процедуры оценки

5

Определение

Половина длины интервала, определяемого верхним и нижним пределом, в котором истинное значение экземпляра времени лежит с вероятностью 99 %

6

Описание

См. 6.3.2

7

Параметр

8

Тип значения

Мера

9

Структура значения

10

Ссылка на источник

11

Пример

12

Идентификатор

58

Таблица 0.61 — Временная точность при 99.8-процентном уровне значимости

Компонент

Описание

1

Название

Временная точность при 99.8-процентном уровне значимости

2

Краткое название

3

Название элемента

Точность измерения времени

4

Базовая мера

LE99.8 или LE99.8(r) в зависимости от процедуры оценки

5

Определение

Половина длины интервала, определяемого верхним и нижним пределом, в котором истинное значение экземпляра времени лежит с вероятностью 99.8 %

6

Описание

См. G.3.2

7

Параметр

8

Тип значения

Мера

9

Структура значения

10

Ссылка на источник

11

Пример

12

Идентификатор

59

0.5.1 Временная согласованность

В таблице 0.62 дана одна мера качества данных для подэлемента качества «временная согласованность».

Таблица 0.62 — Хронологическая последовательность

Компонент

Описание

1

Название

Хронологическая последовательность

2

Краткое название

3

Название элемента

Временная согласованность

4

Базовая мера

Индикатор ошибок

75

ГОСТ Р 57773—2017

Окончание таблицы D.62

Компонент

Описание

5

Определение

Признак того, что событие неверно упорядочено в сравнении с другими событиями

6

Описание

7

Параметр

в

Тип значения

Булева переменная (значение «true» указывает на то. что событие упорядочено неверно)

9

Структура значения

10

Ссылка на источник

11

Пример

True (в наборе данных присутствуют 5 исторических событий, но они упорядочены неправильно)

12

Идентификатор

159

D.5.2 Временное соответствие

Для описания временного соответствия можно использовать те же меры качества данных, что и для допустимых значений атрибутов (см. меры качества данных в таблицах D.14—0.18 леи элемента качества «доменнная согласованность»).

0.6 Тематическая точность 0.6.1 Корректность классификации

Отнесение элемента к определенному классу может быть правильным либо неправильным. В таблицах 0.63—0.67 дано несколько мер качества данных в зависимости от классифицируемого элемента.

Таблица 0.63 — Количество некорректно классифицированных объектов

Ni

Компонент

Описание

1

Название

Количество некорректно классифицированных объектов

2

Кратхое название

3

Название элемента

Корректность классификации

4

Базовая мера

Подсчет ошибок

5

Определение

Количество неправильно классифицированных объектов

6

Описание

7

Параметр

8

Тип значения

Integer

9

Структура значения

10

Ссылка на источник

11

Пример

12

Идентификатор

60

Таблица 0.64 — Степень некорректности классификации

Компонент

Описание

1

Название

Степень некорректности классификации

2

Краткое название

3

Название элемента

Корректность классификации

76

ГОСТ Р 57773—2017

Окончание таблицы D.64

Компонент

Описание

4

Базовая мера

Частота ошибок

5

Определение

Количество неправильно классифицированных объектов по отношению к количеству объекте», которые должны присутствовать в классификации

6

Описание

7

Параметр

6

Тип значения

Real

9

Структура значения

10

Ссылка на источник

11

Пример

12

Идентификатор

61

Таблица D.65 — Матрица неправильной классификации

ыг

Компонент

1

2

3

4

5

Название

Краткое название

Название элемента

Базовая мера Определение

6

Описание

7

Параметр

в

9

10 11

Тип значения

Структура значения

Ссылка на источник

Пример

12

Идентификатор

Описание

Матрица неправильной классификации

Матрица неточностей

Корректность классификации

Матрица, которая указывает количество объектов класса (/), отнесенных к классу (у)

Матрица неправильной классификации (МСМ) — эго квадратичная матрица со столбцами п и строками п. п обозначает число рассматриваемых классов.

МСМ (г,/) = [# объекты класса (/), отнесенные к классу (/)].

Диагональные объекты матрицы неправильной классификации содержат правильно классифицированные объекты, а недиагональные объекты содержат количество ошибок неправильной классификации

Название: л.

Определение: количество рассматриваемых классов.

Тип значения: Integer

Integer

Матрица (л х л)

Dataset class

А

В

С

Count

Я

m

А

7

2

1

10

3

ф

В

1

2

2

5

3

С

1

1

3

5

Count

9

5

6

20

62

77

ГОСТ Р 57773—2017

Таблица 0.66 — Относительная матрица не травильной классификации

N1

Компонент

Описание

1

Название

Относительная матрица неправильной классификации

2

Краткое название

3

Название элемента

Корректность классификации

4

Базовая мера

5

Определение

Матрица, которая указывает количество объектов класса (/}, отнесенных к классу (у) и деленных на количество объектов класса (/)

6

Описание

Относительная матрица неправильной классификации (RMCM) — это квадратичная матрица с п столбцами и л строками, п обозначает число рассматриваемых классов

RMCM (/.У) = [# объекты класса (0. отнесенные к классу (/)] / (# объекты класса (/))• 100%

7

Параметр

Название: п.

Определение: количество рассматриваемых классов. Тип значения: Integer

6

Тип значения

Real

9

Структура значения

Матрица (л х л)

10

Ссылка на источник

11

Пример

12

Идентификатор

63

Таблица 0.67 — Коэффициент калла

Ni

Компонент

Описание

1

Название

Коэффициент каппа

2

Краткое название

3

Название элемента

Корректность классификации

4

Базовая мера

5

Определение

Коэффициент для определения соотношения согласия присвоения классов путем удаления некорректной классификации

6

Описание

С объектами матрицы неправильной классификации матрицы МСМ (/. J). заданной в качестве меры качества данных в таблице 0.65. коэффициент каппа (К) может быть вычислен по формуле

' ' ! f г ы £мсмМ-£ £mcm(U)Imcm(/./)

М J-A/-1 /и

^ f f \

N2 - £1 £МСМ(Г. У). £МСМ(У. 0 /.1

N — это количество классифицированных объектов

7

Параметр

Название: п.

Определение: количество рассматриваемых классов. Тил значения: Integer

6

Тил значения

Real

9

Структура значения

76

ГОСТ Р 57773—2017

Окончание таблицы D.67

Компонент

Описание

10

Ссылка на источник

11

Пример

12

Идентификатор

64

D.6.2 Корректность неколичественных атрибутов

Меры качества данных для подэлемента качества «корректность неколичвственных атрибутов» даны в таблицах D.68—D.70.

Таблица 0.68 — Число некорректных значений атрибутов

Компонент

Описание

1

Название

Число некорректных значений

2

Краткое название

3

Название элементов

Корректность неколичвственных атрибутов

4

Базовая мера

Подсчет ошибок

5

Определение

Общее количество ошибочных значений атрибутов в соответствующей части набора данных

6

Описание

Количество всех значений атрибутов с неверным значением

7

Параметр

8

Тип значения

Integer

9

Структура значения

10

Ссылка на источник

11

Пример

5 (5 географических названий написаны с ошибками)

12

Идентификатор

65

Таблица 0.69 — Степень корректных значений атрибутов

Компонент

Описание

1

Название

Степень корректных значений атрибутов

2

Краткое название

3

Название элемента

Корректность неколичвственных атрибутов

4

Базовая мера

Степень корректных объектов

5

Определение

Количество корректных значений атрибутов по отношению к общему числу значений атрибутов

6

Описание

7

Параметр

6

Тил значения

Real

9

Структура значения

10

Ссылка на источник

11

Пример

12

Идентификатор

66

79

ГОСТ Р 57773—2017

Таблица 0.70 — Степень некорректных значений атрибутов

N1

Компонент

Описание

1

Название

Степень некорректных значений атрибутов

2

Краткое название

3

Название элемента

Корректность нвколичвсгвенных атрибутов

4

Базовая мера

Частота ошибок

5

Определение

Количество значений атрибутов с некорректными значениями по отношению к общему числу значений атрибутов

в

Описание

7

Параметр

8

Тип значения

Real

9

Структура значения

10

Ссылка на источник

11

Пример

12

Идентификатор

67

0.6.3 Точность количественных атрибутов

Меры качества данных для подэлемента качества «точность количественных атрибутов» представлены в таблицах 0.71—0.76.

Таблица 0.71 — Неопределенность значения атрибута при 68.3-лроцентном уровне значимости

Компонент

Описание

1

Название

Неопределенность значения атрибута при 68.3-лроцентном уровне значимости

2

Краткое название

3

Название элемента

Точность количественных атрибутов

4

Базовая мера

LE68.3 или LE68.3(r) в зависимости от процедуры оценки

5

Определение

Половина длины интервала определяется верхним и нижним пределом, в котором истинное значение для количественного атрибута лежит с вероятностью 68.3%

в

Описание

См. 6.3.2

7

Параметр

8

Тип значения

Мера

9

Структура значения

10

Ссылка на источник

11

Пример

12

Идентификатор

68

Таблица 0.72 — Неопределенность значения атрибута при 50-процентном уровне значимости

Компонент

Описание

1

Название

Неопределенность значения атрибута при 50-процентном уровне значимости

2

Краткое название

3

Название элемента

Точность количественных атрибутов

80

ГОСТ Р 57773—2017

Окончание таблицы D.72

Компонент

Описание

4

Базовая мера

LE50 или LE50{r) в зависимости от процедуры оценки

5

Определение

Половина длины интервала определяется верхним и нижним пределом, в котором истинное значение для количественного атрибута лежит с вероятностью 50%

в

Описание

См. G.3.2

7

Параметр

8

Тип значения

Мера

9

Структура значения

10

Ссылка на источник

11

Пример

12

Идентификатор

69

Таблица D.73 — Неопределенность значения атрибута при 90-процентном уровне значимости

Компонент

Описание

1

Название

Неопределенность значения атрибута при 90-процентном уровне значимости

2

Краткое название

3

Название элемента

Точность количественных атрибутов

4

Базовая мера

LE90 или 1_Е90(г) в зависимости от процедуры оценки

5

Определение

Половина длины интервала определяется верхним и нижним пределом, в котором истинное значение для количественного атрибута лежит с вероятностью 90%

6

Описание

См. G.3.2

7

Параметр

8

Тип значения

Мера

9

Структура значения

10

Ссылка на источник

11

Пример

12

Идентификатор

70

Таблица D.74 — Неопределенность значения атрибута при 95-процентном уровне значимости

Ni

Компонент

Описание

1

Название

Неопределенность значения атрибута при 95-процентном уровне значимости

2

Кратхое название

3

Название элемента

Точность количественных атрибуте»

4

Базовая мера

LE95 или LE95(r) в зависимости от процедуры оценки

5

Определение

Половина длины интервала определяется верхним и нижним пределом, в котором истинное значение для количественного атрибута лежит с вероятностью 95%

6

Описание

См. G.3.2

7

Параметр

81

ГОСТ Р 57773—2017

Окончание таблицы D.74

Компонент

Описание

8

Тип значения

Мера

9

Структура значения

10

Ссылка на источник

11

Пример

12

Идентификатор

71

Таблица 0.75 — Неопределенность значения атрибута при 99-лроцентном уровне значимости

Ni

Компонент

Описание

1

Название

Неопределенность значения атрибута при 99-лроцентном уровне значимости

2

Краткое название

3

Название элемента

Точность количественных атрибутов

4

Базовая мера

LE99 или LE99<r) в зависимости от процедуры оценки

5

Определение

Половина длины интервала, определяемого верхним и нижним пределом, в котором истинное значение для количественного атрибута лежит с вероятностью 99%

6

Описание

См. G.3.2

7

Параметр

8

Тип значения

Мера

9

Структура значения

10

Ссылка на источник

11

Пример

12

Идентификатор

72

Таблица 0.76 — Неопределенность значения атрибута при 99.8-л роцвнтном уровне значимости

Компонент

Описание

1

Название

Неопределенность значения атрибута при 99.8-процентном уровне значимости

2

Краткое название

3

Название элемента

Точность количественных атрибутов

4

Базовая мера

LE99.8 или LE99.8(r) в зависимости от процедуры оцвнси

5

Определение

Половина длины интервала, определяемого верхним и нижним пределом, в котором истинное значение для количественного атрибута лежит с вероятностью 99.8%

6

Описание

См. G.3.2

7

Параметр

8

Тил значения

Мера

9

Структура значения

10

Ссылка на источник

11

Пример

12

Идентификатор

73

82

ГОСТ Р 57773—2017

D.7 Меры обобщения

В спецификации информационного продукта устанавливают некоторые требования к продукту для его соответствия данной спецификации. В таблицах D.77—0.81 для этого элемента приведены меры качества данных.

Таблица D.77 — Соответствие спецификации информационного продукта

Компонент

Описание

1

Название

Соответствие спецификации информационного продукта

2

Краткое название

3

Название элемента

Элемент применимости (юзабилити)

4

Базовая мера

Индикатор корректности

5

Определение

Признак того, что все требования, упомянутые в спецификации информационного продукта выполнены

в

Описание

7

Параметр

8

Тип значения

Булева переменная {«true», если все требования, упомянутые в спецификации информационного продукта, выполнены)

9

Структура значения

10

Ссылка на источник

11

Пример

12

Идентификатор

101

Таблица D.78 — Количество несоответствий спецификации информационного продукта

Компонент

Описание

1

Название

Количество несоответствий спецификации информационного продукта

2

Краткое название

3

Название элемента

Элемент применимости (юзабилити)

4

Базовая мера

Подсчет ошибок

5

Определение

Число требований спецификации информационного продукта, которые не выполняются текущим пролуктом/кабором данных

6

Описание

7

Параметр

8

Тип значения

integer

9

Структура значения

10

Ссылка на источник

11

Пример

12

Идентификатор

102

Таблица D.79 — Количество соответствий спецификации информационного продукта

Компонент

Описание

1

Название

Количество соответствий спецификации информационного продукта

2

Краткое название

3

Название элемента

Элемент применимости (юзабилити)

ВЗ

ГОСТ Р 57773—2017

Окончание таблицы D.79

Компонент

Описание

4

Базовая мера

Подсчет корректных элементов

5

Определение

Число требований спецификации информационного продукта, которые выполняются текущим продуктом/набором данных

6

Описание

7

Параметр

8

Тип значения

Integer

9

Структура значения

10

Ссылка на источник

11

Пример

12

Идентификатор

103

Таблица D.80 — Степень несоответствия спецификации информационного продукта

Компонент

Описание

1

Название

Степень несоответствия спецификации информационного продукта

2

Краткое название

3

Название элемента

Элемент практичности (юзабилити)

4

Базовая мера

Частота ошибок

5

Определение

Число требований спецификации информационного продукта, которые не выполняется текущим продуктом/набором данных по отношению к общему числу требований спецификации информационного продукта

6

Описание

7

Параметр

8

Тип значения

Real

9

Структура значения

10

Ссылка на источник

11

Пример

12

Идентификатор

104

Таблица D.81 — Степень соответствия спецификации информационного продукта

Компонент

Описание

1

Название

Степень соответствия спецификации информационного продукта

2

Краткое название

3

Название элемента

Элемент практичности (юзабилити)

4

Базовое название

Частота корректных элементов

5

Определение

Число требований спецификации информационного продукта, которые выполняются текущим продуктом/набором данных по отношению к общему числу требований спецификации информационного продукта

6

Описание

7

Параметр

84

ГОСТ Р 57773—2017

Окончание таблицы D.81

Компонент

Описание

6

Тип значения

Real

9

Структура значения

10

Ссылка на источник

11

Пример

12

Идентификатор

105

85

ГОСТ Р 57773—2017

Приложение Е (справочное)

Оценка и выдача информации о качестве данных

Е.1 Введение

В данном приложении приведен основной пример оценки и выдачи информации о качестве данных.

В разделе D.5 приложения D приведены дополнительные примеры выдачи информации в виде метаданных иного характера, таких как описательный результат, метакзчество и оценка выборки.

Е. 2 Описание набора данных

Е.2.1 Спецификация информационного продукта

Е.2.1.1 Общие положения

Для оценки качества данных применяют меры качества.

Спецификация информационного продукта, приведенная ниже, описывает область применения. Спецификация определяет те объекты, атрибуты и отношения, которые считаются важными и должны содержаться в наборе данных.

Примечание — Полное описание спецификации информационного продукта см. ГОСТ Р 57657.

Данный продукт включает транспортную сеть (пути и дороги), здания (жилые и промышленные) и деревья.

Е.2.1.2 Типы объектов

Каждой тип объекта, с пустым или непустым набором атрибутов, указан в таблице Е. 1. После каждого имени атрибута следует тип значения (строка или целочисленная переменная), а также область допустимых значений.

Таблица Е.1—Тигы объектов

Тип объекта

Наименование атрибута

Тип значения

Обпасть допустимых значений

Здания

Промышленное

здание

Дом

Фамилия

Siring

Количество жигъцов

Integer

Транспортная

сеть

Тропа

Дорога

Условие

String

С твердым покрытием, грунтовая

Дерево

Высота

String

А: от 1 до 3 м: В: от 3 до 5 м; С: от 5до Юм: D: выше 10 м

Е.2.1.3 Правила

Типы объектов в таблице Е.1 должны придерживаться следующих правил:

•    деревья высотой менее 1 м не должны учитываться:

- атрибут «Условие» дороги может не иметь значения («неопределенное значение»);

•    атрибуты «Имя» и «Количество жильцов» в доме могут не иметь значения («неопределенное значение»). Е.2.1.4 Требования к качеству

Общее требование к качеству должно быть совместимым с требованиями к качеству данных, набор данных должен отвечать всем нижеописанным требованиям к качеству данных.

а)    В наборе данных могут присутствовать только те типы объектов и атрибуты, которые определены в данной спецификации к информационному продукту.

Транспортная сеть:

б)    Максимально два объекта могут быть пропущены для каждого типа объекта.

в)    Максимум два объекта могут быть в избытке для каждого типа объекта.

г)    Максимальное число экземпляров объектов, которые могут быть неправильно классифицированы в качестве другого типа объекта транспортной сети. —два: в качестве других типов объектов — ноль.

86

ГОСТ Р 57773—2017

Здания:

д) Максимально два объекта могут быть пропущены для каждого типа объекта.

в) Максимальное число экземпляров объектов, которые могут быть неправильно классифицированы в качестве остальных типов объектов зданий. — два: в качестве других типов объектов — ноль.

Деревья:

ж)    Максимально пропущено 10%.

з)    Максимально избыточны 10 %.

и)    Максимальный процент деревьев, которые могут иметь неправильную высоту, — 20 %.

к)    Процент экземпляров, которые могут быть неправильно классифицированы в качестве других типов объектов. — 0.

Е.2.2 Представление реального мирз, предметной области и набора данных Отношение между тремя понятиями выглядит следующим образом:

-    рисунок Е.1 представляет «реальный мир», который обычно содержит больше объектов, чем будет содержаться в наборе данных:

-    рисунок Е.2 представляет «предметную область», определенную спецификацией данных: это та часть реального мира, которая должна быть включена в набор данных, если набор данных создан полностью и точно:

•    рисунок Е.Э представляет набор даншх как он есть.

На всех рисунках:

-    цифра или буква, обозначающая диапазон цифр под символом дерева. — это высота дерева в метрах.

-    цифра внутри символа дома — это количество жильцов дома:

•    имена обитателей дома расположены рядом с символом дома.

87

ГОСТ Р 57773—2017

/ i

А 4

д X ь

i Ф

¥ Та

учь 4

Е>

yt

«*>

/ 4

X ипНвт* >S 'В

4

а

СМг

Fmnpin

Утсждеобвынент:

СЬ

-гремтпмиведаам;

а

-доме* ищи м;

4

-а*>т моснЛ огв*>10 «

-даеиже-т*** naewnwe

-троив;

-дарят грунтош

Рисунок Е.2 — Графическое представление предметной области

88

ГОСТ Р 57773—2017

Vbnomu»o6B»w«Kwi:

Р~) -п»имцпп1Т|| «и;

а

~д}м04 имщаис

^ -ОФтмкятдвогблрЮ*

- ящшяс-гщтм гофипме

—— -грате

~Д90Г*'П1мгми

Рисунок Е.З — Графическое представление набора данных

Е.З Процесс оценки качества

Е.3.1 Определение единиц(ы) качества данных

Единица качества данных включает область определения и элемент(ы) качества. В этом примере полнота и тематическая точность оцениваются на соответствие спецификации информационного продукта:

•    первая единица качества включает концептуальную согласованность, полноту (присутствие и отсутствие) и точность тематической классификации, оценка которых проводится во всем наборе данных:

•    две другие единицы качества включают обобщенную концептуальную согласованность, полноту (присутствие игм отсутствие) и точность тематической классификации по транспортным сетям и зданиям:

•    одна единица качества включает точность количественного атрибута, оцениваемую по типу объекта (дерево):

- последняя единица качества включает элементы применимости (общее соответствие требованиям спецификации информационного продукта), оцениваемые по всему набору данных.

Рекомендации по выбору подходящих элементов качества данных приведены в приложении I.

Е.3.2 Определение мер качества данных

Меры, которые используются в этом примере, взяты из списка зарегистрированных мер из приложения О.

Для описания логической согласованности испогъзуют следующие меры:

•    Мера 9. «соответствие концептуальной схемы».

Для описания полноты:

•    Мера 1. «избыточный элемент»:

•    Мера 2. «число избыточных элементов»:

•    Мера 3. «показатель избыточных элементов»:

69

ГОСТ Р 57773—2017

•    Мера 5. «отсутствующий элемент»;

•    Мера б. «число отсутствующих элементов»;

•    Мера 7. «показатель отсутствующих элементов».

Для описания тематической точности используют:

•    Мера 62. «матрица ошибок классификации».

Для описания применимости используют:

•    Мера 101, «принятая спецификация информационного продукта».

Е.3.3 Определение процедур оценки качества данных

В этом примере используется процедура прямой внешней оценки.

В данном примере осуществляется полная проверка.

Примечание — Пример процедуры выборочного контроля дан в Е.5.4.

Е.3.4 Определение оценки качества данных на выходе (Результат)

Е.3.4.1 Выявление ошибок

Сравнивая набор данных (рисунок Е.З) с предметной областью (рисунок Е.2). можно получить перечень ошибок в данном примере набора данных (рисунок Е.4).

Мшшныа обвамнвиис

©

-нпироиабм;

СЬ

а

-ДМС4ЮЫВМС

&

-щто амсотВ от 8 дв W м;

«дарвтотиММ! ггаутви;

-грет

Рисунок Е.4 — Графическое представление местоположения ошибок в наборе данных

Ниже приведен список обнаруженных ошибок с цифрами ошибок, указанных для сравнения.

•    Ошибки присутствия или отсутствия при регистрации деревьев. Три дерева (№ 6. Ne 8. Ne 27} — в избытке, и два дедева отсутствуют (№ 9. N9 25).

•    Ошибки присутствия или отсутствия при регистрации троп. Одна тропа отсутствует (N9 18) и одна находится в избытке (Ne 19).

90

ГОСТ Р 57773—2017

-    Дом заменяет промышленное здание {N9 23).

•    Две тропы ошибочно обозначены в виде дороги (№ 17. № 26).

-    Отсутствует дом (Ne 21).

•    Ошибка атрибута дорог. Две дороги имеют неправильное «состояние» {Ne 29. Ne 28).

•    Два дерева высотой менее 1 м представлены в наборе данных (Ne 6. Ne 8).

•    Отсутствует код класса атрибута высоты дерева. У дерева отсутствует код класса, в то время как в предметной области стоит В (N9 22).

-    Атрибут высоты дерева неправильно классифицирован. У шести деревьев указан неправильный класс высоты.

-    Ошибка атрибута наименования дома «famiy пате» («фамилия»). Дома «van Натте» (Ne 7) и «Негдб» {Ne 1) в предметной области не имеют имени е наборе данных. Дом под названием «Gostinny» в наборе данных {Ne 12) не имеет наименования в предметной области.

-    Ошибка атрибута наименования дома «(amity пате» («фамилия»}. Дома «Franquin» (Ne 5) и «Pratt» (Ne 15) в предметной области идут под именами «Franklin» и «Prat» соответственно в наборе данных.

•    Ошибка атрибута числа жильцов. В одном доме отсутствует атрибут количества жильцов (Ne 31). а в трех домах оно указано неверно (Ne 4. Ne 14. Ne 30).

•    Ошибка типа «пропусж» промышленного здания. Одно промышленное здание отсутствует {Ne 10).

Примечание — Классификация ошибок по отсутствию/лрисутствию. полноте и тематической точности выполнена субъективно.

Например, неправильная классификация дома е качестве промышленного здания также может рассматриваться как ошибка отсутствия одного элемента и присутствие другого.

Е.3.4.2 Логическая согласованность

В наборе данных присутствуют только те типы объектов и атрибуты, которые определены 8 спецификации к информационному продукту.

Результат соответствия концептуальной согласованности см. в таблице Е.2.

Таблица Е.2 — Рвэугъгат соответствия логической согласованности

Область

опреде-

пони»

Элемент качества

Требования с качеству данных

Число оценок

Значение

«даГнет»

Прохож

дение

Набор

данных

Концептуальная

согласованность

В наборе данных могут присутствовать только типы объектов и атрибуты, определенные в схеме приложения

1 (ошибок не обнаружено)

1/0

Да

Е.3.4.3 Полнота Е.3.4.3.1 Общие положения

В этом примере полнота классифицируется в соответствии с классом объекта. Типы мер проверены на присутствие и отсутствие. Результаты представлены в таблицах Е.Э—Е.5.

Е.3.4.3.2 Количественный результат

Таблица Е.З изображает способ классификации полноты посредством количественных значений.

Таблица Е.З — Полнота в соответствии с классом объекта

Класс

объекта

Число экземпляров в предметной области

Количество

избыточных

элементов

Процентное

отношение

иэбыточных

элементов4

Количестео

отсутствующих

элементов

Процентное

отношение

отсутствующих

элементов4

Тропа

7

1

14

3

43

Дорога

5

2

40

0

0

Дерево

25

3

12

2

8

Промышленное

здание

4

0

0

2

50

Дом

10

1

10

1

10

* Процент присутствия = количество присутствующих эпеменгое/количество элементов в предметной области -100.

ь Процент отсутствия {пропусков) = количество отсутствующих эпеменгое/количество элементов в предметной области -100.

91

ГОСТ Р 57773—2017

Е.3.4.3.3 Производный результат соответствия

В таблице Е.4 представлены результаты соответствия, выведенные из количественных результатов.

Таблица Е.4 — Соответствие полноты

Иденти

фикация

оценки

Элемент

качества

Мера

и идентификация меры

Тил объекта

Необхо*

димое

количество

AOL

Ошибки

Совохул*

кость

Про*

хож

дение

1

Присутствие

Избыточный элемент (1)

Тропа

3

2

1

7

Да

2

Отсутствие

Отсутствующий элемент (5)

Тропа

2

2

3

7

Нет

3

Присутствие

Избыточный элемент (1)

Дорога

3

2

2

5

Да

4

Отсутствие

Отсутствующий элемент(5)

Дорога

2

2

0

5

Да

5

Присутствие

Избыточный элемент {1)

Дерево

9

10%

3

25

Кет

6

Отсутствие

Отсутствующий элемент (5)

Дерево

8

10%

2

25

Да

7

Присутствие

Избыточный элемент (1)

Промышленное

здание

6

2

0

4

Да

8

Отсутствие

Отсутствующий элемент (5)

Промышленное

здание

5

2

2

4

Да

9

Присутствие

Избыточный элемент (1)

Дом

6

2

1

10

Да

10

Отсутствие

Отсутствующий элемент (5)

Дом

5

2

1

10

Да

Е.3.4.Э.4 Обобщенный результат соответствия

Результаты соответствия в отношении транспортных сетей (троп и дорог) и зданий (промышленных и жилых) объединены в таблице Е.5 с использованием следующего правила: если один из исходных результатов «непригоден». то обобщенный результат будет «непригоден» (однозначная оценка пригодное!и/нелригодности представлена в приложении J).

Таблица Е.5 — Обобщенное соответствие полноты

Обл есть определения

Элемент

«ячества

Требования к качеству ранных

Количество оценок и идентификация {см. таблицу Е.4)

Значение

•дакнет»

Про*

хожде

ние

Транспортная

сеть

Отсутствие

Максимальное отсутствие для каждого типа объекта — два

2 (оценка N9 2 и 4)

1/1

Нет

Транспортная

сеть

Присутствие

Максимальная избыточность для каждого типа объекта — два

2 (оценка N9 1 и 3)

2/0

Нет

Здания

Отсутствие

Максимальное отсутствие для каждого типа объекта — два

2 (оценка N9 8 и 10)

2/0

Да

Здания

Присутствие

Максимальная избыточность для каждого типа объекта — два

2 (оценка N9 7 и 9)

2/0

Да

Е.3.4.4 Тематическая точность — правильность классификации Е.3.4.4.1 Общие положения

Информация о тематической точности может внести дальнейшую ясность в информацию о полноте. Например. две из трех пропущенных троп на самом деле классифицируются как дороги (см. таблицу Е.6). Результаты представлены в таблицах Е.6—Е.6.

92

ГОСТ Р 57773—2017

Е.3.4.4,2 Количественный результат

Одним из способов отображения ошибок, связанных с тематической точностью, является использование меры «матрица неправильной классификации».

В таблице Е.6 представлена матрица неправильной классификации, показывающая ошибки по классам объекте». Она показывает, насколько верно классифицируются экземпляры в наборе данных. Различные проценты должны всегда относиться к генеральной совокупности в наборе данных.

Примечание — Матрица неправильной классификации представляет собой квадратную матрицу, где (/. /') элемент соответствует количеству экземпляров, отнесенных к классу/, когда на самом деле они принадлежат классу К

Таблица Е.б — Матрица неправильной классификации объектов

Предметная

область

Набор данных

Тропа

Дорога

Дерево

Промышленное

домне

Дом

Итого

Тропа

4

2

0

0

0

6

Дорога

0

5

0

0

0

5

Дерево

0

0

23

0

0

23

Промышленное

здание

0

0

0

2

1

3

Дом

0

0

0

0

9

9

Итого

4

7

23

2

10

46

Расхождение между суммой и числом элементов в предметной области и наборе данных связано с отсутствием и избытком элементов.

Е.3.4.4.3 Производный результат соответствия

В таблице Е.7 представлены результаты соответствия, полученные из количественных результатов.

Таблица Е.7 — Соответствие тематичесхой точности

Иденти

фикация

оценки

Элемент качества

Мера

Тип объекта

Необходимое копим*» с гео

AQL

Число

неверных

класси

фикаций

Про*

хож

дение

11

Корректность тематической классификации

Количество некорректно классифицированных объектов

Тропа

4

2

2

Да

12

Корректность тематической классификации

Количество некорректно классифицированных объектов

Дорога

4

2

0

Да

13

Корректность тематичесхой классификации

Количество некорректно классифицированных объектов

Промышленное

здание

7

2

1

Да

14

Корректность тематичесхой классификации

Количество некорректно классифицированных объектов

Дом

7

2

0

Да

15

Корректность тематичесхой классификации

Количество некорректно классифицированных объектов

Дерево

11

0

0

Да

Е.3.4.4,4 Агрегированный результат соответствия

Результаты соответствия в отношеши транспортных сетей (троп и дорог) и зданий (промышленных и жилых) объединены в таблице Е.8 на основе следующего метода: если один из исходных результатов имеет значение со

93

ГОСТ Р 57773—2017

ответствия «непригоден», то обобщенный результат будет «непригоден» (однозначная оценка лригодности/непри-годности представлена а приложении J).

Таблица Е.8 — Обобщенное соответствие правильности классификации

Область

определе

ния

Элемент качества

Требования к качеству данных

Количество оценок и идентификация (см. таблицу Е.7)

Значе

ние

«да/мет*

Про*

хож*

денио

Транспортная сеть

Корректность тематической классификации

Максимум два экземпляра объекта неправильно классифицированы по каждому типу объекта в виде другого типа объекта Транспортной сети

2 (оценка N? 11 и 12)

2/0

Да

Здания

Корректность тематической классификации

Максимум два экземпляра объекта неправильно классифицированы по каждому типу объекта в виде другого типа объекта Здания

2 (оценка N9 13 и 14}

2/0

Да

Е.3.4.5 Тематическая точность — точность количественных атрибутов Е.3.4.5.1 Общие положения

В этом примере проверяется точность количественных атрибутов. В таблице Е.9 учитываются только те объекты, которые имеют общего предка в том же типе объекта («класс»). Результаты представлены в таблицах Е.9 и ЕЛО.

Е.3.4.5.2 Количественный результат

Атрибут «высота деревьев» представлен в табгыце Е.9.

Таблица Е.9 — Матрица неверной классификации атрибута высоты объектов «высота деревьев»

Предметная облает»

Набор данных

Класс А 1—3 ы

Класс В 3—б м

КлассС 6— 10м

Класс D > 10 ы

Итою

КлассА

3

1

0

0

4

Класс В

1

5

0

0

6

Класс С

0

2

6

2

10

КлассD

0

0

0

2

2

Итого

4

8

6

4

22

У одного дерева отсутствует код класса, и. следовательно, оно не учитывается в матрице ошибок классификации. Данная ошибка может происходить из-за ошибки доменной согласованности.

Е.3.4,5.3 Производный результат соответствия

В таблице ЕЛО представлен результат соответствия, выведенный из количественных результатов. Таблица ЕЛО — Соответствие тематической точности

Элемент

качества

Мера

и идентификация меры

Тип/атрибут

объекта

Необходимое

количество

AOL

Число неверных классификаций

Соаокуп* я ость

Прохож

дение

Точность

количе

ственного

атрибута

Матрица

неверной

классификации

(62)

Класс дерево/ высота

10

20%

6

22

Нет

Е.3.4.6 Применимость — обобщенное соответствие спецификации информационного продукта В таблице Е.11 все результаты соответствия зданий, транспортных сетей и деревьев объединены вместе в соответствии с концептуальной схемой, чтобы обеспечить соответствие спецификации информационного продукта после зарегистрированной меры «принятая спецификация информационного продукта», идентификатор 101 (см. таблицу D.77).

94

ГОСТ Р 57773—2017

Таблица Е.11 — Применимость — соответствие спецификации продукта

Область о предо-леяия

Элемент

качества

Требования к качеству данных

Число оценок

Значение

«да/нет»

Совмести

мость

Набор

данных

Элемент

примени

мости

Общее требование к качеству данных: набор данных должен отвечать всем требованиям к качеству данных в схеме приложения, чтобы быть признанным соответствующим требованиям к качеству данных

11 требований

Ш

(Не прошел требования 2.9 и 10)

Набор данных не соответствует

Е.4 Выдача информации о качестве данных

Е.4.1 Выдача информации в виде метаданных

Е.4.1.1 Общие положения

В разделах Е.4.1.2—Е.4.1.4 приведены примеры того, как выдавать информацию о качестве в виде метаданных согласно настоящему стандарту (раздел 10 и приложение С) и ИСО 19115-1:2013. Так. один экземпляр MD_Metadata включает один или более экземпляров DQ.DataQuality.

В данных примерах некоторые экземпляры классов (DQ_Quality и DQ_Elements) получили идентификатор (ID) в соответствии с принципами XML. Эти идентификаторы используются при ссылке к таким экземплярам в других классах.

Е.4.1.2 Создание отчета о присутствии

В таблице Е.12 показан пример выдачи информации о количественных результатах, производном результате соответствия и агрегированном результате соответствия для типов объектов транспортной сети.

Механизм вывода этих результатов похож на тот. что применяется для других типов объектов из набора данных.

Таблица Е.12 — Создание отчета о присутствии в виде метаданных

XML-элемент

Пример

Комментарии

DQ_DataQuality

I soope: MD_Scope

level: MD_ScopeCode

Набор данных

Область определения этой единицы качества данных

stand aJoneQualrtyReport; DQ_StandaloneQualityREportlnformation

reportReference: CI_Citatoon

Ссылка и описание к са-мостоятельному отчету по качеству

title: CharactecString

Выдача информации в виде самостоятельного отчета по оценке качества (см. Е.4.2)

date: Cl_Date

date: Date

2010-07-05

dateType: CI_DateTypeCode

Создание

abstract: Characterstring

Самостоятельный отчет по качеству. который прилагается к этой оценке качества, представляет более подробную информацию о методах деривации и агрегирования

report: DQ_Commiss»on id = quanUtaUve_cofrwnission

В этом экземпляре избыточности количественный результат представлен для каждого типа объектов меры 2 (число избыточных объектов)

95

ГОСТ Р 57773—2017

Продолжение таблицы Е. 12

XML-элеменг

Пример

Комментарий

measure: DQ_MeasureReference

nameOfMeasure: Characterstring

Количество избыточных элементов

measureldentification: MDJdentifier

code: Characterstring

2

measureDescripbon: CtiaracterString

Количество элементов в наборе данных, которые не должны были в нем находиться

evaluation: DQ_FullInspedion

evaluationMethodType: OO.Evaluation MethodTypeCode

directExtemal

evaluationMethodDescription: Character-String

Сравнение количества элементов е наборе данных с числом элементов е предметной области

result: DQ_QuantitativeResult

Для повышения читав-мости здесь представляется только присутствие троп и дорог, но если областью определения ка-чесгвэ данных является набор данных, то о каж-дом типе объекта долж-на быть представлена информация

I resuttScope: MD_Scope

level: MD.ScopeCode

featureType

leveOescription:

MD.ScopeOescription

I features: GF_FeatureType

Тропа

value: Record

0

valueUnit: UnitOfMeasure

Нет

result: DQ_QuantitatrveResutt

I resuttScope: MD_Scope

level: MD_ScopeCode

featureType

leveOescription:

MD_SoopeOescription

I features: GF_FeatureType

Дороге

value: Record

2

valueUrvt: UnitOfMeasure

Нет

report: DQ_Commiss«on id = conformance_commission

В этом экземпляре избыточности производный результат соответствия предусмотрен для каждого типа объекта для меры 1 (избыточный элемент)

measure: DQ_MeasureReference

nameOfMeasure: Characterstring

Избыточный элемент

measureldentification: MD_ldentifier

code: Characterstring

1

96

ГОСТ Р 57773—2017

Продолжение таблицы Е. 12

XML-эламвнг

Пример

Комментарий

measureDescripbon: Characterstring

Показатель того, что элемент неправильно присутствует в данных

evaluabon: DQ_AggregabonDerivabon

evaluationMethodType: DQ_Evaluation-MethodTypeCode

Прямой

evaluationMethodDescriptron: Character-String

Производная от количественного результата

derivedElement: DQ.EIement

quanlilative_commission

Ссылка на исходные результаты

result: DQ.ConformanceResutt

Производный результат соответствия для избы-точности троп.

Для улучшения читаемо-сти здесь представлена только избыточность троп и дорог, но если об-лестью определения качества данных является набор данных, то о каждом типе объекта долж-на быть представлена информация

I resuttScope: MD_Scope

level: MD.ScopeCode

featureType

leveDescnption:

MD.ScopeOescription

| features: GF_FeatureType

Тропа

I specificatioo: CI_Crtabon

title: Characterstring

Спецификация информационного продукта (см. Е.2.1) требование 2

date: Cl.Oate

date: Date

2010-07-05

dateType: CI_DateTypeCode

Создание

I pass: Boolean

True

result: DQ.ConformanceResult

Производный результат соответствия для избы-точности дорог.

Для улучшения читав-мости здесь представлена только избыточность трот и дорог, но если областью определения качества данных является набор данных, то о каждом типе объ-екта должна быть представлена информация

I resuttScope: MD_Scope

level: MD.ScopeCode

featureType

leveDescription:

MD.ScopeOescription

I features: GF_FeatureType

Дорога

specificatioo: CI_Crtabon

title: Characterstring

Спецификация информационного продукта (см. Е.2.1). требование 2

date: Cl.Oate

date: Date

2010-07-05

dateType: CI_DateTypeCode

Создание

pass: Boolean

true

DQ.DataQuality id = agg_comnvssjon 1

Обобщенный результат соответствия для транспортной сети

97

ГОСТ Р 57773—2017

Окончание таблицы Е. 12

XML-элеменг

Пример

Комментарий

scope: MD.Soope

Областью определения теперь является тип объекта транспортной сети => изменилась единица качества данных. Поэто-му был создан новый экземпляр DO.DataQuality

level: MD_ScopeCode

FeatureType

levelDescription: MD_ScopeOescription

features: GF_FeatureType

Transport Network (дорога и тропа)

report: DQ_Commiss»on

| evaluation: DQ_AggregationDerivabon

Метод агрегирования

evaluationMethodType: DQ_Evaluation-MethodTypeCode

Косвенный

evaluationMethodDescription: Character-String

100-процентное агрегирование значений pass fail результата соответствия по присутствию дорог и троп

evaluationProcedure: CI_Citabon

title: CharacterString Date: CI_Date

Приложение J

date: Date

2010-07-05

dateType: CI_DateTypeCode

Создание

derivedElement: DQ_EJement

conformance_commission

Ссыпка на исходные результаты

result: DQ_ConformanceResutt

I specification: CI_CrtaUon

title: Characterstring

Спецификация информационного продукта {см. Е.2.1}, требование 2

date: CI_Date

date: Date

2010-07-05

dateType: CI_DateTypeCode

Создание

| Pass: Boolean

true

Е.4.1.3 Создание отчета о правильности классификации

В таблице Е.13 приведен пример выдачи информации о производных результатах соответствия и обобщенных результатов соответствия для типа объекта здания.

Механизм вывода этих результатов похож на тот. что применяется для других типов объектов набора данных.

Таблица Е.13 — Создание отчета о правильности классификации в виде метаданных

XML-элемент

Пример

Комментарий

DQ_DataQuality

1 scope: MD_Soope

level: MD_ScopeCode

Набор данных

Область определения этой единицы качества данных

standaloneQualilyReport:

DQ_StandaloneQualityReportln(ormation

98

ГОСТ Р 57773—2017

Продолжение таблицы Е. 13

XML-эламвнг

Пример

Комментарий

reportReference: CI_Citabon

Ссылка и описание к са-мостоятвльному отчету по качеству

title: Characterstring

Выдача информации в виде самостоятельного отчета по оценке качества (см. Е.4.2)

date: CI_Date

date: Date

2010-07-05

dateType: CI_DateTypeCode

Создание

abstract: Characterstring

Самостоятельный отчет по качеству. который прилагается к этой оценке качества, представляет более подробную информацию о методах деривации и агрегирования

report: DQ_ThematicClassificationCorrectness id = conformance_dassificetioa

В этом экземпляре корректности классификации производный результат соответствия представлен для каждого типа объектов меры 60 (количество некорректно классифицированных объектов)

measure: DQ_MeasureRefereoce

nameOfMeasure: Characterstring

Количество некорректно классифицируемых объектов

measuretdentHication: MDJdentifier

| code: Characterstring

60

evaluation: DQ_AggregabonDerivatk>n

evaluatonMethodType: DQ_Evaiuation-MethodTypeCode

Косвенный

evaluationMethodDescription: Character-String

Производная от количественных результатов, представленных в самостоятельном отчете о качестве

standaioneQuatityReporlOetails: Character-String

Исходные количественные результаты описаны в Е.3.4.4.2 самостоятельного отчета о качестве

Ссылка на исходные результаты

result: DQ.ConformanceResuIt

Производный результат соответствия для классификации лромышлен-ных зданий.

Исходный количествен-ный результат намеренно не предусмотрен в метаданных. Он описан в самостоятельном от-чете по качеству.

Атрибут standaloneQuali-tyReportDetaiis дает точную ссылку на исходный результат 8 самостоятельном отчете по качеству

resuttScope: MD_Scope

level: MD_ScopeCode

featureType

level Description: MD_ScopeDescription

I features: GF_FeatureType

Промышленное здание

specification: Ci_Crtation

title: Characterstring

Спецификация информационного продукта {см. Е.2.1), требование 7

99

ГОСТ Р 57773—2017

Продолжение таблицы Е. 13

XML-элвмвиг

Пример

Комментарий

I date: CI_Date

Для улучшения читаемо-сти здесь выдается ин-формация только о присутствии промышленных зданий и домов, но если областью определения качества данных является набор данных, то о каждом типе объекта должна быть представ-лена информация

date: Date

2010-07-05

dateType: CI_DateTypeCode

Создание

explanation: Characterstring

Исходный количественный результат представлен в Е.3.4.4.2 самостоятельного отчета по качеству

pass: Boolean

True

result: OQ_ConformanceResu)t

Производный результат соответствия для при-сутствия промышленных зданий.

Исходный количественный результат намерен-но не предусмотрен в метаданных. Он описан в самостоятельном от-чете по качеству.

Атрибут standaloneQuali-tyReportDetaits дает точную осьшку на исходный результат в самостоятельном отчете по качеству.

Для улучшения читаемости здесь выдается ин-формация только о присутствии промышленных зданий и домов, но если областью определения качества данных является набор данных, то о каждом типе объекта должна быть представ-лена информация

resuttScope: MD_Scope

level: MD.ScopeCode

featureType

levelDescription:

MD_ScopeOescription

I features: GF_FeatureType

Дом

specification: CI_Cilation

title: CharacterStnng

Спецификация информационного продукта (см. Е.2.1). требование 7

date: CI_Date

date: Date

2010-07-05

dateType: Ci_DateTypeCode

Создание

explanation: Characterstring

Исходный количественный результат представлен в самостоя-гегъном отчете по качеству

pass: Boolean

True

DO_OataQuality id = agg_classification2

Обобщенный результат корректности классификации зданий

I Scope: MD.Scope

Областью определения теперь является тип объ-екта здание => изменилась единица качества данных. Поэтому был создан новый экземпляр DQ.DataQuality

level: MD.ScopeCode

FeatureType

levelDescription: MD_ScopeOescripbon

features: GF_FeatureType

Здания (промышленное здание и дом}

report: DO_ThematicClassificationCorTectness

evaluation: DQ.AggregabonDerivation

Метод агрегирования

evaluationMethodType: DQ_Evaluation-MethodTypeCode

Косвенный

100

ГОСТ Р 57773—2017

Окончание таблицы Е. 13

XML-элеменг

Пример

Комментарий

evaluationMethodOescripbon: Character-String

100-процентное агрегирование значений pass fail результата соответствия по присутствию промышленных зданий и домов

Метод агрегирования

evaluationProcedure: CI_CitaUon

title: Characterstring

ЛоиложанивJ

date: Cl.Oate

date: Date

2010-07-05

dateType: CI_DateTypeCode

создание

derivedElernent: DQ_Etement

conformanca_classifkation

Ссылка на исходные результаты

result: DQ.ConformanceResult

specification: CI_Citation

title: Characterstring

Спецификация информационного продукта (см. Е.2.1), требование 7

date: Cl.Oate

date: Date

2010-07-05

dateType: Ci_DateTypeCode

Создание

pass: Boolean

True

Е.4.1.4 Создание отчета о соответствии спецификации информационного продукта с использованием элемента применимости

В таблице Е.14 приведен пример вывода информации о соответствии спецификации информационного продукта путем обобщения результатов для различных потребностей. Используемый элемент качества — применимость.

Таблица Е.14 — Создание отчета о применимости в виде метаданных

XML-элеменг

Пример

Комментарий

DQ_DataQuality

I scope: MD.Scope

level: MD_ScopeCode

Набор данных

standatoneQualityReport: DQ_StandaloneQuaii tyReportlnformation

Ссылка и описание к прилагаемому самостоя-тельному отчету по качеству

report Reference: CI_Citation

title: CharacterStnng

Выдача информации в виде самостоятельного отчета по оценке качества (см. Е.4.2)

date: CI.Date

date: Date

2010-07-05

dateType: CI_DateTypeCode

Создание

abstract: Characterstring

Самостоятельный отчет по качеству. который прилагается к этой оценке качества, представляет более подробную информацию о применяемой оценке и полученных результатов

101

ГОСТ Р 57773—2017

Продолжение таблицы Е. 14

XML-элвмвиг

Пример

Комментарий

report: OQ_UsabitityE>ement

Данный элемент используется для вывода информации о соответствии набора данных спецификации информационного продукта

measure: DO_MeasureReference

nameOfMeasure: Characterstring

Прошедшая спецификация информационного продукта

measuretdentification: MOJdentifier

I code: Characterstring

101

measureDescription: CharacterStnng

Показатель two. что все требования. упомянутые а спецификации продукта данных, выполнены

evaluation: DQ_AggregationDerivabon

evaluationMethodType: DQ_EvaJuation-MethodTypeCode

Косвенный

evaluationMethodDescripbon: Character-String

100-процентное агрегирование значений pass fail результата соответствия для требования, обозначенного в спецификации информационного продукта

evaluationProcedure: CI_C4abon

title: Characterstring

Приложение J

date: CI_Date

date: Date

2010-07-05

dateType: Ci_DateTypeCode

Создание

standatoneOuatttyfieportOetails: Character-String

Исходные результаты описаны в Е.3.4.2. Е.3.4.3.4, Е.3.4.4.4 и Е.3.4,5.3 самостоятельного отчета по оценке качества

Ссылка на исходные результаты в самостоятельном отчете качества {результат соответствия концептуальной согласованности. результат соответствия точности количественных атрибутов для высоты деревьев...)

derivedElement: DQ_Element

agg_commissk>n 1

Ссыпса на обобщенный результат соответствия присутствия транспортной сети, ранее описанный в метаданных

derivedElement: DQ_Etement

т

Ссылка на обобщенный результат соответствия присутствия зданий, ранее описанный в метаданных

102

ГОСТ Р 57773—2017

Окончание таблицы Е. 14

XML-эламвнг

Пример

Комментарий

derivedElement: DQ.EIement

m

Ссыпка на обобщенный результат соответствия присутствия деревьев, ранее описанный в метаданных

derivedElement: DQ.Element

Ссылка на обобщенный результат соответствия отсутствия транспортной сети, ранее описанный в метаданных

derivedElement: DQ_EJement

Ссылка на обобщенный результат соответствия отсутствия зданий, ранее описанный в метаданных

derivedElement: DO_Element

m

Ссылка на обобщенный результат соответствия отсутствия деревьев, ранее описанный в метаданных

derivedElement: DQ_Etement

m

Ссылка на обобщенный результат соответствия корректности классификации транспортной сети, ранее описанный в метаданных

derivedElement: DQ_E1ement

agg_ciassi6cabon2

Ссылка на обобщенный результат соответствия корректности классификации зданий, ранее описанный в метаданных

derivedElement: OQ.Bement

(id)

Ссылка на обобщенный результат соответствия корректности классификации деревьев, ранее описанный в метаданных

result: DQ.ConformanceResult

specification: Cl_Citation

title: CharacterStnng

Спецификация информационного продукта {см. Е.2.1)

date: CI_Oate

date: Date

2010-07-05

dateType: Cl_DateTypeCode

Создание

explanation: CharacterStnng

Не выполняются 3 из 11 требований: набор данных не соответствует

pass: Boolean

False

103

ГОСТ Р 57773—2017

Е.4.2 Создание самостоятельного отчета о качестве

Структура самостоятельного отчета о качестве имеет свободную форму. В Е.2 и Е.Э даны примеры самостоятельного отчета о качестве.

Е.5 Дополнительные примеры

Е.5.1 Общие положения

Некоторые понятия не были описаны в предыдущем примере. В разделах Е.5.2—Е.5.4 даны дополнительные примеры вывода информации об описательном результате, мегакачестве и процедурах выборочной оценки. Некоторые понятия не были описаны в примерах Е.4.

Е.5.2 Выдача информации об описательных результатах в виде метаданных

Иногда невозможно представить оценку элемента качества данных в количественном виде. В таких случаях используется описательный результат. Пример описатепьшх результатов в виде метаданных приведен в таблице Е.15.

Таблица Е.15 — Создание отчета об огысательных результатах в виде метаданных

XML-элемент

Пример

Комментарии

OQ_OataOualHy

scope: MD.Scope

level: MD_ScopeCode

Набор данных

Набор данных описывает археологические объекты

report: DQ.RelativelntemalPositionatAccu-racy

evaluation: DQJndirectEvaluation

evaluation MethodType: DQ.EvaluationMethodTypeCode

Косвенный

evaluationMethodDescription: Characterstring

Сравнение абсолютной позиционной точности археологических объектов и абсолютной позиционной точности рек

deduct! veSou rce: Characterstring

Позиционная точность рек вблизи археологического лагеря

I result: DQ.DescriptiveResutl

statement: Characterstring

Относительная позиционная точность между археологическими объектами и ртами выше, чем абсолютная позиционная точность археологических объектов (5 м)

Е.5.3 Создание отчета о метакачестве в виде метаданных

При оценке абсолютной позиционной точности в топологическом исследовании на месте археологических раскопок результат точности составляет 5 м.

Определение качества оценки затем проводится с помощью элемента доверительного метакачества, для которого применяется мера «Фактор безопасности».

В таблице Е.16 представлена выдача информации о метакачестве в виде метаданных.

Таблица Е.16 — Создание отчета о метакачестве в виде метаданных

XML-элемент

Пример

Комментарии

DQ.DataQuality

scope: MD.Scope

| level: MD.ScopeCode

Набор данных

104

ГОСТ Р 57773—2017

Продолжение таблицы Е. 16

XML-эламвнг

Пример

Комментарий

report: DQ_AbsolutExtemalPositionalAccuracy id = positionalaccuracyl

Отчет об абсолютной позиционной точности.

Идентификатор (id) при-сваивается элементу качества данных для аоэ-момсности ссылаться на него в следующем эле-менте метакачества.

Все дополнительные атрибуты не были здесь заполнены

measure: DQ_MeasureReference

nameOfMeasure: CharacterString

Средняя квадратическая ошибка

measureldentificabon: MDJdentifier

1 code: Characterstring

39

measureDescription: Characterstring

Стандартное отклонение, где истинное значение не оценивается по наблюдениям. а известно априори

1 evaluation: DQ_Fultlnspectk>n

evaluationMethodType: OO.Evaluation MethodTypeCode

directExtemal

evaluationProcedure: CI_Citabon

title: CharacterString

Процедура оценки качества данных IGN

date: CI_Date

date: Date

1995-02-09

dateType: Ci_DateTypeCode

Создание

I result DQ_Ouant(tativeResult

value: Record

5

valueUnit: UnitOfMeasure

Метр

1 report: DQ.Confidence

Отчет о метакачестве (oonfidenoe). связанный с предыдущим отчетом о качестве

relatedEiement: DQ_Element

postlionalaccuracy 1

measure: DQ_Measure Reference

nameOfMeasure: Characterstring

Фактор безопасности

measureldentification: MDJdentifier

code: CharacterString

1

authority: Ct_Citation

title: CharacterString

Меры IGN

date: CI.Date

date: Date

1995-01-01

dateType: CI_DateTypeCode

Создание

measureDescription: CharacterString

Соотношение между классом точности элементов оценки и классом точности, которое должно быть получено в наборе даншх

evaluation: DQ_Fulllnspection

105

ГОСТ Р 57773—2017

Окончание таблицы Е. 16

XML-эламвнг

Пример

Комментарий

evaluationMethodType:

DQ_EvaluationMethodTypeCode

directExtemal

evaluationMethodDescripbon

Чем выше «фактор безопасности». тем достовернее оценка. Для проверки оценки кфакгор безопасности» должен быть выше 2

evaluationProcedure: CI_Citat«on

tide: Characterstring

Аггё№ 2003 (Законодательство Франции)

date: CI_Date

date: Date

2003

dateType: Ci_DaIsTypeCode

Публикация

result: DQ_Quantitative Result

value: Record

2.4

valueUnit: UnitOfMeasure

Е.5.4 Как выдавать информацию о процедуре выборочного контроля

За основу примера взята топографическая БД (ТБД) европейского Национального управления земельной сьемки.

Уровень соответствия качества установлен в спецификации к информационному продукту.

В данном примере тип объекта «дорога» оценивается посредством выборочной оценки.

Процедура выборки проходит с использованием принципов [14], как описано в таблице Е.17.

Таблица Е.17—Процедура выборочного контроля

Этап процесса

Пример

Определение метода выборки

Многоступенчатый отбор. Отбор достаточного количества единиц для выполнения выборочного отношения. Отбор осуществляется на основе взвешенных объектов

Определение элементов

Все объекты

Разделение области определения качества данных (совокупности) на партии

Некоторое количество наборов данных

Разделение партий на единицы выборки

1Ч-число квадратов 1 х 1 км

Определение доли выборки или объема выборки

Объем выборки зависит от значения AQL для этой партии

Отбор единиц выборки

Отбор необходимого количества единиц выборки, чтобы было выполнено выборочное отношение или достигнут требуемый объем выборки в элементах

Контроль элементов е единицах выборки

Контроль каждого элемента в единицах выборки

Если требования к качеству объекта — 1 несоответствие на 100 единиц (AQL = 1), то все собранные объекты проверяются из источника данных. Проверка выборочным контролем производится при AQL в диапазоне от 4 или 15.

Контролируемая партия для тестирования должна состоять из наборов данных, которые созданы по возможности в одно время и с использованием одинаковых методов. Из партии единицы выборки, состоящей из N-количесгва квадратов размером 1x1 км2, выбираются таким образом, чтобы одело объектов в выборке было достаточным для AQL » 4. В таблице Е.1В показан пример того, как выдавать информацию о процедуре выборочного контроля в виде метаданных.

106

ГОСТ Р 57773—2017

Таблица Е.18 — Выдача информации о процедуре выборочного контроля в виде метаданных

XML-элемвнг

Пример

DQ.DataQuaiity

1 scope: MD.Scope

level: MD_ScopeCode

Тип объекта

leveJDescription: MD_ScopeDescripbon

features: GF_FeatureType

Дорога

1 report: DQ_Commiss«on

measure: DQ.MeasureReference

nameOfMeasure: Characterstring

Количество избыточных элементов

measure Identification: MDJdentifier

1 code: CharacterSIring

2

measureOescripbon: Characterstring

Количество элементов в наборе данных, которые не должны присутствовать в наборе данных

evaluation: DQ_SampleBasedlrvspectxxi

evaluationMethodType:

DQ_EvaluationMethodTypeCode

directExternal

evaluationMethodOescripbon: Character String

Многоступенчатый отбор. Отбор необходимого когычестэа единиц выборки для выполнения соотношения выборки. Отбор выборки осуществляется на основе взвешенных объектов

evaluationProcedure: CI_Citai»n

title: Characterstring

Приложение F

date: CI_Oate

date: Date

2010-07-05

dateType: CI_DateTypeCode

Приложение

referenceOoc: CI_Citation

title: Characterstring

114]

date: C1_Date

date: Date

1999-11-18

dateType: Ci_DateTypeCode

Публикация

lotDescription: Characterstring

Партия — это группа БД (лист карты масштаба 1:10 000), которые отбираются для контроля. Размер подтип — это количество объектов в партии.

Все дороги в наборе данных (одна партия для всего набора данных)

sampfingScheme: Characterstring

Из партии отбирается область из множества квадратов 1 х 1 км таким образом, что количество дорог в выборке по крайней мере такое же. как требует AQL = 4

samplingRatio: Characterstring

В среднем область, включающая форматные листы (16 баз данных) с 6—10 квадратами (1x1 км), рекомендуется в качестве практического размере партии

107

ГОСТ Р 57773—2017

Приложение F (справочное)

Методы выборочной оценки

F.1 Введение

Данное приложение содержит рекомендации по определению выборки и разработке методов выборочного контроля. Для формирования выборки при оценке соответствия спецификации информационного продукта могут применяться стандарты ГОСТ Р ИСО 2859. ГОСТР ИСО 3951-1. Эти стандарты изначально были разработаны для непространственного использования. В настоящем приложении описывается, как применять методы выборочного контроля стандартов серии ГОСТ Р ИСО 2859 и ГОСТ Р ИСО 3951-1. а также другие методы пространственной выборки для пространственных данных.

F.2 Партия и элемент

Партия и элемент являются важными понятиями в методе выборочного контроля согласно серии ГОСТ Р ИСО 2859 и ГОСТ Р ИСО 3951-1. Партия — это минимальная единица продукции, для которой мажет быть оценено качество. Элемент — это минимальная единица, которая должна быть определена разработчиком данных в соответствии со спецификацией информационного продухта.

F.3 Объем выборки

Объем совокупности, а следовательно, и объем выборки могут оцениваться в зависимости от различных базисов к элементам. Определение объема выборки требует точного выявления элементов. Примеры различшх базисов даны в таблице Е.1.

На рисунке Е.1 показана разница между проекциями. Вся фигура представляет данные в области определения качества данных. Фигура изображает возможную площадь выборки из приблизительно 15 % общей площади области определения качества дажых. тогько около 10 % от длины кривой в области определения выборки и 0 % вершин.

Чтобы избежать проблеме выборкой, представленных на рисунке F.1. необходимо определить объем и расположение выборки с использованием комбинации различных критериев, при этом улучшается репрезентативность выборки.

Пример — выборка включает 10 % площади, охваченной набором данных, и содержит не менее 5 % общей длины дорог в наборе данных.

Таблица F.1 — Различные базисы для определения совокупности

Базис

Размер набора данных

Объем выборки

Объекты

Количество объектов данного типа

Количество объектов данного типа, выраженное в процентах от общего количества объектов

Охваченная

область

Область, покрытая набором данных

Площадь, покрытая выборкой и выраженная е процентах ог общей площади

Кривые

Общая длина кривых в наборе данных

Длина выборочных кривых, выраженная в процентах от общей длины

Вершины

Общее количество вершин, описывающих кривые или области в наборе данных

Количество вершин в выборке, выраженное в процентах от общего количества вершин

Рисунм F.1 — Влияние местоположения обнести выборки

на репрезентативность элементов в выборке

Примечание — Область определения качества данных — это область внутри большого квадрата. Область выборки отмечена темным квадратом.

108

ГОСТ Р 57773—2017

F.4 Стратегии создания выборки F4.1 Введение

В данном разделе приводятся рекомендации для определения выборок и выборочных методов с учетом конкретных аспектов пространственных данных. Стратегии выборочного построения, описанные 8 настоящем приложении. представлены в графической форме на рисунке F.2. Различают два аспекта стратегии создания выборки: определение элементов для выборки (область или объект} и способ, с помощью которого происходит отбор элементов (случайный или преднамеренный).

Компоненты выверенной отрвгогои

И

Олрвпелмю осмофпеати

Процедуре выверенного вентро™

| ИЛИ |

ив основе пространства» юго «основе ршаптттт    объектов

I ИЛИ I Эваммыв Генерированные ofrtacm обтает

ИМ

Вероятностная ш Верее

СлркАнм выборм

| или

или |

престя сертфмци- пмгу-Елучвйоя ровкннвя случаАмя троогвя

Рисунок F.2 — Отношения стратегий создания выборки

F.4.2 Вероятностная и детерминированная выборка

F.4.2.1 Различия

Вероятностная выборка применяет теорию выборочного метода и включает случайный выбор элементов выборки. Существенной характеристикой вероятностной выборки является то, что каждый компонент совокупности, из которой формируется выборка, имеет известную вероятность выбора. При случайной выборке можно делать статистические выводы о выборочной совокупности. Составление преднамеренной выборки сопряжено с отбором выборок на основе экспертных знаний или профессиональной оценки.

F.4.2.2 Простая случайная выборка

Простая случайная выборка основана на вероятности и включает в себя составление выборки в случайном порядке. Конкретная выборка (например, объекты, положение, время) осуществляется с помощью случайных чисел для отбора элементов, при этом любой выбор равновероятен. Простая случайная выборка применяется, когда генеральная совокупность является довольно однородной относительно характеристик отбираемых образцов, т. е. не содержит больших пропусков и скоплений. Данный метод не может привести к репрезентативному охвату области. т. е. существует вероятность, что полученная выборка будет содержать только часть области.

F.4.2.3 Стратифицированная случайная выборка

Стратифицированная выборка требует, чтобы генеральная совокупность была разделена на не пересекающиеся слои или подсовокупности, которые являются более однородными по элементам выборки в одном слое, чем в разных слоях. Данная стратегия выборки перспективна для получения большей точности в определении средней и дисперсии, чем не стратифицированная для той же совокупности.

F.4.2.4 Полуслучвйная выборка

Полуслучайная или систематическая выборка подразумевает случайный отбор исходных элементов выборки (например, положение, время, объект) и правила для отбора всех остальных элементов. Примером попуслу-чайной или систематической выборки служит решетчатая выборка, где начальное положение сетки определяется случайным образом, а образцы берутся через равные промежутки (ячейки сетки) пространственной области. Систематическая решетчатая выборка используется для поиска кластеров и вывода средних значений, проценте» или других параметров и подходит для оценки пространственных тенденций или закономерностей. Данный метод предоставляет практичный и легкий способ обеспечения покрытия области.

F.4.3 Выборка на основе объектов и выборка на основе их пространственного расположения

F.4.3.1 Формирование выборки на основе объектов (нелространсгэенная выборка)

Особенностью данной выборки является отбор элементое выборки на основе непросгранственных атрибутов объектов, а не на их пространственном расположении. Выбор объектов в пределах области определения качества данных может производиться в случайном порядке при одинаковых условиях создания данных для всей области определения качества данных. В некоторых случаях в результате простой случайной выборки можно не

109

ГОСТ Р 57773—2017

получить удовлетворительной выборки в силу того, что однородность может быть выявлена только для л од наборов. и тогда потребуется равномерное распределение выборок: т. е. пропуски и скопления встречаются в выбираемых характеристиках. В этом случае стратифицированная или полуспучайная выборки могут дать лучшие результаты.

Примечание — Если формирование выборки осуществляется путем случайного выбора объектов, то существует риск получения выборки, сосредоточенной на малой площади (которая может быть неприемлема).

Полуспучайная выборка может использоваться, чтобы гарантировать контроль различных критериев по объему выборки и/или расположена), ограниченных необходимостью сократить затраты на проведение контроля.

Пример — Энергетической компании необходимо оценить правильность атрибутов, определяемых для объектов различных типов. Были рассмотрены два метода: случайный и полуслучайный отбор (произвольный выбор объектов одного типа, а затем сбор объектов различных /полое в соседстве с первым до заполнения выборки каждого типа), которые способствовали снижению затрат на контроль в процессе эксплуатации.

F.4.3.2 Формирование выборки на основе пространственного распределения (пространственная выборка)

В рамках данной выборки отбор единиц выборки основан на пространственном распределении. Элементами выборки могут выступать существующие географические единицы (например, политические или статистические) или другие объекты или компоненты объектов предметной области, для которых проводится контроль. Данный тип формирования выборки может использоваться в качестве первого этапа выборки с последующим использованием метода формирования выборки на основе объектов в пределах каждой подобласти.

Пример — Случайный выбор UTM области координатной сетки 1 х 1 км для того, чтобы оценить атрибуты объектов, содержащихся е этой области.

Рисунок F.3 иллюстрирует результат определения областей, которые будут представлены для проверки, полученных путем случайной генерации координат центральной точки квадратов равной площади (неперекрывающиеся).

Рисунок F.3 — Пример выборки на основе пространственного распределения

Когда особое значение имеет покрытие всей площади, то местоположение выборки следует определять в соответствии с регулярной или полурегулярной сеткой. Рисунок F.4 иллюстрирует пример полуслучайной (систематической) выборки с выборочными объектами, распределенными вдоль регулярной сетки для оценки позиционной то«*юсти набора данных.

Примечание — «X» обозначает ячейки сетки, выбранные в соответствии с правилом для включения в выборку.

Рисунок F.4 — Пример регулярной или случайной выборки на основе пространственного распределения

110

ГОСТ Р 57773—2017

Пространственное позиционирование с различным объемом в различных областях набора данных может быть необходимо в лолуслучайной выборке, если распределение объектов неоднородно. При использовании сетки с постоянным размером ячейки необходимо правило для включения или исключения клеток, которые не представляет интереса.

F.5 Вероятностная выборка

F.5.1 Общее представление

При применении выборки необходимо учитывать следующее:

а)    области, охватываемые географическим набором данных, могут образовывать непрерывное пространство. При разделении набора данных на партии особое внимание должно быть уделено присутствию или отсутствию элементов, проходящих через границы партии:

б)    ряд факторов, включая качество исходных данных и мастерство операторов, могут повлиять на качество пространственных данных. Разработчикам данных необходимо проявлять осторожность при определении партии для получения однородности в контексте обеспечения качества.

F.5.2 Существующий стандарт выборочного контроля

F.5.2.1 Общие положения

Исходя из особенностей разработки и в соответствии со спецификацией информационного продукта для проведения выборочного контроля должны использоваться соответствующие существующие стандарты. Например. ГОСТ Р ИСО 2859-1 применим в первую очередь для контроля непрерывной серии партий. Для индивидуальных партий подходит ГОСТ Р 50779.72. а для процедур выборочного контроля независимо от партий применяется ГОСТ Р ИСО 2859-3. ГОСТ Р ИСО 3951-1 применяется при контроле по количественным переменным для определения процента несоответствующих элементов продукции.

Уровень соответствия качества набора данных указывается как AQL в соответствии с ГОСТ Р ИСО 3951 -1.

Для определения соответствия каждого элемента должны быть определены допуски спецификации при применении ГОСТ Р ИСО серии 2859 и ГОСТ Р 50779.72. При применении ГОСТ Р ИСО 3951 -1 статистические показатели качества следует указывать на основе спецификации информационного продукта.

F.5.2.2 Полезные таблицы на основе этих стандартов — объект выборки и пределы отбраковки

F.5.2.2.1 Общие положения

При выборочном контроле оцениваемый отсутствующий показатель нельзя непосредственно сравнить с AQL. Таблицы Е.2 и F.4 определяют основные указания по объему выборки в зависимости от объема набора данных. а также связанного предела отбраковки.

F.5.2.2.2 Оценка соответствующих/несоответствующих элементов с учетом выборки

В таблице Е.2 ниже представлен рекомендуемый объем выборки в соответствии с генеральной совокупностью и связанный предел отбраковки для оценхи соответсгвующих/несоответствующих элементов, например для оценки полноты. Она основана на типергеометричесхом распределении (ссылка (20]). Предполагается, что отклонения соответствуют этому распределению.

Как пользоваться таблицей:

а)    выбрать объем совокупности элемента для проверки:

б)    выбрать объем выборки (л) из таблицы:

е) произвести оценку и рассчитать количество «ошибочных элементов»:

г) вся совокупность бракуется, если количество ошибок рвано или превышает предел отбраковки для фактического л и Pq (AQL).

Таблица F.2 — Статистические показатели соогаетствия/нвсоответствия элементов при 95-процен гном уровне значимости

Объем совокупи ости

ра«

0.6%

1.0 4

2.0 %

3.0%

4.0%

5.0%

От

До

Объем выборки (я)

Уровень отбраковки

1

8

Все

1

1

1

1

1

1

9

50

8

1

1

1

2

2

2

51

90

13

1

1

2

2

2

3

91

150

20

1

2

2

3

3

4

151

280

32

1

2

3

3

4

4

281

400

50

2

3

3

4

5

б

401

500

60

2

3

4

5

6

7

111

ГОСТ Р 57773—2017

Окончание таблицы F.2

Объем совокупности

Ра*

0.5%

t.0%

2.0 %

3.0 %

4.0%

6.0%

о>

До

Объем выборки (л)

Уровень отбраковки

501

1200

80

3

3

5

6

7

8

1201

3200

125

3

4

6

в

10

11

3201

10 000

200

4

6

8

11

14

16

10001

35 000

315

5

7

12

16

20

23

35001

150000

500

6

10

16

23

28

34

150 001

500000

800

9

14

24

33

42

51

>500000

1250

12

20

34

49

63

76

Примечания

1    Если объем выборки выше, чем минимальный объем, приведенный в таблице, то предел отбраковки следует рассчитывать индивидуально. Данная проверка справедлива для ситуаций, когда оценка качества основана на оценке пригодности/непригодности элементов.

2    Существуют другие диапазоны статических значений, помимо представленных в таблице Е.2.

Пример — Проверка отсутствующих домов (лолнота/отсутствие) в определенной области.

Первая область выборки выбрана и в этой области проверен каждый дом на предмет его присутствия или отсутствия в наборе данных. Далее оценивается (подсчитывается) число отсутствующих домов и их общее количество. Вопрос в следующем: значительно ли полученный результат отличается от предела приемлемого качества (AQL)? Если да. то набор данных бракуется. Если нет. то набор данных принимается.

Набор данных для проверки состоит из 2440 зданий.

Объем выборки (из таблицы Е.2) - п - 125. Контроль по полю показывает, что пропущены 2 здания, выдавая примерный процент отсутствия: 2/(125 + 2) • 100 % = 1.6 %.

AQL (из специфмсации информационного продукта для набора данных): рй = 0.5 %.

1.6% больше чем 0.5 %. но есть ли вероятность отбраковки набора данных? В случае применения выборки полученный показатель отсутствия нельзя непосредственно сравнивать с AQL. Для этого необходима односторонняя проверка гипотез, и в этом помогает таблица F2..

Предел отбраковки (W= 125.    0.5%) равен 3. В результате полевого контроля обнаружены 2 пропущенных

элемента.

Заключение: так как 2 меньше, чем 3 (предел отбраковки), набор данных не может быть отклонен и принимается.

F.5.2.2.3 Стандартное отклонение

В таблице F.4 представлен рекомендуемый объем выборки в соответствии с объемом совокупности, а также связанный предел отбраковки при измерении стандартного отклонения.

Данный статистический метод применяется для определения того, превышено ли стандартное отклонение для выборки AQL. Приведенная ниже таблица F.4 основана на нормальном распределении и предполагает нор-магъное распределение отклонений.

Символы и формулы к таблице F.4 представлены в таблице F.3.

Таблица F.3 — Символы и формулы

Стандартное отклонение, определенное на основе выборки

S

Объем выборки

л

AQL для стандартного отклонения

П

F (из F-распределения)

р005.в-«.»

Доверительный интервал

4-sJF

Стандартное отклонение превышено, если:

S

<Т<-7-

W

112

ГОСТ Р 57773—2017

Набор данных не отвечает требованиям (т. е. может быть отклонен при значимости 95 %), если стандартное отклонение, разделенное на F-значение (взято из таблицы F.4), выше, чем AQL.

Таблица F.4 —Статистические показатели проверки стандартного отклонения. Уровень значимости 95 %

Объ«ы совокупности

Обьеы выборки (о)

1^0.05. П -1 -

От

До

26

50

5

1.54

51

90

7

1,45

91

150

10

1.37

151

260

15

1.30

261

400

20

1.26

401

500

25

1.23

501

1200

35

1.20

1201

3200

50

1.16

3201

10 000

75

1.13

10 001

35 000

100

1.12

35 001

150000

150

1.09

150001

500 000

200

1.08

>500 000

200

1.08

Пример — Оценка позиционной/абсолютной точности крышек люкое.

В наборе данных из 450 крышек люков измеряются 25 (объем выборки п = 25). Приблизительное стандартное отклонение 21 см. приемлемый уровень качества (AQL) = 19 см.

Нижний предел доверительного интервала = 21 см М.23 (из таблицы F.4) = 17.1 см. AQL (19 см) находится в пределах доверительного интервала стандартного отклонения.

Вывод: стандартное отклонение по контролю не является значительно выше, чем AQL. и набор данных не может быть отбракован.

F.5.3 Процесс составления выборки

F.5.3.1 Определение элементов

Элементы необходимо определять в соответствии со спецификацией информационного продукта или требований. Если несоответствующие элементы статистически согласованы, то они обрабатываются как один элемент.

F.5.3.2 Определение областей определения качества контролируемого набора данных

Если область определения качества рангах не является однородной, то их следует разделить на однородные поднаборы. Эти однородные поднаборы следует рассматривать как отдельные области определения качества данных.

Однородность мажет быть выведена там. где выполняются следующие условия:

-    исходные данные продукции имеют почти одинаковое качество:

-    системы производства данных (оборудование, программное обеспечение, квалификация оператора) практически не отличаются:

• другие факторы, которые могут повлиять на вероятность появления несоответствий, такие хак сложность и плотность объектов, практически не отличаются.

F.5.3.3 Разделение области определения качества данных на партии

Генерирование партий осуществляется путем деления областей определения качества данных. При сильной положительной пространственной автокорреляции возникновения несоответствий предпочтительнее использовать меньший объем партии.

F.5.3.4 Разделение партий на единицы выборки

Единицей выборки может быть существующий географический район или другое разделение предметной области. для которой проводится проверка. Когда единицей выборки служит географическая область, то необходимо применять правила для частичного включения единиц продукции в единицу выборки.

113

ГОСТ Р 57773—2017

F.5.3.5 Отбор единиц выборки с помощью простой случайной выборки для проверки

Общее число элементов, которые относятся к выбранным единицам выборки, следует устанавливать в соответствии с актуальными международными стандартами.

Примечание — Если партия является статистически гетерогенной, то применение простой случайной выборки с тем же уровнем выборки недопустимо. ИСО серии 2859 дополнительно предусматривают использование стратифицированной выборки.

F.5.3.6 Контроль выбранных единиц выборки

Все элементы, которые принадлежат отобранным единицам выборки, подвергаются проверке. Элементы в наборе данных сравниваются с предметной областью в соответствии с выбранной мерой качества.

114

ГОСТ Р 57773—2017

Приложение G (обязательное)

базовые меры качества данных

G.1 Цель базовых мер качества данных

Понятие базовой меры качества данных вводится в настоящем стандарте с целью предотвращения повторного определения одного и того же понятия. Существуют меры качества данных, которые имеют определенную схожесть. Например, счетные меры качества данных работают по принципу подсчета ошибок. Число ошибок может испогъзоваться для создания различного рода мер качества данных. Концепция построения этих мер качества данных направлена на обобщение базовых мер качества данных, которые используются для создания мер качества данных, разделяющих эту общность.

Можно выделить меры подсчета и неопределенности качества данных. Поэтому в данном приложении приведены две принципиальные категории базовых мер качества данных. Счетные меры качества данных основаны на концепции подсчета ошибок или правильных элементов. Меры неопределенности в обеспечении качества данных основаны на концепции моделирования неопределенности измерений с помощью статистических методов. Измеряемая величина может лежать в разных размерностях. В зависимости от размерности измеряемой величины применяются различные типы базовых мер качества данных для создания мер качества данных.

G.2 Базовые меры качества данных, связанные с подсчетом

Базовые меры качества данных, основанные на различных методах подсчета ошибок или количества правильных значений, приведены в таблице G.1.

Таблица G.1 — Базовые меры качества данных для измерения качества данных, связанного с подсчетом

Имя базовой меры качество данных

Определение базовой меры хдчестев денных

Пример

Тип эпачени» качества даниы*

Error indicator

Показатель того, что элемент ошибочный

False

Boolean (если значение «true» элемент неправильный)

Correctness

indicator

Показатель того, что элемент правильный

Tree

Boolean (если значение «true» элемент правильный)

Error count

Общее количество элементов, которые являются предметом ошибки указанного типа

11

Integer

Correct items count

Общее количество элементов, которые свободны от ошибки указанного типа

571

Integer

Error rate

Количество ошибочных элементов по отношению к общему количеству элементов, которые должны присутствовать

0.0189

Real

Correct items rate

Количество правильных элементов по отношению к общему количеству элементов, которые должны присутствовать

0.9811

Real

Примечания

1    Показатель ошибок может быть представлен е процентах или как отношение. Единица значения в количественном результате (см. 7.5.4.2) может быть использована для указания того, в каком виде представлен результат в процентах или как отношение.

2    Показатель правильных элементов мажет быть представлен в процентах или как отношение. Единица значения 8 количествненном результате (см. 7.S.4.2) может быть использована для указания того, в каком виде представлен результат в процентах или как отношение.

Примечание — Количество элементов определяется по числу элементов в предметной области набора данных, заданных областью определения качества данных.

Пример — Применение числа элементов из реального мира или эталонного набора данных.

115

ГОСТ Р 57773—2017

6.3 Базовые меры качества данных, связанные с неопределенностью

6.3.1    Общие положения

Числовые значения, получаемые в результате измерения, можно производить только до определенной точности. Принимая измеряемую величину в виде случайной величины, данную неопределенность можно измерить количественно. Для определения базовых мер качества данных, связанных с неопределенностью, используют различные способы описания неопределенности посредством статистических методов.

Статистические методы, используемые для определения мер качества данных, связанных с неопределенностью. основаны на следующих предположениях:

•    неопределенность является однородной для всех наблюдаемых значений;

•    наблюдаемые значения не являются коррелированными:

•    наблюдаемые значения имеют нормальное распределение.

6.3.2    Одномерная случайная величина Z

Для измеряемой ветчины невозможно определить истинное значение. Но можно найти вероятность истинного значения в пределах определенного интервала. Этот интервал называется доверительным интервалом. Он представлен вероятностью Р истинного значения, находящегося между нижним и верхним пределами. Величину Р также называют уровнем значимости

Р {нижний предел £ истинное значение £ верхний предел) = Р.

Если стандартное отклонение о известно, то пределы задаются квантилями и нормального (Гауссова) распределения

P(z, - и - а £ истинное значение £ zt + и - о) - Р.

См. также таблицу 6.2.

Таблица G.2 — Связь между квантилями нормального распределения и уровнем значимости

Вероятность Р. %

Квантиль

£э>овав мара качества данных

Имя

Тип значение качества данных

Р-50

^50% = 0,6745

"аО %' а2

LE50

Мера

Р- 68.3

иве.э % = 1

um.i%'az

LE68.3

Мера

Р = 90

«и*-1-645

°90 %'а2

LE90

Мера

Р = 95

^*=1.960

"96 % ■ aZ

LE95

Мера

Р = 99

"99= 2.576

°99 % ■ °2

LE99

Мера

Р * 99.8

"99.6 * “ 3

°ае.в% °2

LE99.8

Мера

Если стандартное отклонение о неизвестно, но одномерная случайная величина Z измеряется избыточно посредством независимых наблюдений N. то стандартное отклонение можно определить из наблюдений {см. таблицу G.3).

гты представляет i-e измерение значения. Если истинное значение zf для Z известно, то стандартное отклонение вычисляется по формуле

где избыточность г представляет число наблюдений г - N. Если истинное значение неизвестно, то его можно вычислить как среднее арифметическое наблюдений

м

*Т * 5>т.-

/•1

Стандартное отклонение можно затем определить по той же формуле, при

r-N- 1.

Если стандартное отклонение определяется посредством избыточных измерений, то доверительный интервал можно вывести из (-распределения Стьюдента с параметром г

[Z - г,)

Р (-J • st £ Z - 2, £ t • sz) * Р. при --

116

ГОСТ Р 57773—2017

Таблица G.3 — Связь между квантилями t-распределения Стьюдвнта и уровнем значимости для различных коэффтдиентов избыточности г

Вероятность

р.ч

Квантиль г» 10

Квантиль т» 5

Квантиль г » 4

Квантиль г« Э

Квантиль

г-2

Кввмтиль г- 1

Р= 50

1 = 1.221

1 = 1.301

1= 1.344

1= 1.423

1= 1.604

1 = 2.414

Р = 68.3

1 = 1.524

1= 1.657

1= 1.731

1= 1.868

1 = 2.203

1 = 3.933

Р =90

1 = 2.228

1 = 2,571

1 = 2.776

1 = 3.182

1 = 4.303

1= 12,706

Р = 95

1 = 2.634

1 = 3.183

1 = 3.495

1 = 4.177

1 = 6.205

1 = 25.452

Р =99

1= 3.581

1 = 4.773

1 = 5.598

1 = 7.453

1= 14.089

1 = 127.321

Р » 99,8

1=4.587

1 = 6.869

1 = 8.610

1= 12.924

1 = 31.599

1 = 636.619

Таблица G.4 — Базовые меры качества данных для различных вероятностей Я одномерной величины, где стандартное отклонение определяется на основе избыточных измерений

Вероятность Р. %

Базовая мера качества данных

Наименование

Тип значения качества данных

Р= 50.0

*$о чИ • SZ

LE50<r>

Мера

Р= 68.3

%е.з ч(') • SZ

LE68.3(r)

Мера

Р= 90.0

<ео чИ • sz

LE90(r)

Мера

Р = 95.0

чИ • sz

LE95(r)

Мера

Р= 99.0

<ее чМ • sz

LE99(r)

Мера

Р= 99.8

*99.а ч(0 • 5z

LE99.8(r}

Мера

Примечание — Значения 1 для числа избыточности можно получить из таблицы G.3.

Базовые меры качества данных для неопределенности одномерных величин приведены в таблицах G.2 и G.4. Они направлены на измерение неопределенности с указанием верхней и нижней границы доверительного интервала. Разница заключается в том. как получено стандартное отклонение. Если оно известно априори, то применяется таблица G.2. Если стандартное отклонение определяется избыточными измерениями, то применяется табтца G 4 в сочетают с таблицей G.3.

G.3.3 Двумерная случайная величина X, У

Помимо одномерной случайной величины Z существует двумерная величина, которая всегда определяется двумя значениями. Результат представляется парой X. У. Как и в случае одномерной случайной величины, она использует те же предположения.

Результаты наблюдений — хт, и у^. Эквивалентностью доверитегъного интервала в одном измерении является доверительная область, которая обычно описывается как окружность вокруг лучшей оценки для истинного значения. Вероятность нахождения истинного значения в этой области вычисляется посредством интегрирования области по двумерной функции плотности нормального распределения. Окружность характеризуется его радиусом. Этот радиус. R. используется в качестве меры точности двумерных случайных величин (см. также таблицу G.S)

Л

2! -i

Т axdy.

В некоторых особых случаях радиус может быть рассчитан в зависимости от стандартных отклонений

а, игу

117

ГОСТ Р 57773—2017

Таблица G.5 — Отношение между вероятностью Ри соответствующим радиусом окружности

Вероятность Р. %

Базовая мера качества данных

Наименование

Тип значения качества данных

Р - 39.4

СЕ39.4

Мера

Р® 50

хпи I П -

СЕ50

Мера

Р = 90

2.146 Г>-Г

СЕ90

Мера

Р = 95

СЕ95

Мера

Р » 99.8

СЕ99.8

Мера

G.3.4 Трехмерная случайная величина X. Y. Z

Одномерная случайная величина Z может быть расширена до трехмерной, где результат всегда наблюдается гремя значениями. Результат представляется X. У, Z. В ее основе лежат те же предположения, что и в случае одномерной случайной величины.

Результаты наблюдений — xmi, и г^. Эквивалентность доверительного интервала в одном измерении является доверительным объемом, который обычно описывается как сфере вокруг лучшей оценки для истинного значения. Вероятность нахождения истинного значения в этом объеме рассчитывается по интегрированию объема над трехмерной функцией плотности нормального распределения. Объем сферы харахтеризуется его радиусом. Этот радиус используется в качестве меры точности трехмерных случайных величин (см. таблицу G.6).

Таблица G.6 — Отношение между вероятностью Ри соответствующим радиусом сферы

Вероятность Р. %

Базовая мера качества данных

Наименование

Тип эначения качестм данных

Р-50

0.51-(о, *ау + <т,)

Вероятностная сферическая ошибка (SEP)

Мера

Р = 61

Средняя радиальная сферическая ошибка (MRSE)

Мера

Р = 90

0.833 (стж +Л,, + о,)

90-процентный стандарт сферической точности

Мера

Р = 99

1.122(ая+0(,+(тл)

99-процентный стандарт сферической точности

Мера

11в

ГОСТ Р 57773—2017

Приложение Н (справочное)

Управление мерами качества данных

Н.1 Введение

В данном приложении дано описание хранения мер качества данных, базовых мер и параметров в реестре или каталоге.

Н.2 Хранение мер качества данных

Н.2.1 Общие положения

Полное огмсание мер качества данных, базовых мер качества данных и параметров могут храниться 8 реестре либо в каталоге. Эти две структуры совместимы и дополняют друг друга. Реестр носит глобагъный характер (например, реестр для всех применяемых мер в структуре), каталог же представляет набор информации, относящейся к одному конкретному варианту использования (например, каталог комплекса мер. используемых для оценки качества данных одного конкретного набора даншх).

Рисунок Н.1 — Внесенные в реестр элементы, каталоги и меры качества данных

Н.2.2 Каталог мер качества данных

Меры, базовые меры, указатели источника и параметры могут быть представлены в каталоге мер: DQM_MeasureCatalogue. выведенного из класса CT_Catalogue согласно [4].

DQM_MeasureCatak>gue должен объединять все нужные экземпляры DQM_Measure. DOM_BasicMeasure. DQM_SourceReference и DQM_Parameter. как показано на рисунке Н.1.

Н.2.3 Реестр мер качества данных

Для управления мерами качества данных можно создать реестр мер качества данных. В этом случае реестр мер качества данных должен соответствовать спецификации реестра, приведенного в [5]. который описывает структуру и атрибуты внесенных в реестр элементов.

119

ГОСТ Р 57773—2017

На рисунке Н.2 представлена структура клаоса RE_Registeredltem 8 сравнении с классами DQM_Measure. DQM Bas>cMeasure и DOM Parameter.

DQM.Measure

•    ГО» J9jrtld»nim«r ;М 0.IdenlllilX

•    name :Chara<trr5tring

•    alia* :CharacttrSiring |0..*|

•    elemnnlName ТуреКйго*

•    definition :CharactfrStn»K

•    ilvMiipllun :DI]M.DilKiipil«il

•    valutTypc :TypeXame

•    valucStructure :DQH. ValufStrutture |0..1)

•    example OQM.D«s<rlp1lon |0..*t

DQM.BasicMeasure

•    name iCharaciarScriiig

•    definition rCharacierStnng

•    example :DQM .Description [0..I]

•    vatuoTyp» :Typ«Mam*

DQM.Parameter

•    name :Character£triog

•    definition :CharatcerString

•    dexcnptioo tDQM.Descnpiiun |0. t|

•    valueTypc iTypeXame

•    velueStructvre :DQM ValueStructur* |0..Ц

Prom ISO 19135:2005

RE.Registerltom

*    itemldonilfior rlntager

*    name :Chara<teiSlrin|!

•    /status :R£.ltemStatns

*    dateAccopied :Date(0-l)

•    dateAmended :Datr[0..l|

► definition :CharacterScrlng

•    description :Character$tring (0..1)

•    IlcldOfApplication :Set<RE.FleldOfAppiication> (0..IJ

♦    *liem*liv#Cxpr*$tlOB< -Sei<RE.AiieriiaiiveEiprrssion> [O..I|

► specifiedttem 1

• specIflcatinoSourxO f 0..1

RE. Reference

npmMMihlfrrAitAHi»i< ‘fhanrlArtlriAj

similarity -RE.SImilarityToSource referenceText :CharacterStnng (0..t| noiri :CboracterStrtng (0..11

■ item Reference

1..*

«MurcrCiianon t / 1

RE.RcfereiKeSource

ciutroa .C/.Crutiun

Рисунок H.2 — Структурное сходство между внесенными а реестр элементами и мерами качества данных

Некоторые дескрипторы мер качества данных, базовых мер и параметров (как определено в разделе 8) могут быть повторно использованы в качестве атрибутов внесенных в реестр мед. базовых мед и параметров (см. рисунок Н.1 и таблицу Н.1) из RE.Regtsteredltem. определенного в (5]. Иные дескрипторы внесенных в реестр элементов следует представлять в соответствии с [5].

Таблица Н.1 — Меры, базовые меры и атрибуты параметров, соответствующие атрибуту элемента

Элемент меда стандарта 19157

Элемент стандарта |S)

Зарегистрированная мера качества данных

DQM.Measure.name

DQM.RegisteredDataQualityMeasure.name

DQM_Measure.definition

DQM_RegtsteredDataQualityMeasure.definition

DQM_Measure.descripbon.textDescnption

DQM_RegtsteredDataQuaiityMeasure.descript)on

DOM_Measure.alias

DQM_RegisteredDataQualityMeasure.altemativeExpres-

sens

DQM_Measure.measureldentr5er.code

DQM_RegisteredDataQualityMeasure.speci5edltem. itemkJAl Source

DQM_Measure.measureldentr5er.authorHy

DQM_RegisteredDataQualityMeasure.specf5edltem.

sourceCitation

120

ГОСТ Р 57773—2017

Окончание таблицы И. 1

Элемент меры стандарта 19)57

Элемент стандарта |б)

Зарегистрированные базовые меры качества данных

OQM.BasicMeasure .name

—*

DQM_RegisteredOataQuatityBasicMeasure.name

DQM_BasicMeasure.definition

DQM.RegieteredOataQuaiityBasicMeasuFe.definrtion

Зарегистрированные параметры качества данных

OOM.Parameter.name

—»

DQM.RegssteredDataQuaiityParameter.name

В таблице Н.2 дан пример зарегистрированной Меры 11 (см. таблицу 0.11). Таблица Н.2 — Пример зарегистрированного элемента для item — Мера 11

Зарегистрированный элемент для Кет

Пример эначения

DOM_RegisteredDataQualrtyMeasure.item>dentifier

Идентификатор item в пределах реестра

Пример: «1»

DQM_RegrsteredDataQuality Measure .status

Статус item в пределах реестра

DQM_RegtsteredDataQualityMeasure.name

«Количество некорректных перекрытий поверхности»

DQM_RegeteredDataQuality Measure.definition

«Общее количество ошибочных перекрытий в данных»

OOM.RegisteredDataQualityMeasure.description

В зависимости от приложения одни поверхности могут перекрываться, а другие — нет. Не все перекрывающиеся поверхности обязательно ошибочны.

При составлении отчета об этой мере качества данных нужно также представлять данные о классах объекта соответствующего некорректного перекрытия поверхности

DQM_Regstered Da taQuablyMeasure.attematrve Expressions

«перекрывающиеся поверхности»

DQM_RegisteredD3taQualityMeasure.specifiedltem,

itemldAtSource

«11»

DQM_RegsteredDataQualrty Measure.speofiedltem, sourceCitabon

CI_Citation

121

ГОСТ Р 57773—2017

Приложение I (справочное)

Руководство по использованию элементов качества

1.1    Обзор

В некоторых случаях для одного конкретного требования к качеству может быть несколько возможных элементов качества, а в оценке качества обнаружена одна ошибка. Даннов приложение содержит рекомендации по выбору элемента качества.

Примечание —Элементы качества описаны в 7.3.

1.2    Категории элементов качества данных

1.2.1    Общее представление

В разделе 7.3 определено шесть различных категорий элементов качества:

•    погыота (7.3.2);

•    логическая согласованность (7.3.3):

•    позиционная точность (7.3.4):

•    тематическая точность (7.3.5):

•    временная точность (7.3.6):

•    элемент применимости (7.3.7).

Элемент применимости используется для оценки качества в соответствии с потребностями пользователя, которые не могут быть охвачены остальными пятью категориями качества данных. Его также можно применять для предоставления результата агрегации, где обобщаются результаты из нескольких категорий качества данных (например, общее соответствие одной спецификации). Иные варианты применения в данном приложении не рассматриваются.

Из оставшихся пяти только логическая согласованность может быть оценена в полной мере без знания наземных данных. Установленные требования и оценка логической согласованности регулируют «внутренние отношения» в данных и контротмруют соответствие данных правилам, установленным в спецификациях.

Три категории полноты, позиционной и тематической точности используются для описания того, наскогъко точно набор данных отображает предметную область.

Последняя категория (временная точность) состоит из комбинаций элементов качества данных, которые частично зависят от логических правил (в сравнении с логической согласованностью), и частично нуждается в данных наземного наблюдения (так же как категории полноты и точности).

1.2.2    Другие варианты

Все принятые элементы качества данных могут быть оценены, и результаты оценки не устареют по истечении времени. Два возможных (но не принятых) вида «Up-to-dateness» (актуальность) и «Timeless» (качество вне времени) описывают, насколько данные точно отвечают текущей реальной ситуации в мире.

При измерении актуальности (насколько набор данных отвечает современному реальному миру) результат будет действителен только короткое время. По истечении, например года, результат возможной хранимой меры актуальности будет неверным, т. е. будет отражать ситуацию в мире годовой давности, нежели текущее положение.

1.2.3    Последовательность при оценке качества данных

При оценке пространственных данных одна-единственная ошибка может повлиять на несколько элементов качества данных. Для вывода измерения в процентных показателях (например, процентные показатели аспектов полноты) важное значение представляет использование надлежащих знаменателей, которые описывают генеральную совокупность (см. рисунок I.1).

Оценка качества данных проводится в следующем порядке:

а)    логическая с отпасованное: ь/coma со ванность по формату: самое первое, что оценивается. — эго читаемость (или интерпретируемость) данных с цепью определения возможности их декодирования/чтения/понимзния. Следует выводить информацию о неингерлретируемых данных и итерировать их при дальнейшей оценке. Результат согласованности по формату должен содержать информацию о том. какая часть данных не читается:

б)    логическая согласованность: определить, применяются ли правила, установленные для набора данных.

Части набора данных, не соответствующие правилам, должны игнорироваться при дальнейшей оценке:

е) полнота: следующий этап оценки — аспект существования объекта, охватываемый полнотой. Для ее оценки сравниваются объекты е фактическом наборе данных и данных наземного наблюдения, выводится информация об отсутствии и присутствии:

г) точность (позиционные, тематические и временные аспекты): последний этап оценки включает аспекты точности, которые измеряют отклонения между фактическими свойствами и свойствами объекта наземного наблюдения.

Эти измерения могут быть основаны только на тех фрагментах набора данных, которые представлены как в фактическом наборе данных, так и в предметной области.

122

ГОСТ Р 57773—2017

ЧПШМ«№ фнмол W66fC ди|«д

Оциш другой гяпчмюА ппяшмт

с наг _

Энмктд»*мь

нивйоурициц—,

Ят—т, явютхе дги аштинйшА «ц*мм

»iimh fiw фаущют лаВавфшмчмм^ тОбпнттых

И»Гр!Ш11 К,ДН1||Ж

Рисунок 1.1 — Порядок при оценке качества данных

1.3 Отношения между элементами качества данных

1.3.1 Общие положения

Многие элементы качества данных связаны между собой. В некоторых случаях эго может привести к неопределенности относительно вывода информации о выявленных отхлонениях/ошибок в данных. В данном раза еле рассматриваются отношения между элементами качества данных.

(.3.2 Элементы качества данных, связанные с отсутствующими значениями атрибутов

По крайней мере три различных значения следует рассматривать как идентификатор «недоступности значения». Их способ применения может влиять на элементы качества данных, выбранные для представления информации об отсутствующем значении. Эти три значения имеют различную семантику:

•    Пустое значение. В этом случае атрибут не имеет никакого значения.

•    Неприемлемое значение означает, что для этого конкретного объекта атрибут неверен, т. е. не имеет никакого значения.

Пример 1—Дата смерти живых людей.

•    Неизвестное значение. В этом случае атрибут присутствует, т. е. значение должно быть, но оно неизвестно.

123

ГОСТ Р 57773—2017

Информацию об обязательных атрибутах с пустыми значениями следует выдавать в виде последовательности логических ошибок. При оценке атрибутивной полноты не следует учитывать неприменимые обязательные атрибуты. Информацию о количестве неизвестных событий следует представлять в виде атрибутивной полноты.

Способом увеличения атрибутивной полноты является добавление искусственных значений к набору данных. Благодаря чему набор данных улучшится с точки зрения согласованности атрибутов, но при этом уменьшится атрибутивная точность.

Пример 2 — Набор банных содержит S0 экземпляров объекта типа дерево. 45 из них имеют хранящееся значение атрибута HeightOfTree. Точность этого атрибута (45 экземпляров) равняется ± 1 м (стандартное отклонение) и полнота атрибута 45/50, т. е. 90 %. Если однако эти отсутствующие HeightOfTree-значения дали неправильные (фиктивные) значения, например 10 м, то атрибутивная полнота увеличится (100 %), а атрибутивная точность, вероятно, уменьшится.

(.3.3 Отношения между различными аспектами точности

Отклонения фактических данных от предметной области могут быть измерены с помощью позиционной (временной) и атрибутивной (тематической) точности. Примерами альтернативных способов выражения отклонения являются:

•    Атрибут в противоположность пространству: для атрибутов, где географическое распределение известно, отклонение мажет быть выражено тематическим или позиционным компонентами. Значение высоты контурной линии можвг рассматриваться как атрибут контурной пинии. Отклонение текущего положения от истинного местоположения может быть измерено атрибутивным компонентом {«полметра слишком высоко*) или пространственным компонентом («контур линии имеет смещение 10 м в северном направлении*).

- Пространство в противоположность времени: если движение объекта известно, то разница между измеренным и реальным положением может быть выражена временным или позиционного компонентом: например, позиционная ошибка для движущегося по дороге автомобиля может быть выражена как «местоположение было верно 20 с назад» или «местоположение в настоящее время отличается на 400 м».

•    Атрибут в противоположность времени: «Цена ($/мг) конкретной посылки ошибочна на $20» или «эта цена была верной 10 лет назад».

(.3.4 Зависимость между полнотой и точностью

Оценка полноты обычно основана на сравнении набора данных и предметной области.

Критическая операция реализует связь между объектами в наборе данных и предметной областью. Уникальный идентификатор, как правило, формируется на основе их взаимосвязи.

При обработке объектов без такой идентификации элементов необходимо применять методы, основанные на близости атрибутов и их значений. При компоновке пространственных объекте» следует учитывать два аспекта;

а)    тематическую близость (обычно выражается 8 виде типа объекта):

б)    географическую близость объектов.

Когда два объекта (один в наборе данных, а другой в наземных наблюдениях) приняты в качестве представления одного и того же реального явления, то отклонения между ними обрабатываются в виде точности. Если пара объектов взята для представления различных явлений, то информация об отклонении между ними выдается с использованием полноты (отсутствие и/или присутствие). Например, при оценке полноты и точности для 1 типа объекта (см. рисунок (.2) проблем с позицией А. В. С и D не возникает. При этом классификация идентична (тематическое отклонение равно нулю) и географические отклонения фактического и реального положения находятся в пределах допустимого уровня. Объекты связаны между собой, а отклонения описываются посредством позиционной точности. В положении Е два экземпляра имеют различную тематическую классификацию, но расположены очень близко друг к другу. Необходимо принять решение о том. находится ли разница в классификации в пределах допустимого уровня для соединения. Если да. то два экземпляра будут способствовать точности оценки (позиционной и/или тематической), если нет. то дело в полноте (одна точка отсутствует и одна в избытке). В позиции F

О

Легенда:

Объекты, классифицируемые по 1 типу объекта:

•    Положение на местности

•    Фактическое положение в наборе данных

t

А

Объекты, классифицируемые по 2 типу объекта: □ • Фактическое положение в наборе данных

Рисунок I.2 — Точность и полнота

124

ГОСТ Р 57773—2017

и G. два экземпляра имеют одинаковую классификацию, но отличаются положением. Если это географическое отклонение находится в пределах допустимого уровня для соединения, то отклонение будет способствовать позиционной точности (вероятно, отклоняющееся значение), если нет. то дело в полноте (отсутствие и присутствие).

I.4 Элементы качества данных — пример использования

1.4.1    Полнота

1.4.1.1    Общие положения

Для описания наличия и отсутствия объектов можно использовать элементы качества данных «отсутствие» и «присутствие». Полноту следует в основном применять на уровне типа объекта, который указывает на то. что объекты из предметной области обнаружены или не обнаружены в наборе данных.

Полнота может также иметь значение для свойств объекта («полнота атрибута* и «полнота отношений*). Перед использованием полноты в данных целях следует помнить о логической согласованноеги/концелгуапьной согласованности.

1.4.1.2    Присутствие — избыточность данных в наборе данных

Мажет применяться на уровне экземпляра объекта. Означает, что данные находятся в «избытке», если это целый экземпляр объекта. Если в экземпляре объекта или атрибуте экземпляра объекта есть необязательные данные, то о присутствии речь не идет.

Данное определение включает в себя экземпляры объектов, которые присутствуют в наборе данных, но которые не входят в область применения (согласно спецификации).

Правило для приведенных ниже примеров определяется так: «В набор данных должны включаться только те объекты, которые присутствуют в предметной области*.

Пример 1 — Наличие данных из «Шотландия» подобно тем, что исключены из области определения набора данных (вАналия»).

Пример 2 — Только здания с площадью больше 5 м2 должны быть включены в набор данных. Информация о наличии зданий до 5 м2 представляется в виде избыточности.

1.4.1.3    Отсутствие — данные отсутствуют в наборе данных

Так же как и присутствие, может применяться на уровне экземпляра объекта. На практике это означает отсутствие экземпляров объектов, включение которых указано в спецификации.

Отсутствие следует в основном испотъзовать. когда «целый элемент*, например экземпляр объекта отсутствует. Если обязательная часть элемента, например обязательный атрибут экземпляра объекта отсутствует, то информацию следует выдавать в виде ошибки концептуальной согласованности.

Правило для приведенного ниже примера определяется следующим образом: «Вся жилая недвижимость Англии и Уэльса должна быть включена в набор данных».

Пример — Отсутствие жилой недвижимости Англии или Уэльса в наборе данных.

I.4.2 Логическая согласованность

1.4.2.1    Общие положения

Сгепв1*> соответствия логическим правилам структуры данных, распределения и отношений (структура данных может быть концептуальной, логической или физической) может быть описана посредством следующих элементов качества данных.

1.4.2.2    Концептуальная согласованность — соответствие правилам концептуальной схемы

Как правило, приложения имеют концептуальную схему, описывающую требования к структуре данных. Эта концептуальная схема может включать в себя:

•    имена всех классов (типов объектов, типов данных и т. д.);

•    имена атрибутов для всех классов, а также ограничения множественности:

-    домены для всех атрибутов:

-    отношения между классами:

•    топологические отношения между типами объектов, например отношение между некоей областью и границей:

-    отношения между атрибутами типа объекта для различных типов объектов, например отношение между значением высоты над уровнем моря от контурной линии и от дороги в географической точке пересечения для двух экземпляров объекта.

Концептуальная последовательность может охватывать все эти аспекты качества данных.

Другие подэлементы логической согласованности (доменная согласованность, топологическая согласованность) также могут рассматриваться для некоторых аспектов, перечисленных выше, если концептуальная согласованность используется только для обеспечения корректных свойств объекта для каждого экземпляра объекта.

1.4.2.3    Доменная согласованность — соответствие значений атрибутов области допустимых значений

Для описания области допустимых значений, как правило, используется концептуальная схема приложения, при этом информация о ней выдается как часть концептуальной или доменной согласованности. Если в концеп-

125

ГОСТ Р 57773—2017

туэльной схеме не существуют или не действуют доменные характеристики, то тогда можно использовать только подэлемент качества доменная согласованность.

Пример 1 — Организация определяет правильную область значений для каждого поля е терминах длины, типа данных и содержания. Доменная согласованность используется для обеспечения соблюдения этих условий со следующими исключениями:

-    если поле содержит данные о местоположении (т. е. восточное и северное), то рассматривается как позиционная точность:

-    если поле содержит данные о дате/времеки. то рассматривается как временное качество:

•    если попе содержит первичный ключ, в этом случае рассматривается в рамках логической согласованности.

Правило для приведенного ниже примера определяется следующим образом: поле LANGUAGE должно содержать «ENG» или «СУМ».

Пример 2— Пример ошибки доменной согласованности: «СОР».

1.4.2.4    Согласованность по формату — степень соответствия накопленных данных физической структуре набора данных

Согласованность по формату следует в основном применять в качестве первой проверки оценки качества для удостоверения того, что набор данных сформирован в правильном формате в соответствии со спецификацией (продукта).

Если установлены определенные правила для определения формата определенных атрибутов, например для сгенерированных идентификаторов, то согласованность по формату также может иметь отношение к отдельным значениям атрибута. Если атрибуты значения проверяются в сравнении со списком допустимых значений (домен), то следует использовать доменную согласованность.

Пример 1 — Спецификация информационного продукта определяет GML как формат распространения. Если набор данных не является GML-файлом, то эту информацию об ошибке следует выдавать в виде ошибки согласованности по формату. Если один элемент в GML-файле отображается «в неправильном формате», например текст вместо числа, то информацию следует выдавать в виде ошибки концептуальной согласованности или ошибки доменной согласованности.

Пример 2 — В пределах организации данная классификация используется для описания проверок которые обеспечивают соответствие правил спецификации информационного продукта и включает в себя:

•    наличие, достоверность и уникальность значений первичного ключа. Пример правила: каждый экземпляр объекта должен иметь уникальный идентификатор. Пример ошибки согласованности по формату — fiNULL»:

•    внешние ключи, которые соотносят идентификатор для другого экземпляра объекта, не присутствуют в наборе данных. Пример правила — поле PARENTJUPRN должно содержать идентификатор, связанный с существующим экземпляром объекта UPRN.

1.4.2.5    Топологическая согласованность — корректность явно закодированных топологических характеристик набора данных

Топологические характеристики набора данных описывают геометрические отношения между элементами набора данных, которые не изменяются в результате трансформаций по методу «резинового листа». Предполагается. что основные части топологических ограничений описываются в концептуальной схеме, при этом информация может выводиться в виде концептуальной или топологической согласованности. Только топологическая согласованность может применяться в случае, если соответствующие топологические требования не являются частью концептуальной схемы.

Пример 1—Для набора данных с типами объектов, определенных по береговой линии водных объектов (такие типы объектов, как побережье, гавань, эллина), а также с типами объектов водоемов (озера, моря и т. д.). Топологические отношения между типами объектов четко определены в концептуальной схеме, и для выдачи информации о том, что геометрия прибрежных линий (одномерная) совладает с геометрией водоемов (двумерная) используется подэлемент качества концептуальная согласованность.

Пример 2 — в сетевом наборе данных с неопределенными требованиями в концептуальной схеме для «чистой сети» информацию о «загрязненных частях» («недоход», «переход», перекрытие, самопересечение и т. д.) следует представлять как ошибки топологической согласованности.

1.4.3 Точность позиционирования

Точность положения объектов по отношению к Земле может быть описана с использованием элементов качества данных этого раздела.

Измерение позиционной точности посредством наземного наблюдения подразумевает создание «согласованных пар» с одним экземпляром объекта из набора данных и соответствующим в контрольном (наземное наблю

126

ГОСТ Р 57773—2017

дение) наборе данных. Если объекты имеют уникальные идентификаторы (например, для кадастровых участков), то это соответствие может быть установлено с помощью идентификаторе», при этом грубые ошибки, смещения, стандартное отклонение могут быть оценены и отражены в виде позиционной точности.

При отсутствии доступных идентификаторов соответствие следует устанавливать на основе позиции. Должен быть определен «предел расстояния для соответствия», который облегчает вычисление грубых ошибок. Данный «предел расстояния для соответствия» должен быть задокументирован в отчете в следующих случаях:

•    экземпляры объектов в наборе данных без соответствующих экземпляров объектов контрольного набора данных должны быть указаны как избыточные в отношении элемента полноты:

•    экземпляры объектов в контрольном наборе данных, не имеющие соответствующих экземпляров объектов в наборе данных, должны быть указаны в отчете как отсутствующие в отношении элемента полноты.

I.4.4 Временная точность

1.4.4.1    Общие положения

Точность временных атрибутов и временных отношений объектов может быть описана с помощью следующих параметров качества данных.

1.4.4.2    Точность измерения времени — соответствие заявленных измерений времени значениям, принятым или считающимся правильными.

Пример — В пределах определенной организации точность измерения времени применяется для удостоверения в том, что:

•    значение не противоречит конкретному условию в поле (дополнительным условиям, обусловленным характером данных дата/время).

Пример правила — поле START_DATE не может содержать значение в будущем.

1.4.4.3    Временная согласованность — правильность порядка событий

Правила, описывающие аспект «правильность порядка последовательности событий», могут являться частью концептуальной схемы. Информация выдается в виде временной или концептуагъной согласованности, если правила являются частью концептуальной схемы.

Пример — В рамках определенной организации временная последовательность используется для:

•    подтверждения соответствия между значениями даты/времени. связанных с жизненным циклом объекта реального мира:

•    обеспечения согласованности значений даты/времени, используемых при управлении экземплярами объекта в наборе данных.

Пример правила — END_DATE должна быть такой же или быть более поздней, чем START_DATE.

Пример ошибки временной согласованности—START_DATE = "2010-02-02", END_DATE = "2000-01-01".

1.4.4.4    Временная достоверность — достоверность данных по отношению ко времени

Правила, описывающие аспект «достоверность данных по отношению ко времени», могут являться частью концептуальной схемы.

Информация выдается как временная достоверность либо как концептуальная согласованность, если правила являются частью концептуальной схемы.

Пример — В рамках определенной организации точность измерения времени используется для:

•    удостоверения в том, что содержимое поля даты или времени находится в правильном формате и использует календарь, определенный в спецификации.

Пример правила — значение даты должно быть указано в формате [15]— "ВВГГ■ММ-ДД”.

Пример ошибки временной достоверности — “01.01.2010" или "2010-51-15”.

1.4.5    Тематическая точность

1.4.5.1    Общие положения

Точность котычесгеенных атрибутов и лравитъность неколичественных атрибутов и классификаций объектов и их отношений могут быть описаны с помощью следующих элементов качества данных.

1.4.5.2    Правильность классификации — соответствие классификации объектов или их атрибутов предметной области (т. е. реальной местности или эталонному набору данных)

Пример —Данная характеристика используется строго в рамках одной организации. Классификации, которые не определены в спецификации набора данных, не рассматриваются в качестве правильности классификации (а только как доменная согласованность).

1.5    Рассмотрение особых случаев

1.5.1 Отношение между неправильной классификацией и полнотой на уровне типа объекта

На уровне типа объекта полнота и тематическая точность/правильность классификации тесно связаны друг с другом. Действительно при нелравигъной классификации одного экземпляра объекта (отнесении его к другому

127

ГОСТ Р 57773—2017

типу объекта) ошибка классификации возникнет в оценке полноты для обоих типов объектов (одна — присутствия и одна — отсутствия).

Поэтому рекомендуется при оценке полноты на уровне объекта знать, что некоторая ошибка в присутствии или отсутствии может быть результатом неправильной классификации. При представлении информации о правильности классификации информация об ошибке будет выдана дважды.

Чтобы избежать двойной выдачи сообщения об ошибках, можно вывести отчет о полноте в одном верхнем уровне (набор данных, группировка типов объектов и т. д.). а информацию о неправильной классификации — на уровне объектов.

В приложении Е приведен пример.

I.5.2 Элементы качества, связанные с уникальными идентификаторами

Ниже представлены некоторые варианты использования, имеющие отношение к соответствующим элементам качества данных, для описания проблем, связанных с уникальными идентификаторами (см. таблицу 1.1).

Таблица 1.1 — Элементы качества, связанные с уникагъными идентификаторами

Вариант использования

Применимый элемент качества данных

Все уникальные идентификаторы должны иметь формат. который отвечает правилам их определения

Согласованность по формату

Все используемые уникальные идентификаторы допустимы согласно списку зарезервированных уникальных идентификаторов

Доменная согласованность

Один и тот же экземпляр объекта дважды присутствует с таким же уникальным идентификатором

Полнота концептуальной согласованности (уникальные идентификаторы должны быть уникальными)

Один и тот же экземпляр объекта дважды присутствует с различными уникальными идентификаторами.

Примечание —Задача заключается в необходимости удостоверения в том. что эти два экземпляра объекта двйствигегъно представляют один и тот же объект реального меда

Избыточность

126

ГОСТ Р 57773—2017

Приложение J

(справочное)

Обобщение результатов оценки качества

J.1 Введение

Оценка на основе одного элемента качества данных, как правило, недостаточно удовлетворяет запросам пользователя.

Разработчик данных обычно разрабатывает {в сотрудничестве с потенциальными пользователями продукта) спецификацию информационного продукта с учетом всех требований, установленных для данного продукта.

Для потенциального пользователя представит интерес заключение. 8 котором говорится о том. что продукт оценивается на основе спецификации. Таким заключением является обобщенный показатель качества данных, который может быть полезен в других ситуациях, а не только при отчете соответствия спецификации.

Качество набора данных может быть представлено одним или более обобщенным показателем качества данных (ADOR). ADOR включает результаты оценки качества данных на основе различных элементов качества данных или различных областей определения качества данных.

Примеры методов, которые используются для создания ADQR. приведены в J.2—J.4. Следует учитывать, что при таком способе оценки качества набор данных может получить общую положительную оценку, даже если один или более показателей качества данных не прошли проверку. Поэтому обобщение необходимо применять только при наличии веских причин. В любом случае смысл обобщающего оценки качества данных должен быть всегда четко определен.

Так как ADQR может вызвать затруднения при определении, то смысл обобщающей оценки качества данных следует определить еще до извлечения выводов на основе обобщенного показателя качества данных для обеспечения качества набора данных.

Описание обобщенного показателя качества дано в 10.2.1.

J.2 Однозначная оценка пригодности/непригодности

Каждому показателю качества данных, вовлеченному в вычисления, придается логическое значение, равное единице (1). если значение показателя соответствует требованиям, и нулю (0). если нет. Обобщенный показатель качества определяется уравнением

ADQR * vf • v2 ■ v3 ■ ... ■ vn. где n — число групп определения качества данных.

Если ADQR * 1. то общее качество набора данных считается полностью соответствующим требованиям. а значит, пригодно. Если AOQR = 0. то качество считается не соответствующим требованиям, а значит, непригодно. Данный метод не обеспечивает результат, который показывает местоположение или величину несоответствия.

J.3 Взвешенная оценка пригодности/непригодности

Каждому показателю качества данных, вовлеченному в вычисление, придается логическое значение, равное единице (1). если значение показателя соответствует требованиям, и нулю (0). если нет. Кроме того, на основании значимости показателя для оценки качества в целом каждому из них присваивается весовое значение в интервале от 0 и 1 включительно. Сумма всех весов должна равняться 1. Выбор весов является субъективным решением, принимаемым разработчиком данных или пользователем данных. Причину своего решения разработчику данных следует указывать в виде части результата. Обобщенное качество определяется уравнением

ADQR » v} ■ iv, + v2 ■ w2 * v3 ■ Wj * ... * vn ■ wn. где л — число групп определения качества данных. •

Данный метод обеспечивает получение значения величины, показывающей, насколько набор данных близок к полному соответствию. Метод не обеспечивает получение количественного значения величины, указывающее, где имеет место соответствие или несоответствие.

Пример — Таблица ошибок (см. таблицу J.1) показывает количество обнаруженных ошибок и их классифицирование в соответствии со стандартной процедурой, используемой для баз данных дорог. В этом конкретном примере каждому типу ошибки присвоены весовые значения. Сумма весов равна 100 %. Полученное взвешенное значение представляет качество набора данных.

129

ГОСТ Р 57773—2017

Таблица J.1 — Пример вычисления обобщенных показателей оценки качества

Объект

Количество элементов в партии

Количество

несоответ

ствующих

элементов

Степень

несоответ

ствия

Соотношение точности (принятое за единицу)

Вес

весовое значение (соотношение точности вес)

Сегмент дороги

19

Некорректный

1

Отсутствующий

0

А } 1Q

п 7Q

сл

П «мел

Избыточный

3

4 I I9

U, 1 4J

Эи 70

Название улицы

Базовое

19

5

5/19

0,74

15%

0.1110

Направление

движения

19

1

1/19

0.95

25%

0.2375

Гидрография

1

0

0/1

1.00

10%

0.1000

Общая точность

(определена как сумма весовых значений ■ 100}

В4.35 %

Примечания

1    Элемент определяется в виде сегмента дороги, ограниченного точками пересечения с другими дорогами или границами элемента выборки.

2    Обобщение информации по оценке качества данных, особенно при использовании весов, не имеет большого значения для конечных пользователей и может привести к неправильным выводам в зависимости от того, какие весы применял разработчик данных.

J.4 Оценка данных на основе максимальных/мииимальных значений показателя качества данных Каждому показателю качества данных придается значение, основанное на значимости данного показателя для предназначения продукта. Основанием для подобного решения разработчика данных должны являться результаты оценки качества отдетъных групп данных. Обобщенный показатель качества определяется одним из двух уравнений:

ADQR - МАХ (и,. /„ = 1 ... л) или ADQR = MIN (v,. /„ = 1 ... л), где п — число определений качества данных.

Даьыый метод обеспечивает получение значения величины, указывающей, наскотъко набор данных близок к полному соответствию, но только в терминах определения качества набора данных на основе максимума или минимума. Также метод задает количественное значение, указывающее, где имеет место наибольшее соответствие или несоответствие, когда заданное определение качества данных выдается вместе с ADQR. Однако данный тип ADQR не сообщает о ситуации с другими показателями качества данных.

130

ГОСТ Р 57773—2017

Приложение ДА

(справочное)

Сопоставление структуры настоящего стандарта со структурой примененного в нем международного стандарта

Таблица ДА.1

Структура настоящего стандарта

Структура международного стандарта ИСО 191S7

Приложение ДА

Приложение ДБ

Примечание — Сопоставление структуры стандартов приведено, начиная с приложения ДА. так как предыдущие разделы стандартов и их структурные элементы (за исключением предисловия) идентичны.

131

ГОСТ Р 57773—2017

Приложение ДБ

(справочное)

Сведения о соответствии ссылочных национальных стандартов международным стандартам, использованным в качестве ссылочных в примененном международном стандарте

Таблица ДБ.1

Обозначение ссылочного национального стандарта

Степень

соответствия

Обозначение и наименование ссылочного международного стандарта

ГОСТ Р 57668—2017

MOD

ISO 19115-1:2014 «Географическая информация. Метаданные. Часть 1. Основные положения»

ГОСТ Р 57656—2017

MOD

ISO 19115-2:2009 «Географическая информация. Метаданные. Часть 2. Расширения для изображений и матричных данных»

ГОСТ Р 57657—2017

MOD

ISO 19131—2007 «Географическая информация. Спецификация информационного продукта»

Примечание — В настоящей таблице использовано следующее условное обозначение степени соответствия стандартов:

- MOD — модифицированные стандарты.

132

ГОСТ Р 57773—2017

Библиография

[1]

(2]

(3]

И!

[5]

|6]

171

(81

(91

(10]

(111

(12]

(13]

(14]

(15]

ISO 19109:2005.

ISO 19108.

ISO 19103:2015. ISQffS 19139:2007. 19135:2005.

ISO 19110:2016.

ISO 19107:2003. ISO/IEC 23824:1999. ISO/TS 19129:2009. ISO 19123:2005.

Geographic information — Rules for application schema Geographic information — Temporal schema Geographic information — Conceptual schema language Geographic information — Metadata — XML schema implementation Geographic information — Procedures for item registration Geographic information — Methodology for feature cataloguing Geographic information — Spatial schema

Information technology — Vocabiiary — Part 4: Organization of data Geographic information — Imagery, gridded and coverage data framework Geographic information — Schema for coverage geometry and functions Environmental Systems Research Institute. Inc (ERSI) GSI Data Reviewer 4.2 User Guide CRC Handbook of Tables for Probability and Statistics. Second Edition. 1982

ISO 19156:2011. ISO 2859.

ISO 8601:2004.

Geographic information — Observations and measurements Sampling procedures for inspection by attributes

Data elements and interchange formats — Information interchange — Representation of dates and times

133

ГОСТ Р 57773—2017

УДК 622.1:528:002:006.354    ОКС 35.240.70
Ключевые слова: оценка качества данных, элементы качества данных, меры качества, пространствен* ные данные, метаданные, качество данных, поставка данных, формат данных

БЗ 11—2017/37

Редактор НА. Аргунове Технический редактор В.Н. Прусакова Корректор Е.Р. Ароян Компьютерная верстка Л.В. Софейчук

Сдано в наборов.10.2017 Подписано в печать 22.11.2017 Формат 60*64*/^. Гарнитура Ариап. Уел. леч. п. 15.81. Уч.-изд. л. 14.31. Тираж 25 экэ Зак. 2325.

Лодгоюапемо на осноае электронной версии, предоставленной разработчиком стандарта

ИД «Юриспруденция», 115419. Москва, ул. Орджоникидзе. 11

Издано и отпечатано во ФГУП «СТАНДАРТИКФОРМ», 123001, Mocisa. Гранатный пер., 4. www.90stinfo.1u