allgosts.ru01. ОБЩИЕ ПОЛОЖЕНИЯ. ТЕРМИНОЛОГИЯ. СТАНДАРТИЗАЦИЯ. ДОКУМЕНТАЦИЯ01.140. Информатика. Издательское дело

ГОСТ Р ИСО 24610-2-2013 Менеджмент языковых ресурсов. Структуры элементов. Часть 2. Декларация системы элементов

Обозначение:
ГОСТ Р ИСО 24610-2-2013
Наименование:
Менеджмент языковых ресурсов. Структуры элементов. Часть 2. Декларация системы элементов
Статус:
Действует
Дата введения:
01/01/2015
Дата отмены:
-
Заменен на:
-
Код ОКС:
01.140.20

Текст ГОСТ Р ИСО 24610-2-2013 Менеджмент языковых ресурсов. Структуры элементов. Часть 2. Декларация системы элементов



ФЕДЕРАЛЬНОЕ АГЕНТСТВО ПО ТЕХНИЧЕСКОМУ РЕГУЛИРОВАНИЮ И МЕТРОЛОГИИ


ГОСТ Р исо 24610-22013


НАЦИОНАЛЬНЫЙ

СТАНДАРТ

РОССИЙСКОЙ

ФЕДЕРАЦИИ

Менеджмент языковых ресурсов

СТРУКТУРЫ ЭЛЕМЕНТОВ

Часть 2

Декларация системы элементов

ISO 24610-2:2011

Language resource management — Feature structures — Part 2: Feature system declaration (IDT)

Издание официальное

Москва

Стенда ртинформ 2015


Предисловие

1    ПОДГОТОВЛЕН ЗАО «Проспект» на основе собственного аутентичного перевода на русский язык международного стандарта, указанного в пункте 4

2    8НЕСЕН Техническим комитетом по стандартизации ТК 55 «Терминология, элементы данных и документация в бизнес-процессах и электронной торговле»

3    УТВЕРЖДЕН И ВВЕДЕН В ДЕЙСТВИЕ Приказом Федерального агентства по техническому регулированию и метрологии от 8 ноября 2013 г No 1389-ст

4    Настоящий стандарт идентичен международному стандарту ИСО 24610-2:2011 «Менеджмент языковых ресурсов. Структуры элементов. Часть 2. Декларация системы элементов» (ISO 24610-2:2011 «Language resource management — Feature structures — Part 2: Feature system declaration»).

При применении настоящего стандарта рекомендуется использовать вместо ссылочных международных стандартов соответствующие им национальные стандарты Российской Федерации, сведения о которых приведены в дополнительном приложении ДА

5    8ВЕДЕН ВПЕРВЫЕ

Правила применения настоящего стандарта установлены в ГОСТ Р 1.Q—2012 (раздел 8J. Информация об изменениях к настоящему стандарту публикуется в ежегодном (по состоянию на 1 января текущего года) информационном указателе яНациональные стандарты». а официальный текст изменении и поправок — е ежемесячном информационном указателе я Национальные стандарты» . В случае пересмотра (замены) или отмены настоящего стандарта соответствующее уведомление будет опубликовано в ближайшем выпуске ежемесячного информационного указателя я Национальные стандарты». Соответствующая информация, уведомление и тексты размещаются также в информационной системе общего пользования — на официальном сайте Федерального агентства по техническому регулированию и метрологии в сети Интернет ()

© Стандартинформ. 2015

Настоящий стандарт не может быть воспроизведен, тиражирован и распространен в качестве официального издания без разрешения Федерального агентства по техническому регулированию и метрологии

и

Содержание

Приложение ДА (справочное) Сведения о соответствии ссылочных международных стандартов

in

Введение

ИСО 24610 состоит из двух отдельных частей.

• Часть 1 Представление структуры элементов — посвящена описанию структур, обеспечивающих неформальное, но достаточно явное выражение их характеристик, а также описанию представления структур элементов с использованием языка XML вообще и различных типов таких структур в частности. В этой части закладываются основы правильного форматирования конструируемых XML-ссылок, обеспечивающих обмен структурами элементов (возможно с выделением типов) между приложениями.

- Часть 2 Декларация системы элементов — предоставляет стандартный метод реализации различных типов структур элементов в языковой среде XML: сначала путем определения множества типов и их иерархии, затем посредством формулирования ограничений, касающихся различных типов, на множестве элементов и их допустимых значений, и. наконец путем введения множества условий, касающихся надежности структур элементов в аспекте их использования в конкретных приложениях, особенно в цепях управления языковыми ресурсами.

Структура элементов — это структура данных общего назначения, которая идентифицирует и группирует отдельные элементы посредством присваивания каждому из них конкретного значения. Благодаря универсальности структур элементов они могут использоваться для представления самых разных типов информации. Существующие связи между различными «порциями» информации и их реализация в языке разметки образуют некоторый метаязык для представления контента лингвистического характера. Более того, подобная реализация позволяет сформировать описание множества элементов и значений, соответствующих конкретным типам и их ограничениям, посредством декларирования системы элементов ил и с помощью других механизмов языка XML. обсуждаемых в данной части ИСО 24610.

Некоторые положения данной части заимствованы из ИСО 24610-1:2006 в целях обеспечения полной независимости части 2 от части 1.

НАЦИОНАЛЬНЫЙ СТАНДАРТ РОССИЙСКОЙ ФЕДЕРАЦИИ

Менеджмент языковых ресурсов СТРУКТУРЫ ЭЛЕМЕНТОВ Часть 2

Декларация системы элементов

Language resource management. Feature structures. Pari 2. Feature system declaration

Дата введений — 2015—01—01

1    Область применения

В настоящем стандарте предлагается формат представления, хранения и обмена для структур элементов в прикладных системах, основанных на использовании естественного языка, как для аннотирования. так и для формирования лингвистических данных. Основная цель состоит в том. чтобы предложить такой формат машинной обработки, который позволяет определить иерархию типов и декларировать ограничения, накладываемые на множество спецификаций элементов и на операции со структурами элементов, обеспечивая таким образом средства контроля соответствия каждой структуры элементов их базовой спецификации. Структуры элементов — это важнейшая часть многих формализаций в лингвистике и основополагающий механизм представления информации, используемой или порождаемой в приложениях, связанных с построением языковых систем.

2    Нормативные ссылки

8 настоящем стандарте использованы нормативные ссылки на следующие стандарты, которые необходимо учитыеатьпри использовании иастоящегостандарта. В случае ссылок на документы, у которых указана дата утверждения, необходимо пользоваться только указанной редакцией. В случае, когда дата утверждения не приведена, следует пользоваться последней редакцией ссылочных документов, включая любые поправки и изменения к ним.

ИСО 24610-1:2006 Управление языковыми ресурсами. Структуры элементов. Часть! Представление структуры элементов (ISO 24610-1:2006. Language resource management — Feature structures — Part 1: Feature stmcture representation)

ИСО/МЭК 19757-2:2008 Информационные технологии. Язык определения схемы документа (DSDL). Часть 2. Валидация на основе регулярной грамматики. RELAX NG (ISO/1EC 19757-2:2008. Information technology — Document Schema Definition Language (DSDL) — Part 2: Regulargrammar-based validation — RELAX NG)

3    Термины и определения

Для целей настоящего стандарта используются термины и определения по ИС0 19757-2. а также терминология, приведенная ниже:

3.1 ограничение по допустимости (admissibility constraint): Спецификация множества разрешенных элементов (3.2) и допустимых значений элементов (3.3). ассоциируемая с конкретным типом (3.24).

Издание официальное

3.2    разрешенный элемент (admissible feature): Элемент, для которого соответствующая структура элементов (3.14) определенного типа (3.24) может нести е себе конкретное значение (3.17).

Примечание — В некоторых интерпретациях этот термин часто приобретает оттенок обязательности, т. е. считается, что структуры элементов конкретного типа должны содержать а себе значение для каждого разрешенного элемента. Однако а данном случае этот термин не предполагает обязательного присутствия элемента

3.3    разрешенное значение элемента (admissible feature value): Значение (3.17), которое должно быть отнесено к категории допустимых элементов (3.2) в структурах элементов (3.14) данного типа

(3.24).

3.4    атомарный тип (atomic type): Пользовательский тип (3.24). который не имеет декларируемых или наследуемых допустимых элементов (3.2).

3.5    множество с повторяющимися элементами (bag): Триплет, образованный целым числом л, множеством S и функцией отображения целых чисел в диапазоне от 1 до л в элементы S.

Примечание — Множество с повторяющимися элементами — это промежуточный объект между обычным множеством (как совокупностью неупорядоченных элементов) и списком (где отдельные элементы могут встречаться многократно).

3.6    встроенный элемент (built-in): Элемент, не определяемый пользователем, но могущий появиться вместо структуры элементов (3.14). например в качестве значения элемента (3.17).

Примечание — Встроенные элементы могут быть атомарными или составными. К первым относятся численные, строковые, символьные и двоичные элементы, ко вторым — коллекции (3.7) и применяемые логические операторы: например дизъюнкция, отрицание и слияние (см. п. 5.2.4).

3.7    коллекция (collection): Значение элемента (3.17). содержащее совокупность возможных значений, которые представлены в виде списка, обычного множества или множества с повторяющимися элементами (3.5).

3.8    ограничение (constraint): Компонент спецификации, которая идентифицирует некоторую коллекцию структур элементов (3.14) как неадекватную.

Примечание 1 — все ограничения по своей синтаксической форме импликативиы. хотя некоторые из них выделяются как ограничения по допустимости. См. адекватность (3.31) и S.4. все структуры элементов, которые не исключены явным образом как неадекватные, считаются адекватными.

Примечание 2 — Структура элементов, не идентифицированная таким образом как не соответствующая никакому из ограничений в системе эламентов. считается адекватной.

3.9    значение по умолчанию, стандартное значение (default value): Значение (3.17). присваиваемое элементу (3.12) в том случав, когда оно не определено

Пример — В датском языке при отсутствии явного указания грамматического рода ему присваивается значение «мужской».

Примечание — Структура элементов не может содержать элементов, для которых не указано соответствующее значение.

3.10    пустая структура элементов (empty feature structure): Структура элементов (3.14). не содержащая никакой информации.

Примечание — Пустая структура элементов категоризирует все другие структуры элементов.

3.11    расширение (extension): Преобразование типа категоризации (3.21).

Примечание — Структура элементов F расширяет G тогда и только тогда, когда G категоризирует f.

3.12    элемент (feature): Свойство или аспект объекта, формально представляемые как функция, отображающая объект в его соответствующее значение (3.17).

3.13    спецификация элементов (feature specification): Связывание элемента (3.12) с его значением (3.17) в описании структуры элементов.

3.14    структура элементов (feature structure): Структура записей, которая ставит в соответствие каждой коллекции элементов одно значение (3.17).

Примечание 1 — Каждое значение представляет собой структуру элементов или более простой встроенный элемент (3.6), такой как строка.

Примечание 2 — Структуры элементов частично упорядочены. Минимальными в этом упорядочении являются пустые структуры элементов.

3.15    система элементов (feature system): Иерархия типов (3.26), в которой каждый тип (3.24) ассоциируется с коллекцией ограничений по допустимости (3.1) и импликативными ограничениями (3.18).

Примечание — Сравните деклараций типа (3.2S).

3.16    декларация системы элементов (feature system declaration); FSD: Описание конкретной системы элементов (3.15).

3.17    значение для элемента (feature value): Объект или совокупность объектов, характеризующие некоторое свойство другого объекта.

3.18    имлликативное ограничение (implicatiooal constraint): Ограничение типа «если G. то Н». где Gn Н — это структуры элементов (3.14)

Примечание — Такое ограничение идентифицирует любую структуру элементов F как неадекватную, когда G категоризирует F. a F и И обычно не имеют адекватного расширения. См. категоризация (3.21) и n. 8.S. Часто ограничение такого вида используется при обращении к импликативным ограничениям, которые одновременно не являются ограничениями по допустимости.

3.19    интерпретация (interpretation): Минимально информативное (т. е. наиболее общее) расширение (3.11) структуры элементов (3.14). которое совместимо с множеством ограничений, объявленным в декларации системы элементов (3.16).

3.20    частичный порядок (partial order): Множество S. для которого определено отношение s на Sx S. которое 1) рефлексивно (для всех seS. sss). 2) антисимметрично (для всех р.д 6 S. если ps<y и q sp. тор = q). и 3) транэитиено (для всехр. q, re S. если р sq и q Sr. тор Sr).

Примечани е — Множество целых чисел 1 частично упорядочено, но дополни те ль но оно обладает свойством. согласно которому для каждого р. q с I выполняется условие р £ р или q &р. Этим свойством обладает не любой частичный порядок. Например, такой частичный порядок, как таксономическая классификация организмов по типам, родам и видам, указанным свойством не обладает: не обязательно обладают этим свойством также иерархии типов. Типизированные структуры элементов системы не имеют этого свойства, если (а) данное свойство присуще иерархии их типов, и (Ь) иерархия типов состоит из единственного типа либо каждый тип у ограничен присутствием одного-одинственнопо подходящего элемента.

3.21    категоризация (subsumption): Свойство, связывающее две структуры элементов G и Fтаким образом, что G считается принадлежащей Fтогда и только тогда, когда Fнесет в себе всю информацию, которую содержит G.

Примечание — Формальное определение представлено ниже, в 5.6.

3.22    подтип (subtype): Тип (3.24). на который распространяются ограничения и соответствующие характеристики, содержащиеся в другом типе.

3.23    супертип, иадтип (supertype): Тип (3.24). от которого другой тип наследует ограничения и соответствующие элементы

Примечание — з является подтипом t тогда и только тогда, когда г — супертип s. Каждый тип является подтипом и супертипом самого себя.

3.24    семантический тип (semantic type): Тип. характеризующий выражение, с помощью которого коллекция структур элементов (3.14) различается как идентифицируемый и концептуально значимый класс.

Примечание — Как это следует из имени семантической тип. типы, о которых идет речь в данной части ИСО 24610. не предназначены для различения структур элементов или их спецификаций по синтаксису.

3.25    декларация типа (type declaration): Информационная структура, декларирующая супертипы (3.23), допустимые элементы (3.2). значения допустимых элементов (3.3), ограничения по допустимости (3.1)иимпликативные ограничения (3.18) для данного типа (3.24)

Примечание — Ограничения, накладываемые не тип в результирующей системе элементов, — это огрвиичеиия. объявленные в деклврвции дополнительно к унаследованным от супертипов.

3.26    иерархия типов (type hierarchy): Частичный порядок (3.20) на множестве типов (3.24).

Примечание — См. ИСО 24610-1:2006. Приложение С. Наследуемые иерархии тилое.

3.27    типизированная структура элементов (typed feature structure): TFS: Структура элементов (3.14). несущая в себе тип (3.24).

з

3.28    типизация (typing): Присваивание семантического типа (3.24) встроенному эпемонту (3.6) либо структуре элементов (3.14), атомарной или составной.

Примечание - Семантические типы в системах элементов частично упорядочены и имеют множественные отношения наследования.

3.29    недоопределение (underspecification): Предоставление неполной информации о значении (3.17).

Примечание — Недооп ределение обычно категоризирует одно значение из диапазона возможных значений, которые могут быть сведены к единственному значению путем последовательного наложения ограничений. См. категоризадия (3.21).

3.30    формальная правильность (well-formedness): Синтаксическое соответствие представления структуры элементов (3.14) ИСО 24610-1.

3.31    адекватность (validity): Соответствие типизированной структуры элементов (3.27) действующим ограничениям (3.8) конкретной системы элементов (3.15).

Примечание — См. раздел 6.

4    Общая структура стандарта

Основное содержание настоящего документа отражено в четырех разделах — 5.6.7 и 8.

. в разделе 5 Базовые понятия — рассматривается определение типизированных структур элементов и вводятся понятия атомарных и составных типов структур элементов, коллекций и прочих операторов. могущих фигурировать в значениях элементов: затем описываются понятия наследуемых типов, иерархий типов, ограничений типов, значений по умолчанию и нодоопредепения, которые имеют важнейшее значение для конструирования систем элементов.

•    В разделе 6 Определение формальной правильности и адекватности — обсужда ются условия отмеченности и достоверности структур элементов.

•    Раздел 7 Система элементов для грамматики — иллюстрирует способ определения типов с использованием иерархии и ограничений типов, в рамках которых декларируются допустимые элементы и значения для конкретных тилоа.

-    В разделе 8 Декларация системы элементов — показывается, каким образом система элементов может быть декларирована и преобразована в валидатор.

Эта главная часть документа включает в себя два приложения:

-    приложение А содержит the XML-схему для данной части ИСО 24610:

-    приложение В содержит развернутый пример.

5    Базовые понятия

5.1 Рассматриваемые типизированные структуры элементов

Типизированные структуры элементов (TFS) вводятся как базовые записи для управления языковыми ресурсами.

Для получения более подробной информации следует обратиться к ИСО 24610-1:2006. пункт 4.7 Типизированные структуры элеменпюв и приложение С Типизированные иерархии наследования.

В данном документе TFS определяется формально как кортеж на конечном множестве элементов Feat, который состоит из коллекции X элементов, не входящих в структуру, и иерархии типов Туре с отношением где Туре — это конечное множество типов, а отношение ^определяет выделение подтипов на множестве Туре.

Структура элементов представляет собой кортеж <0. у. 0,6>. в котором:

a)    Q — множество узлов.

b)    у еО — корневой узел структуры элементов.

c)    ft. О ->Ту ре я вляется функцией частичного упорядочения, и

d)    a Feat х Q -»Q^X — функция частичного означивания элементов, такая, что для всех q е О существует последовательность элементов F,,.... F„. в которой 6[F„. ...S(F,. y)...] = g.

Обозначение <fs> показывает узлы. Приведенное выше определение отличается от стандартного, используемого в лингвистике и теории вычислительных систем тем. что во-первых типизация осуществляется частично, а не полностью (т. е. типы определяются не для всех структур элементов) и во-вторых значения элементов не обязательно должны представлять собой структуры элементов: однако эти эиачения могут извлекаться из коллекции, отмеченной другими элементами XML. такими, какстроковые, численные, символьные и двоичные (выше им соответствует обозначение X).

Узлы типизируются, тогда как сами элементы — нет.

Приведенное ниже ХМL-представление структуры элементов считается формально правильным: в нем атрибут «тип» указывается для каждого из двух элементов <fs>.

Пример — Типизированная структуре элементов:

<fe type*"worde>

<f пате*"оЛГГ>

<atring>had<i'etrlng>

</f>

<f nameB'morphoSyntax*>

<fe iype«*verb*>

<Г name*"tenee*>

<aymbol valuec"pa9t7>

<fi>

< I n am e a"a uxilie гу“>

<blnary value="fei9e~/>

<Af>

</f B>

</f>

</fe>

Имя элемента ORTH обозначает орфографию, т. е. общепринятое написание слова или фразы.

Данное XML-представление показывает, каким образом определяются морфосинтаксические характеристики английского слова «had» как невспомогательного глагола в прошедшем времени.

В альтернативной «матричной» или «AVM» нотации имена типов обычно пишутся строчными буквами, иногда курсивом или текстовым типографским шрифтом; имена элементов пишутся заглавными буквами, а строковые элементы заключаются в кавычки. Двоичные значения отмечаются знаками «плюс» (♦) или «минус» (-). В данном документе эти соглашения тоже соблюдаются. Представленная выше структура элементов должна при использовании матричной нотации выглядеть так. как показано на рисунке 1.

"word    "

ORTH *Ь$/Г

Пмгь

MORPHQ9YVTAX ТВДЭЕр#*

[auxiliary.^

Рисунок 1 — Матричная нотация

5.2 Типы

5.2.1 Атомарные типы

Наряду со структурами с встроенными элемента ми (<symbo)>, <stnng>. <numeric> и <binary>) могут существовать структуры элементов, имеющие тип, но не имеющие элементов. Такие структуры называются простыми или атомарными структурами элементов, а типы, которые допускают отсутствие элементов в декларации системы элементов (FSD). именуются атомарными типами.

В результате всегда имеется возможность декларирования новых атомарных типов и использования их вместо вышеупомянутых встроенных элементов для задания простых значений. Например, приведенная выше структура элементов при условии декларирования в FSD дополнительных типов had. past и false могла бы быть представлена так. как показано ниже.

Пример — Альтернативная формулировка типизированной структуры элементов.

<Га types"wor<r>

<f nameaeonh*>

<Ге typea"had7>

<ti>

<1 namea*morphoSyntax">

<fe types"verb*>

<f name=*lenee*>

<fa type-*past*/>

</f>

<f nam©=“auxiliary‘>

<blnary valuea'faiaa‘>/>

</f>

<tfe>

</f>

</fe>

Существует различие между двумя классами встроенных элементов: <string> (строковый) и <symbol> (символьный). <binary> (двоичный). <numeric> (численный). 6 качестве содержимого элемента <string> допустима любая строка, тогда как в элементах <symbol>. <binary> и < numeric» набор допустимых значений строго ограничен. Для отражения такого различия значения членов последнего класса определяются с использованием атрибута value. Тил <Ыпагу>. например, ассоциируется с четырьмя значениями: true (истина), false (ложь), plus (эквивалент true) и minus (эквивалент false).

Примечание — В ИСО 24610-1:2006 был введен тип binary (двоичный), но в схеме W3C XML (2001) он называется Boolean (булев).

Задача кодировщика состоит в том. чтобы осуществить правильный выбор между кодированием атомарных типов и встроенных элементов. В данной части ИСО 24610 различие между двумя вышеуказанными классами не проводится.

5.2.2    Составные типы

Типы, не являющиеся атомарными, называются составными. К ним относятся все типы, декларируемые кодировщиком в FSO. где объявляются или наследуются допустимые элементы. Элемент допустим для некоторого типа только в том случае, если структурам элементов данного типа декларацией FSO разрешается принимать те или иные значения. Из этого не следует, что структуры элементов не могут произвольно ассоциироваться с теми или иными типами независимо от их элементного наполнения. Такое ассоциирование возможно, но проверяться на адекватность FSD смогут лишь те структуры элементов, которые содержат только элементы, разрешенные какой-либо FSO. Различие между адекватностью и формальной правильностью рассматривается более подробно в разделе 6.

Все типы, декларируемые пользователем (независимо от того, атомарные они или составные) являются семантическими представлениями, т. е. синтаксически выглядят похожими друг на друга, если не принимать во внимание значения атрибутов типов. Интерпретация реального смысла этих типов посредством наложения ограничений по допустимости, ограничений на возможные значения разрешенных элементов (<vRange>) и прочих ограничений в виде логических импликаций — это задача валидатора.

Встроенные элементы, определенные для представлений структур элементов (FSR) е рамках ИСО 24610-1:2006. являются чисто синтаксическими, могут использоваться без декларирования в FSD. а потому их декларирование в FSD невозможно. Они могут появляться в ограничениях по диапазону значений или в импликативных ограничениях, однако сами не могут иметь таких ограничений (поскольку не имеют допустимых элементов) и сами не могут накладывать никаких ограничений.

5.2.3    Коллекции

Однако не все встроенные элементы столь просты, как элементы, отмеченные выше. Некоторые грамматические элементы — такие как спецификаторы (SPR). дополнения (COMPS) и аргументы (ARGS) — считаются обладающими списком грамматических значений, особенно в контекстных грамматиках [10. 12]. В других языках в отличие от английского некоторые из указанных элементов могут иметь в качестве своих значений другие коллекции: это могут быть простые множества или мультимножества. 8 языке с относительно произвольным порядком слов (например, в немецком, корейском или японском) элемент COMPS может анализироваться как принимающий значения множества или мультимножества. а не списка дополнений. Таким образом для приложений более общего характера в ИСО 24610-1:2006 вводятся в качестве встроенных методов компоновки значений составных элементов простые множества, мультимножества и списки.

Коллекции (<vCol!>: ISO 24610-1:2006, л. 5.8, Коллекции как значения составных элементов) снабжаются атрибутом способа организации (огд). который принимает значения «list», «set» и «bag», в списках важную роль играют порядок и многократность вхождения элементов.

В множествах с повторяющимися элементами важна только многократность вхождения элементов (такие множества часто называются мультимножествами). Применительно к обычным множествам ни порядок, ни многократность вхождения элементов не играют роли.

Например, элемент глаголов ARGS может представляться посредством определения способа организации коллекции <vColl> как списка значений, каждое из которых относится к типу phrase.

Пример — Списковое значение <fs type=’word*>

<f name^orth*»

<etrlng>put</etrlng>

</f>

<f name*‘args*>

<уСо11огд=*Т1аГ>

<fs type B*ph rase* >

<vLabel name=*L1V>

<f name**nommar>

<blnary value**pius*7>

<Af>

</fe>

<fa type**phrase*>

<vLabel namea<L2’/>

<f name**nom<nar>

<blnary value «“plus"/»

<H>

</fa>

<fatype-*phrase*>

<vLabel name=*L3*/>

<f name*"prepositionar>

<blnary value=*ptus*/>

<H>

<rta>

</VColl>

</f>

</fa>

Этот тип коллекций можно было бы отнести к списковым [fist (phrase)], однако полиморфные списки пока еще не поддерживаются данной частью ИСО 24610. Рассмотренный тип эквивалентен приведенной ниже нотации AVM. NP обозначает структуру элементов типа phrase с положительным элементом NOMINAL, а конкретней — именную группу, а РР соответствует структуре элементов тип phrase с положительным ПРЕДЛОЖНЫМ элементом, а именно — предложной группе. Числа в прямоугольниках являются пометами для разметки совместного использования структуры, как показано на рисунке 2.

'

ОКТН "риГ

ARQS <[Т] ИР, QD М», ПОрр>.

Рисунок 2 — Размотка совместного использований структуры

5.2.4 Операторы

Еще один класс встроенных элементов — это операторы, которые принимают один или несколько встроенных элементов или структур элементов в качестве своих аргументов, но вместо конструирования из них коллекции указывают некоторое значение, получаемое на их основе тем или иным методом.

Дизъюнкции (<vAJt>: ИСО 24610-1:2006. пункт 5.9.2) указывают одно из значений их аргументов. Однако структура элементов, содержащая дизъюнкцию, не может представлять структуры множественного типа. Дизъюнкция — это единственное значение, которое не определяет точно конкретный вариант из числа возможных. Дизъюнкции могут рассматриваться как объединения их аргументов в рамках частичного порядка, установленного категоризацией (см. 5.6).

Отрицания (<vNeg>; ИСО 24610-1:2006, пункт 5.9.3) имеют единственный аргумент и указывают значение, которое не является их аргументом. Отрицание эквивалентно дизъюнкции всех значений, которые не соответствуют его аргументу. Фактически отрицание не является логической функцией отрицания конкретного значения, а скорее представляет собой дополнение того значения в полной булевой решетке, которое содержит частичный порядок, установленный категоризацией.

Слмянме(<уМегде>; ИСО 24610-1:2006. пункт 5.9.4. Коллекция значении) указывает конкатенацию или объединение нескольких значений и/или коллекций значений е соответствии с настройкой их атрибута огд. Этот атрибут принимает те же значения и тот же смысл, которые содержатся в <vColl>.

5.3 Иерархии наследования типов

Иерархия типов <Туре. £> достаточно подробно рассматривается в приложении С ИСО 24610-1:2006. Эта структура обычно отображается как ориентированный ациклический граф с единственной вершиной. Данная вершина часто имеет метку top и представляет самый общий тип. который совместим со всеми типизированными структурами элементов. Подтипы соединяются со своими супертипами и располагаются уровнем ниже. Максимально конкретизированные типы появляются в самом низу графа. Они взаимно несовместимы друг с другом, что обычно бывает либо абсолютно ясно, либо иногда отображается другим конкретизированным типом (bottom), который является единственным самым нижним элементом. В рамках данной части ИСО 24610 тип bottom не используется.

На рисунке 3 показан пример, иллюстрирующий частичную иерархию типов для живой природы.

МфЬ*ф1

tah Ыгц rvufTvnai

dog htmtibovto

Рисунок 3 — Иерархия типов яле живой природы

В соответствии с этим рисунком живая природа (living beings) разделяется на растительность (plant) и животный мир (animal). Далее животные разбиваются на классы рыб (fish), птиц (bird) и млекопитающих (mammal). Собаки (dog), люди (human) и крупный рогатый скот (bovine) — вол. корова, бык — принадлежат к классу млекопитающих.

Иерархии типов не всегда имеют древовидную структуру: в схеме может быть два или больше ответвлений, сходящихся в одном узле. Когда такое случается, это означает, некоторый тип имеет несколько супертипов и свойства, наследуемые от всех них. Пример подобной иерархии приведен на рисунке 4.

Injfflfcwta snfcjirtB


tpHtueJ

ratiomJ human argol

Рисунок 4 — Средневековая иерархия живых существ

Здесь тип human (человек) имеет два родительских типа: animal (животное) и rational (разумное существо). Следовательно, человек рассматривается одновременно и как животное (подобно собаке) и как мыслящее существо.

Эти типы частично упорядочены с помощью отношения выделения подтипов £на множестве всех типов. Тип т является подтипом по отношению к типу а тогда и только тогда, когда а имеет более общий характер по сравнению с т. т. е.. когда множество структур элементов типа а содержит в себе множество структур элементов типа т. Так как тип animate (одухотворенный) является в приведенном выше примере более общим по отношению к типу animat, все животные определяются как одушевленные. Тип а считается супертипом типа т тогда и только тогда, когда т является подтипом а.

Непосредственные супертипы какого-либо типа часто называются его родителями.

Подтип наследует все свойства от своего супертипа. Например, тип human наследует все свойства от своих супертипов (каковыми являются being, animate, animat, spiritual* rational).

На рисунке 5 приведен несколько измененный лингвистический пример из грамматики Коуп-стейка [2).

*п ; Р»

wort (tine* щдгч*1 dat noun verb

I

atom Setog noxbfttg

Рисунок S — Иерархия типов для вершины простой грамматики

Данная иерархия типов имеет единственную вершину. Этосамый общий тип, не имеющий ни родителей. ни непосредственных супертипов. Тип top — это также единственный подтип самого себя.

Каждый тип имеет имя и у каждого типа за исключением наивысшего имеется один родитепь. У типа с именем top есть четыре непосредственных подтипа. Подтипы phrase {речевой оборот) и det (определяющее слов о) — не сопоставимы в том смысле, что ни один из них не является подтипом другого.

6 зависимости от степени сложности грамматики иерархия типов может оказаться очень сложной. Некоторые ее участки могут быть универсальными для всех языков, тогда как другие могут быть очень специфичными для конкретного языка. Так тип соглашения agr-cat (соглашение по категоризации) в английском языке имеет только два непосредственных подтипа: 3sing и non-3sing (например, «sings» и «sing»).

Тип det обозначает определяющее слово (determiner), такое как артикли «Ше» или «а»; 3sing указывает на 3-е лицо единственного числа, a non-3sing указывает категории соглашений, отличные от 3sing. Это различие характерно для правил согласования глаголов в английском языке.

5.4 Ограничения для типов

Иерархия типов представляет собой основу, на которой строятся все остальные разделы грамматики. которые принимают форму ограничений для структур элементов на множестве пользовательских типов. Такие ограничения бывают, как минимум, трех видов: 1) импликативные. 2) по разрешенным элементам и 3) по допустимым значениям элементов. Все они могут быть выражены в импликативной форме:

-    если структура элементов относится к типу verb, то она может иметь элемент Auxiliary.

-    если структура элементов относится к типу verb, она может иметь элемент IN Verted.

-    если структура элементов относится к типу verb, то ее значением AUX должно быть “binary4.

-    если структура элементов относится к типу verb, то ее значением INV должно быть ‘binary4.

-    если структура элементов относится к типу verb и ее значение AUXотрицательно, то ее значением INV должно быть ‘negative*.

Первые два из этих ограничений являются ограничениями по допустимости. Они говорят о том. что конкретный элемент может использоваться в структурах элементов определенного типа. Следующая пара ограничений касается значений допустимых элементов и называется иногда «ограничениями по значению» или «ограничениями по диапазону». Они говорят о том. какие значения должен принимать конкретный элемент, когда он входит в структуру элементов данного типа. Последнее из ограничений имеет наиболее общую форму, однако этот вид ограничений говорит о том. что когда структура элементов приобретает некоторую конкретную форму (определяемую типами, значениями элементов и т. п.). она должна удовлетворять каким-то другим критериям (опять же выраженным в терминах типов, значений элементов и т. п.). Эта последняя форма ограничения обычно представляет собой то. что подразумевается под импликативным ограничением синтаксической конструкции. Каждая из этих трех форм имеет свою синтаксическую структуру в FSD. Далее показан пример кодирования вышеуказанных ограничений применительно к глаголу.

Пример — Ограничение для типа verb <fsDecl type=*vert>“>

<fDecJ name-*aux~>

<vRange>

<blnary/>

</vRange>

</fDecl>

<fDecl name»*iny*>

<vRange>

<t>lnary/>

<»vRange>

</fDecl>

<(ftConetreints>

<cond>

<ls>

<f name»*,aux*>

<blnary value «"fa !&•"/>

</f>

</fe>

<then/>

<fa>

<f name^inv*»

<blnary value a"fa tee“/>

</f>

</#•>

</cood>

</lsConatralnta>

</faDecl>

Два первых вида определяются вместе внутри элемента <fDecl>. причем второй из них описывается частью <vRange> указанной декларации, тогда как третий определяется в форме условной конструкции «если...,то...»(<сопР>).

5.5 Опциональные (стандартные) значения и недоопределение

Некоторые элементы, образующие структуру, подлежат обязательному определению, а некоторые — нет. Так во французском языке спецификация элементов NUMBER (ЧИСЛО) и GENDER (РОД) обязательна для имен существительных и прилагательных, а в английском языке элемент NUMBER должен определяться для каждого существительного, а определение элемента GENDER — не обязательно и требуется только для местоимений третьего лица единственного числа «he», «she* и «it».

Тем не менее встречаются случаи, когда некоторые обязательные элементы не определяются. Для таких случаев имеются два вероятных исхода: 1) если определено стандартное значение по умолчанию, то считается. что и мен но оно и должно быть присвоено, и 2) если значение по умолчанию не определено. то присваиваемое значение элемента выводится логически из действующего ограничения элемента по диапазону значений.

Английские неисчисляемые существительные, такие как «вода» и «воздух», по умолчанию определяются как несчетные и не имеющие множественного числа. Отсюда следует, что для них не требуется определения элемента NUMBER, хотя сам элемент NUMBER обязателен. В английском языке некоторые исчисляемые существительные (например, «sheep») могут иметь одну и ту же форму в единственном и множественном числе. Когда элемент NUMBER не определен, считается, что его значение относится к некоторому более общему типу, такому как number. который является супертипом всех значений разрешенных элементов.

Грамматические описания часто бывают недоопределенными в целях обеспечения возможности обобщения. Так в английском языке глаголы разделяются при необходимости на ряд дополнительных категорий; непереходные глаголы — например, «smile» (улыбаться) и «bark» (лаять) — присоединяются только к подлежащему; переходные глаголы — такие как «love» (любить) и «attack» (атаковать, нападать) — присоединяются только к подлежащему и требуют за собой прямого дополнения. Есть еще и дитранзитивные («дважды транзитивные») глаголы — например, «give» (давать), «put» (класть), которые имеют при себе подлежащее и одновременно — прямое и косвенное дополнения. Однако многие грамматические явления не относятся ни к одному из перечисленных выше специфических подклассов. В качестве примера подобных явлений в английском языке можно привести согласование подлежащего с глаголом (правильную форму «The dog barks» и неправильную «the dog bark») или инверсию глагольной формы посредством ее вынесения в позицию перед подлежащим («Does the dog bark?» в противоположность неверной форме «Do the dog attacks Jane?»). Поскольку спецификация данного элемента не дает описания вышеуказанных грамматических явлений, он остается недоопределенным.

Ниже приводится еще один пример иедоопределения. Анализ предложения типа «The sheep attacked Jane» может оказаться недоопределенным в части значения NUMBER для элемента «sheep». Неоднозначность этого элемента отмечается явным образом лишь в случае особой необходимости.

Значения по умолчанию определяются в FSD с помощью элемента <vDefault>. как объясняется в 8.4. и могут бытьполучены из FSR с использованием элемента <defautt> (ИСО 24610-1:2006. пункт 5.10).

5.6 Категоризация

Структура элементов F категоризирует другую такую структуру G (Fc G) тогда и только тогда, когда G содержит в себе всю информацию, имеющуюся е структуре F. а Информация» предоставляется структурой элементов двумя лутями: посредством типизации элементов и посредством уравнивания маршрутов. Если рассматривать структуры элементов как лары маршрутов, связанные отношением эквивалентности (=). и как функцию частичной типизации на множестве маршрутов (0). то формально < >е < =□,    > тогда и только тогда, когда =* s =*-; при этом, если для всех xePathSp r>Pathsc опре

делено (л), то 0о(л) определено и является подтипом С-)Дл). Когда Fc G. говорят, что G расширяет F.

Представление типизированной структуры элементов в настоящем документе имеет более общий характер по сравнению с представлениями, часто фигурирующими в лингвистической литературе и в теоретических публикациях по вопросам логики типизации элементов. Это имеет место в силу того, что в нашем случае присутствуют символьные, строковые, численные значения элементов и значения, отличные от элементов <fs>. Что же касается расширений и категоризации, то строковые, символьные, численные и булевые (двоичные) элементы ведут себя так. будто они являются типами, не содержащими разрешенных элементов, которые одновременно частично упорядочены, но никак не связаны с остальной частью иерархии наследования. Иначе говоря, они не связаны отношениями выделения подтипов ни с какими другими типами, кроме самих себя. Структуры элементов таких «типов» категоризируются только ими самими и наиболее общей не типиэированной структурой <fs/>. и они не имеют никаких других расширений. отличных от них самих. Следует соблюдать осторожность в отношении определения категоризации в рамках расширенного представления типизированных структур элементов, так как между сходными по виду символами, строками, числами и т. л. все же могут существовать или отсутствовать какие-то связи. Практикуемое более широкое рассмотрение аспектов идентичности таких объектов оказывается несовместимым стам представлением идентичности, которое обеспечивает логика типизации структур элементов на множестве их собственных типов; а именно такой подход используется в данной части ИСО 24610 как для структур элементов, так и для других объектов, когда они встречаются в рамках структур элементов.

в рамках логики типизации элементов зачастую исключаются из детализированной формализации еще и дизъюнкции, однако они могут трактоваться как объединения аргументов соответствующих типизированных структур в рамках отношения частичного порядка на множестве типизированных структур элементов, порожденных категоризацией. Аналогично отрицание значения может рассматриваться как объединение всех структур, которые не соответствуют отрицаемому значению при выполнении операции унификации. Коллекции обычно зависят от способа организации структур элементов. Списки выглядят при частичном порядке категоризации так. как если бы они кодировались как типизированные структуры элементов с использованием FSO.

Пример — Фрагмент f SD <faDecl type-*iist* ЬавеТуреоа<Чор*У>

<faOecl iypea"e-hsr ЬавеТуреа*"НзГ>

<feOeecr>Empty hste<.'feDeecr>

</feOecl>

<faOecl lype^ne-lisf baseTypes-*tteta‘>

<faOe9cr>Nonempty ii9ie</lsDeacr>

<fDecl namae"flrsr/>

<fDecl namee"reet’>

<vRange>

<fa iypeaelietV>

</vRange>

</fDecl>

</feDee1>

Одно множество с повторяющимися элементами (мультимножество) 8, категоризирует другое мультимножество В2 тогда и только тогда, когда существует общая сюръекция а между элементами двух мультимножеств, такая, что для всех 6, в области В, с кратностью и, (О,) и для всех Ь2 в области В2 с кратностью р22) выполняются следующие условия:

D Ь,<= о(6,).

2) р, №,)>£«,№,).

6,:о(6,) = 62,

а а можно расширить до полной функции а*, связывающей подструктуры элементов двух мультимножеств та ким образом. что для всех подструктур с эл ементов из 8Г

и

3)    л'(с) = а (с), если с является элементом в, и

4)    cf [6(F. с)1 = fi[F. а#(с)) для каждого Fe Feat, такого, что значение 6[F, с) определено.

Аналогично одно множество S, категоризирует другое множество S2 тогда и только тогда, когда

лрименимы условия 1). 3) и 4). Это означает, например, что двухэлементное множество {F,. F2) категоризирует одноэлементное множество {G,}. если одновременно F, с G, и F2c G,. Такая частично упорядоченная интерпретация множеств называется теорией множеств Полларда — Мошайра (PoJIard-Moshier). которая наиболее популярна в логике типизации элементов.

Кроме того, мультимножество категоризирует любой слисок. который является перестановкой его элементов. Множество категоризирует мультимножество, если область мультимножества является обычным множеством, т. е. все без исключения элементы множества появляются в мультимножестве один раз или многократно.

Комбинация коллекций (<vMerge>)занимает в частичном порядке категоризации тоже положение, что и результат конкатенации или объединения, который эта комбинация определяет вместе с методом организации, если таковой необходим.

Рефлексивное или транзитивное замыкание всех этих условий порождает отношение категоризации. фигурирующее в данной части ИСО 24610.

6 Определение формальной правильности и адекватности

6.1    Общее описание

6.1.1    Общие замечания

в данном разделе проводится различие между использованием понятий «формальная правильность)» и «адекватность», поскольку эти понятия имеют отношение к представлениям структур элементов и к системам элементов. В теоретической лингвистике, даже в ее частях, якобы основанных на использовании логики типизированных элементов, оничасто используются каксинонимы или в значениях. отличных от их традиционного понимания в формальной логике и в XML. Использование вышеуказанных понятий в формальной логике и в языке XML тоже различно. Поэтому прежде чем приступить к определению этих понятий, целесообразно дать краткий обзор трактовок рассматриваемых понятий в двух указанных областях.

6.1.2    Формальная логика

В формальной логике понятия формальной правильности и адекватности четко разграничиваются. Формальная правильность — это синтаксическая концепция, тогда как адекватность — понятие семантическое. Цепочка символов в логике считается формально правильной, если она определяется с помощью набора правил ее формирования. В логике первого порядка, например, последовательность символов V* [Н(х) -►[G(x) ~>Н(х))] считается формально правильной формулой, в которой V — это квантор всеобщности, х — отдельная переменная, стрелка -♦соответствует двоичному пропозициональному оператору. G и Н — символы одноместного предиката, а все скобки обеспечивают должное согласование. В тоже время символ vx сам по себе формально неправилен, поскольку правило построения синтаксических конструкций с кванторами требует, чтобы за каждым квантором с переменной следовало формально правильное выражение. Таким образом, в данном случае правила построения синтаксических конструкций вычленяют множество формально правильных формул из всего множества произвольных строковых записей.

Далее семантические правила логики первого порядка обеспечивают интерпретацию этих формально правильных формул посредством оценки их значений истинности. Поскольку логика первого порядка бивалентна, каждая формула, содержащая в себе атомарные формулы, истинна или ложна относительно некоторой интерпретации (или модели) и. возможно, относительно присваивания значений переменным в случае так называемых открытых формул наподобие G(x) и Н(х). Формула G(x) справедлива относительно некоторой модели и некоторого присваивания значений тогда и только тогда, когда значение, присваиваемое переменной х. принадлежит множеству возможных значений G рассматриваемой модели. Допустим, что х — это Джейн, a G — это множество девушек. Тогда выражение G(x) истинно в предположении, что Джейн — девушка. Однако формула Vx[H(x) ->[G(x) -♦Н(х)]) справедлива всегда относительно любой модели или любого присваивания значений, потому что данная формула есть одна из форм описания тавтологии [р -+[9 -♦р)] в логике высказываний. Такая формула называется адекватной. В общем случае формально правильная формула считается адекватной, если она справедлива для всякой интерпретации/модели. Одна из семантических задач в логике состоит в том. чтобы выделить все без исключения адекватные формулы из тотального множества формально правильных формул.

6.1.3 ЯэыкХМ!.

В языке XML тоже проводится четкое различие между двумя рассмотренными выше понятиями. Документы на языке XML могут быть формально правильными или неправильными (недействительными). и тогда формально правильные документы могут оказаться адекватными либо неадекватными (недействительными). Как и в большинстве других языков разметки документов, формально правильный XML-документ должен отвечать требованиям ряда правил, касающихся единственности корневого элемента, правильности вложенных структур и согласованности объектов документа. Критерии адекватности XML-документов установить труднее, однако прежде всего адекватные документы должны быть хорошо согласованными и выверенными на соответствие всем ограничениям (правилам), устанавливаемым далее грамматикой документов, например внутренними или внешними правилами определения типов документов (Document Type Definition (DTD)], схемой XML и форматом RELAX NG либо каким-то иным форматом. Неадекватные XML-документы называются также недействительными.

6.2 О стандарте ИСО 24610

6.2.1 Определения

8 ИСО 24610 «формальная правильность» и «адекватность» рассматриваются как принципиально разные понятия в форме, которая в общем аналогична структурам языка XML. но роль DTD в ней играют декларации систем элементов, определяемые данным стандартом:

• представление структуры элементов формально правильно тогда и только тогда, когда оно соответствует определениям деклараций структур элементов и правилам типизации, определенным в ИСО 24610-1:2006 или его более поздних версиях.

-    следствие: каждое представление структуры элементов на языке XML должно отвечать условиям формальной правильности XML-документов в части наличия единственного корневого элемента, соответствующей структуры вложений и согласованности элементов:

-    представление структуры элементов на языке XML адекватно тогда и только тогда, когда оно формально правильно и соответствует системе элементов, декларированной (в DTD. схеме XML или в каком-то ином формате) для конкретного приложения, в котором используются типизированные структуры элементов.

Формально правильная структура элементов считается типизированной в отношении согласованной (в смысле ХМL) декларации FSD тогда и только тогда, когда каждый элемент <fs>. содержащийся в ней (включая и саму декларацию, если она является элементом <fs>). несет в себе значение атрибута для типа, явно декларированного в каком-либо элементе <fsDed> декларации системы элементов FSD. Каждое типизированное представление структуры элементов однозначно указывает типизированную структуру элементов. В настоящем стандарте понятия «типизированная структура элементов» и «представление типизированной структуры элементов» используются как синонимы, ноне все структуры элементов в ИСО 24610-1:2006 являются типизированными: между тем понятия «адекватность» и «проверка адекватности» в отношении FSD имеют смысл только применительно к типизированным представлениям структур элементов.

Типизированная структура элементов может быть формально неправильной по нескольким причинам. Для обеспечения ее адекватности необходимо прежде всего, чтобы она была согласованной и удовлетворяющей как условиям формальной правильности для языка XML. таки определениям структуры и типизации элементов. Кроме того, значения элементов структуры должны находиться в пределах декларированных допустимых диапазонов. Наконец, типизированная структура должна удовлетворять действующим ограничениям ее типов и ограничениям, наследуемым от базовых типов.

8 отличие от языковой среды XML типизированные структуры элементов частично упорядочены с использованием отношения категоризации (см. 5.6). Говорить о категоризации несогласованных (формально неправильных) представлен ий структур элементов просто не имеет смысла, но она приобретает смысл применительно к неадекватным представлениям структур элементов, если они типизированы. Адекватные типизированные структуры элементов способны категоризировать неадекватные и наоборот. и поэтому адекватность и категоризация не могут использоваться для взаимного построения каких-либо логических выводов относительно друг друга, но и сама потребность в простом установлении факта адекватности типизированных структур элементов возни кает довольно редко. Вместо процедуры определения адекватности почти всегда производится поиск адекватного расширения (3.11) типизированной структуры элементов. Каждая адекватная типизированная структура элементов абсолютно точно имеет хотя бы одно адекватное расширение, а именно — самое себя. Некоторые неадекватные типизированные структуры элементов не имеют адекватных расширений, но те из них. у которых такое адекватное расширение есть, являются уникальными и наиболее общим и (или. соответственно, наименее информативными). Это наиболее общее адекватное расширение используется в качестве программного агента (proxy) для всего множества адекватных расширений, которые категоризируются адекватной или неадекватной типизированной структурой элементов.

В лингвистической литературе часто можно встретить и другие категории типизированных структур элементов. Особенно примечательны структуры элементов с тотальной ооподчииенностью. в которых каждый обязательный элемент принимает значение из строго определенного диапазона (<vRange>), что равносильно обеспечению адекватности деклараций FSD независимо от ограничений вида <cond> или <bicond>. Кроме того, объекты, называемыездесь представлениями структур элементов, во многих отношениях больше совпадают с тем, что специалисты по прикладной лингвистике называют дескрипторами структур, чем со структурами элементов. Дескрилторный язык, используемый в большинстве лингвистических приложений типизированных структур элементов, достаточно консервативен для того, чтобы его можно было легко встраивать в представления структур элементов, охватываемые ИСО 24610-1:2006: подавляющее большинство таких структур составляет основу грамматики фразовых категорий, управпяемых вершинами (HPSG — Head-driven Phrase Structure Grammar) [10]. Однако в указанном стандарте есть представления структур элементов (FSR), для которых соответствие единственному эквивалентному описанию в лучшем случае весьма расплывчато из-за наличия их зависимости от FSD, применительно к которым такая эквивалентность может быть доказана.

6.2.2    Анализ синтаксиса типизированной структуры элементов в XML

6.2.2.1 Общие сведения

Обзор представлений синтаксиса типизированной структуры элементов дается ниже в привязке к соответствующим именам элементов и их шаблонам.

6.2.2    2 введение имен

fs.f

(fs), string, symbol, binary, numeric, vLabel

name, type, org, value

vColi

vAlt, vNot, vMerge. default


a)    имена структурных элементов и их свойств:

b)    имена значений элементов.

c)    имена атрибутов элементов:

d)    имена конструкторов коллекций:

e)    имена элементов-операторов:

6.2.2.3 Базовая модель

<fs 1уре=Туре*>

<1 name=*featureName*>

<fs type=*featureValueTypeH>VALUE</fs>

</f>

</fs>

6.2.2    4 Модели значений элементов

a)    для типов значений атомарных элементов:

<fs type=*atomicTypeV>

b)    для значений структур элементов:

<fs type=*featureValueType">VALUE</fe>

c)    коллекции:

<vColl org="coltectionType*>

<fs ty ре='Member 1Т ype*>VALUE1 </fs>

<fs type=’Member2T ype“>VALUE2</fs>...

</vColl>

d)    дизъюнкция:

<vAlt>

<fs type=“Disjunct1Typee>VALUE1</fs>

<fe type=“Disjunct2Type',>VALUE2</f8>...

</vAlt>

e)    отрицание (взятие дополнения)

<vNot>

<fs type=eNegatedValue">VALUE</fs>

</vNot>

или

<vNot>

<vAlt>

<fs type="NegatedValuer>VALUE1</l8>

<fs type-'NegatedValue2’>VALUE2</fs>

</vAlt>

</vNot>

Пример:

<fe typ©3"pos~>

<f name=“agr*>

<fe type=*agr-car>

<f name-’per*»

<vNot>

<fe type-‘3rd*/>

</vNot>

<H>

<fname®*num*>

<vNoi>

<fs type=‘singular*/>

</vNoi>

</f>

</fe>

<H>

</fa>

6.2.3 Иллюстративные примеры формальной правильности

Структура элементов — это частично рекурсивная функция из элементов в их значения. Отсюда следует, что представление fs/ допустимо (как представление пустой структуры элементов), но представление. которое определяет элементы без значений, недопустимо.

Пример 1 — Формальная правильность

a)    <fetypee*top7>

b)    <fetype=“TYPE*>

<f namaa*FEATURE7>

<!-- WRONO -->

</1в>

Здесь: а) — формальная правильность, б) — несогласованность.

Тип присваивается каждой структуре элементов или каждому значению элемента, но не самому элементу. Следовательно, элемент с именем Т не может иметь атрибут с именем ’type".

Пример 2 — Формальная правильность:

a)    <fa/>

b)    <fe type*“top7>

c)    <fatype»-TYPEr>

<fnama*"FEATURE‘type*-TYPE2->

<fe typa*,‘lop7>

</1>

<!—WRONG ->

<fie>

d)    <fe types*TYPE1">

<fnama^FEATURE*>

<fe type=*TYPE2*/>

</f>

</fe>

Здесь:

a)    формально правильное представление — самое общее представление нетипиэироеанной структуры элементов;

b)    тоже формально правильное представление; fop обычно считается самым общим типом, что делает данное представление наиболее общим, хотя в рамках данного стандарта оно не требуется, и тип fop не является встроенным — он должен декларироваться только в случае необходимости его использования;

c)    несогласованное представление, потому что данный тип присваивается элементу:

d)    согласованное представление, так как значение элемента может типизироваться.

6.2.4 Иллюстрация адекватности

6.2.4.1    Условия

Условия адекватности зависятот конкретной системы элементов, содержащей ограничения типов. Спецификация этих ограничений будет рассмотрена в 6.2.4.3. а ниже представлена типизированная структура элементов, которая является адекватной относительно этой спецификации FSO.

6.2.4.2    Иллюстративный пример адекватности

<fe type=*word">

<f name=’orth">

<strlng>Mia</string>

<Ji>

<f name=*head’>

<fe type=’noune>

<fname="agr',>

<fe type="agr-caP>

<f name="persorf>

<fe type="3rd7>

</f>

<f name=*,number'*>

<te type="singular7>

</f>

</fs>

</f>

<Vf8>

</f>

<f name^spr"»

<vColl org=“lisf/>

</f>

<f name^comps*»

<vColl org=“lisf/>

</f>

</f8>

Соответствующая данному представлению нотация AVM показана на рисунке 6.

wort

ОРСГН'ШГ

noun

HEAO AQR

Рисунок 6 — Соответствующий формат AVM


6ЖО

L00WP5O

Примечание — Здесь, как и раньше, именам эле мен то с. orth, heed. вдг. spr и comps из представлений XML соответствуют имена ORTH, НЕ АО. AGR. SPR и COMPS а представлении AVM.

Пример адекватной типизированной структуры элементов приведен на рисунке 6. Данная структура TFS адекватна, так как удовлетворяет всем ограничениям для типа word. Ниже представлена самая общая адекватная типизированная структура элементов данного типа, которая категоризирует TFS. отображенную на рисунке 6.

6.2.4.3 Общее ограничение для типа word

<fe type='word“>

<f name=*orth">

<fsval kind="string7>

<tf>

<fname=',head'*>

<fs type="pos7>

</f>

<f name="specifier’,>

<vCollorg=4ist7>

</f>

<f name="compiements,*>

<vCollorg=*tist7>

</f>

</fe>

Соответствующая структура AVM показана на рисунке 7.

ORTH ЧЬИ/


HEAD BPRo сане&о

m    •

Рисунок 7 — Соответствующая структура AVM

Элемент за элементом можно проследить, каким образом показанная структура элементов категоризирует TFS. приведенную в 6.2.4.2. 6 этой TFS строковое значение ‘Mia' присваивается элементу ORTH; тип noun является подтипом pos для элемента НЕ АО. а пустой список представляет собой разновидность списковой коллекции одновременно для элементов SPEC и COMPS.

7 Система элементов для грамматики

7.1 Общие сведения

Типизированные структуры элементов очень широко используются для разработки грамматик, лексики и других лингвистических ресурсов и приложений. В одной из реализаций грамматики лингвистических ресурсов английского языка (ERG) [3] все компоненты, образующие грамматику, включая определение типов, правила построения речевых оборотов и лексические единицы, представляются структурами элементов. При таком подходе каждая из структур элементов должна быть уникально расширяемой до наиболее общей структуры, которая удовлетворяет сопутствующей системе типов, образованной иерархией типов и множеством ограничений типов. Как будет видно из 8.4, некоторые типы могут также ассоциироваться с коллекцией разрешенных элементов и их допустимыми значениями, равно как с импликативными ограничениями более общего характера. Поскольку значения элементов могут быть обязательными (требуемыми), опциональными (факультативными) или стандартными (присваиваемыми по умолчанию), эти различия тоже подлежат отражению в системе элементов.

Декларации допустимости вместе с конкретными отношениями выделения подтипов, образующих иерархию типов, могут быть выражены и часто выражаются в виде типовых структур элементов с помощью контекста, который указывает, что эти декларации должны рассматриваться как утверждения относительно адекватности, а не просто как данные. При определенных синтаксических ограничениях, суженных до набора допустимых ограничений настоящего стандарта (которые можно наблюдать при работе с ERG и ее производными фрагментами), импликативные ограничения типов могут кодироваться и как структуры элементов объектного уровня, т. е. как структуры элементов, выведенные из той же системы типов, что и базовая грамматика. В условиях соглашений ERG все ограничения типов представляют собой односторонние импликации (<oond>), в которых единственным предшествующим членом отношения (антецедентом) является только тип. Кроме того, и лексикон, и правила построения речевых оборотов в грамматике могут рассматриваться как ограничения типов на уровне объектов путем использования дизъюнкций (ИСО 24610-1:2006. пункт 5.9.2): в противном случае они оказываются для ERG нераспознаваемыми.

Однако даже без привлечения рассмотренных выше предположений относительно соглашений и ограничений применительно г. каждому компоненту грамматики всегда доступно представление метауровня как структуры элементов. В случае использования правил построения фраз для кодирования такого представления используются дополнительные типы и элементы: например, конституанта в левой или правой части соответствующего правила. Правило составления заголовка, которое поглощает один аргумент заголовка фразы, можно закодировать, например так. как показано на рисунке 8.

*hotd-comptomef)t«ruto»1

НЕЛОПО,

BPRST

COMPS «>,

word


НЕАОЩ,

вРЯЩГ

comps <Ш[зр«<>]>



ARQd <

Рисунок 8 — Правило 1 для составления заголовка

В данном случае для представления тождества и конституант в правой части этого правила предназначены соответственно дополните л ьный тип (head-complement rule-1) и элемент (ARGS). Дополнительный тип. рассматриваемый как импликативное ограничение, может также трактоваться как логическое условие (антецедент), а все остальное — как следствие конъюнкции. Здесь используются также списки (обозначенные угловыми скобками), являющиеся одной из составных коллекций ИСО 24610-1:2006, описанных в пункте 5.8 Коллекции как значения составных элементов. хотя в объектно-ориентированной системе типов грамматики они могут не играть никакой роли. В публикациях по лингвистике такие методы кодирования могут оказаться достаточными, однако не стоит заблуждаться по поводу реальных возможностей отступления от формальных правил. В соответствии с настоящим стандартом для декларирования системы типов, разрешенных элементов, ограничений допустимых значений элементов и импликативмых ограничений типов в грамматике должны использоваться определенные здесь декларации систем элементов (FSD), а не просто элементы <fs> из ИСО 24610-1:2006. Всегда возможны и методы мегауровневого кодирования, но такие возможности в данном стандарте не рассматриваются. Его основная цель — показать прямое назначение FSD. т. е. продемонстрировать, каким образом информация деклараций должна использоваться приложением, в рамках которого человек может не участвовать в процедуре формулирования логических выводов. Следовательно, для соответствия настоящему стандарту грамматика должна определяться, как минимум, следующими компонентами: 1) декларацией системы элементов (иерархии типов, декларации допустимости и ограничения типов), 2) лексиконом и 3) коллекцией правил построения фразовых структур. Выполнение первого требования обеспечивается обязательным использованием FSD. Для обеспечения соответствия требованиям 2) и 3) рекомендуется кодировать лексические единицы и коллекции правил с помощью синтаксических обозначений, принятых в других официальных документах, где их статус как лексем или продукционных правил указан явным образом и однозначно: однако допустимо также использование FSD.

72 Выборочные FSD

7.2.1    Общие замечания

В данном подразделе показывается для примера модифицированная декларация системы элементов грамматики Grammar 2 из работы Коупстейка [2].

7.2.2    Определение типов и их иерархии

Типы определяются посредством указания их родительских супертипов. Иерархии типов не всегда имеют древовидную структуру (так как подтип может иметь и больше одного родительского супертипа), однако существуют ограничения, накладываемые на их форму: например требование единственности самого общего типа.

Пример декларации типов элементов для иерархии типов приведен на рисунке 9.

8*

✓л

AMW /м* шиб ptmm stem


ров egM* tfrfg (реют) $iumber)

hv. x-T's, к. eat ncunvwmat novae Ttf 2nrf ЭхГ 'iHtf >luf*

Рисунок 9 — Простей иерархия типов для английского языка

Каждая ветвь этого дерева просто указывает на экземпляр отношения «подтип — супертип»; обозначение top или Т часто используется в качестве имени типа, присваиваемого каждой структуре элементов. Выделенные курсивом типы fist и string являются встроенными элементами, которые в согласованной FSD (показанной ниже) не должны присутствовать явным образом. Типы, заключенные в скобки, могут декларироваться, однако для представления относящихся к ним ограничений в данном случае используются дизъюнкции над их подтипами с символическим кодированием (обозначенные одиночными кавычками). Следует также иметь в виду, что показываемые здесь списки не являются полиморфными.

Различие между системой типов, фактически декларируемой в FSD. и иерархией типов состоит в том, что системы типов определяют не только отношения присваивания подтипов, но еще и разрешенные элементы, ограничения по допустимым значениям разрешенных элементов и прочие ограничения по типам и значениям относящихся к ним элементов.

7.2.3 Декларирование ограничений по типам

В следующем примере нет ограничений типов, не говоря уже об ограничениях по допустимым значениям элементов; поэтому нет никакой необходимости в использовании элементов <cond> и <bicond> (см. раздел 8.5). Начнем его рассмотрение с неформального представления разрешенных элементов и их допустимых значений (см. рисунок 10). Здесь в каждой структуре элементов показываются разрешенные элементы и минимально допустимые значения для соответствующего ей типа.

»)

Гр* ]

в>

О. Гв£Г<«1    4

PER {'1бГ. ‘2п<Г1‘ЗКГ)

[ним{‘*пв\'plur}


к!.


ПИ    *

PER'3rcf NUM ‘aha*


С2.


'поп-Эо    '

рек •2nd’}

NUMfditf. 'pfcir'}


*)

Рисунок 10 — Разрешенные элементы н их допустимые значения

Обозначения 3s и non-3s уточняют ограничения по допустимым значениям элементов PER и NUM. суживая дизъюнкцию, которая представляет ограничение.

Эта система типов, взятая в целом, кодируется так, как показано ниже.

Пример — Система типов <feOecl type-*8»Qn*>

<1аОевсг>Вазовый тип для лингвистических символоа</1вОевег>

<fDecl name="head~>

<10еасг>Укаэыаает синтаксическое оформление символа<.*10евсг>

<vRange>

<fs types*pos*/>

<.<vRange>

</IDec»>

<fDecl патеаа,врг*>

<Шезсг>Показывает спецификаторы символа</Шевсг>

<vRange>

<vCollorg=*llet7>

</vRang*>

</fDecl>

<fOecl namea*comp8‘>

<ГОевсг>Показывает дополнений символа</Юевсг>

<vRange>

<vColl orga*iiet7>

<.vRange>

<;IDecl>

</laDacl>

<fsDecl type=\vord* baeeTypea*"sign*>

<fsOaacr> Базовый тип для отдельных cnoa</faDeacr>

<fDecl namea*orth">

<ГОевег>Орфографическое представление для данного слова</10евсг>

<vRange>

<atrlng/>

</vRange>

<;fDecl>

</fsDecl>

<faOed type-*phraae‘ baeeTypee* *s»gn*>

<fsDeacr> Базовый тип для символов фразовых CTpyxTyp</fsDeacr>

<fOecl па me* “wo rdtler>

<10евсг>Слова внутри дайной фразы</Шеасг>

<vRange>

<vCoHorg*Het7>

</vRange>

</IDecl>

</l&Decl>

<faOed type*"stem* baseTy pee-‘phrase'>

<1вОеасг>Глагольная основа сформированной фраэы</1вОевсг>

<fOecl namea‘hea(T>

<ГОеаег>Многословиый заголовок, подлежащий использованию для всех фраз с данной основой</ГОеасг> <vRange>

<fe iype»*vefbV>

<»vRange>

</IDecl> copyright ИСО 2011 — Все права сохраняются ИСО 24610-2 <Шес1 патез<арг~> <Юеесг>Показывает спецификаторы символа<ИОеасг>

<vRange>

<vColl orga1iet7>

</vRange>

</fDecl>

<fOect name* “com pa*>

<Юевсг>Показыаает дополнения символа</10еасг>

<vRange>

<vColl org-Het7>

<;vRange>

<>fDecl>

</feDecl>

<fsDecltype-'pos*>

<feDescr> Parts of speech</fsDeecr>

<fOecl name-*agr*>

<fOeacr>Информацив о соглашениях поданной части речи<.‘Юеасг>

<vRange>

<fe type=*agr-cat*7>

</vRange>

<УШес1>

</fsDecl>

<laOecl type-*ag г-cat* >

<faDescr>BnoK соглашения no стилю GPSG<tfaDescr>

<fOecl naroe=*per*>

<ГОеасг>Значение для грамматического лица<>10евсг>

<vRange>

<vAlt>

< symbol value=*1et7>

<aymbol valua*'2nd7>

<aymbol value="3rd7>

</vAtt>

<«VRanga>

</fOecl>

<IDecl name**num">

<Н>е«сг>Змачеииб для грамматического числа</Юеасг>

<vRange>

<vAlt>

<aymbol vatueB*aingV>

<aymbol value B,plur7>

<ЫАН>

</vRange>

</IOecl>

</faDecl>

<faDec! !урев*3з* ЬааеТуреав*адг-саГ>

<faDeacr>6 лок соглашения для третьего лица единственного числа</<аОвасг>

<10есГоате*"реГ>

<10евсг>3начение для грамматического лиив</ГОввсг>

<vRange>

<aymbol value B*3rd7>

</vRaoge>

</fOecl>

<IDect name=*num’>

<10евсг>3начение для грамматического числа</Юеасг>

<vRange>

<aymbol value=,eing7>

</vRange>

</IOecl>

<JfaDecl>

<laDecl type* "non-Зз* Ьаз©Турева"адг-саГ>

<faDeacr>BnoK соглашения для третьего лиив единственного числа</1аОевсг>

<fDecl пате=*реГ>

<10еасг>3нвчение для грамматического лииа</ГОеесг>

<vRange>

<vAlt>

<aymbol va1ue*"iet*S>

<aymbol value a*2nd7>

</vAlt>

</vRange>

</1Decl>

<fDecl namaa*num">

<fDeacr> Значение для грамматическогочисла</ГОеасг>

<vRange>

<vAlt>

<aymbol value s<atng*/>

<aymbol value=*plur7>

<i’vAlt>

</vRange>

<*1Decl>

<>faOecl>

Некоторые элементы переобъяаляются как допустимые в качестве подтипов для типов, в привязке к которым они уже были объявлены ранее. Такое повторное декларирование допустимо, хотя в случае невозможности унификации ограничений многократно наследуемых значений элементов адекватной структуры элементов такого типа не будет; определение типа fop необходимо лишь в том случае, если это имя действительно будет фигурировать как тип в структуре элементов.

8 Декларация системы элементов

Примечание — Данный раздел представляет собой модифицированный вариант раздела 18.11 рекомендаций T£l Guidelines PS. 200S. посвященного рассмотрению декларации системы элементов. Более детальное обсуждение процедур логического вывода на основе FSD и еще один представительный пример можно найти а журнальной публикации Д Теренса Лэнгендона и Гэри Ф. Саймонса [7J.

8.1    Общие сведения

Стандартная декларация системы элементов (FSD) предназначена для использования в сочетании со структурой элементов (Is), соответствующей требованиям ИСО 24610-1:2006, хотя может применяться и для документирования любых систем структурных элементов. Цели такого использования изложены в разделе 1 («Область применения») вышеуказанногостандарта.

FSD реализует важную функцию точного документирования того информационного содержимого (контента), которое кодировщик, определенный системой разметки структур элементов, использовал в тексте на языке XML. Кроме того. FSO — это еще и важный ресурс, который стандартизует правила логического вывода, применяемые в программных средствах для контроля правильности разметки структур элементов в тексте и для обеспечения полной интерпретации недоопределенных структур элементов.

Следует, однако, иметь в виду, что возможен целый ряд терминологических расхождений между настоящим стандартом и сложившейся практикой как формальной логики, так и прикладной лингвистики типизированных структур элементов. 8 частности то. что в структурах элементов понимается как «интерпретация» структуры, на самом деле не является таковой в модельно-теоретическом смысле, а представляет собой минимально информативное (или. что то же. наиболее общее) расширение (см. 5.6) данной структуры элементов, которое соответствует множеству ограничений, декларированных в FSD. 8 рамках лингвистического приложения такая система ограничений является основным выразительным средством грамматики используемого естественного языка. Однако существует заметное различие в понимании того, какую же модельно-теоретическую интерпретацию (если таковая вообще существует) имеют структуры элементов в подобных приложениях. Этот аспект формальной интерпретации не имеет отношения к данному стандарту. Термин valid (адекватная). как правило, относится еще и к области формальной семантики, но в данном стандарте он обычно используется для описания чисто синтаксического аспекта формальной правильности в смысле, определяемом самой логикой типизированной структуры элементов, в отличие от понятия «формальная правильность» применительно к уровню кодирования, охватываемому настоящим стандартом (см. раздел 6).

В следующем подразделе показывается, каким образом в ХМL-кодограмме должна использоваться информация заголовка для формирования ссылок на любые ассоциируемые с ней FSD. В разделах 3. 4 и 5 описывается общая структура FSD и подробно рассматривается способ кодирования ее частей. Соответствующий развернутый при мер дается в Приложении Б.

8.2    Привязка текста к декларациям систем элементов

Чтобы прикладная система программного обеспечения (ПО) могла использовать декларации систем эле ментов для автоматической интерпретации кодограмм или даже для отыскания человеком соответствующих деклараций, которые документируют систему элементов, ислользуемую при разметке, должна существовать формальная ссылка из закодированных текстов на соответствующие декларации. Однако схема, в которой декларируется синтаксис системы элементов, должна быть отделена от схемы лредставления структуры элементов, которая является лишь реализацией этой системы.

Связь между FSD и документом, в котором используются структуры элементов, объявленные в этой декларации, материализуется в настоящем стандарте таким образом, чтобы эта связь не противоречила правилам ее включения в блок <encodingDesc> заголовка документа <teiHeader> [14). Элемент fsdDecI может использоваться применительно к каждому отдельному типу структуры элементов, как показано ниже (в рамках данного стандарта для определения таких элементов используется «компактный» вариант языка схем RELAX NG):

element fsdDecJ

{

att.global.attributes, attribute type {data enumerated}? attribute url {data.pointer). empty

>

Элемент декларации системы элементов <fsdDecl> [FSD (feature-system declaration) declaration] указывает декларацию, которая содержит определения для конкретного типа структуры элементов. Помимо глобальных атрибутов тип идентифицирует структуру элементов, задокументированную в FSD; при этом предполагается, что данный элемент будет значением атрибута «тип» хотя бы одной структуры элементов. Таким значением может быть любая строка символов, но если это значение содержит пробел. оно подлежит нормализации: не должно быть ни одной предваряющей или завершающей цепочки символов пробелов и больше одного символа пробела внутри. Атрибут «тип» является опциональным. Когда необходим более строгий контроль, для определения типа вместо этого атрибута может использоваться глобальный атрибут xmliid. и в этом случае адекватным идентификатором должно быть имя. Если не используется ни тот. ни другой атрибут, то предполагается, что элемент <fsdDed> идентифицирует декларации FSD для всех типов структур элементов, используемых при кодировании.

Элемент url обеспечивает связь с объектом, который содержит декларацию системы элементов. Его значением должен быть унифицированный идентификатор ресурса RFC 2396 [Uniform Resource Identifier (URI)).

Для да иной FSD может существовать множество элементов fsdDact — по одному для каждого типа структуры, которую этот элемент определяет. 8 приведенном ниже примере файл Lexicon, fsdсодержит F SD. в которой в свою очередь содержатся определения структур эле ментов дл я лексических статей (<fs type-Nentry*>) и лексических подстатей (<fs type="subentry">). Файл Gazdar. fsd содержит другую FSD. содержащую определение типа структуры элементов, которая носит название GPSG:

<ТЕ1>

<teiHeader>

<fileDesc>

<!-.... ~>

</fileDesc>

<encodlngDesc>

<!--... —>

<fsdDecl type=’GPSG" ur1=,,Ga2dar.fsdV>

<fsdDecl type=eentry* url=*Lexicon.fsd7>

<fsdDecl type='subentry“ urf=*Lex;con.fsd7>

<i..... ~>

</encodingDesc>

</teiHeader>

<!-Сюда вставляется текст ->

</TEI>

В этом примере показан элемент <fsdDecl> внутри элемента <encodingDesc> для каждого отдельного значения, используемого в качестве типа элементов <fs> самого документа. 8 данном случае, например, декларация системы элементов, используемая структурами элементов типа «статья» и «подстатья» должны присутстаоватъ в объекте, в элементе URL Lex Icon.fsd.

Настоящий стандарт не устанавливает никакого способа обеспечения уникальности значений типов для элементов fsdDecl. равно как не требует и того, чтобы каждое значение типа, определенное в элементе <fs>. декларировалось также в эле менте <fsdDecl> и гарантировалась невозможность появления множества элементов <fsdDecl> в одном и том же дескрипторе <encodingDeso - с опциональным атрибутом типа или без него.

Кодировщикам, которым требуются такие ограничения (которые могут быть иногда весьма полезными для обеспечения согласованной и точной разметки), рекомендуется разрабатывать инструментальные средства для их принудительного введения с использованием таких механизмов, как язык утверждений Sche matron.

8 FSDs допускается присутствие следующих элементов: fsd. fsDeci, fsDescr. fDoci. fOascr. vRange. vDefautt. if. than. fsConstraints. cond, bicond и iff.

Поскол ьку си нтаксис FSD не за висит ни от какого-либо модуля ТЕ». ни от F SR ИСО 24610-1. он должен использоваться в сочетании со стандартными модулями tei. заголовка и ядра в соответствии с требованиями ИСО 2461С-1.

8 общих чертах FSD состоит из одной либо нескольких деклараций структур элементов (<fsDecl>), одного или нескольких определений элементов (<fDecl>) и нулевого или большего числа ограничений структур элементов (<cond> и/или <bicond>). Определения элементов и ограничения структуры элементов действуют только в рамках деклараций структур элементов.

8.3 Общая структура декларации системы элементов

Декларация системы элементов кодируется как документ типа <fsd>. Помимо своих глобальных атрибутов этот документ содержит две части: опциональный заголовок (который дает библиографическую информацию для файла) и совокупности деклараций структур элементов, каждая из которых определяет один тип структуры элементов. Каждая декларация структуры элементов, в свою очередь, состоит из трех частей: опционального описания (которое дает сповесный комментарий, поясняющий, что именно кодирует данный тип структуры эпементов); обязательной совокупности деклараций элементов (которая устанавливает ограничения по диапазону значений и задает значения по умолчанию для элементов структуры данного типа) и опциональных ограничений структуры элементов (которые определяют в числе других ограничения на совместную встречаемость значений элементов). Рекомендуется кодировать заголовок как элемент <teiHeader> (см. [14]. глава 2). Прочие вышеперечисленные компоненты уникальны для деклараций системы элементов. Поэтому появляется целый ряд новых элементов, представленных ниже:

•    <fsd> (feature system declaration) содержит декларацию системы элементов;

. <fsDeci> (feature structure declaration) декларирует один тип структуры элементов:

-    <fsDescr> (feature structure description (e FSD)) описывает в текстовой форме, что именно характеризуется типом структуры эпементов, объявленным во впожении <fsDecl>;

-    <fDecl> (feature declaration) декларирует единственный элемент, определяя его имя. способ организации, диапазон допустимых значений и, возможно, но не обязатепьно — его значение, присваиваемое по умолчанию:

•    <fsConstralnts> (feature-structure constraints) определяет другие конкретные ограничения, накладываемые на адекватные структуры элементов внутри данной FSD.

Декларации элементов и ограничения структур элементов рассматриваются в двух последующих подразделах (8.4 и 8.5). Спецификация аналогичных элементов <feDecJ> может быть упрощена путем введония иерархии наследования для различных типов структур эпементов. Каждый элемент <fsDecJ> может содержать одно или несколько имен базовых типов baseTypec. от которых он наследует декларации элементов и ограничения (эти типы часто называются ясупертипами»).

Предположим, для примера, что <fsDecl type="Basic’> содержит <fDed name=‘one*> и <Юес1 пате=Ч\*о">. a <fsDed type="Derived* baseTypes="Basic"> содержит только <fDecl name^tbree**». Тогда любой экземпляр <fs type=NDehved*> должен включать в себя все три элемента. Это происходит потому, что <fsDecl type="Derived"> наследует две декларации элементов от <fsDecl type-*Basic">. когда он определяет базовый тип Basic.

Пример — Приведенный ниже пример показывает общую структуру полной декларации FSD <lsd>

<telHeader>

<!—Заголовок как для документа TEI ->

<jfelHeader>

<ГеОес1 type-*SomeName*>

<УаОевег>Описывает сущность, представляемую данным типом fa </faOeecr>

<Юес1 name»*featureOne‘>

<!—Декларация для featureOne ->

</fOecl>

<ГОес1 п am е='feature Two*»

<!•• Декларация для featureTwo -->

<tfDecl>

<fsConstralnte>

<!— Здесь указываются ограничения структуры элементов ->

<.TeConet/alnts>

</Гб0ес1>

<fsDect type=*AnomerType*>

<!—Декларируется другой тип структуры элементов ->

<ileDecl>

</fad>

Формальное определение <fsd> и ее компонентов выгладит следующим образом:

element fsd (att. global.attributes, fsd. content) fsd.content = tei Header?. fsOecH fsDecl = element fsDed

{

a tt.global.attributes

fsDecl.attributes.

fsDecl.cont

)

feDecI content = fsDescr?, fDecI*. feConstraints? fsDecl.attributes = attribute type (data.enumerated}. attribute baseTypes {list {data, name*})? fsDescr = element fsDescr {

att.global.attributes fsDescr. content

)

fsDescr.content = macro.limitedContent

Атрибут base Types дает имена одного или нескольких типов, от которых данный тип наследует спецификации элементов и ограничения: если данный тип содержит спецификацию элементов с тем же именем, что и у спецификации, наследуемой от любого из типов, определяемых этим атрибутом, или имеет место наследование нескольких спецификаций с одним и тем же именем, то возможные значения этого элемента определяются посредством унификации. Аналогично совокупность применимых ограничений выводится путем сочетания ограничений, заданных явно внутри данного элемента, ограничениями. которые подразумеваются атрибутом baseTypes.

Когда базовый тип не определен, ни спецификация элементов, ни ограничение не наследуются. Несмотря на то. что настоящей частью ИСО 24610 предусматривается возможность использования стандартных значений элементов, наследование свойств определяется как монотонное.

Процесс комбинирования ограничений может приводить к противоречию: например, в том случае, когда две спецификации для одного и того же элемента определяют несогласованные диапазоны значений и хотя бы одна из таких спецификаций является обязательной. В подобных случаях адекватной структуры элементов для определяемого типа не существует.

Каждый из типов, определенных в baseTypes. должен представлять собой одно слово, разрешенное списком имен XML; например, в имени не должно быть пробелов, и оно не может начинаться с цифр. Множественные базовые типы отделяются друг от друга пробелами: например. <fsDecl type="Sub" baseTypes="Super1 Super2*>.

Атрибут <fsDescr> может содержать любой текст, за исключением определенных служебных элементов (например, del), используемых для транскрибирования существующих текстов.

8.4 Декларации элементов

8.4.1    Обшие замечания

Каждый элемент объявляется в элементе <fDecl>. в котором атрибут имени указывает объявляемое свойство: этот атрибут соответствует атрибуту имени декларируемых элементов <f>.

Элемент <fDecl> состоит из трех частей: необязательного текстового описания, в котором должно объясняться, какой именно элемент и какие его значения представляются; обязательной спецификации диапазона значений, которая декларирует разрешенные значения элемента: и необязательной спецификации стандартных значений, где декларируются значение по умолчанию, подлежащее выбору в том случае, когда названный элемент не появляется в <fs>. При этом может определяться либо единственное безусловное стандартное значение, либо множество обусловленных значений.

8.4.2    Логический вывод типа для обязательных элементов Если в некоторой структуре элементов какой-то элемент

•    не является опциональным (т. е. обязателен),

•    не имеет присваиваемого значения или получает значение <defautt> (см. ИСО 24610-1:2006. пункт 5.10. Значения по умолчанию) и

- либо не имеет заданного значения по умолчанию, либо имеет обусловленные стандартные значения. для которых не удовлетворяется ни одно из условий.

то значением такого элемента в самом общем адекватном расширении структуры элементов будет наиболее общее значение, представленное в его элементе <vRange> в случае блочной организации, одноэлементного множества и множества с повторяющимися элементами или в списке, содержащем данный элемент, при сложной организации.

8.4.3    Логический вывод типа для опциональных элементов со значениями по умолчанию

Если в некоторой структуре элементов, какой-то элемент:

-    является опциональным.

-    не имеет присваиваемого значения или получает значение <default> и

•    имеет заданное значение по умолчанию либо обусловленные стандартные значения, для которых одно из условий выполнено.

то значением такого элемента в самом общем адекватном расширении структуры элементов, если таковое существует, будет подходящее стандартное значение. Очевидно, что данный элемент принимает это значение и в том случае, когда он обязателен и для него определено значение по умолчанию.

8.4.4    Логический вывод типа для опциональных элементов без стандартных значений

Если в некоторой структуре элементов какой-то элемент:

•    является опциональным.

-    не имеет присваиваемого значения или получает значение <default> и

-    либо не имеет заданного значения по умолчанию, либо имеет обусловленные стандартные значения. для которых не удовлетворяется ни одно из условий.

то для такого элемента в самом общем адекватном расширении структуры элементов, когда она существует, не будет присваиваемого значения. Подобная ситуация допустима, поскольку данный элемент необязателен.

8.4.5    Возможность неудачного исхода логического вывода

Структура элементов может не иметь адекватного расширения, когда подходящее значение элемента по умолчанию (стандартное значение) несовместимо с его диапазоном допустимых значений, объявленным в декларации. В этом случае для принудительного обеспечения соответствия действующим критериям необходимо использовать дополнительные инструментальные средства.

8.4.6    Элементы и атрибуты деклараций элементов

Элемент <Шес1> (декларация элемента) декларирует единственный элемент, определяя его имя, способ организации, диапазон допустимых значений, не обязательное значение по умолчанию и показывает. обязателен ли сам данный элемент или не обязателен. В декларациях элементов используются элементы и атрибуты, перечисленные ниже:

-    пате указывает имя декларируемого элемента; оно соответствует атрибуту «имя» элементов <f> в тексте;

-    org определяет способ упорядочения значений элемента:

-    optional показывает, является или не является данный элемент опциональным в структуре элементов декларируемого типа;

-    <fDescr> [дескриптор элемента (в FSD)) содержит текстовое описание сущности, представляемой декларируемым элементом, и ее значения.

•    <vRa nge> задает диапазон допустимых значений для элемента как <fe>. <vAtt> или built-in; чтобы значение <f> было правильным, оно должно принадлежать заданному диапазону; если <Т>содержит множество значений (санкционированных атрибутом огд), то каждое из них должно лежать в заданном диапазоне vRange:

-    <vDefault> декларирует значение по умолчанию, которое должно выбираться при отсутствии в структуре элементов экземпляра <f> для данного имени; если ограничений нет. то при этом определяется один или несколько элементов <fs> либо простых значений (в зависимости от конкретного значения атрибута огд вложенного элемента fDed): если элемент <vDefault> обусловлен, то он определяется как один или несколько элементов <if>: когда значения по умолчанию не определены или ограничения не удовлетворены, то не выбирается никакое значение:

•    <lf> определяет обусловленное значение по умолчанию для дачного элемента: условие задается как структура элементов: оно удовлетворяется в том случае, когда категоризирует структуру элементов в тексте, для которой ищется значение по умолчанию:

-    <then> отделяет условие от стандартного значения в элементе <if> или логическое условие от вывода в элементе <cond>.

8.4.7    Декларации элементов и категоризации

Логика контроля правильности значений элементов и проверки совпадения условий для выбора и применения значений по умолчанию основывается на использовании операции категоризации. Это стандартная операция в системе формализации, строящейся на выделении структурных элементов. Структура элементов FS категоризирует все структуры элементов, которые совместимы с ней и не менее информативны, чем она сама: т. е. все структуры элементов, которые определяют все те значения элементов. что и FS. вместе со значениями, которые категоризируются значениями FS. и которые имеют те же множественные входы, что и FS [1). Формальное определение см. в 5.1.

8 стиле данного выше неформального определения можно расширить также область действия операции категоризации путем распространения ее на отношения дизъюнкции и отрицания, на конкретные примитивы и на использование атрибутов в языке разметки: например, элемент <vAlt>. содержащий значение v. категоризирует у. Отрицание значения у (представляемое элементом <vNot> и фигурирующее в ИСО 24610-1:2006. пункт 5.9.3) категоризирует любое значение, которое не объединяется с у или (как в случаях дизъюнкций и отрицаний) не включает в себя у; например, структура

<vNot>

<    nu meric value="07>

</vNot>

категоризирует любое численное значение отличное от нуля.

Значение <fs type="X7>. даже если оно неверно, категоризирует любую структуру элементов типа X.

8.4.8 Пример деклараций элементов

8.4.8.1    Приведенный ниже пример деклараций элементов е обобщенной грамматике лексических структур (GPSG) заимствован из книги (4]. в приложении к этой книге (с. 245—247) авторы предложили в частности систему элементов для английского языка:

Диапазоны значений элементов:

-    INV {♦, -}

-    SUBJ(4.-)

• CONJ (and. both. but. either, neither, nor. or. NIL}

-    COMP (for, that, whether, if. NIL}

-    AGR CAT

-    PFORM (to. by. for....}

Стандартные значения элементов:

-    FSD1: (-INV)

-    FSD 2: - [CONJ]

-    FSD 9: (INF. +SUBJ] -*[COMPfor]

8.4.8.2    Следует иметь в виду, что в рассматриваемом примере аббревиатура «FSD» обозначает не декларации систем элементов («feature system declarations»), фигурирующие в настоящем стандарте. а присущие грамматике GPSG стандартные значения спецификаций элементов («feature specification defaults»). Элемент INV, указывающий, нарушен ли в предложении прямой порядок слов, может принимать только два значения: plus(+) и minus (-). Если этот элемент не определен, то стандартное правило (здесь это FSD1) гласит, что по умолчанию всегда предполагается значение minus. Декларация для этого элемента должна кодироваться следующим образом:

<fDecl name-*inv">

<ГОевсг>инвертированное предложение</10евсг>

<vRange>

<vAlt>

<b!nary value=*trueV>

<blnary value=*false7>

</vA!t>

</vRange>

<vDefault>

<    binary value="false7>

</vDefault>

</fDecl>

Диапазон значений определяется как дизъюнкция (а точнее — как результат операции «исключающее ИЛИ») над значениями, которые могут быть представлены значением <binary>, т. е. значением должны быть либо «истина», либо «ложь», но не то и другое и не отсутствие значения.

8.4.8.3    Элемент CONJ указывает на то. что в данной конструкции используется поверхностная форма конъюнкции. Знак тильды Н в стандартном правиле (см. выше FSD 2) представляет операцию отрицания. Это значит, что по у молчанию данный эле мент отсутствует, т. е. конъюнкции не существует.

Ситуация отсутствия CONJ отлична от ситуации, в которой CONJ присутствует, но в диапазон ее допустимых значений входит ноль (NIL). В контексте проводимого авторами анализа значение NIL показывает. что операция конъюнкции имеет место, но в поверхностной форме предложения нет явно выраженной конъюнкции. Декларация элементов, ассоциируемая с данным элементом должна кодироваться следующим образом:

<IDecl name=*conj">

<fDeecr> поверхностная форма конъюнкции</(Оевсг>

<vRange>

<vAlt>

<    symbol value=eand"/>

<8ymbol value="both7>

<8ymbot value="but7>

<symbol value=’either7>

<symbol value=’r>either7>

<symbol value="oor7>

<symbol value=*or7>

<8ymbol value=*NIL7>

<    binary value=7alse’/>

</vAlt>

<7vRange>

<vDefault>

<binary value-7alse7>

</vDefauII>

</fDecl>

В данном случае можно обойтись и без элемента <vDefault>, поскольку единственным носителем информации об отсутствии других допустимых значений служит двоичное значение «ложь».

8.4.8.4 Элемент СОМР указывает на то. что в конструкции используется поверхностная форма комплементайзера. По своему диапазону значений он аналогичен элементу CONJ. Однако стандартное правило этого элемента (см. выше FSD 9) является обусловленным. Оно гласит, что если глагол стоит в инфинитивной форме (элемент VFORM в правиле не упоминается, так как это единственный элемент, могущий принимать значение INF), а в конструкции предложения имеется подлежащее, то дальше должно использоваться дополнение с предлогом for. Например, для того чтобы сделать имя Джон подлежащим инфинитивного оборота «It is necessary logo», необходимо использовать дополнение с предлогом for, т. е. следует написать «It is necessary for John to go». Декларация элементов, ассоциируемая с данным элементом должна кодироваться следующим образом:

<fDecl name="comp“>

<Юв8Сг>поверхностная форма комплементайзера</ГОе8Сг>

<vRange>

<vAlt>

<    symbol value=*for7>

<eymbol value=*that7>

<    symbol value=*whether7>

<symbol value=*if7>

<symbol value=*NIL7>

</vAlt>

</vRange>

<vDefault>

<lf>

<fs>

<f пате=Могтл>

<symbol value="INF7>

</f>

<f name="subj*>

<binary value-4rue7>

</f>

</f8>

<then/>

<    symbol value=7or7>

</lf>

</vOefault>

</fDecl>

8.4.6.5    Элемент AGR хранит все элементы, относящиеся к соглашению о прямом порядке слов в предложении. Газдар с соавтора ми [4] определяют диапазон значений этого элемента как CAT. Это говорит о том. что значением данного элемента является категория, и этим термином в книге обозначается структура элементов. В действительности это слишком слабое утверждение, потому что здесь не только допустима любая структура, но она еще должна быть и структурой элементов для соглашения (которая в развернутом примере в конце соответствующего раздела определена авторами как содержащая элементы грамматического лица и грамматического числа). Данное ограничение по диапазону значений кодируется с помощью следующей декларации элементов:

<fOecl name=Hagr'‘>

<fDescrсоглашение о лице и числе</ГОевсг>

<vRange>

<fs type-‘Agreement"/»

</vRange>

</fDecl>

Отсюда следует, что рассматриваемое значение должно представлять собой структуру элементов типа Agreement. В детализированном примере, приведенном в Приложении А настоящего стандарта, представлен тип <fsDed type-’Agreemenr*». который включает в себя элементы <Юес1 name="pers*> и <fDecl name="nurrf>.

8.4.8.6    Элемент PFORM показывает поверхностную форму предлога, используемую в языковой конструкции. Поскольку элемент PFORM был определен ранее какоткрытое множество, в представленной ниже спецификации диапазона используется тип <string>. а не <symbol>.

<fDecl патв=”р(опгтГ>

<ТОевсг>словоформа предлога </fDeecr>

<vRange>

<vNot>

<etring/>

</vNot>

</vRange>

</fDecl>

Пример — Приведенная ниже конструкция, в которой используется значение с отрицанием:

<vNot>

<strlng/>

</vNot>

категоризирует любую непустую строку.

8.4.87 Далее рассматриваются декларации элементов. Класс model.featureVal включает в себя все возможные значения элементов, в том числе структуры элементов, дизъюнкции (<vAlt>) и сложные коллекции (<vColl>).

flDed = element fDed

{

a tt. global, attributes.

Ю eel.attributes. fDed.content

)

fDecl. attributes = attribute name {data.name}. attribute optional (xsd:boolean}?. attribute org ("unit" | "set" | “bag* | "list"}? fDed.content = fDescr?. vRange. vDefault? fDescr - element fDescr {

a tt.global.attributes, macro. limitedContent

)

vRange = element vRange

{

alt. global, attributes, model. featureVal

}

vDefault = element vDefault

(

att.global.attributes.

(model. featureVal* | if*)

}

if = element if

(

att.global.attributes.

((fs | f). then. (model.featureVal))

}

then = element then

(

att.global.attributes.

empty

)

8.S Ограничения структуры элементов

Для гарантии адекватности структуры элементов может потребоваться нечто большее, чем простая спецификация диапазона допустимых значений для каждого элемента. Могут оказаться необходимыми ограничения совместной встречаемости каких-то значений в рамках одной и той же структуры элементов или во вложенной структуре.

Такие ограничения структуры элементов выражаются как ряд последовательно применяемых и условных и биусловных критериев в части <fsConstraints> декларации <fsDecl>. Конкретная структура элементов адекватна лишь в том случае, если она удовлетворяет всем связанным с ней ограничениям. Элемент <cond> кодирует обычное условное высказывание типа «если..., то...» булевой логики, которое успешно выполняется, когда либо следствие принимает значение «истина», либо условие принимает значение «ложь». Элемент <bicond> кодирует биусловную операцию («если и только если») булевой логики. Эта операция успешно выполняется только в том случае, когда соответствующие условные высказывания истинны в обоих направлениях. В ограничениях элементов структуры первый член отношения и вывод выражаются структурами элементов: они считаются истинными, если их структура элементов категоризирует (см. 8.4. Декларации элементов) искомую структуру. С методической точки зрения, если первый член отношения принимает значение «истина», то вывод тоже должен быть истинным. так как истинность вывода утверждается, а не просто проверяется. Таким образом условие выполняется принудительно посредством определения правила, согласно которому первый член отношения не категоризирует (и никогда не должен категоризировать) данную структуру элементов, или путем введения правила, локоторому первый член отношения обязательно категоризирует данную структуру элементов. а затем выполняется операция унификации над выводом и этой структурой (при успешном выполнении этой операции ее результат будет категоризирован следствием). На практике необходимость в принудительном выполнении подобных ограничений может возникать в те периоды, когда факт справедливости ограничений применительно к данной структуре элементов просто не установлен: в этом случае ограничение должно непрерывно проверяться по мере усиления его информативности до тех пор, пока не будет определено значение «истина» или не произойдет остановка вычислительного процесса по какой-то иной причине.

Часть <fsConstraints> декларации FSO образуется следующими элементами:

-    fsConstralnts (feature-structure constraints) определяет ограничения, накладываемые на информационное содержание адекватной структуры элементов:

-    cond (conditional feature-structure constraint) задает условное ограничение структуры элементов: вывод (следствие) и антецедент определяются как структуры элементов или коллекции структур элементов: ограничение удовлетворяется, если как антецедент, так и следствие категоризируют данную структуру элементов, или если антецедент ее не категоризирует:

-    blcond (biconditional feature-structure constraint) определяет биусловное ограничение структуры элементов: и следствие, и антецедент определяются как структуры элементов или как коллокации структур элементов: ограничение удовлетворяется, если как антецедент, так и следствие категоризируют данную структуру элементов, или если оба ее не категоризируют:

зо

-    then отделяет условие от стандартного значения е элементе <if>. или логическое условие от вывода в элементе <cond>:

-    iff отделяет условие от следствия в элементе <bicond>.

Ниже приводится пример ограничений структуры элементов, который касается отслеживания "совместной встречаемости элементов" и заимствован из системы элементов для английского языка [4. с. 246]:

-    FCR 1: [♦INV] -►[♦AUX, FIN]

-    FCR 7: [BAR 0)    [N] & [V] & [SUBCAT]

-    FCR 8: [BAR 1]->~ [SUBCAT)

Первое ограничение говорит, что если языковая конструкция инвертирована, то она должна также содержать вспомогательный глагол и глагол в инфинитиве: т. е.:

<cond>

<t8>

<f name="inv*>

<binary value="tojeV>

</f>

</f8>

<then/>

<f8>

<f name-'aux">

<blnary value="true*/>

</l>

<f name="vform">

<symbol уа1ие=Т|п"/>

</f>

</f8>

</cond>

Второе ограничение говорит о том, что если языковая конструкция содержит нулевое значение переменной BAR (т. е. является лексемой), эта конструкция должна содержать также значение для элементов N. V и SUBCAT. Кроме того, поскольку это биусловное ограничение, то при наличии значений для N. V и SUBCAT. должно выполняться условие BAR-0*. т. е.:

<bicond>

<t8>

<f name-'bar">

<symbol value=‘07>

</f>

</f8>

<f8>

<f name="n7>

<f name-V"/>

<f name="subcat*7>

</fe>

</blcond>

Примечание — Здесь в соответствии с ИСО 24610-1:2006. пункт 5.10 стандартные значений. (107). элемент <( патеа"п*> трактуется, например как имеющий значение из допустимого диапазона, что эквивалентно следующей записи:

<f патез"п*>

<vAlt>

<Ыпагу value=*true*7>

<Ыпагу valuea‘false7>

</vAlt>

</f>

Последнее ограничение говорит о том. что если в языковой конструкции элемент BAR принимает значение 1 (т. е. является фразовой структурой), то элемент SUBCAT должен отсутствовать (-). Это не б и условное ограничение, так как имеются другие экземпляры, для которых элемент SU8CAT не подходит, т. е.:

<cond>

<fs>

<f name="bar">

<eymbol value="1 7>

</f>

</fa>

<then/>

<f*>

<f name=“subcat*>

< binary value=*faise7>

<li>

</fs>

</cond>

Формальная декларация для ограничений структуры элементов кодируется так. как показано ниже. При этом следует иметь в виду, что элементы <cond> и <bicond> используют пустые теги <then> и <iff>, соответственно для разделения логического условия и следствия. Это делается в основном ради обеспечения удобочитаемости.

fsConstraints = element fsConstraints

(

a tt.global, attributes.

(cond | bicond )*

cond = element cond

(

att.global.attributes.

<(fs|f).then.<fs|f))

)

bicond = element bicond

{

a tt.global.attributes.

((fs|f),iff,(fe|f))

)

iff = element Iff

(

att.global. attributes, empty

)

Приложение А (обязательное)

Схема XML для структур элементов

macro.HmitedContent * (text | model.hmltedPhrase | model.inter)* macro.xtext * (text | model.gLIke)" att.globa I. attributes ■ a tt.global.attribute.xmltd. att.global.attribute.n, att.globai.attnbute.xmtlang. att.global.attribute.xmlbase. empty

att.globalattribute.xmlid *

ши (идентификатор) обеспечивает однозначную идентификацию элемента, несущего в себе ши атрибут.

attribute xmi:id {xad:ID}? att.global.attribute.n *

ши (номер) указывает номер (или иную метку)для элемента, который ши не обязательно уникален в рамках данного документа, attribute л ( list {

xaditoken (pattern - -(\p<L){Vp{N)|\p(P}I\p<S})^“ >♦

>

att.globai.attribute.xmllang ■

ши (язык) указывает язык информационного наполнения (контента) элемента с помощью ши тега, сгенерированного в соответствии с ВСР 47 attribute xmClang (xsd:languege)? attgiobal.attribute.xmlbase •

ши предоставляет ссылку на URI. с помощью которого приложения могут ши преобразовать ссылки на относительные URI в абсолютные ши адреса URI.

attribute xmhbase {xsd:any(JRI)? model.gLike * notAliowed

model.featureVal.complex ■ fa | vColl | vNot | vMerge model.featureVal.single *

binary | symbol | numeric | \smng | vLabel | \de fault | vAlt model.placeStatellke » notAliowed model.q Like * notAliowed model.nameLike ■ model.placeStateLike

model.featureVal * model.featureVal.complex | model.featu re Val.single

model.pPart.data * model.nameLike

model.inter* model.qLike

model.limited Phrase • model.pPart.data

fsdOecl ■

ши предоставляет декларацию системы элементов, состоящую из одной или нескольких ши деклараций структур элементов или ссылок на декларации структур элементов, element lsdDecl{

(faOeci | fad Link)», att.global.attribute.xmlid. att.global. attribute, n. att.globai.attribute.xmllang. ati.global.attrlbute.xmlbase. empty

}

fsDecl*

шп (декларация структуры элементов) объявляет один тип структуры элементов.

element fsDecl (

(fsDescr?. fDecI*. feConetramts?). att.global.attnbute.xrntld, art.global, attribute .n. att.global.attnbute.xmilang. art.global.attribute.xmlbaee.

99 присваивает имя объявленному типу структуры элементов. вилЬи(е type {xsdiName).

присваивает имя одной или нескольким типизированным структурам элементов. 99 от которых данный тил наследует спецификации элементов и 99 ограничения: если этот тип включает в себя спецификами» элементов 99 с таким же именем, как у любой иэ спецификаций, определяемых данным 99 атрибутом, или если наследуется больше одной спецификации с тем же именем, 99 то множество возможных значений устанавливается с помощью операции 99 унификации. Аналогично выводится множество применимых ограничений 99 путем комбинирования ограничений, заданных явно внутри данного элемента.

99 с ограничениями, которые влечет за собой атрибут ЬааеТуреа.

99 Если атрибут ЬааеТуреа определен, то наследование спецификации элементов 99 или ограничения не происходит, attnbute ЬааеТуреа ( ltst(xsd:Name*}

>?.

empty

)

fsDescr»

99 (описание системы элементов (a F SO)) содержит текстовое представление 99 сущности, характеризуемой данным типом структуры элементов 99 объявленной ао вложении fsDecl. element fsDescr { m ас ro .itm ited Content att global.attnbu te .xm lid. art.global.attnbute.n. att,global.attnbute.xmilang, art,global.attnbute.xmlbaee. empty

)

fed Link •

99 (ссылка на декларацию системы элементов) ассоциирует имя 99 типизированной структуры элементов с ее декларацией 99 структуры элементов, element fsdLlnk( empty.

att .global, attnbu te .xm lid. att.global.attnbute.n, att.globatattnbute.xmilang. att.global.attribute.xmlbaee.

99 определяет тип структуры элементов, подлежащей документированию: па это будет значение атрибута типа хотя бы в одной структуре элементов, attnbute type {xsd:Name).

99 формирует укезатель на элемент деклерации структуры элементов 99 (fsDecl) в рамках данного документа или за его пределеми. attnbute target {xad.anyURI}, empty

)

TfDecI *

99 (декларация элемента) объявляет одиночный элемент 99 посредством указания его имени, способе организации.

99 диапазона допустимых значений и значения по умолчанию (не обязательно) element fDecl(

(fDescr?. vRange. vDefault?}, att .global, attnbu te .xm lid.

ati.global.attributes.

eti.global.att/ibute.xmliang.

att.global.att/ibute.xmlbase.

ttrt указывает имя декларируемого элемента; проверяет на совпадение tttt атрибут имени f элементов в тексте, attribute name (xed:Name}.

tttt сигнализирует о том. может ли или не может присутствовать ntt значение данного элемента.

(al defauItValue * ‘true* J attribute optional {xsd: boolean)?. empty

}

(Descr *

v# (описание элемента (a FSD)) содержит текстовое представление v# сущности, характеризуемой объявленным элементом, а# и его значения, element fDeacrf macro.HmltedCon tent, ett.global.attribute.xml»d. ati.global.attribute.n. ati.global.att/ibute.xmliang. att.global.att/ibute.xmlbase. empty

}

vRanga»

ntt (диапазон значений) определяет диапазон допустимых значений элемента ett в форме fa. vAlt. или примитива; ntt чтобы значение f было правильным, оно должно ett категоризироваться заданным диапазоном; если f ntt содержит повторяющиеся значения (как разращено атрибутом org). ntt то каждое значение должно категоризироваться диапазоном vRange. element vRange { model.featureVai. ati.global.attribute.xmlid. a tt.global.attributes, art.global.attribute.xmllang. ati.global.att/ibuta.xmlbase. empty

>

vDefault»

ntt (значение no умолчанию) декларирует стандартное значение, которое должно

ntt предоставляться в том случае, когда структура элементов

ntt не содержит экземпляра (для данного имени; если стандартное значение

ntt не связано условиями, то оно определяется как один или (в зависимости от

ntt значения атрибута org вложения fDecI) как несколько

ntt элементов (в либо примитивов.

ntt если стандартное значение обусловлено, то оно определяется как ntt один или несколько элементов If; если стандартное значение не определено ntt или условия не выполнены, то значение по умолчанию не присваивается, element vOefautt(

(model.featureVai* |rf*>.

ati.global.attribute.xmlid.

att.global.att/ibute.n.

ati.globel.att/ibute.xmlieng.

att.global.att/ibute.xmlbase.

empty

}

If»

ntt определяет обусловленное стандартное значение для элемента; условие ntt определяется как структура элементов и считается выполненным, если оно ntt категоризирует структуру элементов а тексте, для которого ntt ищется стандартное значение, element if {

{(fa | f). then. model.featureVal). atl.gtobai.attnbu le.xm lid. att.global.attnbuia.n, att.global.attnbuiexmilang. att.global.attnbuie.xmlbase. empty

>

then ■

119 разделяет условие и стаидартное значение а элементе if или 09 логическое условие и следствие в элементе cond. element then { empty.

att .global, attnbu te .xm lid. att.global.attnbuia.n. art.global.attrtbute.xmllang. att.global.attnbuie.xmlbase. empty

)

fsConstramta ■

09 (ограничения структуры элементов) эадает ограничения no 09 контенту адекватных структур элементов, element fsConstramta {

(cond |blcond)*.

att ,global.attnbu te .xm lid.

att,global.attnbuia.n.

art.global.attnbuiexmilang.

att.global.attnbule.xmlbaee.

empty

>

cond *

09 определяет обусловленное ограничение структуры элементов:

09 следствие и логическое условие определяются как структуры:

09 элементов или как коллекции структур элементов: ограничение 09 удовлетворяется, если и логическое условие, и следствие 09 одновременно категоризируют данную структуру элементов 09 или если логическое условие ее не категоризирует, element cond (

<(fe|f). then, (fs Ю>.

att .global.attnbu te .xm lid.

art,global.attnbuia.n.

att.globai.attnbute.xmllang.

art,global.attnbule.xmlbaee.

empty

)

blcond *

09 определяет биусловное ограничение структуры элементов:

00 и следствие, и логическое условие определяются как 09 структуры элементов или как группы структур элементов:

09 ограничение удовлетворяется, если и логическое условие 09. и следствие одновременно категоризируют или одновременно 09 не категоризируют дан иную структуру элементов, element bicond (

((ta|f). Iff. (fa |f)).

ati.global.attnbu te .xm lid.

att.global.attnbuia.n.

att.globai.atcrtbute.xmilang.

ati .global.attnbu te .xm ibaae.

empty

)

iff-

00 (тогда и только тогда) разделитель логического условия и следствия 09 а элементе bicond.

element iff { empty.

an.global.att/ibute.xmlid. an.global.attributes, an.global.attribute.xmliang, ati.global.att/ibute.xmlbase. empty

}

fs-

bp представляет структуру элементов, т. е. коллекцию

вр пар 'элемент - значение'. организованную как структурная единица.

element fs{

Г.

atl.global.att/ibute.xmltd. art .global, attributes, an.global.attribute.xmliang. ati.global.att/ibute.xmlbase.

Pit определяет тип структуры элементов, ati/ibute type (xedName}?,

РР содержит ссылки на спецификации элементов.

РР образующие данную структуру элементов, att/ibuta teats ( llet{xsd:anyURI»}

)Т.

empty

>

вР элемент, представляющий спецификацию значений элемента.

РР т. а. ассоциирующий имя со значением любого из нескольких вР типов types, element f{ model.featureVar. an.global.attribute.xml>d. an.global.attribute.n. ati.global.att/ibute.xmliang. ati.global.att/ibute.xmlbase.

РР предоставляет имя для элемента, attribute name (text}.

РР (значение элемеита)содержит ссылку на любой элемент, который может быть ВР использован для представления значения элемента, attribute fVal {text)?. empty

>

binary *

bp (двоичное значение) представляет ту часть спецификации значений. вр элемента, которая может содержать любое из двух возможных вРзначений, element b!nary( empty.

an.global.attribute.xmlid. an.global.attributes, an.global.attribute.xmliang. an.global.attribute.xmlbase.

MB предоставляет двоичное значение, anribute value (xsd: boo lean}, empty

}

symbol«

BP (символьное значение) представляет ту часть спецификации ВР значений элементе, которая содержит один из конечных ВР списков символов.

element aymboi( empty.

att .global, attnbu te .xm (Id. art.global.attnbu te .n. att.global.attnbute.xmilang. att,global.attribute.xmlbaee.

ее предоставляет символьное значение для элемента - только одно из. ее конечного списка, который может быть определен в декларации элементов, atinbute value {

xed:token {pattern - *(\p{L}|Vp(N}f\p{P)|\p(S)K)

>.

empty

>

numeric *

Ив (численное значение) представляет ту часть спецификации значений по элементов, которая содержит числовое значение или диапазон значений, element numeoc( empty.

att .global, attnbu to .xm lid. art. global, attributes, art.global.attnbute.xmilang. art.global.attribute.xmlbaee,

и» дает нижнюю границу для представляемого численного значения. оо а также (если максимум еще не определен) его верхнюю границу, atinbute value {xsdidouble | xadideclmal}.

ведает верхнюю границу для представляемого численного значения, attnbute max {xadidouble | xadideclmal)?.

оо показывает, должно ли производиться усечение представляемого ее численного значения для получения целого числа, attnbute trunc (xed: boolean)?. empty

)

airing «

ее (строковое значение) представляет ту часть спецификации значений элементов ее которая содержит строку element string ( macro, xtext.

att .global, attnbu te .xm lid. att.global.attribute.n. att.global.attnbute.xmilang. att .global, attnbu te .xm ibaae. empty

>

vLabel *

ее (метка значения) представляет ту часть спецификации значений элементов, ее которая появляется а структуре элементов больше чем в одной точке, element vLabel ( model.featureVal?, att .global, attnbu te .xm lid. att.global.attributes, att.global.attnbute.xmilang. att.gtobai.ettnbu te .xm (base. ее предоставляет имя для общей точки, attnbute лате (

xeditoken {pattern ■*(\p{L)|Vp(N)|\p{P}|\p{S))*')

>.

empty

)

vColl*

ев (коллекция значений) представляет ту часть спецификации значений ее элементов, которая содержит множественные значения, организованные

Зв

им как простое множество, множество с повторяющимися элементами или список, element vCoH{

(ta | model.featureVal.single)*, atl.global.att/ibule.xmlid. att.global.attribute.n. att.global.attribute.xmltang. att.global.atiribute.xmlbase.

ММ (способ органиэации) показывает способ организации данного значения или совокупности ММ значений как простого множества, множества с повторяющимися элементами или списка, attribute org {

ММ показывает, что данные значения организованы а виде простого множества.

‘set*

I

ММ показывает, что данные значения организованы а виде множества ММ с повторяющимися элементами (мультимножества).

‘bag*

I

показывает, что данные значения организованы а виде списка.

‘list*

empty

>

default*

им (стандартное значение элемента) представляет ту часть мм спецификации значений элементов, которая содержит им значение, присваиваемое по умолчанию, element default ( empty.

att.global.attribute.xmlid. att.global.attribute.n. att.global.attribute.xmltang. att.global.atiribute.xmlbase. empty

}

vAlt *

им (дизъюнкция значений) представляет часть спецификации им значений элементов, содержащую множество значений. им только одно из которых может быть правильным, element vAlt {

(model.featureVal. model.featureVaK).

eti.globel.attribute.xmlkJ.

att.global.attribute.n.

att.global.attribute.xmltang.

att.global.atiribute.xmlbase.

empty

}

vNot *

им (значение с отрицанием) представляет значение элемента, им которое является инверсией его содержимого, element vNot{ model.featureVal. att.global.attribute.xmlid. att.global.attribute.n. att.global.atiribute.xmltang. att.global-attribute.xmlbese. empty

}

vMerge *

им (объединенная коллекция элементов) представляет значение элемента. им которое является результатом слияния значений элементов. им содержащихся в его дочерних узлах, с применением способа организации. им определенного атрибутом org.

element vMerge { model.featureVaU. att.gtobai.attnbute.xmlid. art.global.attnbute.n. att.global.attnbute.xmilang. art.global.attribute.xmlbaee.

99 указывает способ организации результирующих слитых значений хак обычного и» множестаа. множества с повторяющимися элементами или списка, attribute org (

им показывает, что результирующие значения организованы а виде множестаа.

-аеГ

I

99 показывает, что результирующие значения организованы а виде множестаа 99 с повторяющимися элементами (мультимножества).

'bag*

I

99 показывает, что результирующие значения организованы а виде списка.

-НвГ

>*.

empty

)

fUb »

99 () компонует библиотеку свойств. eiementfLib{

1*.

attglobal, attnbu te .xm lid. a tt. global, attributes, att,global.attnbute.xmilang. att.gtobai.attnbute .xmlbaee. empty

)

tvLIb ■

99 (feature-value library) компонует библиотеку 99 повторно используемых эначений элементов 99 (включая сложные структуры элементов), element fvL«b{ model.featureVal*. att .global, attnbu te .xm lid. att, global, attributes, att.gtobai.attnbute.xmllang. att.global, attribute, xmlbaee. empty

)

start ■ fsdDecI

Приложение В (справочное)

Детализированный пример

В заключение ниже полностью воспроизводится FS0 из фрагментарного примера, рассмотренного в разделе в:

<ТЕ1>

<telHeader>

<flleOeec>

<titleStmt>

<Ш1е>Пример FS0. заимствованный из книги Ge2daretal GPSG feature system for English«/tltle> <reepStmt>

<геар>запрограммировап</гевр>

<пате>Гэри Ф. Саймонс</пете>

</respStmt>

</titfeStmt>

<publlcatlonStmt>

<р>Данный пример был апераые закодирован Гэри F. Саймонсом (Summer institute of Linguistics. Oaltas, TX) 28 января 1991 г.

Пересмотрен 8 апреля 1993 г. для приведения а соответствие со спецификацией FSD из версии Р2 руководящих материалов TEI. Повторно пересмотрен в декабре 2004 г. для обеспечения соответствия стандарту представления структуры элементов, разработанному совместное ISO TC37/SC4.

</р>

</publlcatlonStmt>

<sourceDesc>

<р>Настоящий пример FSD не содержит полного описания системы элементов.

Оноснован на фрагментах, заимствованных из системы элементов для английского языка, представленной в приложении (с. 245—247) к книге Generalized Phrase Structure Grammar, by Gazdar. Klein. Pullum. and Sag (Harvard University Press. 1985).</p>

</sourceDesc>

<yflteDeec>

</telHeader>

<fsdDeei>

«fsDeel typee*GPSG*>

<1вОевсг>Кодирует структуру элементов английского языка для анализа с использованием грамматики GPSG (G а 2 da г. Klein. Pullum. and Sag)«/feDescr>

<fDecl namec,lN\T>

<fDeacr>HHBepTHpoeaHHoe предложение</Юевег>

<vRange>

<vAH>

<blnary value a*true*/>

«binary value»*false,V>

</vAlt>

<*vRange>

<vDefault>

«binary value-*faise*/>

<>vDefault>

«/1Decl>

«fOeel name-*CONJ*>

<Шевсг>поаерхиостная форма коньюнкции«/10евсг>

<vRange>

«vAlt>

«symbol value a,,and7>

«symbol value a*both*7>

«symbol valuea*but7>

«symbol value »*elther7>

«symbol valuea*neither7>

<symbol value-“nor-

<eymbol value=*or*/>

<eymbol value='NIL“/>

<i*vAlt>

</vRaoge>

<vDefault>

<binary value-4alee‘/>

</vOefault>

</fOecl>

<fDecl лате-“СОМР‘>

<10евсг>поверхностная форма комлламемтайэера</Юеасг> <vRange>

<vAlt>

<aymbol value2 “for-

<aymbol value2*tfta(V>

<eymbol value **>«hether'7>

<aymbol valuea“ir/>

<eymbol values*NIL"/>

<i‘vAU>

<.VRange>

<vDefault>

<lf>

<la>

<f namea*VFORM*>

<aymbol value=*INF7>

<M>

<f oamec*SUBJ‘>

<blnary value-*t/ueV>

</f>

</#a>

<lhen/>

<aymbol value 2 “for-

</lf>

</vOefault>

<;fOecl>

<IDecl name2"AGR*>

<IOeacr>corлашвние о лице и числе</Шеасг>

<vRange>

<fa 1уре=*АдгеетелГ/>

</vRange>

<.’fOecl>

<IDecl name=*PFORM*>

<Юеасг>словоформа лредлога<>Шеасг>

<vRaoge>

<vNoi>

<atrlng/>

<*vNoi>

</vRange>

</IOecl>

<1аСола(га1л(а>

<cond>

<fa>

<f name=*iNV*>

<bloary value-*t/ue‘/>

</r>

</fa>

<!Ьел»

<la>

<f name2eAUX’>

<Ь1лагу value*’l/ueV>

</1>

<1nama=*V FORM*>

<aymbol valuee*F IN"/>

</1>

</Ya>

</cond>

<bieond>

<fe>

<f names*BARe>

<aymbol value *"0e/>

</1>

</fa>

<fe>

<f name^N*»

<blnary value e*true4>

</f>

<f name-teV*>

<blnary value *‘trueV>

</t>

<fname*fcSUBCAT*>

<blnary valuea"true*/>

</f>

</fa>

</blcond>

<cond>

<fe>

<f name^BAR*»

<eymbot valueaT/>

</f>

</ta>

<then.’>

<(a>

<fnama=* SUBCAT*>

<blnary valuea'faleaV>

</f>

</te>

</cond>

<;1aCone(falnia>

</faDecl>

<feDecl type-*Agreement*>

<!вОаасг>Эгот тип структуры элементов кодирует соглашение о порядке слов а английском лредложе-HMM</faDescr>

<f Dec I name»ePERS*>

<fDeacr>лиио (первое, второе или третье)</10е*сг>

<vRange>

<vAU>

<aymbof va!uea*17>

<aymbot value**2V>

<aymbol value»*3V>

</vAlt>

<>VRange>

</fOecl>

<fDecl name-*NUM">

<fDeacr>HHcno (единственное или множестве иное)</ГОеасг>

<vRange>

<vAlt>

<aymbol valuea*agV>

<aymbol value а*рГ/>

</vAII>

</vRange>

</fDecl>

</fsDecl>

</fsdOecl>

</TEI>

Приложение ДА (справочное)

Сведения о соответствии ссылочных международных стандартов ссылочным национальным стандартам Российской Федерации

Таблице ДА.1

Обозначение ссылочного международного

Степень

Обозначение и наименование соответствующего

стандарта

соответствия

национального стандарта

ИСО 24610-1:2006

ИСО/МЭК 19757-2:2008

* Соответствующий наииональный стандарт отсутствует. До его утверждения рекомендуется использовать перевод на русский язык данного международного стандарта. Перевод данного международного стандарте находится в Федеральном информационном фонде технических регламентов и стандартов.

Библиография

[1J    Carpenter В. The Logic ot Typed Feature Structures. — Cambridge University Press — Cambridge — 1902

[2]    Copestake A. Implementing Typed Feature Structure Grammars. — CSU Publications. — Stanford. — 2002

[3]    Flickinger. 0. On building a more effoent grammar by exploiting types. In: CoAlaboraM'e Language Engineering (ed. Stephen Oepen. Dan Flickinger. Junlchi Tsujil and Hans Uszkorett). CSU Publications. Stanford. — 2002.— pp. 1—17

[4]    Gaidar G.. Klein E.. Pulum G. and Sag I. Generalized Phrase Structure Grammar. — Harvard University Press. — Cambridge. MA. — 1985

(SJ Johnson M.. Attribute-Value Logic and the Theory of Grammar — CSU Lecture Notes 16. — Stanford. — 1988

(6)    Kay M.. Unification. In: Computebonat Linguistics end Formal Semantics (ed. Michael Rosner and Roderick Johnson). — Cambridge University Press. — Cambridge. — 1992. — pp. 1—30

(7)    Langendoen D T. and Simons G.F. A rationale for the TEI recommendations for feature-structure markup. — Computers and the Humanities. 29 — 1995. — pp. 191—209

(8)    Pereira F .C.N. Grammars and Logics ot Partial information. SRI Intemabonal Technical Note 420. — SRI international. Menlo Park. CA. — 1987

(9)    Pollard C.J. and Sag I.A. In formation-based Syntax and Semantics. — Vol. 1 Fundamentals. — CSLI Lecture Notes. 13. Stanford. 1987

(10)    Pollard C.J. and Sag I.A.. Head-driven Phrase Structure Grammar. — The University of Chicago Press.— Chicago. — 1994

(11)    Potiard. C.J. and Moehier. M.A. Unifying partial descriptions of sets, in: Informabon. Language and Cognition (ed. Philip P. Hanson) — The University of British Columbia Press. — Vancouver. — 1990. pp. 285—322

(12)    Sag I.A.. Wasow T. and Bender E.M. Syntactic Theory: A Formal Introduction. — 2nd edition. — CSLI Publications. — Stanford. — 2003

(13)    Shieber S.M. An Introduction to Unification-Based Approaches to Grammar. — CSLI Lecture Notes. 4. Stanford. — 1986

(14)    Text Encoding Initiative Consortium. — The TEI Guidelines. — P5. — 2005

(15)    V^ay-Shanker K. and Joshi A.K. Feature-structure based tree adjoining grammar Proceedings of COLiNG’88. — 1988

УДК 001.4:006.354    ОКС 01.140.20

Ключевые слова: управление языковыми ресурсами, декларация системы элементов, терминология

Редактор НА. Аргунова Технический редактор в Н. Прусакова Корректор Ю.М- Прокофьева Компьютерная еерстка И.А Напой коном

Сдано е набор 0в.04 2015. Подписано а печать 11.06.2015. Формат 60 * 84 Гарнитура Ариап. Уел. пен. л. 5.58. Уч -иад. п. 4.80 Тиран 36 эка Зак. 2133.

Издано и отпечатано во ФГУП кСТАНДАРТИНФОРМ». 123995 Москва. Гранатный пер . 4. www gosbnlo.rvi