6. ЛИНГВИСТИЧЕСКОЕ ОБЕСПЕЧЕНИЕ

6.1. Обоснование выбора средств ЛО.

1. В автоматизированных информационных системах (АИС) выделение лингвистического обеспечения из состава информационного обеспечения и оформление его в качестве самостоятельной подсистемы было фактически завершено к 1976 году и получило юридическое закрепление Постановлением от 30.09.81 “Об утверждении единого порядка разработки и развития автоматизированных систем НТИ”. В настоящее время этот документ считается утратившим силу. В условиях отсутствия Единого порядка мы руководствуемся целесообразностью принятия решений в специфике АИС и действующими стандартами:

1) 7.49 – 84 Рубрикатор ГАСНТИ (новое название – Государственный рубрикатор НТИ). Структура, правила использования и ведения.

2) 7.59 – 90 Индексирование документов. Общие требования к систематизации и предметизации.

3) 7.19 – 85 Коммуникативный формат для обмена библиографическими данными на магнитной ленте. Содержание записи.

4) 7.52 – 85 Коммуникативный формат для обмена библиографическими данными на магнитной ленте. Поисковый образ документа.

5) 34.201 – 89 Информационная технология. Виды, комплектность и обозначения документов при создании автоматизированных систем.

6) 34.003 – 90 Информационная технология. Термины и определения.

7) РД – 50 – 34.698 – 90. Методические указания. Информационная технология. Требования к содержанию документов.

8) РД – 50 – 680 – 88. Методические указания. Основные положения.

Полный перечень нормативных документов, определяющих состав информационного и лингвистического обеспечения см. в Списке использованных нормативных документов.

2. С учетом указанных документов лингвистическое обеспечение АИС (ЛО) определяется нами как совокупность применяемых в технологии АИС информационных языков (ИЯ), лингвистических процессоров и средств поддержки лингвопроцессорных и информационно-языковых словарей на актуальном уровне, обеспечивающая выполнение системных функций:

– поиска в документальных БД АИС по тематическим запросам;

– выпуска информационных изданий (только в части формирования систематических рядов в выпусках изданий);

– межсистемного информационного взаимодействия (в части прямого и обратного конвертирования записей информационно-языковых словарей, а также в части прямой и обратной трансляции ПОДов с ЯИ АИС на ИЯ-посредники).

Этим определением оформляется существенно целесообразное в условиях АИС полное отделение ЛО от информационного обеспечения.

3. ИЯ АИС являются формальными языками и в функциональном аспекте подразделяются на:

– языки индексирования (ЯИ), т.е. языки, на которых непосредственно строятся исходные поисковые образы документов и/или тематических запросов;

– информационно-поисковые языки (ИПЯ), т.е. языки, на которых представляются ПОДы и тематические поисковые предписания для их непосредственной информационно-поисковой идентификации, реализующей критерий тематического соответствия документов запросам (КТС), заложенный в данный ИПЯ (неотделимость КТС от ИПЯ аналогична неотделимости ЕЯ от мышления);

– информационные языки-посредники (ЯП), т.е. языки, на которых представляются ПОДы в записях документов в коммуникативных форматах.

4. В документальных БД АИС необходимо обеспечить поиск как по широкотематическим запросам, так и по запросам, сформулированным с точностью до детальных понятий. Эффективными для поиска по широкотематическим запросам являются только классификационные ИПЯ, для поиска по детальным запросам – только вербальные ИПЯ. Тексты на вербальных и классификационных ИЯ не представляются взаимотранслируемыми.

Следовательно, в составе ЛО требуется наличие хотя бы одного вербального и одного классификационного ИЯ.

Вопрос наличия в составе ЛО РЦКК ИЯ ГРНТИ решен ГОСТом 7.49 – 84. Одного этого классификационного ИЯ было бы достаточно, если бы не было проблемы информационного взаимодействия с зарубежными ЦНТИ и не было бы библиотек, не имеющих предметных каталогов (т.е. имеющих только систематические каталоги).

Минимум дополнительных классификационных ИЯ, обеспечивающий достаточно большое покрытие потребностей внешнего информационного взаимодействия, – это ИЯ ДДК и УДК. Для общебиблиотечной сети России необходимым также является язык ББК.

Правильность представленного функционального распределения классификационных ИЯ в составе ЛО РЦКК представляется очевидной.

Наиболее эффективным среда вербальных ИПЯ является язык ключевых терминов. Наиболее распространенным вербальным ЯИ в библиотеках является язык предметных рубрик.

Однако ПОДы могут транслироваться с ЯИ предметных рубрик на ЯИ и далее на ИПЯ ключевых терминов. Использование в АИС языка предметных рубрик в качестве ИПЯ представляется проблематичным (сложности с ведением и использованием словаря предметных рубрик, а также синтаксические трудности). Поэтому в состав ЛО РЦКК язык предметных рубрик включен только как один из допустимых языков индексирования, а как вербальный ИПЯ – язык ключевых терминов. Наличие языка ключевых терминов в составе ЯИ объясняется тем, что в некоторых АИС в качестве вербальных ЯИ непосредственно используются языки ключевых терминов.

Таким образом, принятый информационнщ-языковый состав ЛО РЦКК представляется наиболее эффективным относительно других возможных составов как в функциональном отношении, так и с точки зрения его экономичности. Лингвопроцессорный состав ЛО РЦКК, исключая МП-процессоры, представляется логическим следствием его информационно-языкового состава.

Обоснованием включения в состав ЛО РЦКК МП-процессоров служит наличие потребности в увеличении пропускной способности таких служб, как служба индексирования, служба переводов и словарно-терминологическая служба.

5. К числу лингвистических процессоров (ЛП) относятся:

– внутренние трансляторы (ВТ), в том числе трансляторы ПОДов с одних ЯИ на другие ЯИ или на ИПЯ;

– поисковые лингвистические процессоры (ПЛП), т.е. процессоры сопоставления
ПОДов и поисковых предписаний, представленных на ИПЯ, и принятия решения об их тематическом соответствии;

– коммуникативные трансляторы, в том числе прямые коммуникативные трансляторы (ПКТ), т.е. трансляторы ПОДов с ЯИ на ЯП, и обратные коммуникативные трансляторы (ОКТ), т.е. трансляторы ПОДов с ЯП на ЯИ;

– процессоры актуализации лингвопроцессорных и информационно-языковых словарей;

– МП-процессоры.

Мы допускаем, что данный перечень может при необходимости пополняться.

6.2. Под лингвистическим обеспечением системы корпоративной каталогизации понимается применяемая в ее технологии совокупность информационных языков, словарных баз данных, лингвистических процессоров и средств актуализации словарей.

ЛО предназначено обеспечить:

– индексирование документов и запросов,

– эффективный поиск в документальных базах данных по содержательным запросам,

– внутрисистемную лингвистическую совместимость электронных каталогов библиотек России и лингвистическую совместимость системы с наиболее развитыми библиотечно-информационными центрами западных стран, в первую очередь – с OCLC

6.3. Состав средств лингвистического обеспечения, в наибольшей степени соответствующего этим трем задачам:

1. Языки индексирования (ЯИ).

Языки индексирования классификационного типа:

– ЯИ Государственного Рубрикатора научно-технической информации (ЯИ ГРНТИ),

– ЯИ Универсальной десятичной классификации (ЯИ УДК),

– ЯИ Десятичной классификации Дьюи (ЯИ ДДК),

– ЯИ Библиотечно-библиографической классификации (ЯИ ББК).

Языки индексирования вербального типа:

– ЯИ ключевых терминов,

– ЯИ предметных рубрик (в том числе ЯИ предметных рубрик библиотеки Конгресса).

Языки-посредники (ЯП) – по соответствию ЯИ.

Информационно-поисковые языки (ИПЯ):

– ИПЯ ГРНТИ и ИПЯ ДДК, обеспечивающие поиск по запросам отраслевого характера,

– ИПЯ ключевых терминов, обеспечивающий поиск по запросам предметного характера.

2. Словарные базы данных, используемые в процессах лексикографического и терминологического контроля входных записей документов, трансляции ПОДов с одних языков индексирования на другие, автоматического перевода элементов записей документов,индексирования запросов пользователей.

– База данных ГРНТИ.

– База данных УДК.

– База данных ДДК.

– База данных ББК.

– Базы данных тезаурусов.

– Базы данных грамматических словарей.

3. Лингвистические процессоры.

– Процессоры трансляции ПОДов с одних языков индексирования на другие.

– Процессоры машинного перевода.

– Процессоры транслитерации.

Процессоры трансляции ПОДов с ЯИ на соответствующие ЯП и обратные трансляторы.

– Процессор трансляции ПОДов с ЯИ на соответствующие ИПЯ.

– Процессор тематический идентификации текстов на ИПЯ.

Первые два вида процессоров являются самостоятельными, вторые два реализуются при конвертировании документов, а последние два – действуют в рамках системного программного обеспечения.

4. Средства ведения словарей.

– Процессор словарно-грамматической фильтрации новых слов в ПОДах.

– Процессор тезаурусной фильтрации новых терминов в ПОДах.

– Процессоры актуализации словарей.

6.4. Применение элементов ЛО в технологии Центра корпоративной каталогизации реализуется в выполнении следующих функций, которые берет на себя подсистема автоматизированного словарного и лингвопроцессорного обеспечения (АСЛО):

1. Лексикографический и терминологический контроль входных записей документов;

2. Трансляция ПОДов с одних языков индексирования на другие;

3. Автоматический перевод элементов записей документов (элементов библиографической записи, аннотаций, ПОДов) с одних естественных языков на другие;

4. Словарное обеспечение индексирования запросов пользователей;

5. Автоматизированное ведение словарных баз данных;

5.1. Фильтрационная обработка ПОДов (выявление в ПОДах новых словарных единиц);

5.2. Актуализация словарных баз данных:

– Актуализация баз данных информационных классификаций в соответствии с официальными дополнениями и изменениями,

– Составление и ввод новых словарных статей в базы данных тезаурусов и грамматических словарей,

– Корректура словарных статей баз данных тезаурусов и грамматических словарей (устранение ошибок, ввод дополнительных элементов данных),

– Исключение устаревших словарных статей из баз данных тезаурусов и грамматических словарей (на основе анализа статистики употребления словарных единиц в ПОДах);

6. Словарно-информационное взаимодействие с организациями-поставщиками информации и другими организациями.

6.5. Организационными единицами подсистемы АСЛО являются следующие группы:

– Группа управления,

– Группа ведения баз данных информационных классификаций,

– Группа ведения баз данных тезаурусов,

– Группа ведения баз данных грамматических словарей.

Примечание: Подробнее об организационно-функциональной структуре АСЛО и технологии ведения словарных баз данных см. в разделе 5. “Технологическое обеспечение”.