6. ЛИНГВИСТИЧЕСКОЕ ОБЕСПЕЧЕНИЕ
6.1. Обоснование выбора средств ЛО.
1.
В автоматизированных информационных системах (АИС) выделение лингвистического обеспечения из состава информационного обеспечения и оформление его в качестве самостоятельной подсистемы было фактически завершено к 1976 году и получило юридическое закрепление Постановлением от 30.09.81 “Об утверждении единого порядка разработки и развития автоматизированных систем НТИ”. В настоящее время этот документ считается утратившим силу. В условиях отсутствия Единого порядка мы руководствуемся целесообразностью принятия решений в специфике АИС и действующими стандартами:1) 7.49 – 84 Рубрикатор ГАСНТИ (новое название – Государственный рубрикатор НТИ). Структура, правила использования и ведения.
2) 7.59 – 90 Индексирование документов. Общие требования к систематизации и предметизации.
3) 7.
19 – 85 Коммуникативный формат для обмена библиографическими данными на магнитной ленте. Содержание записи.4) 7.52 – 85 Коммуникативный формат для обмена библиографическими данными на магнитной ленте. Поисковый образ документа.
5) 34.201 – 89 Информационная технология. Виды, комплектность и обозначения документов при создании автоматизированных систем.
6) 34.003 – 90 Информационная технология. Термины и определения.
7) РД – 50 – 34.698 – 90. Методические указания. Информационная технология. Требования к содержанию документов.
8) РД – 50 – 680 – 88. Методические указания. Основные положения.
Полный перечень нормативных документов, определяющих состав информационного и лингвистического обеспечения см. в Списке использованных нормативных документов.
2.
С учетом указанных документов лингвистическое обеспечение АИС (ЛО) определяется нами как совокупность применяемых в технологии АИС информационных языков (ИЯ), лингвистических процессоров и средств поддержки лингвопроцессорных и информационно-языковых словарей на актуальном уровне, обеспечивающая выполнение системных функций:– поиска в документальных БД АИС по тематическим запросам;
– выпуска информационных изданий (только в части формирования систематических рядов в выпусках изданий);
– межсистемного информационного взаимодействия (в части прямого и обратного конвертирования записей информационно-языковых словарей, а также в части прямой и обратной трансляции ПОДов с ЯИ АИС на ИЯ-посредники).
Этим определением оформляется существенно целесообразное в условиях АИС полное отделение ЛО от информационного обеспечения.
3.
ИЯ АИС являются формальными языками и в функциональном аспекте подразделяются на:– языки индексирования (ЯИ), т.е. языки, на которых непосредственно строятся исходные поисковые образы документов и/или тематических запросов;
– информационно-поисковые языки (ИПЯ), т.е. языки, на которых представляются ПОДы и тематические поисковые предписания для их непосредственной информационно-поисковой идентификации, реализующей критерий тематического соответствия документов запросам (КТС), заложенный в данный ИПЯ (неотделимость КТС от ИПЯ аналогична неотделимости ЕЯ от мышления);
– информационные языки-посредники (ЯП), т.е. языки, на которых представляются ПОДы в записях документов в коммуникативных форматах
.4.
В документальных БД АИС необходимо обеспечить поиск как по широкотематическим запросам, так и по запросам, сформулированным с точностью до детальных понятий. Эффективными для поиска по широкотематическим запросам являются только классификационные ИПЯ, для поиска по детальным запросам – только вербальные ИПЯ. Тексты на вербальных и классификационных ИЯ не представляются взаимотранслируемыми.Следовательно, в составе ЛО требуется наличие хотя бы одного вербального и одного классификационного ИЯ.
Вопрос наличия в составе ЛО РЦКК ИЯ ГРНТИ решен ГОСТом 7.49 – 84. Одного этого классификационного ИЯ было бы достаточно, если бы не было проблемы информационного взаимодействия с зарубежными ЦНТИ и не было бы библиотек, не имеющих предметных каталогов (т.е. имеющих только систематические каталоги).
Минимум дополнительных классификационных ИЯ, обеспечивающий достаточно большое покрытие потребностей внешнего информационного взаимодействия, – это ИЯ ДДК и УДК. Для общебиблиотечной сети России необходимым также является язык ББК.
Правильность представленного функционального распределения классификационных ИЯ в составе ЛО РЦКК представляется очевидной.
Наиболее эффективным среда вербальных ИПЯ является язык ключевых терминов. Наиболее распространенным вербальным ЯИ в библиотеках является язык предметных рубрик.
Однако ПОДы могут транслироваться с ЯИ предметных рубрик на ЯИ и далее на ИПЯ ключевых терминов. Использование в АИС языка предметных рубрик в качестве ИПЯ представляется проблематичным (сложности с ведением и использованием словаря предметных рубрик, а также синтаксические трудности). Поэтому в состав ЛО РЦКК язык предметных рубрик включен только как один из допустимых языков индексирования, а как вербальный ИПЯ – язык ключевых терминов. Наличие языка ключевых терминов в составе ЯИ объясняется тем, что в некоторых АИС в качестве вербальных ЯИ непосредственно используются языки ключевых терминов.
Таким образом, принятый информационнщ-языковый состав ЛО РЦКК представляется наиболее эффективным относительно других возможных составов как в функциональном отношении, так и с точки зрения его экономичности. Лингвопроцессорный состав ЛО РЦКК, исключая МП-процессоры, представляется логическим следствием его информационно-языкового состава.
Обоснованием включения в состав ЛО РЦКК МП-процессоров служит наличие потребности в увеличении пропускной способности таких служб, как служба индексирования, служба переводов и словарно-терминологическая служба.
5.
К числу лингвистических процессоров (ЛП) относятся:– внутренние трансляторы (ВТ), в том числе трансляторы ПОДов с одних ЯИ на другие ЯИ или на ИПЯ;
– поисковые лингвистические процессоры (ПЛП), т.е. процессоры
сопоставления
ПОДов и поисковых предписаний, представленных на ИПЯ, и
принятия решения об их тематическом соответствии;
– коммуникативные трансляторы, в том числе прямые коммуникативные трансляторы (ПКТ), т.е. трансляторы ПОДов с ЯИ на ЯП, и обратные коммуникативные трансляторы (ОКТ), т.е. трансляторы ПОДов с ЯП на ЯИ;
– процессоры актуализации лингвопроцессорных и информационно-языковых словарей;
– МП-процессоры.
Мы допускаем, что данный перечень может при необходимости пополняться.
6.2.
Под лингвистическим обеспечением системы корпоративной каталогизации понимается применяемая в ее технологии совокупность информационных языков, словарных баз данных, лингвистических процессоров и средств актуализации словарей.ЛО предназначено обеспечить
:– индексирование документов и запросов,
– эффективный поиск в документальных базах данных по содержательным запросам,
– внутрисистемную лингвистическую совместимость электронных каталогов библиотек России и лингвистическую совместимость системы с наиболее развитыми библиотечно-информационными центрами западных стран, в первую очередь – с OCLC
6.3.
Состав средств лингвистического обеспечения, в наибольшей степени соответствующего этим трем задачам:1.
Языки индексирования (ЯИ).Языки индексирования классификационного типа:
– ЯИ Государственного Рубрикатора научно-технической информации (ЯИ ГРНТИ),
– ЯИ Универсальной десятичной классификации (ЯИ УДК),
– ЯИ Десятичной классификации Дьюи (ЯИ ДДК),
– ЯИ Библиотечно-библиографической классификации (ЯИ ББК).
Языки индексирования вербального типа:
– ЯИ ключевых терминов,
– ЯИ предметных рубрик (в том числе ЯИ предметных рубрик библиотеки Конгресса).
Языки-посредники (ЯП) – по соответствию ЯИ.
Информационно-поисковые языки (ИПЯ):
– ИПЯ ГРНТИ и ИПЯ ДДК, обеспечивающие поиск по запросам отраслевого характера,
– ИПЯ ключевых терминов, обеспечивающий поиск по запросам предметного характера
.2.
Словарные базы данных, используемые в процессах лексикографического и терминологического контроля входных записей документов, трансляции ПОДов с одних языков индексирования на другие, автоматического перевода элементов записей документов,индексирования запросов пользователей.– База данных ГРНТИ.
– База данных УДК.
– База данных ДДК.
– База данных ББК.
– Базы данных тезаурусов.
– Базы данных грамматических словарей.
3.
Лингвистические процессоры.– Процессоры трансляции ПОДов с одних языков индексирования на другие.
– Процессоры машинного перевода.
– Процессоры транслитерации.
–
Процессоры трансляции ПОДов с ЯИ на соответствующие ЯП и обратные трансляторы.– Процессор трансляции ПОДов с ЯИ на соответствующие ИПЯ.
– Процессор тематический идентификации текстов на ИПЯ.
Первые два вида процессоров являются самостоятельными, вторые два реализуются при конвертировании документов, а последние два – действуют в рамках системного программного обеспечения.
4.
Средства ведения словарей.– Процессор словарно-грамматической фильтрации новых слов в ПОДах.
– Процессор тезаурусной фильтрации новых терминов в ПОДах.
– Процессоры актуализации словарей.
6.4.
Применение элементов ЛО в технологии Центра корпоративной каталогизации реализуется в выполнении следующих функций, которые берет на себя подсистема автоматизированного словарного и лингвопроцессорного обеспечения (АСЛО):1.
Лексикографический и терминологический контроль входных записей документов;2.
Трансляция ПОДов с одних языков индексирования на другие;3.
Автоматический перевод элементов записей документов (элементов библиографической записи, аннотаций, ПОДов) с одних естественных языков на другие;4.
Словарное обеспечение индексирования запросов пользователей;5.
Автоматизированное ведение словарных баз данных;5.1. Фильтрационная обработка ПОДов (выявление в ПОДах новых словарных единиц);
5.2. Актуализация словарных баз данных:
– Актуализация баз данных информационных классификаций в соответствии с официальными дополнениями и изменениями,
– Составление и ввод новых словарных статей в базы данных тезаурусов и грамматических словарей,
– Корректура словарных статей баз данных тезаурусов и грамматических словарей (устранение ошибок, ввод дополнительных элементов данных),
– Исключение устаревших словарных статей из баз данных тезаурусов и грамматических словарей (на основе анализа статистики употребления словарных единиц в ПОДах);
6.
Словарно-информационное взаимодействие с организациями-поставщиками информации и другими организациями.6.5.
Организационными единицами подсистемы АСЛО являются следующие группы:– Группа управления,
– Группа ведения баз данных информационных классификаций,
– Группа ведения баз данных тезаурусов,
– Группа ведения баз данных грамматических словарей.
Примечание: Подробнее об организационно-функциональной структуре АСЛО и технологии ведения словарных баз данных см. в разделе 5. “Технологическое обеспечение”.