Неуклонный рост объема поступающей информации
заставляет обращать все большее внимание на технологии извлечения
знаний из разнообразных источников и в первую очередь - из
неструктурированных и слабоструктурированных текстов на естественном
языке. Задачу извлечения знаний из текстовых источников решают
лингвистические процессоры.
Важным критерием, определяющим эффективность работы
лингвистических процессоров, является объем доступных им баз
априорных лингвистических знаний - информации о закономерностях,
присутствующих в анализируемом естественном языке. Всю информацию
такого рода можно разделить на регулярную и нерегулярную, и, если
первая может быть описана посредством набора правил (и эта задача,
надо отметить, успешно решается в рамках классической лингвистики),
то описание последней состоит скорее не из правил, а из исключений.
Современная лингвистическая теория представляет ряд
методик формального описания носящих нерегулярный характер
лингвистических знаний; из них особенно следует отметить
предложенную И.А. Мельчуком в 1974 году модель "Смысл у Текст". В
рамках данной модели для описания реалий естественного языка
используется толково-комбинаторный словарь. Задача построения такого
словаря очень сложна, ее решение требует длительного труда
коллектива профессиональных лингвистов. Неудивительно поэтому, что
объемы существующих толково-комбинаторных словарей измеряются в
лучшем случае тысячами лексических единиц - чего явно недостаточно
для эффективной работы универсального лингвистического процессора.
Представляется, что одним из наиболее перспективных
путей увеличения объемов толково-комбинаторных словарей является
разработка инструментального средства, обеспечивающего частичную или
полную автоматизацию ряда рутинных операций, обычно выполняемых
экспертом-лингвистом. Основой для такой автоматизации является,
прежде всего, статистический анализ случаев сочетаемости
(синтаксической, лексической и т.п.) описываемых лексических единиц
на корпусе текстов на анализируемом естественном языке. По
результатам анализа автоматически строится набор гипотез о
нерегулярной сочетаемости лексических единиц, упорядоченных по своей
относительной достоверности; при этом роль эксперта-лингвиста
сводится к выбору гипотез, правильных с позиций его знаний об
исследуемом языке.
Описываемое инструментальное средство было
реализовано автором программно на платформе MS Windows и
поддерживало полный цикл ввода словарной статьи
толково-комбинаторного словаря. Хотя на данном этапе реализации
автоматизация была выполнена только для описания синтаксической
сочетаемости (модели управления) лексических единиц, нет никаких
препятствий для распространения использованной технологии и на
описание других случаев сочетаемости - например, лексической или
фразеологической.
Программный продукт получил высокую оценку со
стороны профессиональных лингвистов, специализирующихся на
компьютерной лексикологии и лексикографии, как прототип рабочего
места инженера-лингвиста. |