ТЕОРИЯ ТЕЗАУРУСА

ТЕОРИЯ ТЕЗАУРУСА (Лекция 4)

ТЕОРИЯ ТЕЗАУРУСА (Лекция 4)

Тезаурус - онтогенез.

Этот процесс кратко описан в пред. лекции. Через собирание всего лексического богатства языка (Т1), проходя затем процесс упорядочивания этой лексики (Т2), люди пришли к идее тезауруса как чистой функции движения от денотата к знаку (Т3).

Действительно, в толковом словаре мы ищем объяснение слова, т.е. движемся от знака к денотату -

S ---> D или D = f(S)

В тезаурусе же реализуется обратная функция -

D ---> S или S = F(D)


Зачем нужен тезаурус в информатике во-первых - информационный поиск (ИП).

Если мы ищем что-то в Интернете простейшей "искалкой", то мы найдем только те тексты, которые включают в себя заданные в запросе ключевые слова. Можно представить, что я ищу информацию о цветах. Мой запрос принесет мне тексты с этим словом. А теперь представим себе, что есть нужные мне тексты о розах или гвоздиках, в которых ни разу не встречается слово "цветы". Тогда эти тексты НИКОГДА не будут найдены, несмотря на любые увеличения скорости процессора. Если же этот запрос пропустить через простейший тезаурус, то он развернет поисковое слово в необходимых подробностях. В данном случае запрос может быть расширен - в него могут быть добавлены названия разных цветов.

Зачем нужен тезаурус во-вторых - интеграция знаний и повышение эффективности трудовой деятельности за счет оптимизации процесса коммуникации и интеграции знаний.

Лексика (чаще всего терминология) какой-либо предметной области (ПО) человеческой деятельности позволяет значительно повысить эффективность труда в этой ПО. Например - см. ниже описания тезаурусов SNOMED и НАСА.

Тезаурус - парадигматика.

Тезаурус - это прежде всего иерархическая классификация. Она нужна, чтобы найти сначала нужный денотат. Действительно, если я вижу гайку и не знаю как она называется даже на моем родном языке, тезаурус предлагает мне такую схему поиска по дереву - это идея или материальная сущность. Затем - гайка - это природой созданный предмет или создан человеком и т.д. Мы движемся по дереву, пока не достигнем своего денотата, а потом видим, как он назыавется.
Поэтому для любой словарной статьи нужно указать в какие более общие понятия, конструкции и т.п. интегрируется описываемый ею объект - т.е. вышестоящая статья. Аналогичное рассуждение справедливо и в обратную сторону. Эта стройная иерархическая классификация дополняется перекрестными связями самого разного рода - чаще всего синонимическими или антонимическими, различного рода ассоциативными связями.

Терминология Т (ТТ). Даже на английском - современной имперской латыни ТТ содержит два наиболее употребительных синонимических набора терминов - один с более научным уклоном, другой - более практический или технический.
Так, вышестоящий термин называется гиперним (hypernym)? но в информатике (в частности в MULTITES) он называется BT - Broader Term (как бы - более широкий термин). и наоборот - нижележащий термин - соответственно - гипоним (hyponym) или NT (Narrower Term). Более подробно эта терминология описана на сайте MULTITES.
Популярные тезаурусы и их особенности.

В чистом виде тезаурус встречается редко - как и движение без трения или чистый кремний. В реальных тезаурусах происходит упрощение исходной идеи или добавление посторонней, но потенциально нужной его пользователю информации.

Roget's
Наиболее популярный Т. Организован вниз вплоть до набора синонимов. Поэтому он часто, (как сенатор в окне внизу), используется для того, чтобы подыскать более подходящий синоним к слову. Поэтому он и дополнен грамматичекими сведениями в каждой своей статье.

DUDEN

Идея поиска названия денотата релизована наиболее просто и наглядно. DUDEN -это книга с картинками на правой стороне (по разным ПО) с пронумерованными по-чертежному мельчайшими их деталями. На правой строне этот нумерованный список сопровождается названиями (даже на двух языках). Напимер - на целой странице нарисованы ж.д. техника, станции, пути и т.п. Справа можно найти названия стрелок, семафоров, костылей.

SNOMED

Это огромный компьютеризированный Т медицинской терминологии. Ссылка на его сайт дает хорошее представление о его возможностях.

Тезаурус НАСА
Как и SNOMED - этот Т - одно из больших свершений в области лингвистики. Систематизированный свод терминов по ракетной технике и смежным областям. НАСА сделала прекрасный сайт. Можно посмотреть этот тезаурус в оригинальном динамическом графическом интерфейсе.
http://www.visualthesaurus.com/index.jsp


Популярное средство создания словарей - MULTITES. - См. ссылку.

WORDNET - интеллектуальный компьютерный тезаурус

Создан в Принстонском университете и свободно распространяется.

Основной материал о нем расположен в ссылке внизу.

Основные особенности.

Слова в нем сгруппированы в синонимические группы (синсеты - synsets). Они разбиты на 4 словаря - существительные, прилагательные, глаголы и наречия. Синсеты объединены как в иерархические связи (гипонимы и гиперонимы), так и в отношение антонимии и также меронимии (быть частью чего-л или состоять из частей). Решена также проблема морфологии - слово после обращения к WN возвращается в исходной форме.

~

ТЕОРИЯ ТЕЗАУРУСА - полезные мысли

~
Даже такие простые люди, как американские сенаторы, знают, что такое тезаурус -

----------

QUOTE OF THE DAY

"When people start writing about New York, they tend to go get a thesaurus and find all the synonyms for dysfunctional."

JAMES J. LACK,a Republican state senator.

---------- 20.10.02 14:44 The New York Times

~

Отрывок из текста -

Ярославцева Е.И., Новиков А.И. Тезаурус грамматических категорий и явлений / Человек в зеркале языка. - Москва: Институт языкознания, - 2002.

Тезаурус (от греч. thesuarus "сокровище, сокровищница") -

1) словарь, в котором максимально полно представлены все слова языка с исчерпывающим перечнем примеров их употребления в текстах;

2) идеографический словарь, в котором показаны семантические отношения (родо-видовые, синонимические и др.) между лексическими единицами.

Тезаурус в первом значении в полном объеме осуществим лишь для мертвых языков, ср. "Thesaurus Lingue Latine" (c 1900). К этому типу приближается, например, "Словарь польского языка XVI в. " (с 1966).
Структурной основой для тезауруса во втором значении обычно служит иерархическая система понятий, обеспечивающая поиск от смыслов к лексическим единицам, т.е. поиск слов, исходя из понятия.

ТЕОРИЯ ТЕЗАУРУСА - некоторые практические реализации

1. White Pages - Yellow Pages. Второе - тезаурус, опять же приспособленный к практическим нуждам. В первом случае поиск идет по знаку (имени - человека, фирмы), а во втором случае - по денотату - что за фирма или человек, в какой области деятельности их искать (их функциональность). Чтобы не начинать искать от самых основ, сама функциональность выстроена по алфавиту. Это смазывает четкую и разницу, но принцип поиска от денотата к знаку остается.


Основные материалы по WORDNET

Тезаурус НАСА



Сайт управляется системой uCoz