Курс "Обработка нечисловой информации (прикладная лингвистика)

Краткое содержание прочитанных лекций

Лекция 1. 28 сентября 2002 г.
Практическая (лабораторные) и теоретическая часть курса. Основы теоретического минимума - семиотика (наука о знаках), риторика (наука об эффективной коммуникации), общая филология (наука о бытовании текстов в обществе).
Семиотика - наука о знаках. Определение знака по Г.П. Мельникову. Если мы видим (слышим, обоняем ...) объект из внешнего мира S, то в нашем сознании возникает его образ S1. Если мы видим другой объект - D, то происходит то же самое - возникает образ этого объекта D1. А теперь - самое главное - если в нашем сознании есть устойчивая связь от S1 к D1: S1 ---> D1, то может происходить следующее - мы видим S, активизируется S1, затем D1. То есть мы не видим объекта D, но его образ D1 возникает в нашем сознании! В этом случае мы говорим, что S - это знак, а D - это денотат.
Если совсем просто - то знак (S) - это то, что замещает объект (D).
Теперь нам понадобится концепция трех миров Г.Сковороды. Он считал, что есть три мира - мир материальный (физический, то, что можно пощупать), внутренний мир человека (его сознание, психика и т.д.)и мир знаков (он имел в виду прежде всего Библию как мир знаков). Кстати, при этом он говорил, что в каждом из миров есть по меньшей мере два слоя - верхний, доступный непосредственному наблюдению, и внутренний, доступный через познание. Обозначим эти миры через R (reality), M (mind), S (signs).
Нам сейчас важно то, что денотат D может располагаться в любом из трех миров - M,R,S. То есть - знак S может обозначать объекты материального мира (столы, носороги), также идеи, понятия нашего внутреннего мира (радость, математика). Также он может ссылаться на другие знаки.
Мы пока считаем, что знак материален.
Основатель семиотики Чарльз Пирс считал, что семиотика делится на три части - синтактика (правила, как правильно складывать знаки), семантика (как знаки и знаковые структуры связываются с денотатами). А также прагматика - наука об отношении создателей и получателей знаков к этим знаковым произведениям. Это тоже просто. Если вы слышите слово "Пожар", то можете пройти мимо или броситься пожар тушить. При одинаковой семантике - разное прагматическое отношение получателя к полученному знаковому произведению. А если послушать наших дикторов - то можно увидеть и разное отношение создателей (вернее - озвучивателей) к своим знаковым произведениям. Некоторые почти трясутся от возбуждения, объявляя о катастрофах, жертвах и т.п. Некоторые говорят об этом даже с некоторой меланхолией, может даже пытаясь смягчить ужасную семантику сообщения.
Но можно взять пример посерьезнее. В кино "17 мгновений весны" цветочный горшок в окне явочной квартиры (синтактика) означал, что она провалена (семантика). Проф. Плейшнер видел этот знак, но связь S1-D1 у него в сознании не реализовалась. А если бы реализовалась (семантика), то ему надо было бы бежать от этого места (вот она - прагматика). Но это верно только для Плейшнера. Если бы это увидел мужественный Штирлиц - он бы атаковал эту квартиру (другое пргматическое значение - в виде другого действия)! В этом примере можно для упражнения поварьировать с синтактикой (какой знак у опасности), семантикой (что он означает) и пргматикой.
На сайте курса есть хороший link на американский курс семиотики.
Семиотика - интересная наука - но в курсе немного времени для ее изучения. Например - костюм - самообозначение человека - как он хочет, чтобы его воспринимали. Джинсовый костюм и пиджак с галстуком - разные знаки.
В синтактике есть два важных для нас понятия - синтагма и парадигма. Синтагма - это знаковая структура, образованная по правилам синтактики, а парадигма - на основании каких правил отобран знак для каждой знаковой позиции в этой структуре.
Поясним на примере. "Маша ела кашу". Это синтагма. А парадигма - для "каши" - из какого набора (каша, каши, кашу, кашей) взят этот знак.
Для семиотики костюма - синтагма - это то, что одето - какие туфли, брюки, пиджак, рубашка. А парадигма - в гардеробе - из какого набора рубашек, пиджаков и т.д. и на основе каких соображений была образоана эта синтагма.
Теперь зловещая фраза "синтактико-парадигматические отношения в тексте" звучит не так уж страшно.
А теперь рассмотрим как могут быть связаны знаки и денотаты. Один к одному бывает редко (как и в жизни). Часто бывает: один знак - два денотата (D1<--S-->D2). Это полисемия. А наоборот - два знака ссылаются на один денотат - это синонимия (S1-->D<--S2). Например - "облако" и "туча". Можно придраться, что это не полные синонимы. Так и есть - полные и точные соответствия редки в реальной жизни. Омонимия - это когда знаки означают совсем разное, но случайно совпадают по начертанию или звучанию.
На конференциях по прикладной лингвистике (например, Диалог-2002 в Протвино) разработчики разных ИС (информационных систем) часто спрашивали друг друга - а как вы разрешали у себя омонимию?
Но и полисемия не менее страшная проблема при разработке ИС на ЕЯ (естественном языке). Например, английское слово "table" значит (как минимум - и не только) - "стол" и "таблица". Попробуйте узнать во фразе "I put my report with many tables on his table" - где здесь какое из двух значений. Очень легко - если знаешь СЕМАНТИКУ этого предложения. Вот так легко мы пришли к выводу об одном из принципиальных ограничений ИС на ЕЯ (прежде всего - систем машинного перевода). - Адекватная обработка текста на ЕЯ может быть только при условии, что известна его семантика. Исходя из одних правил синтактики невозможно узнать - где нужно брать значение "стол", а где - "таблица". Можно сразу и красиво уточнить, что здесь значит определение "адекватная обработка". Действительно, при МП мы хотим знаковую структуру на одном языке перевести в знаковую структуру на другом, при условии, что семантика (то есть денотатные структуры, на которые ссылаются эти знаковые структуры) неизменна, остается инвариантом.
Так и легко и просто мы (науке потребовалось гораздо дольше) пришли к некоторым простым выводам и обобщениям, касающихся систем обработки нечисловой информации, а проще - прикладной лингвистики. Семиотика позволяет научно, правильно формулировать проблемы этой науки, ее выводы и методы.
-----------------------

Лекция 2. 5 октября 2002 г.

Знаковые системы (ЗС). ЗС в культуре. Типы знаковых систем. Язык - самая развитая ЗС. Несводимость произведений, выполненных из неязыковых ЗС к общему языковому знаменателю. Существуют смыслы, которые можно выразить только в неязыковых ЗС. Эти знаковые произведения можно только описать при помощи речевых средств. Пример - балет.
Классификация знаков по Ч. Пирсу. Знаки иконы (похожие на денотат), символы (непохожие на денотат) и индексы (признаки - часть денотата становится его знаком). Проблема похожести знака на денотат - ономатопея. Диалог Платона "Кратил".
Распределение знаков и ЗС по двум осям. Ось Х - окказиональность - узуальность. Т.е. случайное, одноразовое употребление знака (полюс - минимум) и узуальность - общепринятое, повсеместное употребление знака. Ось Y - число членов коллектива, употребляющих эти знаки (один человек, социальная или профессиональная группа, народ).
Примеры. Точка (1,1) - один человек на один раз употребил один знак (скажем узел на носовом платке), чтобы не забыть о чем-либо. Точка (2,1) или (1,2) :-) ? - два человека условились сообщить знаком один раз о каком-либо событии. Точки (много, много) - современные национальные и профессиональные языки.
------------------------------------------

Лекция 3 - 12 октября 2002 г.

Словари и слова.

Слова синонимы, антонимы, омонимы, паронимы.

Это довольно понятно. Ограничимся несколькими примерами.
Омонимы. Лайка (собака) - лайка (кожа).
Совершенный. Это два слова-омонима (так говорят лингвисты и их словари!).
Паронимы - разные по значению, близкие по произношению.
Невежа-невежда.
Мельничий (относящийся к мельнику) - мельничный (относящийся к мельнице).

Акты именования.

Словари - это хорошо. Они учат как правильно управляться с уже готовыми словами, не путаться в них, правильно употреблять.
Слова образовались в результате актов именования. Можем ли мы сами назначать новые слова? - Как правило - нет. Я могу начать называть яблоко по-другому. Но не просто заставить меня понять и заставить других называть яблоко так же как я.
Однако это не всегда так. Например, имя своему ребенку можно придумать самому. И здесь бывают интересные закономерности. Конечно, можно еще встретить женщин по имени Энгельсина. Но бывает и иначе. В Испании есть имя Родриго. Не все знают, что это искаженное готское имя Родерикс. Готы когда-то завоевали Испанию и испанское дворянство сначала было готским по происхождению. Во Франции и Ирландии часты имена Морис. Говорят там на разных языках. Но когда-то они говорили на родственных - кельтских языках. Галлию романизировал Юлий Цезарь, а Ирландию англизировала Британия. Самоназвание ирландского языка - гэльский. Совсем уже удивительно - в Венгрии называют детей Аттилами. Последние гунны осели в тех местах.
Люди стремятся хотя бы в именах сохранить память о своем прошлом. Но бывает и наоборот. Часты акты реноминации. Иногда кажется, что сумасшествие охватывает общество. Но оно имеет закономерности. Реноминация - красивое слово. Девушки назывались манекенщицы, а теперь модели. Раньше просили - исполните любимую песню из популярного кинофильма. А сейчас - заведите саундтрек из блокбастера!
Это явление можно назвать renomination-crazy.
Но этими процессами надо управлять. В Англии издали Оксфордский словарь употребительных CMC сокращений.
Иногда люди не знают слов (знаков), употребляемых образованными людьми и вольно или невольно подбирают близкие им по звучанию и значению. У Лескова - мелкоскоп, плакон.
Это уже семиотическая деятельность. Нормализация новых знаков - это не синтактика и не семантика. А наладонниках PALM не побоялись и ввели свои знаки.
Нужно знать ее (семиотики) законы ! Наша деятельность все больше становится связанной со знаками.

А теперь - треугольник Фреге.

Если мы посмотрим на схему Мельникова, то можно дальше рассуждать так. Пусть мы часто видим во внешнем мире денотат - стол. Но рано или поздно у нас в нашем внутреннем мире образуется абстрактное понятие стола. Логик 19-го века Готлиб Фреге свел все это в треугольник. Знак-денотат-понятие (concept). Правда, знаком у него стали ДВЕ слепленные вместе сущности - знак и его образ (по Мельникову). Об этом часто говорят так - знак - это двусторонняяя сущность - одна сторона - психическая ... и т.д. Читая эти объяснения многим хочется удавиться.
Часто треугольник Фреге (ТФ) берут за определение знака. Не совсем наглядное определение. Но часто он может служить моделью для семиотических и философских рассуждений. Если в их начале уже лежит ТФ со слепленными вместе совершенно разнородными сущностями, то у многих желание удавиться может нарастать.
Например - (по Б.В.Якушину). Философию номинализма (а также оккультных учений, считающих знак чем-то лежащим вне нас) можно смоделировать как ТФ, расположенный во внешнем мире.
А философию солипсизма можно проиллюстрировать как ТФ, все вершины которого лежат в нашем внутреннем мире.
Можно постоить и эффектную модель коммуникации - также по Б.В.Якушину. Если мы задумали что-то сказать, то мы начинаем с мысли, затем конкретизируем ее в денотате и порождаем знак. Наш собеседник получает знак, отождествляет его с денотатом, а затем понимает вашу мысль. Если еще вообразить, что в центр внимания перемещается соответствующая вершина ТФ, то получается модель коммуникации с двумя ТФ, вращающимися в разные стороны.

Тезаурусы.

Вернемся снова к словарям. Теперь о них можно сказать больше, пользуясь моделью ТФ. Действительно, двуязычные словари устанавливают отношения знак-знак в разных языках. Толковые словари описывают отношение знак-денотат. Но есть еще один важный вид словарей - тезаурусы. Сначала в средние века собирали слова (лексическое богатство) латинского языка. Тезаурус по-латински и есть богатство. В нем были примеры употреблений самых редких латинских слов а римских авторов. Назовем это тезаурус-1 (Т1). Но потом пришла простая мысль упорядочить эти слова по их денотатам - просто хотя бы классифицировать их в иерархические структуры. Это уже Т2. Но тогда можно сделать новое важное движение - от классификации (по сути от денотата) найти нужный знак! Это Т3. Важность этого вида словарей не сразу бросается в глаза, но поняв, это трудно переоценить. Мы можем, двигаясь по понятной нам классификации, найти любое нужное нам слово (хотя бы латинского языка). Но это не все. При помощи Т3 можно интегрировать и упорядочить очень сложную деятельность. Есть Тезаурус НАСА. Он содержит миллионы терминов по ракетной и космической технике и сопряженных с ними понятий и терминов. Часто люди не знают или называют по-разному разные детали в сложных механизмах. А шутки, что русский скажет товарищу - подай мне ту штуковину часто оказываются горькими. Космическую гонку мы проиграли. Тазауруса как у НАСА у нас не было. А они все штуковины ракетной техники систематизировали в единый тезаурус.
Самое наивное думать, что у всех денотатов есть знаки. В английском майку с надписью называют T-shirt. А есть ли такое слово у нас в русском?
Люди не только складывают знаки в сложные структуры по правилам синтактики, чтобы обозначить сложные денотаты и понятия по правилам семантики. Они очень неравнодушны к самим знакам (это относится к прагматике). Они выдумывают новые, присваивают их новым денотатам, упорядочивают их в словари. Это прагматика (по Пирсу) или семиотическая деятельность.
--------------------------------

Лекция 4. 19 октября.

Теория Тезауруса и семиотика.

ВНИМАНИЕ. На этой странице для единообразия приведены заголовки основных тем. Теория тезауруса и семиотика излагаются на отдельной странице (см. ссылки внизу).

ТЕОРИЯ ТЕЗАУРУСА.

Тезаурус - онтогенез.

Зачем нужен тезаурус во-первых - информационный поиск (ИП).

Зачем нужен тезаурус во-вторых - интеграция знаний и повышение эффективности трудовой деятельности за счет оптимизации процесса коммуникации.

Тезаурус - парадигматика.

Популярные тезаурусы и их особенности.

Roget's

DUDEN

SNOMED

Тезаурус НАСА

WORDNET - интеллектуальный компьютерный тезаурус (будет изучаться в след лекции)

СЕМИОТИКА.

Понятие коннотата.

Если мы возьмем такой набор слов - лицо, физиономия, морда, рожа, харя (дальше не будем продолжать), то увидим, что у них есть общий денотат. Лучше всего он описывается первым словом из этого ряда. А чем отличаются другие слова, имеющие те же денотаты? Они отличаются коннотатами - т.е. вторичными или сопутствующими значениями. Коннотаты могут быть как общезначимыми, так и индивидуальными или общими только для каких-то определенных социальных групп.
(далее - см ссылку внизу)

Отзывы об этом тексте наших выпускников и других людей, мнение которых заслуживает помещения на сайт курса.

Посмотрел. Краткое содержание - хорошая идея.
Я прочитал где-то половину "Системологии..." Мельникова.
Толковая книжка. Он говорит о сложных вещах и использует
довольно сложные слова, но, что интересно, слова эти умеет разъяснять
по ходу изложения, так что создается впечатления понятности,
что редко бывает у меня при чтении подобных книг.
Несколько бесполезным мне показался правда долгий проматериалистический путь от механического взаимодействия до информационного. Конечно важно уяснить их взаимосвязь и неразделимость, эволюцию от одного к другому, но это Мельникову на мой взгляд не особо удается, это отдельный разговор и такую книгу можно было начинать сразу с понятия знака.
То с чего Вы и начинаете лекции :)
Что же качается формы изложения, то я бы осмелился высказать следующее
личное наблюдение. Меня сбивают с толку математические обозначения типа S и D, S1 и D1. Мне не нравится в этом плане язык математики и нравятся языки программирования типа Java. Знак "S" перегружен смыслами в науках.
Это и площадь и энтропия и Бог знает чего еще. Лучше было бы писать
Sign и Denotat, соответственно SignImage и DenotatImage.
Это было бы понятней, как мне кажется. Еще круче ввести понятие пакета
например здесь мы используем пакет "humanity.science.lingvo.semiotics"
ну или что-то вроде того, в котором определены понятия Sign и т.д.
А скажем SignImage должен быть подклассом Image (или имплементировать
такой интерфейс) из другой области знания касающейся человеческого сознания (из другого пакета, не знаю пока как его назвать).
Ну вобщем, не буду разглагольствовать. Я просто хотел сказать, что
Sign смотрелось бы гораздо лучше, чем просто S.

Всего хорошего, Дмитрий.
(Д. Кулаков - наш выпускник 2001 г.)
30 сент 2002 г.
------------------

Мои впечатления после прочтения (основного текста): Написано относительно доступным языком даже для непрофи. Во всяком случае я понял возможно не всё, но я прочитал бегло 1 раз и основную мысль уяснил. Прочитал и отзыв Дмитрия Кулакова. Типичный гуманитарий. "На фига" усложнять, чем ему не нравится язык математики? Во всяком случае, для меня базовый вариант понятнее. Буду следить за лекциями далее.

В.В.Брюханов, сотрудник Гродненского университета.
5 окт 2002 г.
------------------

Комментарии и замечания к тексту (чтобы не загромождать основное изложение)

1. NLP. Есть еще одно NLP (см подборку - zip-файл на сайте - "NLP в Екатеринбурге"). Там суть дела вот в чем. Кратко - это омонимы. Представьте, что вы сверхпрактичные американцы (NLP так и зародилась). Прослушали лекцию или что-то в этом роде к-либо гуру, профессора, который изложил очень важную, интересную идею. Теперь вы хотите донести ее (идею, впечатление от посещения лекции) до тех, кто там не присутствовал. Аудио, видеозапись - это только отражение и неполное. А теперь представьте, что вы выучили наизусть слова, жесты, все поведение этого профессора или гуру и повторяете их еще и еще перед новыми и новыми аудиториями. Пример еще проще "не нашего" NLP. Попал в незнакомую компанию и хочешь им понравиться - ненавязчиво копируй их слова и жесты. Если делать это с умом - успех обеспечен. Вот это и есть то другое NLP, которое мы НЕ изучаем.
---------------
2. ОНОМАТОПЕЯ. Сложное слово обозначает простую вещь - похожесть. Но это термин семиотики, идущий от древних греков. Они сделали большой вклад в эту науку. Но с явлением похожести-непохожести мы сталкиваемся часто. И часто требуем, чтобы знак был похож на денотат. Бывает правильно, а бывает, что нет.
В начале века в Петербурге была знаменитая балерина Кшесинская. Она могла сделать подряд 32 фуэте (оборотов). На бис, правда, уже только 28. Она и наследник престола Николай были влюблены друг в друга.
Однажды она попросила основателя нашего балета Мариуса Петипа дать ей танцевать партию Эсмеральды в одноименном балете. Мариус (который так толком и не научился говорить по-русски, но хорошо знал свою международную знаковую систему - балет) спросил ее. - Ты любиль? - Матильда ответила. - Да. - А ты страдаль? - Мотя ответила. - Нет. Она и Николай горячо любили друг друга. Танцевать Эсмеральду ей было отказано. Петипа знал что такое ономатопея. Счастливая в любви Кшесинская не смотрелась бы в партии Эсмеральды. Однако при вступлении в брак от Николая потребовали порвать с Кшесинской. После этого требование ономатопеи было выполнено. Весь Петербург с восторгом смотрел Кшесинскую, танцующую Эсмеральду.
---------------


Американский курс семиотики. Лучше не вдумываться - много по-дамски напутано. В сомнительных случаях за истину считать материал лекций.

Ссылки по семиотике

Книга Г.П.Мельникова - будет понята полностью не ранее, чем через сто лет, несмотря на все визги о безумном прогрессе человечества.

Общая филология (продолжение - лекций)

Теория тезауруса и семиотика (продолжение лекции 4 и 5)



Сайт управляется системой uCoz