Иванка Атанасова, Преслав Наков, Светлин Наков (Болгария)

ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ

В ПОМОЩЬ ИССЛЕДОВАТЕЛЮ-ЛИНГВИСТУ

 

1. Стандартные и специализированные компьютерные техноло­гии

Информационные технологии предлагают два основных типа средств в по­­мощь исследователю – стандартные и специализированные. Стандартные сред­­ства – это общедоступные программные продукты и технологии, а спе­ци­а­ли­зированные средства – специально разработанные для конкретного ис­сле­­до­ва­ния программные продукты.

Текстообрабатывающий софтвер очень широко использованное стан­дар­т­­ное средство для создания и редактирования текстовых материалов и до­ку­мен­­тов. Большинство современных текстообрабатывающих программ (как, на­­при­мер, Microsoft Word) позволяет форматировать и оформлять тексты, вклю­чать гра­фики, таблицы, формулы, иллюстрации, примечания, аннотации и другие объек­ты в документы, распечатывать их на принтере. Реализованы так­же стра­ни­цирование, поиски, замещение, устранение, копирование от­рыв­ков тек­ста, кор­­­рек­тирование орфографических и грамматических ошибок, пе­ре­нос слов и еще мно­го других функций.

Электронные таблицы (как, например, Microsoft Excel) тоже ши­роко ис­поль­зованные стандартные средства для выполнения различных под­сче­тов и ис­числений. Наряду с простыми подсчетами, как суммирование, оп­ре­де­ле­ние среднего арифметического числа, исчисление процентов и другие, мо­гут вы­­полняться и более сложные совокупности вычислительных действий. Так, на­­пример, по предварительно заданной вычислительной схеме можно под­счи­­ты­вать результаты многих научных экспериментов, а потом эти ре­зуль­таты ви­зу­ализировать в виде таблиц, график и диаграмм.

Системы управления баз данных (как, например, Microsoft Access) яв­ля­ют­ся стандартным средством хранения и обработки информации. В них дан­ные сохраняются в структурированном виде, чаще всего в таблицах, меж­ду ко­то­рыми могут быть определенные связи. Разрешается хранение, до­бав­ле­­ние и устра­нение данных, а также самые разнообразные поиски по раз­лич­ным (не­редко довольно сложным) критериям. К сожалению, работа с по­мо­щью это­го софтвера сложная, требующая специальных познаний и уме­ний, что делает его неудобным для массового потребления.

Компьютерные словари (как, например Babylon Translator) являются стан­­дарт­ным средством перевода слов и выражений с одного языка на дру­гой. Ра­зу­ме­ется, есть и более новые технологии – автоматические электрон­ные пе­ре­вод­чи­ки, выполняющие автоматический машинный межъязыковой пе­ревод тек­стов. Известны два вида таких переводчиков – персональные (как, например, Socrates и Magic Goody), представляющие собой софтуер для межъязыковых пе­реводов, установленные локально, и on-line – предлагаемые в качестве услуг в Интернете (как, например, Alta Vista Translation Services). Для всех ав­то­ма­ти­чес­ких переводчиков характерно, что полученный машин­ный перевод не очень удач­ный, и поэтому специалисту по соответствующим язы­кам необхо­ди­мо до­пол­нительно корригировать переведенные тексты. Не­смот­ря на этот недо­ста­ток, они экономят труд и время.

Существует большое разнообразие общедоступных средств, по­мо­га­ю­щих ис­следователю-лингвисту в его работе, которых, однако, вовсе недо­ста­точ­но. Не­редко исследовательская работа требует узко специфической и не­стан­­дарт­ной с точки зрения общедоступного софтвера обработки данных. В та­ком слу­чае даже профессиональные умения для работы со стандартными сред­ствами ма­ло помогают. Возникает необходимость в разработке спе­циа­ли­зированного софтвера для выполнения соответствующей специфической об­работки данных, ко­торый создается высококвалифицированным ком­пью­тер­ным программистом или коллективом программистов. Разумеется, далеко не каждое исследование мо­жет быть выполнено при помощи компьютера, од­на­ко в определенных слу­ча­ях мож­но добиться исключительно хороших ре­зуль­татов в короткий срок. Это зависит не только от цели исследования, но так­же от использованных ис­сле­до­ва­тель­ских способов и методов фор­ма­ли­за­ции проблем, от которых за­ви­сят ком­пью­тер­ные алгоритмы, при помощи ко­то­рых они решаются. От точ­но­с­ти и эф­фек­тив­ности этих алгоритмов зависят ко­нечные результаты. Ключ к удач­ному ком­пью­терному исследованию – фор­мализировать проблемы, над которыми ра­бо­тают, и по­том создать софтверные продукты, которые решают их или по­мо­га­ют в их ре­ше­нии.

Приведем несколько примеров для специфического софтвера, раз­ра­бо­тан­­­ного нами специально для нужд конкретного исследования в области рус­ской и бол­гарской терминологии изобразительного искусства в плане  со­по­ста­вления, а именно: компьютерный словарь терминов изобразительного ис­кус­ства и ав­томатическое извлечение гипонимических рядов из ком­пьютер­ных терминологических словарей с двумя дополняющими друг друга тех­ни­ка­ми ­– формальной и семантической. В настоящем исследовании пред­став­лена толь­ко формальная техника.

 

2. Компьютерный словарь терминов изобразительного искусства

Компьютерный словарь терминов изобразительного искусства (КСТИИ) – это специально разработанный софтверный продукт для по­ст­ро­е­ния и под­держ­ки компьютерных словарей. Он представляет собой не­боль­шую ин­фор­ма­ци­онную систему, основанную на реляционных базах данных и обес­­пе­чи­ва­ю­щую поддержку двух словарей – болгарского и русского. Каж­дая словарная ста­тья состоит из слова, т. е. однословного термина (ОТ) или тер­­ми­но­ло­ги­чес­ко­го словосочетания (ТС) и краткого толкования соот­вет­ст­ву­ю­щего термина, включающего все его значения.

          Составленные нами два КСТИИ для русских и бол­гарских терминов изо­бра­зительного искусства (ИИ) включают со­от­ветственно 2633 русских и 2894 бол­гарских лексических единиц (ОТ и ТС).

Главное окно КСТИИ разделено по горизонтали на две половины, при­чем верх­няя часть предназначена для болгарского компьютерного словаря, а ниж­­няя – для русского. Таким образом, при срав­ни­тель­ном лин­гвистическом ис­следовании можно наблюдать одновременно бо­лее ко­рот­кие эк­вивалент­ные словарные статьи в обоих языках. Более длин­ные словарные ста­тьи мож­но наблюдать последовательно в соответ­ст­вую­щих диалоговых ок­нах.

В левой половине словарей ОТ и ТС, включая дублеты и варианты, рас­­­по­ложены по вертикали в алфавитном порядке, причем в ско­бках отме­ча­ют­ся про­исхождение заимствованных слов и форма единственного чи­с­ла в тех слу­ча­ях, когда их основная форма представлена во мно­же­ст­ве­нном числе. Ду­блеты и ва­рианты располагаются и по горизонтали рядом с основным ОТ или ТС, ко­то­рые разделяются запятыми.

В правой половине словарей приводятся толкования терминов, вклю­чая все значения полисемантичных тер­минов.

С помощью диалогового окна для редактирования словарной статьи мож­но вно­сить изменения в орфографию, пунктуацию, объем и содержание  термина и его толкования (его значений).

При введении новых терминов компьютерная программа автома­ти­чес­ки рас­полагает все лексические еди­ницы в алфавитном порядке, не поз­во­ляя два ра­за вводить один и тот же термин. При попытке добавить термин, вклю­ченный в словарь, к его толкованию добавляется только новое до­пол­ни­тель­ное толко­ва­ние. Не­нуж­ные лексические единицы легко устраняются, при­чем во избежание слу­­чай­ных ошибок обязательно требуется подтверж­де­ние.

При помощи стандартных клавиш навигации можно последовательно рас­­сматривать термины в алфавитном порядке. Компьютерная программа да­ет воз­можность быстро отыскать нужный термин или установить его отсут­ст­вие в со­ответствующем компьютерном словаре. Чтобы добиться этого ре­зуль­тата не­об­ходимо написать термин или его начальные буквы в со­от­ветст­вую­­щее окно и активировать кнопку поисков. Программа найдет термин, а в слу­­­чае его отсутствия в словаре укажет на ближайший в алфавитном по­ряд­ке.

КСТИИ служат не только для составления соответствующих сло­­варей и хра­нения введенных данных. Программа предоставляет  лин­г­ви­сту до­пол­­ни­­тельную ценную информацию для сопоставительных научных ис­сле­до­ва­ний тер­минов, включенных в КСТИИ, возможность вносить из­ме­не­ния в их объем и со­держание, легко и быстро переключаться из словаря в сло­варь, не­медленно по­давать информацию о точном количестве терминов в обоих сло­­­варях.

Софтверный продукт КСТИИ создан в среде для быстрой разработки  при­­­ложений Borland Delphi. Delphi является визуальной средой для про­грам­ми­­ро­вания, основанной на принципах объектно-ориентированного програм­ми­­ро­ва­ния и компонентной модели разработки приложений. В целях хране­ния и об­работки информации использована встроенная в Delphi поддержка ре­­ля­ци­он­ных баз данных с помощью Borland Database Engine и базы данных PARADOX, а поиски в словарях реализуются языком структурированных за­про­­сов SQL.

 

3. Гипонимия

В лингвистической литературе принято слова, обозначающие ро­довые по­­нятия, называть гиперонимами, а слова, обозначающие ви­до­вые понятия – ги­­­­понимами [Новиков, 1982, с. 241]. Гипероним обозначает общее родовое по­­ня­­тие или сов­окуп­ность, целое по отношению к составляющим его эле­мен­там, ча­с­тям. Гипоним обоз­начает видовое понятие или название элемента, части ка­ко­го-нибудь мно­же­ст­ва, целого.

Гиперонимы и гипонимы образуют гипонимические ряды, в ко­торых ги­­по­­нимы занимают подчиненное положение по отношению к гиперо­ни­мам. В ги­­­понимический ряд входят один гипероним, занимающий веду­щее место и обо­з­­начающий общее понятие, и минимум два гипонима, зани­мающие под­чи­­нен­­ное положение по отношению к нему. Ги­по­нимы в ги­по­ни­ми­чес­­ком ря­ду находятся в равноправных отношениях, т. е. в отношениях со­­под­чи­­нен­нос­ти и называются “согипонимами” [Новиков, 1982, с. 241]. Со сво­ей сто­ро­ны, гипонимы то­же могут стать гиперонимами, об­ра­зуя новые ги­по­­ни­ми­чес­кие ряды. Родо-ви­до­вые отношения в гипонимических рядах вы­ра­жаются се­­­ман­­тически или фор­маль­но-семантически [Сперанская, 1984, с. 10].

 

4. Автоматическое извлечение гипонимических рядов

Более ранние попытки автоматического извлечения синонимов, ги­по­ни­­мов и гипе­ро­ни­мов (для английского языка) указывают на три основных ме­тода: шаб­ло­нный, син­так­сический и семантический. Шаблонный метод использован Хе­арст [Hearst, 1992, p. 539], которая из­вле­ка­ет эксплицитно за­дан­­ные в тексте гипонимы с по­мощ­ью заранее заданных шаблонов, как “such that”, “or other” и др. Дас-Гупта [Das-Gupta, 1987, p. 245] делает попытки об­на­ружить гиперони­мы в лексиконе на основе син­так­си­чес­кого анализа с це­лью идентификации тер­­мина, со­дер­­жа­щего основные ха­рак­теристики за­дан­ного гипонима-цели, Шай­кевич [Shaikevich, 1985, p. 76] предлагает ме­тод ав­то­­ма­тического открытия си­­нонимов на основе их дефиниций в лексиконе, ис­хо­­дя из идеи, что близ­кие по значению слова имеют сходные дефиниции.

Автоматическое извлечение гипонимических рядов из тер­ми­но­ло­ги­чес­ких словарей – это специфический софтверный продукт, включающий две до­­пол­няющие друг друга техники: формальная и семантическая.

 

5. Формальная техника

Фор­мал­ьная техника используется для извлечения гипонимов (ОТ и ТС), со­держащих общий тер­ми­ноэ­лемент. Терми­но­эле­мен­т – это широкое по­нятие, вклю­чающее производящую основу, сло­во­об­ра­зую­­щую морфему (аф­фиксы) и сло­во (лексему) как компоненты в составе сло­ж­ных терминов и ТС. [Да­ни­лен­ко, 1977, с. 37]. Тер­ми­но­элементами могут быть и ТС. Фор­маль­ная тех­ни­ка при­­­­­­меняется в тех слу­ча­ях, когда родо-ви­довые отношения вы­ра­жа­ются фор­маль­но-семантически, т. е. се­мантически и од­но­вре­мен­­но син­так­си­чески или мор­­фологически. Благодаря спе­­ци­фической структуре ком­пью­тер­ных словарей, по­средством этой техники од­новременно извлекаются дуб­ле­ты и варианты со­от­ветствующих гипонимов, ко­торые содержат или не со­дер­жат общий тер­ми­но­эле­мент. Как известно, с семантической точки зрения ва­рианты считаются дуб­ле­тами [Ка­­ли­­нина, 1987, с. 11].

Рассмотрим как работает формальная техника извлечения ги­по­­нимов, ос­­но­вывающаяся на общем терминоэлементе (корне или основе, аффиксе, сло­ве в ка­­честве компонента ТС или сложного слова, ТС), который со­дер­жит­ся в ги­по­ни­мах, но вовсе не обязательно в их ги­пе­ро­ниме. На программу КСТИИ  по­да­ют гипероним, выраженный ОТ или ТС, и она автоматически при­водит ряды ОТ и ТС, содержащих этот тер­ми­ноэлемент. Во время поис­ков до­полнительная ин­формация в скобках, касающаяся про­исхождения за­им­ствованных слов, не учи­тывается, так как она может вне­сти ненужный тер­­мин в гипонимический ряд, если содержит заданный терминоэлемент, од­на­ко сам термин не является со­гипонимом, на­пример: р. вышивка – *фриз (фр. frise, по срвлат. frisium, phrygium 'вы­шив­ка'…),  дерево – *цитрин (нем. zitrin, от лат. citrus 'лимонное де­ре­во'); б. копие – *лан­цет­ка (фр. lancette, по лат. lancea 'копие'), ма­с­ло - *ли­но­ле­ум (анг. linoleum, по лат. linum 'ле­нено плат­но' + oleum 'ма­сло'). Лишь в редких слу­чаях дополнительная ин­фор­ма­ция в скобках по­могает включить в ги­понимический ряд новый согипоним, не со­­дер­жа­щий этот тер­ми­ноэ­ле­мент, на­при­мер: р. статуя - колосс (нем. Ko­lob, фр. co­losse, от лат. Co­lossus, по гр. kolossos 'большая статуя'); б. камък – пи­рит (нем. pyrit, фр. pyrite, от гр. pyrites 'огнен камък').

          Компьютерная программа извлекает список ОТ и ТС, содержащих за­дан­­ный тер­миноэлемент (морфему, основу, слово, ТС). Ока­­зы­вается, что не все ОТ и ТС в списке с общим терминоэлементом являются согипонимами, на­пример: р. портрет – *портретист, *портре­ти­ро­вать, *портрети­руе­мый; б. акварел - *ак­ва­ре­лист, *акварелистка. С помощью одной фор­маль­ной техники нельзя определить ги­­­­­по­нимический ряд, так как родо-видовые от­ношения не могут выражаться только фор­мально, а  фор­мално-се­ман­ти­чес­ки. Опираясь на свой опыт и зна­­ния, после до­полнительных справок в ком­пью­терных словарях, если это необходимо, спе­ци­а­лист может точно опре­де­лить состав гипонимического ряда и устранить не­нуж­ные термины из ком­пью­терного списка.

          Если общий терминоэлемент выражен словом, чья форма множест­вен­но­го чи­­с­ла не содержит какого-нибудь компонента (буквы)  формы един­ст­вен­­но­го чи­­сла, компьютерной программе подаются последовательно обе фор­мы, на­при­мер: р. роспись – ху­­дожественная роспись…и росписи – стен­ные росписи, церковные рос­­писи; б. цвят – ло­ка­лен цвят… и цветове – ах­ро­ма­тични цветове, кон­трастни цве­то­ве….

          Формальная техника извлечения гипонимов с общим тер­ми­ноэ­ле­мен­том, выраженным суффиксом, используется редко, так как она не очень эф­фек­тивна. При использовании суффиксов, ши­роко рас­про­стра­ненных в тер­ми­­нологии ИИ,  в списки обычно попадает большое количество терминов, не яв­ляющихся со­ги­по­нимами, но со­держащих этот суф­фикс, например: б. ху­до­же­ст­вени за­ная­ти – ..., зла­тарство, ки­ли­марство, леярство …, *аб­стракт­но изкуство, *де­ка­дентство, *май­стор­ство …(суфикс –ств-о).

Недостатком формальной техники извлечения ги­по­ни­мов с общим тер­ми­­но­элементом является невозможность программы раз­гра­­ничивать мор­фе­мы или лек­семы от случайно совпадающих с ними ком­­плексов букв, на­при­мер:  р. лак – *пла­кат, мел – *мельхиор, фон – *фон­­танная скульптура; б. стил – *мастило, тон – *кар­тон, туш – *картуш.

 

6. Выводы

          Настоящее исследование приводит нас к следующим вы­водам:

          1. Компьютерные программы, разработанные специально для кон­крет­ных лин­­­гвистических исследований, очень нужный (порой незаменимый) и ис­клю­чи­­­тельно надежный помощник исследователя-лингвиста. С их по­мо­щью эко­но­мит­­ся много времени и сил, быстрее получаются более точные ре­зуль­таты.

          2. Предложенные нами софтверные продукты могут быть ис­поль­зо­ва­ны для сходных лингвистических исследований как конкретных, так и со­по­ста­ви­тель­ных и в других областях познания. КСТИИ может быть ис­поль­зо­ван так­­же при составлении различных толковых и двуязычных словарей. Фор­­­маль­ную тех­нику извлечения гипонимических рядов можно удачно при­ме­нять при кон­­крет­ных и сопоставительных исследованиях не только в об­ла­с­ти гипони­мии, но и лексикологии вообще, а также морфологии, сло­во­об­ра­зо­вания и син­так­­­сиса.

 

Литература

Даниленко В.П. Русская терминология. Опыт линг­ви­сти­чес­­­кого опи­са­ния. М., изд. “На­­у­ка”, 1977.

Калинина Р.П. Термины кузнечно-штамповочного производства в лек­си­чес­­кой си­с­­те­ме русского языка (функционально-парадигмати­чес­­кое опи­са­ние). АКД. Днепро­пет­ровск, 1987.

Новиков Л.А. Семантика русского языка. М., изд. “Выс­шая школа”, 1982.

Сперанская Н.Н. Лесохозяйственная терминология. АКД. Л., 1984.

Das-Gupta P. Boolean Interpretation of Conjunctions for Document Retrieval. Journal of the ASIS, 38(4), 1987.

Hearst M. Automatic Acquisition of Hyponyms from Large Text Corpora. Proc. of COLING 92, Nantes, 2, 1992.

Shaikevich A. Automatic Construction of a Thesaurus from Explanatory Dictionaries, Automatic Documenation and Mathematical Linguistics, 19(2), 1985.