Иванка Атанасова, Преслав Наков, Светлин Наков (Болгария)

СЕМАНТИЧЕСКАЯ ТЕХНИКА АВТОМАТИЧЕСКОГО

ИЗВЛЕЧЕНИЯ ГИПОНИМИЧЕСКИХ РЯДОВ ИЗ ТЕРМИНОЛОГИЧЕСКИХ СЛОВАРЕЙ

 

1. Семантическая техника

Семантическая техника автоматического извлечения гипонимических ря­­дов основывается на латентном семантическом ана­­­­лизе и используется, глав­­ным образом, для гипонимов, не имеющих об­­ще­го терминоэлемента, хо­тя в списки попадают и гипонимы с общим терминоэлементом. У нее две раз­но­видности: семантическая тех­ни­ка без сегментации и се­ман­­ти­чес­кая тех­ни­ка с сегментацией. Со своей сто­­ро­ны, семантическая тех­­ника без сег­мен­тации тоже имеет две раз­но­­вид­но­сти: семантическая тех­­ни­ка для тол­ко­ваний терминов-гиперо­ни­мов (или терминов-ги­по­ни­­мов) и се­ман­ти­чес­кая тех­ника для самих тер­минов-ги­­пе­ро­нимов (или тер­минов-ги­понимов).

 

2. Латентный семантический анализ

          Латентный семантический анализ (ЛСА) – мощная статистическая тех­­­ни­ка ин­дек­са­ции, извлечения и анализа текстовой информации, приме­няе­мая с ус­пехом в различных об­ластях человеческого познания за по­след­нее де­­­ся­ти­ле­тие. Метод полностью ав­то­ма­ти­ческий и не пользуется ни­какими предварительно сос­та­в­ленными словарями, семантическими се­тями, базами зна­ния, кон­цеп­ту­аль­ны­ми иерархиями, грамматическими, мор­фо­ло­ги­чес­кими или син­таксическими ана­­­лизаторами и др. В его основе лежит гипотеза о том, что между от­дельными сло­вами и обобщенным контекстом (пред­ло­же­ни­я­ми, абзацами и целыми тек­ста­ми), в которых они встречаются, су­ще­ст­ву­ют неявные (латентные) вза­и­мо­с­вя­зи, обуславливающие совокупность вза­им­ных ограничений. Их открытие и пра­­вильное рассмотрение дают возмож­ность ЛСА справиться ус­пеш­но с си­но­ни­мией и час­тич­но с полисемией: с обе­ими наиболее сложными про­бле­мами при статистической об­работке тек­сто­вой информации.

ЛСА двухступенчатый процесс, включающий обучение и анализ ре­зуль­та­тов. Фаза обучения начинается с формирования частотной матрицы встреч слов/терминов в до­ку­мен­тах. Следует логарифмическая тран­с­фор­­­ма­ция, де­ле­ние на энтропию по рядам, де­ком­позиция по син­гу­лярной сто­и­мос­ти и вы­клю­че­ние шума, в результате чего по­лу­чается небольшое число зна­чи­мых фак­то­ров, чаще всего между 50 и 400. Таким образом, каж­дому до­ку­мен­ту и каждому сло­ву сопоставляется вектор небольшой раз­мер­ности од­­­но­го и того же се­ман­ти­чес­кого пространства. Степень близости между дву­мя до­­­ку­мен­тами/словами оп­ределяется как функция соответствующих им век­то­ров, чаще всего по­сред­ст­вом косинуса угла, заключенного между ними [Berry, 1993; Deerwester, Dumais,  Furnas, Laundauer, Harshman, 1990, рр. 391-447; Laudauer, Foltz, Laham, 1998, рр. 259-284; LSA, 1990-2001; Nakov P.–1, 2000, рр. 156-166; Nakov P.–2, 2000, рр. 189-198; Nakov P.–3, 2000; Nakov P., 2001].

Исследование проводилось на материале составленных нами компью­тер­ных словарей терминов изобрази­тель­­но­го искусства (КСТИИ), в ко­то­рых каждая словарная статья состоит из слова, т. е. однословного термина (ОТ) или терминологического словосочетания (ТС), расположенного с левой стороны, и краткого толкования соответствующего термина, включающего все его значения, расположенного с правой стороны. Из них  извлечены 116 рус­­ских и 118 болгарских гипо­ни­ми­чес­ких рядов с минимальным ко­ли­чест­вом два ги­по­ни­ма и мак­си­маль­ным количе­ст­вом свыше 190 гипонимов. Ги­по­­ни­мы, не име­ю­щие общего тер­миноэлемента, мы отыскивали с по­мощ­ью ЛСА, при­чем болгар­ский и рус­ский КСТИИ были ис­следованы в от­дель­но­с­ти. В про­цессе  постро­е­ния ис­­ход­ной ма­т­­­ри­­цы были ис­ключены стоп-слова, т. е. сло­ва, встречающиеся ча­­ще всего, но ли­шенные соб­ственного смысла или слиш­ком многозначные. В эту катего­рию входят, глав­­ным образом, ста­тич­ные элементы  языка: сою­зы, предлоги, меж­дометия, ча­стицы, ме­с­то­име­ния, количественные числи­тель­ные, фор­мы гла­гола р. “быть” (б. “съм”) и др. Мы исключили также и сло­ва, встре­ча­ю­­щиеся толь­ко в одном до­кументе (толь­ко из толкований), так как они не мо­гут спо­соб­ст­во­вать оценке бли­зо­с­ти. Та­­ким образом, число раз­лич­ных сло­во­форм умень­ши­лось более чем в два раза – со­от­ветс­твенно до 4369 для бол­гар­ско­го и 4485 для рус­ского сло­ва­рей. Наши исследования [Ата­насова, Наков-1, 2001, с. 327-334; Ата­насова, На­ков-2, 2001; Атанасова, На­ков-4, 2001] по­ка­зы­­ва­ют, что при силь­но флек­тив­ных славянских язы­ках для эффективности ре­зуль­­татов применения ЛСА име­ет значение пра­виль­ное определение и отож­де­ст­­вление форм одного и то­го же слова (сег­мен­та­ция). Мы сделали ав­то­ма­ти­чес­кую сегментацию, при­чем число слов умень­ши­лось со­ответственно до 2263 и 2299. В процессе по­ис­­ков ги­­по­нимов были ис­поль­­зо­ваны параллельно 4 раз­лич­ных се­ман­ти­чес­ких про­­ст­ран­с­тва, все с раз­мер­­ностью 100: по два для бол­гар­ско­го и русского сло­­ва­рей (с и без сег­мен­та­ции).

 

3. Семантическая техника без сегментации

Модулю ЛСА подаются толкования гиперо­ни­ма или одного из гипо­ни­мов дан­ного гипонимического ряда, т. е. информация правой стороны со­от­вет­­ст­ву­ю­­щего терминологического словаря, и компьютер составляет список, вклю­чая весь словарь. По своему усмотрению, исследователь выделяет отре­зок, обычно со­­держащий большое количество терминов, не являющихся со­ги­­по­ни­мами, на­при­мер: р. де­рево –… сосна, липа, грецкий орех (в. орех) *гниль, *чер­во­­то­­чина, ки­па­рис…; бир­мит (гипер. янтарь) – руменит, *дым­ча­тый кварц…;  б. дър­во - …бряст, тре­пет­лика, сли­ва, *ча­къл, чимшир, *сах­тиян…; пушкарство (ги­пер. оръ­жей­ни­­че­ство) – саб­ляр­ство (д. ча­лък­лий­ство), *пръстенджийство, но­­жарство (д. бу­чак­чий­ство), *карнавал, *ки­­­ли­мар­ство….

В целях извлечения максимального количества гипонимов, ком­пью­терной программе по­даются последовательно толкования гиперонима и не­с­кольких ги­по­нимов, причем согипонимы в списке результатов меняют свои ме­ста. Ре­зуль­­та­­ты сравниваются, и гипонимический ряд дополняется.

При ЛСА в рассматриваемые компьютерные списки попадают и соги­по­­нимы с общим терминоэлементом, так как при этой технике не учи­ты­ва­ется формальное выражение ОТ и ТС, например: р. агат - … бе­лый агат (д. кахолонг), желтый агат, оникс, сардоникс…; б. халцедон - …обикновен хал­це­дон, карнеол, хелиотроп, хелиопраз…

 

4. Сегментация

Современная статистическая обработка текстовой информации ос­но­вы­ва­ет­ся ис­клю­чительно на анализе частоты встречи отдельных слов (иногда сло­­во­со­четаний) как ос­новного носителя языка в анализируемом наборе тек­стов. В этом смысле основной про­блемой является дефиниция – что пред­ста­в­ляет со­бой слово с точки зрения при­ме­ня­е­мого алгоритма. При большинстве ал­­го­рит­мов наблюдается улучшение результатов при отождествлении форм од­ного и то­го же слова.

Основная цель сегментации – привести различные формы слов к какой-ни­будь ос­но­ве (префикс + корень), чаще всего путем устранения суффиксов и окон­чаний. Ал­го­рит­мы для сегментации почти никогда не устраняют пре­фик­­сов, потому что это легко мо­жет привести к коренному изменению зна­че­ния сло­ва (напр. б. живописване и над­жи­вописване). Многообразие слово­форм обя­за­но, с одной стороны, флективной, а, с дру­гой – вариативной мор­фо­логии, при­чем современные алгоритмы для сегментации атакуют обе. Так, на­пример, к клас­су  болгарского слова б. портрет относятся еще флек­тив­ные формы пор­т­ре­та, портретът, портрети, портретите и др., а русского сло­ва р. портрет – портрета, портрету, портретом, портрете, портреты, пор­­т­ре­тов, порт­ре­там, портретами, портретах. В лингвистике сово­куп­ность всех грам­ма­ти­чес­ких форм  данного слова, соотносящихся с одним из ее значений, на­зы­ва­ют­ся лексико-семантическими вариантами (ЛСВ) [Но­ви­ков, 1982, с. 113] или лек­си­ко-граммати­чес­ки­ми ал­ло­лек­са­ми [Вътов, 1998, с. 15]. Большинство ал­го­рит­мов для сегментации включают сюда и не­ко­то­рые ва­ри­а­тив­ные формы с раз­лич­­ным лексическим значением, напри­мер р. пор­тре­тист, пор­тре­тист­ка, пор­третировать ‘создавать портрет дан­­ного ли­ца’, пор­тре­ти­ру­емый, пор­тре­­тирование, портретная ‘галерея с пор­т­ре­та­ми’; б. портретист, пор­тре­тист­ка, пор­третирам, портретиране, пор­тре­ти­ран, портретна, а также и па­­рал­лельные ва­ри­а­тивные формы с тож­дест­вен­ным лексическим значением, на­пример б. портретирам – пор­т­ре­ту­вам, пор­третиран – портретуван, портретиране – пор­тре­туване. В линг­вис­ти­ке вариативные формы, имеющие различное значение,  рас­смат­риваются как от­­­дель­ные, однокоренные слова, а на лексическом уровне – как от­дель­ные лек­­се­мы [Новиков, 1982, с. 114; Вътов, 1998, с. 15]. Как известно, в тер­ми­но­ло­гии параллельные вариативные формы, т. е. аллолексы (фо­не­тические, ор­фо­графические, морфологические и др.) с тож­де­с­твен­ным лексическим зна­че­нием называются вариантами. Практически ал­го­ритмы для сег­мен­тации вклю­чают термины с общим терминоэлементом, вы­­­ра­женным корнем или ос­но­­вой.

Основные исследования в области сегментации проводились для анг­лий­ско­го язы­ка. Разнообразие алгоритмов большое: самые простые сводятся к про­­сто­му устранению мно­жественного числа “-s” (и эвентуально форм гла­го­лов, окан­чивающихся на “-ed” и “-ing”), а более сложные основываются на на­бо­ре пра­вил. Классические алгоритмы Ло­вин­са [Lovins, 1968, рр. 22-31] и Пор­­тера [Porter, 1980, рр. 130-137] включают со­ответственно 260 и 60 пра­вил. Со­в­ре­мен­ные ал­го­ритмы проводят сег­мен­та­цию на основе словаря или экс­­плу­а­ти­ру­ют статистическую ин­формацию, ба­зи­ру­ю­щуюся на на­блю­де­ни­ях над тек­стом, ча­ще всего в комбинации с ал­го­рит­ма­ми, основывающимися на мор­фо­ло­ги­чес­ких правилах.

Несмотря на то, что результаты ее применения противоречивы (см. [Harman, 1991, с. 7-15]), по­следние исследования показывают, что сегмен­та­ция приводит к улучшению, хо­тя и далеко не во всех случаях настолько за­мет­ному. Результаты варьируют зна­чительно у различных авторов: от 1-3% [Hull, 1996, рр. 70-84] до 30-40% [Krovetz, 1993, рр.191-202]. Эксперименты по­­казывают, что сегментация  по­лез­на не только для английского, но и для дру­­гих языков,  на­­пример словенский [Popovic, 1992, рр. 384-390] и гол­ланд­ский [Kraaij, 1996, рр. 40-48].

 

5. Семантическая техника с сегментацией

В результате целого ряда экспериментов и анализов [Атанасова И., На­ков П., 2001-1, 2001-2, 2001-4] мы установили, что если по­да­вать по­сле­­­до­ва­тель­­но модулю ЛСА тол­ко­вания гиперонима и нескольких ги­по­ни­мов дан­но­го гипонимического ря­да без сегментации и с сегментацией, можно по­лу­чить разнообразные ре­зуль­таты. Мы использовали стандартные мерки преси­жон (precision) и рикол (recall) для оценки результатов.

Наши исследования показывают более высокие усредненные резуль­та­ты  от­­кры­ва­емости гипонимов в гипонимических рядах в терминологии ИИ с по­мо­щью ЛСА без сег­ментации как для рикола (р. 66,05%; б. 69.04%), так и для пре­си­жона (р. 46,72%; б. 50,18%). По нашим наблюдениям, в отличие от ан­глий­ско­го языка в славянских язы­ках (болгарском и русском) при сег­мен­та­ции ус­ред­ненные результаты более низкие как для рикола (р. 56,77%; б. 64,09%), так и для пресижона (р. 36,82%; б. 43,03%).

 

6. Семантическая техника для терминов-гиперонимов (или терми­нов-ги­­понимов)

Дуалистический характер ЛСА позволяет измерять близость не толь­ко между тол­ко­ваниями (текстами), но и между отдельными понятиями (за­­дан­ны­ми словом или сло­восочетанием, т. е. ОТ или ТС). Проведены эк­­­с­­пе­ри­мен­ты с целью сравнить эф­фек­тив­ность обеих семантических тех­ник – се­ман­ти­ческой тех­­ни­ки для толкований терминов-гиперо­ни­мов (или терминов-ги­по­­ни­­мов) и се­ман­тической техники для самих тер­минов-ги­­пе­ро­нимов (или тер­ми­нов-ги­понимов).

Наши исследования показывают более высокие усредненные резуль­таты из­­вле­че­ния гипонимических рядов из КСТИИ при ЛСА тол­­кований ги­по­нимов или гиперонимов для русской тер­ми­но­ло­гии ИИ (пресижон: 48,91%; рикол: 54,29%) и бо­лее низкие результаты для бол­гар­ской тер­ми­но­ло­гии ИИ (пре­си­жон: 48,81%; рикол: 54,16%). При ЛСА тер­ми­нов (гипо­ни­мов или гиперо­ни­мов) по­лучаются более высокие усредненные ре­зультаты для гипо­ни­ми­ческих ря­дов бол­гар­ской терминологии ИИ (пре­си­жон: 50,92%; ри­кол: 55,98%) и бо­лее низкие ре­зуль­таты для гипонимических ря­дов рус­ской терминологии ИИ (пре­сижон: 48,69%; ри­кол: 54,36%).

Эксперименты показывают, что ЛСА довольно хорошо справляется сам с задачей пос­троения хороших векторов терминов, и эксплицитная пода­ча кон­тек­­ста в виде тол­ко­вания скорее мешает ему, чем помогает.

 

7. Выводы

          Настоящее исследование приводит нас к следующим вы­водам:

          1. Семантическая техника автоматического извлечения гипонимичес­ких ря­дов эко­но­мит много времени и сил, помогает исследователю-линг­ви­с­ту быст­рее получить более точные результаты. Эф­фек­­тивность семанти­чес­кой техники в большей степени зависит от умения лингвиста удачно по­­до­брать и подать нуж­ный языковой материал для анализа и правильно рас­тол­­ко­вать полученные ре­­зультаты.

2. Как правило, результаты, полученные при применении семан­ти­чес­кой тех­ники автоматического извлечения гипонимических рядов, нуждаются  в до­пол­­нительном анализе посредством других методов научного исследо­ва­ния. Толь­­ко лингвист может убрать ненужный материал, дополнить его, про­ана­­ли­зи­­ровать, сделать соответствующие выводы. Предложенная семан­ти­чес­кая тех­ни­­ка, как и другие специальные компьютерные тех­но­логии, очень нуж­ные и на­деж­ные помощники, которые ни в коем случае не умень­­шают роль лингвиста в на­учном исследовании.

          3. Семантическая техника может быть использована для сходных лин­г­ви­­сти­ческих исследований как конкретных, так и со­по­ставительных в об­ла­с­ти лек­­­­си­­­кологии и семантики. 

 

Литература

Атанасова И., Наков П.-1. Автоматично извличане на хипоними от тер­ми­но­­ло­гич­ни реч­ници. – ВВМУ “Н.И. Вапцаров”. Морски научен форум. При­лож­на лингвистика и чуж­­­до­ези­ково обучение, т. 3. Варна, 2001.

Атанасова И., Наков П.-2. Ролята на сегментацията при автоматично из­вли­чане на хи­поними от терминологични речници. – ВТУ “Св. Св. Кирил и Ме­то­дий”. Научна сесия “Съв­ременни постижения на филологическите науки и уни­верситетското обучение по чужд език”. В. Търново, 2001.

Атанасова И., Наков П.-3. Термин и документ от гледна точка на ла­тент­ния се­ман­ти­чен анализ. – ВВОВУ “Васил Левски”. Научна конференция ‘2001’ “Технологии, сигурност и еко­логия”. Научни трудове, кн. № 69. В. Търново, 2001.

Атанасова И., Наков П.-4. Факторы, влияющие на автоматическое из­вле­чение ги­по­ни­мов из терминологических словарей с помощью латентного се­ман­тического анализа. – ШУ “Епископ Константин Преславски”. Юбилейна на­уч­на конференция. Шумен, 2001.

Вътов В. Лексикология на българския език. Лексемика. Оно­­мастика. Фра­­зеология. Лекси­ко­графия. Велико Търново, 1998.

Berry M., Do T., O'Brien G., Krishna V., and Sowmini Varadhan. SVDPACKC (Version 1.0) User's Guide, 1993.

Deerwester S., Dumais S., Furnas G., Laundauer T., Harshman R. Indexing by Latent Semantic Analysis. Journal of the American Society for Information Sciences, 41, 1990.

Harman D. How effective is suffixing? In Journal of The American Society of Information Science. Vol. 42, No 1, 1991.

Hull, D. Stemming Algorithms: A Case study for detailed evaluation. In Journal of The American Society of Information Science. Vol. 47, No 1, 1996.

Kraaij W. Viewing stemming as recall enhancement. In Proceedings of the 19th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. ACM. New York, 1996.

Krovetz R. Viewing Morphology as an Inference Process. In Proceedings of the 16th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. ACM. New York, 1993.

Laudauer T., Foltz P., Laham D. Introduction to Latent Semantic Analysis. Discourse Processes, 25, 1998.

Lovins J. Development of a stemming algorithm. Mech. Trans. And Comp. Ling. 11., 1968.

LSA. 1990-2001, see http://lsa.colorado.edu

Nakov P.–1. Getting Better Results with Latent Semantic Indexing. In Proceedings of the Students Presentations at ESSLLI-2000. Birmingham, UK, 2000.

Nakov P.–2. Web-personalisation using extended Boolean operations with Latent Semantic Indexing. In Proc. of AIMSA-2000 (Artificial Intelligence: Methodology, Systems and Applications). Lecture Notes in Artificial Intelligence 1904, Springer. Varna, Bulgaria, 2000.

Nakov P.–3. Latent Semantic Analysis of Textual Data. In Proceedings of CompSysTech’2000. Sofia, Bulgaria, 2000.

Nakov P. Latent Semantic Analysis for Bulgarian literature. In Proceedings of Spring Conference of Bulgarian Mathematicians Union. Borovetz, 2001.

Popovic M., Willett P. The Effectiveness of Stemming for Natural Language access to Slovene Textual Data. In Journal of The American Society of Information Science. Vol. 43, No 5, 1992.

Porter M. An algorithm for suffix stripping. Program 14, 3, 1980.