Иванка Я. Атанасова*, Светлин И. Наков**, Преслав И. Наков




Скачать 127.36 Kb.
НазваниеИванка Я. Атанасова*, Светлин И. Наков**, Преслав И. Наков
страница1/3
Дата публикации09.06.2013
Размер127.36 Kb.
ТипДокументы
vbibl.ru > Литература > Документы
  1   2   3
ArtsSemNet: ДВУЯЗЫЧНАЯ СЕМАНТИЧЕСКАЯ СЕТЬ ДЛЯ РУССКОЙ И БОЛГАРСКОЙ ТЕРМИНОЛОГИЙ ИЗОБРАЗИТЕЛЬНОГО ИСКУССТВА

Иванка Я. Атанасова*, Светлин И. Наков**, Преслав И. Наков***


* Великотырновский университет имени Святых Кирилла и Мефодия,

Велико-Тырново, Р. Болгария

** Софийский университет имени Святого Климента Охридского, София, Р. Болгария

*** Калифорнийский университет, Беркли, США

ArtsSemNet: A BILINGUAL SEMANTIC NETWORK FOR BULGARIAN AND RUSSIAN FINE ARTS TERMINOLOGY
Ivanka Y. Atanassova, Svetlin I. Nakov, Preslav I. Nakov

Abstract: An electronic lexical reference system ArtsSemNet, similar to WordNet, for terminology of fine arts is presented. The terms (over 2,600 for each language) are annotated with complete dictionary definitions and organized into a semantic network with two parallel versions: Bulgarian and Russian. Five important lexical relations are defined: polysemy, synonymy, homonymy, antonymy and hyponymy, the latter serving as the basis of the hierarchical organization of the ontology. In addition, a specialized browser is created thus providing an intuitive interface to query and navigate through the network.

Keywords: semantic network, ontology, terminology, polysemy, hyponymy, homonymy, antonymy, synonymy.

1. Введение

Повсеместное наступление вычислительных машин оказало большое влияние на со­вре­мен­­ное развитие словарей. Более чем десятилетие назад большинство ком­пью­тер­­но гра­мот­ных людей забыло о досадных поисках в больших бумажных словарях и поль­­зуется их ком­пью­терными эквивалентами. Несмотря на то, что первые ком­пью­тер­­ные словари во многом усту­пали классическим, в их потенциальных возмож­но­стях никто не сомневался. Еще в 1992 го­ду составители словаря Oxford English Dictionary [11] решились инвестировать $13,5 мил­лио­нов долларов, чтобы в течение 5 лет по­­строить электронную версию. В то время вы­яс­ни­лось, что электронный вариант сло­­варя предлагает на много больше возможностей. Поя­ви­лись еще тезаурусы (напр. Roget’s thesaurus [12]), которые предоставляют информацию о си­но­нимах данного тер­ми­на. Потом лексикографы стали их комбинировать, в резултате чего по­явились семан­ти­­ческие сети (напр. WordNet), которые в терминологии искусственного ин­теллекта ино­гда называют онтологиями. Они уже включали не только толкования слов и их си­­нонимы, но и антонимы, гипонимы и др.
^

Таким образом работали и мы – начали с электронных словарей, а потом свя­за­ли их в полную семантическую сеть посредством терминологических отношений.

2. Семантические сети


WordNet. WordNet (в переводе ‘сеть слов’) разработан психолингвистами из Ла­бо­­ратории когнитивной науки в университете Принстон, США как вычислительная мо­­дель человеческой лексической памяти. С течением времени проект эволюировал, пре­­вращаясь в лексическую справочную систему с тысячами слов с со­от­вет­ст­вую­щи­ми значениями, организованными в семантическую сеть. Словоформы (лексемы) в WordNet объе­ди­ня­­ют­ся во мно­же­ст­ва, на­зы­­ваемые синсетами (от англ. synset, что яв­ля­­ется сокращением от ‘синонимического множества’). Синсет пред­ставляет собой объе­­­ди­­­­нение слова, обо­з­­на­чающего одно понятие, со зна­че­ниями других слов (си­но­ни­­мов), чьи лек­си­­чес­кие зна­че­ния вместе фор­ми­ру­ют лек­си­чес­кое значение самого сло­­ва [6;9]. Много­знач­ные слова участвуют в нескольких различных синсетах, при­чем каждая от­дель­ная семема включается только в один синсет. Син­сеты связаны меж­­­ду со­бой ие­рар­хи­чес­ки согласно ре­ляции гипонимии (с проистекающим оттуда уна­­­­­сле­до­­ва­ни­ем) и реляции меронимии, а дальше раз­гра­ничиваются по раз­лич­ным ка­­­чествам и свой­ст­вам. В WordNet (вариант 1.7.1) уже включили 111 223 синсетов – 75 804 имен существительных, 13 214 глаголов, 18 576 имен прилагательных и 3 629 на­­речий. Проект активен и работа над ним про­дол­жается [14].

EuroWordNet. Вскоре после своего появления WordNet вырос как один из важ­ней­ших ресурсов для обработки естественного языка, машинного перевода, автома­ти­ческого определения конкретного значения полисемантичного термина, извлече­ния информации из текста, извлечения документов в ответ на запрос потребителя и др. В то время как американский WordNet развивался, в Европе началась работа над EuroWordNet для 7 европейских языков, а именно [13]: голландский, итальянский, ис­­пан­ский, немецкий, французский, чешский и эстонский. Каждая часть EuroWordNet по­строена на основе специфических для конкретного языка синсетов, а все вместе свя­заны между собой общим индексом на основе WordNet, так что воз­мож­но пе­ре­хо­дить между близкими по значению словами различных языков во всех направле­ни­ях. Хотя проект EuroWordNet [5] был окончен в 1999 (в отличие от WordNet, который не­прерывно раз­вивается), продолжается работа над различными европейскими язы­ка­ми, а имен­но: шведский, норвежский, датский, греческий, пор­ту­галь­ский, баск­ский, каталон­ский, румынский, литовский, русский, болгарский и сло­вен­ский. Позже бы­ла создана Гло­бальная ассоциация WordNet, чтобы помогать уче­ным в дальнейших усилиях в том направлении не только для европейских языков, но и для других современных язы­ков.

MikroKosmos. Конечно, WordNet и его иноязычные варианты не являются един­ст­вен­ными существенными разработками в этой области. Исторически интересна он­то­логия MikroKosmos [7;8], ко­торая была разработана для машинного перевода, од­на­ко в на­сто­я­щее время не используется. Она содержит всего 5 000 терминов, но очень богата от­­­но­шениями – около 30, вклю­чая IS-A (гипонимию), PART-OF (меронимию), INSTRUMENT-OF (инструмент), LOC-OF (местоположение) и др.

CYC. Однако, далеко не все онтологии богаты лексическими отношениями. В ис­кусственном интеллекте, например, важнее всего знание о мире (факты), а чтобы опи­сать его вполне хватит одной гипонимии. Так, например CYC [4], самая большая он­­­то­ло­гия, содержащая около 300 000 терминов и около 3 миллионов фактов о них, соз­дание которой заняло 600 человеко-лет, организована на основе только двух от­но­ше­ний: #$genls (подмножество-множество) и #$is-a (гипонимия) [4;10].
  1   2   3

Добавить документ в свой блог или на сайт

Похожие:

Иванка Я. Атанасова*, Светлин И. Наков**, Преслав И. Наков iconНесклоняемые существительные в современном русском языке Иванка Я. Атанасова
Великотырновский университет им. Кирилла и Мефодия Филологический факультет, кафедра Русистики

Иванка Я. Атанасова*, Светлин И. Наков**, Преслав И. Наков iconИванка Атанасова учебный словарь-справочник имëн прилагательных с...
Предлагаемая книга представляет интерес также для учителей и преподавателей русского языка, для переводчиков, школьников и для всех,...

Иванка Я. Атанасова*, Светлин И. Наков**, Преслав И. Наков iconИ. Я. Атанасова Практическая морфология русского языка пособие-справочник
Спи́ски существительных pluralia tantum, употребляющихся только во множественном числе́ 31

Вы можете разместить ссылку на наш сайт:
Школьные материалы


При копировании материала укажите ссылку © 2013
контакты
vbibl.ru
Главная страница