Структура семантической нейронной сети, реализующей морфологический и синтаксический разбор текста




Скачать 171.91 Kb.
НазваниеСтруктура семантической нейронной сети, реализующей морфологический и синтаксический разбор текста
страница1/2
Дата публикации15.03.2013
Размер171.91 Kb.
ТипДокументы
vbibl.ru > Философия > Документы
  1   2
УДК 519.7
Шуклин Д.Е.
Структура семантической нейронной сети, реализующей морфологический и синтаксический разбор текста.

Процесс обработки текста на естественном языке можно разбить на несколько уровней: разбор, анализ и синтез. Уровень разбора определим как функцию преобразования текста на естественном языке из неформализованного вида в формализованное внутреннее представление. Уровень анализа - функция преобразования данных, существующих во внутреннем представлении и вывода на их основе новых данных, так же в формализованном виде. Уровень синтеза - функция формирования ответа на естественном языке, адекватного внутреннему формализованному представлению.

Уровень разбора можно разделить на несколько последовательных операций: морфологический, синтаксический и семантический разбор. Морфологический разбор проводится путем выделения из текста отдельных слов и разбором выделенных слов на морфемы. Операция синтаксического разбора текста естественного языка представляет собой определение всех синтаксических признаков и синтаксических связей этих слов, необходимых для семантического разбора [1, стр. 34]. Семантический разбор требует наличия в памяти системы имитационной модели внешнего мира. Он заключается в окончательном формировании внутреннего формализованного представления текста путем сопоставления фактов, находящихся непосредственно в тексте с знаниями из имитационной модели [1, стр. 51, 2 стр. 188].

Рассмотрим операции морфологического и синтаксического разбора текста естественного языка. Выделение отдельных слов из текста в электронном виде не представляет трудности, так как в этом случае слова отделяются специальным символом "пробел". Для Русского языка задача морфологического и синтаксического разбора может быть решена с помощью данных содержащихся в грамматическом словаре Русского языка [3]. В нем приводятся информация о словообразовании, словоизменении и определении синтаксических признаков отдельных слов.

Реализация уровня разбора текста требует наличия некоторой формальной модели этого разбора. Согласно теореме Гёделя реализация формализма может оказаться проще описания этого формализма. Упоминая теорему Гёделя, фон Нейман пишет: "… В таком случае быстрее сделать что-то, чем описать, быстрее привести схему, чем дать общее описание всех ее функций и всех мыслимых обстоятельств. Очень важно понять, что сеть из формальных нейронов может сделать все, что можно описать словами, и это необычайно упрощает дело при низких уровнях сложности. Но при высоких уровнях сложности это не обязательно будет упрощением. Вполне возможно, что при высоких уровнях сложности ценность представляет собой обратное утверждение этой теоремы [Гёделя], т. е. она упрощает дело потому, что гарантирует обратное: можно выразить логику на языке этих построений [формальных нейронов], а прямое утверждение может быть и неверным"[4, стр. 67]. Из этого утверждения Неймана следует, что, возможно, в качестве формального представления следует брать не формальные математические модели, а реализацию этих моделей. Одним из вариантов такого формального представления может выступать формальная нейронная сеть. Поэтому можно попытаться воспользоваться формальной нейронной сетью для решения задач морфологического и семантического разбора текста, а так же задачи словоизменения.

В работе [4] описано функционирование формальной нейронной сети Маккаллока-Питтса. Отдельные нейроны в нейронной сети Маккаллока-Питтса представляют собой логические операции и, или и не. В зависимости от результата выполнения логической операции, нейрон имеет состояния возбуждения или покоя, соответствующие логическим значениям истина и ложь. "… Временная задержка, связанная с работой каждого нейрона, гарантирует эффективный и конструктивный характер получаемой здесь логической системы" [4, стр. 118]. Поскольку число нейронов в сети конечно и число состояний у нейрона конечно, такая нейронная сеть является автоматом с конечным числом состояний. Нейрон в сети Маккаллока-Питтса может находиться только в двух логических состояниях и обеспечивает выполнение только функций алгебры-логики. Естественный язык оперирует с нечеткими и неполными понятиями. Поэтому нейронная сеть Маккаллока-Питтса без дополнительных усилий не обеспечивает обработку нечетких понятий текста естественного языка.

Для решения задач морфологического и синтаксического анализа текста, а так же задач анализа словоизменения применим семантическую нейронную сеть[5], близкую по свойствам формальной нейронной сети Маккаллока-Питтса. Отличие семантической нейронной сети от сети Маккаллока-Питтса заключается в том, что в сети Маккаллока-Питтса выполняются логические операции Булевой алгебры, а в семантической нейронной сети операции нечеткой логики [5]. В нечеткой логике для определения степени истинности утверждения используется фактор уверенности - число находящееся в некотором интервале, например от 0 до 1. Максимальное значение из этого интервала обычно интерпретируется как полная уверенность в возникновении события, а минимальное значение - как полная уверенность в его отсутствии. В отличие от теории вероятности фактор уверенности выражает субъективную уверенность в возникновении события и не имеет никакого статистического смысла [6 стр. 196]. Нейроны в семантической нейронной сети соответствуют элементарным понятиям естественного языка и обрабатывают дискретные градиентные значения. Каждый нейрон этой сети имеет конечное число состояний. Следовательно, семантическая нейронная сеть может рассматриваться как конечный автомат.

В качестве структуры семантической нейронной сети, выполняющей морфологический и синтаксический разбор, выберем синхронизированное линейное дерево [7]. Проведем грубую оценку объема нейронной сети, требуемой для реализации грамматического словаря Русского языка. В словаре А.А. Зализняка содержится около 100000 словарных статей. Допустим, каждая словарная статья содержит в себе 10 слов по 10 символов. Тогда Общее количество неупакованной информации составит 10*10*100000 = 107 символов. В семантической нейронной сети каждый символ соответствует отдельному нейрону. Пусть, в среднем, каждый нейрон занимает в хранилище [8] 1000 байт. Тогда общий объем хранилища для семантической нейронной сети, реализующей грамматический словарь А.А. Зализняка, составит 1010 байт или около 10 гигабайт. Накопители такого объема уже давно не являются экзотикой, следовательно, имеется возможность полностью представить грамматический словарь в виде семантической нейронной сети, в которой каждой форме слова из словарной статьи будет соответствовать отдельное слово в виде фрагмента нейронной сети. На практике, грамматический словарь, реализованный в виде семантической нейронной сети, будет иметь меньший объем. Это связанно с тем, что в синхронизированном линейном дереве, используемом для хранения словоформ, одинаковые символьные последовательности разных слов хранятся как один фрагмент линейного дерева.

Слой извлечения смысла в виде синхронизированного линейного дерева можно рассматривать как конечный автомат, так как число нейронов в сети ограниченно, и они имеют конечное число состояний и связей. Переход из одного состояния в другое происходит при подаче на слой извлечения смысла очередного символа входной последовательности. Удобно рассматривать слой извлечения не как один автомат, а как несколько конечных субавтоматов - по числу словарных статьей. Удобно также считать, что один нейрон имеет одно градиентное субсостояние в диапазоне от покоя до возбуждения. Пусть каждое такое субсостояние - элементарный смысл. Можно сказать, что одному активному субсостоянию нейроавтомата соответствует один или несколько возбужденных нейронов. Тогда в одном фрагменте синхронизированного линейного дерева (в одном автомате) мы получим несколько субавтоматов - по числу словарных статей или несколько состояний у одного автомата одновременно. Это решение позволит в дальнейшем справится с многозначностью естественного языка.

Рассмотрим модель нейрона словарной статьи. Реализация семантической нейронной сети на последовательной вычислительной системе предъявляет к быстродействию нейронов дополнительные требования. Следует, по возможности, увеличить скорость работы отдельного нейрона и уменьшить количество нейронов в сети, так как в этом случае нейроны обрабатываются последовательно, один за другим, и поэтому общее время расчета одного такта системы равно количеству обрабатываемых нейронов умноженное на время обработки одного нейрона. Для уменьшения количества нейронов и увеличения скорости их работы объединим дизъюнктор и конъюнктор в одном нейроне (рис.1).

http://www.shuklin.com/ai/ht/ru/ai00007a.gif
Рис. 1


При этом у каждого нейрона будет по два дендритных дерева: одно - выполняющее функцию дизъюнкции входных градиентных значений, другое - выполняющее функцию конъюнкции входных градиентных значений и результата функции дизъюнкции. Нейрон обозначим кругом, его дендрит дизъюнктора обозначим слева от этого круга (рис.1, п.1) , дендрит конъюнктора сверху или снизу от круга (рис.1, п.2), аксон - справа от круга (рис.1, п.3). Для удобства внутри круга будем записывать символы, соответствующие дендриту конъюнктора.

Рассмотрим модель словарной статьи. Отдельная словарная статья представляет собой главное слово, несущее основную смысловую нагрузку статьи, и группу словоформ, получающуюся из главного слова путем словоизменения (спряжения или склонения). Пусть одна словарная статья - это группа нейронов, или один нейронный субавтомат в слое извлечения смысла. Пусть общее число субсостояний словарной статьи равно числу словоформ этой статьи. Пусть каждое субсостояние такого субавтомата представляет собой один возбужденный нейрон. При этом, в случае одновременного возбуждения двух разных нейронов одного субавтомата будем говорить что субавтомат имеет одновременно два разных субсостояния. Каждая словарная статья имеет главный нейрон, соответствующий этой статье. Главный нейрон словарной статьи возбужден всегда, когда распознано слово, принадлежащее его словарной статье. Каждой словоформе соответствует отдельный нейрон. Он возбуждается в случае, если словоформа распознана.

В слое извлечения смысла существуют нейроны, не принадлежащие отдельным словарным статьям. Эти нейроны соответствуют признакам словоформ общим для многих словарных статей, таким как род, падеж, число, время ... Они возбуждаются при возбуждении словоформ, обладающих соответствующими признаками. Будем считать, что состояния этих нейронов, соответствующие признакам словоформ, так же принадлежат к субавтоматам словарных статей, с которыми эти нейроны образуют связи. Тогда, несколько словарных статей могут одновременно находиться в одном и том же состоянии. Например, все словарные статьи, распознающие слово "коса" будут одновременно находиться в состоянии "существительное", или, что тоже самое, общий нейрон, соответствующий признаку "существительное" будет находиться в возбужденном состоянии.

Множество возбужденных нейронов субавтомата соответствует множеству признаков, принадлежащих отдельной словоформе, распознанной субавтоматом. Задача классификации или определения словарной статьи и словоформы по заданной символьной последовательности сводится к прохождению волны возбуждения через слой извлечения смысла и возбуждению соответствующего субавтомата для соответствующей словарной статьи. Задача словоизменения сводится к изменению состояния такого субавтомата из начального состояния - соответствующего словоформе из которой начинается словоизменение в конечное состояние - соответствующее словоформе в которую требуется преобразовать исходную словоформу.

Рассмотрим структуру связей нейронной сети, обеспечивающую решение описанных задач. Синхронизированное линейное дерево обеспечивает решение задачи классификации словоформы по словарным статьям и определение признаков этой словоформы. В случае наличия многозначности, в синхронизированном линейном дереве возбуждаются все словарные статьи и словоформы, соответствующие всем отдельным значением словоформы. Например, при подаче на вход синхронизированного линейного дерева [7] слова "косе" будут возбуждены словарные статьи, соответствующие значениям "коса-волосы", "коса-инструмент", "коса-ландшафт". При этом в каждой словарной статье будут возбуждены по две словоформы, соответствующие дательному и предложному падежам.

Для решения задач словоизменения/словообразования так же можно использовать синхронизированное линейное дерево. В этом случае оно будет выступать как переключательная цепь, коммутирующая возбуждение, переводящее субавтомат из одного состояния в другое. Переключение состояний субавтомата будет происходить при подаче на вход синхронизированного линейного дерева специальных команд. Эти команды будут распознаны синхронизированным линейным деревом и преобразованы в градиентное значение на выходе соответствующих им нейронов-эффекторов, что вызовет возбуждение или торможение нейронов, соответствующих состояниям словарной статьи.

Опишем внутреннюю структуру словоформы в синхронизированном линейном дереве. Непечатный символ пробела между словами будем обозначать "_". Для удобства отделения словоформ от служебных символьных последовательностей примем решение начинать каждое слово со спецсимвола, не имеющего аналога в символах находящихся в обрабатываемой символьной последовательности. Для удобства работы ограничим множество символов внешнего мира множеством букв и цифр русского языка. В качестве "старт" спецсимвола словоформы применим символ точки: ".". Рецептор спецсимвола "." возбуждается пробелом "_", находящимся перед первым непробельным символом словоформы. Каждую словоформу во входной последовательности так же завершает пробельный символ "_". Введем два разных равноправных рецептора - "%" и "$" реагирующие на символ пробела и на спецсимволы "%" и "$" соответственно. Первый рецептор будем использовать в качестве детектора конца словоформы как единицы словарной статьи (слово обыкновенное), а второй - как детектор признака словоформы (падеж, число, спряжение, …) так же совпадающий с концом словоформы. Фрагмент синхронизированного линейного дерева построенный для слов ".коса_" и ".косе_" изображен на рис.2.

http://www.shuklin.com/ai/ht/ru/ai00007b.gif
Рис. 2


Синхронизированное линейное дерево, изображенное на рис.2 переходит в состояние "." при подаче на его вход спецсимвола ".", потом - в состояние ".к" при подаче символа "к", далее последовательно ".ко", ".кос", ".косе", и затем одновременно два субсостояния ".косе%" и ".косе$", при подаче соответственно "о", "с", "е", "_".

Рассмотрим признаки словоформ. Символом "*" обозначим первый спецсимвол признака словоформы, выступающий в той же роли, что и символ "." для словоформ. Начало словоформы и ее признака обозначаем различными спецсимволами для уменьшения размера дерева поиска, это может увеличить скорость работы последовательной вычислительной системы. Однако, для решения задачи словоизменения на параллельной вычислительной системе, было бы достаточно ограничиться различением спецсимволов "$" и "%". На рис.3 приведен пример структуры связей словарной статьи, определяющей следующие признаки: существительное -"*сущ$" именительный -"*имн$" и дательный -"*дат$" падежи слов ".коса_" и ".косе_". При подаче на словарную статью слова ".коса_" она переходит в возбужденные субсостояния: ".коса%", "*сущ$", "*имн$", а при подаче слова ".косе_" в возбужденные субсостояния: ".косе%", "*сущ$" и "*дат$".

http://www.shuklin.com/ai/ht/ru/ai00007c.gif
Рис. 3


Введем операцию принудительного связывания, обозначаемую спецсимволом "-". Эта операция будет связывать два нейрона, имеющие возбужденное состояние, после подачи на вход синхронизированного линейного дерева двух фрагментов символьных последовательностей расположенных слева и справа этого символа. При этом возбужденный нейрон левой части выражения образует аксон, а возбужденный нейрон правой части выражения - дендрит. Задание на компиляцию фрагмента сети с рис.3 приведено на рис.4.


.коса%
.косе%
.коса-*сущ$
.косе-*сущ$
.коса-*имн$
.косе-*дат$
  1   2

Добавить документ в свой блог или на сайт


Похожие:

Структура семантической нейронной сети, реализующей морфологический и синтаксический разбор текста iconК курсовому проекту по курсу «Архитектура компьютера» Тема: «Искусственные нейронные сети»
В данной работе будет рассмотрена задача распознавания образа(текста) с помощью нейронной сети Хэмминга

Структура семантической нейронной сети, реализующей морфологический и синтаксический разбор текста iconИсследование по русскому языку. Тема: Слово «доброта»
Повторить знания о существительном, как части речи, грамматические признаки имен существительных, фонетический разбор слов, синтаксический...

Структура семантической нейронной сети, реализующей морфологический и синтаксический разбор текста iconИсследование по русскому языку. Тема: Слово «доброта»
Повторить знания о существительном, как части речи, грамматические признаки имен существительных, фонетический разбор слов, синтаксический...

Структура семантической нейронной сети, реализующей морфологический и синтаксический разбор текста iconСанкт-Петербургский государственный электротехнический университет...
В работе выполнен анализ пластичности многослойных нейронных сетей. Получены точные формулы расчета степени пластичности по структурным...

Структура семантической нейронной сети, реализующей морфологический и синтаксический разбор текста iconВсех нейронов в сети, то это в итоге и приводит к диффузному тотальному...
Предлагаемый в данной работе материал позволяет завершить формирование начатой ранее «картинки». Для этого взглянем на системы структурного...

Структура семантической нейронной сети, реализующей морфологический и синтаксический разбор текста iconУпражнение к теме «Правописание суффиксов имён существительных»
Вставьте, где необходимо, пропущенные буквы; раскройте скобки. Сделайте морфологический разбор выделенных слов (над этими словами...

Структура семантической нейронной сети, реализующей морфологический и синтаксический разбор текста iconЛабораторная работа №3: Тема: релаксационные нейронные сети
...

Структура семантической нейронной сети, реализующей морфологический и синтаксический разбор текста iconСоздание программы, реализующей искусственную нейронную сеть; разработка...
Цель работы создание программы, реализующей искусственную нейронную сеть; разработка процедуры обучения сети; использование полученных...

Структура семантической нейронной сети, реализующей морфологический и синтаксический разбор текста iconРеферат по истории и философии науки Социокультурные проблемы интерпретации текста
Тип текста и его субъективность как факторы, затрудняющие интерпретацию иноязычного текста

Структура семантической нейронной сети, реализующей морфологический и синтаксический разбор текста icon - информационная модель предметной области, имеющая вид ориентированного
В семантической сети роль вершин выполняют понятия базы знаний, а дуги (причем направленные) задают отношения между ними. Таким образом,...

Вы можете разместить ссылку на наш сайт:
Школьные материалы


При копировании материала укажите ссылку © 2013
контакты
vbibl.ru
Главная страница