Содержание обозначения и сокращения введение




НазваниеСодержание обозначения и сокращения введение
страница1/15
Дата публикации18.03.2013
Размер0.68 Mb.
ТипРеферат
vbibl.ru > Информатика > Реферат
  1   2   3   4   5   6   7   8   9   ...   15
РЕФЕРАТ

СОДЕРЖАНИЕ


ОБОЗНАЧЕНИЯ И СОКРАЩЕНИЯ

ВВЕДЕНИЕ

1 АНАЛИЗ ТЕХНОЛОГИЙ ДОКУМЕНТАЛЬНОГО ИНФОРМАЦИОННОГО ПОИСКА И ЗАЩИТЫ ИНФОРМАЦИИ

1.1 Общая характеристика и виды документальных информационно-поисковых систем1


В развитии программного обеспечения СУБД в 70-е—80-е годы превалировало направление, связанное с фактографическими информационными системами, т.е. с системами, ориентированными на работу со структурированными данными. Были разработаны основы и модели организации фактографических данных, отработаны программно-технические решения по накоплению и физическому хранению таких данных, реализованы специальные языки запросов к базам данных и решен целый ряд других задач по эффективному управлению большими объемами структурированной информации. В результате основу информационного обеспечения деятельности предприятий и организаций к началу 90-х годов составили фактографические информационные системы, вобравшие в себя в совокупности колоссальный объем структурированных данных.

В фактографических информационных системах единичным элементом данных, имеющим отдельное смысловое значение, является запись, образуемая конечной совокупностью полей-атрибутов. Иначе говоря, информация о предметной области представлена набором одного или нескольких типов структурированных на отдельные поля записей. В отличие от фактографических информационных систем, единичным элементом данных в документальных информационных системах является неструктурированный на более мелкие элементы документ. В качестве неструктурированных документов в подавляющем большинстве случаев выступают, прежде всего, текстовые документы, представленные в виде текстовых файлов, хотя к классу неструктурированных документированных данных могут также относиться звуковые, графические и видео файлы.

Основной задачей документальных информационных систем является накопление и предоставление пользователю документов, содержание, тематика, реквизиты и т.п. которых соответствуют его информационным потребностям. Поэтому можно дать следующее определение документальной информационной системы — единое хранилище документов с инструментами поиска необходимых документов. Поисковый характер документальных информационных систем исторически определил еще одно их название — информационно-поисковые системы (ИПС), хотя этот термин не совсем полно отражает специфику документальных ИС. Соответствие найденных документов информационным потребностям пользователя называется пертинентностью.

В силу теоретических и практических сложностей с формализацией смыслового содержания документов пертинентность относится скорее к качественным понятиям, хотя может выражаться определенными количественными показателями. В зависимости от особенностей реализации хранилища документов и механизмов поиска документальные ИПС можно разделить на две группы:

  • системы на основе индексирования;

  • семантически-навигационные системы.

В семантически-навигационных системах документы, помещаемые в хранилище документов, оснащаются специальными навигационными конструкциями, соответствующими смысловым связям между различными документами или отдельными фрагментами одного документа. Такие конструкции реализуют некоторую семантическую сеть в хранилище документов. Способ и механизм выражения информационных потребностей в подобных системах заключаются в явной навигации пользователя по смысловым отсылкам между документами. В настоящее время такой подход реализуется в гипертекстовых ИПС.

В системах на основе индексирования исходные документы помещаются в хранилище без какого-либо дополнительного преобразования, но при этом смысловое содержание каждого документа отображается в некоторое поисковое пространство. Процесс отображения документа в поисковое пространство называется индексированием и заключается в присвоении каждому документу некоторого индекса-координаты в поисковом пространстве. Формализованное представление индекса документа называется поисковым образом документа. Пользователь выражает свои информационные потребности средствами и языком поискового пространства, формируя поисковый образ запроса к базе документов. Система на основе определенных критериев и способов ищет документы, поисковые образы которых соответствуют или близки поисковым образам запроса пользователя, и выдает соответствующие документы. Соответствие найденных документов запросу пользователя называется релевантностью.

Поисковое пространство, отображающее поисковые образы документов и реализующее механизмы информационного поиска документов так же, как и в СУБД фактографических систем, строится на основе языков документальных баз данных, называемых информационно-поисковыми языками. Информационно-поисковый язык представляет собой некоторую формализованную семантическую систему, предназначенную для выражения содержания документа и запросов по поиску необходимых документов. По аналогии с языками баз данных фактографических систем информационно-поисковый язык можно разделить на структурную и манипуляционную составляющие. Структурная составляющая информационно-поискового языка документальных ИПС на основе индексирования реализуется индексными указателями в форме информационно-поисковых каталогов, тезаурусов и генеральных указателей.

Информационно-поисковые каталоги являются традиционными технологиями организации информационного поиска в документальных фондах библиотек, архивов и представляют собой классификационную систему знаний по определенной предметной области. Смысловое содержание документа в информационно-поисковых каталогах отображается тем или иным классом каталога, а индексирование документов заключается в присвоении каждому документу специального кода (индекса) соответствующего по содержанию класса (классов) каталога и создания на этой основе специального индексного указателя.

Тезаурус представляет собой специальным образом организованную совокупность основных лексических единиц (понятий) предметной области (словарь терминов) и описание парадигматических отношений между ними. Парадигматические отношения выражаются семантическими отношениями между элементами словаря, не зависящими от любого контекста. Независимость от контекста означает обобщенность смысловых отношений, например отношения «род-вид», «предмет-целое», «субъект-объект-средство-место-время действия». Так же, как и в информационно-поисковых каталогах, в системах на основе тезаурусов в информационно-поисковое пространство отображается не весь текст документа, а только лишь выраженное средствами тезауруса смысловое содержание документа.

Генеральный указатель (глобальный словарь-индекс) в общем виде представляет собой перечисление всех слов (словоформ), имеющихся в документах хранилища, с указанием (отсылками) координатного местонахождения каждого слова (№ документа —№ абзаца—№ предложения—№ слова). Индексирование нового документа в таких системах производится через дополнение координатных отсылок тех словоформ генерального указателя, которые присутствуют в новом документе. Так как поисковое пространство в таких системах отражает полностью весь текст документа, а не только его смысловое содержание, то такие системы получили название полнотекстовых ИПС.

Структурная составляющая информационно-поискового семантически-навигационных систем реализуется в виде техники смысловых отсылок в текстах документов и специальном навигационном интерфейсе по ним и в настоящее время представлена гипертекстовыми технологиями.

Поисковая (манипуляционная) составляющая информационно-поискового языка реализуется дескрипторными и семантическими языками запросов.

В дескрипторных языках документы и запросы представляются наборами некоторых лексических единиц (слов, словосочетаний, терминов) — дескрипторов, не имеющих между собой связей, т.е. не имеющих грамматики. Таким образом, каждый документ или запрос представлен некоторым набором дескрипторов. Поиск осуществляется через поиск документов с подходящим набором дескрипторов. В качестве элементов-дескрипторов выступают либо элементы словаря ключевых терминов, либо элементы генерального указателя (глобального словаря всех словоформ). В силу отсутствия связей между дескрипторами, набор которых для конкретного документа и конкретного запроса выражает, соответственно, поисковый образ документа или поисковый образ запроса, такие языки применяются, прежде всего, в полнотекстовых системах.

Семантические языки содержат грамматические и семантические конструкции для выражения (описания) смыслового содержания документов и запросов. Все многообразие семантических языков подразделяется на две большие группы:

  • предикатные языки;

  • реляционные языки.

В предикатных языках в качестве элементарной осмысленной конструкции высказывания выступает предикат, который представляет собой многоместное отношение некоторой совокупности грамматических элементов. Многоместность отношения означает, что каждый элемент предиката играет определенную роль для группы лексических элементов в целом, но не имеет конкретных отношений с каждым элементом этой группы в отдельности. Аналогом предикатного высказывания естественном языке выступает предложение, констатирующее определенный факт или описывающее определенное событие.

В реляционных языках лексические единицы высказываний могут вступать только в бинарные (друг с другом), но не в совместные, т. е. не многоместные отношения.

В качестве лексических единиц семантических языков выступают функциональные классы естественного языка, важнейшими из которых являются:

  • понятия-классы (общее определение совокупности однородных элементов реального мира, обладающих некоторым характерным набором свойств, позволяющих одни понятия-классы отделять от других);

  • понятия-действия (лексический элемент, выражающий динамику реального мира, содержит универсальный набор признаков, включающий субъект действия, объект действия, время действия, место действия, инструмент действия, цель и т. д.);

  • понятия-состояния (лексические элементы, фиксирующие состояния объектов);

  • имена (лексические элементы, идентифицирующие понятия- классы);

  • отношения (лексические элементы, служащие для установления связей на множестве понятий и имен);

  • квантификаторы (всеобщности, существования и т. д.).

В заключение общей характеристики документальных ИПС приведем основные показатели эффективности их функционирования. Такими показателями являются полнота и точность информационного поиска.

Полнота информационного поиска R определяется отношением числа найденных пертинентных документов А к общему числу пертинентных документов С, имеющихся в системе или в исследуемой совокупности документов:



Точность информационного поиска Р определяется отношением числа найденных пертинентных документов А к общему числу документов L, выданных на запрос пользователя:



Наличие среди отобранных на запрос пользователя нерелевантных документов называется информационным шумом системы. Коэффициент информационного шума к, соответственно, определяется отношением числа нерелевантных документов (L-A), выданных в ответе пользователю к общему числу документов L, выданных на запрос пользователя:



В идеале полнота информационного поиска и точность информационного поиска должны приближаться к единице, хотя на практике их значения колеблются в пределах от 60 до 90%.
  1   2   3   4   5   6   7   8   9   ...   15

Добавить документ в свой блог или на сайт

Похожие:

Содержание обозначения и сокращения введение iconСодержание обозначения и сокращения введение
В результате основу информационного обеспечения деятельности предприятий и организаций к началу 90-х годов составили фактографические...

Содержание обозначения и сокращения введение iconСодержание обозначения и сокращения введение
В результате основу информационного обеспечения деятельности предприятий и организаций к началу 90-х годов составили фактографические...

Содержание обозначения и сокращения введение iconСодержание Обозначения и сокращения 2

Содержание обозначения и сокращения введение iconСодержание обозначения и сокращения
Необходимость в разработке автоматизированной информационно-поисковой системы на основе тематико-иерархического рубрикатора в защищенном...

Содержание обозначения и сокращения введение iconСодержание определения обозначения и сокращения
В результате основу информационного обеспечения деятельности предприятий и организаций к началу 90-х годов составили фактографические...

Содержание обозначения и сокращения введение iconОбозначения и сокращения

Содержание обозначения и сокращения введение iconУсловные обозначения и сокращения
Cостояние проблемы анализа и оценки эффективности корпоративных сетей с учетом деятельности операторов

Содержание обозначения и сокращения введение iconОпределения, обозначения и сокращения
Расчет параметров установки пожаротушения. Общая характеристика принятой установки пенного тушения

Содержание обозначения и сокращения введение iconИспользуемые в ооп ООО понятия, обозначения и сокращения Базовые национальные ценности
...

Содержание обозначения и сокращения введение iconКоммерческое предложение по внедрению системы мониторинга налогового...
Принятые в документе сокращения, условные обозначения, символы, единицы и специфические термины представлены в следующей таблице

Вы можете разместить ссылку на наш сайт:
Школьные материалы


При копировании материала укажите ссылку © 2013
контакты
vbibl.ru
Главная страница