Компьютерные технологии организации хранения и поиска документальной информации

За помощью обращайтесь в группу https://vk.com/pravostudentshop

«Решаю задачи по праву на studentshop.ru»

Опыт решения задач по юриспруденции более 20 лет!

Оглавление

Документальные информационно-поисковые системы. Автоматическое индексирование документальной информации

Цель документального поиска – нахождение и выдача соответствующих запросу пользователя документов или их описаний. Документы, отвечающие запросу пользователя, называются релевантными.

Понятие «документ» в рамках информационных технологий трактуется несколько шире, нежели в традиционном документоведении. При этом «документ – это текст или изображение, имеющее информационное значение».1

Традиционно информационно-поисковые системы (ИПС) применяются для тематического поиска научно-технической информации в крупных библиотеках, научно-технических центрах, архивах, патентных библиотеках.

В настоящее время в связи с возрастанием объема документальной информации, необходимой для принятия эффективного управленческого решения, и возможностями, предоставляемыми новыми компьютерными технологиями, автоматизированные информационно-поисковые системы стали широко использоваться в различных сферах экономики.

По оценкам американских экспертов (фирма Delphi Consulting), в США ежедневно генерируется более 1 млрд. страниц документов, а в архивах хранится уже более 1,3 трлн. документов, причем поток деловой информации чрезвычайно разнообразен по видам ее представления. Можно выделить три основных составляющих деловой информации. Поданным вышеназванной фирмы, 12% информации – структурировано, представлено в электронной форме, хранится и управляется с помощью систем управления базами данных. Примерно 15% информации представляет собой неструктурированные данные в электронной форме, как правило, это текстовая информация. Для автоматизации хранения и поиска такой информации используются технологии информационно-поисковых систем. И оставшиеся около 73% информации традиционно хранятся на бумаге. Организация быстрого и эффективного поиска такой документальной информации становится все более неразрешимой проблемой.1

Таким образом, сфера приложения для технологий информационно-поисковых систем представляется достаточно широкой.

Примерами документальной информации, для которой эффективно автоматизированное хранение и поиск, могут служить: законы, постановления, комментарии к нормативным актам, тексты контрактов, переписка с клиентами и партнерами, проекты, стенограммы переговоров, приказы, распоряжения, письма, отчеты, планы, программы, записи судебных дел, постановления судов, научные статьи, доклады, конспекты, рефераты, периодические и специальные печатные издания, каталоги фирм, рекламные издания, справочники и другие документы.

При автоматизации поиска документальной информации важнейшими являются задачи формализации содержания документа и запроса. При решении этих задач могут использоваться различные подходы.

Первый подход состоит в том, что содержание документа, а также его характеристики (дата издания документа, автор и т.п.) отображаются в некую структурированную информацию, представляющую собой, например, запись реляционного файла или строку в электронной таблице. В этом случае поиск документа сводится к поиску структурированной информации средствами СУБД или табличного процессора.

Второй подход состоит в том, что поиск происходит по всему тексту документа или по его поисковому образу. При этом в качестве запроса чаще всего выступают отдельные ключевые слова или их логические комбинации. Этому подходу, соответствующему традиционному пониманию документального поиска, и посвящена данная глава.

Эффективность документального поиска оценивают на основе показателей полноты и точности. Полнота поиска определяется как отношение числа выданных в ответ на запрос релевантных документов к числу всех имеющихся в поисковом массиве релевантных документов. Точность поиска определяется как отношение числа релевантных документов в выдаче к общему числу выданных документов.

Автоматизированный документальный поиск может быть организован на основе различных технологий: поиска по поисковому образу документа, поиска по полному тексту документа, поиска документов по гипертекстовым ссылкам.

Технология полнотекстового поиска является неотъемлемой составляющей таких современных и перспективных информационных технологий, как: системы управления документами (Document management system, DMS), технологии групповой работы над документами (groupware), технологии поиска в Internet/intranet. На технологии гипертекста базируется самый известный сервис Internet – World Wide Web (WWW).1

В документальных информационно-поисковых системах ДИПС (их также называют библиографическими) поиск документа происходит по краткому формализованному описанию его содержания – так называемому поисковому образу документа (ПОД).

Одновременно с появлением первых библиотек и архивов возникли и проблемы разработки методов поиска и хранения документальной информации. Основная идея этих методов состояла в том, что центральная тема произведения выражалась в виде краткого текста. В простейшем случае функцию такого краткого текста выполняло заглавие произведения, в качестве которого в самом начале использовалась первая фраза текста. Это освобождало пользователя (библиотекаря) от необходимости просматривать весь текст документа, что значительно повышало скорость поиска.

Хотя основы методологии ДИПС разработаны достаточно давно, в 50-х – 60-х гг. ХХ в., эта технология и в настоящее время успешно применяется при организации как ручного, так и автоматизированного поиска документов.

Важнейшей структурной составляющей является информационно-поисковый язык.

Информационно-поисковый язык, ИПЯ (indexing language, retrieval language) – искусственный язык для выражения содержания документов или запросов с целью последующего поиска. Основное назначение ИПЯ – установить принадлежность того или иного документа к определённой группе понятий. Перевод текстов документов и запросов на ИПЯ называется индексированием. В результате индексирования содержание документа отображается в ПОД, а содержание запроса – в поисковое предписание (ПП). Индексирование может быть ручным (когда его производит человек) или автоматическим.

К настоящему времени разработан ряд ИПЯ, носящих как общеотраслевой, так и специальный характер. Например – Универсальная десятичная классификация (УДК); классификаторы документов, отраслевые дескрипторные языки. Однако разработка ИПС для управленческих документов, как правило, требует разработки собственного ИПЯ, адекватного данной предметной области.

В ДИПС поиск документов происходит посредством просмотра поискового образа документа. Такая организация поиска документов имеет свои преимущества и недостатки.

Представление документа в виде ПОД позволяет значительно снизить расходы памяти, сократить время поиска и не требует мощного и дорогого аппаратного и программного обеспечения. Поэтому технология ДИПС успешно использовалась в большинстве созданных до 90-х гг. системах автоматического документного поиска.

В то же время технология ДИПС обладает рядом существенных недостатков. Любой набор информативных ключевых слов не может адекватно представлять содержание документа во всей его полноте. Кроме того, суть процесса образования ПОД состоит в структурировании документа, что может привести к искажению его содержания. Особенно это существенно для нормативных документов, где каждое слово и словосочетание представляются значимыми.

В настоящее время в автоматизированных современных системах поиска документальной информации реализуются технологии поиска по полному тексту документов. Такие системы получили название – полнотекстовые базы данных (full-text system) или текстовые базы данных.

Полнотекстовые базы данных используются для хранения и поиска правовой информации (справочные, правовые системы – СПС), периодических изданий (газет и журналов), корпоративной документации.

В отличие от СУБД в информационно-поисковых системах до сих пор не выработаны стандартные языки запросов. Различные системы используют и различные средства формирования информационных запросов. Чем мощнее поисковые возможности системы, тем богаче ее язык запросов.

Во всех системах для поиска по сочетанию терминов используются логические функции AND (И), OR (ИЛИ), NOT (HE), соединяющие ключевые слова информационного запроса.1

Автоматическая нормализация терминов состоит в приведении всех форм каждого слова к одной стандартной форме, например, существительного – к именительному падежу единственного числа.

Операторы контекстного поиска позволяют учитывать контекст и осуществлять поиск в заданной комбинации слов. Эти операторы можно трактовать как функции «близости», которые являются развитием функции «И». Формы представления операторов контекстного поиска существенно различаются, причем во многих ИПС их нет вообще.

В ИПС Агама ограничение контекста при поиске (в пределах одного предложения, трех предложений, всего текста) задается в меню настройки запроса.

В ИПС Cherchez в качестве операторов контекстного поиска введены функции adj, near, same, with. Они определяют нахождение терминов соответственно: «в одном абзаце», «в одном предложении», «рядом друг с другом», «рядом друг за другом в указанном порядке».

В поисковых системах сети Internet в качестве инструмента оператора контекстного поиска чаще всего используется оператор NEAR.

Некоторые механизмы поиска позволяют выделить в выданном наборе документов особо полезный документ и задать операцию типа «Найти аналогичную информацию», «Найти подобные». При этом поиск выполняется на основе всех содержащихся в данном документе ключевых слов. Подобный тип поиска, который называют QBE (запрос по образцу), может быть очень эффективным, поскольку позволяет задействовать термины, которые были бы неочевидны для пользователя. Запрос типа QBE используется в качестве механизма поиска документальной информации в некоторых поисковых системах сети Internet (Excite, Open Text, WebGrawler).

При всем многообразии средств формирования запросов одним из главных требований к любой современной компьютерной системе является наличие удобного и понятного интерфейса, обеспечивающего диалог с пользователем.

Во многих современных ИПС существует возможность формулировки запросов на естественном языке. Проблема интерфейса на естественном языке достаточно успешно решается во многих системах, в которых базовым языком общения является английский, например запрос на обычном английском языке обрабатывают следующие поисковые системы Internet: AitaVista, Excite, HotBot, Infoseek Ultra, Lycos, WebGrawler. Русский язык в этом аспекте гораздо сложнее английского, так как менее структурирован, имеет более сложную морфологию и синтаксис. Поэтому в русскоязычных системах пока преобладают традиционные средства запросов.

Индексирование документа это процедура отображения текста документа в определенную форму, предназначенную для автоматической обработки (индекс документа).

Различают ручное и автоматическое индексирование. При ручном индексировании этот процесс осуществляет информационный работник. На основе анализа содержания документа специалист отображает текст документа в набор ключевых слов или дескрипторов. Преимущество ручного индексирования состоит в его качестве, недостатком является низкая производительность и, следовательно, высокая стоимость. Кроме того, при ручном индексировании вполне возможна ситуация, когда один и тот же документ, обработанный различными специалистами, может получить различные индексы.

При автоматическом индексировании (АИ) индексирование осуществляется компьютерной системой. Формально текст документа представляет собой множество символов, разделенных пробелами. Эти отрезки текста называют словоформами. Основная задача автоматического индексирования состоит в распознавании в словоформе соответствующего словарного слова. С этой целью используют автоматический морфологический анализ текста.

Морфологический анализ текста – анализ структур словоформ, рассматриваемых изолированно с целью определения принадлежности словоформы слову.

Задачами морфологического анализа текста являются: выделение из текста словоформ; распознавание слов или их сочетаний; нормализация словоформ (приведение слова к словарному виду); распознавание грамматических признаков словоформ (часть речи, падеж и т.п.). Грамматические признаки, приписываемые в результате морфологического анализа, могут использоваться на дальнейших этапах обработки исходного текста.

Для анализа текста в системах АИ используются различные автоматические словари, которые можно разделит на два типа. Первый тип представлен словарями, используемыми для распознавания словоформ и их нормализации. Например, словарь словоформ, словарь основ слов, словарь окончаний, словарь словосочетаний. Словарь словосочетаний содержит устойчивые последовательности слов. Считается, что в развитом языке насчитывается десятки миллионов понятий, а слов – около миллиона. Поэтому большая часть понятий выражена комбинациями слов.

Второй тип словарей представляют информационно-поисковые тезаурусы, которые содержат информацию об отношениях условной эквивалентности, отношениях подчинения и ассоциативных отношениях между словами.

В некоторых системах АИ вместо словарей для нормализации слов используются алгоритмы, предназначенные для преобразования слов в различные грамматические формы. При этом исчезает необходимость заносить в словарь все возможные формы слов, уменьшается объем словарей, увеличивается эффективность поиска, так как в тексте могут быть найдены все грамматические формы слова, заданного в запросе.

Сложность формальной обработки текста на ЕЯ состоит прежде всего в том, что текст нельзя представить как простую совокупность слов, имеющих тот или иной смысл. Большая доля смысла текста содержится не в самих словах, а в отношениях между словами. Поэтому для более полного и точного распознавания смысла текста в развитых системах АИ помимо морфологического анализа осуществляется и автоматический синтаксический анализ текста.

Синтаксический анализ текста представляет собой исследование структуры предложения текста с целью установления синтаксических связей между членами предложения. В ходе синтаксического анализа используются результаты морфологического анализа. Основой для разработки методов синтаксического анализа систем АИ являются исследования в области математической лингвистики и опыт создания систем машинного перевода.

Результаты синтаксического анализа текста обычно представляются в виде дерева отношений между словами с указанием их типов. Например, для русского языка различают до 50 типов отношений между словами.1

В начале 90-х гг. ХХ в. появились другие, альтернативные технологии автоматического индексирования текста. Например, технология «адаптивного распознавания образов», при которой каждая словоформа представляется в виде своего двоичного кода, который является ее «образом». При этом становится возможен так называемый нечеткий поиск, при котором можно игнорировать опечатки и искажения слов. Преимуществом этой технологии является значительное увеличение скорости индексирования и поиска информации» минимизация объема индекса. Недостатком – снижение полноты и точности поиска вследствие отсутствия семантического анализа текста, который особенно важен в случае русского языка.

Для выбора из множества слов текста информативных ключевых слов в системах АИ применяются методы статистического анализа текста. Как показывают исследования, в ЕЯ наблюдается тенденция повторять старые слова, а не использовать новые, так что 70% словоупотреблений приходится на 20% слов.

В основе статистических методов анализа текста лежит идея о возможности использования числовых параметров для оценки информативности лексических единиц, составляющих текст. Считается, что как очень редкие, так и очень часто встречаемые термины не могут использоваться в качестве информативных слов, а пик информативности приходится на слова со средней частотой встречаемости.

При статистическом анализе текста рассчитывают различные количественные оценки. Например, число вхождений слова в документ; общее число вхождения слова в документы, относительная частота вхождения слова в документ

Статистические методы удобны тем, что позволяют автоматически, посредством достаточно простых операций, получить сведения о данной лексической единице в документе или массиве документов. В тоже время использование только статистических методов при определении информативности слов не всегда приводит к адекватным результатам. Например, удаление часто встречающихся терминов уменьшает полноту, а удаление редко встречающихся терминов снижает точность поиска. Поэтому статистические методы не могут в полной мере оценить информативность слов текста, а ручное индексирование по качеству всегда будет превосходить автоматическое.

В современных информационно-поисковых системах часто предусмотрено и ручное и автоматическое индексирование.

Гипертекстовые технологии поиска документальной информации. Системы автоматизации документооборота

Гипертекст (нелинейный текст) это организация текстовой информации, при которой текст представляет собой множество фрагментов с явно указанными ассоциативными связями между этими фрагментами.

Основная идея гипертекстовых технологий состоит в том, что поиск документальной информации происходит с учетом множества взаимосвязей, имеющихся между документами, а значит, более эффективно, чем при традиционных методах поиска.1

Формально гипертекст можно представить в виде сети или графа, где узлами являются фрагменты текста, а дуги отображают отношения, связывающие эти фрагменты. Доступ к информации осуществляется не путем последовательного просмотра текста, как в обычных информационно-поисковых системах, а путем движения от одного фрагмента к другому.

В самом общем виде взаимодействие пользователя с гипертекстовой системой заключается в следующем. Пользователь читает на экране компьютера некоторый текст и имеет возможность выполнять ряд определенных в системе действий в зависимости от того, какие у него возникают ассоциации от чтения текста на экране.

Считают, что первым идею гипертекста, не используя самого термина «гипертекст», выдвинул в 1945 г. Венневер Буш, советник президента Рузвельта по науке. Им был предложен проект технической системы нового типа (или лучше сказать – технической среды), названный им «Metex». Основное преимущество этой системы состояло в возможности соединения и совместного просмотра отдельно существующих, но ассоциативно связанных единиц информации (статей, текстовых документов, фотографий, чертежей). Система «Metex» представлялась в виде своеобразной библиотеки с простым доступом к любому документу и возможностью переходить от любого документа к смежным, связанным с ним по смыслу. Пользователь должен был иметь возможность самостоятельно устанавливать нужные ему связи между документами, вводить собственные документы, связывать их с существующим содержимым библиотеки. Таким образом, основная идея предложенного проекта состояла в возможности фиксации смысловых связей между элементами информации и доступа к этой информации по системе связей, т.е. принципы системы «Metex» полностью соответствуют современным представлениям о сути гипертекста.

Первая компьютерная система, реализующая идею гипертекста, создана в 1968 г. Она носила чисто научно-исследовательский характер и обеспечивала возможность пользователям в соответствии со своими представлениями формулировать, наращивать систему связей между элементами информации и просматривать информацию как систему связей.

Термин «гипертекст» ввел Т. Нельсон. Он определил гипертекст как «соединение текста на естественном языке с создаваемой компьютером возможностью интерактивного создания внутри него новых ветвей или динамичной организации нелинейного текста, который уже не может быть напечатан обычным образом на обычной странице».

Т. Нельсон был разработчиком гипертекстовой системы, которая использовалась для ведения документации по проекту космического корабля «Аполлон».

В 1987 г. фирма Apple выпустила первую гипертекстовую систему для персональных машин – пакет HyperCard для компьютеров Macintosh. С этого времени гипертекстовая технология приобретает массовый коммерческий характер.1

Гипертекст можно рассматривать как своеобразную базу данных, которая организуется в виде открытой, свободно наращиваемой и изменяемой сети, узлы которой (линейные тексты) соединяются самим пользователем. От обычной базы данных гипертекст отличается прежде всего тем, что в нем отсутствуют априорно заданные ограничения на характер связей (как, например, в иерархических структурах).

Элементы гипертекста (текстовые фрагменты) называются узлами. Узлы, между которыми возможен переход, считаются смежными, а сама возможность перехода называется «связь». Совокупность смежных узлов образует «окрестность» данного узла. Последовательно соединенные связями узлы образуют «цепь». Расстояние между узлами, что соответствует «близости» или «неблизости» их содержания, равно минимальному количеству промежуточных узлов.

В общем случае, в качестве узла могут выступать: слово; словосочетание; предложение; абзац; параграф; документ; собрание документов, относящихся к одной теме; отдельные сообщения и т.п.

Характер связей между узлами может быть различным. Переход может осуществляться между: текстом и комментарием к нему, между разными редакциями текста, между текстом и его возможными продолжениями, между текстами отвечающими или возражающими друг другу, между текстами, пересекающимися по содержанию, и т.д.

Создание гипертекста состоит прежде всего в формировании системы переходов от узла к узлу (системы ссылок). В зависимости от типа гипертекстовой системы такая система может задаваться как разработчиками, так и пользователем в процессе работы с гипертекстом.

Движение в гипертекстовой сети, совершаемое в процессе чтения гипертекста, называется «навигацией».

Если гиперсеть имеет сложную, разветвленную структуру, возникает проблема ориентации пользователя, т.е. определения, в каком месте сети в данный момент он находится. Проблема ориентации присутствует и при работе с традиционным линейным текстом большого объема, но в этом случае пользователь имеет только два направления поиска – «выше» или «ниже». Гипертекст предлагает больше возможностей в выборе направлений движения, поэтому в этом смысле работать с гипертекстом сложнее. Поэтому многие гипертекстовые системы облегчают проблему ориентации в гипертексте, предоставляя наглядное изображение структуры связей.

В некоторых современных гипертекстовых системах существует возможность запоминания направлений поиска пользователя в процессе навигации. Такую информацию можно рассматривать как альтернативу обработки информации по правилам логического вывода (экспертные системы). Примером использования такого подхода могут служить системы, базирующиеся на технологии CBR (Case Based Reasoning – вывод, основанный на прецедентах).

Гипертекстовая технология реализуется в конкретной гипертекстовой системе, которая состоит из двух частей: гипертекста (базы данных) и гипертекстовой оболочки.

Гипертекстовая оболочка осуществляет следующие основные функции:

· поддержка ссылочных связей;

· создание, редактирование и наращивание гипертекста;

· прямой доступ;

· поддержка ссылочных связей;

· просмотр (browsing – броузинг);

· выделение виртуальных структур.

Поддержка ссылочных связей позволяет поддерживать ранее зафиксированные связи между узлами сети.

Функция создания, редактирования и наращивания гипертекста принципиально отличает технологию гипертекста от технологии баз данных, в которых концептуальная схема данных заранее задана. Она позволяет вводить новые узлы, редактировать содержание узлов, устанавливать связи между узлами.

Прямой доступ позволяет осуществлять прямой доступ к узлам сети по их именам.

Просмотр (browsing – броузинг) – операция, характерная только для гипертекста. Означает поиск информации посредством просмотра гипертекстовой сети, при этом возможно запоминание пути следования, чтобы при последующем аналогичном запросе поиск происходил по зафиксированному пути следования.

Реальные гипертекстовые системы в зависимости от специализации могут обладать различным набором вышеперечисленных функций.

Гипертекстовые технологии широко используются в различных прикладных системах: в настольных издательских системах – для создания документов большого объема со свойствами гипертекста (т.е. с системой ссылок); в системах управления документами (СУД) – например, для сведения в один итоговый документ информации, содержащейся в разнородных документах; в системах подготовки электронных документов, позволяющих составлять гипертекстовые документы с возможностью осуществления навигации.

Наиболее известным инструментом создания гипертекста остается система HyperCard, входящая в набор базовых программных средств для машины Macintosh.1

Одним из перспективных направлений развития гипертекстовых систем является технология гипермедиа – соединение технологии гипертекста и технологии мультимедиа (интеграция текста, графики, звука, видео). Для разработки гипермедийных приложений фирма Apple разработала среду программирования АМТ (Apple Media Tool), в которой основным объектом разработки является не «карта», как в HyperCard, а «экран». С помощью этих средств создаются различные электронные издания – справочники, энциклопедии; разрабатываются обучающие программы.

Гипертекстовые технологии нашли широкое применение и при организации поиска документальной информации в сети Internet, например в сервисе World Wide-Web (WWW). Сервис Web построен на основе архитектуры «клиент-сервер». В состав Web-системы входят следующие составляющие: язык гипертекстовой разметки документов HTML (Hyper Text Markup Language); универсальный способ адресации ресурсов в сети URL (Universal Resource Locator); протокол обмена данными (гипертекстовой информацией) HTTP (Hyper Text Transfer Protocol); средства просмотра Web-страниц (броузеры).

Язык HTML это средство для формирования гипертекстовых документов. Гипертекстовые ссылки встроены в текст документа и хранятся как его часть. Благодаря этому языку можно не только формировать гипертекстовые документы, но и осуществлять связь текста и изображения с документами, расположенными на другом сервере Web.

Универсальный способ адресации применяется для организации гипертекстовых ссылок и обеспечивает доступ к распределенным ресурсам сети. Адрес URL состоит из трех элементов: используемого протокола доступа, логического имени сервера, имени файла. Например, сервер Государственной публичной научно-технической библиотеки России имеет адрес: http://gpntb.ippi.ras.ru/.

Протокол обмена данными служит для установления связи с документами формата HTML независимо от его местонахождения.

В настоящее время гипертекстовые технологии развиваются в нескольких направлениях.

Одно из них концентрируется на представлении в узлах гипертекста разнородной, но семантически связанной информации – текста, рисунков, графиков, фотографий, видео, звука.

Важным направлением развития гипертекстовых технологий является аналитическая обработка информации. Например, смысловое упорядочение документов, обеспечивающих решение многоэтапной задачи или разработку сложных проектов

Наиболее перспективным направлением являются технологии организации информационных ресурсов, распределенных в сетях различных типов (локальных, корпоративных, глобальных) и, прежде всего, Web-технология.

Автоматизация документооборота заключается в комплексной автоматизации задач разработки, согласования, распространение поиска и архивного хранения документов организации.

Постоянное увеличение количества информации, необходимой для принятия правильного управленческого решения, приводит к тому, что традиционные методы работы с документами становятся неэффективными. Так, по сведениям компании Delphi, 15% бумажных документов безвозвратно теряются и для их поиска сотрудники тратят до 30% своего рабочего времени. При переходе к электронным документам и автоматизации документооборота рост производительности сотрудников увеличивается на 25–50%, сокращается время обработки одного документа более чем на 75%, на 80% уменьшаются расходы на оплату площади для хранения документов (оценка Nortan Nolan Institute).

Тенденцию перехода от традиционных технологий организации документооборота к компьютерным отражают следующие цифры: соотношение количества бумажных и электронных документов через пять лет составит 50 на 50%, через десять лет – 30 на 70%; количество электронных документов удваивается за год, а бумажных документов растет только на 7% (данные компании XPLOR).1

В конце 80-х – начале 90-х гг. появились и начали интенсивно развиваться ряд новых технологий, успешно используемых в современных системах автоматизации документооборота: технологии обработки изображений документов (Imaging System); системы оптического распознавания символов (Optical Character Recognition System, OCR); системы управления документами, СУД ( Document Management System, DMS); полнотекстовые базы данных (Full-Text System); системы автоматизации деловых процедур, АДП (Work-Flow System); программное обеспечение для рабочих групп (Groupware).

Системы обработки изображений документов предназначены для ввода, обработки, хранения и поиска графических образов бумажных документов. Подобные системы целесообразно применять в организациях с большим объемом документооборота. Техническое обеспечение систем включает высокоскоростные сканеры, документные контроллеры (выполняют быструю и высокоэффективную компрессию/декомпрессию документов и обеспечивают скоростную работу со сканерами и принтерами), библиотеки-автоматы на базе оптических накопителей с автоматической подачей дисков. Компьютерные образы документов находятся на сервере изображений и просматриваются на рабочих станциях-клиентах.

Системы обработки изображений осуществляют сканирование документов для записи на сервер, их классификацию по различным критериям, передачу изображений на рабочую станцию для просмотра, модификацию или печать. Подобные системы предусматривают также определение маршрута передачи изображений по сети, их рассылку по факсу или электронной почте, поиск изображений по от дельным элементам.

Так как файлы изображений достигают больших размеров, существуют различные варианты организации их хранения. В целях экономии памяти на запоминающем устройстве большинство систем сжимают изображения и создают специальный индекс изображений, где содержатся соответствующие значения атрибутов документов, например наименование, автор, тема.

В высокопроизводительных системах реализованы технологии, позволяющие увеличить скорость работы. Например, предварительная выборка и перенос изображений с медленных оптических носителей на более быстрые магнитные; адаптируемое кэширование, позволяющее хранить часто используемые изображения в памяти сервера; вывод на лазерный диск; групповое сканирование, обеспечивающее считывание нескольких страниц за одну операцию.

Многие системы обработки изображений включают программное обеспечение оптического распознавания символов (OCR).

Применение OCR позволяет решить проблему перевода бумажных документов в электронную форму в виде текстового файла Системы OCR позволяют получать электронную копию документа, печатного листа либо копию документа, пришедшего по факсу существуют экспериментальные системы, позволяющие подобным образом обрабатывать также и рукописные материалы (Intelligent Character Recognition).

Кратко, функционирование системы OCR можно представить следующим образом. С помощью сканирующего устройства считывается изображение документа. В результате распознавания текста изображение документа отображается в файл, отформатированный как текстовый. Таким образом, бумажный документ, минуя низкопроизводительный и трудоемкий ручной ввод, автоматически преобразуется в электронную форму.

Выделяют два класса систем OCR – обучаемые и интеллектуальные. Принцип действия систем первого класса основан на поточечном сравнении оцифрованного символа с образцом из справочника. При совпадении образца и символа последний считается распознанным и добавляется в результирующий файл. При таком способе распознавания размеры образца и шрифта документа должны совпадать; т.е. в системе необходимо иметь маски для каждого размера каждого типа шрифта, поэтому подобная система более эффективна в случае однотипного и качественного текста. Во втором случае «маска» символа заменяется на его «образ», который может быть использован для любых размеров шрифтов.

Для повышения точности распознавания интеллектуальные системы могут выполнять ряд проверок результирующего текста, например осуществлять частотный анализ текста и сравнивать частоту появления данного символа в тексте с его частотой в языке оригинала, или обнаруживать неправильное сочетание символов исходя из правил орфографии.

В реальных системах OCR сочетаются различные распознавательные механизмы, что дает возможность обрабатывать любые шрифты и любые тексты.

На сегодняшний день известно несколько достаточно качественных программных продуктов по распознаванию текста, в том числе – две системы отечественных фирм, ориентированных прежде всего на распознавание русскоязычных текстов (FineReader и CuneiForm). Средняя скорость работы системы OCR на оборудовании средней мощности составляет примерно одну машинописную страницу в минуту. Качество распознавания – в среднем одна – две ошибки на 1000 знаков в тексте среднего качества.

Можно рекомендовать следующие критерии выбора системы OCR: совместимость с существующим или приобретаемым программным и аппаратным обеспечением; скорость сканирования и распознавания преобладающего в данной организации типа текста, например: факс – русский язык, ксерокопия различного качества, машинопись различного качества и др.; качество распознавания текстов различных типов, например количество ошибок на 1000 знаков; способность распознавать редкие шрифты; способность обучения новым символам; наличие элементов семантического анализа текста; наличие модуля проверки орфографии; удобство пользовательского интерфейса.

Системы управления документами (СУД) предназначены для автоматизации хранения, поиска и управления электронными документами разнообразных форматов, в том числе и изображениями документов. Можно сказать, что СУД фактически выполняют роль СУБД для неструктурированной информации.

Развитые системы управления документами осуществляют следующие функции: индексирование документов; полнотекстовый поиск по ключевым словам; управление конфигурацией документа с установлением взаимосвязи между отдельными структурными компонентами; ассемблирование документов, позволяющее объединить все части составного документа для отображения на экране; организация доступа к документу независимо от места его хранения; поиск и управление документами с помощью ключевых компонентов, таких, как оглавление или название раздела; многоуровневая защита данных, которая разрешает доступ к документам только отдельным пользователям или устанавливает виды доступа, например «только для чтения»; администрирование учета и архивирования; организация выдачи/возврата документа; контроль версий документа; рассылка документов.

Выполнение функции выдачи/возврата аналогична блокировке записи в БД. Если документ уже выдан, другие пользователи редактировать его не могут. Он остается доступным только для просмотра и копирования.

Функция контроля версий используется для отслеживания различных версий документа, позволяет использовать предыдущие редакции документа, которые для экономии памяти часто автоматически архивируются.

Функция рассылки документов осуществляется путем интегрирования системы с приложениями электронной почты. Это позволяет перемещать документы по сети масштаба предприятия и передавать документы от одного сотрудника к другому.

Развитие сети Internet определяет появление ряда новых функций современных СУД. Например, возможность помещения документов на Web-узле; поддержка обмена документами по интрасети между сотрудниками фирмы, а по Internet – с клиентами и партнерами фирмы.1

Системы управления документами базируются на архитектуре клиент-сервер, состоящей из четырех основных элементов: центрального приложения, находящегося на сервере; программ клиентов, работающих на сетевых рабочих станциях и образующих пользовательский интерфейс; программного обеспечения для индексирования и поиска, размещенного на сервере СУБД и работающего с базой данных, в которой регистрируется место хранения документа; документов, которые рассматриваются системой как объекты, состоящие из файлов различных типов – текстов, изображений, и могут храниться как на жестких дисках рабочих станций, так и на серверах.

Лидером на мировом рынке СУБД является компания Documenlum (продукт Enterprise Document Management).

Программное обеспечение для рабочих групп (groupware) предназначено для организаций, сотрудникам которых по характеру их деятельности требуется постоянный обмен документами. Осуществляет задачи хранения, просмотра и совместного использования документов. Системы класса groupware позволяют автоматизировать такую деятельность, которая не вписывается в стандартные схемы реляционных баз данных. Например, взаимодействие большого числа людей, исполняющих различные работы в физически удаленных друг от друга местах. Такие приложения могут обрабатывать как структурированную, так и неструктурированную информацию.

Основными функциями ПО для рабочих групп являются: электронная почта;

поддержка видеоконференций/совещаний; управление изображениями документов; совместное использование документов; маршрутизация документов; календарное планирование.

Лучшими системами класса groupware считаются: Lotus Notes компании Lotus Development, Link Works компании Digital Equipment, Group Wise компании Novel.

Продукт Lotus Notes – это среда с архитектурой клиент-сервер, предназначенная для разработки и совместного использования приложений коллективной работы. В Lotus Notes входят три основные составляющие: средства маршрутизации и обработки документов; средства обеспечения защиты/управления документами; распределенная база данных (документов).

В базах данных Lotus Notes хранятся документы различных форматов, в том числе структурированная информация, различные тексты, электронные таблицы, изображения, видео- и аудиоинформация. Lotus Notes позволяет создавать OLE-серверные приложения, т.е. графики, электронные таблицы, рисунки можно встраивать в документы. Специальные приложения Lotus Notes могут быть связаны с записями и полями реляционных баз данных. Также имеется возможность полнотекстового поиска.

Lotus Notes имеет развитую систему управления доступом, который осуществляется на нескольких уровнях: базы данных, документа или частей документа. Управлять доступом можно также на уровне одного пользователя или групп пользователей. В системе выделяется восемь видов доступа: от открытости для всех пользователей до полного запрета доступа.

Важнейшим достоинством Lotus Notes является возможность синхронизации баз данных. Базы данных разных компьютеров синхронизируются через определенные интервалы времени путем минимально необходимого для этого обмена по каналам связи. Тиражирование (процесс двусторонней синхронизации копий распределенной базы данных) дает возможность пользователям различных сетей работать с одной и той же информацией. Через заданные интервалы времени серверы Lotus Notes связываются друг с другом и синхронизируют все изменения в документах и списках управления доступом.

Lotus Notes интегрирован с системой электронной почты Notes Mail, позволяющей посылать корреспонденцию другим пользователям или группам.

Базовыми средствами для разработки приложений в Lotus Notes являются формы, представления и макрокоманды. Представления – это форма вывода данных на экран или принтер (аналогичны отчетам в реляционных СУБД).

Достоинством Lotus Notes является высокая платформенная независимость. Система работает на платформах OS/2, Windows NT, UNIX различных версий, Macintosh System 7. Приложения Lotus Notes достаточно легко масштабируются, их можно адаптировать как к малой рабочей группе, так для организации работы в масштабе предприятия.

В последнюю версию Lotus Notes 4.0 включены средства совместимости с internet (встроен броузер, редактор Web-страниц, почтовая программа, работающая со стандартным Internet-протоколом); расширены инструменты разработки приложений (включен язык LotusScript, являющийся расширенным аналогом Visial Basic).

Система GroupWise компании Novel включает средства электронной почты, личного и группового календарного планирования, управления заданиями и документами. Последние версии системы базируются на архитектуре клиент-сервер и поддерживают стандарты Internet, отличаются высокой производительностью и масштабируемостью.

Основными составляющими системы являются хранилище документов (библиотека) и три объектно-ориентированные базы данных в формате Novel. Библиотека содержит документы (тексты, электронные таблицы, графические файлы). Все операции с документами регистрируются. Доступ к документам осуществляется под контролем средств защиты.

Первая БД хранит так называемые сообщения (почтовые, речевые сообщения, факсы, расписания встреч, перечень заданий, заметки). Вторая БД содержит информацию о связях между пользователями и сообщениями/документами. Третья БД хранит характеристики документов.

В GroupWise имеется возможность поиска данных как по полному тексту, так и с помощью фильтров. Для обеспечения безопасности применяются пароли и средства управления правами доступа.

Достоинством последней версии GroupWise являются развитые средства управления документами. В систему интегрирована СУБД SoftSolutions, которая ранее выпускалась той же компанией, но отдельным продуктом.

Продукт Link Works также относится к классу groupware и является объектно-ориентированной офисной системой. Предоставляет конечным пользователям возможность управления как их персональными, так и связанными с рабочей группой документами при помощи единой объектно-ориентированной среды для настольных систем. Администратор размещает групповые и персональные папки документов на серверах Link Works, а конечные пользователи настраивают среду настольных систем на обмен документами между персональными и групповыми папками. В состав Link Works входят: система персонального документооборота (графический аналог рабочего стола); электронная почта; организация совместного использования документов и контроля версий.

Системы автоматизации деловых процедур (ЛДП) предназначены для создания сложных прикладных систем коллективной обработки документов в процессе осуществления конкретных бизнес-процессов. Документальные потоки на предприятии привязываются к существующим бизнес-процессам и регламенту их взаимодействия. При жесткой маршрутизации документа заранее прописывается движение документа по всем рабочим местам. Определяются права пользователей на документ в каждой точке маршрута. При свободной маршрутизации исполнитель может определить дальнейший путь движения документа, обычно на один уровень.

Примером систем АДП может служить продукт фирмы Staffware. Документы в системе обрабатываются по принятому в организации алгоритму и перемещаются в рамках корпоративной системы между отдельными подразделениями и исполнителями по заранее определенным маршрутам. Система основана на технологии клиент-сервер, интегрируется с программными продуктами, работающими на платформах Windows NT, Windows 95, UNIX. В состав системы может входить графический построитель процедур (Graphical Workflow Defmer), описывающий в документе поток в виде диаграмм с указанием логических шагов, маршрутизации, предельных сроков и форм отчетов. Является инструментом для разработки модели бизнес-процессов.

В последнее время наблюдается тенденция сближения и пересечения функциональных возможностей вышеописанных систем. Так, в системах, классифицируемых как groupware, могут использоваться технологии полнотекстовых баз данных, систем управления документами и автоматизации деловых процедур. Поэтому в современных системах автоматизации документооборота вышеуказанные технологии могут применяться как в качестве отдельных, так и интегрированных компонент.

1 Кушнаренко Н.Н. Документоведение. Киев, 2000. С. 7

1 Организация работы с документами: Учебник // В.А. Кудряев и др. – М., 1998. С. 56

1 Субботин М. Гипертекст. Новая форма письменной коммуникации. – М., 1994. С. 80

1 Информатика: Учебник // Под ред. Н.В. Макаровой. – М., 2000. С. 402-43

1 Дмошинский Г.М., Серегин А.В. Телекоммуникационные сети России. Описание. Классификация. Выбор. – М., 1993. С. 88-90

1 Тихомиров В.П. Основы гипертекстовой информационной технологии. – М., 1993. С. 151

1 Субботин М. Указ. соч. С. 16

1 Монастырский И. Информационно-поисковые системы. – М., 1993. С. 76-81

1 Турьянский А. Г. Искусство и технология международной связи. – М., 1995. С. 210-212

1 Информатика: Учебник // Под ред. Н.В. Макаровой. Указ. соч. С. 577

Найти работу

«Компьютерные технологии организации хранения и поиска документальной информации»

Оглавление