« предыдущая статья | Все статьи | следующая »
Поиск Информации. Взгляд со стороны пользователя
Корпоративные системы
Третьей в списке значатся готовые решения на базе поисковых технологий. Они предназначены для серьезных компаний и корпораций, обладающих действительно гигантскими базами данных и под завязку набитыми различными документами информационными системами. В принципе, технологии сами по себе могут использоваться и для «домашних» нужд. Например, работающий вне офиса программист найдет применение технологии поиска для разбросанных по всему жесткому диску своего компьютера исходникам различных программ. Но это частности. Основное применение данные технологии находят все же в тех случаях, когда требуется осуществлять быстрый и точный поиск в больших массивах данных и для работы с различными источниками информации. Схема работы таких поисковых систем довольно проста (хотя за ней кроется, конечно, множество уникальных методов индексации информации и обработки запроса): поиск по фразе. С учетом всех словоформ, синонимов и прочая. Что опять же приводит нас к проблеме человеческого ресурса: при использовании такой технологии (а это, для примера, линейка программ « Hummingbird » или « Verity ») пользователю надо сначала составить для себя ориентировочные фразы, которые будут являться критерием поиска, и будут, по идее, встречаться в нужных документах. Но, далеко не факт, что пользователь самостоятельно сможет подобрать или вспомнить нужную фразу и опять же нет особой уверенности, что последующий поиск будет удовлетворительным.
Еще одним ключевым моментом является скорость обработки запроса. Конечно, при использовании в качестве фразы для поиска целого документа вместо одного двух слов, точность поиска увеличивается на порядок. Но на сегодняшний день такая возможность просто не использовалась из-за очень большой емкости процесса. Дело в том, что поиск по нескольким словам или небольшой фразе не даст нам точной похожести найденных документов. А поиск по фразе длиной в целый документ в существующих системах занимает слишком много времени и очень требователен к вычислительным ресурсам. Можно привести условный пример. При отработке поискового запроса по одному ключевому слову большой разницы нет, с какой скоростью будет отработан этот запрос: 0,1 секунды или 0,001 секунды, поскольку пользователь разницы и не заметит. Если же взять среднего размера документ, который содержит порядка 2000 уникальных слов, то поиск с учетом морфологии (всех словоформ) и тезаурусов (синонимов), и вывод релевантного списка найденных документов в случае с поиском по ключевым словам займет несколько десятков минут (что неприемлемо для пользователя).
Система SearchInform легко интегрируется в информационную структуру предприятия, подключая различные источники данных, и имеет архитектуру клиент-сервер. Внедрение SearchInform не требует изменения существующих бизнес-процессов и позволяет максимально сохранить инвестиции компании, вложенные в существующую информационную инфраструктуру. В тоже время система позволяет объединить разрозненные корпоративные приложения и данные в единую информационную систему, что приводит к более эффективному решению бизнес-задач.
« предыдущая статья | Все статьи | следующая »
Для того чтобы отобразить все аспекты работы с программой полнотекстового поиска были проведены тесты на различные виды данных и различного объема. Наиболее распространенные форматы данных: TXT, HTML, DOC, RTF, PDF. Причем наиболее корректными с точки зрения работы поисковой технологии являются тесты простых форматов, так как в промышленном применении данные хранятся уже в какой-либо СУБД или хранилище данных и в поисковую систему эти данные уже попадают в виде чистого текста.
Компания Лоция Софт и СофтИнформ объявляют о начале специальной акции – «Снижение на 20% цен на ПО SearchInform Lotsia Edition». Акция продлится до 15 мая 2006 года.
Подробнее...
»
Большой рыночный потенциал заложен в технологии поиска, которая не зависит от языка. По словам Льва Матвеева, генерального директора "СофтИнформ" – «технология абсолютно независима от морфологии и в течение максимум двух недель настраивается на любой язык поиска».
iOne.ru
Подробнее...
» Вся пресса
|