Корректная работа с локальной сетью Информационная безопасность Поиск похожих документов Скорость индексации Разграничение прав доступа
 
 Домой   Заказать/Скачать   Продукты   Проекты   Наши Технологии   Сотрудничество   Пресса   О Компании   English 
SoftInform Search Technology - это Ваша власть над информацией.

Публикация на сайте Connect.ru

Дата: Декабрь 2005

Чемпионат поисковых машин    Макс Магляс

Тест продуктов для локального поиска под Windows

Апгрейд «прямого поиска»

Еще совсем недавно, когда информации в локальной сети предприятия было не так много, любой поиск осуществлялся банальным перебором горстки доступных файлов и последовательной проверкой их названий и содержимого. Такой поиск называется прямым. Программы, использующие технологию прямого поиска, традиционно присутствуют во всех операционных системах и инструментальных пакетах. Но сегодня даже мощные современные компьютеры при использовании прямого поиска не в состоянии быстро найти нужные данные. Перебор пары сотен документов на диске и поиск в громадной библиотеке и нескольких десятках почтовых ящиков – разные вещи. Программы прямого поиска постепенно отходят на второй план, в корпоративном секторе они давно не востребованы. На смену им приходят технологии, способные вести быстрый и точный поиск документов различных форматов из различных источников. Не так давно Билл Гейтс, видимо, позавидовав феноменальному успеху интернет-поисковика Google, обнародовал желание софтверного гиганта всячески развивать создание поисковых систем и технологий. Но пока до появления какой-либо «суперпрограммы» от Microsoft дело не дошло. Поэтому попробуем проанализировать особенности существующих разработок.

Индекс, запрос, релевантность

В основе современных технологий лежат два основополагающих процесса: индексация доступной информации и обработка запроса с последующим выводом результатов. Что касается индексации, то любая программа создает свою область поиска, то есть обрабатывает документы и формирует их индекс. В дальнейшем именно созданный индекс используется для быстрого получения списка нужных документов согласно запросу. Программа обрабатывает запрос по ключевой фразе и выводит список документов, в которых она содержится. Поскольку информация имеется в структурированном индексе, то обработка запроса происходит в десятки и сотни раз быстрее, чем в ситуации прямого поиска. Ведь выборка документов осуществляется не перебором файлов, а анализом текстовой информации в индексе. Найденные документы программа выводит в результирующем списке по релевантности – соответствию документа тексту запроса. В разных технологиях имеются различные методы поиска и определения релевантности документа: количество «вхождений» слова и его частота упоминания в документе, соотношение этих параметров к общему количеству слов в документе, расстояние между словами фразы запроса в искомых файлах и т. д. На основе перечисленных и других параметров определяется «вес» документа, в зависимости от которого тот или иной файл оказывается в списке результатов на определенной позиции.

Поисковики: хорошие и разные

Мы проанализировали возможности нескольких популярных программ поиска, обладающих и приличными скоростями, и неплохим функционалом. На «подопытный» компьютер (Athlon 2,2 MHz, с объемом оперативной памяти 1 Гб, 160-гигабайтным IDE жестким диском Seagate на 72 XP) был установлен следующий набор программ: dtSearch Desktop, «Ищейка Проф Deluxe», Google Desktop Search, SearchInform, Copernic Desktop Search, ISYS Desktop. Для тестов была скомпонована текстовая база документов в форматах doc, txt и html общим размером 20 Гб. Группа добровольных экспертов тестировала, сравнивала и делилась своими субъективными впечатлениями по каждой из программ.

dtSearch Desktop

Программа, претендующая, по заявлению разработчиков, на самую быструю и удобную поисковую систему. Интерфейс dtSearch довольно прост, но отдельные вкладки несколько перегружены элементами, вследствие чего создается впечатление сложности использования. Но на самом деле особых трудностей не возникает. Единственным действительно неприятным моментом является отсутствие поддержки русского языка (несмотря на то, что искать документы программа может на нескольких языках, интерфейс ее исключительно английский). Зато dtSearch – одна из немногих программ, которая может индексировать веб-страницы на заданную пользователем «глубину». Поддерживает файлы на диске различных текстовых форматов и электронных писем из почтового ящика Outlook. Однако она не способна работать с базами данных, хранящими большие объемы информации и распространенными в корпоративных сетях. Скорость индексирования документов dtSearch оказалась на должном уровне. Забегая вперед, скажу, что эта программа справилась с индексацией заданного объема информации на одном уровне с другим конкурсантом – iSYS и поделила с ним второе место в списке самых быстрых систем. Тестовые 20 Гб информации dtSearch проиндексировала за 6 часов 13 минут, создав для нужд последующего поиска индекс размером 7,9 Гб. Что касается возможностей поиска, то и они оказались на высоте. Прежде всего следует отметить, что в dtSearch присутствует поиск слова во всех его морфологических формах. Таким образом, пользователь освобождает себя от раздумий о том, в каком падеже было употреблено нужное слово в необходимом документе. Учитывая актуальность функции, морфологический поиск должен присутствовать в любом профессиональном поисковике. Поиск по звучанию, присутствующий в dtSearch, является нестандартной функцией даже для профессиональных поисковиков. Суть ее заключается в том, что программа будет искать слова, которые звучат так же, как и введенное слово. И самое приятное то, что данная функция работает и для русского языка. Например, набирая слово «ухо» в поисковом запросе, в результате можно будет увидеть не только «ухо», но и «уха». Поиск с коррекций ошибок – очень важная функция. Применяется для поиска слов, содержащих грамматические ошибки, – это могут быть и опечатки, и ошибки в документах, полученных с помощью систем распознавания символов. Кроме того, в dtSearch есть настройка, позволяющая определять степень возможных ошибочных символов. При поиске с помощью синонимов используется список синонимов для поиска различных слов. Например, если пользователь ввел слово «быстрыйонимы, если таковые, конечно, присутствуют. Готового списка синонимов вместе с программой dtSearch не поставляется, однако есть возможность либо воспользоваться соответствующим словарем в Интернете, либо составить собственный список. Помимо перечисленных возможностей dtSearch способна осуществлять поиск с использованием фраз, которые состоят из слов, соединенных логическими операциями. Каждому слову в запросе можно устанавливать свою значимость. Полезная опция – использование словаря, состоящего из незначимых слов, необходима для того, чтобы не учитывать их при поиске, однако этот словарь придется заполнять самостоятельно. При работе в сети dtSearch никаких специфических возможностей не предлагает. Тем не менее использовать программу в корпоративной сети можно, например, создав индекс и положив в общедоступную папку. Саму же программу можно установить каждому пользователю на компьютер или выложить ее в открытую папку, создав ярлыки для каждого пользователя. Есть возможность автоматической установки программы в сеть при помощи MSI-файла. При этом будут учтены настройки для каждого подключаемого пользователя. В общем, dtSearch – неплохая программа из разряда профессиональных поисковиков. Может претендовать на хорошую оценку, однако имеются и минусы: не все гладко с интерфейсом, русские пользователи обделены, нет ярких особенностей для работы с сетью. Что касается непосредственно поиска документов, то накладок с русским текстом у программы не было. Как не возникло их и с заявленной морфологией, с четкостью поиска. Система вполне адекватно находила нужные документы – и по простому запросу в одно слово, и при использовании в качестве ключевой фразы пары абзацев какого-либо документа. Официальный сайт: www.dtsearch.com

Размер дистрибутива: 23 Мб

«Ищейка Проф Deluxe»

Уже по названию этой программы можно догадаться, что поддержка русского языка здесь имеется. Интерфейс несколько необычен, но не очень удобен. Все-таки многооконное решение, при котором запрос вводится в одном окне, а результат отображается в другом, – не самый удачный вариант. «Ищейка» использует все те же индексы для осуществления быстрого поиска, однако индексирование проходит значительно медленнее, чем у других программ. Что достаточно странно, ведь возможности по обработке поисковых запросов у программы весьма слабые, а значит, и структура индекса не отличается сложностью. Скорее всего, все дело в неоптимизированных алгоритмах. Эта программа оказалась явным аутсайдером в плане скорости индексации и поиска: время, затраченное на создание индекса, в шесть раз превысило результаты, продемонстрированные dtSearch и iSYS. Индексация 20 Гб текстов для «Ищейки» вылилась в 38 часов 46 минут работы. А созданная «область поиска» заняла на жестком диске почти столько же, сколько исходные данные, – 19 гигабайт. «Ищейка» может служить альтернативой стандартному поиску в Windows, на большее она вряд ли способна. О том, что главная задача прогрне только минимум функций для анализа текста поисковых запросов и наличие расширенного поиска по атрибутам файлов, но и окно результатов, выдающее прямые ссылки на найденные файлы и содержащие их папки. Окно результатов не слишком информативно–встроенного просмотрщика файлов у программы нет. Зато выдается выдержка из файла, где встретилось искомое слово. В общем, такая схема отображения очень напоминает интернет-поисковики. Говоря о конкретных возможностях обработки поисковых запросов, стоит отметить, что здесь нет многострочного поля ввода текста. Анализировать можно введенное слово или фразу, для этого «Ищейка» предлагает стандартный поисковый набор: логические операции, поиск по маске и цитатный поиск. В программе присутствуют зачатки морфологического поиска, но они скорее мешают корректной работе – во время тестов было замечено множество накладок, связанных с использованием этой функции. Зато программа позволяет указывать при поиске атрибуты файлов (дата документа, имя файла, имя папки), причем в этих запросах можно использовать тот же поисковый набор. Можно вести поиск писем, указывая параметры (От, Тема... и т. п.). Операции с индексами весьма стандартны, приятным моментом является возможность обновления индексов по расписанию. Кроме того, индексы могут использоваться в сети. Несмотря на примитивность поисковых запросов, программу можно использовать для поиска файлов, поэтому ее применение может быть оправданно в сетях, но с большой натяжкой: ведь в сети приоритетной задачей является быстрый поиск данных с использованием сложных поисковых запросов ввиду огромного количества информации – а со скоростью поиска у программы явные проблемы. Работа с сетью у «Ищейки» достаточно продуманна. Для этой цели предназначено отдельное приложение – «Ищейка Сервер». Поисковый движок у них один – только для документов, размещенных на центральном сервере или общих ресурсах корпоративной сети. «Ищейка Сервер» либо создает новые индексы на общих ресурсах, либо использует созданные ранее. Любой пользователь корпоративной сети может подключиться к этой программе и при помощи интернет-браузера использовать ее для доступа к любому документу. Подобная схема весьма удобна: получается, что файлы в собственной сети можно искать так же, как информацию в Интернете. Оценивая все преимущества и недостатки «Ищейки», можно прийти к выводу, что для корпоративных сетей (несмотря на неплохую организацию работы с сетью) ее возможностей не хватит. А вот для домашнего компьютера или домашней сети она вполне приемлема. Хотя ни скорость ее работы, ни возможности поиска оптимизма не внушают... Официальный русскоязычный сайт: www.isleuthhound.com/ru

Размер дистрибутива: 6 Мб.

Назад
  
   Пресс-центр
Компания Лоция Софт и СофтИнформ объявляют о начале специальной акции – «Снижение на 20% цен на ПО SearchInform Lotsia Edition». Акция продлится до 15 мая 2006 года. Подробнее...
» Все новости


Большой рыночный потенциал заложен в технологии поиска, которая не зависит от языка. По словам Льва Матвеева, генерального директора "СофтИнформ" – «технология абсолютно независима от морфологии и в течение максимум двух недель настраивается на любой язык поиска». iOne.ru   Подробнее...
» Вся пресса
   Информационные материалы
Пример работы с программой SearchInform и демонстрация возможностей технологии SoftInform Search Technology.
» Скачать демо-ролик...(3,2 Мб)

Проблемы поиска информации в крупных информационных системах и решение этих проблем при помощи технологии полнотекстового поиска компании СофтИнформ.
» Скачать презентацию...(1,1 Мб)
   Награды
Награда Best Soft 2005 от PCMagazine
Top rated at BrotherSoft.com
Высшая награда от BrotherSoft.com
Top rated at BrotherSoft.com

Смотреть все награды...
   Партнерская программа
Мы приглашаем Вас присоединиться к нашей партнерской программе. Начните сотрудничать с нами и вы будете получать вознаграждение от каждой проданной с вашей помощью копии SearchInform. Для присоединения к нашей партнерской программе заполните форму.
stretcher