Технологии
Информация на предприятии содержится как на дисках компьютеров, подключенных к локальной сети, так и в базах данных и различных информационных системах. Это создает определенную проблему их поиска – в различных источниках и различными программными средствами. Одним из важнейших преимуществ современных корпоративных систем на базе технологий поиска похожих документов является возможность консолидации информации из различных источников. Это позволяет структурировать информационные составляющие любого крупного предприятия под управлением одной программы. Притом, без нужды переводить документы и данные в какой-либо единый формат. Вся информация, доступная для индексирования и дальнейшего поиска может быть распределена, структурирована и отображена в удобном виде.
SoftInform Search Technology – это быстрый и точный поиск похожих по содержанию документов в любых объемах данных, возможность исключить дублирование информации, интеграция в любые прикладные системы, а также возможность разработки широкого спектра приложений как для локальных внутрикорпоративных сетей, так и для глобальных интернет-решений.
Технология работает с распространенными форматами текстовых файлов (txt, doc, rtf, pdf, htm, html), а также поддерживает подключение баз данных из большинства распространенных информационных систем (Access, MS SQL, Oracle, а также любых СУБД, поддерживающих SQL).
SoftInform Search Technology основана на уникальной математической модели анализа структуры документа и выбора похожих слов, словосочетаний и массивов текста. При поиске учитывается все множество слов, встречающихся в документе с задействованием всех словоформ и словаря синонимов.
Статьи
Все статьи о поисковых системах и технологиях | »Следующая»
Обзор поисковиков
В динамически меняющемся современном мире все большее значение приобретают информационные технологии. Для обычного человека недостаточное владение информацией и отсутствие инструментов управления оной не является катастрофой. Но для предприятий и компаний, обладающих гигантскими объемами неструктурированных «знаний», такое положение дел принимает критический оборот.
Корпоративный поиск
Проблема организации данных в единую базу частично решается за счет DMS, CRM и специализированных СУБД. Но, чем больше предприятие и чем разнообразнее его виды деятельности, тем сложнее обрабатывать информацию из различных источников. Документы на диске, 1С, Oracle и различные информационные системы – список можно продолжать бесконечно. Архивы html-страниц, электронная корреспонденция и даже записи логов ICQ – в последнее время отнюдь немаловажный «информационный сектор», который можно смело подключать к основным хранилищам данных внутри любой крупной компании. На основе анализа многообразия этих источников поступления и хранения текстовых данных можно выделить две основные проблемы «информационного обеспечения». Это неструктурированность информации и ее поиск. В принципе, эти проблемы взаимосвязаны. Так как получив хорошую систему поиска информации по различным источникам, можно, тем самым, предельно систематизировать полученные результаты.
Есть проблема – есть и решение. Это корпоративные search-системы, работающие с различными источниками знаний, как на компьютере пользователя, так и в локальной сети. Их главная задача – осуществлять быстрый и точный поиск документов в больших объемах данных. О таких специализированных программах сегодня речь и пойдет. Встроенные же в различные DMS элементы поисковиков, будь они стократ великолепны, обсуждать не будем. По аналогии, домашние кинотеатры и телевизоры, встраиваемые, например, в холодильник в один ряд не поставишь.
Индексация
Прежде чем программа начнет отрабатывать свои основные функции, искать и выводить в удобном результирующем списке нужные пользователю документы, проводится функциональная артподготовка. Другими словами - создание области поиска (индексации выбранных пользователем файлов на диске, полей баз данных, электронной почты и так далее - в зависимости от возможностей той или иной системы). Созданный программой поиска индекс (организованная структура, в которой содержится информация об обработанных данных) и будет использоваться. В противном случае, поиск ведется простым перебором каждого существующего документа, что занимает огромное количество времени. Принципы индексирования документов и хранения проиндексированных данных в разных системах, разумеется, отличаются. Например, Следопыт (www.sledopyt.ru) использует в качестве хранилища индексной базы SQL Server (что отнюдь нецелесообразно и громоздко), а SearchInform (www.searchinform.com) или dtSearch (www.dtsearch.com) хранят структурированные данные по своей, самостоятельно разработанной системе. Конечно, в зависимости от применяемых технологий и способов оптимизации работы той или иной программы, скорости и размеры создаваемого индекса могут отличаться кардинально.
Что касается корпоративной программной этики: думаю, что уж коли речь у нас идет о корпоративных системах, то искать документы в локальной сети они непременно могут. Было бы странно, если например, Ищейка Сервер (www.isleuthhound.com) ограничивалась лишь индексацией файлов на компьютере пользователя и не могла ничего найти в сети. Так что в этом плане поверим разработчикам на слово (разумеется, рекламное) и будем считать, что любая программа справляется с задачей поиска в локальной сети предприятия «на ура». Хотя, если быть честным, то я должен вам сообщить, что все же заставил каждую программу из данного обзора проиндексировать пару папок на присоединенных сетевых дисках. На всякий случай. Проблем, к счастью для рассматриваемых систем, не было.
Опять же должен оговориться, что способы «извлечения» данных и последующего их вывода в результирующем списке в данном обзоре мы тоже рассматривать не будем – это тема для отдельной статьи. Как и изучение технологических особенностей организации данных в индексе, способов поиска документов и метрик, по которым этот поиск ведется и особенности наличия или отсутствия морфологии, словарей синонимов или возможностей нечеткого поиска. Ведь как уже отмечалось, самое важное в любой системе поиска – это скорость. И еще - адекватность. То есть практические показатели. Об этом подробнее…
Участники и диспозиция
Выяснить, какая же корпоративная система поиска информации на данный момент самая быстрая и толковая и призван данный обзор. Выбрав несколько популярных программ от российских и западных разработчиков (DtSearch Network, Google Desktop Search Enterprise, Следопыт Корпоративный, Ищейка Сервер и SearchInform Corporate Edition) мы провели несколько тестов на скорость индексации документов, быстроту и качество поиска. Еще раз отмечу, что в тестах участвовали корпоративные версии этих программ. Конечно, технологии как в сетевой версии, так и в «домашнем» варианте данных систем ничем не отличаются, но для чистоты эксперимента следует придерживаться установленных правил.
Для теста была собрана обширная библиотека художественной литературы (11 гигабайт текстов в форматах .txt, .html и .doc), а вдобавок к ней приплюсована подборка новостей на различную тематику в тех же форматах. Первым заданием для тестируемых программ была индексация всего этого многообразия документов. Далее мы провели тесты на скорость поиска и на релевантность результатов, путем сравнения полученных списков по одинаковому запросу. В качестве запроса использовались фразы и отрывки (!) из новостей, содержащихся в подборке документов. Тестовой площадкой был выбран компьютер с процессором Athlon 2,2 MHz, объемом оперативной памяти 1 Гб, 160 гигабайтным IDE жестким диском Seagate на 7200 оборотов в минуту и системой Windows XP.
dtSearch
www.dtsearch.com
Разработка компании dtSearch Corp. dtSearch Desktop со встроенным dtSearch Spider умеет индексировать и находить не только файлы на компьютере пользователя, но и веб узлы (на заданную глубину), ресурсы локальной сети, а также использовать внешние индексы, созданные на других компьютерах. Как и следовало ожидать, dtSearch распознает различные кодировки, в том числе и кириллические, а также множество форматов файлов, такие как .doc, .xls, .rtf, .pdf, .html и так далее. Нужно отметить также возможность поиска в базах данных в общем и по содержимому конкретных полей в них в частности.
Кроме традиционного поиска на «естественном языке» или с помощью формальных запросов, в dtSearch есть еще несколько видов поиска: с учетом морфологии, нечеткий (подразумевающий возможные ошибки и опечатки), фонетический (с учетом сходных по звучанию слов) и синонимический. Но это все заявленные возможности. Хотя должен сказать, что особых расхождений с продекларированными функциями я не обнаружил.
dtSearch справилась с тестовым заданием по индексации 11 гигабайт текстов время 2 часа 57 минут, использовав на диске 4.15 Гб под создание индекса.

Что касается непосредственно поиска документов, то накладок с русским текстом у программы не было. Как не было их ни с заявленной морфологией, ни с нечетким поиском. Система вполне адекватно находила нужные документы (хоть и с небольшой паузой – 11 гигабайт все-таки)…

…и по простому запросу в одно слово и по использовании в качестве ключевой фразы пары абзацев какого либо документа. Хотя должен заметить, что при поиске по приличному фрагменту текста (в несколько десятков слов) система «подвисала» на некоторое время, прежде чем выдать результат.
Что лично мне не понравилось, так это интерфейс dtSearch. Создается впечатление, что за столь длительный период своего развития (версия 7.0, однако), внешний вид данной программы практически не изменился. Каюсь, версии 1.0 и даже 4.0 в глаза не видел. Но то, что предлагают разработчики на данный момент не слишком уж презентабельно. Хотя, будучи совсем объективным, должен отметить, что все программы в обзоре не могут похвастаться красотой своей «обложки».
Google Desktop Search Enterprise
desktop.google.com/enterprise
Бесплатная разработка компании Google предназначена для поиска информации на персональном компьютере пользователя, в сети Интернет и корпоративной сети предприятия.
Google Desktop Search Enterprise может похвастаться возможность индексации и поиска документов пары десятков самых распространенных текстовых форматов, а также электронной почты, тэгов аудио и видео файлов и изображений. Есть один немаловажный момент: для того, чтобы указать программе, какие файлы и папки индексировать, нужно установить дополнительный компонент gdetweak. Без данной надстройки Google Desktop Search Enterprise индексирует всю информацию на компьютере пользователя и в сети предприятия, к которой может получить доступ. Google Desktop Search Enterprise справилась с тестовым заданием за 3 часа 41 минуту, создав индекс размером 1,9 мегабайта. Скорость поиска - удовлетворительна и находится на одном уровне с уже признанными игроками рынка.

В отличие от, например, ISYS и dtSearch (системы документооборота типа Hummingbird или Documentum не в счет – они слишком громоздкие), Google Desktop Search Enterprise может похвастаться, наверное, самым дружественным пользователю интерфейсом. Но, по части администрирования и настройки работы в локальной сети она уступает конкурентам, причем, весьма ощутимо. Дело в том, что настроить сетевую работу так, как нужно в определенной ситуации, довольно непросто – система пытается все сделать самостоятельно. Тонкая настройка достигается только при установке дополнительных компонентов. Это колоссальный минус. Можно сказать, что как настольная система Google Desktop Search с компонентом gdetweak не имеет себе равных (даже с русским языком у нее нет проблем, разве что скорости индексирования маловаты).

Но вот о корпоративном применении можно пока забыть. Заявленный поиск документов, похожих по содержанию (в Интернет-оригинале similar pages), работает из рук вон плохо, судя по всему, именно поэтому и не включен в «не глобальный» как настольный, так и сетевой вариант.
Ищейка Сервер
www.iSleuthHound.com/ru
Ищейка Сервер – программа поиска документов в корпоративной сети предприятия. В общем-то, этот продукт является ничем иным, как Ищейкой Проф Deluxe, но с встроенной возможностью поиска в локальной сети. Программа поддерживает поиск документов следующих форматов: .txt, .doc, .rtf, .htm, .html и любые расширения, если формат файла совместим с ASCII, ANSI, Unicode. Например .с, .cpp, .bas, .pas и т.п. Правда, некоторые типы документов, такие как MS PowerPoint презентации .ppt, .pps, документы MS Excel.xls, ASP документы .asp и некоторые другие поддерживаются лишь при наличии дополнительных модулей. Которые нужно приобрести дополнительно.
Детище iSleuthHound Technologies справилось с «перевариванием» 11 Гб текстов ни много ни мало за 21 час 12 минут.

Размер индекса при этом составил те же самые 11 гигабайт, полученные на «входе». Должен заметить, что у «Ищейки» оказались самые незавидные показатели по сравнению с остальными программами, включенными в тестовую группу. Это касается также и скорости поиска. При использовании в качестве запроса фразы из нескольких десятков слов программа безнадежно зависала. Да и с адекватностью у «Ищейки» не все в порядке. На первом месте, как вы можете заметить...

...по запросу «папа» располагается документ, в котором фигурирует слово «папок». Что-то мне подсказывает, что разработчики явно перемудрили с использованием морфологии.
Следопыт Корпоративный
www.sledopyt.ru
Еще одна разработка российских программистов Следопыт 3.0 вполне заслуживает внимания набором своих функций и скоростью работы. Как и остальные «конкурсанты», эта система вполне справляется с поиском информации на персональном компьютере, в локальной сети и электронной почте. В дополнение к этому Следопыт может похвастаться поиском на компакт-дисках и других съемных устройствах и атрибутивным поиском.
Главным минусом Следопыта является то, что для своей работы он требует установки сервера MS SQL. Это добавляет громоздкости (дистрибутив занимает 40 мегабайт, что в десятки раз больше самого «легкого» GDE Enterprise). Не знаю, какую цель преследовали разработчики, решив создавать индекс на базе MS SQL, но особой радости пользователь от этого явно не испытает. А заявления о том, что данный подход придает системе «вес» как корпоративной просто нелогичен. Это нужно доказывать другими способами. Например, высокими показателями характеристик скорости.
А тут как раз Следопыту похвастаться особо нечем. Скорости поиска документов по созданному индексу (не слишком большому – 3 гигабайта) были вполне приличными, но раза в два медленной, чем у, например dtSearch. И релевантность не хромала.

Зато 11 гигабайт система от МедиаЛингва индексировала 6 с половиной часов. Это самый худший результат за исключением почти 22 часов Ищейки, результаты которой вообще не лезут ни в какие ворота.

Ищет к тому же Следопыт документы только на русском и английском языках (можно сделать вывод, что технология языкозависимая). Но зато прекрасно умеет обрабатывать запросы на естественном и формальном языках, ранжировать документов по степени соответствия запросу, и проводить нечеткий, строгий и формальный виды поиска. Среди поддерживаемых типов документов есть .DOC, .RTF, .TXT, .HTML, .XLS, PPT, .PDF, архивы .ZIP, и почтовые сообщения и архивы MS OUTLOOK. В принципе, если бы не низкая скорость работы и несколько аскетический интерфейс, то он бы мог вполне подойти на роль поискового сервера на предприятии. Мог бы.
SearchInform Corporate
Последней в списке, но отнюдь не последней по производительности, значится система SearchInform Corporate от компании СофтИнформ. Лидер сегодняшнего обзора обработал тестовые документы за 1 час 31 минуту, ограничившись всего лишь 2 гигабайтами при создании индекса.
Поисковик компании СофтИнформ разработан на основе запатентованной технологии «поиска документов, похожих по содержанию» - SoftInform Search Technology. Он включает в себя все инструменты, необходимые для структуризации разрозненной информации в рамках предприятия и предоставляет собой эффективное решение любых проблем поиска и консолидации информации.
Высокая скорость индексирования (до 6 Гб/час), малый размер индекса (15-20% от реального объема текстовой информации), поддержка практически всех распространенных форматов текстовых файлов (включая .pdf и .html) и корректная работа с архивами – все это в одной упаковке.
Если учесть небольшую, но очень полезную функцию SearchInform – Smart Indexing, которая позволяет в режиме реального времени отслеживать нагрузку на процессор компьютера и регулировать уровень потребления программой системных ресурсов при индексации, то пальма первенства разработке СофтИнформ досталась более чем по праву.

К тому же, процесс индексирования (в отличие от других программ в обзоре) весьма нагляден, и демонстрирует не только скорость, но и количество обработанных документов, а также число уникальных слов, по которым будет осуществляться поиск.
Лидером SearchInform Corporate оказался и по скоростям поиска. 11 гигабайт программа щелкала как семечки, делая небольшую паузу только после первого запроса (в дальнейшем поиск проходил мгновенно). Притом адекватность поиска оказалась безупречной:

Плюс ко всему, в программе SearchInform Corporate, разработанной на основе уникальной технологии SoftInform Search Technology, присутствует очень интересная функция: поиск документов похожих по своему содержанию на текст запроса. Это позволяет в процессе поиска избежать предварительного подбора ключевых слов – поиск осуществляется по всему документу в целом.

Результатом поиска является вывод максимально похожих на заданный фрагмент текста документов с указанием процента релевантности.
Резюме
На основе функционально-скоростных характеристик рассмотренных систем поиска однозначный вывод сделать непросто. Как оказалось, новая разработка Российской компании СофтИнформ быстрее и функциональнее даже западных «проверенных временем» аналогов. Но…
Что касается российских разработок Следопыт и Ищейка, то их работа на самом деле не впечатлила. Незавидное время индексации, недостаток важнейших функций (например, поддержки различных источников данных и рубрикации документов), поддержка только архивов формата ZIP. Но самый большой минус - в слишком медленном извлечении документов из небольшой по меркам предприятия текстовой базы в 11 гигабайт. Сектор корпоративного поиска для этих программ явно не по зубам. Хотя для домашнего использования они вполне подойдут. Но и тут дорогу им уже перешел поисковой гигант Google.
Раскрученный и совершенно бесплатный GDS Enterprise поддается четкой настройке и обрастает дополнительными возможностями только при условии установки плагинов. Даже поддержка архивов реализована именно так. Плюс ко всему, для того чтобы ан полную катушку раскрыть возможности данной системы, разработчики предлагают предприятию подключиться к Premium Support. Который стоит «всего ничего», $10000 в год для каждой 1000 пользователей. Как мне показалось, без неплохо оплачиваемых экспертов Google развернуть полноценно работающую систему на предприятии будет невозможно. Поэтому, глядя на вполне неплохие скоростные показатели этой программы и ее дружественный IEшный интерфейс будет лучшее ее отнести к прекрасному «настольному» варианту поисковиков и сделать глубокий реверанс в сторону компании Google, которая таким образом сможет осуществить мечту Билла Гейтса – проникнуть в каждый дом. А что, хороший брэндинг?
Основное соперничество, если можно так назвать проведенные тесты, развернулось между уже известным программным продуктом dtSearch и новой разработкой российской компании СофтИнформ - SearchInform Corporate. Эти программы безупречно работают с русским языком, могут сравняться (за небольшим превосходством SearchInform) в скорости поиска – хотя неизвестно как все будет при работе с в десятки раз большими по размеру данными. Также обе системы могут похвастаться подключением сторонних источников знаний, таких как базы данных. Правда, остается еще вопрос цены. И тут разница в 2200 долларов может быть более чем критична (dtSearch $800, SearchInform $3000) . Но в этом разница между системами и кроется. Да, dtSearch может вполне претендовать на роль ведущей поисковой системы для предприятий. Списки клиентов компании на ее сайте только подтверждают это.
Но SearchInform Corporate, вдобавок к своей самой высокой скорости индексирования и поиска документов и уникальной функции поиска документов похожих по содержанию может выступать как еще и как система, консолидирующая информацию на предприятии. Все дело в том, что данная система может обрабатывать не только документы на диске компьютера или в сети предприятия, но и использовать иные источники данных, такие как CRM или DMS, СУБД на базе MS SQL и так далее. Можно сказать, что SearchInform Corporate – это единственная программа из обзора, которая может решить обе важнейшие проблемы «информационного обеспечения» предприятия - как проблему поиска документов, так и консолидации знаний в единую удобную систему.
Макс Магляс
Все статьи о поисковых системах и технологиях | »Следующая»
|