« предыдущая статья | Все статьи | следующая »
Чемпионат по настольному поиску (программы для локального поиска)
Введение
Вроде бы и не много по нынешним временам – всего «каких-то» 160 гигабайт дискового пространства. Да вот незадача – «лишняя» сотня этих самых «гектаров» нередко вынуждает тратить массу времени на поиск нужного документа: поди, запомни, куда ты сохранил очередной программный мануал в PDF-формате или несколько веб-страниц с интересной информацией. Слава Всевышнему, что исходные тексты статей всегда хранятся в надежном месте...
Действительно, за пару-тройку лет в дисковых разделах скапливаются, помимо всевозможного хлама, тысячи файлов, каковые оказываются востребованными в самый неподходящий момент времен. Для начала потребуется вспомнить, в каком файловом формате содержался текст, каковой вы немедленно захотели получить: возможно, это HTML-страница, заботливо сохраненная несколько месяцев назад, а, может статься, что кладезь человеческой мудрости (в нашем случае) расположен в DOC- или RTF-файле. Все было бы просто замечательно, если искомый файл носил русскоязычное имя, соответствующее нашему запросу. Но, как известно, жизнь крайне редко балует счастливыми совпадениями. В особенности, если запрашиваемая информация не имеет ничего общего с названием документа, а «прописана» где-то в текстовых дебрях неизвестного файла. Разумеется, можно заняться созданием некой картотеки, где с бюрократической скрупулезностью будут отмечены все файлы и документы с текстовой информацией, но… впрочем, и я не готов к такому подвигу.
О системном поисковом инструменте (Пуск > Поиск) можно говорить лишь в контексте традиционной «функциональности», присущей большинству инструментов от Microsoft. Никто не спорит - можно отыскать файл по имени и расширению, или группу файлов по маске, но, увы, не всегда. Типичный случай: для увеличения производительности Windows мы отключаем индексацию диска и ждем до второго пришествия, пока система будет тупо перебирать все файловое добро. К слову сказать, в «умолчальном» варианте системного поисковика нас будет сопровождать этакий веселый щено. По-моему, очень символичный персонаж – какова «ищейка», таковы и возможности поиска...
Поиск информации по ключевому слову в Windows тоже не блещет эффективностью: попробуйте ввести в крохотное поле поискового запроса фразу из двух-трех предложений - дело даже не во времени, затраченном на поиск, а в том, что решительно невозможно задать определенный каталог, где обретается искомое. Ко всему прочему, моя англоязычная Windows XP напрочь игнорирует мало-мальски сложные русскоязычные словосочетани. Выход есть: использование программных решений на базе поисковых технологий. Схема работы таких поисковых систем, в первом приближении, довольно проста: поиск по фразе с учетом всех синонимов и словоформ.
Однако, есть одно «но». Дело в том, что поиск по нескольким словам или крохотной фразе никогда не даст точного результата среди найденных документов. А поиск по длиннющей фразе (например, в половину документа) в существующих приложениях занимает слишком много времени и весьма привередлив к ресурсам компьютера. Например, при вводе запроса в виде обычного документа, содержащего около 2000 уникальных слов, поиск с учетом морфологии (всех словоформ) и тезаурусов (синонимов), а также вывод списка найденных документов займет несколько десятков минут. Вы согласитесь столько ждать? В итоге получается своеобразная дилемма: при хорошей скорости «хромает» качество поиска; при точных и адекватных результатах понадобится уйма времени и системно-аппаратных ресурсов.
Сегодняшний «чемпионат по настольному поиску» позволит выбрать оптимальный продукт в соответствии с личными предпочтениями и нуждами. Сразу скажу, что среди участников не будет одной известной программы: российский «Архивариус» снят с продажи без объяснения причин (www.wizetech.com/ru/document-search/index.shtml). Исходные условия «ринга»: индексация и последующий поиск в логическом разделе, содержащим каталоги с текстами статей, всевозможных «Руководств пользователя» в PDF-формате и массой HTML-страниц. Там же разместились папки с архивами сообщений почтовых клиентов Outlook Express и The Bat. Попутно программам будут предложены архивы с офисными документами и – не удивляйтесь! – звуковые файлы формата MP3 с ID3-тегами.
Система SearchInform легко интегрируется в информационную структуру предприятия, подключая различные источники данных, и имеет архитектуру клиент-сервер. Внедрение SearchInform не требует изменения существующих бизнес-процессов и позволяет максимально сохранить инвестиции компании, вложенные в существующую информационную инфраструктуру. В тоже время система позволяет объединить разрозненные корпоративные приложения и данные в единую информационную систему, что приводит к более эффективному решению бизнес-задач.
« предыдущая статья | Все статьи | следующая »
Для того чтобы отобразить все аспекты работы с программой полнотекстового поиска были проведены тесты на различные виды данных и различного объема. Наиболее распространенные форматы данных: TXT, HTML, DOC, RTF, PDF. Причем наиболее корректными с точки зрения работы поисковой технологии являются тесты простых форматов, так как в промышленном применении данные хранятся уже в какой-либо СУБД или хранилище данных и в поисковую систему эти данные уже попадают в виде чистого текста.
Компания Лоция Софт и СофтИнформ объявляют о начале специальной акции – «Снижение на 20% цен на ПО SearchInform Lotsia Edition». Акция продлится до 15 мая 2006 года.
Подробнее...
»
Большой рыночный потенциал заложен в технологии поиска, которая не зависит от языка. По словам Льва Матвеева, генерального директора "СофтИнформ" – «технология абсолютно независима от морфологии и в течение максимум двух недель настраивается на любой язык поиска».
iOne.ru
Подробнее...
» Вся пресса
|