Корректная работа с локальной сетью Информационная безопасность Поиск похожих документов Скорость индексации Разграничение прав доступа
 
 Домой   Заказать/Скачать   Продукты   Проекты   Наши Технологии   Сотрудничество   Пресса   О Компании   English 
SoftInform Search Technology - это Ваша власть над информацией.

Публикация в журнале Домашний компьютер

Автор: Евгений Яворских
Опубликовано в журнале "Домашний компьютер" №8 от 21 июля 2005 года.

Настольный поиск

Вроде бы и немного по нынешним временам — «каких-то» 160 гигабайт дискового пространства. Да вот незадача — «лишняя» сотня этих самых «гектаров» нередко вынуждает тратить массу времени на поиск нужного документа: поди, запомни, куда ты сохранил очередной программный мануал в PDF-формате или несколько веб-страниц с интересной информацией. Хорошо хоть исходные тексты статей всегда хранятся в надежном месте…

Действительно, за пару-тройку лет в дисковых разделах скапливаются, помимо всевозможного хлама, тысячи файлов, весьма востребованных в самый неподходящий момент времени. Для начала потребуется вспомнить, в каком файловом формате содержался текст, что вы немедленно захотели получить: возможно, это HTML-страница, заботливо сохраненная несколько месяцев назад, или «кладезь человеческой мудрости» расположен в DOC- или RTF-файле. Все было бы просто замечательно, если бы искомый файл носил русскоязычное имя, соответствующее нашему запросу. Но, как известно, жизнь редко балует счастливыми совпадениями. В особенности, если запрашиваемая информация не имеет ничего общего с названием документа, а «прописана» где-то в текстовых дебрях неизвестного файла. Разумеется, можно заняться созданием некой картотеки, где с бюрократической скрупулезностью отмечать все файлы и документы с текстовой информацией, но… впрочем, и я не готов к такому подвигу.

О системном поисковом инструменте (Пуск > Поиск) можно говорить лишь в контексте традиционной «функциональности», присущей большинству инструментов от Microsoft. Никто не спорит — можно отыскать файл по имени и расширению или группу файлов по маске, но, увы, не всегда. Типичный случай: для увеличения производительности Windows мы отключаем индексацию диска и ждем до второго пришествия, пока система будет тупо перебирать все файловое добро. К слову сказать, в «умолчальном» варианте системного поисковика нас будет сопровождать этакий веселый щенок. По-моему, очень символичный персонаж — какова «ищейка», таковы и возможности поиска…

Поиск информации по ключевому слову в Windows тоже не блещет эффективностью: попробуйте ввести в крохотное поле поиска запрос из двух-трех предложений — дело даже не во времени, затраченном на поиск, а в том, что решительно невозможно задать определенный каталог, где обретается искомое. Ко всему прочему, моя англоязычная Windows XP напрочь игнорирует мало-мальски сложные русскоязычные словосочетания1. Выход есть: использование программных решений на базе поисковых технологий. Схема работы таких поисковых систем, в первом приближении, довольно проста: поиск по фразе с учетом всех синонимов и словоформ.

Однако есть одно «но»: поиск по нескольким словам или крохотной фразе никогда не даст точного результата среди найденных документов. А поиск по длиннющей фразе (например, в половину документа) в существующих приложениях займет слишком много времени и весьма привередлив к ресурсам компьютера. Например, при вводе запроса в виде обычного документа, содержащего около 2000 уникальных слов, поиск с учетом морфологии (всех словоформ) и тезаурусов (синонимов), а также вывод списка найденных документов займет несколько десятков минут. Вы согласитесь столько ждать? В итоге получается своеобразная дилемма: при хорошей скорости «хромает» качество поиска; при точных и адекватных результатах понадобится уйма времени и системно-аппаратных ресурсов.

Сегодняшний «чемпионат по настольному поиску» позволит выбрать оптимальный продукт в соответствии с личными предпочтениями и нуждами. Исходные условия: индексация и последующий поиск в логическом разделе, содержащем каталоги с текстами статей, всевозможных «Руководств пользователя» в PDF-формате и массой HTML-страниц. Там же разместились папки с архивами сообщений почтовых клиентов Outlook Express и The Bat2. Попутно программам будут предложены архивы с офисными документами и — не удивляйтесь! — звуковые файлы формата MP3 с ID3-тегами3.

Собачья радость

Мне до сих пор неловко за тот щенячий восторг, с каким я загружал бесплатную версию знаменитой «Ищейки 4.5». Позарившись на дармовую «косточку», я получил крайне ограниченную версию программы: мне предложили индексацию и поиск лишь в трех файловых форматах: TXT, DOC и HTM/HTML, и создание единственной базы данных. Сам виноват — нужно было заранее взглянуть на программные возможности. Пришлось вызвать «пса» по кличке «Ищейка Проф» ($15). Четыре сотни рублей по нашим временам — не столь большие деньги. «Ищейка Проф» умеет «вынюхивать», помимо упомянутых, расширения DOT (шаблоны MS Word) вкупе со старым добрым RTF.

На этом выучка «Ищейки Проф» заканчивается. Однако, радостно тявкнув, «собачка» поведала о своих дополнительных талантах, если «скормить» животине дополнительные модули. Тогда все станет действительно по-взрослому — это вам не глупый щенок из системного поисковика: без проблем станет индексироваться и обнаруживаться текстовая информация в файлах ASP и Adobe Acrobat (PDF), в презентациях MS PowerPoint и скучнейших документах MS Excel4. Ко всему прочему, «Ищейка» расправится с архивным расширением ZIP, справочным форматом CHM, ID3-тэгами MP3-файлов и PHP-документами. Правда, за модуль с поддержкой одного формата придется отдать еще 6 долларов (20 баксов чохом за весь комплект плагинов) или заказать «Ищейку Проф Deluxe» за $29. Что же, придется пожертвовать ради объективного теста. Правда, вызывает недоумение дата выпуска этих модулей — 2002 год…

Первое, что я бы посоветовал сделать по окончании установки, это отказаться от предложения создать новую зону поиска и выбрать заранее созданную папку для хранения базы проиндексированных документов (Опции > Индекс > Папка индексных файлов) — рис. 1. Дело в том, что по умолчанию «Ищейка» горит желанием немедленно проиндексировать указанные разделы, создав индексную базу в программном каталоге. При переустановке системы гораздо проще подсунуть «Ищейке» готовую базу индексации. В моем случае использовался логический диск F:, где я отключил поиск в каталогах с рисунками и файлами, поиск в которых не имеет смысла (рис. 2): время индексации в этом случае уменьшится. Затем «Ищейке» следует дать команду относительно файловых расширений для индексации. Помните, изначально отключена индексация почтовых форматов EML и MSG, ZIP-архивов и некоторых других (рис. 3). В этом случае выбор форматов остается за «хозяином».

«Ищейка» шустро просчитала индексируемые документы (15968 штук суммарным объемом 1,75 Гбайта), после чего немедля приступила к индексации (рис. 4), которая продолжалась 24 минуты. Размер индексной базы составил 144 Мбайта. Обратите внимание на эти цифры: эти данные будут, в числе прочих параметров, определять нашего поискового лидера.

Что же, проверим хваленый «нюх»: в качестве жертвы выберем название цикла статей вашего покорного слуги — «Антивирусные записки». Вводим в поле запроса, командуем программе «Ищи!» и почти мгновенно получаем результаты поиска: название и расположение документов с этим словосочетанием, дату и время создания опусов, а также исходный текст (рис. 5).

Усложним задачу, и «натравим» программу на поиск ID3-тэгов в MP3-файлах. В одном из каталогов хранился альбом «Аквариума» с русскими тэгами. Поиск по русским названиям композиций, равно как по имени «Борис Гребенщиков» не дал результата. В чем дело? Пробую ввести знакомые всем буквы BG, после чего получаю массу ссылок на документы с чужой критикой в адрес Билла Гейтса и… единственной MP3-шкой, в тэге которой содержались искомые буквы. Действительно, Гребенщиков там и вправду повествовал об экзистенции, но тэги были выполнены латиницей! Стало быть, о поиске в русских тэгах можно забыть.

Еще один «садистский» метод удался на славу: решаю запросить поиск по вступлению к своей статье «Второе пришествие SPасителя» (см. ДК, #10, 2004 г.): три сотни печатных знаков. Увы, «Ищейка», поджав хвост, скорбно заскулила, рапортуя о нулевом результате. Расширенный поиск также не привел к успеху (рис. 6). Вот вам и хваленое собачье чутье. Безусловно, «Ищейка Проф Deluxe» обладает и положительными качествами: создание неограниченного количества зон поиска («Менеджер зон поиска») и отсутствие лимита на число документов в одной зоне поиска; возможность обновления поисковых баз по расписанию и вручную, а также создания «Избранных запросов» и «Популярных запросов», что обеспечивает высокую эффективность при работе с офисными документами. Но главный плюс, на мой взгляд, — крайний аскетизм в отношении системных ресурсов: «Ищейка» поедает всего-навсего 3 мегабайта оперативной памяти. Однако на сайте разработчиков вы не найдете демо-версии «Ищейки Проф», не говоря уже о «Deluxe»-модификации. Может быть, способности человека лучше собачьего нюха? Посмотрим, что скажет бывалый искатель.


1 А что прикажете делать корпоративному сектору, работающему с гигантскими базами данных и впадающему в ступор при попытке найти очередной «шедевр» бухгалтерской мысли?

2 Есть у меня такая «странность»: хранить архивы электронных писем в другом дисковом разделе.

3 Специальная информация о музыкальном произведении, авторе, названии альбома, дате выпуска, жанре и т. п., «зашитая» в MP3-файл.

4 Модуль для документов Microsoft Excel не работает с документами, защищенными паролем и содержащими связанные таблицы.


стр.1 | стр.2 | стр.3


Назад

  
   Пресс-центр
Компания Лоция Софт и СофтИнформ объявляют о начале специальной акции – «Снижение на 20% цен на ПО SearchInform Lotsia Edition». Акция продлится до 15 мая 2006 года. Подробнее...
» Все новости


Большой рыночный потенциал заложен в технологии поиска, которая не зависит от языка. По словам Льва Матвеева, генерального директора "СофтИнформ" – «технология абсолютно независима от морфологии и в течение максимум двух недель настраивается на любой язык поиска». iOne.ru   Подробнее...
» Вся пресса
   Информационные материалы
Пример работы с программой SearchInform и демонстрация возможностей технологии SoftInform Search Technology.
» Скачать демо-ролик...(3,2 Мб)

Проблемы поиска информации в крупных информационных системах и решение этих проблем при помощи технологии полнотекстового поиска компании СофтИнформ.
» Скачать презентацию...(1,1 Мб)
   Награды
Награда Best Soft 2005 от PCMagazine
Top rated at BrotherSoft.com
Высшая награда от BrotherSoft.com
Top rated at BrotherSoft.com

Смотреть все награды...
   Партнерская программа
Мы приглашаем Вас присоединиться к нашей партнерской программе. Начните сотрудничать с нами и вы будете получать вознаграждение от каждой проданной с вашей помощью копии SearchInform. Для присоединения к нашей партнерской программе заполните форму.
stretcher