|
Информация на предприятии содержится как на дисках компьютеров, подключенных к локальной сети, так и в базах данных и различных информационных системах. Это создает определенную проблему их поиска – в различных источниках и различными программными средствами. Одним из важнейших преимуществ современных корпоративных систем на базе технологий поиска похожих документов является возможность консолидации информации из различных источников. Это позволяет структурировать информационные составляющие любого крупного предприятия под управлением одной программы. Притом, без нужды переводить документы и данные в какой-либо единый формат. Вся информация, доступная для индексирования и дальнейшего поиска может быть распределена, структурирована и отображена в удобном виде.
» SoftInform Search Technology
» Поиск в корпоративной сети
» SearchInform Конкуренты
» Сегментация и анализ рынка
» SearchInform в Интернет
SearchInform в Интернет
1. Введение
2. Ограничения тестовой версии
3. Применение мини-поисковика SearchInform
3.1. Создание Интернет-поисковика
3.2. Тематический поиск
3.3. Пользовательский архив
3.4. RSS-агрегатор
3.5. Обработка новостей
3.6. Индексация блогов и форумов
1. Введение
Спектр применения SoftInform Search Technology довольно обширен. Это и настольные поисковые программы, и корпоративные системы поиска информации и возможность встраивания в системы документооборота. Еще одним из перспективных путей развития является использование данной технологии в разработке интернет-решений, в частности поисковой системы для Интернета, системы тематического поиска, RRS-агрегатора и так далее.
2. Ограничения тестовой версии
Создание поисковой системы SearchInform в том виде, в котором вы можете его видеть сейчас, заняло немногом более двух дней. Основная задача данной разработки – это только примерный тестовый показ возможностей технологии поиска СофтИнформ.
Как реально работающий ресурс эту поисковую Интернет-оболочку рассматривать нельзя, так как ряд присущих поисковикам функций работают далеко не оптимально, а ряд отсутствует вообще:
- результаты поиска не содержатся в кэше, каждый раз при переходе по страницам поиск проводится заново (что, несомненно, замедляет работу)
- спайдер для поиска и индексации новых ресурсов как таковой не писался. Информация, проиндексированная данным поисковиком статична
- при обработке запросов не используется многопроцессорность сервера (загружен только один процессор)
- при поиске похожих документов анализируется не отдельный фрагмент на странице, а вся страница, что несколько сглаживает положительный эффект при использовании данной функции
- не поддерживается авторубрикация (проблема с IE)
Все перечисленные (и множество не перечисленных) недоработок обуславливается постановкой задачи при создании альфа-версии поисковой системы. Показ возможностей технологии и создание конкурентоспособного проекта в Интернет – разные вещи. На данный момент поисковая система – тест технологии. Но не исключено, что при наличии достаточного количества инвестиций мы сможем создать версию поисковика, отвечающего всем требованиям и готового к широкому использованию.
3. Применение мини-поисковика SearchInform
3.1. Создание Интернет-поисковика
При наличии определенных инвестиций доработка (или разработка с нуля) готового проекта информационно-поисковой системы для Интернета вполне реальна. Чтобы проиндексировать достаточное количество информации (html без картинок) нам хватит 10 компьютеров и несколько суток реального времени (реальная скорость индексации при канале 100 гигабайт в час составит около 60-80 гигабайт). Дальнейшая оптимизация включает в себя разработку «спайдера» для индексации и доработка алгоритма запросов для использования всех процессоров сервера. Таким образом, за довольно короткий срок можно организовать уже beta-версию поисковой системы и разрешить доступ к нему пользователям. При дальнейшем функционировании проиндексированная информационная база будет пополняться изо дня в день. Повод «яндексовцам» задуматься.
3.2. Тематический поиск
На данный момент компанией СофтИнформ уже ведутся разработки системы тематического поиска информации для нескольких авторитетных онлайн СМИ. Она включает в себя инструменты индексации, поиска и классификации как уже размещенной на ресурсах определенной тематики (например, компьютерные игры) информации, так и незамедлительной обработки новых данных. Удобство данного метода состоит в использовании функции поиска документов похожих на текст запроса. Первоначально в поисковую систему вносится определенный (известный пользователю) набор ресурсов для индексирования. В дальнейшем, система тематического поиска работает с поисковой машиной Google, индексируя страницы из результатов поиска, соответствующие набору ключевых слов по заданной тематике. По все возрастающему списку индексируемых ресурсов в определенный интервал проводится переиндексация. Это позволяет нашей поисковой системе реагировать на изменения контента ресурсов намного быстрее, чем тому же Google, индексная база которого не узко специализирована и индексирует новые ресурсы медленно. В результате, пользователь тематической системы поиска всегда будет в курсе самых свежих изменений на сайтах, включенных в его индексную базу.
Поиск по определенной тематике позволит выводить в результирующем списке только информацию по заданной тематике, с автоматической разбивкой ее на подрубрики. Индексация для конкретной задачи только ресурсов со схожей тематикой, мониторинг их в реальном времени специально разработанным «спайдером» и уникальный поиск похожих позволят пользователям получать свежую отрубрицированную информацию по той тематике, которая их интересует.
3.3. Пользовательский архив
Это возможность для каждого пользователя создать свой индекс информации на сервере для последующего поиска. Предполагает сохранение на нашем сервере веб-страниц с последующим доступом к ним по уникальному логину и паролю. Закачка собственных файлов со своего компьютера или из Интернет также поддерживается. При входе в поисковую систему пользователь получит доступ к своему личному индексу.
Дополнить данную функцию можно, во-первых, работой с подборками и списками веб-страниц, добавлением и удалением каких-либо элементов в списке. Во-вторых, добавлением функции авторубрикации документов, поступающих в архив. В-третьих, рядом дополнительных удобств: определение статуса веб-страниц (просмотрено - не просмотрено), возможность отсылки информации друзьям и так далее.
3.4. RSS-агрегатор
Сервис скачивания с различных ресурсов RSS-новостей, их индексация и предоставление пользователям удобного движка глобального RSS-ресурса. Плюс данной перспективной разработки заключается опять же в использовании функциях поиска похожих по содержанию документов и авторубрикации, которые позволят создавать различные подборки RSS-новостей в общем по тематикам и в частности для каждого отдельного пользователя.
3.5. Обработка новостей
На сегодняшний день люди все больше и больше внимания уделяют обработке информации и в том числе новостей. Но среди огромного потока новостей далеко не все являются интересными. Просмотр же к примеру 500 новостей в день вместо 5-10 интересных это слишком расточительно. И как следствие этого человек видя много новостей просто их игнорирует.
На базе технологии поиска похожих построена технология авторубрикации документов. Пользователь привязывает например первую тысячу документов вручную, помечая какие документы ему интересны. Далее при попадании в поисковую систему новой информации система будет сама определять к какой рубрике привязать новые документы и какие из них человеку интересны и показывать прежде всего интересные для пользователя новости. Те документы которые привязаны системой помечаются специальным образом и далее при просмотре пользователь если согласен с тем что сделал система, то жмет кнопочку “одобрить” Таким образом данная система самообучаемая и позволит пользователю сэкономить много времени.
3.6. Индексация блогов и форумов
Ряд крупных фирм все больше и больше уделяет внимания отслеживанию мнения потенциальных клиентов. На сегодняшний день очень популярны блоги и форумы, но отследить всю информацию которая на них появляется с помощью того же google не всегда возможно хотя бы из-за того что google выдает только первую 1000 результатов по ключевому слову и вполне возможно что форум или блог туда и не попадет.
|