Корректная работа с локальной сетью Информационная безопасность Поиск похожих документов Скорость индексации Разграничение прав доступа
 
 Домой   Заказать/Скачать   Продукты   Проекты   Наши Технологии   Сотрудничество   Пресса   О Компании   English 
SoftInform Search Technology - это Ваша власть над информацией.

Технология поиска документов похожих по содержанию

SearchInform - Программа полнотекстового поиска - Быстрый поиск информации в большом объеме данных

Информация на предприятии содержится как на дисках компьютеров, подключенных к локальной сети, так и в базах данных и различных информационных системах. Это создает определенную проблему их поиска – в различных источниках и различными программными средствами. Одним из важнейших преимуществ современных корпоративных систем на базе технологий поиска похожих документов является возможность консолидации информации из различных источников. Это позволяет структурировать информационные составляющие любого крупного предприятия под управлением одной программы. Притом, без нужды переводить документы и данные в какой-либо единый формат. Вся информация, доступная для индексирования и дальнейшего поиска может быть распределена, структурирована и отображена в удобном виде.

  1. Введение в проблемы поиска
  2. Уникальный поиск похожих
  3. Технологии в деле
  4. Четкие границы поиска
  5. Добавление синонимов
  6. Настраиваемость и источники данных
  7. Основные задачи и проблемы поиска
  8. Перспективные решения для Интернет
  9. Заключение
  10. Приложение

1. Введение в проблемы поиска

Одной из важнейших задач, которую приходится решать компаниям на сегодняшний день, является быстрый поиск документов в больших объемах данных. Архивы, базы данных, тысячи писем входящей корреспонденции – это норма жизни. Можно сказать, что рентабельность и прибыль предприятия напрямую зависит от технологий и программ, обеспечивающих скорость и качество обработки информации. Ведь с каждым днем средств для организации быстрого доступа к данным требуется все больше и больше.

Эту проблему можно решить двумя способами. Во-первых, за счет модернизации вычислительной техники, что влечет за собой большие расходы. И, во-вторых, применением новейших программных решений и технологий поиска информации. И, чем эффективней технология, тем быстрее и качественней выполнение поставленной задачи. Чем больше экономия времени и средств, затраченных на обработку информации, тем больше преимущество над конкурентами.

На данный момент существует довольно много поисковых программ и технологий, осуществляющих фразовый поиск, то есть анализирующих массив данных и ищущих документы, в которых эти фразы содержатся. Это, для примера, разработки компании Google.com; программные решения Hummingbird Ltd, основанные на технологии "Hummingbird Search Server"; или программы компании Documentum с технологией "Verity". Однако, традиционные решения контекстно-фразового поиска далеко не всегда обеспечивают адекватный выбор информации по запросу. Основная проблема заключается том, что перед началом поиска нужно подобрать ориентировочные фразы (ключевые слова), которые будут являться критерием поиска, и будут встречаться в найденых документах. Также следует учесть, что полнотекстовый поиск даже по идеально подобранным ключевым словам не дает точной похожести найденных документов. А поиск по фразе длиной в целый документ в существующих поисковых системах занимает слишком много времени и очень требователен к вычислительным ресурсам. Можно привести условный пример. При отработке поискового запроса по одному ключевому слову большой разницы нет, с какой скоростью будет отработан этот запрос: 0,1 секунды или 0,001 секунды. Если же взять среднего размера текстовый документ, который содержит порядка 2000 уникальных слов, то поиск с учетом морфологии (всех словоформ) и тезаурусов (синонимов), и вывод релевантного списка найденных документов в случае с поиском по ключевым словам и фразам займет несколько десятков минут.

Получается, что фразовый поиск все же не решает главной задачи быстрого нахождения нужных документов среди гигантских объемов данных. Он не дает требуемой точности, занимает много времени и отнимает драгоценные ресурсы, которые можно было бы использовать в иной сфере.

2. Уникальный поиск похожих

Данную проблему решает технология, разработанная компанией "СофтИнформ" – уникальная система поиска документов похожих по своему содержанию на заданный. Она основана на математической модели анализа структуры документа и выбора похожих слов, словосочетаний, предложений и даже массивов текста. Данная технология, плюс ко всему, защищена действующим патентом.

Уникальная технология поиска компании "СофтИнформ" отличается высокой скоростью обработки запросов, и позволяет производить поиск всего за несколько секунд в любых объемах информации.

Данная технология позволяет:
  • Существенно уменьшить потерю времени на поиск и повторный просмотр одних и тех же или очень близких по содержанию документов в базе данных, что может сэкономить компании большие деньги.

  • Cократить время, на обработку дублирующихся данных на стадии занесения информации в архив (повторный ввод или добавление очень близких по содержанию документов).

  • Формировать подборки документов на заданную тематику, что важно при работе с большими архивами неструктурированной (не разбитой по категориям, нерубрицированной) информации. Вдобавок поисковая система может автоматически структурировать информацию и классифицировать документы (соотносит по единожды заданной пользователем схеме новые документы с определенными рубриками), что, конечно, значительно облегчает и упрощает работу.

Новая технология сможет усовершенствовать процесс документооборота, существенно сократить расходы и временные затраты на поиск и обработку больших объемов информации и даст возможность рационально использовать освободившиеся денежные средства и человеческие ресурсы компании.

Сегодня, конечно, уже есть немало технологий и программ поиска информации в больших массивах данных и позиционирующихся как поиск похожих. Но большинство данных решений под поиском похожих подразумевают все тот же фразовый поиск. На основании проведенного исследования существующих технологий поиска можно отметить, что технология «поиска похожих» компании "СофтИнформ" является уникальной. Поиск документов, похожих на заданный осуществляется быстро, адекватно и точно. Рассмотрим, к примеру, технологию поиска "похожих страниц" ("similar pages") поисковой машины Google. Анализ поисковых запросов показал, что содержание найденных страниц довольно сильно отличается и не может обеспечить желаемой похожести найденных документов, а иногда поисковая система и вовсе спотыкается на обычном поиске.

Вот несколько скриншотов для примера – поиск Google не идет дальше ключевых слов.

Запрос по новости:

Один из результатов запроса – сайт CNN.com:

Результат клика на ссылку "Similar pages":

Как видно, при использовании "гугловской" информационно-поисковой системы процент нахождения действительно похожего по содержанию документа (в данном случае, веб страницы) предельно мал.

А за счет интеллектуальности системы анализа и обработки документа от "СофтИнформ" поиск информации в любых объемах данных является намного более эффективным и точным. Плюс ко всему, новая поисковая система «СофтИнформ» далеко не так сильно чувствительна к мощности вычислительной техники, как уже существующие, и позволяет обрабатывать данные с удивительной скоростью даже на обычных офисных компьютерах.

3. Технологии в деле

При поиске похожих по содержанию документов задействовано все множество слов встречающихся в документе (варианты: содержимое всего документа или содержимое отдельного абзаца) и, кроме того, учитываются все словоформы каждого слова (система морфологического анализа) и словарь синонимов.

Причем, не важно, в каком порядке будут стоять строки или фразы (можно менять части текста местами, вырезать и добавлять слова, предложения или абзацы). После обработки запроса в результирующем списке будут представлены документы максимально похожие на заданный фрагмент текста (документ или его абзац). Найденные документы отображаются в виде релевантного списка, с указанием для каждого файла процента его похожести с текущим документом. Рассмотрим все это на примерах.

В проиндексированной нами информационной базе размером около 300Мб находится около 500 книг и 300 новостей. Вы можете самостоятельно проверить все результаты поиска, скачав данные и программу поиска похожих с нашего сайта. Подробней откуда скачать и как установить cм. 10 Приложение.

Для примера мы выбрали один файл (новость о приобретении корпорацией Avaya компании Spectel) и ищем (допустим нас интересуют новости о приобретении компаний и о финансовых сделках) похожие на него документы:

100% совпадения указывает на то, что в базе найден документ – чьё содержание полностью идентично запросу. Документ же имеющий меньший процент совпадения, соответственно, достаточно сильно похож по содержанию на текст запроса, но не является его дублем.

Следует отметить, что технология поиска похожих достаточно интеллектуальна для того, чтобы с высокой степенью точности определять релевантность искомого документа по отношению к запросу. Если, например, в запросе поменять местами абзацы, вырезать часть текста или добавить какие-либо новые фразы, то процент совпадения найденного текстового документа по отношению к запросу уменьшится, что справедливо. Но при этом найденный документ останется наиболее релевантным.

Это можно увидеть на следующем примере:

В данном случае мы поменяли местами два абзаца текста, добавили "лишний" текст (just simple text) и удалили пару строк. Но, как можно заметить, система все равно показала, что наиболее похожий документ – все тот же (company acquisition1.txt). То есть поисковая система всегда работает максимально корректно и надежно.

4. Четкие границы поиска

Иногда при поиске информации в больших объемах документов требуется выделить какую-либо подтему, чтобы получить список документов, наиболее соответствующих не только запросу, но и нашим интересам. Максимально конкретизировать поиск, сузив его область. Дело в том, что часто искомые документы могут быть формально похожи, а нас может интересовать только какой либо из аспектов содержащейся в них информации.

Представьте несколько тысяч "горячих новостей", скажем, о событиях в Азии, связанных с цунами. Если нам требуется найти информацию о количестве погибших и мощности землетрясения по шкале Рихтера, то список интересующих нас документов будет явно отличаться от поиска тех же новостей, но с четко определенной темой о гуманитарной помощи, оказываемой другими странами пострадавшему региону.

Для этого в технологии поиска похожих "СофтИнформ" предусмотрена возможность использования "важных слов" (вспомогательных ключевых слов), на которые поисковая программа будет обращать внимание в первую очередь, проводя дополнительный анализ похожести. В зависимости от того, что нас интересует на данный момент, мы можем выбрать "важные слова", делающие упор в поиске именно на нужную нам тему. Заметьте, что слова не надо придумывать, а всего лишь выбрать из текста наиболее подходящие, по вашему мнению, для поиска документов, похожих на заданный, но с ограниченной "важными словами" тематикой.

Для примера, показывающего полезность выделения важных слов, мы выбрали новость об успехах компании Apple за несколько последних месяцев. В ней условно содержится две подтемы – непосредственно достижения корпорации и информация о продажах MP3 проигрывателя iPod, за счет которого, в общем-то, успехи и достигнуты. В нашем индексе содержится несколько сотен документов (и новостей об Apple в нем около сорока).

Вот первый случай (здесь мы определили областью интересов компанию Apple и ее финансовое благополучие, выбрав из текста новости важные слова по интересующей нас теме – название компании, заработок, финансы, доход):

А вот пример поиска, если нас интересует именно продукция корпорации, в частности проигрыватель iPod (слова музыкальный проигрыватель, iPod, компьютеры, iMac и так далее):

Как видно по скриншотам, первые несколько результатов остались прежними. Это вполне логично, так как подразумевает высокую похожесть текста (если текст достаточно похож, то, как акценты не расставляй, он таким же похожим и останется). Но дальше уже идут изменения. Список релевантности трансформируется, выдавая нам документы согласно выбранным "важным словам". В первом случае программа показала нам новости, в которых повествуется в большей мере как раз о финансовой стороне деятельности компании Apple. На втором же скриншоте можно увидеть другой результат. Модифицированный при помощи "важных слов" поиск выдал документы в которых преобладает информация о iPod и других продуктах корпорации. Таким образом, система поиска похожих меняет релевантность найденных документов в зависимости от тех ключевых слов, которые были заданы. Это позволяет нам не просматривать весь список похожих документов, а обратить внимание в первую очередь именно на нужную нам информацию.

5. Добавление синонимов

Иногда, при поиске различной информации может возникнуть надобность использования синонимов для наиболее употребляемых в искомом тексте слов. Для примера рассмотрим все тот же текст новости о компании Apple. Может получиться так, что в разных документах будут употребляться разные синонимичные слова, в общем-то, обозначающие одно и то же понятие. Скажем, в исходном документе (по которому осуществляется поиск) финансовые успехи компании Apple позиционироваться как доход (income). Логично предположить, что во множестве документов на эту же тематику, могут употребляться другие слова (это может быть прибыль - profit, заработки – earnings). Введение дополнительных синонимов не только облегчит поиск, но и сделает его более точным и эффективным. В технологии поиска похожих «СофтИнформ» есть возможность создания списков синонимов для наиболее интересующих пользователя выражений. Так как работа технологии не зависит от языка, на котором написаны документы, то для каждого языка можно создавать и подключать свои списки синонимов. Точно также данные списки можно создавать и для каждого конкретного случая (адаптировать под конкретный поиск). Таким образом, поисковая система, и так позволяющая с небывалой точностью находить похожие документы, является еще и настраиваемой для каждого отдельного случая, еще качественнее выполняя свою работу.

6. Настраиваемость и источники данных

Универсальность – это еще один из плюсов поиска похожих "СофтИнформ". Технология поиска прекрасно работает с наиболее распространенными форматами текстовых файлов (txt, doc, rtf, pdf, htm, html), поддерживая и корректно обрабатывая все из них. Но в крупных организациях, где информация обычно содержится в различных информационных системах -CRM, архивах, СУБД и так далее этого недостаточно. Технология поиска похожих справляется и с этой задачей. В ней встроена возможность индексации полей из практически всех существующих на данный момент распространенных систем (например, Access, MS SQL, Oracle, а также любых СУБД, поддерживающих SQL).

Также не составляет никакого труда адаптировать поисковую технологию (при внесении минимальных корректировок) под любую другую базу данных или информационную систему. Причем, источники данных, доступные для индексации нашей программой могут быть различны и могут находиться в разных местах. В рассматриваемом в примерах индексе часть информации находится на диске в файлах формата txt, а часть проиндексирована из базы данных Access:

В любой крупной информационной системе, содержащей большие объемы информации, поиск документов, похожих по содержанию на заданный просто необходим. Наша программа поиска может устанавливаться на любую систему и работать с ней, никак не нарушая ее функциональности и не мешая ее работе.

Причем, если в вашу систему уже встроена какая-либо программа поиска (например, технология фразового поиска "Verity"), то вы можете установить поиск похожих "СофтИнформ" параллельно с ней - это никак не отразиться на эффективности уже установленной программы.

7. Основные задачи и проблемы поиска

При организации эффективной и удобной работы с большими объемами документов возникает довольно много проблем. Поэтому спектр применения технологии поиска похожих очень широк. Но две самые распространенные проблемы, которые решает наша технология – это размытость информационного наполнения и быстрый поиск тематически близких по содержанию документов, а также проверка уже существующей базы на наличие похожих документов.

7.1. Размытость информационного наполнения

В базу данных крупного предприятия документы могут вноситься из разных источников и даже разными людьми. Эти документы могут быть очень похожи и содержать практически одну и туже информацию с небольшими отличиями. Один и тот же текст может быть с разными заголовками, с небольшими изменениями или дополнениями. Но если брать в расчет практическое применение, то данные документы просто-напросто дублируют друг друга. Такую ситуацию можно назвать размытостью информационного наполнения. Это чревато том, что может вызвать путаницу в документах и их использовании. К примеру, в базе содержится два или три похожих документа, практически идентичных по содержанию, но с разными заголовками и незначительными изменениями в самом тексте. И может случиться ситуация, когда один специалист даст комментарии к документу №1, другой специалист – к документу №2 и так далее. Во-первых, это двойная работа (зачем комментировать дважды или трижды все тот же документ?), а во-вторых, при дальнейшем использовании (если, предположим, комментарии разные) часть обработанной и введенной специалистами информации может оказать невостребованной. Технология «СофтИнформ» с успехом решает эту проблему благодаря тому, что оператор, вводя в базу новый документ, может при помощи поиска похожих практически мгновенно определить, новый это документ или дублирующий уже содержащийся в базе файл.

7.2. Проверка уже существующей базы на похожие документы

Еще сложнее дело обстоит с документами, которые уже введены в базу и отследить их похожесть друг на друга в общем количестве информации практически не представляется возможным. Даже если учесть возможности нашего поиска, то анализ документов внутри уже созданной базы может занять дни, недели, а то и месяцы машинного времени. Ведь надо сравнить каждый документ на похожесть, что повышает количество операций поиска на несколько порядков. Но наша технология позволяет решить и эту проблему, используя функцию построения отчетов анализа похожести. Притом эта операция занимает в десятки раз меньше времени, чем сравнение документов даже по технологии поиска похожих. Для примера, сравнение документов в информационной базе в которой содержится, скажем, 1000000 документов займет около месяца. А при использовании функции построения анализа похожести – чуть более суток!

7.3. Поиск тематически близких документов

Что касается быстрого поиска тематически близких документов, то при использовании обычного фразового поиска (который, кстати, присутствует в поисковой программе поиска похожих «СофтИнформ») тоже могут возникнуть проблемы. Как со временем (найти что-либо с первого же запроса по ключевым фразам может далеко не каждый пользователь), так и с релевантностью найденных документов относительно запроса. Все просто: при фразовом поиске и введении ключевого слова найденные документы могут далеко не всегда соответствовать запросу.

Рассмотрим это на примере новостей о покупке (слиянии) компаний. Допустим, нам понадобилось найти документы (в частности, новости) о приобретении какими-либо IT-компаниями своих конкурентов или перспективных фирм, содержащиеся в нашей информационной системе или базе данных. Логично, что при фразовом поиске наш выбор ключевых слов остановится на словах компания, или корпорация, покупка или приобретение. Вот какие результаты дал нам обычный фразовый поиск (примечание – для облегчения и повышения точности поиска использовались специально подобранные дополнительные слова поиска):

Результат довольно удручающий. Дело в том, что фразовый поиск выводит в первую очередь документы, в которых содержание ключевых слов наибольшее. Немудрено, что в первых рядах оказались тексты художественной литературы, ведь в 200 тысячах слов найти похожие ключевые слова шансов намного больше, чем в новости на 100 слов. Файл с новостью нужной нам тематики оказался только на 17 позиции:

Просматривать все документы в списке – занятие продолжительное и накладное. Подбор других ключевых слов и повторный поиск снова ведут к увеличению продолжительности поиска и потерям времени.

А теперь посмотрим, как с этой задачей справится поиск похожих. Возьмем текст новости, показанной нам на 17 позиции и сделаем запрос по нему. Показанные результаты более чем удовлетворительны. Поискавая программа выдала нам на первых позициях практически все новости заданной тематики, содержащиеся в базе:

Поиск по целому документу с использованием нашей технологии дает точные результаты похожести, показывает список документов в удобном формате и сохраняет время, затрачиваемое в ином случае на подбор ключевых слов и просмотр ненужных документов. Зачем тратить на поиск документов 5 часов, когда можно ограничиться лишь 20 минутами?

Данные плюсы нашей поисковой технологии и ее удивительная эффективность на сегодняшний день уже востребована и используется в различных сферах деятельности, связанных с обработкой информации. Одним из таких ярких примеров является проект оказания юридических услуг по телефону. Оператор в кратчайшие сроки должен ответить на заданный клиентом вопрос. Притом ответить как можно более точно и обстоятельно. Для этого создана гигантская база данных по знаниям в области законодательства. В связи с этим, одной из основных составляющих данного проекта является непосредственно технология поиска документов похожих по своему содержанию на заданный. Она используется на различных стадиях и решает несколько задач, таких как контроль при вводе новых документов в базу данных операторами (исключение вероятности занесения в базу дублей), быстрый поиск тематически близких документов (при поиске ответов на заданный вопрос) и поиск ответов на наиболее часто задаваемые вопросы в уже наработанной собственной базе. Наша поисковая технология успешно справляется со всеми задачами и дает возможность отвечать на любые вопросы с небывалой оперативностью.

8. Перспективные решения для Интернет

Кроме основного назначения технологии поиска похожих – а это быстрый и качественный поиск текста и информации в гигантских массивах (текстах, архивах, базах данных) – можно выделить также и интернет направление. Это:

8.1. Обработка новостей

Разработка экспертной системы для обработки входящей корреспонденции и новостей. Реализовать проект можно на базе технологии автоматического рубрицирования документов, которая в свою очередь построена на технологии поиска похожих. Дело в том, что подписка даже на тематические новости создает трудности с их обработкой. Ведь далеко не все новости представляют реальный интерес, а прочтение или даже просмотр нескольких десятков сообщений вместо двух или трех отнимает слишком много времени. Эту проблему и призвана решить поисковая технология «СофтИнформ», автоматизирующая процесс классификации входящей корреспонденции. Для того чтобы «обучить» систему и настроить ее в соответствии со своими предпочтениями, пользователь на начальном этапе осуществляет ручную классификацию документов. В дальнейшем же, программа сама сможет определять какие документы должны быть отнесены в ту или иную рубрику. Просмотр наиболее интересных текстов (включенных в приоритетную рубрику) существенно экономит время. А самообучаемость поисковой программы позволяет использовать ее с максимальным эффектом. Такая поисковая система станет важным инструментом для аналитиков из крупных и не очень компаний. Прежде всего это произойдет за счет того, что ни в одной существующей системе нет поиска документов похожих по содержанию на заданный;

8.2. Спам поисковых машин

Решение проблемы спама поисковых машин с помощью дорвеев (скрытых страниц с ключевыми словами, перенаправляющих на основные страницы сайта и использующихся для искусственного повышения рейтинга ресурсов в поисковиках) и проблемы e-mail спама (анализ на более высоком и интеллектуальном уровне – что существенно надежней существующих систем);

8.3. Новые возможности поиска в интернет

Создание информационно-поисковой системы для Интернета, основное отличие которой от существующих аналогов будет в том, что поиск будет осуществляться не только по ключевым словам, но и по похожим веб документам, что добавит в поиск гибкости и сделает его намного более удобным и качественным. Так как правильный и точный подбор ключевых слов для поиска нужной информации в интернете – это дело не пары минут, то в большинстве случаев поиск может затянуться и состоять из нескольких фаз: первоначальный поиск, расширенный поиск (по ключевым словам, выбранным в процессе первоначального и так далее). А при использовании полнотекстового поиска похожих достаточно получения хотя бы одного документа по интересующей тематике и всю остальную работу возьмет на себя наша поисковая технология. В зависимости от качества исходного документа релевантность найденных может быть разной, но это все равно сократит время общего поиска в десятки раз. Ведь пользователю не придется посещать ненужные сайты с отдаленно интересующей его информацией. Технология сразу предложит наиболее близкие по тематике и похожести документы, проиндексированные поисковой системой.

9. Заключение

Система поиска похожих документов «СофтИнформ» – это незаменимый инструмент для экономии времени и денег, позволяющий любой компании резко сократить затраты (как материальные, так и временные) на поиск и обработку информации в больших объемах данных.

Технология поиска похожих документов «СофтИнформ» это:

  • быстрый и точный поиск похожих по содержанию документов в любых объемах данных.
  • возможность исключить дублирование информации.
  • интеграция в любые базы данных и прикладные системы, а также работа с любыми документами.
  • автоматическая сортировка новых документов по категориям
  • возможность разработки широкого спектра приложений как для локальных внутрикорпоративных сетей, так и для глобальных интернет-решений.

Технология поиска похожих "СофтИнформ" – это Ваша власть над информацией. Это возможность действовать в то время, когда остальные только ищут.

10. Приложение

Данные для которых рассматривались все эти примеры выложены в Интернет в открытом доступе и вы можете их скачать, чтобы самостоятельно удостовериться в правдивости всей вышеприведенной информации.

  
   Пресс-центр
Компания Лоция Софт и СофтИнформ объявляют о начале специальной акции – «Снижение на 20% цен на ПО SearchInform Lotsia Edition». Акция продлится до 15 мая 2006 года. Подробнее...
» Все новости


Большой рыночный потенциал заложен в технологии поиска, которая не зависит от языка. По словам Льва Матвеева, генерального директора "СофтИнформ" – «технология абсолютно независима от морфологии и в течение максимум двух недель настраивается на любой язык поиска». iOne.ru   Подробнее...
» Вся пресса
   Информационные материалы
Пример работы с программой SearchInform и демонстрация возможностей технологии SoftInform Search Technology.
» Скачать демо-ролик...(3,2 Мб)

Проблемы поиска информации в крупных информационных системах и решение этих проблем при помощи технологии полнотекстового поиска компании СофтИнформ.
» Скачать презентацию...(1,1 Мб)
   Награды
Награда Best Soft 2005 от PCMagazine
Top rated at BrotherSoft.com
Высшая награда от BrotherSoft.com
Top rated at BrotherSoft.com

Смотреть все награды...
   Партнерская программа
Мы приглашаем Вас присоединиться к нашей партнерской программе. Начните сотрудничать с нами и вы будете получать вознаграждение от каждой проданной с вашей помощью копии SearchInform. Для присоединения к нашей партнерской программе заполните форму.
stretcher