3. Тесты скорости работы прикладного ПО на основе SoftInform Search Technology
Информация на предприятии содержится как на дисках компьютеров, подключенных к локальной сети, так и в базах данных и различных информационных системах. Это создает определенную проблему их поиска – в различных источниках и различными программными средствами. Одним из важнейших преимуществ современных корпоративных систем на базе технологий поиска похожих документов является возможность консолидации информации из различных источников. Это позволяет структурировать информационные составляющие любого крупного предприятия под управлением одной программы. Притом, без нужды переводить документы и данные в какой-либо единый формат. Вся информация, доступная для индексирования и дальнейшего поиска может быть распределена, структурирована и отображена в удобном виде.
3.1 Введение
Для того чтобы отобразить все аспекты работы с программой полнотекстового поиска были проведены тесты на различные виды данных и различного объема. Наиболее распространенные форматы данных: TXT, HTML, DOC, RTF, PDF
Причем наиболее корректными с точки зрения работы поисковой технологии являются тесты простых форматов, так как в промышленном применении данные хранятся уже в какой-либо СУБД или хранилище данных и в поисковую систему эти данные уже попадают в виде чистого текста.
В результатах тестов – время индексации и размер индекса. Следует отметить что у SearchInform индекс при создании занимает около 50 Мб, поэтому при малом объеме тестовых данных индекс SearchInform получается приличного размера. На даных большого объема дополнительные 50 мегабайт практически не заметны.
Для проведения тестов был выбран компьютер средней производительности. Конфигурация тестового компьютера: CPU AMD Athlon 2,2 ГГц, RAM 2 Гб DDR400, HDD два IDE винчестера на 160 Гб (данные на одном HDD, индекс создавался на другом).
3.2 Описания баз для индексации
Для тестирования скорости индексирования информации и скорости поиска нами было выбрано несколько информационных баз разного размера и содержащих документы различных форматов. Базы идут по нарастающей: в каждую базу большего размера входит база размера меньшего. Например, в базу «21.85» входит база «11.1» и так далее по возрастающей.
Примечание: названия баз решено было выбрать по размеру информации в гигабайтах.
Базы «11.1», «21.85», «41.17», «83.22» – это англоязычные патенты в формате HTML. Документы физически хранятся в архивных файлах формата ZIP по 5000 – 10000 файлов в одном архиве.
База «132.26» кроме патентов в HTML на «83.22» Гб также содержит информацию из тестовых баз форматов (DOC, RTF, PDF) и тексты «10.7».
3.3 Тесты скорости индексирования
Таблица 1
|
Тестовая база
|
«11.1»
|
«21.85»
|
«41.17»
|
«83.22»
|
«132.26»
|
|
Размер документов
|
11.1 Гб
|
21.85 Гб
|
41.17 Гб
|
83.22 Гб
|
132.26 Гб
|
|
Всего документов
|
319 695
|
619 018
|
1 118 513
|
1 993 149
|
2 888 202
|
|
Уникальных слов
|
2 527 473
|
4 016 495
|
6 157 339
|
11 276 270
|
18 912 257
|
|
Размер чистого текста
|
7.92 Гб
|
15.5 Гб
|
28.97 Гб
|
59.42 Гб
|
77.57 Гб
|
|
Размер индекса
|
1.76 Гб
|
3.29 Гб
|
6.03 Гб
|
12.12 Гб
|
16.29 Гб
|
|
Время индексации
|
30 мин 36 сек
|
59 мин 30 сек
|
1 час 53 мин
|
3 часа 56 мин 15 секунд
|
6 часов 06 минут
|
|
В среднем Гб в час
|
21.76
|
21.99
|
21.72
|
21.14
|
21.68
|
Таблица 2
|
|
«10.7»
|
DOC
|
RTF
|
PDF
|
|
Размер документов
|
10.7 Гб
|
1,9 Гб
|
325 Мб
|
5,39 Гб
|
|
Всего документов
|
48 222
|
7 791
|
769
|
526
|
|
Уникальных слов
|
4 408 347
|
439 354
|
220 262
|
942 295
|
|
Размер чистого текста
|
9.88 Гб
|
179 Мб
|
33,27 Мб
|
126 Мб
|
|
Размер индекса
|
2.06 Гб
|
118 Мб
|
86,91
|
160
|
|
Время индексации
|
32 минуты
|
1:34 минут
|
29 секунд
|
12:05 минут
|
|
В среднем Гб/час
|
20.06
|
72.7
|
39.4
|
26.8
|
Тесты показали, что по показателям скорости индексирования SearchInform примерно в 3-4 раза быстрее аналогичных разработок. Показатели тестировавшихся конкурирующих системы мы в данном документе не приводим, но если вы желаете ознакомиться с результатами, то по вашему запросу на адрес support@searchinform.com наши специалисты предоставят вам всю требуемую информацию.
3.4 Тесты скорости поиска
3.4.1 Методика тестирования
Специальной программой (PhraseGen) из базы документов на диске (форматы HTML и DOC) формируется файл следующего формата:
N = A B C D etc.
Где A, B, C, D – слова в выбранной (случайным образом) фразе из различных документов
Где N – количество «мусорных слов» между словами во фразе
Данный формат воспринимается специальным тестовым модулем к системе SearchInform, который становится доступен в программе после запуска ее с ключом /debug. Далее в соответствующем меню (Debug) были заданы условия тестирования и выполнено два вида теста: по словам и по фразе.
Тестирование проводилось с использованием морфологии и заданным количеством результатов в 20 000. Количество запросов равно 1 000. Проводилось два вида тестов: по высокочастотным и низкочастотным словам.
3.4.2 Результаты тестов поиска по словам
Так как в реально работающей системе индекс уже используется и его первоначальная обработка уже не требует временных затрат, то для приближения теста к реальным условиям сначала выполнялся поиск по низкочастотным и высокочастотным словам без создания отчета, а уже потом проводился непосредственно тест.
Результаты скорости поиска (время затраченное на обработку 1 000 запросов) представлены ниже:
|
База
|
Низкочастотные слова
|
Высокочастотные слова
|
|
«11.1»
|
97,875 секунд
|
99,484 секунд
|
|
«21.85»
|
149,516 секунд
|
147,828 секунд
|
|
«41.17»
|
238,844 секунд
|
246,922 секунд
|
|
«83.22»
|
365,5 секунд
|
313,687 секунд
|
|
«132.26»
|
508,062 секунд
|
341,797 секунд
|
Архив с результатами скорости поиска по словам
Фактически, результаты теста показали, что поиск по высокочастотным словам в данном случае (поиска только по словам) быстрее чем по низкочастотным. Также, стоит отметить, что по мере роста объема базы скорость поиска замедляется не пропорционально.
3.4.3 Результаты тестов поиска по фразам с расстоянием
|
База
|
Низкочастотные слова
|
Высокочастотные слова
|
|
«11.1»
|
444,734
|
591,297
|
|
«21.85»
|
765,515
|
1 028,406
|
|
«41.17»
|
1 282,219
|
1 847,375
|
|
«83.22»
|
2 270,047
|
3 627,172
|
|
«132.26»
|
2 697,906
|
3 865,531
|
Архив с результатами скорости поиска по фразам с расстоянием
В данном случае (поиск по фразе) скорость поиска по высокочастотным словам примерно в 1,5 раза медленней, чем по низкочастотным. Скорость также снижается не пропорционально росту размера информации в базе, а значительно медленней.
|