Сравнительный анализ современных поисковых систем

  • 09 апр. 2012 г.
  • 2109 Слова
Методы сравнительного анализа современных поисковых систем и определения объема Рунета
© Сегалович И.В, Зеленков Ю.Г., Нагорнов Д.О. Яндекс, Москва {iseg, yuryz, den}@yandex-team.ru Аннотация
В представленной работе рассмотрены автоматические методы сравнения количественных и качественных характеристик русскоязычной части индексов современных поисковых систем и определения объема Рунета.Актуальность исследования определяется чрезвычайно быстрыми темпами роста русскоязычной части веба. Так, по результатам, полученным авторами в феврале 2004 года (начало систематических наблюдений), объем Рунета составлял примерно 400 млн. документов, тогда как к концу 2005 года эта цифра была уже порядка 2500 млн., т.е. увеличилась более, чем в 6 (!) раз за 2 года. Судя по последним измерениям, такой темпможет сохраниться и в ближайшее время. Новизна работы состоит в том, что в ней впервые выполнена оценка объема русскоязычного сегмента Сети, и систематически рассмотрены не только количественные, но и качественные параметры («чистота» и «свежесть») архивов наиболее крупных поисковых систем, таких как Яндекс, Рамблер, Google и Yahoo! Кроме того, разработанные авторами методы, в отличие от зарубежныханалогов, позволяют производить измерения веба на регулярной (ежедневной) основе, что особенно важно, учитывая высокую динамику изменения состояния современного интернета. структуре всего интернета. Поэтому весьма представляются статистические актуальными исследования, посвященные разработке методов наилучшего сэмплирования веба и приближенной оценке относительных размеров баз данных поисковых систем, а такжесовременных определения объема статического общедоступного (не скрытого за поисковыми формами запросов к онлайновым базам данных и не требующего привилегированного доступа) интернета. Одни из первых наиболее значимых результатов в этой области были получены в работах К. Бхарата и А. Бродера из Центра системных исследований DEC [2, 3]. Основная идея их подхода состояла в том, чтобы взяв за основубольшую выборку (порядка 300 тыс.) документов из каталога Yahoo!, составить по ней представительный частотный словарь (более 400 тыс. слов) максимально близко отражающий как лексический состав, так и реальные количественные пропорции между словами в интернете. Авторы исходили из предположения, что все поисковые системы должны использовать Yahoo! как один из основных информационных ресурсов при созданииалгоритмов обхода веба. К сожалению, правдоподобность такого предположения не проверялась. На основе данного словаря были созданы массивы запросов четырехсловные дизъюнктивные и двухсловные конъюнктивные, с помощью которых генерировалась большая серия (порядка 20 тыс.) случайных запросов к некоторой поисковой системе. Из результатов поиска по каждому запросу отбирались первые 100 URL'ов, из которых случайнымобразом выбирался один URL. Недостатком такого подхода является зависимость полученных результатов от конкретных алгоритмов ранжирования выдач, используемых различными поисковиками. Выбранный URL проверялся на вхождение в индекс всех поисковиков с помощью специально построенного «строгого запроса». Для этого документ с данным URL'ом загружался из веба и из него выбирался некоторый фиксированный наборслов с максимальным IDF. После этого вычислялась доля выдачи каждой поисковой системы по отношению к системе, тестируемой в данный момент, т.е. определялись

1 Введение и обзор ключевых работ по исследуемой тематике
В работе Д. Брэйка [1] убедительно показано, что ни одна из поисковых машин никогда не будет в состоянии собрать и поддерживать в актуальном состоянии полную информацию о составе иТруды 8ой Всероссийской научной конференции «Электронные библиотеки: перспективные методы и технологии, электронные коллекции» - RCDL’2006, Суздаль, Россия, 2006.

попарные пересечения выдач выбранной машины со всеми другими. Затем в качестве тестируемой выбиралась другая машина, и весь процесс повторялся снова. По окончании расчетов для каждого...
tracking img