Есть таковой городок в Подмосковье - Пущино.
Совершенно маленькой - и по площади, и по популяции. Город полностью и стопроцентно посвящен биологии. Самая высочайшая точка Столичной области.
Больше 10-ка НИИ - и ни 1-го производственного предприятия. Две прямые параллельные улицы, на одной из которых расположились университеты, а на другой размещается по вечерам и выходным отдыхающий люд.
Рай, отделенный от остального мира океаном леса. Город на горе.
В 1991 году в городке Пущино появилась группа единомышленников, воодушевленных только-только показавшейся коммуникационной средой Веб. Дмитрий Крюков, Сергей Лысаков, Виктор Воронков, Владимир Самойлов, Юрий Ершов - это на техническом уровне подкованные, творческие и смелые люди с активной актуальной позицией и рвением к новенькому. Судьба свела их совместно очевидно для огромных свершений.
Будущие создатели Рамблера сначала обслуживали радиотехнические приборы в Институте биохимии и физиологии микробов РАН.
К примеру, Дмитрий Крюков работал на ЯМР-спектрометре, помогал биологам рассматривать трехмерную структуру ДНК, создавал уникальную огромную электрическую картотеку микробов.
Когда находишься в Пущино, появляется желание разговаривать, коммуницировать, связываться с не малым миром, который за лесом.
Видимо, эта тяга и сподвигнула компанию "Стек" во главе с Сергеем Лысаковым заняться локальными сетями и подключением к Вебу. Обычный, оперативный и действенный обмен данными был нужен для реализации научных целей. "Стековцы" сами сделали снутри городка сеть, подключили Пущино к Москве и через нее - к мировому Вебу (это был 1-ый IP-канал в Рф, выходящий за границы Москвы), присоединились к сети Курчатовского института атомной энергии. "Стековцы" вспоминают, что другой раз кабели приходилось прокладывать вручную, зимой, под землей. При минусовой температуре!
В 1992 году компания запускает собственные ftp- и mail-серверы.
Через два года - собственный 1-ый www-сервер.
Так, равномерно, шаг за шагом Пущино становилось очень принципиальным узлом Мировой Сети.
1996 год - главный для развития российского киберпространства. Конкретно в этот год Сергей Лысаков и Дмитрий Крюков принимают решение создать первую русскую поисковую машину для Веба. Команда "Стека" прозорливо сделала ставку на программу-поисковик.
Это было принципиальное, ответственное и, на 1-ый взор, безосновательное решение, так как в то время русский сектор Сети был очень мал - менее 30-50 веб-сайтов.
А новые разработки означали для компании покупку оборудования, зачем пришлось уменьшить собственные заработной платы.
Программер Дмитрий Крюков начал с того, что вымыслил проекту заглавие. Для этого открыл англо-русский словарь. Взор свалился на Rambler.
Дмитрию понравилось значение слова "скиталец, странник, бродяга": боты поисковой системы вправду прогуливаются по веб-сайтам, собирая информацию, круглые день не зная покоя. За работой посиживал и деньками, и ночами. Супруга Карина приносила обеды и ужины в кабинет.
Когда Дмитрия спрашивают, что это означает для программера - сделать такую программку, он расслабленно отвечает: это любопытно, это проверка себя, собственных сил. Это не так трудно, чтоб отказывать для себя в наслаждении сделать это.
Через несколько месяцев, к озари 1996 года, был готов окончательный вариант поисковика.
26 сентября был зарегистрирован домен rambler.ru, а 8 октября "Стек" активизировал систему.
В тот момент в Руинтернете уже было две-три поисковых машины - но они не выдержали проверки временем и стремительно пропали. А Rambler развивался, эволюционировал.
Хотя ему пришлось пройти через огнь и воду.
Сергей Лысаков и Дмитрий Крюков говорят, как в один прекрасный момент на верхнем этаже прорвало трубу и сервер, на котором работал Rambler, пришлось практически просушивать. Ничего, не сломался.
В другой раз примитивно подвело железо: сгорели жесткие диски. Сергей и Дмитрий в тот же денек съездили в Москву и срочно приобрели - за обезумевшие средства - новые устройства. Система не работала всего одни день.
Для отладки работы системы приходилось очень длительно посиживать за компом, неотрывно контролируя поток запросов и процесс поиска.
Rambler держался на энтузиазме собственных создателей, на воле и вере в корректность избранного пути.
Весной 1997 года возникает Rambler's Top100 - уникальный рейтинг-классификатор, который не только лишь оценивает на базе беспристрастных данных популярность русских ресурсов, да и позволяет одним "кликом" попасть на их. В сути, вся история Руинтернета разделилась на "до" и "после".
Появление такового универсального счетчика, способного направлять аудиторию на различные ресурсы, сделало в русском Вебе активную, оживленную конкурентную среду. Вебмастера стали более кропотливо и задумчиво работать над своими веб-сайтами, стремясь занять в Топ100 более высочайшие строки. Неплохой рейтинг давал дополнительные достоинства - резвый рост аудитории.
В свою очередь, модеры Топ100 боролись и с фуррором борются до настоящего времени с так именуемыми накрутками - искусственным завышением рейтинга того либо другого ресурса.
За 1-ый год существования рейтинга объем русского сектора Сети вырос как минимум на два порядка.
Rambler's Top100 стремительно стал универсальным барометром сети, общим эталоном медиаизмерений.
К нашему семилетию, 26 сентября 2003 года, мы приготовили несколько новинок, делающих именитый портал еще больше увлекательным и полезным.
Поменялся дизайн головной странички, он стал более свежайшим и вкупе с тем остался просто известным. В июне 2003 года компания запустила новейшую версию поисковой системы, которая отличается от предшествующей по двум главным характеристикам. Во-1-х, существенно возросла скорость поиска; во-2-х, благодаря новейшей архитектуре системы обновление поискового индекса происходит пару раз в денек.
Это означает, что Rambler всегда находит даже самые свежайшие документы, включая последние анонсы. Rambler осознает живой российский язык, знает, что бывает "б/у", "у.е." и "а/я".
Механизм ассоциаций помогает юзеру поточнее сконструировать собственный запрос и, как следует, резвее отыскать разыскиваемый ресурс. Для тех, кто точно знает, что отыскивает, и не желает растрачивать избыточное время, мы открыли специальную лаконичную версию нашего поиска по адресу r0.ru. либо, как молвят, Арнольд. На этой страничке есть только самое основное, другими словами строчка поиска, анонсы и почта.
Сама почта также обновилась. Перемены не только лишь наружные, да и внутренние: объем почтового ящика возрос втрое!
Не считая того, появилась новенькая, многоуровневая система защиты от мусора.
Rambler's Top100: индустриальный рейтинг
Rambler's Top100 - знаменитый рейтинг-классификатор ресурсов русского Веба. Юзеры Сети уже привыкли созидать на наилучших веб-сайтах значок "Участник Rambler's Top100". Этот рейтинг является типичным центром Сети в Рф, предоставляя как обычным юзерам, так и спецам универсальную панораму всего русского киберпространства.
Вот поэтому за рейтингом закрепилась репутация надежного барометра интернет-индустрии.
Тор100 делает Веб в Рф прозрачным, понятным, практически ощутимым - как для обыденных юзеров, так и для хозяев ресурсов, не говоря уже о рекламодателях.
В сфере интернет-рекламы Top100 - неоспоримый фаворит медиаизмерений в Сети.
Рекламодатели употребляют его для выделения мотивированных аудиторий и планирования маркетинговых кампаний в Вебе.
В базе лидерства Top100 - большой охват (больше полумиллиона регистраций и 110 тыщ активных участников), жесткий регламент роли и точная система модерирования, благодаря которой всех, кто пробует играть со статистикой, навечно или навечно исключают из рейтинга.
Статистике Top100 доверяют как единственному достоверному источнику инфы о популярности и, соответственно, ценности того либо другого веб-сайта.
Потому так тяжело реализовать ресурс, не имеющий официальной "истории" посещаемости в Тор100: без нее нереально обосновать, что аудитория своя, постоянная, а не нагнанная через pop-up и pop-under.
Благодаря системе защиты от накруток, статистика Тор100 считается самой "ограниченной", либо осторожной оценкой - но задачка рейтинга сначала в том, чтоб быть единой для всех системой статистики, в рамках которой можно ассоциировать характеристики различных веб-сайтов.
С этой задачей Тор100 совладевает совершенно.
Не считая функции универсального и объективного судьи, Top100 играет роль инструмента систематизированного поиска: юзер может выбирать при помощи перечня самые нужные ресурсы в каждой из категорий, освобождаясь от необходимости плутать по Вебу в поисках чего-то ценного.
Как следствие, самый пользующийся популярностью в русском Вебе каталог делает в Сети конкурентную, активную, оживленную среду: обладатели ресурсов заинтересованы в том, чтоб стоять на более высочайшей строке в рейтинге, так как это обеспечивает дополнительный приток аудитории.
Собственные ресурсы Рамблера вынесены из рейтинга в отдельную категорию "Ресурсы Рамблера", доступную с главной странички Тор100 и внутренних страничек рейтинга.
Это позволяет компании избежать понятного негодования участников рейтинга: ведь в неприятном случае многие проекты занимали бы 1-ые места в ряде категорий каталога, что привело бы к подозрениям в нечестной конкуренции.
Так как Тор100 - это, сначала, инструмент бизнеса и промышленности, в рейтинге участвуют практически все большие веб-сайты (кроме одной поисковой машины, которая не предоставляет собственной статистики) - эти ресурсы, по определению, обновляются лучше и почаще, чем все другие.
Конкретно их поисковая система Rambler регистрирует дважды в день.
Так интеграция рейтинга Тор100 с поисковой машиной помогла сделать поиск Rambler самым оперативным в русскоязычном Интернете.
В 2004 году Тор100 получил сертификат соответствия стандартам качества ISO 9001 | 2000.
Rambler Mass Media: информационная сверхпроводимость
Rambler Mass Media - одна из крупнейших информационных площадок российского Интернета. Ежемесячно наши новости читает более трех с половиной миллионов человек.
Это универсальный источник информации о самых последних событиях в стране и в мире.
В регулярной аудитории проекта традиционно высок процент госслужащих и корпоративной аудитории, что делает Rambler Mass Media одной из наиболее привлекательных рекламных площадок русскоязычного Интернета.
Уникальность проекта состоит, прежде всего, в беспрецедентном охвате источников информации: Rambler Mass Media круглосуточно взаимодействует с более чем 50 ведущими российскими и зарубежными СМИ, как хорошо известными, так и появившимися недавно.
Кроме того, Rambler Mass Media - безусловный лидер по внедрению мультимедиа.
Помимо текстовых материалов и фоторепортажей, ставших визитной карточкой проекта, Rambler Mass Media представляет пользователям аудио и видеосюжеты, в числе поставщиков которых ВГТРК и BBC, Deutsche Welle, радио "Маяк" и др.
Заголовки важнейших новостей размещаются на первой странице портала Rambler.ru и в блоке "Главные новости дня" на главной странице Rambler Mass Media.
Наиболее актуальные новости могут читать и посетители других сервисов Рамблера - Рамблер Почты, Погоды на Рамблере.
Спектр освещаемых тем достаточно широк: политическая и экономическая жизнь России, стран ближнего и дальнего зарубежья; новости бизнеса и финансов, чрезвычайные происшествия, спорт, новости медицины, культуры, технологий, Интернета; также обзоры прессы.
В рамках проекта действует около ста пятидесяти постоянно обновляемых информационных сюжетов, которые рассказывают как о наиболее актуальных и общественно значимых на сегодняшний день событиях, так и о том, что уже стало историей.
Использование большого количества информационных источников позволяет Rambler Mass Media предоставлять аудитории полную и достоверную информационную картину дня: один и тот же информационный повод может быть подан различными СМИ по-разному, с разным набором фактов, деталей и комментариев.
Таким образом, предоставление максимально полной фактологии событий, равно как и аналитических материалов ведущих средств массовой информации делает Rambler Mass Media оптимальным посредником между теми, кто производит информацию, и теми, кто ее потребляет.
Среди поставщиков Rambler Mass Media сегодня такие гранды российской прессы, как "Российская газета", ИД "Коммерсантъ", "Известия", "Труд", "Независимая газета" и другие издания. Круг наших партнеров постоянно расширяется. Пользуясь случаем, мы выражаем признательность нашим коллегам.
Уверены в том, что вместе мы многократно расширим медийное пространство в Интернете!
Поиск Rambler: новый механизм ассоциаций
Теперь пользователям поисковой системы Rambler доступен новый механизм ассоциаций. Набрав в поисковой строке нужное слово, вы кликаете на окно "найти". Открывается так называемая ответная страница, в которой найденные документы расположены в порядке убывания релевантности (соответствия запросу).
На этой же странице в самом низу - строка "У нас также ищут". В ней приведено несколько слов и словосочетаний, тематически (ассоциативно) связанных с вашим исходным запросом.
Например, на слово "магия" в строке "У нас также ищут" выдаются результаты гадание. пси-магия. коды к играм. черная магия. counter-strike. games. коды. вторая мировая война. тетрис. еще >>. Если нажать на "Еще", возникает целый блок ассоциаций, более развернутый.
Можно, нажав на любое слово из списка, продолжить поиск.
Другой пример:
Ищем "отдых в Турции". Получаем отдых турция. цены на отдых в турции. отели турции. отдых в турции кемер. кемер. еще >>
Ищем "аквариум". Получаем борис гребенщиков. аквариум гребенщиков. аквариум.ru. бг. аквариум борис гребенщиков. еще >>
Последний пример демонстрирует, что ассоциации могут указать правильный путь к той или иной информации.
Человек, который увлекается разведением рыбок, должен конкретизировать свой запрос, иначе поисковая машина на слово "аквариум" выдаст ему список сайтов, посвященных творчеству известной музыкальной группы.
Большинство пользователей, набирая слово "аквариум" в строке поиска, ищет именно музыку.
Для любителя рыбок имеет смысл нажать на "Еще", тогда он получает полный список, где наверняка окажутся подходящие слова, например "аквариумистика", "рыбки аквариумные", "цихлиды", "гуппи".
С одной стороны, с помощью механизма ассоциаций пользователь может быстро уточнить или расширить свой запрос.
С другой стороны, цепочка типичных ассоциаций выявляет недостатки исходного запроса, его неоднозначность, "размытость".
В результате посетитель поисковика Rambler учится правильно спрашивать, не тратя впустую время, то есть, по сути, прибегает к помощи "коллективного разума".
Кроме того, ассоциации несут ценную информацию, о которой пользователь мог раньше и не знать. Например, набрав "велосипеды", получаем вело. детские велосипеды. продажа велосипедов. горные велосипеды. велосипеды продажа. merida. В результатах уже есть классификация и популярная марка.
В развернутом списке появляются другие типы велосипедов, а также названия магазинов.
В некоторых случаях новый механизм исправляет ошибки запросов.
Например, на запрос gjujlf получаем положительный результат: сайты о погоде и соответствующие ассоциации (gjujlf - это "погода", набранная в латинской раскладке). Если вы наберете вместо "фотоаппараты" слово "фотоапараты", Рамблер выдаст сайты, в которых это слово также набрано ошибочно.
Кроме того, в ассоциациях есть и правильное написание.
Такие же результаты - в случае запроса вида "Тольяти" ( правильно писать "Тольятти").
То есть Рамблер учитывает возможность ошибки и помогает быть более грамотным. Ассоциации содержат очень много полезных сведений для рекламодателей. С помощью этого механизма можно легко выяснить, что с чем ассоциируется, какие явления сопрягаются.
Массовое сознание предстает как на ладони.
Например, аудитория канала СТС (пользователи, интересующиеся сайтом и чатом СТС) часто спрашивает земфира, тату, руки вверх, ддт, britney spears и дельфин. а вот у аудитории MTV другие музыкальные пристрастия: децл, eminem, limp bizkit, prodigy, сектор газа.
Механизм ассоциаций интересен любому, кто хочет посмотреть, о чем думают тысячи и тысячи посетителей сети. Он не только интересен, но и полезен.
Это новый инструмент для поиска, равно как и источник ценной информации для лингвистов и web-мастеров.
Рамблер как социальный проект
Для нас Интернет и Рамблер - это не только бизнес, это, в первую очередь, социальный проект по созданию инфраструктуры общества будущего, общества знания. Привлекая новых пользователей, мы не можем ограничиться решением проблемы поиска информации - собственно, благодаря сочетанию поисковой системы и интерактивного рейтинга-каталога она во многом уже решена. Мы приступаем к созданию системы социальных сервисов онлайн.
Уже сегодня. К примеру, из проекта "Здоровье" на Rambler можно найти лекарство в аптеках Москвы, а в проекте " Право " собраны все нормативные документы, которые могут понадобиться человеку, проживающему в России.
Список таких социальных проектов будет расти.
Это - новое стратегическое направление развития Rambler, дополняющее традиционно характерный для нашей компании акцент на ценности знания и интеллекта.
Для работы в этом направлении летом 2003 года был основан Фонд исследований и социальных инициатив Rambler, или Фонд Rambler, президентом которого стал Иван Засурский.
Задача фонда - в первую очередь, способствовать максимально полному раскрытию потенциала сети как коллективного разума или суммы знаний пользователей, а также оказывать максимально возможное содействие тем, кто старается изменить мир к лучшему. Любая технология изначально нейтральна: ее значение для общества зависит от того, как она используется. Поэтому мы намерены не только исследовать существующее положение вещей, но и сделать все зависящее от нас для того, чтобы потенциал Интернета мог раскрыться по-настоящему.
Мы хотим помочь становлению коллективного разума, помочь направить его внимание на темы науки и культуры, защиты окружающей среды, разоружения и защиты прав личности.
Мы верим в то, что со временем наши усилия принесут плоды.
Рамблер: инновационные интерактивные проекты
Конец 2003 - начало 2004 года ознаменовался для компании запуском серии инновационных интерактивных проектов.
Это уникальные для российского интернета разработки, которые строятся на наших программах и энергии пользователей. Их подпитывает желание людей общаться, коммуницировать.
Конечно, полностью их потенциал раскроется только когда нам удастся завершить их интеграцию, однако уже сегодня можно говорить о серии прорывов, которые подтверждают позицию Rambler как лидера индустрии.
Прежде всего, необходимо отметить проекты Rambler-Группы и Rambler-Фото. Оба этих проекта предоставляют пользователям сети возможность использования заложенных в проекты программных алгоритмах в собственных целях.
Проект Rambler-Группы дает людям возможность начинать обсуждения самых разных тем, которые существуют не только в виде форумов, но также и в виде открытых списков рассылки.
Rambler-Фото – интернет-сообщество для обмена фотографиями. Возможности этого сервиса помогают интернет-пользователям создавать виртуальные фотоальбомы неограниченного объема, загружать в них фотографии, демонстрировать свои фотоработы широкой аудитории, которая на данный момент ежедневно приближается к 50 тыс. человек.
Rambler-Фото предоставляет удобный механизм обработки и редактирования фотографий, позволяет быстро разместить фотографии в Сети, а также обладает удобным тематическим рубрикатором, который облегчает процесс просмотра фотографий. На страницах проекта Rambler-Фото постоянно проводятся фотоконкурсы, благодаря которым пользователи могут не только похвастаться своими достижениями в фотографии, но и выиграть ценные призы, и даже попасть на страницы профессиональных фотожурналов.
Rambler-Фото предоставляет также уникальную для российского Интернета возможность публикации видеоработ на сайте проекта Rambler Vision – первого интерактивного мультимедийного портала в российском Интернете.
Программные алгоритмы, заложенные в проект Rambler-Фото, уже успели "засветиться" как фундамент громких проектов – таких, как "Мисс Вселенная, Россия", первого общенационального интерактивного конкурса красоты. и т. д.
"Мисс Вселенная, Россия" стал первым по сути кросс-медийным проектов медиагруппы Rambler, где были задействованы возможности всех подразделений группы: и первого познавательного телеканала Rambler ТелеСеть, и Интернет-холдинга Rambler (как промо-мощности портала и система регистрации), и новые интерактивные проекты Группы и Фото (фактически, "Мисс Вселенная" стала объединяющих их "скином", как говорят программисты), и подразделение мобильных сервисов SMXCOM, которое организовывало всероссийское голосование за красавиц.
Нет ничего удивительного в том, что Rambler поставил рекорд России по самым крупномасштабным выборам в русскоязычной сети: всего за русских красавиц было подано более 960 тысяч голосов.
О конкурсе написали практически все издания - еще до финала, потому что это был первый в мире национальный конкурс красоты без жюри, который был организован как прямые демократические выборы.
Но для нас самое важное - другое.
Нам удалось на примере продемонстрировать возможности медиагруппы по созданию медиа-событий на базе всех форм медиа: интернета, телевидения, мобильной связи и даже печатной прессы, которую нам удалось благодаря партнерству с крупнейшими издательскими домами.
Неудивительно, что запущенная Rambler в прошлом году рекламная кампания и бурная активность по продвижению кампании уже привела к тому, что рост аудитории портала Rambler превышает наши прогнозы (включавшие средний по индустрии рост и сезонные факторы) уже на 16%, и это не временный всплеск, а новый тренд.
Рост аудитории Rambler по состоянию на конец апреля 2004 года составит 20%!
Это делает нас одним из самых быстро растущих крупных ресурсов интернета не только в России, но и в мире!
Rambler остается лидером Интернет-индустрии и на глазах превращается в крупнейшую медиагруппу по охвату аудитории после национальных телевизионных каналов.
Но а от себя, просто совет - нам в настройках почтового ящика есть функция уведомления о получении письма на сотовый (да сейчас многие её добавили) не рекомендую.
Нет ну конечно если Вам приходит мало писем, то вперед, а у меня хоть и стоит ограничение ( с 24:00 до 7:00 не уведомлять) куда там.
Всю ночь идут уведомления. да и днем. просто когда много писем приходит-лучше не пользоваться.
…или как выжить в условиях постоянно растущего Интернета. (публикуется с любезного разрешения пресс-службы ОАО “Рамблер Интернет Холдинг”)
Интернет постоянно растет, так же как растет и число пользователей, которые обращаются с запросами к поисковым системам. Увеличение объема информации и количества запросов, в свою очередь, приводит к повышению требований к скорости работы поисковых машин, качеству поиска и наглядности представления результатов. Так, для того чтобы пользователь остался доволен результатом, на сегодняшний день поисковой системе нужно собрать, обработать, обновить, найти и отсортировать в два раза больше документов, чем год назад.
А основная задача поиска как раз и состоит в том, чтобы пользователь был доволен его результатами.
Когда пользователь обращается с запросом к поисковой машине, он хочет найти то, что ему нужно, максимально быстро и просто. Получая результат, он оценивает работу системы, руководствуясь несколькими основными параметрами.
Нашел ли он то, что искал? Если не нашел, то сколько раз ему пришлось переформулировать запрос, чтобы найти искомое? Насколько актуальную информацию он смог найти?
Насколько быстро обрабатывала запрос поисковая машина?
Насколько удобно были представлены результаты поиска?
Был ли искомый результат первым или сотым? Как много ненужного мусора было найдено наравне с полезной информацией?
Сможет ли он, вернувшись завтра и дав тот же запрос, получить те же результаты?
Для того, чтобы ответы на эти вопросы оставались удовлетворительными, разработчики поисковых машин постоянно совершенствуют алгоритмы и принципы поиска, добавляют новые функции, ускоряют работу системы.
В этой статье мы обратимся к механизму работы поисковой машины Рамблер, и на примере ее устройства продемонстрируем, как достигается повышение качества и скорости поиска в условиях постоянного роста объема информации в сети Интернет.
Полнота - это одна из основных характеристик поисковой системы, которая представляет собой отношение количества найденных по запросу документов к общему числу документов в Интрнете, удовлетворяющих данному запросу.
Например, если в сети Интернет имеется 100 страниц, содержащих словосочетание “Красная площадь”, а по соответствующему запросу было найдено всего 70 из них, то полнота поиска будет 0,7.
Чем полнее поиск, тем меньше вероятность, что пользователь не сможет найти нужный ему документ, при условии, что он вообще существует в Интернете.
Полнота поиска в большой мере зависит от работы системы сбора и обработки информации.
В связи с постоянным ростом количества документов в сети, эта система в первую очередь должна быть масштабируемой.
В Рамблере масштабируемость достигается за счет параллельного исполнения задачи произвольным количеством машин.
Сбором информации занимается робот-паук, который обходит страницы с заданными URL и скачивает их в базу данных, а затем архивирует и перекладывает в хранилище суточными порциями.
Робот размещается на нескольких машинах, и каждая из них выполняет свое задание. Так, робот на одной машине может качать новые страницы, которые еще не были известны поисковой системе, а на другой - страницы, которые ранее уже были скачены не менее месяца, но и не более года назад.
Хранилище у всех машин едино.
При необходимости работу можно распределить другим способом, например, разбив список URL на 10 частей и раздав их 10 машинам.
Параллельная работа программы позволяет легко выдерживать дополнительную нагрузку: при увеличении количества страниц, которые нужно обойти роботу, достаточно просто распределить задачу на большее число машин.
В хранилище информация в сжатом виде собирается и разбивается на куски по 50 Мб. Эти части постепенно распределяются между 70 машинами, на которых запущена программа-индексатор.
Как только индексатор на одной из машин заканчивает обработку очередной части страниц, он обращается за следующей порцией. В результате на первом этапе формируется много маленьких индексных баз, каждая из которых содержит информацию о некоторой части Интернета.
Таким образом, вся интеллектуальная обработка данных осуществляется параллельно, поэтому ускорение процесса индексации достигается простым добавлением машин в систему.
После того, как все части информации обработаны, начинается объединение результатов. Благодаря тому, что частичные индексные базы и основная база, к которой обращается поисковая машина, имеют одинаковый формат, процедура объединения является простой и быстрой операцией, не требующей никаких дополнительных модификаций частичных индексов. Основная база участвует в анализе как одна из частей нового индекса.
Так, если объединяются 70 новых частей, то в анализе участвует 71 фрагмент (70 новых + основная база предыдущей редакции).
Кроме того, единый формат позволяет проводить тестирование частичных баз еще до объединения их с основной, и обнаруживать ошибки на более раннем этапе.
Специальная программа (“сливатор”) составляет таблицы перенумерации документов базы.
Содержимое всех частей объединяется. Среди страниц с одинаковыми адресами выбирается наиболее свежая версия; если при скачивании URL последней информацией была ошибка 404 (запрашиваемая страница не существует), она временно удаляется из индексной базы.
Параллельно осуществляется склейка дублей: страницы, которые имеют одинаковое содержимое, но различные URL, объединяются в один документ.
Сборка единой базы из частичных индексных баз представляет собой простой и быстрый процесс. Сопоставление страниц не требует никакой интеллектуальной обработки и происходит со скоростью чтения данных с диска. Если информации, которая генерируется на машинах-индексаторах, получается слишком много, то процедура “сливания” частей проходит в несколько этапов.
В начале частичные индексы объединяются в несколько промежуточных баз, а затем промежуточные базы и основная база предыдущей редакции пересекаются.
Таких этапов может быть сколько угодно. Промежуточные базы могут сливаться в другие промежуточные базы, а уже потом объединяться окончательно.
Поэтапная работа незначительно замедляет формирование единого индекса и не отражается на качестве результатов.
Точность - еще одна основная характеристика поисковой машины, которая определяется как степень соответствия найденных документов запросу пользователя. Например, если по запросу “Красная площадь” находится 150 документов, в 70 из них содержится словосочетание “Красная площадь”, а в остальных просто присутствуют эти слова (“красная баба кричала на всю площадь”), то точность поиска считается равной 70/150 (
0,5).
Чем точнее поиск, тем быстрее пользователь находит нужные ему документы, тем меньше “мусора” среди них встречается, тем реже найденные документы не соответствуют запросу.
Повышение точности в поисковой машине Рамблер достигается за счет использования различных технологий на всех этапах обработки и поиска информации. Одним из наиболее интересных процессов является распознавание грамматических омонимов.
Омонимы - это слова, которые имеют одинаковое написание, но различный смысл. Различают лексические и грамматические омонимы.
Лексические омонимы относятся к одной части речи, как, например, существительное “бор”: хвойный лес, стальное сверло и химический элемент. Грамматические омонимы относятся к разным частям речи, поэтому по написанию у них обычно совпадают только отдельные формы.
Примерами грамматических омонимов могут служить слова “печь” - существительное русская “печь” и глагол “печь” пирожки; “рядовой” - прилагательное “рядовой” сотрудник и существительное “рядовой” Иванов.
Омонимы не только увеличивают размер индексной базы (так как для каждого такого слова приходится хранить все его возможные значения), но и отрицательно сказываются на точности поиска. Если пользователь ищет слово “данные”, ему неинтересно получить в найденном все документы, которые содержат слово “дать”. Для того, чтобы результаты поиска были точнее, модуль синтаксического анализа проводит разбор окружения слов-омонимов с целью установления их наиболее вероятных значений.
Например, если рядом со словом “печь” стоит существительное (“пирожки”, “картошка”), то с высокой вероятностью “печь” в данном контексте является глаголом.
На сегодняшний день анализатор способен распознавать значения только грамматических омонимов.
Синтаксический анализ позволяет также с определенной вероятностью распознавать некоторые имена собственные. Например, если в тексте несколько слов подряд написано с большой буквы, они чаще всего представляют собой имя собственное (Петр Петрович, Московский Государственный Университет).
Данные о таких конструкциях учитываются при индексации и обработке запроса.
Еще один способ повышения точности поиска - это выделение устойчивых обозначений и поиск их как отдельных лексических единиц.
На сегодняшний день в Рамблере реализована система распознавания таких конструкций, например C++, б/у, п/п-к.
Если по запросу С++ поднимать все тексты, в которых присутствуют латинская буква С, а также знак +, то получится огромное количество документов, далеко не все из которых соответствуют запросу; кроме того, это большая работа, значительно увеличивающая время поиска.
Огромную роль в повышении точности поиска играет ранжирование. Пользователь очень редко просматривает больше трёх страниц с результатами поиска. Поэтому субъективно он оценивает точность по “верхним” документам.
Даже если нужный документ найден поисковой машиной, но расположен на двухсотой позиции, скорее всего, он никогда не будет найден пользователем.
По умолчанию в Рамблере результаты ранжируются по степени соответствия запросу (релевантности) и группируются по сайтам. При ранжировании оцениваются различные характеристики текстов, такие как:
- Количество вхождений слов (словосочетаний) в документ - чем больше раз словосочетание “Красная площадь” присутствует в тексте, тем выше вероятность, что в нем действительно говорится о Красной площади;
- Расположение слов запроса в документе - если словосочетание “Красная площадь” присутствует в заголовках или названии документа, то документ с большей вероятностью посвящен Красной площади;
- Формы слов запроса - преимущество отдается вхождениям, в которых слова имеют тот же падеж, число, склонение и т.д. что и в запросе пользователя (“Красная площадь”, а не “Красной площадью”). Помимо точного совпадения, выделяются две группы форм слов - близкие и далекие.
Близкими считаются изменения по падежам, склонениям, спряжениям, числам и родам.
Далекими формами являются причастия, деепричастия и т.п.
При ранжировании преимущество отдается близким формам слов запроса.
- Относительная частота (отношение количества вхождений слов запроса в документ к общему количеству слов в документе) - если словосочетание встречается 10 раз в документе из 100 слов, то он скорее соответствует запросу, чем если оно встречается те же 10 раз в документе из 20 тысяч слов;
- Расстояние между словами запроса - если запрос состоит из нескольких слов, то в найденных документах оценивается, насколько близко друг от друга расположены эти слова. Преимущество отдается документам, в которых слова запроса находятся ближе друг к другу, потому что в этом случае они с большей вероятностью связаны между собой.
Например, если слово “Красная” расположено в тексте на 5 позиции, а слово “площадь” - на 650, то скорее всего в документе речь идет не о Красной площади.
- Посещаемость документа - в некоторых случаях поисковой машине Рамблер известна посещаемость страниц (если эти страницы являются участниками рейтинга Тор 100).
Преимущество отдается более посещаемым ресурсам.
- Ссылочный вес документа - при ранжировании учитывается ссылочный вес страницы, рассчитанный на основании учета гиперссылок, содержащих слова запроса.
Так, если на документ словами “Красная площадь” ссылается большое количество авторитетных страниц, то ему отдается приоритет по запросу Красная площадь.
Помимо автоматических способов увеличения точности поиска, существуют различные средства, с помощью которых пользователь сам может уточнить поиск по отдельным запросам.
В первую очередь к ним относится специальный язык поискового запроса, используя который можно ограничивать количество найденных документов.
Например, запрос или его часть, взятые в кавычки, обрабатываются буквально, с учетом всех стоп-слов, форм, порядка, знаков препинания.
Это повышает точность поиска, но уменьшает его полноту: если часть, заключенная в кавычки, неточна, нужный документ найден не будет.
Использование логического оператора OR (ИЛИ) позволяет расширить сферу поиска и увеличить его полноту, в то время как оператор NOT (И-НЕ), наоборот, повышает точность поиска за счет нахождения документов, которые содержат одни слова запроса и не содержат другие. Для повышения точности можно также задавать расстояние между словами.
Если в искомом словосочетании порядок слов обычно сохраняется (например, Красная площадь), то в запросе для повышения точности имеет смысл ограничить расстояние, указав его в скобках через запятую: (2, Красная площадь).
Это позволит отсеять документы, в которых слова красная и площадь не расположены рядом, а разбросаны по тексту.
Увеличить точность можно с помощью использования поиска в найденном.
Каждый следующий, уточняющий поиск, проводится уже не по всей индексной базе, а только по результатам предыдущего поиска. Таким образом, круг найденных документов сужается.
Например, если дать запрос Красная площадь, а затем, провести поиск в найденном по запросу Москва, то результат будет содержать только те документы, в которых говорится о Красной площади города Москвы.
Актуальность - не менее важная характеристика поиска, которая определяется временем, проходящим с момента публикации документов в сети Интернет, до занесения их в индексную базу. Например, на следующий день после теракта в Тушино огромное количество пользователей обратились к поисковой машине Рамблер с соответствующими запросами. Объективно с момента публикации новостной информации на эту тему прошло меньше суток.
Однако основные документы уже были заиндексированы и доступны для поиска, благодаря существованию “быстрой базы”, которая обновляется два раза в день, а при необходимости может обновляться быстрее.
На сегодняшний день индексная база поисковой системы Рамблер состоит из 8 частей, каждая из которых живет своей независимой жизнью. Весь Интернет условно разделен на 7 секторов и называется своим цветом: красный, оранжевый, желтый, зеленый, голубой, синий, фиолетовый. Сайт компании Рамблер относится к голубому сектору.
Информация о web-ресурсах каждого сектора хранится в соответствующей части индексной базы.
Восьмая часть - “быстрая база” - включает в себя страницы, на которых размещен счетчик Тор 100 и которые еще не успели попасть в основную индексную базу.
Все части индексной базы собираются и обновляются по отдельности. Так, сегодня происходит переиндексация и обновление красного сектора, завтра - оранжевого и желтого, послезавтра - зеленого и т.д.
Благодаря такому ступенчатому алгоритму в поисковой машине каждый день появляется свежая информация об одной седьмой части Интернета. Полный цикл обновления занимает около недели. При этом сбор информации происходит параллельно, а непосредственно на изготовление индекса документов одного сектора уходит всего несколько часов.
Поэтому существует принципиальная возможность обновлять индексную базу быстрее.
Разделение Интернета на 7 секторов условно. При необходимости он может быть разбит на 10, 20 или 40 секторов, каждый из которых будет обрабатываться автономно.
В такой системе заложена возможность значительного увеличения нагрузки. С ростом объема информации в сети Интернет растет и индексная база поисковой машины. Постепенно переиндексация и сборка базы начинает занимать все больше времени, а процесс обновления индекса становится более громоздким.
Поступление новых данных затягивается, информация начинает терять свою актуальность.
Возможность “передела” Интернета на большее число секторов позволяет удерживать размер каждой части базы в оптимальном диапазоне, контролировать время ее сборки и обновления.
“Быстрая база” отличается от остальных частей индекса меньшим объемом и очень оперативным обновлением: время ее построения занимает около двух часов. В базе содержится информация о страницах, на которых был установлен счетчик Тор 100. Участниками рейтинга Тор 100 являются новостные порталы, сайты крупных компаний, Интернет-магазины, форумы, - все наиболее популярные ресурсы в сети.
Каждый раз при установке счетчика на новую страницу сайта, зарегистрированного в Тор 100, информация передается в поисковую систему.
Страница ищется во всех цветах основной базы и, если она еще не известна поисковой системе, отправляется в очередь на обработку.
Перед обработкой страницы дополнительно фильтруются, из них отбираются самые посещаемые.
Таким образом, “сливки” с Интернета собираются два раза в день.
“Быстрая база” представляет собой разумное решение проблемы актуальности данных в поиске. Информационное агентство может выложить новость через десять минут после ее появления, потому что тратит время только на верстку страницы.
Поисковая машина должна сначала заиндексировать текст, а на это требуется гораздо больше времени. “Быстрая база” охватывает все ресурсы Интернет, зарегистрированные в Тор 100, на которых был размещен счетчик, и которые еще не успели попасть в основную базу.
При этом индексируются как страницы с новостями, так и другие свежие документы, появившиеся в Тор 100.
В результате через сутки после теракта в поиске Рамблера была доступна не только основная информация, опубликованная на сайтах новостных агентств, которую можно найти и прочитать в разделах новостей, но и комментарии, высказывания очевидцев, обсуждения на форумах, все, что было к этому времени опубликовано на наиболее посещаемых страницах Интернета.
Скорость поиска тесно связана с его устойчивостью к нагрузкам.
На сегодняшний день в рабочие часы к поисковой машине Рамблер приходит около 60 запросов в секунду.
Такая загруженность требует сокращения времени обработки отдельного запроса.
Здесь интересы пользователя и поисковой системы совпадают: посетитель хочет получить результаты как можно быстрее, а поисковая машина должна отрабатывать запрос максимально оперативно, чтобы не тормозить вычисление следующих.
Запрос поступает в поисковую систему через маршрутизатор Cisco 6000 series. Cisco передает его наименее загруженной машине первого уровня - frontend (1.1 - 1.3, на рис. машине 1.3).
Frontend, в свою очередь, отправляет запрос дальше, на один из семи proxy-серверов, также выбирая наиболее свободный сервер (2.1 - 2.7, на рис. машине 2.2).
Одновременно frontend отправляет запрос на машины, осуществляющие поиск по товарам (3.1 - 3.2, на рис. машине 3.1) и по базе Тор 100 (4.1 - 4.2, на рис. машине 4.1). На proxy проводится поиск по ссылочному индексу, и его результаты вместе с поисковым запросом передаются на машины, которые содержат основную индексную базу, - backends (5.1.х - 5.7.х, на рис. машинам 5.1.2, 5.2.10, 5.3.1 и т.д.) Та же информация отправляется на машины с “быстрой базой” (6.1 - 6.2, на рис.
6.1).
На текущий момент в поиск включено около 70 backend’ов. Они сгруппированы по 10 машин, и каждая группа содержит копию одной из частей поискового индекса.
Таким образом, информация о сайтах, условно входящих в красный сектор Интернета, находится на backend’ах первой группы (5.1.1 - 5.1.10 на рис), оранжевый сектор - на backend’ах второй группы (5.2.1 - 5.2.10) и т.д.
Proxy-сервер выбирает наименее загруженный backend в каждой группе машин и отправляет на него поисковый запрос с результатами ссылочного поиска. На backend’ах осуществляется поиск по частям индексной базы и ранжирование с учетом результатов поиска по ссылочному индексу.
При ранжировании для всех найденных документов высчитываются веса по конкретному запросу.
После того, как запрос обработан на backend’ах, информация о результатах и ранжировании отдается обратно на proxy-сервер. Туда же поступают отсортированные результаты с машин “быстрой базы”. Proxy интегрирует данные, полученные с восьми машин: клеит дубли, объединяет зеркала сайтов, переранжирует документы в общий список по весам, рассчитанным на backend’ах.
Так, первым в списке найденного может быть документ с машины 5.3.1, вторым и третьим - с 6.1, четвертым - с 5.5.2 и т.д. На proxy-сервере также реализуется построение цитат к документам и подсветка слов запроса в тексте.
Полученные результаты отдаются на frontend.
Помимо информации с proxy-сервера, frontend получает результаты из поиска по товарам и из базы Тор 100, отсортированные, с цитатами и подсветкой слов запроса.
Frontend осуществляет окончательное объединение результатов, генерирует html со списком найденного, вставляет баннеры и перевязки (ссылки на различные разделы Рамблера) и отдает html Cisco, который маршрутизирует информацию пользователю.
Каждый из этапов обработки запроса многократно продублирован и защищен системой балансировки нагрузки. Благодаря дублированию информации поисковая система Рамблер является устойчивой к сбоям на отдельных участках, авариям, отказам оборудования.
Если одна их машин перестала функционировать, нагрузка перераспределяется на другие машины, и выпадения документов из поиска не происходит. Масштабируемость достигается простым добавлением в систему машин соответствующего уровня.
До недавнего времени в Рамблере работало 40 backend’ов.
В связи с тем, что осенью нагрузка на поисковые системы обычно возрастает, число backend’ов было увеличено до 70, что позволило значительно ускорить вычисление запросов.
Еще один способ повышения скорости поиска - “кэширование”, сохранение информации о запросах и результатах поиска в буфере. Многие люди дают одни и те же поисковые запросы.
Вычислять их каждый раз заново было бы неразумной тратой времени.
Поэтому если запрос уже обрабатывался в течение некоторого интервала времени, результаты поиска отдаются пользователю “из кэша”.
Лингвистический анализ текста документов и запроса также позволяет ускорить обработку информации. Например, определение значения омонимов уменьшает количество нерелевантных запросу документов, которые нужно ранжировать и цитировать.
Выделение устойчивых обозначений (С++, б/у) на этапах индексации и обработки запроса приводит одновременно к повышению точности и сокращению временных затрат на обработку каждого отдельного элемента обозначения (раньше запрос С++ обрабатывался как отдельно латинское С, отдельно плюс и еще один плюс.
Запрос вычислялся долго, а среди результатов поиска было много нерелевантных документов, например, страницы, содержащие математические формулы и т.п.) С этой же целью используются словари стоп-слов. Стоп-слова - это наиболее частотные слова языка, которые встречаются практически в любом тексте и являются малоинформативными. В основном, это служебные слова - предлоги, частицы, артикли.
Если нет специальных указаний, поисковая машина игнорирует стоп-слова, встречающиеся в запросе, чтобы не тратить время на обработку дополнительной информации, снижающей качество поиска.
Наглядность представления результатов является необходимым компонентом удобного поиска. На плохой витрине легко не заметить хороший товар.
По большинству запросов поисковая машина находит сотни, а то и тысячи документов. В следствие нечеткости запросов или неточности поиска, даже первые страницы не всегда содержат только нужную информацию. Это означает, что пользователю часто приходится проводить свой собственный поиск внутри списка найденного.
Различные элементы ответной страницы помогают ориентироваться в результатах поиска.
Группировка по сайтам предназначена для того, чтобы на странице можно было вывести как можно больше Интернет-ресурсов, релевантных запросу пользователя. Это бывает важным, когда необходимо получить информацию из различных источников.
Если более информативной для посетителя является дата обновления или релевантность отдельных документов, в ответной странице Рамблера существует возможность сортировки по этим параметрам.
В некоторых случаях полезным бывает знание имени сайта.
Если пользователя интересует конкретный Интернет-ресурс, имя может дать ему гораздо больше информации, чем заголовок страницы или цитата.
Если запросу соответствует больше одной страницы с сайта, то в качестве результата поиска предъявляется наиболее релевантная из них, а ниже располагается частичный список остальных документов.
Это увеличивает количество потенциально полезной информации на ответной странице и часто позволяет уточнить поиск без дополнительного запроса.
Цитата помогает определить, насколько полезную информацию содержит найденный документ.
Очень часто посетителю не требуется переходить по ссылке, чтобы обнаружить, что текст не соответствует его интересам и потребностям.
Иногда ответ на вопрос пользователя содержится непосредственно в цитате документа.
Это экономит время и повышает эффективность работы поисковой системы.
Восстановить текст - иногда единственный способ получить доступ к содержимому найденного документа. Ресурс бывает недоступен по разным причинам.
Документ может быть удален, перенесен, изменен, но его текстовое содержание некоторое время сохраняется в индексной базе.
Кроме того, внутри самого документа часто отсутствует навигация, позволяющая быстро найти фрагмент, релевантный запросу.
В восстановленном тексте все слова запроса подсвечиваются.
Ассоциации представляют собой список запросов, которые часто подаются пользователями в течении одной поисковой сессии.
Алгоритм построения ассоциаций устроен так, что они почти всегда связаны между собой по смыслу. В некоторых случаях ассоциации позволяют повысить качество поиска за счет уточнения запроса (запрос “отдых в Польше” - ассоциации “отдых в Польше с детьми”, “семейный отдых”, “пансионаты в Польше”), исправления распространенных ошибок (запрос “gjujlf” - ассоциация “погода”), возможности сориентироваться в незнакомой тематике (запрос “антибиотик” - ассоциации “сумамед”, “цифран”, “бисептол” и т.д.)
Заключение пишется в конце и предполагает конечность.
Но рост информации бесконечен, а потому нет предела совершенствованию поисковых машин. Важнейшей задачей разработчиков является улучшение качества поиска, движение в сторону большей эффективности и удобства в использовании системы.
С этой целью постоянно меняются поисковые алгоритмы, создаются дополнительные сервисы, дорабатывается дизайн.
Однако для того, чтобы выжить в мире динамичного Интернета, при разработке необходимо закладывать большой запас устойчивости, постоянно заглядывать в завтрашний день и примерять будущую нагрузку на сегодняшний поиск.
Все, что сегодня программируется в Рамблере, рассчитано “на вырост”.
Такой подход позволяет заниматься не только постоянной борьбой и приспособлением поисковой машины к растущим объемам информации, но и реализовывать что-то новое, действительно важное и нужное для повышения эффективности поиска в сети Интернет.