Поисковая система не яндекс. Поисковая система яндекс ру. Понятие и функции поисковой системы

Ответы об IT » Креатив » Поисковая система не яндекс. Поисковая система яндекс ру. Понятие и функции поисковой системы

Поисковая система не яндекс. Поисковая система яндекс ру. Понятие и функции поисковой системы

Яндекс, на сегодняшний день, – популярнейшая в России поисковая система. Статистика сервиса LiveInternet , показывает долю Яндекса в массе общероссийской аудитории – это 53,4%, если учитывать только Москву и область, то еще выше – 67,9% (Москва по запросам занимает более 50% от всей России).

Cайт www.yandex.ru был создан в 1997 году, для него хватало всего одного сервера, который стоял под рабочим столом одного из группы первых разработчиков Яндекса, Дмитрия, по фамилии Тейблюм. Очень быстро после открытия приобрели второй сервер, а вскоре, когда понадобилось установить ещё один, стало понятно, что под столом хватает пространства либо на три сервера Яндекса, либо […]

Разработчики поисковых машин стремятся к тому, чтобы дать пользователям лучшие ответы на их запросы. Иногда таким ответом может оказаться число (например, погода в каком-нибудь городе), картинка (например, адрес на карте), перевод слова или четверостишие. Когда под рукой есть подходящий массив информации, ответ можно дать сразу. Поэтому Яндекс дополняет результаты поиска по интернету ответами от своих […]

Примерно каждый десятый запрос к Яндексу – «навигационный», то есть состоит из названия организации или сайта и пользователь хочет перейти на сайт этой организации. В этом случае поисковая строка Яндекса используется вместо адресной строки браузера и остальные девять поисковых результатов пользователя, как правило, не интересуют. Не отвлекая пользователя от главной цели, мы добавили после главного, […]

Основная задача поисковой системы – дать ответ на вопрос пользователя. Когда пользователь задает запрос, поисковая система не обращается к каждому сайту в интернете, а ищет по базе известных ей страниц – поисковому индексу. Там она находит все страницы со словами из запроса. Ссылки на эти страницы пользователь и видит на страницах результатов поиска.

Как мы видим, Яндекс не стоит на месте, и я уверен, что поисковые технологии этой системы будут развиваться и дальше, чтобы повышать качество поиска, которое пока трудно назвать идеальным.

10 ноября 2009 года Яндексом была анонсирована новая версия поискового алгоритма – Снежинск. Коренные изменения произошли в алгоритме расчета релевантности – представители Яндекса написали следующее: «Нам удалось создать более точную и гораздо более сложную математическую модель, которая привела к существенному приросту в качестве поиска. Благодаря переработке архитектуры ранжирования в поиске удалось реализовать учет нескольких тысяч […]

Тестирование новой версии алгоритма Яндекса началось 9 июля 2008 года. По заявлениям Яндекса, «основные изменения в программе связаны с новым подходом к машинному обучению и, как следствие, отличиями в способе учета факторов ранжирования в формуле».

14 апреля 2008 года адресу buki.yandex.ru начала тестироваться новый поисковый алгоритм «Магадан». Кроме того, что увеличилось вдвое количество факторов ранжирования, был также добавлены следующие нововведения:

Прежде чем пускаться в алгоритмические дебри, давайте вспомним, а как вообще устроена поисковая система. Логическую структуру поисковой системы можно представить в виде трех модулей (см. схему) Робот (краулер, crawler) – специальная программа, которая обходит интернет-сайты и загружает их содержимое. У робота есть специальное расписание, согласно которому он осуществляет свой обход. Страницы сайта, загруженные роботом, специальным […]

66. Что обладает большим влиянием: ссылка с фри-платформы (блогспот, жж и т.д.) или с автономного сайта/блога? С бесплатных платформ вес передаётся ниже, чем с автономных сайтов. Однако влияние может быть больше. Это связано с множеством факторов: текущий анкор-лист, состояние сравниваемых сайтов и др. Однозначного ответа на этот вопрос дать невозможно. 67. Наибольший вес передается между […]

Вамана Тур – путешествия, авиабилеты и визы по всему миру и в Индию, Непал, Шри-Ланку, на Мальдивы, Маврикий и многие другие места планеты. Советы путешественникам и пилигримам. Как получить максимальную пользу от поездки. Удивительные исторические хроники и рассказы бывалых путешественников.

Для чего используется учет внешних ссылок на сайт Как можно видеть из предыдущего раздела, почти все факторы, влияющие на ранжирование, находятся под контролем автора страницы. Таким образом, для поисковой системы становится невозможным отличить действительно качественный документ, от страницы созданной специально под заданную поисковую фразу или даже страницы, сгенерированной роботом и вообще не несущей полезной информации. […]

Мы не так уникальны, как думаем: миллионы людей до нас озадачивали и миллионы после нас озадачат поисковик почти одинаковыми вопросами. С другой стороны, мы слишком непредсказуемы: на формулировку нашего запроса влияет огромное количество неосознаваемых нами факторов. И хотя бы поэтому запрос каждого из нас, каким бы банальным он ни был, требует индивидуального подхода.

Фактически вся работа поисковика «Яндекс» сводится к двум простым вещам: понять, что на самом деле хочет узнать человек, и за несколько секунд найти для него среди миллиардов документов в Сети подходящие.

Снять отпечатки

Система работы поисковика чем-то похожа на Матрицу, а поисковый робот (созданная ею сложная, самостоятельно принимающая решения программа) - на агента Смита.

Чтобы не обыскивать весь Интернет каждый раз, когда кому-то что-то нужно узнать, поисковик делает часть работы заранее - проверяет, что есть в Сети и где это лежит, с помощью тысяч поисковых роботов. Они бывают двух типов: основной и быстрый. Основной обходит и обрабатывает Интернет в целом, а быстрый - документы, появившиеся минуту или даже пару секунд назад. Задача программ-роботов - отобрать годную и полезную для пользователей информацию, переработать ее, отсеяв все устаревшее и ненужное. В чем-то это напоминает сортировку мусора: бумага в один контейнер, стекло в другой, пластик в третий, пищевые отходы в четвертый...

Собранная роботами информация образует так называемый слепок Интернета. Он хранится на тысячах серверов «Яндекса» и постоянно обновляется. Слепок похож на список, в котором указано, в каком месте какую информацию можно найти. В этом списке у каждого ключевого слова указана не одна, а миллионы «страниц». Чтобы все обновления слепка были доступны пользователям, их переносят из хранилища на «базовый поиск». Данные от основного робота переносятся раз в несколько дней, а от быстрого робота - в реальном времени.

Вывести на чистую воду

ИЛЛЮСТРАЦИЯ: ЕВГЕНИЙ ТОНКОНОГИЙ

Разыскивая ответ на заданный вопрос в подготовленной базе, машина сталкивается с двумя основными сложностями. Первая сложность - язык. Прежде чем искать ответ на вопрос, машине важно понять, на каком языке это делать. Например, для русскоязычного человека на запрос «дружина князя Игоря» поиск найдет документы с информацией о войске, а для украинца на «дружина князя Iгоря» выдаст также документы, упоминающие княгиню Ольгу, его супругу, так как по-украински «жена» - это «дружина». Да и в богатом русском языке одно и то же слово или его производные могут означать разные вещи. Например, слово «стали» - это одна из форм существительного «сталь» и глагола «стать». Вторая сложность - человеческая психология. Вводя запрос, мы ожидаем быстрого и точного ответа, не заботясь, естественно, о соответствии формулировки запроса принципам математического анализа, по которым работает мозг машины. Например, введя в поисковую строку слово «наполеон», что человек хочет получить: рецепт торта или биографию французского императора, купить коньяк или найти адрес психиатрической больницы?

В таких ситуациях в дело вступают сразу несколько технологий. Можно выдать вам под строкой поиска несколько подсказок, конкретизирующих запрос. Мол, выберите, что вам нужно: наполеон-рецепты или Наполеон - Бонапарт. Если пользователь не реагирует на просьбу машины и не добавляет к «наполеону» слов, то делу помогает технология «Спектр»: не надеясь на помощь, машина сразу ищет информацию по нескольким категориям (и про торт, и про императора, и про конь як...). Кроме того, понять пользователя помогают механизмы персонализации - знания машины о том, что этот пользователь искал со своего компьютера день-два-три-месяц назад: если вы часто задавали «Яндексу» вопросы про кулинарию, то машина вначале покажет вам результаты, говорящие, что наполеон - торт.

Комбинации: клубы по интересам

Задача поисковой машины не сводится к тому, чтобы просто отобрать документы, в которых встречаются слова и словосочетания из поискового запроса. Машина должна понять, какие документы соответствуют нашим противоречивым требованиям и почему они им соответствуют. Хотим ли мы получить информацию о наполеоне - пирожном, или, может быть, мы пару лет посещали фитнес-клуб с пафосным названием, а то и вовсе озабочены комплексами людей невысокого роста. В любом случае решение задачи требует нетривиального подхода.

Создатели поисковой программы «Яндекс» нашли такой подход, делегировав право выбора машине. С одной стороны, бездушная, но очень быстрая и умная машина не знает и не хочет ничего знать о нас как о личностях, а с другой - она старается выяснить о каждом как можно больше.

Помимо географического положения пользователя и лингвистического анализа его запросов поисковая машина использует несколько тысяч критериев, совершенно не очевидных для человека.

Фокус в том, что эти критерии машина разрабатывает и обновляет самостоятельно.

Она просто использует данные о предпочтениях и пользовательском поведении миллионов людей и связывает это «среднее арифметическое» с историей наших запросов. Принципы, которыми руководствуется Матрица внутри себя, сопоставляя тысячи разработанных ею категорий пользовательских интересов, часто не укладываются в традиционные человеческие представления о том, какими в принципе могут быть «интересы». Их десятки тысяч. Они создают друг с другом разные, порой забавные, комбинации. К примеру, одной из таких комбинаций может являться соответствие результатов поиска интересам человека, разводящего тритонов. При этом человек не просто интересуется тритонами, а уже разводит их, но только первый год.

Оценки. Руки помощи

Матрица, конечно, сама решает (с помощью высшей математики), что и в какой последовательности нужно показать пользователям на основании десятков тысяч критериев. Но живых людей Матрица тоже использует - 1000 сотрудников «Яндекса», так называемых асессоров, оценивают результаты поиска по тому или иному запросу (конечно, не каждый запрос подвергается оценке, и делается это не в режиме реального времени) на предмет их соответствия ожиданиям обычного пользователя: не такого рационального, как машина, не такого точного в формулировках, противоречивого и эмоционального.

Уже давно стали неотъемлемой частью российского Интернета. Поисковые системы сейчас – это огромные и сложные механизмы, представляющие собой не только инструмент поиска информации, но и заманчивые сферы для бизнеса.

Большинство пользователей поисковых систем никогда не задумывались (либо задумывались, но не нашли ответа) о принципе работы поисковых систем, о схеме обрабатки запросов пользователей, о том, из чего эти системы состоят и как функционируют…

Данный мастер-класс призван дать ответ на вопрос о том, как работают поисковые системы. Однако, Вы не найдете здесь факторов, влияющих на ранжирование документов. И тем более не стоит рассчитывать на подробное объяснение алгоритма работы Яндекса. Его, по словам Ильи Сегаловича, - директора по технологиям и разработке поисковой машины «Яндекс», можно узнать, лишь «под пыткой» самого Ильи Сегаловича…

2. Понятие и функции поисковой системы

Поисковая система - это программно-аппаратный комплекс, предназначенный для осуществления поиска в сети Интернет и реагирующий на запрос пользователя, задаваемый в виде текстовой фразы (поискового запроса), выдачей списка ссылок на источники информации, в порядке релевантности (в соответствии запросу). Наиболее крупные международные поисковые системы: «Google» , «Yahoo» , «MSN» . В русском Интернете это – «Яндекс» , «Рамблер» , «Апорт» .

Рассмотрим подробнее понятие поискового запроса на примере поисковой системы «Яндекс». Поисковый запрос должен быть сформулирован пользователем в соответствии с тем, что он хочет найти, максимально кратко и просто. Допустим, мы хотим найти информацию в «Яндексе» о том, как выбрать автомобиль. Для этого, открываем главную страницу «Яндекса», и вводим текст поискового запроса «как выбрать автомобиль». Далее, наша задача сводится к тому, чтобы открыть предоставленные по нашему запросу ссылки на источники информации в Интернет. Однако, вполне можно и не найти нужную нам информацию. Если таковое произошло, то либо нужно перефразировать свой запрос, либо в базе поисковой системе действительно нет никакой актуальной информации по нашему запросу (такое может быть при задании очень «узких» запросов, как, например «как выбрать автомобиль в Архангельске»)

Первоочередная задача любой поисковой системы – доставлять людям именно ту информацию, которую они ищут. А научить пользователей делать «правильные» запросы к системе, т.е. запросы, соответствующие принципам работы поисковых систем, невозможно. Поэтому разработчики создают такие алгоритмы и принципы работы поисковых систем, которые бы позволяли находить пользователям искомую ими информацию.

Это означает, поисковая система должна «думать» так же, как думает пользователь при поиске информации. Когда пользователь обращается с запросом к поисковой машине, он хочет найти то, что ему нужно, максимально быстро и просто. Получая результат, он оценивает работу системы, руководствуясь несколькими основными параметрами. Нашел ли он то, что искал? Если не нашел, то сколько раз ему пришлось перефразировать запрос, чтобы найти искомое? Насколько актуальную информацию он смог найти? Насколько быстро обрабатывала запрос поисковая машина? Насколько удобно были представлены результаты поиска? Был ли искомый результат первым или же сотым? Как много ненужного мусора было найдено наравне с полезной информацией? Найдется ли нужная информация, при обращении к поисковой системе, скажем, через неделю, или через месяц?

Для того, чтобы удовлетворить ответами все эти вопросы, разработчики поисковых машин постоянно совершенствуют алгоритмы и принципы поиска, добавляют новые функции и возможности, всячески пытаются ускорить работу системы.

3. Основные характеристики поисковой системы

Опишем основные характеристики поисковых систем:

Полнота
Полнота - одна из основных характеристик поисковой системы, представляющая собой отношение количества найденных по запросу документов к общему числу документов в сети Интернет, удовлетворяющих данному запросу. К примеру, если в Интернете имеется 100 страниц, содержащих словосочетание «как выбрать автомобиль», а по соответствующему запросу было найдено всего 60 из них, то полнота поиска будет 0,6. Очевидно, что чем полнее поиск, тем меньше вероятность того, что пользователь не найдет нужный ему документ, при условии, что он вообще существует в Интернете.
Точность
Точность - еще одна основная характеристика поисковой машины, которая определяется степенью соответствия найденных документов запросу пользователя. Например, если по запросу «как выбрать автомобиль» находится 100 документов, в 50 из них содержится словосочетание «как выбрать автомобиль», а в остальных просто наличествуют эти слова («как правильно выбрать магнитолу и установить в автомобиль»), то точность поиска считается равной 50/100 (=0,5). Чем точнее поиск, тем быстрее пользователь найдет нужные ему документы, тем меньше различного рода «мусора» среди них будет встречаться, тем реже найденные документы не будут соответствовать запросу.
Актуальность
Актуальность - не менее важная составляющая поиска, которая характеризуется временем, проходящим с момента публикации документов в сети Интернет, до занесения их в индексную базу поисковой системы. Например, на следующий день после появления интересной новости, большое количество пользователей обратились к поисковым системам с соответствующими запросами. Объективно с момента публикации новостной информации на эту тему прошло меньше суток, однако основные документы уже были проиндексированы и доступны для поиска, благодаря существованию у крупных поисковых систем так называемой «быстрой базы», которая обновляется несколько раз в день.
Скорость поиска
Скорость поиска тесно связана с его устойчивостью к нагрузкам. Например, по данным ООО «Рамблер Интернет Холдинг», на сегодняшний день в рабочие часы к поисковой машине Рамблер приходит около 60 запросов в секунду. Такая загруженность требует сокращения времени обработки отдельного запроса. Здесь интересы пользователя и поисковой системы совпадают: посетитель желает получить результаты как можно быстрее, а поисковая машина должна отрабатывать запрос максимально оперативно, чтобы не тормозить вычисление следующих запросов.
Наглядность

4. Краткая история развития поисковых систем

В начальный период развития Интернет, число его пользователей было невелико, а объем доступной информации сравнительно небольшим. В большинстве своем, доступ к сети Интернет имели лишь сотрудники научно-исследовательской сферы. В это время задача поиска информации в Интернете не была столь актуальной, как в настоящее время.

Одним из первых способов организации доступа к информационным ресурсам сети стало создание открытых каталогов сайтов, ссылки на ресурсы в которых группировались согласно тематике. Первым таким проектом стал сайт Yahoo.com, открывшийся весной 1994 года. После того, как количество сайтов в каталоге значительно увеличилось, была добавлена возможность поиска нужной информации по каталогу. В полном смысле это еще не было поисковой системой, так как поисковая область была ограничена только ресурсами, присутствующими в каталоге, а не всеми Интернет ресурсами.

Каталоги ссылок широко использовались ранее, однако практически полностью утратили свою популярность в настоящее время. Так как даже современные, огромные по своему объему каталоги, содержат информацию лишь о ничтожно малой части сети Интернет. Самый большой каталог сети DMOZ (его еще называют Open Directory Project) содержит информацию о 5 миллионах ресурсов, тогда как база поисковой системы Google состоит из более чем 8 миллиардов документов.

В 1995 году появились поисковые системы Lycos и AltaVista. Последняя долгие годы была лидером в области поиска информации в сети Интернет.

В 1997 году Сергей Брин и Ларри Пейдж создали поисковую машину Google в рамках исследовательского проекта в Стэндфордском университете. В настоящий момент Google - самая популярная поисковая система в мире!

В сентябре 1997 года была официально анонсирована поисковая система Yandex, являющаяся самой популярной в русскоязычном Интернете.

В настоящее время существуют три основные поисковые системы (международные) – Google, Yahoo и , имеющие собственные базы и алгоритмы поиска. Большинство остальных поисковых систем (коих насчитывается большое количество) использует в том или ином виде результаты трех перечисленных. Например, поиск AOL (search.aol.com) использует базу Google, а AltaVista, Lycos и AllTheWeb – базу Yahoo.

5. Состав и принципы работы поисковой системы

В России основной поисковой системой является «Яндекс», далее - Rambler.ru, Google.ru, Aport.ru, Mail.ru. Причем, на данный момент, Mail.ru использует механизм и базу поиска «Яндекса».

Практически все крупные поисковые системы имеют свою собственную структуру, отличную от других. Однако можно выделить общие для всех поисковых машин основные компоненты. Различия в структуре могут быть лишь в виде реализации механизмов взаимодействия этих компонентов.

Модуль индексирования

Модуль индексирования состоит из трех вспомогательных программ (роботов):

Spider (паук) – программа, предназначенная для скачивания веб-страниц. «Паук» обеспечивает скачивание страницы и извлекает все внутренние ссылки с этой страницы. Скачивается html-код каждой страницы. Для скачивания страниц роботы используют протоколы HTTP. Работает «паук» следующим образом. Робот на сервер передает запрос “get/path/document” и некоторые другие команды HTTP-запроса. В ответ робот получает текстовый поток, содержащий служебную информацию и непосредственно сам документ.

URL страницы
дата, когда страница была скачана
http-заголовок ответа сервера
тело страницы (html-код)

Crawler («путешествующий» паук) – программа, которая автоматически проходит по всем ссылкам, найденным на странице. Выделяет все ссылки, присутствующие на странице. Его задача - определить, куда дальше должен идти паук, основываясь на ссылках или исходя из заранее заданного списка адресов. Crawler, следуя по найденным ссылкам, осуществляет поиск новых документов, еще неизвестных поисковой системе.

Indexer (робот- индексатор) - программа, которая анализирует веб-страницы, скаченные пауками. Индексатор разбирает страницу на составные части и анализирует их, применяя собственные лексические и морфологические алгоритмы. Анализу подвергаются различные элементы страницы, такие как текст, заголовки, ссылки структурные и стилевые особенности, специальные служебные html-теги и т.д.

Таким образом, модуль индексирования позволяет обходить по ссылкам заданное множество ресурсов, скачивать встречающиеся страницы, извлекать ссылки на новые страницы из получаемых документов и производить полный анализ этих документов.

База данных

База данных, или индекс поисковой системы - это система хранения данных, информационный массив, в котором хранятся специальным образом преобразованные параметры всех скачанных и обработанных модулем индексирования документов.

Поисковый сервер

Поисковый сервер является важнейшим элементом всей системы, так как от алгоритмов, которые лежат в основе ее функционирования, напрямую зависит качество и скорость поиска.

Поисковый сервер работает следующим образом:

Полученный от пользователя запрос подвергается морфологическому анализу. Генерируется информационное окружение каждого документа, содержащегося в базе (которое и будет впоследствии отображено в виде , то есть соответствующей запросу текстовой информации на странице выдачи результатов поиска).
Полученные данные передаются в качестве входных параметров специальному модулю ранжирования. Происходит обработка данных по всем документам, в результате чего, для каждого документа рассчитывается собственный рейтинг, характеризующий релевантность запроса, введенного пользователем, и различных составляющих этого документа, хранящихся в индексе поисковой системы.
В зависимости от выбора пользователя этот рейтинг может быть скорректирован дополнительными условиями (например, так называемый «расширенный поиск»).
Далее генерируется сниппет, то есть, для каждого найденного документа из таблицы документов извлекаются заголовок, краткая аннотация, наиболее соответствующая запросу и ссылка на сам документ, причем найденные слова подсвечиваются.
Полученные результаты поиска передаются пользователю в виде SERP (Search Engine Result Page) – страницы выдачи поисковых результатов.

Как видно, все эти компоненты тесно связаны друг с другом и работают во взаимодействии, образовывая четкий, достаточно сложный механизм работы поисковой системы, требующий огромных затрат ресурсов.

6. Заключение

Теперь подытожим все вышесказанное.

Первоочередная задача любой поисковой системы – доставлять людям именно ту информацию, которую они ищут.
Основные характеристики поисковых систем:
1. Полнота
2. Точность
3. Актуальность
4. Скорость поиска
5. Наглядность
Первой полноценной поисковой системой стал проект WebCrawler, вышедший в свет в 1994 году.
В состав поисковой системы входят компоненты:
1. Модуль индексирования
2. База данных
3. Поисковый сервер

Надеемся, наш мастер-класс позволит Вам поближе ознакомиться с понятием ПС, лучше узнать основные функции, характеристики и принцип работы поисковых систем.

Добрый день, уважаемые читатели моего сео блога . Эта статья о том, как работает поисковая система Яндекс , какие она использует технологии и алгоритмы для ранжирования сайтов, что делает для подготовки ответа пользователям. Многие знают, что этот флагман русского поиска задает тон в Рунете, владеет самой большой базой данных в Евразии, оперирует контентом более чем миллиарда страниц, знает ответ на любой вопрос. По данным Liveinternet за август 2012 года, доля Яндекса в России составляет 60,5%. Месячная аудитория портала - 48,9 миллионов человек. Но самое главное, для нас, блоггеров в том, как поисковая система получает наши запросы, как их обрабатывает и какой результат получается на выходе. С одной стороны, зная и понимая эту информацию, нам проще пользоваться всеми ресурсами Яндекса, с другой стороны — легче продвигать наши блоги. Поэтому, предлагаю вместе со мной посмотреть самые важные технологии лучшей поисковой системы Рунета.

Когда пользователь Интернета впервые хочет обратиться за информацией к поисковой системе, у него может возникнуть один вопрос: «Как происходит поиск?» Но когда он ее получает, зачастую этот вопрос меняется на другой: «Почему так быстро?» И действительно, почему поиск какого-нибудь файла на компьютере занимает 20 секунд, а результат запроса со всей сети компьютеров по всему миру появляется через секунду? Самое интересное, что первых два вопроса (как происходит поиск и почему 1 секунда) могут быть в одном ответе — поисковая система заранее подготовилась к запросу пользователя.

Чтобы понять принцип работы Яндекса, как и другой поисковой системы, проведем аналогию с телефонным справочником. Чтобы найти любой номер телефона, необходимо знать фамилию абонента и любой поиск занимает в таком случае максимум минуту, потому что все страницы справочника — это сплошной алфавитный указатель. А вот представьте себе, если бы поиск шел по другому варианту, где номера телефонов были бы упорядочены по самим номерам. После таких поисков, которые уже затянутся на более продолжительное время, цифры перед глазами искавшего будут еще очень долго стоять. 🙂

Так и поисковая система раскладывает всю информацию из Интернета в удобном для нее виде. И самое главное, все эти данные заранее кладутся в ее справочник, до прихода посетителя со своими запросами. То есть, когда мы задаем Яндексу вопрос, он уже знает наш ответ. И выдает нам его через секунду. Но эта секунда включает в себя ряд важнейших процессов, которые мы сейчас подробно рассмотрим.

Индексирование Интернета

Яндекс ру собирает в сети Интернет всю информацию, до которой может дотянутся. С помощью специального оборудования, отсматривается весь контент, в том числе и изображения по визуальным параметрам. Занимается таким сбором поисковая машина, а сам процесс сбора и подготовки данных называется индексированием. В основу такой машины входит компьютерная система, которая по другому именуется поисковый робот. Он регулярно обходит проиндексированные сайты, проверяет их на наличие нового контента, а также сканирует Интернет в поисках удаленных страниц. Если он обнаруживает, что какая-то такая страница больше не существует или закрыта от индексирования, то удаляет ее из поиска.

Как поисковый робот находит новые сайты? Во-первых, благодаря ссылкам с других сайтов. Потому что если на новый веб-ресурс поставлена ссылка с уже проиндексированного сайта, то при следующем посещении второго, робот зайдет в гости и к первому. Во-вторых, в есть чудесный сервис, в народе называемый «аддурилка» (от словосочетания на английском языке -addurl — добавить адрес). В нем можно внести адрес Вашего нового сайта, который через некоторое время посетит поисковый робот. В-третьих, с помощью специальной программы «Яндекс.Бар» отслеживается посещение пользователей, которые ею пользуются. Соответственно, если человек попал на новый веб-ресурс, в скором времени там появится и робот.

Все ли страницы попадают в поиск? Каждый день индексируются миллионы страниц. Среди них есть страницы различного качества, в которых может содержатся разная информация — от уникального контента до сплошного мусора. Причем, как говорит статистика, мусора в Интернете намного больше. Каждый документ поисковый робот анализирует с помощью специальных алгоритмов. Он определяет, есть ли у него какая-нибудь полезная информация, сможет ли он ответить на запрос пользователя. Если нет, то такие страницы не берут «в космонавты», если же да, то он включается в поиск.

После того, как робот посетил страницу и определил ее полезность, она появляется в хранилище поисковой машины. Здесь идет разбор любого документа до самых основ, как говорят мастера автоцентра — до винтиков. Страница очищается от html-разметки, чистый текст проходит полную инвентаризацию — подсчитывается местоположение каждого слова. В таком разобранном виде страница превращается в таблицу с цифрами и буквами, которую по другому называют индексом. Теперь, чтобы не случилось с веб-ресурсом, в котором содержится эта страница, ее последняя копия всегда есть в поиске. Даже если сайт уже не существует, слепки его документов еще некоторое время хранятся в Интернете.

Каждый индекс вместе с данными о типах документов, кодировке, языке вместе с копиями составляют поисковую базу . Она периодически обновляется, поэтому находится на специальных серверах, с помощью которых происходит обработка запросов пользователей поисковой системы.

Как часто происходит процесс индексации? В первую очередь это зависит от типов сайтов. Веб-ресурс первого типа очень часто меняет содержимое своих страниц. То есть, когда к этим страницам каждый раз приходит поисковый робот, они каждый раз содержат другой контент. По ним ничего в следующий раз уже не получится найти, поэтому такие сайты не включаются в индекс. Второй тип сайтов — хранилища данных, на страницах которых периодически добавляются ссылки на документы для скачивания. Контент такого сайта обычно не меняется, поэтому его робот посещает крайне редко. Другие сайты зависят от частоты обновления материала. Имеется в виду следующее — чем быстрее появляется новый контент на сайте, тем чаще приходит поисковый робот. И приоритет отдается в первую очередь наиболее важным веб-ресурсам (новостной сайт на порядок важнее, чем любой блог, к примеру).

Индексирование позволяет выполнить первую функцию поисковой системы — сбор информации на новых страницах в сети Интернет. Но у Яндекса есть и вторая функция — поиск ответа на запрос пользователя в уже подготовленной поисковой базе.

Яндекс готовит ответ

Процессом обработки запроса и выдачей релевантных ответов занимается компьютерная система «Метапоиск» . Для своей работы сначала она собирает всю вводную информацию: из какого региона был осуществлен запрос, к какому классу относится, есть ли ошибки в запросе и т.д. После такой обработки метапоиск проверяет, есть ли в базе точно такие же запросы с такими же параметрами. Если ответ положительный, то система показывает пользователю заранее сохраненные результаты. Если же такого вопроса в базе не существует, метапоиск обращается поисковой базе, в которой содержатся данные индекса.

И вот здесь происходят удивительные вещи. Представьте себе, что существует один супермощный компьютер, который хранит в себе весь обработанный поисковыми роботами Интернет. Пользователь задает запрос и в ячейках памяти начинается поиск всех документов, причастных к запросу. Ответ найден и все довольны. Но возьмем другой случай, когда появляется очень много запросов, содержащих в своем теле одинаковые слова. Система должна каждый раз пройтись по одним и тем же ячейкам памяти, что может увеличить время на обработку данных в разы. Соответственно, увеличивается время, что может привести к потери пользователя — он обратится за помощью к другой поисковой системе.

Чтобы таких задержек не было, все копии в индексе сайтов распределены по разным компьютерам. После передачи запроса, метапоиск дает команду таким серверам искать свой кусочек с текстом. После чего, все данные от этих машин возвращаются в центральный компьютер, он объединяет все полученные результаты и выдает пользователю первую десятку самых лучших ответов. С такой технологией сразу убивается два зайца: в несколько раз уменьшается время поиска (ответ получается за доли секунды) и благодаря увеличению площадок дублируется информация (данные не теряются из-за внезапных поломок). Сами компьютеры с дублирующей информацией составляют дата-центр — это комната с серверами.

Когда пользователь поисковой системы задает свой запрос,в 20-ти случаях из 100 получаются неоднозначные цели в вопросе. Например, если он пишет в строке поиска слово «Наполеон», то еще не известно, какой ответ ожидает — рецепт торта или биография великого полководца. Или фраза «Братья Гримм» — сказки, фильмы, музыкальная группа. Чтобы такой возможный веер целей сузить до конкретных ответов в Яндексе существует специальная технология С п е к т р . Она учитывает потребности пользователей, используя статистику поисковых запросов. Из всех вопросов, заданных в Яндексе посетителями, Спектр выделяет в них различные объекты (имена людей, названия книг, модели машин и т.д.) Эти объекты распределены по некоторым категориям. На сегодняшний момент таких категорий насчитывается более 60-ти. С помощью них поисковая система имеет в своей базе разные значения слов в запросах пользователей. Интересно, что эти категории периодически проверяются (анализ происходит пару раз в неделю), что позволяет Яндексу более точно давать ответы на поставленные вопросы.

На базе технологии Спектр Яндекс организовал диалоговые подсказки. Они появляются под поисковой строкой, в которой пользователь набирает свой неоднозначный запрос. В этой строке отражены категории, к которым может относится объект вопроса. От выбора пользователем такой категории зависят дальнейшие результаты поиска.

От 15 до 30% всех пользователей поисковой системы Яндекс желают получить только местную информацию (данные того региона, в котором они живут). Например, о новых фильмах в кинотеатрах своего города. Поэтому ответ на такой запрос должен быть разным для каждого региона. В связи с этим, Яндекс использует свою технологию поиска с учетом регионов . Например, вот такие ответы могут получить жители, которые ищут репертуар фильмов в своем кинотеатре «Октябрь»:

А вот такой результат получат жители города Ставрополь на тот же запрос:

Регион пользователя определяется в первую очередь по его ip-адресу. Иногда эти данные не точны, потому что ряд провайдеров могут сразу работать на несколько регионов, а значит и менять ip-адреса cвоим пользователям. В принципе, если такое случилось с Вами, Вы легко можете поменять в настройках в поисковой системе свой регион. Он указан в правом верхнем углу на странице выдачи результатов. Изменить его можно .

Поисковая система Яндекс ру — результаты ответа

Когда Метапоиск подготовил ответ, поисковая система Яндекс должна выдать его на странице с результатами. Она представляет собой перечень ссылок на найденные документы с небольшой информацией по каждому. Задача технологии выдачи результатов — максимально информативно предоставить пользователю самые релевантные ответы. Шаблон одной такой ссылки выглядит следующим образом:

Рассмотрим эту форму результата поподробней. Для заголовка результата поиска Яндекс часто использует название заголовка страницы (то, что оптимизаторы прописывают в теге title). Если же его нет, то здесь появляются слова из названия статьи или поста. Если текст заголовка большой, поисковая система ставит в это поле его фрагмент, который больше всего релевантен к заданному запросу.

Очень редко, но бывает так, что заголовок не соответствует содержанию запроса. В таком случае Яндекс формирует свой заголовок результата поиска, используя текст в статье или посте. Он обязательно будет иметь слова запроса.

Для сниппета поисковая система использует весь текст на странице. Она выбирает все фрагменты, где присутствует ответ на запрос, а потом выбирает самый релевантный из них и вставляет в поле формы ссылки на документ. Благодаря такому подходу, грамотный оптимизатор может после увиденного сниппета его переделать, тем самым улучшив привлекательность ссылки.

Для лучшего восприятия результата на запрос пользователя, заголовки оформляются как ссылки в тексте (выделение синим цветом с подчеркиванием). Для привлекательности веб-ресурса и его узнаваемости добавляется фавикон — маленький фирменный значок сайта. Он появляется слева от текста в первой строке перед заголовком. Все слова, которые входили в запрос в ответе тоже выделены жирным шрифтом для удобства восприятия.

В последнее время в сниппет поисковая система Яндекса добавляет различную информацию, которая поможет пользователю еще быстрее и точнее найти свой ответ. К примеру, если пользователь в своем запросе пишет название какой-либо организации, то в сниппете Яндекс добавит адрес ее, контактные телефоны и ссылку на месторасположение в географических картах. Если поисковой системе знакома структура сайта, в котором есть документ с ответом для пользователя, он ее обязательно покажет. Плюс к этому Яндекс тут же может добавить в сниппет наиболее посещаемые страницы такого веб-ресурса, чтобы при желании посетитель смог сразу перейти в нужный ему раздел, экономя свое время.

Есть сниппеты, которые содержат в себе цену какого-либо товара для интернет-магазина, рейтинг отеля или ресторана в виде звездочек, другая интересная информация с различными цифрами о объектах в документах поиска. Задача такой информации — дать полный перечень данных о тех предметах или объектах, которые интересны пользователю.

В целом уже с различными примерами страница с ответами будет выглядеть так:

Ранжирование и асессоры

В задачу Яндекса входит не только поиск всех возможных вариантов ответа, но и подбор самых лучших (релевантных). Ведь пользователь не будет рыться во всех ссылках, которые ему предоставит в качестве результата поисков Яндекс. Процесс упорядочивания результатов поиска называется ранжированием . То есть именно ранжирование определяет качество предлагаемых ответов.

Есть правила, по которым Яндекс определяет релевантные страницы:

понижение в позициях на странице с результатами ждут сайты, которые ухудшают качество поиска. Обычно это такие веб-ресурсы, владельцы которых пытаются обмануть поисковую систему. К примеру, это сайты со страницами, на которых находится бессмысленный или невидимый текст. Конечно, он видим и понятен поисковому роботу, но не посетителю, читающему этот документ. Или сайты, которые при переходе на ссылке в зоне выдачи сразу переводят пользователя совсем на другой сайт.
не попадают в выдачу результатов или сильно понижаются в ранжировании сайты, содержащие в себе эротический контент. Это связано с тем, что часто такие веб-ресурсы используют агрессивные методы продвижения.
зараженные вирусами сайты не понижаются в выдаче и не исключаются с результатов поиска — в этом случае пользователь информируется об опасности с помощью специального значка. Это связано с тем, что Яндекс предполагает, что на таких веб-ресурсах могут находиться важные документы по запросу посетителя поисковой системы.

К примеру, так будет ранжировать Яндекс сайты по запросу «яблоко»:

Кроме факторов ранжирования Яндекс использует специальные образцы с запросами и ответами на них, которые пользователи поисковой системы считают самыми подходящими. Такие образцы ни одна машина не сможет сделать на данный момент — это прерогатива человека. В Яндексе такие специалисты называются асессорами . В их задачу входит полный анализ всех документов поиска и оценка ответов на заданные запросы. Они выбирают лучшие ответы и составляют специальную обучающую выборку. В ней поисковая машина видит зависимость между релевантными страницами и их свойствами. Имея такую информацию Яндекс может подобрать для каждого запроса оптимальную формулу ранжирования. Метод построения такой формулы называется Матрикснет. Плюс этой системы в том, что она устойчива к переобучению, что позволяет учитывать большое количество факторов ранжирования, не увеличивая количество ненужных оценок и закономерностей.

В завершении моего поста хочу показать вам интересную статистику, собранную поисковой системой Яндекса в процессе своей работы.

1. Популярность личных имён в России и российских городах (данные взяты из учетных записей блоггеров и пользователей социальных сетей в марте 2012 года).

Великий провидец

В 1863 году великий писатель Жюль Верн создал очередную свою книгу «Париж в ХХ веке». В ней он подробно описал метро, автомобиль, электрический стул, компьютер и даже сеть Интернет. Однако издатель отказался печатать книгу и она пролежала более 120 лет, пока ее не нашел правнук Жюля Верна в 1989 году. Издана была книга в 1994году.

Сегодня отправляемся в очередной долгий путь путешествий по витиеватым дорожкам развития поисковика (Яndex , Yandex ). Думаю, отечественный гигант сетевого поиска давно уже вырос до такого уровня, чтобы не полениться, и копнуть все его кулуары, вспомнить, как развивалась поисковая система Яндекс, что интересного было за все годы его существования.

Тем более что получает немало посетителей из поисковой системы Яндекс. Многие из них уходят по контекстной рекламе , недавно блог приняли я , поэтому я считаю, что эта компания более чем достойна того, чтобы о ней написали большую публикацию.

Если брать в расчет русский интернет, то здесь Яндекс является безусловным лидером. В России это первая по значимости поисковая система. Есть региональные поисковики, своего рода филиалы в Белоруссии, Украине, Казахстане. Yandex пользуется большой популярностью у жителей этих стран. Я могу судить об этом хотя бы по статистике , видя, что немало посетителей приходит из других регионов.

В настоящее время Яндекс – это не только поисковая система, это еще и многочисленные сервисы, к которым могут получить доступ абсолютно все пользователи этой поисковой машины. Здесь можно найти и нужную информацию, и сориентироваться по выбору досуга, находить картинки, товары, сравнивать цены, смотреть погоду, общаться в социальной сети, смотреть расписание телепередач, транспорта. Есть многочисленные корпоративные решения. Можно даже на Народ.ру. На Яndex реализована удобная система , где реализован функционал для работы со своими сайтами. В числе последних доступных нововведений сервиса – , который достаточно долго оставался платным, но в декабре 2011 года этот сервис стал доступен абсолютно всем.

Про замечательные технологии и полезные сервисы компании Яндекс можно продолжать еще очень и очень долго. Поэтому для удобства восприятия информации я разобью наше путешествие на составляющие. Опишу весь путь поисковика в хронологическом порядке по годам — от создания и до сегодняшнего времени.

История развития Яндекса

1980-е — 1990-е годы

История развития компании Яндекс пускает свои корни в теперь уже далекие 80-е годы, бытность СССР. Именно тогда впервые началась разработка программного обеспечения для поиска в компании «Аркадия». Работы велись под руководством Аркадия Борковского и Аркадия Воложа. Именно та первая поисковая технология получила название «Яndex». А сам сайт Яндекса, тот самый, который мы можем видеть сегодня, появился в 1996 году. Разработки, которые велись в то время, были признаны перспективными, вследствие чего руководством CompTek (продажа компьютеров и комплектующих) и разработчиками системы было принято решение о целесообразности дальнейшего развития технологии, и внедрения ее в массы. В связи с этим была подготовлена концепция развития проекта, ориентированная на широкую аудиторию.

Официально Яндекс был анонсирован лишь 23 сентября 1997 года. И по сути в первое время это было одно из подразделений компании CompTek International. То есть, самостоятельности там было вообще с гулькин нос. И лишь в 2000 году Яндекс стал той компанией, которой ее можно видеть сегодня. В том смысле, что компания стала уже полностью независимой. Независимый Яndex.

Кстати, еще задолго до анонса поисковика Yandex компании придумали название. Яndex – означает «Языковой index». Если переводить с английского, то получается «Yet Another indexer». Правда, потом, по мере развития поисковой машины, стали появляться и другие толкования. К примеру, если в английском Index перевести с английского на русский первую букву (I – Я), то получится «Яndex».

Придумали название «Яндекс» Илья Сегалович (нынешний директор по технологиям), и Аркадий Волож

Еще за год, до официального релиза компании, 18 октября 1996 года состоялась выставка Netcom’96, на которой компанией CompTek были представлены первые продукты развивающейся поисковой машины. Это были Яndex.Site и Яndex.Dict. Затем еще через полгода появился Яndex.CD – поиск документов на CD ROM, ну а затем стартанул проект Яndex.Lib. Это была пакетная библиотека Яндекса, которая предназначалась для встраивания во всевозможные приложения и базы данных.

На тот момент, когда Яндекс.ру был официально представлен общественности, из интересного можно выделить следующее:

Оценка релевантности документов. На то время Яндекс довольно хорошо умел искать копии, и исключать их. При этом документы искались в различных кодировках

Поиск по точной словоформе. Яшка умел искать с учетом морфологии

Поиск с учетом расстояния. Yandex умел искать в пределах абзаца, по точным словосочетаниям

Функционировало ядро оценки релевантности страниц. Для каждого запроса подбирались документы с учетом соответствия (релевантности) запросу. Кроме того, при подборе документов для поисковой выдачи учитывалась частота (плотность) ключевого слова на странице. Кстати, именно ввиду несовершенства (на тот момент) этого алгоритма, в топ поисковой выдачи выходили страницы плотно набитые ключевыми словами, фактически без смысла.

Также при поиске принималось во внимание расстояние между словами, и то, как расположены слова в документе

Дизайн сайта Яндекс

Самый первый дизайн для сайта Yandex был достаточно примитивен, и несовершенен. Разработал его всем известный Артемий Лебедев. Выглядел он так

Кстати, в этом же году открылся форум Яндекса . Предназначался для общения пользователей системы с разработчиками. Идея была хорошая, и форум нормально функционировал. Правда, просуществовал он до 2008 года. Тогда произошла небольшая перестановка приоритетов. Насколько я могу судить, предпочтение было отдано социализации. Яндекс к тому же стал активно развивать собственную социальную сеть, на базе которой и появился нынешний блог, где выходят все анонсы Яндекса, и где, собственно, и происходит общение пользователей с разработчиками. Можете посмотреть сами, старый урл форума (http://forum.yandex.ru/yandex/ ) сегодня редиректит на всем известный http://webmaster.ya.ru/ .

1998 год

Проект, который получил старт, показывал хороший потенциал, над ним продолжали работать. В 1998 году был усовершенствован движок поиска, внедрили множество других функциональных возможностей для пользователей. В частности, появилась возможность искать в найденном, искать похожие документы и многое другое. Работы ведутся также и над дизайном главной страницы Яндекса. Теперь она немного изменилась

Как видите, внешне особо ничего не поменялось. В большей степени велись технические работы

1999 год

За год аудитория российской доли интернета значительно выросла. Вместе с ней подросли в качестве и технологии Яндекса, разработчики внедрили много улучшений. Поисковая машина Яndex внедрила нового поискового бота, за счет чего значительно увеличилась скорость обхода документов в сети.

Нововведения, которые затронули пользовательские части функционала, были следующими:

Появилась возможность осуществлять поиск более прицельно – по аннотациям, подписям, картинкам, заголовкам

Ввели ограничение поиска на группу сайтов

Отдельно выделялись документы на русском языке

Кстати, именно в 1999 году было впервые введено всем сегодня известное понятия (тематического индекса цитирования). Правда, тогда он рассчитывался достаточно примитивно. Авторитет сайта (он же ТИЦ), зависел в большей степени от количества сайтов, которые ссылались на интересующий нас домен.

Дизайн главной, кстати, тоже изменился. Теперь он стал уже чем-то более похожим на нынешний

Было в том, 1999 году и еще одно значимое событие. Именно тогда появился бесплатный конструктор сайтов, более известный всем нам как Народ.ру (бесплатный хостинг и файлообменник). К слову, этот проект существует и до сих пор. Девиз данного проекта был таким – за 60 секунд.

2000 год

Возможно, именно внедрение новых сервисов позволило Яндексу выйти на принципиально новый уровень развития. Со временем поисковая машина прочно закрепила за собой статус , что позволило значительно . По сути, это был уже новый проект, не тот, который стартовал под эгидой CompTek.

В 1999 году Аркадий Волож, поняв перспективу развития проекта, стал заниматься только продвижением Яндекса. Но сложность при этом заключалась в том, что необходимо было найти опытных партнеров, которые бы навыками корпоративного строительства. Единственной сложностью было том, что нужно было найти таких партнеров, которые бы вкладывали средства в развитие проекта, но при этом не требовали бы полной передачи управления под свое начало.

И такой партнер был найден. Это была компания ru-Net Holdings . Весной 2000 года с этой компанией был заключен договор об инвестировании. Здесь, правда, не обошлось без жертв. Определенную долю поисковика все-таки пришлось отдать. Согласно договору компании отходила 1/3 поисковика. То есть, с этого момента Яндекс перестал быть структурным подразделением компании CompTek, а стал самостоятельной компанией, у которой были свои офисы, свое руководство, свою бюджет и т.д. Генеральным директором компании стал Аркадий Волож.

Считаю, что Яндексу здорово повезло с его первым руководителем, потому что Волож оказался не только специалистом по поиску потенциальных партнеров, но и хорошим новатором. После начала самостоятельного «плавания» в компании начались грандиозные перемены. Значительно пополнился штат, а сам ресурс получил новый пинок от своих руководителей.

В общей сложности ru-Net Holdings инвестировали около $5 млн. Что сказать, сделка получилась очень выгодной, особенно учитывая тот факт, что сегодня поисковик номер один в рунете будет стоить как минимум под несколько сотен миллионов долларов. Это при самом скромном подсчете.

2000 год стал знаменательным еще и по той причине, что именно в этом году стала более четко вырисовываться мультипортальность Яндекса, ибо стало появляться много сервисов, которые напрямую на поиске не были завязаны. Такими сервисами стали Яндекс.Новости, Яндекс.Почта, Открытки, строка поиска по адресу ya.ru. Кроме этого, было много сервисов, которые впоследствии объединились, став тем, что нам сегодня известно под названием Яндекс.Маркет. Кроме этого, еще одним значительным нововведением стало внедрение специализированного программного обеспечения для интеграции в пользовательские браузеры – Яндекс Бар.

2001 год

Этот год стал переломным, потому что в 2001 году Яндекс стал лидером рунета по посещаемости. Помимо этого выросло и количество информации, хранящейся на серверах компании. Ее размер составил 1 терабайт. Кстати, Яндекс.Картинки появились тоже в этом году. Кроме этого, появилась электронная платежная система Яндекс.Деньги

Кроме того, более ощутимо был доработан дизайн главной страницы Яндекса. Здесь появились ссылки на новые сервисы, новости. Можно сказать, что в целом появились уже очертания сегодняшнего Яндекса

2002 год

В этом году разработчики активно работали над улучшением сервиса связи – Яндекс.Почта. Была проделана большая работа по фильтрации корреспонденции. 2002 год стал годом слияния трех сервисов – Товары, Гуру и Подбери в один – Яндекс.Маркет. К слову, сами видите, что этот сервис даже сегодня очень актуален. Возможно, впервые за все годы инвестирования в 2002 году появилась цель – выйти на самоокупаемость. Нужно было разработать стратегическую систему монетизации проекта. К тому же такую, которая бы в перспективе приносила стабильную и большую прибыль. Такой моделью стала , и именно те доходы, которые компания стала получать этот этой рекламной модели, позволили выйти на самоокупаемость значительно раньше, чем предполагалось. Поэтому можно сказать, что 2002 год стал переломным в плане выхода на бизнес-ориентированную модель, которая к тому же, уже стала приносить свои плоды.

2003 год

В этом году продолжились активные работы над сервисом Яндекс.Почта. Здесь были внедрены очередные массовые изменения, затронувшие всех пользователей системы. Разумеется, Я.Почта стала более функциональной и удобной. Забегая вперед, хочу сказать, что в будущем сервис тоже очень активно развивался, и его пользователи еще не раз видели много новых интересных фишек. В частности, пользователи получили неограниченный размер ящика и новый спам-фильтр «Спамооборона». В 2003 году дизайн Яndex вновь обновился.

Кстати, каждый дизайн соответствовал определенной версии. Версия дизайна 2003 года была восьмой по счету, и выглядела так

Любой выкат новой версии дизайна изначально проходит период бета-тестирования. И если до этого бета-тесты проводились в закрытом режиме, то на этот раз за две недели пробного тестирования нового интерфейса получить доступ к новому интерфейсу мог любой желающий. Правда, через год главную снова апгрейдили, но уже более удачно. И она в таком виде просуществовала до 2007 года.

Яндекс уже даже в то время был достаточно авторитетной компанией, потому что уже в 2003 году поисковый движок Yandex был успешно внедрен в президентский сайт. Осенью 2003 года разработчики выкатили очередные обновления продуктов: Яндекс.Паблишер (Yandex.Publisher), Яндекс.Сервер (Яndex.Server) ставший наследием Яндекс.Сайт.

2004 год

Бизнес-модель, занятая поисковиком номер один в рунете, очень хорошо работала, вследствие чего прибыль, получаемая компанией, в 2004 году составляла уже десятки миллионов долларов. Это дало толчок к развитию новых сервисов, например, сервис поиска по карте, блогам, форумам. 2004 год примечателен также тем, что именно тогда на российском рынке появился серьезный конкурент в лице Google. Возникла острая необходимость вступать в борьбу за лидерство, в результате чего руководством Яndex было принято решение увеличить штат сотрудников в десятки раз. Изначально было 200, после обновления штата сотрудников стало 2.000 сотрудников. Но главное, что после обновления персонала ничего не изменилось в худшую строну. Традиции остались, технологии тоже были на уровне. Да и в целом можно сказать, что Яша не превратился в сухую корпорацию.

Битва технологий: Яндекс vs Google

2005 год

Этот год прошел под лозунгом географического расширения представительства компании. Потому что появился украинское представительство Яндекса – Яндекс.Украина. Кстати, директор этого представительства – Сергей Петренко, основатель всем известного серча и автор интересного блога БлоGнот

2005 год стал знаменательным еще и потому, что открылась моя любимая . Это сервис по принципу «колотибабло вебмастер», а если по-русски, то это сервис, позволяющий вебмастерам на размещении рекламы на своих сайтах.

В этом же году появились и Яндекс.Словари. Изменения произошли также в сервисе Яндекс.Деньги. Теперь все пользователи получили возможность управлять своим счетом посредством интернет-кошелька.

2006 год

Этот год запомнился появлением всем известного ныне сервиса blogs.yandex.ru. Это своего рода маркетинговый инструмент. Позволял изучать общественное мнение, отзывы в блогах, форумах. В Яндекс.Картах ввели инструмент отображения пробок.

С 2006 по 2010 год Яндекс располагался в старом офисе на ул.Самокатной в г.Москве

Как видите, ранее у них было тесновато. Это не сейчас, огромное здание на 2000 сотрудников.

В 2006 году было и еще одно интересное событие – открылся первый удаленный офис разработки в Санкт-Петербурге. Тогда, конечно, масштабы были еще не те. Это не то что на сегодняшний день в Яндексе 11 офисов в России, Украине, Турции и даже Калифорнии. Офисы различаются по видам деятельности. Есть офисы, занимающиеся разработкой, офисы продаж, офисы, которые работают по направлению локализации продуктов

2007 год

В этом году произошли события, более ориентированные на вебмастеров. В частности, появился сервис Яндекс.Фотки. Но для меня, как для вебмастера, более интересное событие – это появления сервиса Яндекс.Метрика . Правда, тогда это был совсем сырой сервис, да и ориентирован он был не на вебмастеров, а на рекламодателей Яндекс.Директа. В том же году открылось украинское представительство — Yandex.ua. На сегодняшний день по данным LiveInternet почти 14% русскоязычного трафика приходится именно на yandex.ua

Также в 2007 году стартанул известный всем вебмастерам проект , которым сейчас не пользуется, наверное, только ленивый

2008 год

Можно сказать, что в этом году сфера влияния Яндекса настолько увеличилась, что было принято решение открыть филиал поисковика в США, Калифорнии. Тогда же в алгоритмы были внесены существенные дополнения. В частности, стали поддерживаться международные стандарты Sitemap, MediaRSS и др. То есть, как видите, сферы интересов вышли далеко за пределы рунета. Поисковик номер один рунета теперь стал англоязычные сайты. До этого проблема была в том, что отечественный поисковик не поддерживал международных стандартов, в связи с чем была проблема с индексацией сайтов из буржунета, но после апгрейда 2008 года эта проблема решилась. И уже после этого логотип Yandex стали писать полностью на русском.

2009 год

Этот год был знаменателен тем, что до этого не было разделения поиска по регионам. То есть, до введения данного алгоритма была построена на принципах единообразия. Вводишь, например, в поисковую строку запрос « » в Москве и в Новосибирске, и получаешь одинаковые результаты. Теперь все изменилось. И в поисковую выдачу подмешиваются результаты, построенные по принципу геозависимости. Говоря проще – если будете искать при помощи Яндекса в Москве и Новосибирске, то результаты будут разными.

В 2009 году продолжались работы по ранее выбранному западному направлению. В частности, тестировался сервис, при помощи которого переводились зарубежные сайты. Потом этот сервис эволюционировал, и в 2011 году стал называться Яндекс.Перевод.

Не менее важным событием стало внедрение нового метода машинного обучения – Матрикснет . Эта технология применяет в качестве оценки различные закономерности, и учитывает различные факторы ранжирования. Но главное, что технология самообучаема. При оценке асессоров происходит оценка только реальных закономерностей, полностью исключается нахождение несуществующих.

Революционность данной технологии заключается в том, что Матрикснет использует невероятно сложную формулу ранжирования, которая учитывает огромное количество факторов. Это, с одной стороны, позволяет добиться более качественной поисковой выдачи, а с другой стороны, не даст возможности вебмастерам понять эту закономерность, и, следовательно, воздействовать на нее в своих интересах.

Подробно о технологии матрикснет: