Гуглояндекс.

Это прекрасно.



Автор склейки имеется. У него через эту дырку украли кучу сайтов из ЯК несколько лет назад, с тех пор и воюет за справедливость. Может теперь баг пофиксят?

Куда потерялось 90М показов в Яндексе?

Я тут выступил на конференции "Поисковая оптимизация и продвижение сайтов в Интернете", рассказывал, как можно спрогнозировать тематический поисковый трафик с хорошей точностью с помощью простейшего метода битья в бубен. :)

На одной секции со мной делал доклад "Алгоритмы автоматизированного составления семантики" Николай Хиврин из компании Мегаиндекс.

В частности, он спарсил целиком вордстат Яндекса и получил суммарную частоту показов - 450М в месяц, включая перестановки. Исключив перестановки, Николай получил 225М показов, это по всем запросам, частота показов по которым хотя бы несколько штук в месяц. Положим, что он слегка ошибся с перестановками, и таких показов 300М. Т.е. 10М в день.

Я бегло опросил нескольких людей из поисковой индустрии и получил примерно одинаковые данные по доле показов в хвосте запросов - около 80%. Под "хвостом" подразумевались совсем редкие запросы, которые не попадают в вордстат.

Путём нехитрых вычислений получаем, что 10М в день по частотным запросам - это 20% от всех показов, т.е. всего около 50М показов в день. Однако на той же конференции представитель Яндекса Садовский дважды озвучил со сцены другое число - 140М показов в день.

Вопрос - куда потерялось 90М показов? :)

Про Диалог 2012

Внезапно вспомнил, что ничего не написал про конференцию Диалог 2012, на которой я побывал две недели назад.

Конференция замечательная, пансионат "Бекасово СПА" вполне приличный, кормили хорошо, ну и давно я так не веселился, как в эти 4 дня. Ну например - в первый же день слова одного из докладчиков "для обучения использовались такие методы, как баггинг и бустинг" вызвали в зале дикий гогот на пару минут. Слова были не просто не знакомы ученому сообществу, они были смешными до колик. Это на научной (!) конференции по компьютерной (!) лингвистике. Докладчик, кстати, сам не понимал, что это за баггинг и бустинг такие, не смог объяснить. :)

А вообще в нашей так называемой "компюьерной лингвистике" весело. Особенно если всякие вопросы задавать. :)

Количество просмотренных страниц на серпе.

Эксперименты одного из поисковиков недавно показали, что уменьшение времени загрузки страницы с ответами увеличивает количество просмотренных страниц. При той же выдаче. Т.е. прямой корреляции между качеством поиска и кол-вом просмотренных страниц как бы нет. Неожиданно.

Используем фичи на кликах.

Когда мы пытались что-то родить для ИМАТ-2011, возник стандартный вопрос - как бы так набрать фичей, чтобы всех забороть? Тогда мы разобраться не успели и забили на это все. А сейчас с какого-то бодуна вспомнили, поковырялись в литературе и собрали большинство факторов в кучки: "Поведенческие (кликовые) факторы в информационном поиске. Обзор". Надеюсь, что кому-то этот список поможет. :)

Какие из факторов лучше, мы не стали писать, потому что это, во-первых, зависит от модели, а, во-вторых, приличные исследования на данную тему есть только внутри индустрии и они все закрытые. У нас есть доступ к каким-то цифрам, но палить чужую инфу невозможно.

Стабильность выдачи Яндекса – большое благо или большая бага?

На прошедшем Киборифе-2012, в секции поиска из зала был задан вопрос: почему выдача Яндекса стала слишком стабильной по высокочастотным запросам? Сайты в топ-10 не меняются годами, даже дорвеи, попавшие когда-то в топ, остаются там практически навсегда. На что яндексоиды заявили, что стабильность выдачи – это замечательно. Ведь на вопрос выдача отвечает. И если пользователь захочет вернуться к своему запросу через несколько дней, он не потеряет понравившиеся раньше урлы. К тому же активная обвязка выдачи всяческими колдунщиками и рекламой позволяют получить ответ, вообще не кликая на органику. Ну а дорвеи и прочий мусор всегда можно вычистить вручную, по стуку.

Такой ответ Яндекса кому-то может показаться вполне нормальным, но только не вебмастерам, которые хотя бы раз общались с саппортом ведущего отечественного поисковика. Потому что саппорт в большинство своих ответов вставляет фразу «развивайте свой сайт в соответствии с нашими рекомендациями и со временем его позиции будут улучшаться». Каким образом будут улучшаться позиции, если выдача почти незыблема? Хоть ты образвивайся. :)

По словам оптимизаторов, во многих тематиках давно появились сайты с качеством лучше, чем в текущем топ-10, но этим сайтам не суждено увидеть поисковый трафик, остается только развиваться и утираться.

С внедрением алгоритмов под общим названием Матрикснет, некоторые поведенческие факторы, применяемые в ранжировании Яндекса, получили необычайно сильное влияние. «Необычайно» - это примерно в 10-20 раз сильнее, чем подавляющее большинство сотен других факторов. Какие именно кликовые факторы имеют такое больше влияние на выдачу, я не скажу, чтобы не усугублять накрутки, но эти факторы очевидные.

Ситуация, когда простейшие фичи имеют значительное влияние на ранжирование, для поисковика неприемлема, т.к. существует огромная масса поисковых оптимизаторов, которые эти фичи тут же начинают использовать. Но яндексоиды эту проблему побороть не смогли, влияние отдельных кликовых фич практически не уменьшилось, поэтому они сделали вид, что это вовсе не проблема, а большой плюс их ранжированию.

Кликовые факторы обладают сильной обратной связью, т.к. чем выше урл в поиске, тем больше на него кликают (при примерно равных сниппетах). Соответственно, при сильном влиянии кликовых факторов, топовые сайты в выдаче укрепляют свои позиции не зависимо от своего качества, только благодаря попаданию в топ. Стабильность выдачи увеличивается, выпасть из топа уже гораздо сложнее, чем попасть в топ. Я подозреваю, что за год большинство изменений выдачи по высокочастотным запросам произошло отнюдь не из-за изменения релевантности некоторых документов и не из-за появления новых хороших сайтов. Часть сайтов была выброшена из топов благодаря вводу не особо разборчивых фильтров «за переоптимизацию» (об этом надо бы как-нибудь написать отдельную кучу добрых слов), а другая часть попала в топ благодаря накликам оптимизаторов. Кликовые технологии в СЕО развивает большинство крупных оптимизаторских контор, судя по всему – весьма успешно.

Кстати, Гугл на той же секции Киборифа ответил, что у него никакой стабильности в выдаче быть не может, потому что они постоянно ищут новые хорошие сайты и стараются выдать вопрошающему не просто что-то такое стабильное и как бы релевантное, а лучшее на сегодня.

Яндекс слился со сниппетами

Слив начался в начале марта, когда по большой группе популярных (в основном коммерческих и конкурентных) запросов Яндекс отказался от традиционного формирования заголовков и аннотаций для страниц в выдаче. Теперь, если сайт есть в Яндекс.Каталоге и в его описании присутствуют слова запроса, то тупо берется каталожное описание.

Фактически, Яндекс признал, что его многолетние исследования аннотирования документов привели ни к чему, и то, что получается извлечь из текста документа автоматом - явно хуже унылых каталожных описаний.

Каталожная унылость видна в первую очередь в заголовках. Возьмем для примера запрос "сантехника": Collapse )

Немного про ИМАТ-2011

Попытка отвлечь хоть кого-то от текущей политической "борьбы". :)

Я тут в конце ноября внезапно вспомнил призыв от alsafr зарубиться на ИМ. Скачали мы данные, но профессиональных программистов в коллективе не наблюдается, поэтому массивы такого объема обрабатываются с трудом, на сегодня еле приползли к тому, что начали вникать в суть. :)

Дык вот, есть мысль, которая показалась мне забавной - текущая верхняя граница в соревновательной таблице (0.67) закономерна, и она вычисляется тупо по свойствам обучающего множества. Как вычисляется, я пока не буду говорить (хотя оно может быть и очевидно, хз). Было бы любопытно это дело как-то красиво расписать и погонять на разных обучалках. В итоге может получиться прикольная теория. :)

Что касается рубилова, то от какого-нибудь не очевидного ника мы может и сдадим пару решений, если успеем, от очевидного - только если удастся найти реальные интересные свойства в этих щелчковых дебрях. Бодаться похожими методами за доли процента ради первого места не интересно, ни о чем такое место не скажет. Я так думаю, что все, кто покажет на обоих тестах больше 0.66, сделали вполне приличные алгоритмы, примерно одного хорошего уровня.

Поиск Mail.ru

На прошедшем Форуме Технологий Mail.Ru 2011 Андрей Калинин, руководитель разработки поиска, о нем и рассказал. Видео тут, презентация тут.

Резюме: делали они в Майле Гогу, делали, а в итоге из Гоги вышел Яндекс.Лайт. Никакого разнообразия... :)

P.S. Остальные видео с форума тут, наверняка там интересные доклады есть для кого-то.