Тарифы Услуги Сим-карты

Расчет pagerank. Растолкованный PageRank. Откуда же берется большой PageRank

Коллеги, наконец мы готовы представить вашему вниманию революционную функцию Netpeak Spider – расчёт внутреннего PageRank! От старого механизма расчёта ничего не осталось, а для внедрения нового мы были вынуждены провести предыдущий релиз, который в корне поменял алгоритм сканирования внутри программы. Мы подготовили для вас этот пост-инструкцию, к которому вы сможете вернуться прямо из интерфейса нового инструмента расчёта внутреннего PageRank.

Что такое PageRank

PageRank – это относительный вес страницы, рассчитанный по формуле:

PR (A) = (1 - d) / N + d * (PR(B) / L(B) + PR(C) / L(C) + ...)

  • N – общее количество активных узлов (страниц), участвующих в расчёте;
  • d – коэффициент затухания (обычно используется значение 0,85);
  • L – количество исходящих ссылок.

Принято считать, что на нулевой (0) итерации PageRank каждой страницы одинаковый и равен 1 / N. На следующих итерациях используется вес всех входящих ссылок, который представляет собой вес с предыдущей итерации делённый на количество исходящих ссылок (в формуле – L).

Специально для вас мы подготовили несколько таблиц, которые наглядно показывают работу алгоритма:

Google рассчитывает этот параметр для каждой страницы в сети Интернет, а Netpeak Spider позволяет посчитать внутренний PageRank , который ограничивается данными просканированного сайта или списка URL.

Зачем считать внутренний PageRank

Данная функция является революционной как минимум потому, что позволяет узнать настоящие инсайты о вашем проекте:

1. Понимайте, как именно распределяется ссылочный вес по сайту и где он концентрируется.

2. Определяйте, какие неважные для поискового продвижения страницы получают избыточный вес.

3. Знайте, какие страницы являются «висячими узлами» и просто-напросто «сжигают» входящий ссылочный вес.

Если предположить, что на ваш сайт ведут внешние ссылки, то только представьте себе, сколько бюджета на SEO-продвижение можно сэкономить, внедрив более эффективную схему внутренней перелинковки.

Как рассчитать внутренний PageRank

В Netpeak Spider предусмотрено 2 способа расчёта внутреннего PageRank:

1. Автоматический

Просто выберите специальный параметр «Внутренний PageRank» в настройках сканирования на вкладке «Параметры» и он будет рассчитываться автоматически во время приостановки процесса сканирования или после его успешного завершения.

Обратите внимание, что для расчёта этого показателя обязательно необходимо включить параметр «Исходящие ссылки», так как именно исходящие ссылки являются основой для получения ссылочных связей, без которых посчитать внутренний PageRank не получится.

2. Ручной (с помощью отдельного инструмента)

Для вызова специального инструмента перейдите в меню «Инструменты» → «Расчёт внутреннего PageRank».

Здесь вы увидите следующие блоки:

2.1. Настройки, которые также используются и для автоматического способа расчёта:

  • количество итераций [от 5 до 50] → большее количество итераций обеспечивает более высокую точность расчётов, однако по нашим наблюдениям около 15 итераций является наиболее подходящим значением, позволяя быстро получить необходимый результат, поэтому в Netpeak Spider установлено 15 итераций по умолчанию;
  • только внутренние ссылки → настройка, позволяющая отключить влияние всех внешних исходящих ссылок на расчёты;
  • только ссылки на вкладке [Все результаты] / [Фильтры] → настройка, позволяющая ограничить расчёты только теми ссылками, которые находятся на соответствующих вкладках: используйте [Фильтры] в тех случаях, когда вам необходимо рассчитать PageRank только внутри определённой категории анализируемого сайта;
  • режим отображения результатов → «Реальный» показывает точные значения PageRank, но может быть неудобным для сайтов с большим количеством страниц; «Адаптивный» режим даёт возможность увидеть те же данные, но умноженные на специальный коэффициент, позволяя удобно работать с большими сайтами.

Обратите внимание, что если вы одновременно отключите галочки «только внутренние ссылки» и «только ссылки на вкладке [Все результаты] / [Фильтры]», то Netpeak Spider при расчётах начнёт загружать и анализировать все исходящие ссылки со всех просканированных страниц. В этом случае в отчёте могут появиться ссылки со статус-кодом «Not Crawled» (не просканированы) – это необходимо для того, чтобы максимально правильно рассчитать внутренний PageRank, основываясь на актуальных исходящих ссылках.

2.2. Формула, по которой считается внутренний PageRank, а также вышеуказанные параметры N, d и ссылка на эту статью.

2.3. Список игнорируемых URL: вы можете добавить ссылку в этот список, что позволит полностью исключить её из анализа PageRank. Данная функция позволяет очень гибко работать с расчётами, меняя внутреннюю перелинковку прямо в программе.

Обратите внимание, что исключается не отдельная ссылка на определённой странице, а весь узел: представьте себе, что нет ни одной ссылки на эту страницу со всего сайта (входящие ссылки) и ни одной ссылки с этой страницы на другие страницы сайта (исходящие ссылки).

2.4. Экспорт данных из таблицы в файл в формате CSV / Excel.

2.5. Результирующая таблица, которая содержит следующие столбцы:

  • блок «Страницы» → порядковый номер (#) и ссылка на страницу;
  • блок «Итерации» → после запуска расчётов здесь будут появляться соответствующие столбцы с данными по каждой итерации;
  • блок «Взаимосвязи» → здесь показывается количество исходящих и входящих ссылок, которые можно открыть двойным нажатием левой кнопки мыши или вызвав контекстное меню: специально для вас был разработан удобный просмотр этих отчётов с возможностью переходить вглубь и возвращаться с помощью привычных кнопок «Назад» / «Вперёд», получая полный доступ к графу связей;
  • блок «Алгоритмический анализ» → здесь собраны параметры, которые определяются именно с помощью алгоритма PageRank, а именно «Статус ссылки» (подробнее об этом параметре читайте ниже) и «Конечная ссылка» – показывается в тех случаях, если в результате работы алгоритма было найдено перенаправление;
  • блок «Основные параметры» → позволяет увидеть код ответа сервера и тип контента соответствующих страниц;
  • блок «Параметры индексации» → объединяет параметры, которые критично влияют на распределение ссылочного веса на сайте: инструкции из Robots.txt, Canonical, X-Robots-Tag, Meta Robots, а также конечный URL редиректа и тег Refresh, если они присутствуют на странице.

В нижней части таблицы подсчитывается «Сумма всех PageRank» → на каждой итерации сумма должна быть равна 1 (в «Реальном» режиме) или 10 в соответствующей степени (в «Адаптивном» режиме). Если сумма отличается от указанных значений, значит на анализируемом сайте есть висячие узлы, на которых вы теряете ссылочный вес.

2.6. Статус-панель, которая в паре с результирующей таблицей показывает все шаги работы алгоритма, позволяя пользователям увидеть динамику расчётов.

При выходе из инструмента «Расчёт внутреннего PageRank» данные последней итерации будут автоматически помещены в главную таблицу программы в соответствующую колонку. Если до этого в главной таблице уже были какие-то данные, то более свежие затрут их.

Алгоритм расчёта

Ещё раз напомним, что для расчёта внутреннего PageRank необходимо включить параметр «Исходящие ссылки», который покрывает все взаимосвязи между страницами, позволяя учитывать основные инструкции по индексации, атрибуты ссылок и варианты перенаправления ссылочного веса.

Весь процесс состоит из 2 последовательных этапов:

1. Построение графа связей → целью данного этапа является построение взаимосвязи ссылок и установка их статуса:

1.2. Начальный анализ → разбиение ссылок по статусам «OK», «Висячий узел» и «Перенаправление» (подробнее о статусах ссылок читайте ниже).

1.4. Подсчёт входящих ссылок.

1.5. Финальный анализ → детальный анализ исходящих и входящих ссылок, а также определение «Конечных ссылок» и ссылок в статусе «Несвязанный узел».

2. Расчёт внутреннего PageRank → начиная с 0 итерации и до указанной в настройках.

Статусы ссылок

Самая интересная часть алгоритма PageRank – логически все ссылки делятся по 4 статусам:

1. OK

Это HTML-страницы c кодом ответа сервера «200 OK», которые содержат исходящие ссылки и могут быть:

  • noindex, то есть неиндексируемыми → да, вам не показалось: неиндексируемые страницы тоже проводят ссылочный вес
  • с тегом Canonical, указанным на себя
  • с тегом Refresh, указанным на себя

2. Висячий узел

Страницы, у которых количество исходящих ссылок равно 0, то есть эти страницы не передают ссылочный вес, полностью его теряя.

К этому типу относятся:

  • 2xx страницы, которые просто не содержат исходящих ссылок
  • 2xx страницы, закрытые в Robots.txt
  • 2xx страницы с nofollow в инструкциях X-Robots-Tag или Meta Robots
  • 2xx страницы, но не HTML и, соответственно, не имеющие исходящих ссылок
  • 3xx ссылки, закрытые в Robots.txt
  • 3xx ссылки с бесконечным редиректом (статус-код «3xx Redirect Loop»)
  • 4xx страницы
  • 5xx страницы
  • страницы, возвращающие любой другой код ответа сервера
  • перенаправляющие страницы (Canonical или Refresh), которые не достигли целевой страницы: в этом случае будет отображаться статус-код «Endless Redirected», то есть бесконечный редирект
  • исходящие ссылки, которых нет в таблице «Все результаты» → обратите внимание, что по умолчанию при отключённых галочках «только внутренние ссылки» и «только ссылки на вкладке [Все результаты] / [Фильтры]» Netpeak Spider будет пытаться найти все ссылки, которые есть на сайте независимо от настроек сканирования – это необходимо для того, чтобы составить полную и точную картину передачи ссылочного веса

3. Перенаправление

К этому типу относятся:

  • 3xx страницы
  • 2xx страницы с тегом Canonical, указанным на другую страницу
  • 2xx страницы с тегом Refresh, указанным на другую страницу

4. Несвязанный узел

Сcылки, которые не имеют входящих ссылок.

  • сканировании сайта с выключенным учётом инструкций по индексации (Robots.txt, Canonical, Refresh, X-Robots-Tag, Meta Robots и атрибут nofollow у ссылок) → обратите внимание, что при выключении учёта данных инструкций Netpeak Spider сканирует сайт уже не так, как это делают роботы поисковых систем, однако алгоритм PageRank всегда работает с учётом данных инструкций, потому некоторые ссылки, полученные в результате сканирования, могут оказаться недостижимыми для алгоритма PageRank.
  • сканировании собственного списка URL → ссылки, которые никак не связаны между собой.

3 новые ошибки

Сразу после автоматического или ручного расчёта внутреннего PageRank в главный интерфейс программы попадут 3 типа ошибок, если они присутствуют на сайте:

  • PageRank: висячий узел → как было указано выше, это страницы без исходящих ссылок, которые не пропускают ссылочный вес, нарушая тем самым естественное распределение ссылочного веса по сайту;
  • PageRank: перенаправление → страницы, перенаправляющие ссылочный вес – это могут быть страницы, возвращающие 3xx редирект или содержащие теги Canonical / Refresh, указывающие на другой URL.
  • PageRank: отсутствуют связи → это недостижимые страницы, на которые не было найдено ни одной входящей ссылки.

Коротко о главном

Коллеги, нам удалось реализовать наиболее точный алгоритм расчёта внутреннего PageRank, который позволяет вам узнать ряд инсайтов об анализируемом сайте: как именно распределяется по страницам ссылочный вес, какие ненужные для SEO страницы получают избыточный вес, какие присутствуют на сайте «висячие узлы» и, наконец, как можно исправить эти ошибки.

Пробуйте новую уникальную функцию, экспериментируйте с различными настройками и внедряйте новые более эффективные схемы внутренней перелинковки! :)

SEO: Поисковая Оптимизация от А до Я =>

Растолкованный PageRank

Написано и придумано Крисом Райдингсом (Chris Ridings), владельцем .

Отредактировано Джилл Вэйлен (Jill Whalen), владельцем HighRankings.com и комодератором рассылки Rank Write Roundtable (http://www.rankwrite.com/ ). Переведено на русский язык и прокомментировано

Александром Садовским, http://digits.ru/

Версия 1.1. Последняя коррекция – 9 ноября 2001. Переведено и прокомментировано 4 января 2002.

Введение

Этот документ раскрывает мое понимание и точку зрения на алгоритм PageRank в Google . Для тех, кто не знает меня: я разрабатываю поисковые системы на заказ. Поэтому мне присуще программистское понимание алгоритмов поисковых систем, как они работают, что они могут делать, а что нет. Из-за этого я способен сделать немало выводов о том, как работает PageRank. Я верю, что информация в данном документе настолько точна, насколько возможно. Никто не знает наверняка детали PageRank, исключая саму Google 1 . Не стесняйтесь спрашивать о выводах, которые вы не можете понять; с помощью общения мои предположения могут стать более корректными. Пишите, пожалуйста, мне на [email protected] свои вопросы и комментарии.

Достаточно предисловий, приступим к тому, чему посвящен этот документ - к PageRank!

Что такое PageRank?

PageRank - это метод Google для измерения «важности» страницы. Когда все другие факторы, такие как тэг Title и ключевые слова учтены, Google использует PageRank, чтобы откорректировать результаты так, что более «важные» сайты поднимутся соответственно вверх на странице результатов поиска пользователя.

То есть, порядок ранжирования в Google работает следующим образом:

1. Найти все страницы, соответствующие ключевым словам поиска.

2. Отранжировать соответственно «страничным факторам», таким, как ключевые слова.

3. Учесть текст ссылок на страницы.

4. Откорректировать результаты данными PageRank.

Как определяется PageRank?

Теория Google гласит, что если Страница A ссылается на страницу B, то Страница А считает, что Страница B - важная страница. Текст ссылки не используется в PageRank. PageRank также влияет на важность ссылок на страницу. Если на страницу указывают много важных ссылок, то ее ссылки на другие страницы также становятся более важными.

Насколько важен PageRank?

Значимость каждого отдельного фактора в алгоритмах поисковой системы зависит от качества информации, которое он обеспечивает. Поэтому имеет смысл вначале взглянуть на это качество.

стр. 386 из 536 30.11.2010 http://www.seobuilding.ru/

SEO: Поисковая Оптимизация от А до Я => Пузомерки, ТИЦ, PageRank и т.д.

Когда Гугл был лишь крохотным Гугленком в подгузниках, можно было с уверенностью сказать, что ссылка была точным признаком рекомендации. Однако, в настоящее время это больше не так по двум очень важным причинам:

1. Интернет существенно изменился. Ссылка сегодня это, скорее, лишь связанный сайт, лицензионное требование или ответная услуга (как перекрестные ссылки), чем истинная рекомендация 2 .

2. Как только вы создадите поисковую машину, которая рассматривает ссылки как рекомендации, люди начнут пытаться воздействовать на ссылки. Как только они станут воздействовать на них, ссылки перестанут быть рекомендациями.

Поэтому надежность информации, обеспечиваемой ссылками, не обязательно хороша, и она постоянно уменьшается. Это является причиной низкой и все время уменьшающейся важности PageRank в алгоритме ранжирования Google.

Тем не менее, у PageRank есть одно реабилитирующие его свойство. На него трудней влиять, чем на любой другой фактор ранжирования. Это означает, что у PageRank есть возможность дать вам преимущество перед конкурентами, когда он использован в комбинации с другими приемами оптимизации для поисковых машин . Однако, я предупреждаю вас: тут нет коротких путей. Для эффективного использования PageRank вам нужно будет понять его полностью, иначе есть шансы, что вы будете тратить ваше время зря.

Основные факты о PageRank

Для понимания оставшейся части этого документа, вам нужно знать несколько фактов о PageRank.

1. PageRank - это число 3 , характеризующее исключительно голосующую способность4 всех входящих ссылок на страницу и то, как сильно они рекомендуют эту страницу.

2. Каждая уникальная страница сайта, проиндексированная Google, имеет вес PageRank. Люди часто ошибаются, думая о весе сайта, который на самом деле является весом главной страницы этого сайта 5 .

4. PageRank независим, он не принимает во внимание текст ссылок и т. д. Конечно, они связаны, но говорить, что это одно и то же, это все равно что говорить, будто тэг Title то же самое, что ключевые слова в тексте.

Как вы можете обнаружить, какой у страницы вес?

Вы можете скачать тулбар для Internet Explorer со страницы http://toolbar.google.com/ 6 . После инсталляции в верхней части Internet Explorer появится столбцовая диаграмма, дающая интерпретацию веса PageRank для страницы, которую вы в данный момент смотрите. Если вы задержите курсор мыши над диаграммой, то увидите число от нуля до десяти. (Если вы не видите числа, возможно, у вас установлена старая версия тулбара. Как только вы полностью его деинсталлируете, перезагрузите компьютер и установите последнюю версию, вы сможете видеть число.)

Насколько точен тулбар Google?

Тулбар Google показывает вес сайта не очень точно, но это единственный инструмент, который может дать вам прямо сейчас хоть какое-то представление. Поскольку вы знаете ограничения тулбара, вы, по меньшей мере, знаете, что вы видите. Есть два ограничения у тулбара Google:

1. Временами тулбар определяет вес приблизительно. Если вы откроете страницу, которой нет в индексе Google, но есть страница, очень близкая к ней в индексе, то тулбар отобразит свое предположение о весе PageRank. Эта догадка бесполезна для наших целей, потому что она не

http://www.seobuilding.ru/seo-forum/index.php стр. 387 из 536 30.11.2010 http://www.seobuilding.ru/

SEO: Поисковая Оптимизация от А до Я => Пузомерки, ТИЦ, PageRank и т.д.

представлена ни в каких вычислениях PageRank. Единственный способ выяснить, использует ли тулбар догадку, это ввести URL в поисковую форму Google и увидеть, появится ли страница. Если нет, значит, он предполагает!

2. Тулбар дает только представление реального веса PageRank! В то время как вес PageRank

линеен, они решили показывать его на нелинейной диаграмме. Так, для тулбара, изменение веса PageRank от 2 до 3 занимает меньше увеличения веса PageRank от 3 до 4. Это лучше всего иллюстрируется сравнительной таблицей; настоящие числа хранятся в тайне, поэтому мы будем использовать просто любые числа для иллюстрации 7 :

Если действительный вес PageRank между То тулбар показывает

390626 и 1953125

1953126 и бесконечностью

Надо надеяться, что вы можете увидеть из этой иллюстрации, сколь ограничена информация, которую вы получаете из тулбара.

С этого момента я собираюсь использовать термин Настоящий PR для обозначения подлинного веса PageRank, хранимого Google, и Тулбаровский PR для обозначения довольно скупого представления того, что тулбар Google позволяет нам видеть.

Расчет PageRank

Объяснив, что такое вес PageRank, т. е., что вы узнаете, когда получаете информацию о нем, и насколько он важен... в этом разделе я расскажу вам примерно как он вычисляется. Знать это не обязательно, однако, если вы поймете это, вы будете лучше понимать, как следует его применять.

Когда Google был только исследовательским проектом, они [Брин и Пэйдж - прим. А. С. ] написали статью, подробно описывающую формулу, которая определяет вес PageRank для страницы. Хотя они, возможно, уже не используют в точности эту формулу, она представляется достаточно корректной для сегодняшних целей. Вот она:

PR(A) = (1-d) + d (PR(T1 )/C(T1 ) + ... + PR(Tn )/C(Tn )),

где PR(A) - это вес PageRank страницы A (тот вес, который мы хотим вычислить),

D - это коэффициент затухания, который обычно устанавливают равным 0,85,

PR(T1 ) - вес PageRank страницы, указывающей на страницу A,

C(T1 ) - число ссылок с этой страницы,

http://www.seobuilding.ru/seo-forum/index.php стр. 388 из 536 30.11.2010 http://www.seobuilding.ru/

SEO: Поисковая Оптимизация от А до Я => Пузомерки, ТИЦ, PageRank и т.д.

PR(Tn )/C(Tn ) означает, что мы делаем это для каждой страницы, указывающей на страницу A

Жуть! Для тех из вас, кто не является математиком, здесь есть полная информация по этой формуле - вы не можете просто вычислить вес PageRank за один прием, как показано тут. Чтобы вычислить вес PageRank страницы A вам понадобится знать веса PageRank всех страниц, указывающих на страницу A. Их веса PageRank будут частично зависеть от страницы A, указывающей на них, либо каких-то других страниц, ссылающихся на них. Какая глупая формула. Что она нам говорит, так это одну очень важную вещь о весе PageRank любой страницы.

Вес PageRank, передаваемый на страницу A со страницы B, которая указывает на нее, уменьшается с каждой ссылкой куда-нибудь, которая находится на странице B. Это означает, что вес страницы, по существу, это мера ее голоса; страница может разделить этот голос между одной, двумя или многими ссылками, но общая голосующая сила будет всегда той же самой.

Сейчас забудьте формулу на некоторое время, потому что легче рассмотреть пример реализации, который очень похож на PageRank. Он должен помочь нам лучше понять PageRank. Назовем его MiniRank.

Вначале мы не знаем, какие веса MiniRank у этих страниц, поэтому мы их просто присвоим. Для

простоты, мы выберем число один. В результате диаграмма становится...

http://www.seobuilding.ru/seo-forum/index.php стр. 389 из 536 30.11.2010 http://www.seobuilding.ru/

SEO: Поисковая Оптимизация от А до Я => Пузомерки, ТИЦ, PageRank и т.д.

Все еще легко! Сейчас вспомните правила передачи веса. Вначале мы применяем коэффициент затухания. (Коэффициент затухания, в основном, говорит о том, что страница не может голосовать так, чтобы другая страница была столь же важна, как она сама. Это означает, что страницы, к которым труднее добраться в Web, менее важны.) Затем мы делим сохранившийся вес на число ссылок. Мы подсчитываем итоговый вес, который должен быть добавлен ко всем до единой страницам, перед тем как мы окончательно его прибавим8 .

Итак, глядя вначале на страницу A, видим, что значение веса MiniRank, доступное для передачи, после затухания равно 1 * 0,85 = 0,85. Со страницы ведут две ссылки, поэтому, по окончании итерации, мы добавим 0,425 к весу MiniRank страницы B и 0,425 к весу MiniRank страницы C. Мы не можем сделать это до тех пор, пока мы не рассчитали все ссылки страницы, потому что это повлияет на результаты.

Перейдем к странице B. Она содержит только одну ссылку. Поэтому, она передаст 1 * 0,85 = 0,85 странице C, когда мы сделаем все вычисления для ссылок.

Сейчас мы можем добавить все суммы ко всем весам страниц.

Новые значения весов MiniRank показывают, сколь важна страница C. Но мы еще не завершили. Поскольку все страницы начали с одного значения, по правде говоря, мы вычислили только популярность в ссылках (link popularity). Суть PageRank и MiniRank такова, что страницам, на которые чаще ссылаются, следует получить больше голосов; поэтому мы должны проделать то же самое еще раз! На этот раз страница C имеет большее влияние, потому что ее текущий вес MiniRank выше.

Так, посмотрим на страницу A вначале. Ее текущий вес MiniRank равен 1,85. Величина MiniRank, доступная для передачи, после применения затухания составляет 1,85 * 0,85 = 1,5725. Есть две ссылки со страницы, поэтому по завершению итерации мы добавим 0,78625 к весу MiniRank страницы B и весу

MiniRank страницы C.

Перейдем к странице B. У нее есть только одна ссылка. Следовательно, она передаст 1,425 * 0,85 = 1,21125 странице C, когда мы завершим все вычисления со ссылками.

http://www.seobuilding.ru/seo-forum/index.php стр. 390 из 536 30.11.2010 http://www.seobuilding.ru/

SEO: Поисковая Оптимизация от А до Я => Пузомерки, ТИЦ, PageRank и т.д.

Мы получаем....

Мы уже можем видеть то, что следовало ожидать: страница C имеет наибольший вес MiniRank, страница A - следующий по величине. На практике нам нужно было бы повторить эти действия от 50 до 100 раз, чтобы гарантировать, что низкая точность предыдущих итераций сведена на нет. Просто!

Обратная связь PageRank

Но подождите минутку! Что-то происходит между страницами A и C, поэтому взглянем еще раз.

Во время одной итерации вычислений страница C дает странице A повышение в весе MiniRank (PageRank). Во время следующей итерации она сама получает увеличение веса, пропорциональное новому улучшившемуся весу MiniRank страницы A (она получает назад часть своего веса MiniRank!).

Это обратная связь PageRank. Можно подумать, что Google обязан игнорировать ссылки такого рода, особенно, если страница A и страница C расположены на одном сайте. Действительно, я слышал мнение нескольких человек, которые считают, что Google обязан. Истина в том, что Google не может сделать это. Представьте проделывание вычислений над миллионами страниц вместо четырех... представьте только как вам определять, когда встречается обратная связь, и как избавляться от нее. И даже если вы справитесь, как вы сведете на нет влияние, которое это окажет на оставшуюся часть системы? Обратная связь PageRank - неотъемлемая часть системы! Фактически, она нужна для правильного функционирования PageRank и является частью алгоритма.

http://www.seobuilding.ru/seo-forum/index.php стр. 391 из 536 30.11.2010 http://www.seobuilding.ru/

SEO: Поисковая Оптимизация от А до Я => Пузомерки, ТИЦ, PageRank и т.д.

Воздействие на результаты

Зная, как это работает, и что Google в некоторых случаях воздействует на результаты PageRank, мы в состоянии решить, что именно Google может делать.

Перед тем как начинаем вычислять PageRank, предположим, что ссылки некоторого сайта особенно хорошие. Скажем, страница B - это страница на Yahoo или DMOZ (каждый из которых демонстрирует этот вид воздействия); вместо установки их начальных значений в 1 мы можем установить их в 100 или большее число. 9 Делая это, мы предполагаем, что Google незначительно изменяет веса PageRank, зависящие от этой страницы.

Мы можем проделать обратное, только в меньшей степени. Предположим, что страница B признана спамом. Если мы установим начальное значение веса PageRank в ноль, то ее вес вначале не будет иметь никакого влияния, но станет вскоре получать влияние, пока будут существовать сайты, ссылающиеся на нее.

Имейте это в виду: в PageRank мы можем легко увеличить важность ссылок страницы, сделав их

настолько важнее, насколько мы хотим, однако, обратное не верно - PageRank значительно препятствует возможности уменьшить важность ссылок страницы. 10

Это, как раз то, что происходит с сайтами, зарегистрированными в Yahoo и DMOZ. Каждая страница Yahoo и DMOZ, кажется, имеет увеличенный вес, поэтому сайты, зарегистрированные в этих двух каталогах получают славное небольшое увеличение веса PageRank.

Так вот, разве не могли они корректировать вес PageRank страницы B после каждой итерации вычислений? Да, они могли, но Google работает с миллионами страниц [уже с миллиардами - прим. А. С. ], и должен был бы корректировать вес всех подобных страниц каждый раз. Это сделало бы алгоритм оччеееенннннь оччеееенннннь медленным.

А как насчет установки веса PageRank после всех вычисления и получения конечных весов страниц? Да, они могут и, несомненно, делают это. Однако, это имеет большее отношение не к обработке ссылок, а к изменению индивидуальных результатов. Предположим, что главная страница Google недостаточно высока для Google. Они могут просто изменить это. Или если страницы результатов поиска Google имеют PageRank, они могут просто это убрать. Это шаг после обработки данных.

Заметьте, однако, что есть небольшая особенность в применении Гуглом этого метода для исключения спамеров из индекса. Не полагайте, что если ваш вес PageRank внезапно стал равен нулю, то Google использовал данный метод для обнуления веса. Намного легче всего лишь запретить страницу целиком. Запрещение также более логично, потому что оно убирает влияние, которое, в противном случае, ваша страница получит в процессе вычисления PageRank. Нулевой вес PageRank, в большинстве случаев, появляется из-за других факторов, таких как проблема временных вычислений.

Что это все означает?

Вес PageRank - самый трудный для манипулирования фактор при оптимизации страниц. Хотя его влияние не так велико, как верят некоторые, если вы можете понять его правильно, то вы имеете достаточно хорошее преимущество перед вашими конкурентами. Вес PageRank трудно как получить, так и удержать. Нижеприведенная информация действительно доводит это до крайней степени. На практике вы могли использовать все или часть, в зависимости от того, насколько конкурентоспособным вы себя чувствуете, и того, насколько сильна конкуренция.

Есть три основных области, которые стоит осмотреть и, возможно, изменить, когда вы пытаетесь оптимизировать ваш вес PageRank:

http://www.seobuilding.ru/seo-forum/index.php стр. 392 из 536 30.11.2010 http://www.seobuilding.ru/

SEO: Поисковая Оптимизация от А до Я => Пузомерки, ТИЦ, PageRank и т.д.

1. Страницы, которые вы выбираете для получения ссылок на вас, т. е. какие из них вы отбираете и как много усилий тратите на получение ссылок.

2. Те, кого вы выбираете, чтобы сослаться на них со своего сайта, и на какой странице вашего сайта вы помещаете их ссылку.

3. Внутренняя навигационная структура и связи ваших страниц - с целью создания максимальной обратной связи PageRank.

Когда вы ищете ссылки на ваш сайт, с точки зрения исключительно PageRank можно подумать , что следует просто искать страницы с самым высоким Тулбаровским весом PageRank. (В то же время держа в уме, что каждая страница сайта имеет свой собственный вес PageRank, поэтому вы должны рассмотреть вес «страницы ссылок», или какой бы то ни было страницы, где будет расположена фактическая ссылка.) Однако, эта точка зрения некорректна. Если вы не перепрыгнули прямо в этот раздел, то вы, вероятно, определите, почему это так. Вес PageRank, получаемый с ссылкой, намного сложнее, чем это упрощение. Мог быть случай, когда это было приемлемым приближением... но не больше. По мере того как все больше и больше людей пытаются и получают ссылки только с сайтов с высоким значением веса, это становится все менее и менее выигрышным предложением.

Настоящий вес PageRank отдельной страницы делится среди ссылок на этой странице (помните расчеты MiniRank?) Поэтому, ссылки со страниц, которые имеют одинаковый вес PageRank, не всегда созданы равными. Это зависит от того, со сколькими ссылками делит ссылающуюся страницу ваша ссылка.

Например, ссылка со страницы с весом PageRank 4 может быть лучше, чем ссылка со страницы с весом PageRank 6, если на странице с PR 4 меньше общее число ссылок. Возможно, что страница с PR 2 может даже быть лучше для просьбы о ссылке, чем страница с PR 7. В данный момент недостаточно доступной информации, чтобы узнать, до какой степени это простирается. Однако, это достаточно значимо, чтобы было бессмысленно просто выбирать сайты с большим весом в качестве основной стратегии получения ссылок. Есть также другая, более прозаичная причина, почему эта стратегия получения ссылок может быть не лучшей; сайты с высоким весом PageRank часто разборчивы в том, на какие сайты ставить ссылку, что делает получение ссылки с них более трудным, чем с сайтов с низким весом. Однако, сайтам, сражающимся со своими числами весов PageRank, следует быть более восприимчивыми к обмену взаимными ссылками с другими сайтами.

Сейчас давайте рассмотрим обратную связь. Предположим, например, что есть две самостоятельных страницы на сайтах других людей, каждая из которых имеет вес PageRank 4. Обе страницы имеют по 10 ссылок на другие страницы. Но ваша страница, на которую вы хотите получить с них ссылки, уже имеет ссылку на страницу на втором сайте. Получая ссылку со второго сайта, вы порождаете обратную связь, и получаете больший вес PageRank, чем если бы получили ссылку с первого сайта! Это чрезмерное упрощение; фактически, циклы обратной связи могут стать даже более сложными. Помните, что число ссылок на странице, ссылающейся на вас, будет менять величину обратной связи, и т. д.

Можете ли вы вычислить все это для заданной страницы? Нет - и я не могу. Мой совет, поэтому, таков - получайте ссылки с сайтов, которые кажутся подходящими и имеют хорошее качество, независимо от их текущего веса PageRank. Если они релевантны вашему сайту, и сами высококачественные сайты, они либо помогут вашему весу PageRank сейчас, либо сделают это в будущем. Чтобы на самом деле сделать ваш вес PageRank классным, зарегистрируйтесь в DMOZ и Yahoo с целью воспользоваться искусственно увеличенным весом, который они обеспечивают.

Чтобы рассмотреть наилучшую стратегию простановки ссылок с сайта, вначале нам нужно рассмотреть ссылки, указывающие на ваш сайт. Под этим я подразумеваю, что нам надо предположить, что у вас есть ссылки, указывающие на ваш сайт из каталогов, подобных DMOZ и Yahoo, которые дают ему небольшое славное приращение веса PageRank. Используя внутренние страницы сайта, вы можете управлять

http://www.seobuilding.ru/seo-forum/index.php стр. 393 из 536 30.11.2010 http://www.seobuilding.ru/

SEO: Поисковая Оптимизация от А до Я => Пузомерки, ТИЦ, PageRank и т.д.

обратной связью значительно лучше, чем используя ссылки на внешние страницы. Это приводит к

правилу...

Это означает, что вам нужно будет ссылаться наружу только со страницы вашего сайта, которая имеет низкий вес PageRank, и которая также содержит значительное число внутренних ссылок (т. е. ссылок, указывающих на другие страницы вашего сайта).

Итак, когда вы ставите ссылку наружу, вы отдаете предпочтение тем страницам, которые либо ссылаются на ту страницу вашего сайта, которая находится страницей выше ссылочной страницы [например, если внешняя страница A ссылается на вашу страницу B1, которая, в свою очередь, ссылается на вашу страницу B2, на которой и расположена ссылка на внешнюю A - прим. А. С. ], либо которые ссылаются на ту страницу, которая ссылается на страницу, ссылающуюся на вашу ссылочную страницу (т. е. вы получите большее увеличение веса PageRank, если ссылки со внешних сайтов не указывают на вашу ссылочную страницу).

Как мы можем осуществить это? Одним способом будет написание обзоров сайтов, на которые мы ссылаемся, на отдельной странице нашего сайта, и обеспечение ссылки на эти обзоры вместе с каждой гиперссылкой на внешний сайт. Необязательно, но будет неплохо, если эти страницы будут открываться в другом окне но НЕ ДЕЛАЙТЕ это на JavaScript, потому что роботы поисковых систем не могут следовать по ссылкам на JavaScript.

Например, мы можем сделать что-то подобное с каждой ссылкой на внешний сайт:

http://www.searchenginesystems.net/ >Search Engine Systems - это лучшие в мире поисковомашинные существа Читайте мой хвалебный обзор здесь.

Проверьте, что страница обзоров ссылается назад на страницу, которая находится выше в структуре вашего сайта. (Лучше всего, если это будет ваша главная страница, но любая важная страница также подойдет.) Сделав это, мы значительно сократили количество веса PageRank, которому вы позволяете покинуть сайт, и обеспечили, что большая часть веса PageRank, которая остается, также увеличивается эффектом обратной связи! Мы нацелили эту обратную связь на главную страницу, чтобы гарантировать, что меньше веса передается назад вашей ссылочной странице (что было бы упущенной возможностью), и больше остается где-либо на вашем сайте. На вашей ссылочной странице также нужно поставить ссылки на главную страницу и другие значимые страницы сайта. Однако, не ставьте других ссылок на странице с обзором (кроме ссылки на главную страницу). Очень хорошо, если кто-то ставит ссылку на вашу страницу с обзором, поэтому, вдобавок, вы можете дать знать сайту, что вы рецензировали его - вполне возможно, что вы получите две ссылки с этого сайта (одну на ваш сайт и одну на обзор чужого сайта). Все очень трудно для понимания в текстовой форме, поэтому давайте займемся упрощенным примером, чтобы показать принцип и продемонстрировать его действие.

Наша простая структура с начальными значениями весов MiniRank:

http://www.seobuilding.ru/seo-forum/index.php стр. 394 из 536 30.11.2010 http://www.seobuilding.ru/

SEO: Поисковая Оптимизация от А до Я => Пузомерки, ТИЦ, PageRank и т.д.

После первой итерации вычислений мы получаем...

В конце второй итерации мы имеем...

http://www.seobuilding.ru/seo-forum/index.php стр. 395 из 536 30.11.2010 http://www.seobuilding.ru/

SEO: Поисковая Оптимизация от А до Я => Пузомерки, ТИЦ, PageRank и т.д.

И в конце третьей итерации мы имеем...

Суммарный вес MiniRank внутри сайта равен 19,959.

получаем...

http://www.seobuilding.ru/seo-forum/index.php стр. 396 из 536 30.11.2010 http://www.seobuilding.ru/

SEO: Поисковая Оптимизация от А до Я => Пузомерки, ТИЦ, PageRank и т.д.

После первого этапа вычислений мы получаем...

После второго этапа вычислений мы получаем...

http://www.seobuilding.ru/seo-forum/index.php стр. 397 из 536 30.11.2010 http://www.seobuilding.ru/

SEO: Поисковая Оптимизация от А до Я => Пузомерки, ТИЦ, PageRank и т.д.

После третьего этапа вычислений мы получаем...

Суммарный MiniRank сайта равен 47,31 (а мы начали с весом, большим на четыре!). Немного в этом

проявляется сила дополнительных страниц и немного - сила обратной связи. Но в целом...

http://www.seobuilding.ru/seo-forum/index.php стр. 398 из 536 30.11.2010 http://www.seobuilding.ru/

SEO: Поисковая Оптимизация от А до Я => Пузомерки, ТИЦ, PageRank и т.д.

Главная страница в 2,37 раза важнее при использовании второго метода

Основные страницы «О нас», «Продукция» и «Ссылки» в 1,8 раз важнее при использовании второго метода

Это отлично демонстрирует силу обратной связи. 11 Мы отдаем часть голосов наших ссылочных страниц назад в систему наших сайтов, не позволяя им уйти по внешним ссылкам. Вот почему большие сайты в общем случае имеют лучший вес PageRank, чем меньшие сайты. В самом деле, почему вы это еще не делаете?!! Начинайте сейчас же написание обзоров сайтов, перечисленных на ваших ссылочных страницах! (Заметьте, числа приведены только для демонстрационных целей в качестве общего показателя силы этого метода, действительные числа будут отличаться.)

Внутренняя структура и связи

Чем больше страниц конкретный сайт имеет в индексе Google, тем выше у него начальный суммарный вес PageRank, и тем больше вес PageRank, с которым он должен работать. Так как каждой странице задано одно и то же начальное значение до того, как начинает вычисляться PageRank, большее число страниц может быть только лучше. Будет логично заключить, что если у нас есть больше для начала, то эффект обратной связи будет также более значительным. Когда-нибудь обратите внимание, как же большим сайтам удается иметь более хороший вес PageRank? Эффект обратной связи объясняет, почему. Конечно, ваши страницы должны иметь смысл и хорошее содержание, чтобы для начала попасть в индекс. (Обзоры в последнем разделе могут быть хорошим примером.)

Обратная связь - это естественный процесс для PageRank. Он имеет место среди внутренних ссылок сайта и является критическим для оценок Google о том, какие страницы сайта важны. Если у сайта не будет входящих или исходящих ссылок [ссылок со внешних сайтов и на внешние сайты, соответственно - прим. А. С. ], структура сайта обеспечит то же самое количество обратной связи. Однако, когда мы учитываем входящие и исходящие ссылки, внутренняя структура сайта важна. Например, если сайт имеет исходящие ссылки на страницу, то мы захотим оставить вес PageRank этой страницы минимальным.

Есть разные способы, которыми можно связать страницы внутри сайта. На практике, веб-сайты могут использовать их комбинацию. Использование комбинации это нормально и прекрасно до тех пор, пока вы понимаете различные части структуры сайта и то, как они влияют на ваш вес PageRank. Для целей данной статьи мы рассмотрим различные структуры связей как отдельные объекты. У нас есть:

http://www.seobuilding.ru/seo-forum/index.php стр. 399 из 536 30.11.2010 http://www.seobuilding.ru/

SEO: Поисковая Оптимизация от А до Я => Пузомерки, ТИЦ, PageRank и т.д.

Иерархическая

Циклическая

Обширное связывание

Помните, что мы не обязательно хотим, чтобы вес PageRank был равномерно распределен по всему сайту. Мы хотим добиться максимальной обратной связи в системе и мы хотим, чтобы ее можно было ее фокусировать на особых страницах (т. е. тех, в которых мы оптимизировали текст с ключевыми словами и т. д.). Так как я уже довольно много демонстрировал вам вычисления MiniRank, я просто покажу результаты каждого вида ссылочной структуры после 10 проходов вычислений:

http://www.seobuilding.ru/seo-forum/index.php стр. 400 из 536 30.11.2010 http://www.seobuilding.ru/

SEO: Поисковая Оптимизация от А до Я => Пузомерки, ТИЦ, PageRank и т.д.

Иерархическая

Циклическая

Обширное связывание

Обратите внимание, как суммарный вес MiniRank внутри сайта оказывается одним и тем же (1878,353). Это потому что тут еще нет никаких входящих или исходящих ссылок. Что важно, так это распределение веса. Иерархическая структура проталкивает больший вес MiniRank на главную страницу (другие сайты, наиболее вероятно, будут ссылаться на главную страницу и эта страница, менее вероятно, будет иметь исходящие ссылки). Нет видимого различия между циклической структурой и структурой с обширными связями. Давайте посмотрим, что случится, когда мы усложним структуру добавлением внешних исходящих и входящих ссылок...

http://www.seobuilding.ru/seo-forum/index.php стр. 401 из 536 30.11.2010 http://www.seobuilding.ru/

SEO: Поисковая Оптимизация от А до Я => Пузомерки, ТИЦ, PageRank и т.д.

Иерархическая

Циклическая

Обширное связывание

Хотя в этих примерах сделано всего несколько итераций для вычисляемой формулы, они уже начинают показывать правила связывания внутри сайта:

Обширное связывание обеспечивает незначительно лучшую обратную связь PageRank, чем иерархическая структура, и обе структуры обеспечивают немного лучшую обратную связь PageRank, чем циклическая.

При множестве иерархических связей страницы, стоящие выше в структуре, получают намного больший

http://www.seobuilding.ru/seo-forum/index.php стр. 402 из 536 30.11.2010 http://www.seobuilding.ru/

SEO: Поисковая Оптимизация от А до Я => Пузомерки, ТИЦ, PageRank и т.д.

вес PageRank. Это означает, что мы отдаем меньше веса PageRank нашим исходящим ссылкам.

На практике это означает, что вам следует сочетать данные методы связывания страниц. Правила таковы:

1. Там, где группа страниц может содержать внешние ссылки, используйте иерархическую структуру.

2. Там, где группа страниц не содержит внешних ссылок, используйте структуру с обширными связями, расширив ее добавлением ссылки на главную страницу.

3. Если конкретная страница особенно важна, помещайте ее выше в иерархической структуре.

Как использовать вашу карту сайта для целей PageRank

Многие люди верят, что карта сайта [страница, на которой отражена структура сайта и перечислены все его страницы - прим. А. С. ] помогает роботам поисковых машин обходить страницы. Я не уверен в этом, но из-за их популярности и факта, что они включают некоторые хорошие ссылки с нужным текстом, давайте посмотрим, как лучше всего их реализовать с точки зрения PageRank.

Вначале, ссылайтесь на вашу карту сайта с главной страницы, как вы обычно это делали.

Помните, что наличие карты сайта эффективно понижает вес PageRank других ваших страниц (особенно если на нее ссылается страница вашего сайта с самым высоким весом PageRank). Поэтому мы хотим проверить, что карта сайта делает две вещи:

1. Максимизирует ваш начальный суммарный вес (добавляя новые страницы).

2. Возвращает обратными связями так много веса PageRank, насколько это возможно.

Первое немного противоречиво. Чтобы заставить карту сайта максимизировать ваш начальный суммарный вес, мы должны разбить ее на несколько страниц. Вы можете подумать: «Итак, это делает ее обход сложнее для робота, верно?» Ответ и «да», и «нет». Иногда действительно индексирующему роботу сложнее извлечь сотни ссылок из одной страницы. Однако, в настоящее время любой хорошо работающий робот индексирует достаточно глубоко, чтобы справиться с картой сайта, разнесенной на несколько страниц.

Сейчас давайте займемся максимизацией вашей обратной связи PageRank. Каждой карте сайта следует иметь ссылку на главную страницу и другие значимые страницы вашего сайта. Если ваша карта сайта содержит ссылки на страницы, которые включают ссылки на внешние сайты, то вам обязательно следует минимизировать количество веса PageRank, которому эти страницы позволят исчезнуть из вашего сайта.

Поэтому, вот что вы можете сделать...

Разбейте вашу карту сайта на категории и выделите каждой категории отдельную страницу. Ваша карта сайта сейчас становится списком этих страниц категорий (вместо карты всего сайта). В каждую категорию вы можете поместить примерно до 30 ссылок. Вам следует также давать рядом со ссылкой описание содержания каждой страницы. Когда вы размещаете среди ваших категорий страницу, на которой есть ссылки на внешние сайты, выбирайте категорию, в которую входит большое число ссылок.

Далее, вы должны связать каждую из страниц категорий вместе, а также со списком категорий (бывшая страница с картой сайта). Чтобы сделать это, просто поместите навигационное меню, которое ссылается прямо на страницу со списком категорий или любую другую страницу категорий, на каждую из них.

http://www.seobuilding.ru/seo-forum/index.php стр. 403 из 536 30.11.2010 http://www.seobuilding.ru/

SEO: Поисковая Оптимизация от А до Я => Пузомерки, ТИЦ, PageRank и т.д.

Это максимизирует обратную связь и сохраняет низким вес PageRank страниц карты сайта. Идея в том, чтобы уменьшить вес PageRank всей карты сайта, отдав его сайту в целом.

Заключительное слово

PageRank - это очень трудная тема, которая часто неправильно понимается. Думаю, стоит повторить некоторые моменты, касающиеся данной статьи и PageRank. Этот документ - еще незавершенная работа и, вероятно, будет оставаться таковой еще долгое время. В данный момент здесь недостаточно информации для нас, чтобы быть на 100% уверенным в чем-либо. Я просто показываю предположения, основанные на лучшей из доступной информации, которая кажется в значительной степени верной. Когда Google решает позволить нам увидеть информацию о весе PageRank, он делает это через тулбар Google. Когда вы будете смотреть на тулбар Google, я надеюсь, что вы вспомните как минимум одну строчку из предыдущего обсуждения: «Тулбар Google показывает вес сайта не очень точно, но это единственный инструмент, который может дать вам прямо сейчас хоть какое-то представление.»

У PageRank есть свое место в процессе ранжирования. Это место не столь заметное, как многие могут полагать. Его значимость в алгоритме ранжирования меньше, чем у многих других факторов, таких как тэг Title или текст ссылок. Оптимизация сайта только для PageRank не даст вам хороших мест. Сущность PageRank такова, что им трудно манипулировать. Поэтому, если вы получите хороший вес PageRank, вашим конкурентам будет трудно сравняться с вами. Стоит ли ваше время того, чтобы серьезно сосредотачиваться на PageRank, это личное решение, которое зависит от уровня вашей конкуренции. Я безусловно верю, что как минимум всегда стоит понять, как PageRank работает, и помнить это всякий раз, когда вносятся изменения или создаются новые сайты - помнить всего лишь как другие факторы, такие как текст ссылок и ключевые слова, которые всегда у нас в мыслях.

Этот документ вызвал справедливую череду вопросов и обсуждений среди тех, кто его уже прочел. Возможно, что в какой-то момент в будущем я создам список часто задаваемых вопросов. До этой поры, однако, те, кто ищут дальнейшую информацию могут писать мне на [email protected] [соответственно, задавать вопросы мне, Александру Садовскому, можно по адресу [email protected] - прим. А. С. ], или вы можете захотеть взглянуть на дискуссию, произошедшую из-за первой версии этого документа, на http://www.ihelpyouservices.com/forums/t916/s.html .

Послесловие от Александра Садовского

Несмотря на многие замечания, высказанные в сторону Криса, я благодарен ему за столь большой труд, который заставил задуматься и лучше понять этот интересный алгоритм PageRank. Тем не менее, ряд вопросов остался еще за рамками обсуждений.

Как лучше понять PageRank?

Народная мудрость гласит, что лучше сто раз пощупать, чем один раз увидеть. Поэтому только работа с моделями PageRank позволяет прочувствовать этот алгоритм до конца. «А если тут добавить ссылку? Или поставить ссылку на внешний сайт? Может, лучше сделать кольцо из ссылок?..» Все это реально опробовать на модели. Я предлагаю вам для изучения две модели.

Первая модель сделана мной в Excel 2000 (скачать модель ) и дает возможность работать с 12 страницами (этого достаточно для всех примеров из данной статьи). Формулы не скрываются, поэтому, при необходимости, число страниц довольно легко расширить до необходимого количества. Если у вас есть Excel, это, пожалуй, лучший вариант, так как вы можете полностью контролировать вычисления и изменять структуру моделируемого сайта так, как вам угодно.

http://www.seobuilding.ru/seo-forum/index.php стр. 404 из 536 30.11.2010 http://www.seobuilding.ru/

SEO: Поисковая Оптимизация от А до Я => Пузомерки, ТИЦ, PageRank и т.д.

Вторая модель написана Марком Хоррэлом и работает только в онлайне, но она также стоит внимания. Модель позволяет задать связи до 50 страниц, выбрать для них имена, начальный вес PageRank и просчитать веса PageRank с количеством итераций вплоть до 100.

Как удержать вес PageRank внутри сайта?

Рассказывая о сложных структурах, помогающих сохранить вес PageRank внутри сайта, Крис не упоминает о двух простых методах.

Первый предложен мной - использование JavaScript. Поисковики не индексируют его (причина довольно очевидна - интерпретация JS для каждой страницы потребует гигантские вычислительные ресурсы). Следовательно, любая внешняя ссылка, оформленная на JS будет нормально восприниматься пользователями (99% работают со включенным JS), но при этом не учитываться поисковиками, а, значит, и не принимать участие в расчетах PageRank. Таким образом, для поисковой машины ваш сайт будет без единой внешней ссылки, и проблема удержания веса исчезает полностью.

Второй метод не менее изящен и предложен самим Крисом. Если все внешние ссылки сосредоточены на нескольких страницах, то достаточно всего лишь запретить их индексацию с помощью файла robots.txt, и поисковая машина не будет знать, что у вас на сайте есть внешние ссылки.

Безусловно, такое поведение будет нечестным, если вы договариваетесь об обмене ссылками с какимлибо сайтом. Однако, во всех остальных случаях, когда вы ставите ссылки добровольно, чтобы сделать работу пользователей удобней, никто не мешает вам сохранить вес PageRank внутри сайта.

Как выбирать сайты для получения ссылок?

Рекомендация Криса была такой: «...получайте ссылки с сайтов, которые кажутся подходящими и имеют хорошее качество, независимо от их текущего веса PageRank». Это верно, но как оптимизировать соотношение качества ссылок и затрат времени на их получение? Решение есть. Качеством ссылок, как показал Крис, управлять практически невозможно, значит, необходимо сократить затраты времени на их добывание. Вспомните для начала, что временные потери складываются из двух факторов: во-первых, времени на написание просьбы о ссылке, и, во-вторых, числа положительных результатов (какой процент ссылок реально добавлен). Написание просьбы о ссылке существенно оптимизировать нельзя, так как рисковать сайтом, рассылая спам, зачастую неоправданно. Следовательно, ускорить добывание ссылки можно только в том случае, когда процент положительных результатов будет максимальным.

И для этого я пользуюсь своим методом, который называю «делай, как все». Суть его проста: вначале нужно получить относительно большой список конкурирующих сайтов - хотя бы 50-100 конкурентов - это можно сделать, например, задав целевой запрос в поисковике или заглянув в соответствующий раздел каталога. На основе этих данных легко получить через поисковик список страниц, ссылающихся на каждого из конкурентов. Отсортировав его в порядке убывания числа упоминаний и исключив страницы, которые уже ссылаются на ваш сайт, получаем перечень страниц, которые согласились дать ссылку большому числу конкурентов. Так почему же они откажутся дать ссылку вам? Скорее всего, это будут тематические каталоги, обзоры, сайты ассоциаций и объединений, где вы быстро и без труда получите ссылку. Если при этом учесть, что через Google вы можете узнать только ссылки, у которых Тулбаровский PageRank больше или равен 3, то в вашу выборку автоматически попадают страницы только с высоким весом. Неплохо, правда?!

Не забывайте о цели!

После того как ссылки получены, не забывайте о цели своей работы - получить высокий вес PageRank для сайта. Следовательно, поисковик должен знать про страницу, которая добавила вашу ссылку. Конечно, можно надеяться, что рано или поздно он ее сам найдет, но не лучше ли добавить эту страницу в базу сразу же? Если ссылок получается очень много, имеет смысл создать страницу, на которой перечислить все ссылающиеся на ваш сайт страницы, и вносить в поисковик именно страницу-список.

Все его используют, но мало кто знает, как он работает. Google PageRank, это один из важнейших для веб-разработчиков параметров.

Поиск среди миллиардов существующих и миллионов создаваемых каждый день страниц, задача более сложная, чем вы можете сразу представить. PageRank, только один из сотен факторов, используемых Google для улучшения качества поиска. Но как он работает, и какие факторы на него влияют, а какие нет, и, что мы знаем о PageRank?

В этой статье мы излагаем только факты.

Последнюю неделю мы рассмотрели множество фактов и предположений, которые показались нам реалистичными. Кроме того, мы собрали некоторые академические материалы по поиску и 16 полезных инструментов для работы с PageRank.

Наиболее важные факты кратко описаны в начале статьи.

Как работает PageRank?

  1. PageRank один из многочисленных методов используемых Google для определения релевантности и важности страницы.
  2. Google интерпретирует ссылку со страницы A на страницу B как голос A в пользу B, конечно учитывается не только количество голосов, но и качество голосующих страниц.
  3. PageRank основан на количестве входящих ссылок , но не только на нем, релевантность и качество тоже важны.
  4. Не все ссылки одинаково влияют на PageRank.
  5. Если на странице с PR8 есть только одна ссылка, то сайт, на который она ссылается, получит весь PR который она может передать, если же ссылок 100 то каждая ссылка будет передавать только часть этого PR.
  6. Плохие входящие ссылки не влияют на PR.
  7. В PR учитывается время существования сайта, релевантность входящих ссылок и время их существования.
  8. При расчете PR контент не учитывается.
  9. PR рассчитывается не для сайта в целом, а для каждой страницы в отдельности.
  10. Важна каждая входящая ссылка, за исключением ссылок с забаненых сайтов.
  11. PR это не только целые значения от 0 до 10, это вещественное число.
  12. Достичь каждого следующего уровня PR все сложнее, предположительно используется логарифмическая шкала.
  13. PR пересчитывается постоянно, но данные для тулбара обновляются раз в несколько месяцев.
  14. Google старается найти страницы солидные и релевантные одновременно.

Факторы, влияющие на PageRank

  1. Частые обновления сайта не увеличивают PR автоматически.
  2. Высокий PR не гарантирует высокие позиции в результатах поиска.
  3. Каталоги DMOZ и Yahoo! не увеличивают PR автоматически.
  4. .edu и.gov сайты не увеличивают PR автоматически.
  5. Внутренние страницы не обязательно имеют меньший PR чем главная.
  6. Ссылки с сайта Wikipedia не увеличивают PR автоматически.
  7. Ссылки с атрибутом nofollow не влияют на PR.
  8. Эффективные внутренние ссылки влияют на PR.
  9. Ссылки с тематических сайтов влияют сильнее.
  10. Текст, используемый в ссылке, часто может быть важнее, чем PR ссылающейся страницы.
  11. Исходящие и входящие ссылки на качественные тематические сайты положительно влияют на PR.
  12. Несколько одинаковых ссылок с одной страницы считаются за одну.
  13. Сайт может быть забанен за ссылки на забаненные сайты.

1.1 Что такое PageRank?

  • PR это только один из методов используемых Google для определения релевантности и важности страницы. [PageRank Explained Correctly 6 ]
  • Google использует множество факторов для ранжирования страниц, PageRank один из лучших . PR отражает два важных момента, как много страниц ссылаются на данную и какого уровня страницы на нее ссылаются. Пять шесть ссылок с таких сайтов как www.cnn.com 7 или www.nytimes.com 8 , могут быть более полезны, чем гораздо большее количество ссылок с менее солидных сайтов. [Google Librarian Central 9 ]
  • PR может отражать только приблизительное качество страницы , но никак не связан с ее тематической релевантностью, которую можно определить только учитывая контекст ссылок, и такие факторы как плотность ключевых слов, заголовок страницы и т.п. [PageRank: An Essay 10 ]

1.2 Как работает PageRank?

  • Никто точно не знает, как Google рассчитывает PR. [Google PageRank Explained 11 ]
  • PR(A) = (1-d) + d(PR(t1)/C(t1) + … + PR(tn)/C(tn)). Так выглядит примерная формула расчета PR, где t1-tn страницы, ссылающиеся на A, С(tn) количество исходящих ссылок на соответствующий странице, d коэффициент обычно равный 0.85.
  • Можно предположить, что PR вычисляется по формуле PR = 0.15 + 0.85 * (часть PR каждой ссылающейся страницы передаваемая нашей). Количество PR, которое страница может использовать, чтобы голосовать за другие, чуть меньше чем ее собственный PR, а точнее 0.85 * PR, это количество и делиться между страницами, на которые она ссылается. [Google’s Page Rank 12 ]
  • Алгоритм вычисления PR, основан на распределении собственного PR страницы, между страницами на которые она ссылается. К примеру, если на странице с PR8 есть только одна ссылка, то страница, на которую она ссылается, получит весь доступный PR, но если на этой странице 100 ссылок, то каждая из них получит только сотую часть доступного PR. [The Importance of PageRank 13 ]
  • Вследствие, такого алгоритма вычисления PR, ссылка со страницы с PR4 и 5 внешними ссылками, эффективнее ссылки со страницы с PR8 и 100 внешних ссылок. PR ссылающихся страниц важен, но не менее важно и количество исходящих ссылок, которое они содержат, чем больше исходящих ссылок тем меньше PR перейдет каждой. [Google’s Page Rank 12 ]
  • PR использует входящие ссылки как индикатор важности страницы. Google интерпретирует ссылку со страницы A на страницу B как голос страницы A в пользу страницы B. Учитывается не только количество голосов, но и качество голосующих страниц. Чем выше PR страницы, тем большее значение имеет ее голос. [Google: Technology 14 ]
  • Не все ссылки одинаково полезны. Чем выше PR ссылающейся страницы, тем больший PR она передает, но нужно учитывать и то, что этот PR делиться в равной степени между всеми страницами на которые она ссылается. Поэтому ссылка со страницы с PR4 и единственной исходящей ссылкой, может дать больше чем ссылка со страницы с PR5 и 100 исходящих ссылок. Типичный пример всем известные миллионодоларовые главные страницы, такая страница с PR7 и сотнями исходящих ссылок, несмотря на свою важность, передает другим страницам незначительный PR. [Google PageRank Explained 11 ]
  • Каждый следующий уровень PR достигается значительно сложнее предыдущего. При вычислении PR используется логарифмическая шкала, это значит, что для перехода с PR0 к PR1 требуется один шаг, несколько труднее набрать PR3, еще труднее PR4, и значительно труднее PR5. [Google Page Rank FAQ 15 ]
  • PR вычисляется не для сайта в целом, а для каждой отдельной страницы и рекурсивно связан с PR страниц которые на нее ссылаются. [The Page Rank algorithm 17 ]
  • Google комбинирует PR со сложными техниками текстового поиска , анализируются многие аспекты содержимого страницы и ссылающихся на нее страниц, чтобы найти страницы лучше других, соответствующие запросу пользователя. [What Is Google PageRank? 18 ]
  • PR пересчитывается постоянно, но данные для тулбара обновляются раз в несколько месяцев , новым сайтам присваивается PR0. [Google PageRank Explained 11 ]
  • PR это не только целые значения от 0 до 10, PR вещественное число. Правильно думать о PR как о вещественном числе, потому что при внутренних вычислениях мы используем множество градаций, а не только значения от 0 до 10 отображаемые в тулбаре. [Matt Cutts 19 ]
  • Робот не анализирует сайты мгновенно. Часто необходимо два полных апдейта чтобы все входящие ссылки были обнаружены, засчитаны и отображены как входящие ссылки. [Google FAQ 20 ]

1.3 Факторы, влияющие на PageRank

  • Важна каждая входящая ссылка, за исключение ссылок с забаненных сайтов. PR это своеобразная система голосования, каждая ссылка на страницу это голос в ее пользу. Страницы с высоким PR считаются более важными, и их голоса в некоторых случаях имеют большее значение, но в основном, чем больше входящих ссылок, тем лучше. [Google PageRank FAQ 21 ]
  • Добавление новых страниц может уменьшить PR. Этот эффект заключается в том, что суммарный PR сайта возрастает, но одна или нескольких старых страниц теряют часть PR, за счет чего новые его получают, чем больше добавлено страниц тем больше PR теряют существующие. На крупных сайтах этот эффект незаметен, но на малых его иногда можно наблюдать. [PageRank Explained 12 ]
  • Уменьшение PR. PR страницы может уменьшиться из-за исчезновения некоторых важных ссылок, которые передавали ей PR, или падения PR ссылающихся на нее страниц. [Google PageRank FAQ 22 ]
  • Заголовки (h1, … , h6) и теги strong важны, но не влияют на PR. Используйте мета-теги, заголовки и теги b, strong, но так чтобы контент оставался читабельным и полезным. Обращайте внимание на текст окружающий ключевые слова, поисковики все лучше работают с семантикой, поэтому контекст ключевых слов очень важен.
  • Большое значение имеет эффективность внутренней структуры сайта. Страницы на сайте должны быть связаны как можно более простым способом, в идеале не должно быть страниц в более чем трех кликах от главной. [ 23 ]
  • Ссылки с и на тематические сайты с высоким PR очень важны. Чем ближе тематика страниц, тем больше PR передает ссылка. Ссылки на уважаемые сайты с близкой тематикой показывают поисковым машинам, что сайт полезен для посетителей, это не всегда верно для сайтов, которые существуют уже несколько лет и имеют высокий рейтинг в Google. Ссылаясь только на качественные сайты, можно получить некоторое преимущество перед конкурентами. [Let Google’s Algorithm Show You The Traffic 23 , FAQ 15 ]
  • Важен текст ссылки. Чем более специфичен текст ссылки тем лучше Google может связать ее с запросами пользователей.
  • Ссылочные фермы (линкопомойки) пенализируются. Google заинтересован в страницах содержащий менее 100 исходящих ссылок, страницы с большим количеством ссылок считаются ссылочными фермами и пенализируются. [Google FAQ 24 ]
  • Очень важны входящие ссылки с популярных сайтов. Если на страницу ссылаются страницы с высоким PR она получает часть их репутации.
  • Сайт может быть забанен, если ссылается на забаненные сайты. Будьте очень осторожны с исходящими ссылками, не ссылайтесь на подозрительные сайты (линкопомойки, забаненные сайты и т.д.), Google может пенализировать ваш сайт за такие ссылки, всегда проверяйте PR сайтов на которые ссылаетесь. [SiteProNews 25 ]
  • Мошенничество наказывается пенализацией PR и может привести к бану. Скрытый текст, редиректы, клоакинг, автоматизированный обмен ссылками и другие действия, противоречащие Google’s quality guidelines 26 , могут привести к бану сайта в Google.
  • Google учитывает время существования сайта, релевантность входящих ссылок, и время их существования , если входящая ссылка не релевантна она не будет давать много PR.
  • Миф: чем выше PR тем выше позиция в результатах поиска. Конечно, страницы с высоким PR в результатах поиска расположены выше, чем конкуренты с меньшим PR, но нельзя забывать, что Google учитывает контекст входящих ссылок, и только те ссылки, которые связаны со словами в запросе позволяют занять высокое место в результатах поиска по этому запросу. [

В настоящее время используются текстовые и ссылочные критерии ранжирования страниц при поиске. Первые определяют уместность ("релевантность") документа исходя из наличия слов запроса в тексте и заголовках страницы. Однако, наличие большого количества документов может обесценить изощренные механизмы расчета релевантности, основанные только на содержимом страницы. Это и произошло, когда люди поняли, какую выгоду они получают от целевых посетителей, которых бесплатно предоставляют поисковики. Качество поиска испортилось, количество документов возросло - "релевантный" документ стало очень легко создать.

В целях улучшения качества поиска часть работы по определению "хороших", "важных" документов косвенно возложили на вебмастеров сети. Размещая ссылку на внешний сайт, создатель как бы рекомендует его посетителям своего сайта - именно эту особенность интернета решили использовать для улучшения качества поиска. Повышенная значимость документа определяется, таким образом, с учетом ссылок извне на сайт, содержащий этот документ.

Ссылочные критерии ранжирования помогли несколько исправить положение. Такой критерий достаточно трудно подделать - на это требуется добрая воля других вебмастеров, которые заботятся о качестве своих ресурсов и не будут "продвигать" недостойные сайты. Таким образом, ставка была сделана на саморегуляцию интернета, но новичков такой порядок не устраивал - их просто так никто не пускал в "клуб известных сайтов". И когда новые правила игры были осознаны, поисковики постепенно начали проигрывать.

Однако, как учесть цитируемость ресурса? Ссылки ведь тоже бывают разные. Количество внешних ссылок на сайт не годится для представления цитируемости - с появлением бесплатных хостингов количество ссылок очень легко увеличить. Но важность таких ссылок ничтожна по сравнению со ссылками с известных ресурсов. PageRank и есть такой параметр важности , он выражает цитируемость страницы.

Что такое PageRank и зачем он нужен?

Слово PageRank буквально можно перевести как "ранг страницы". Само название определяет алгоритм расчета цитируемости, разработанный и используемый by Sergey Brin & Larry Page, разработчиками поисковой системы Google. Русские аналоги - Взвешенный Индекс Цитирования (ВИЦ у Яндекса), есть аналог и у Апорта, Рамблер планирует ввести учет цитируемости осенью 2002 года. В дальнейшем будем употреблять обозначения цитируемость и PR наравне с PageRank.

Цитируемость -это число, которое рассчитывается для каждой веб-страницы отдельно, и определяется цитируемостью ссылающихся на нее страниц. Своего рода замкнутый круг.

В чем основная идея? Нужно найти жизненный критерий, выражающий важность страницы. В качестве такого критерия была выбрана теоретическая посещаемость страницы. Была построена модель путешествия пользователя по сети путем перехода по ссылкам. При этом есть вероятность того, что посетителю сайт надоест и он закроет броузер и начнет со случайной страницы (допустим, вероятность этого равна 0.15 на каждом шаге). Соответственно, с вероятностью 0.85 он продолжит путешествие, кликнув на одну из доступных на странице ссылок (все ссылки при этом равноправны). Продолжая путешествие до бесконечности, он побывает на цитируемых страницах много раз, а на нецитируемых - меньше. Таким образом, PageRank веб-страницы был определен как вероятность нахождения пользователя на этой веб-странице ; при этом, конечно, сумма вероятностей по всем веб-страницам сети равна единице - где-то он должен обязательно быть!

Из модели следуют три вывода. Во-первых , PageRank нормируется по всем документам сети. Правда, сами величины, в общем-то, относительны, поэтому при расчетах часто нормируют не на единицу по сумме всех страниц, а на единичный усредненный PR (т.е. суммарный по N страницам PageRank равен N, а в среднем - единица). Пугаться этого не следует, просто PR выражен уже не в единицах вероятности, а в относительных единицах.

Во-вторых , PR передается не полностью, есть "затухание". Поэтому длинные цепочки ссылок на сайте малополезны. С человеческой точки зрения то же самое выражает известное правило "трех кликов".

В-третьих , каждая страница изначально имеет ненулевой PR, но очень маленький.

Относитесь с осторожностью к расчетам PageRank, если-

  • PR рассчитывается для совокупности страниц без учета "внешнего" PR. PageRank - величина, которая не имеет физического смысла в отрыве от Глобальной сети. Точнее, такой PR - это совсем новый PR.
  • Выявляются закономерности о "сохранении среднего PR" или проводятся нормировки по ограниченному набору страниц. PageRank определен и действует в глобальном масштабе.

Аналогия

Представьте себе озеро (сайт), в которое впадают ручьи и речки (потоки посетителей, пусть "теоретических"). Количество потоков может быть любым, но река приносит много воды, а ручей мало. Поэтому в свое озеро нужно направлять мощные потоки. Какая-то часть воды "уходит в песок", остальное вытекает из вашего озера и впадает в другие озёра. Часть воды испаряется.

В этом смысле рассмотрение распределения PageRank по страницам сайта в отрыве от внешних источников PageRank аналогично переливанию из пустого в порожнее . По внешнему виду сухого русла сложно представить силу потока в реке. Дождь дает очень мало воды - это и есть PageRank сайта, на который никто не ссылается.

Замечания

PageRank - не единственный ссылочный критерий ранжирования. Он учитывает только наличие ссылки, но не учитывает текст в ссылке, и текст ссылающегося документа.

Алгоритм "выдавливает" наверх в поиске те документы, которые и без поисковика наиболее популярны. Однако введение такого алгоритма при поиске существенно ужесточает конкуренцию, если это поисковик масштаба Google.

Расчет PageRank

Итак, будем рассматривать PageRank страницы как вероятность попадания пользователя на страницу, выраженную в относительных единицах.

PageRank (P i ) страницы i выражается как
{1}

где:
d -т.н. "damping factor", параметр затухания. Принимается равным 0.85-0.9. Выражает вероятность того, что пользователь, зашедший на страницу, будет продолжать путешествие и переходить по ссылкам.
P i - PageRank интересующей нас страницы i
j - обозначение страниц, на которых есть ссылки на i
P j - PageRank страницы j , ссылающейся на i -ю.
С j - Число ссылок на странице j .
1/С j - Вероятность того, что пользователь, находящийся на странице j , из j доступных ему ссылок выберет именно ссылку на нашу страницу i .
d*P j /С j - поток "теоретической посещаемости", который дойдет до страницы i со страницы j . Суммирование идет по всем страницам, ссылающимся на i -ю.
(1-d) - минимальный PageRank страницы. Он не равен нулю за счет того, что пользователь регулярно выбирает новый сайт в качестве стартовой точки.

Однако, на PageRank наложено ограничение:

где N - общее количество веб-страниц в Интернет.

Т.е., средний PageRank равен единице . Ограничение это следует из нормировки вероятности пребывания пользователя по всей сети - сумма вероятностей по всем страницам равна единице. Таким образом,
Вероятность i =PageRank i /число страниц в сети

Отметим, что значение PageRank, равное единице, только кажется большим. Количество страниц в сети (N) очень велико, и вероятность 1/N - чрезвычайно мала.

Решая систему уравнений, можно найти PageRank всех страниц в Интернет. Расчет можно вести разными методами:

Итерационный метод расчета PageRank

Метод наиболее часто используется. Он состоит в численном решении системы уравнений:

  1. Выбираем геометрию сайта, расстановку ссылок, систему уравнений
  2. Задаемся начальными значениями PageRank для каждой страницы. Они могут быть любыми.
  3. Рассчитываем новый набор значений PageRank по уравнению (1) исходя из имеющегося набора значений
  4. Рассчитываем средний PageRank по всему набору страниц, и делим PR каждой страницы на полученную величину. В результате средний PR становится равным единице.
  5. Если набор значений PageRank изменился по сравнению с исходным набором шага 3, возвращаемся к шагу 3. Если нет, то расчет заканчиваем.

При исследовании влияния геометрии сайта на распределение PageRank удобно представить структуру ссылок в виде матрицы:

В таблице выше представлен сайт из четырех страниц, на котором ссылки замкнуты в "кольцо". Страница 1 ссылается на 2 (1- есть ссылка, 0-ссылки нет), 2 на 3, 3 на 4, 4 обратно на 1. Представление структуры сайта в таком виде удобно, в частности для расчетов.

Для того, чтобы поэкспериментировать с различными структурами сайтов, можно скачать заготовки в MS Excel для 10 страниц (30 итераций) и 30 страниц (90 итераций). Распределение PageRank по страницам рассчитывается сразу и представлено в желтой строке.

Матричный метод расчета PageRank

По уравнению 1:

Нижеприведенную "матрицу связей" можно умножить на вектор значений PageRank m -го шага итерации, полученный вектор умножить на d , прибавить единичный вектор, умноженный на (1-d) и получить следующее приближение вектора PageRank с номером m+1 , который нужно пронормировать (чтобы сумма проекций вектора PR была равна N). При навыках работы с математическими программами (например, Mathcad) этот способ может быть более удобным.

1 2 3 4
1 0 1/3 1/3 1/3
2 0 0 1/2 1/2
3 0 0 0 1
4 1 0 0 0

Здесь страница 1 ссылается на 2, 3, 4; страница 2 - на 3 и 4; страница 3 на 4, а 4 на 1. Представленная матрица содержит значения M ij =1/C j->i , т.е. значение в каждой ячейке разделено на общее количество ссылок C j на странице j .

Недостатки численных и итерационных методов

Фактически, оба приведенные выше метода являются разными формулировками итерационного метода расчета значений PageRank. Они требуют работы с конкретными численными значениями PageRank . Методы использованы для расчетов в работах [ , ].

Однако, рассмотрим реальную ситуацию. Для того, чтобы воплотить в жизнь свои знания о распределении PageRank, необходима индексация ваших страниц. В случае Google, ваш сайт не будет проиндексирован (либо придется ждать индексации очень долго) до достижения некоего порогового значения PageRank. В любом случае, на ваш сайт должны существовать ссылки, хотя бы одна. Это значит, что ваш сайт не оторван от "внешнего мира", и существует ненулевой "входящий PageRank" , направленнный извне на ваш сайт.

Из этого рассуждения следует, что:

  • Расчеты PR "в отрыве" от окружения сайта неточны для каждой страницы вашего сайта - они проделаны для нулевого входящего PageRank
  • Правило нормировки не работает в пределах вашего сайта (но работает в пределах глобального набора проиндексированных страниц , т.е. в рамках Интернет по версии Google)
  • Никакой численный расчет не может применяться в динамике - ведь входящий PageRank изменяется по мере раскрутки сайта (если вы дочитали до этого места, вероятно, раскруткой своего сайта будете заниматься так же упорно). Соответственно, меняется во времени PR каждой страницы.
Стоит помнить о том, что по своей сути PageRank - это поток (поток теоретической посещаемости). Соответственно, расматривая свой сайт как "маленькую вселенную", вы не учитываете потоки извне. Если применить аналогию , такой сайт похож на высохшее озеро, на дне которого осталось несколько луж, и вы рассчитываете, в какой из них будет больше воды.

Посмотрим, что происходит при увеличении входящего PageRank.

Вот простейший сайт из четырех страниц, ссылок извне нет-

А здесь входящий PageRank равен единице-

Но нам скоро станет лень рассчитывать PageRank при каждом "воображаемом" изменении внешнего PageRank (P 0). Поэтому рассмотрим общий случай и выразим PR страниц как функции от P 0 -

В дальнейшем будем рассчитывать PageRank страниц как функции от входящего PR. Это позволит выделить ту компоненту PageRank, которая увеличивается по мере раскрутки, и отделить "остатки" в виде констант, величина которых порядка единицы. А солипсистскими методами расчета пользоваться на будем - мы ведь не одни в Интернете...

Функциональный метод расчета PageRank

Итак, будем рассчитывать PageRank страниц сайта как функцию от внешнего, "входящего" PageRank. Для этого нужны: уравнение (1) и представление об эквивалентности страниц одного типа. Пример-

На сайте, который приведен ниже, 3 нижних страницы эквивалентны между собой во всех смыслах. Соответственно, все они будут иметь одинаковый PageRank (P 2). Головная страница отличается от них и имеет PR=P 1 .

Запишем уравнения для страниц вида 1 и вида 2:

P 1 =0.15+0.85*(P 0 +3P 2)
- на страницу вида 1 ссылаются 3 страницы вида 2 , на каждой из которых есть одна ссылка.

P 2 =0.15+0.85*(P 1 /3)
- на страницу вида 2 ссылается страница вида 1 , на которой есть 3 ссылки.

Решая эту систему, получаем-

P 1 =0.15*(1+3*0.85)/(1-0.85^2)+0.85/(1-0.85^2)*P 0 =1.92+3.06*P 0
P 2 =0.69+0.87*P 0

Этим методом хотя и сложнее пользоваться, но он обладает одним хорошим качеством, которого нет у итерационных методов - общностью .

Откуда берется PageRank?

Поль Дирак выдвигал предположение, что существует оптимальное расстояние, с которого лучше всего наблюдать женское лицо. Действтительно: на нулевом расстоянии, равно как и на бесконечном, удовольствие от созерцания стремится к нулю. В то же время, на промежуточном расстоянии оно явно не нулевое. Значит, между нулевым и бесконечным расстоянием существует максимум функции Удовольствие=f(Расстояние)

Давайте рассмотрим, хотя бы с помощью итерационного метода, два граничных случая связности сайтов.

Случай 1: Все страницы в Интернете замкнуты в "кольцо" - на каждой есть только одна ссылка на соседа, и только одна входящая ссылка.
Результат:

Случай 2: Все страницы в Интернете перелинкованы друг с другом - на каждой из N страниц есть ссылки на всех N-1 соседей, и столько же входящих ссылок (N-1).
Результат: PageRank равен единице для всех страниц.

Откуда же берется большой PageRank?

Ответ: из неоднородности распределения ссылок по страницам. Дело в том, что все страницы сети были эквивалентны , что привело к одинаковому значению PageRank. Но если в однородном Интернете 2 страницы "обменяются ссылками", их PageRank увеличится. А у всего остального Интернета - чуть-чуть, но уменьшится. Таким образом, те, кто обмениваются ссылками, "стягивают одеяло на себя".

Надо сказать, что приведенный выше функциональный метод чуть-чуть неточен. Дело в том, что он не учитывает изменения среднего PageRank сети при появлении рассмотренного сайта. На сайте средний PageRank не равен единице, в отличие от Интернета, поэтому после проведенного расчета нужно пересчитать PR всех страниц в сети:

PR i new =PR i old *(Средний PR в интернете без вашего сайта)/(Средний PR в интернете, включая ваш сайт)

Но, поскольку суммарный PR по Интернету никто не знает, делать этого мы не будем. В любом случае эти изменения мизерные, но именно они и являются тем самым "стягиванием одеяла на себя ".

Промежуточные выводы

  • Мало смысла в расчете PageRank страниц без учета "внешнего" PageRank
  • Нормировка PageRank на единицу работает только в глобальном масштабе, но не в пределах одного сайта
  • Значения PageRank порядка единицы очень малы и неинтересны для анализа. Основной интерес представляет передача потока PageRank от одной страницы к другой
  • guest

    найти еще статьи

В поисковой системе.

Одним из первых показателей , основанным на передаче так называемого веса ссылки, стал алгоритм PageRank. Со временем этот алгоритм совершенствовался создателями каждой из , усложнялся и все меньше влиял на общую документа. Однако во все ссылочные алгоритмы поисковиков заложена идея PageRank, созданная в 1996 году Сергеем Брином и Ларри Пейджем, усовершенствованная и усложненная.

PageRank (PR) — это вероятность перехода пользователя на страницу, которая рассчитывается из анализа ссылочного графа. Она складывается из вероятностей перехода по всем ссылкам, ведущим на указанную страницу. В свою очередь, каждая такая вероятность рассчитывается исходя из вероятности получения посетителей на страницу-донор и т.д. Таким образом, чем выше вероятность перехода на страницу, тем выше авторитет данной страницы.

Ранее можно было утверждать, что PageRank может «перетекать» с одной страницы на другую по четко установленным формулам, сейчас же вес ссылки зависит от кликабельности, ее характеристик, качества донора.

Классическая формула расчета PageRank:

, где

PR - PageRank рассматриваемой страницы,

d - коэффициент затухания (означает вероятность того, что пользователь, зашедший на страницу, перейдет по одной из ссылок, содержащейся на этой странице, а не прекратит путешествие по сети), в классической формуле обычно он равен 0,85.

PRi - PageRank i-й страницы, ссылающейся на рассматриваемую страницу,

Ci - общее число ссылок на i-й странице.

Основная идея работы с PR заключается в том, что страница передает свой вес, распределяя его на все исходящие ссылки. Чем больше ссылок на странице-доноре, тем меньший вес достанется каждой странице-акцептору.

Сложность прогнозирования PR состоит в том, что в реальности, как правило, нельзя рассматривать определенную страницу и определенный сайт отдельно от других ресурсов. Тем не менее, моделирование может быть полезно для понимания примерной картины. Неплохой сервис для этого - PageRank Decoder .

PageRank также связан с оценкой цитируемости, т.е. с оценкой вероятности перехода посетителя по одной из ссылок. Чем выше цитируемость, тем более популярна страница сайта, на которую ставятся ссылки, и, соответственно, чем больше качественных ссылок, тем вероятность авторитетности ресурса выше.