Тарифы Услуги Сим-карты

Что такое файл sitemap. XML Sitemap: полное руководство по использованию

01.03.2012, 14:41

Товарищи!
Мне генератор сайтмэпа выдал файлик, куда вписал и site.com/ и site.com/index.html.
Естественно, это одна и та же страница.
Как лучше сделать для гугла? Оставить обе строчки или какую-то из них кастрировать? Если кастрировать, то какую?

01.03.2012, 14:55

site.com/ главная
дубль site.com/index.html, можете делать редирект на главную или rel="canonical"

01.03.2012, 15:28

А зачем вообще в карте сайта корневая страница? Вы думаете он сайтмап проиндексирует а на главную не заглянет? :)
Толку от sitemap нет. Он служит лишь для сообщения поисковику о наличии страницы и нужен лишь в тех случаях, если на какую-то страницу нельзя добраться внутренними ссылками.

богоносец

01.03.2012, 17:44

Вообще, идиотизм встречается и на сайтах (http://www.google.com/search?q=site:romip.ru+inurl:index.html), где специалистами являются все - по определению. И даже на мегапроектах (http://www.google.com/search?q=site:yandex.ru/index.html).

01.03.2012, 18:38

Толку от sitemap нет

02.03.2012, 00:11

Рискну выразить мнение, что можно ускорить индексацию новых страниц Гуглом.
При обновлении sitemap в вебмастере Гугл, бот сразу же его забирает, я проверял в логах сервера.
Новую страничку добавил в sitemap, обновил его в WMT, на следующий день страничка уже в индексе.
А через 2 месяца половины страниц в индексе уже нет. Так?))

богоносец

02.03.2012, 01:22

Естественно, это одна и та же страница.
Это разные... зеркала типа... и даже если вы не внесёте в сайтмап /index.html его вам могут проиндексить... и надо всячески этому препятствовать.

02.03.2012, 08:42

и даже если вы не внесёте в сайтмап /index.html его вам могут проиндексить
Если убрать со всех страниц index.html, и на неё нет внешних ссылок, то поисковики её уберут из индекса.
У меня была такая ситуация. Со всех страниц на главную ставил короткую ссылку index.html. А внешние были в формате http://хххххххх.ru/. Обе были в индексе. И http://хххххххх.ru/, и http://хххххххх.ru/index.html
Проставил на всех внутренних страницах http://хххххххх.ru/ и через несколько апдейтов http://хххххххх.ru/index.html не стало в поиске и у Яндекса и у Гугла.

Добавлено 02.03.2012 в 09:49 ----------

С помощью robots.txt?
Нет. Надо просто у себя на всех страницах, где проставлена index.html заменить на http://хххххххх.ru/. Вроде такие ссылки называют абсолютными.
А короткие внутренние - относительными.
Но боюсь опять будут укорять меня за внедрение новых терминов.....)))
И нигде не надо ставить http://хххххххх.ru/index.html

Бизнесмен:)

02.03.2012, 09:20

Если убрать со всех страниц index.html, и на неё нет внешних ссылок, то поисковики её уберут из индекса....

Согласен, есть такой же опыт. только в роботсе на всякий тоже можно закрыть;)

02.03.2012, 11:16

Рискну выразить мнение, что можно ускорить индексацию новых страниц Гуглом.
При обновлении sitemap в вебмастере Гугл, бот сразу же его забирает, я проверял в логах сервера.
Новую страничку добавил в sitemap, обновил его в WMT, на следующий день страничка уже в индексе.

Для этой цели можно использовать RSS фид и пинг

богоносец

02.03.2012, 13:56

С помощью robots.txt?
Как вам удобнее.

Http://www.bdbd.ru/index.php
http://www.bdbd.ru/index.html
должны отвечать 301

Http://www.unmedia.ru/index.html
Данные запроса
GET /index.html HTTP/1.1
User-Agent: Opera/9.80 (Windows NT 5.1; U; ru) Presto/2.10.229 Version/11.61
Host: www.unmedia.ru
Accept: text/html, application/xml;q=0.9, application/xhtml+xml, image/png, image/webp, image/jpeg, image/gif, image/x-xbitmap, */*;q=0.1
Accept-Language: ru-RU,ru;q=0.9,en;q=0.8
Accept-Encoding: gzip, deflate
Cookie: PHPSESSID=cc2a67ae9b5ae208cd2b96470619d10b; BITRIX_SM_GUEST_ID=100454; BITRIX_SM_LAST_VISIT=02.03.2012+14%3A53%3A27
Connection: Keep-Alive
Тело запроса

Данные ответа
HTTP/1.1 301 Moved Permanently
Server: nginx/0.6.32
Date: Fri, 02 Mar 2012 10:53:45 GMT
Content-Type: text/html; charset=iso-8859-1
Connection: keep-alive
Location: http://www.unmedia.ru/

Если убрать со всех страниц index.html, и на неё нет внешних ссылок
То в индексе могут (http://www.google.com/search?q=site:yandex.ru/index.html) ещё остаться (http://www.google.com/search?q=site:platon.ya.ru+%D0%B1%D0%BE%D1%82) ...

Sitemap или карта сайта - это специальный файл (обычно имеет расширение xml ), в котором заложена информация обо всех существующих на сайте страницах. При помощи этого файла есть возможность дать понять поисковой системе, какие именно страницы сайта желательно проиндексировать в первую очередь, насколько регулярно производится обновление данных на страницах, а также важность индексации отдельных страниц сайта. Это существенно упрощает поисковым роботам проведение индексации. Файл SiteMap непременно должен быть на всех сайтах, состоящих из пятидесяти страниц, и более.

Как создать файл SiteMap онлайн и добавить его на сайт

Так как sitemap является файлом xml, создать его можно в текстовом формате, при помощи любого редактора, и сохранить с расширением xml. Однако самостоятельные усилия вовсе не обязательны, в Интернете существуют специальные сервисы, при помощи которых можно бесплатно сгенерировать - автоматически создать файл sitemap.xml онлайн и добавить на любой сайт. Более подробно процесс создания файла sitemap.xml вы можете посмотреть на видео:

[yt=QT21XhPmSSQ]

Для автоматического создания sitemap нужно ввести в соответствующее поле адрес нужного сайта, выбрать подходящий формат файла, определить последовательность индексации страниц на сайте, указать периодичность обновления страниц и задать другие интересующие Вас параметры. После всех этих операций нужно кликнуть на кнопку «выполнить», и уже через непродолжительное время в открытом ниже окне появится код созданной карты сайта. Этот код нужно просто скопировать и вставить в созданный вами в редакторе файл sitemap.xml , сохранить его и загрузить в корневую директорию вашего сайта.

Но для того, чтобы от этого файла был ожидаемый эффект, мало просто создать и добавить SiteMap на свой сайт, нужно еще и донести до поискового робота информацию о его наличии. Для этого нужно путь к нему прописать в файле , добавив в него строку:

Sitemap: http://ВАШ_САЙТ.ru/sitemap.xml

После этого все операции выполнены, ваш sitemap готов выполнять свои функции. Нужно только помнить, что в одном созданном xml файле не должно быть больше 50 000 страниц, и объем его должен быть не больше, чем 10 мегабайт. В противном случае, будет нужно создать еще один такой файл.

Здравствуйте, уважаемые читатели блога сайт. Решил обобщить в одной статье все, что я уже писал про карту сайта (Sitemap xml), которая в первую очередь нужна для указания поисковым системам тех страниц, которые им следует индексировать в первую очередь. Она является очень важным и фактически обязательным атрибутом любого web проекта, но многие этого либо не знают, либо не придают Site map большого значения.

Сразу давайте расставим все точки над «i» и попробуем отделить два понятия — карты сайта в формате xml и в формате Html (есть еще и географическая интерпретация этого слова, о которой я писал в статье « »). Второй вариант представляет из себя обычный список всех материалов web ресурса, который будет доступен любому желающему по нажатию на соответствующий пункт меню. Такой вариант тоже полезен и способствует ускорению и улучшению индексации вашего ресурса поисковыми системами.

Карта сайта sitemap в формате xml — а оно мне надо

Но основным инструментом, предназначенным для прямого указания поисковикам тех страниц ресурса, которые нужно будет обязательно проиндексировать, является файл под названием Sitemap.xml (это его наиболее частое название, но по идее его можно обозвать как угодно, не суть важно), который не будет виден посетителям вашего web проекта.

Он составляется с учетом специального синтаксиса, понятного поисковым машинам, где будут перечислены все страницы, подлежащие индексации с указанием степени их важности, даты последнего обновления и примерной частоты обновления.

Есть два основных файла, которые должны иметься у любого web проекта — robots.txt и sitemap.xml . Если у вашего проекта их нет или они заполнены не правильно, то с большой долей вероятности вы сильно вредите своему ресурсу и не позволяете ему раскрыться на все сто процентов.

Вы, конечно же, можете не послушать меня (ибо я не есть авторитет, в силу относительно малого накопленного фактического материала), но думаю, что со специалистами, имеющими под рукой статистику с десятков тысяч проектов, вы огульно спорить не будете.

На этот случай у меня оказался припасен «рояль в кустах». Прямо перед написанием этой статьи попалась на глаза публикация специалистов из всем известной системы автоматического продвижения под необычным названием «Руки» (это аналог MegaIndex , о котором я писал ).

Понятно, что любая подобная им система заинтересована в том, чтобы проекты их клиентов успешно продвигались, но они могут только накачивать ресурсы клиентов ссылочной массой, а влиять на наполнение и правильную техническую настройку сайтов они, к сожалению, не могут.

Поэтому и было проведено очень интересное и показательное исследование, которое было призвано выявить 10 самых популярных причин, которые затрудняют продвижение проектов и ткнуть этими данным клиентам прямо в...

На первом месте, конечно же, был «не уникальный контент» (либо вы скопистили, либо у вас , что сути не меняет). Но на втором месте была как раз именно карта сайта в формате xml, а точнее ее отсутствие или несоответствие признанному формату создания. Ну, а на третьем месте был уже упомянутый ранее файл robots.txt (его отсутствие или неправильное создание):

Когда голословно утверждаешь, что карта должна быть у вашего проекта обязательно (иначе кирдык), то это не звучит так убедительно, как в случае подкрепления данного утверждения реальными фактами из довольно-таки репрезентативного исследования.

Ладно, будем считать, что я вас убедил и давайте посмотрим, как можно самим создать сайтмап (синтаксис формата), как сделать ее для Joomla и WordPress, а так же посмотрим, как можно будет создать ее с помощью специальных онлайн генераторов (generator).

Но просто создать sitemap еще не достаточно для того, чтобы быть уверенным в правильной индексации вашего проекта поисковиками. Нужно еще будет сделать так, чтобы об этой самой карте сайта узнали поисковые системы (в нашем случае это Google и Яндекс). Сделать это можно будет двумя способами, но об этом мы поговорим чуть позже (должна же быть хоть какая-то интрига, удерживающая внимание читателей).

Зачем вообще нужен сайт мап и файл robots.txt

Давайте для начала попробуем обосновать логическую необходимость использования как файла robots.txt, запрещающего индексацию определенных элементов вашего web проекта, так и файла сайт мап, предписывающего индексацию определенных страниц. Для этого вернемся на пяток-десяток лет назад, когда большинство ресурсов в интернете представляли из себя просто набор Html файликов, в которых и содержались тексты всех статей.

Поисковый робот Гугла или Яндекса просто заходил на такой Html проект и начинал индексировать все, что ему попадется под руку, ибо практически везде содержался контент проекта. А что же происходит сейчас, в условиях повального использования CMS (систем управления контентом)? Собственно, даже сразу после установки движка поисковый робот уже обнаружит у вас несколько тысяч файлов и это при том, что никакого контента у вас еще может и не быть (ну, не написали вы еще ни одной статьи).

Да и вообще, контент в современных CMS, как правило, хранится не в файлах, а в базе данных, которую поисковый робот напрямую проиндексировать, естественно, не сможет (для работы с базами советую бесплатно ).

Понятно, что потыркавшись туда сюда, поисковые роботы Яндекса и Google все же найдут ваш контент и проиндексируют его, но вот насколько быстро это произойдет и насколько полной будет индексация вашего проекта — очень большой вопрос.

Вот именно для упрощения и ускорения индексации проектов поисковиками в условиях повального использования CMS и следует в обязательном порядке создавать robots.txt и sitemap.xml. C помощью первого файла вы подсказываете роботам поисковиков на индексацию каких файлов не стоит тратить время (объекты движка, например), а так же с помощью него можно закрыть от индексации и часть страниц для устранения эффекта дублирования контента, который присущ многим CMS (читайте об этом подробнее в статье про ).

А с помощью файла сайтмап вы четко и ясно говорите роботам Яндекса и Гугла, что именно на вашем проекте содержит контент, чтобы они не тыркались понапрасну по углам файлового хозяйства используемого движка. Не забывайте, что у ботов есть определенные лимиты на время и количество просмотренных документов. Он побродит у вас по файлам движка и уйдет, а контент останется не проиндексированным еще долгое время. О как.

Помните как в известной комедии говорил один колоритный персонаж: «Ты туда не ходи, ты сюда ходи, а то...». Вот именно функцию этого персонажа и выполняют robots.txt и сайт мап с расширением xml для регулирования перемещений поисковых ботов по закоулкам вашего web проекта. Понятно, что боты могут и взбрыктуть, но скорее всего они послушно будут выполнять ваши грамотно написанные запрещающие и предписывающие (в карте сайта) инструкции.

Понятно? Тогда приступаем непосредственно к решению вопроса, как создать sitemap.xml различным способами и как сообщить о его существовании двум китам поиска в рунете — Google и Яндексу, чтобы они не шарились по вашему проекту почем зря, создавая при этом еще и дополнительную нагрузку на сервер вашего хостинга, но это, правда, уже сильно второстепенная вещь, главное — это именно индексация (быстрая и всеобъемлющая).

В отличии от robots.txt, который вам писать придется скорее всего собственноручно, файл карты сайта в формте xml, как правило, стараются создать каким-либо автоматическим способом. Оно и понятно, ибо при большом количестве страниц на часто обновляемом проекте ручное его создание может привести к повреждению ума у вебмастера.

Да это вовсе и не обязательно, т.к. практически для каждой CMS найдется расширение, которое позволит создать, а при появлении новых материалов и пересоздать файл сайтмап. Ну, или можно будет всегда воспользоваться каким-либо онлайн генератором (generator) карты сайта в виде готового решения.

Но все же, мне кажется, будет не лишним ознакомиться с нехитрым (да что там говорить — простейшим) синтаксисом создания sitemap. К тому же на маленьких и редко обновляемых проектах можно набросать его и вручную.

Как создать Sitemap.xml самому в Joomla и Вордпрессе

Обычно директиву «Sitemap» прописывают в самом конце. Поисковые роботы при очередном заходе на ваш web проект обязательно просмотрят содержимое robots.txt и загрузят для изучения вашу карту. Однако, таким образом могут узнать о ее существования всякие редиски, которым сайт мап поможет тырить у вас контент.

Но существует еще один способ уже напрямую передать информацию о местоположении карты сайта поисковикам без посредничества robots.txt. Делается это через интерфейс Яндекс Вебмастера и панели инструментов Google, хотя можно использовать. Вы уже знакомы с этими инструментами поисковых систем?

Если нет, то обязательно добавьте свой проект и в , и в , а затем укажите в соответствующих вкладках путь до вашей карты сайта в формате Xml.

Так выглядит форма добавления сайтмапа для Яндекс Вебмастера:

А так выглядит аналогичная форма для прописывания пути в панели инструментов Google:

Онлайн генераторы Sitemap Generator и XML Sitemaps

Если вам не охота искать расширения для своей CMS, позволяющие автоматически создать сайт мап, то можете воспользоваться в этом случае онлайн генераторами. Тут, правда, есть один недостаток по сравнению с автоматическим созданием карты в самой CMS — после добавления новых материалов вам придется снова идти на онлайн сервис и повторно создавать этот файл, а затем загружать его к себе на сервер.

Наверное, один из самых известных онлайн генераторов карты сайта — это Sitemap Generator . Он обладает достаточно большим функционалом и позволит вам бесплатно генерировать сайтмап на 1500 страниц, что достаточно много.

Sitemap Generator будет учитывать содержимое вашего файла robots.txt, чтобы в карту не попали запрещенные к индексации страницы. Само по себе это не страшно, ибо запрет в роботсе по любому будет иметь больший приоритет, но зато избавит вас от лишней информации в создаваемом файле Site map. Для того, чтобы сделать карту, вам достаточно указать URL главной страницы и сообщить свой E-mail, после чего вас поставят в очередь на генерацию:

Когда до вас дойдет очередь, вы получите об этом почтовое уведомление и перейдя по ссылке из письма сможете скачать файл, который сделал для вас Sitemap Generator. Останется только закинуть его в нужное место на своем сервере. Ну, и такую процедуру вам придется повторять время от времени для того, чтобы поддерживать актуальность вашей карты сайта.

Есть похожий англоязычный сервис онлайн генератора, который вы можете найти по этой ссылке — XML Sitemaps . На нем существует ограничение в 500 страниц, а в остальном все практически тоже самое, что и в описанном выше.

Удачи вам! До скорых встреч на страницах блога сайт

посмотреть еще ролики можно перейдя на
");">

Вам может быть интересно

Что такое URL адреса, чем отличаются абсолютные и относительные ссылки для сайта
Что такое Chmod, какие права доступа назначать файлам и папкам (777, 755, 666) и как это сделать через PHP
Поиск Яндекса по сайту и интернет-магазину
OpenServer - современный локальный сервер и пример его использования для установки WordPress на компьютер
Вебмастер и RuNet - кто и что это такое, а так же кому в русскоязычном интернете жить хорошо

Карта сайта нужна исключительно для поисковых систем. При обращении к сайту, индексирующий робот загружает sitemap.xml и получает список страниц, которые необходимо занести в базу. Для того, что бы краулеру проще было найти карту, ссылка на нее добавляется в robots.txt в инструкцию «Sitemap:» .

Кроме списка страниц, робот также получает информацию о последнем изменении и приоритете. Это позволяет сократить время сканирования и практически исключить ошибки.

В последних версиях Яндекс Вебмастера карте сайта уделяется особое внимание. При ее отсутствии или наличии ошибки появляется предупреждение.

Создаем корректный sitemap.xml

Существует три варианта создания sitemap.xml — вручную , при помощи online-генератора и автоматически используя плагин .

    Создание вручную.

    Самый олдскульный метод. Карта создается в обычном текстовом редакторе, после чего сохраняется в формате xml. Все страницы, даты и приоритеты выбираются самостоятельно.

    Плюсы : Добавление в карту только того, что Вы считаете нужным. «Уверенность в каждой строчке»;

    Минусы : Большой объем работы. Есть вероятность что-то забыть. Риск синтаксических ошибок;

    Используем online генератор.

    Существуют онлайн генераторы, которые создают карту автоматически. Они чем то похожи на индексирующего робота, который обходит сайт и собирает страниц. При этом учитываются все инструкции robots.txt. В итоге Вы получаете файл формата.xml со всеми разделами, которые не запрещены к индексации.

    Приоритеты в таком случае расставляются в зависимости от вложенности страницы. Дата изменения, обычно, у всех одна и соответствует времени создания карты.

    К подобным сервисам можно отнести такие сайты, как: www.mysitemapgenerator.com, www.cy-pr.com/tools/sitemap.

    Плюсы : Экономит время. Исключает синтаксические ошибки;

    Минусы : Зачастую собирает много «мусора», который не должен быть в индексе. Необходимо вручную размещать на сайте;

    Используем плагин.

    Наверное, самый удобный и технически корректный способ. Смысл его заключается в том, что в систему управления устанавливается плагин/виджет/модуль, который автоматически генерирует sitemap.xml.

    Плюсы : Карту не нужно загружать, она автоматически обновляется при создании новых разделов. Вы можете выставить вручную приоритет для каждой страницы во время ее создания. Корректная дата изменения страницы;

    Минусы : Плагины есть не для всех CMS;

    К подобным плагинам можно отнести XML Sitemap & Google News feeds. (для WordPress)

А теперь подробнее рассмотрим процесс создания карты.

Обратите особое внимание! Если сайт имеет защищенное соединение , то URL в карте сайта должны быть обязательно с https.

Из чего состоит sitemap.xml

Sitemap состоит из структурированных xml данных и содержит в себе несколько параметров.

  1. URL раздела;

    Заключается в теги и является обязательным для любой карты.

  2. Дата последнего изменения;

    Заключается в теги и является необязательным параметром.

  3. Вероятная частота изменения;

    Заключается в теги и является необязательным параметром. Имеет несколько значений: always , hourly , daily , weekly , monthly , yearly и never . Если перевести значения с английского, то сразу станет понятным, какое нужно именно Вам.

  4. Приоритетность;

    Заключается в теги и является необязательным параметром. Принимает значения от 1.0 до 0.1 .

Все эти данные должны находится внутри инкапсулирующего тега , который указывает на стандарт протокола.

После вышеупомянутого тега идет . Он является родительским элементом для каждого URL.

Выглядит это следующим образом:

https://сайт/ 2016-12-23 daily 1.0 https://сайт/perevod-na-https/ 2017-04-08 monthly 0.9

На примере мы указали данные для двух конкретных URL.

Какие страницы добавлять

Добавлять в карту необходимо только те страницы, которые Вы хотите видеть в индексе. Нельзя допускать попадание:

    дубликатов URL;

    пустых страниц;

    разделов находящихся в разработке;

    другого «мусора».

Если Вы сомневаетесь, должна ли находится страница в поиске, лучше повременить с ее размещением в sitemap.xml.

Какие приоритеты выставлять

Приоритеты выставляются в зависимости от «важности» страниц внутри сайта. Обычно, посадочные страницы имеют самый высокий приоритет (0,9-0,8). Категории ценятся ниже, так как не несут уникальной информации. Их значение обычно варьируется от 0,7 до 0,5. Все что меньше, дается архивам или записям потерявшим актуальность.

Не стоит присваивать всем страницам одинаково высокий приоритет. Это никак не поможет индексации и не повлияет на позиции. Но вот робота Вы можете слегка «запутать».

Что нужно знать о дате изменения страницы

Дата изменения страницы очень важна для поисковой системы. Во многом именно по ней оценивается актуальность материала. Не стоит прописывать одинаковую дату для всех страниц, как это может сделать online сервис.

Всегда указывайте настоящую дату обновления материала.

Sitemap позволяет владельцам сайтов и веб-мастерам сообщить поисковым системам о структуре сайта и обновлении контента на его страницах. Таким образом при правильном использовании sitemap можно добиться лучшего индексирования страниц веб-ресурса поисковыми системами. Соответственно, при неправильном использовании данной технологии можно навредить самому себе (точнее своему интернет детищу).

В этой статье я хочу коротко рассказать вам о Google Sitemap, предоставить программный код на Java для простой генерации sitemap.xml, ну и открыть некоторые нюансы обнаруженные моим другом и мной, и о которых, как мне кажется, многие не знают.

Sitemap состоит из набора блоков, каждый из которых описывает одну страницу сайта и предоставляет некоторую информацию о динамике ее обновления. Вот небольшой пример sitemap.xml, сгенерированный с помощью программы на java, которую я предоставлю ниже:

http://www.javenue.info/post/20 weekly 0.5 2009-02-20T15:32:20+02:00 http://www.javenue.info/post/73 daily 0.3 http://www.javenue.info/post/2 weekly 0.5

Расскажу о каждом элементе входящем в блок url:

1. loc - собственно URL страницы

2. changefreq - как часто данная страница может изменяться. Возможные значения - always, hourly, daily, weekly, monthly, yearly, never. Судя по всему, данный параметр еще используется поисковиками, для того чтобы вычислить приблизительную дату следующего захода на страницу.

3. priority - приоритет страницы, помогает поисковому спайдеру определить, какие из страниц более приоритетные для краулинга по вашему мнению. Так как обычно количетсов страниц, которые скачает краулер ограничено, данный параметр может оказаться очень полезным для сайтов, где контент меняется очень часто. На выдачу поисковиков данный параметр не влияет.

4. lastmod - время последнего обновления конетнта страницы. Для сайтов со статическим контентом можно не использовать lastmod, changfreq будет более чем достаточно.

Ну а вот ужасная вещь: практически во всех статьях, которые я читал о google sitemap и о генерации сайтмеп, есть очень подозрительная вещь:

2009-02-20

Здесь не указано время обновления страницы. Google конечно понимает разные форматы дат, но давайте рассмотрим такой случай:

1. вы обновили страничку, например 2009-02-20.

2. crawler заходит на сайт, скачиавет страничку. Скорее всего он помечает, что заходил на эту страницу 2009-02-20.

3. В этот же день вы находите ужасные недочеты в контенте страницы и полностью переделываете ее. После изменений дата lastmod все равно остается 2009-02-20.

4. в следующий раз spider скачивает sitemap.xml и видит, что та самая страничка последний раз менялась 2009-02-20. Но в этот день гугл уже якобы скчивал страницу. А значит нет смысла заново ее загружать. Таким образом гугл никогда не узнает о ваших изменениях, если конечно вы еще раз не обновите lastmod.

Ну а вот и обещаный программный код для генерации sitemap:

Public class GoogleSitemap { private String publicUrl; private List urls = new ArrayList(); public String getPublicUrl() { return publicUrl; } public void setPublicUrl(String publicUrl) { this.publicUrl = publicUrl; } public List getUrls() { return new ArrayList(urls); } public Url addUrl(Url url) { urls.add(url); return url; } public void removeUrl(Url url) { urls.remove(url); } private String w3cDateTime(Date date) { SimpleDateFormat df = new SimpleDateFormat("yyyy-MM-dd"T"HH:mm:ssZ"); String formated = df.format(date); return formated.substring(0, 22) + ":" + formated.substring(22); } public void write(Writer writer) { PrintWriter xml = new PrintWriter(writer); xml.println(""); xml.println(""); for (Url url: urls) { xml.println(""); xml.println("" + (publicUrl == null ? "" : publicUrl) + url.loc + ""); xml.println("" + url.changefreq.name().toLowerCase() + ""); xml.println("" + url.priority + ""); if (url.lastModified != null) xml.println("" + w3cDateTime(url.lastModified) + ""); xml.println(""); } xml.println(""); xml.flush(); } public static class Url { private String loc; private float priority = 0.5f; private Changefreq changefreq = Changefreq.WEEKLY; private Date lastModified = null; public Url(String loc) { this.loc = loc; } public Url(String loc, Changefreq changefreq) { this.loc = loc; this.changefreq = changefreq; } public Url(String loc, Changefreq changefreq, float priority) { this.loc = loc; this.changefreq = changefreq; this.priority = priority; } public String getLoc() { return loc; } public void setLoc(String loc) { this.loc = loc; } public float getPriority() { return priority; } public void setPriority(float priority) { this.priority = priority; } public Changefreq getChangefreq() { return changefreq; } public void setChangefreq(Changefreq changefreq) { this.changefreq = changefreq; } public Date getLastModified() { return lastModified; } public void setLastModified(Date lastModified) { this.lastModified = lastModified; } } public static enum Changefreq { ALWAYS, HOURLY, DAILY, WEEKLY, MONTHLY, YEARLY, NEVER } public static void main(String args) throws IOException { GoogleSitemap sitemap = new GoogleSitemap(); sitemap.setPublicUrl("http://www..setLastModified(new Date()); sitemap.addUrl(url1); sitemap.addUrl(new Url("/post/73", Changefreq.DAILY, 0.3f)); sitemap.addUrl(new Url("/post/2", Changefreq.WEEKLY)); sitemap.write(new PrintWriter(System.out)); } }

Если вы спросите, что такое

Formated.substring(0, 22) + ":" + formated.substring(22);

Так вот, это небольшой хак. Дело в том, что по стандарту w3c в таймзоне должно присутствовать двоеточие, а Z для таймзоны в SimpleDateFormat двоеточие не ставит.

Надеюсь, статья была вам интересна и информация из статьи когда-нибудь вам пригодится. Всего вам хорошего.