Битрикс настройка robot txt. Highload-блог о программировании и интернет-бизнесе. Простое управление мета-тегами для SEO
Многие сталкиваются с проблемами неправильного индексирования сайта поисковиками. В этой статье я объясню как создать правильный robots.txt для Битрикс чтобы избежать ошибок индексирования.
Что такое robots.txt и для чего он нужен?
Robots.txt - это текстовый файл, который содержит параметры индексирования сайта для роботов поисковых систем (информация Яндекса).В основном он нужен чтобы закрыть от индексации страницы и файлы, которые поисковикам индексировать и, следовательно, добавлять в поисковую выдачу не нужно.
Обычно это технические файлы и страницы, панели администрирования, кабинеты пользователя и дублирующаяся информация, например поиск вашего сайта и др.
Создание базового robots.txt для Битрикс
Частая ошибка начинающих кроется в ручном составлении этого файла. Это делать не нужно.В Битриксе уже есть модуль, отвечающий за файл robots.txt. Его можно найти на странице «Маркетинг -> Поисковая оптимизация -> Настройка robots.txt» .
На этой странице есть кнопка для создания базового набора правил под систему Битрикс. Воспользуйтесь ей, чтобы создать все стандартные правила:
После генерации карты сайта путь к ней автоматически добавится в robots.txt.
После этого у вас уже будет хороший базовый набор правил. А дальше уже следует исходить из рекомендаций SEO-специалиста и закрывать (кнопкой «Запретить файл/папку») необходимые страницы. Обычно это страницы поиска, личные кабинеты и другие.
И не забывайте, что вы можете обратиться к нам за
Время чтения: 7 минут(ы)
Почти каждый проект, который приходит к нам на аудит либо продвижение, имеет некорректный файл robots.txt, а часто он вовсе отсутствует. Так происходит, потому что при создании файла все руководствуются своей фантазией, а не правилами. Давайте разберем, как правильно составить этот файл, чтобы поисковые роботы эффективно с ним работали.
Зачем нужна настройка robots.txt?
Robots.txt - это файл, размещенный в корневом каталоге сайта, который сообщает роботам поисковых систем, к каким разделам и страницам сайта они могут получить доступ, а к каким нет.
Настройка robots.txt - важная часть в выдаче поисковых систем, правильно настроенный robots также увеличивает производительность сайта. Отсутствие Robots.txt не остановит поисковые системы сканировать и индексировать сайт, но если этого файла у вас нет, у вас могут появиться две проблемы:
Поисковый робот будет считывать весь сайт, что «подорвет» краулинговый бюджет. Краулинговый бюджет - это число страниц, которые поисковый робот способен обойти за определенный промежуток времени.
Без файла robots, поисковик получит доступ к черновым и скрытым страницам, к сотням страниц, используемых для администрирования CMS. Он их проиндексирует, а когда дело дойдет до нужных страниц, на которых представлен непосредственный контент для посетителей, «закончится» краулинговый бюджет.
В индекс может попасть страница входа на сайт, другие ресурсы администратора, поэтому злоумышленник сможет легко их отследить и провести ddos атаку или взломать сайт.
Как поисковые роботы видят сайт с robots.txt и без него:
Синтаксис robots.txt
Прежде чем начать разбирать синтаксис и настраивать robots.txt, посмотрим на то, как должен выглядеть «идеальный файл»:
Но не стоит сразу же его применять. Для каждого сайта чаще всего необходимы свои настройки, так как у всех у нас разная структура сайта, разные CMS. Разберем каждую директиву по порядку.
User-agent
User-agent - определяет поискового робота, который обязан следовать описанным в файле инструкциям. Если необходимо обратиться сразу ко всем, то используется значок *. Также можно обратиться к определенному поисковому роботу. Например, Яндекс и Google:
С помощью этой директивы, робот понимает какие файлы и папки индексировать запрещено. Если вы хотите, чтобы весь ваш сайт был открыт для индексации оставьте значение Disallow пустым. Чтобы скрыть весь контент на сайте после Disallow поставьте “/”.
Мы можем запретить доступ к определенной папке, файлу или расширению файла. В нашем примере, мы обращаемся ко всем поисковым роботам, закрываем доступ к папке bitrix, search и расширению pdf.
Allow
Allow принудительно открывает для индексирования страницы и разделы сайта. На примере выше мы обращаемся к поисковому роботу Google, закрываем доступ к папке bitrix, search и расширению pdf. Но в папке bitrix мы принудительно открываем 3 папки для индексирования: components, js, tools.
Host - зеркало сайта
Зеркало сайта - это дубликат основного сайта. Зеркала используются для самых разных целей: смена адреса, безопасность, снижение нагрузки на сервер и т. д.
Host - одно из самых важных правил. Если прописано данное правило, то робот поймет, какое из зеркал сайта стоит учитывать для индексации. Данная директива необходима для роботов Яндекса и Mail.ru. Другие роботы это правило будут игнорировать. Host прописывается только один раз!
Для протоколов «https://» и «http://», синтаксис в файле robots.txt будет разный.
Sitemap - карта сайта
Карта сайта - это форма навигации по сайту, которая используется для информирования поисковых систем о новых страницах. С помощью директивы sitemap, мы «насильно» показываем роботу, где расположена карта.
Символы в robots.txt
Символы, применяемые в файле: «/, *, $, #».
Проверка работоспособности после настройки robots.txt
После того как вы разместили Robots.txt на своем сайте, вам необходимо добавить и проверить его в вебмастере Яндекса и Google.
Проверка Яндекса:
- Перейдите по ссылке .
- Выберите: Настройка индексирования - Анализ robots.txt.
Проверка Google:
- Перейдите по ссылке .
- Выберите: Сканирование - Инструмент проверки файла robots.txt.
Таким образом вы сможете проверить свой robots.txt на ошибки и внести необходимые настройки, если потребуется.
- Содержимое файла необходимо писать прописными буквами.
- В директиве Disallow нужно указывать только один файл или директорию.
- Строка «User-agent» не должна быть пустой.
- User-agent всегда должна идти перед Disallow.
- Не стоит забывать прописывать слэш, если нужно запретить индексацию директории.
- Перед загрузкой файла на сервер, обязательно нужно проверить его на наличие синтаксических и орфографических ошибок.
Успехов вам!
Видеообзор 3 методов создания и настройки файла Robots.txt
Сдача готового сайта на «Битриксе» - полбеды. Как правило, всё самое интересное начинается после его первой индексации поисковыми роботами Google и Яндекс, когда в поисковую выдачу может попасть много ненужной для пользователей информации: от «технического мусора» до той фотографии с новогоднего корпоратива.
Держись неизвестный SEO-шник, держись горе-программист, а ведь нужно-то было всего лишь составить правильный robots.txt для Битрикса .
Для справки : robots.txt – это файл, расположенный в корне сайта и ограничивающий поисковых роботов в доступе к его определённым разделам и страницам.
Robots.txt для корпоративных сайтов и сайтов-визиток
Любимая фраза начинающих копирайтеров «каждый проект индивидуален» лучше всего подходит для нашей ситуации. Исключение составляют лишь стандартные директивы для robots.txt: User-agent; Disallow, Host и Sitemap. Если хотите – это обязательный минимум.
Всё остальное в вопросах закрытия и перекрытия – на Ваше усмотрение. Несмотря на то, что «Битрикс» - это коробочное решение, директивы сделанных на нём проектов могут сильно отличаться друг от друга. Вопрос в структуре и функционале отдельно взятого сайта.
Представим, что у вас есть корпоративный сайт на «Битриксе» со стандартным набором разделов: «О компании», «Услуги», «Проекты», «Контакты», «Новости». Если контент на таком сайте уникальный, то нужно работать над закрытием технической части проекта.
1. Закрыть от индексации папку /bitrix и /cgi-bin . Чисто техническая информация (CSS, шаблоны, капчи), которая никому не нужна, кроме ругающегося в панели веб-мастеров GoogleBot’a. Можете смело закрывать её. Алгоритм действий следующий: Disallow: /example/
2. Папка /search также не интересна ни поисковикам, ни пользователям. Закрыв её, вы обезопасите себя в выдаче от дублей страниц, повторяющихся тегов и тайтлов.
3. При составлении robots.txt на «Битриксе» иногда забывают о закрытии форм авторизации и PHP-аутентификации на сайте. Речь идёт о
/auth/
/auth.php
4. Если на вашем сайте есть возможность распечатки каких-либо материалов: будь то карты местности или счёта на оплату, не забудьте закрыть в файле robots.txt следующие директории:
/*?print=
/*&print=
5. «Битрикс» бережно хранит всю историю Вашего сайта: успешные регистрации пользователей, записи об успешной смене и восстановлении паролей. Правда, сомневаемся, что это будет интересно поисковым роботам.
/*register=yes
/*forgot_password=yes
/*change_password=yes
/*login=yes
/*logout=yes
/*auth=yes
6. Представьте, вы просматриваете на сайте фотоальбом, открываете одну, вторую, третью фотографии, но на четвёртой решаете вернуться на шаг назад. В адресной строке появится вот что-то типа такого ругательства: ?back_url_ =%2Fbitrix%2F%2F. Убирается оно опять же изменением файла robots.txt в корне CMS «1С-Bitrix».
/*BACKURL=*
/*back_url=*
/*BACK_URL=*
/*back_url_admin=*
Таким образом, мы страхуем открытую часть (видна пользователям) и закрытую (видна администраторам CMS Битрикс).
7. Папка /upload. В ней «Битрикс» хранит картинки и видео с сайта. Если контент уникальный, то закрывать папку не нужно. Ведь проиндексированные картинки и видео – дополнительный источник трафика. Другое дело, когда в /upload хранится конфиденциальная информация или неуникальный контент.
Robots.txt на Битрикс для интернет-магазинов
Основа та же, что и для корпоративных сайтов, но с несколькими поправками.
1. В отличие от небольшого сайта компании, в интернет-магазине, как правило, не менее ста страниц. Страницы паджинации, отвечающие за переход пользователя с одной карточки товара на другую, засоряют поисковые системы. Чем больше страниц, тем больше «мусора».
/*?PAGEN
2. Запрет индексации действий пользователей и администраторов сайта. Следы фильтрации, сравнения товаров, добавления товаров в корзину также должны быть скрыты от глаз поискового робота.
/*?count
/*?action
/*?set_filter=*
3. Наконец, UTM-метки. Закрыть к ним доступ можно следующим образом:
/*openstat=
/*utm_source=
Мы выпустили новую книгу «Контент-маркетинг в социальных сетях: Как засесть в голову подписчиков и влюбить их в свой бренд».
1C Bitrix - самый популярный коммерческий движок. Он широко используется во многих студиях, хотя идеальным его не назовешь. И если говорить о SEO-оптимизации, то здесь надо быть предельно внимательным.
Правильный robots.txt для 1C Bitrix
В новых версиях разработчики CMS изначально заложили robots.txt, который способен решить почти все проблемы с дублями страниц. Если у вас не обновлялась версия, то сравните и залейте новый robots.
Также внимательней нужно подойти к вопросу роботс, если ваш проект в настоящий момент дорабатывается программистами.
User-agent: * Disallow: /bitrix/ Disallow: /search/ Allow: /search/map.php Disallow: /club/search/ Disallow: /club/group/search/ Disallow: /club/forum/search/ Disallow: /communication/forum/search/ Disallow: /communication/blog/search.php Disallow: /club/gallery/tags/ Disallow: /examples/my-components/ Disallow: /examples/download/download_private/ Disallow: /auth/ Disallow: /auth.php Disallow: /personal/ Disallow: /communication/forum/user/ Disallow: /e-store/paid/detail.php Disallow: /e-store/affiliates/ Disallow: /club/$ Disallow: /club/messages/ Disallow: /club/log/ Disallow: /content/board/my/ Disallow: /content/links/my/ Disallow: /*/search/ Disallow: /*PAGE_NAME=search Disallow: /*PAGE_NAME=user_post Disallow: /*PAGE_NAME=detail_slide_show Disallow: /*/slide_show/ Disallow: /*/gallery/*order=* Disallow: /*?print= Disallow: /*&print= Disallow: /*register=yes Disallow: /*forgot_password=yes Disallow: /*change_password=yes Disallow: /*login=yes Disallow: /*logout=yes Disallow: /*auth=yes Disallow: /*action=ADD_TO_COMPARE_LIST Disallow: /*action=DELETE_FROM_COMPARE_LIST Disallow: /*action=ADD2BASKET Disallow: /*action=BUY Disallow: /*print_course=Y Disallow: /*bitrix_*= Disallow: /*backurl=* Disallow: /*BACKURL=* Disallow: /*back_url=* Disallow: /*BACK_URL=* Disallow: /*back_url_admin=* Disallow: /*index.php$
Host: www.site.ru Sitemap: http://www.site.ru/sitemap.xmlНачальная SEO оптимизация сайта на 1С Битрикс
В 1С Битрикс есть SEO модуль, который идет уже в тарифе “Старт”. Данный модуль имеет очень большие возможности, которые удовлетворят все потребности seo специалистов при начальной оптимизации сайта.
Его возможности:
- общее ссылочное ранжирование;
- цитирование;
- количество ссылок;
- поисковые слова;
- индексация поисковиками.
SEO модуль + Веб-аналитика
Инструменты для поисковой оптимизации по страницам:
- представляется вся информация, которая нужна пользователю для модификации страницы;
- в публичной части выводится базовая информация по контенту страницы;
- отображается специальная информация о странице: частота индексации поисковиками, запросы, которые приводят на эту страницу, дополнительная статистическая информация;
- дается наглядная оценка результативности работы страницы;
- возможность тут же вызвать необходимые диалоги и произвести изменения на странице.
Инструмент для поисковой оптимизации по сайту:
- отображается вся информация, необходимая для модификации сайта;
- базовая информация по содержимому сайта выводится в публичной его части;
- применительно ко всему сайту выводится: общее ссылочное ранжирование, цитирование, количество ссылок, поисковые слова, индексация поисковиками;
- наглядная оценка результативности работы сайта;
- возможность тут же вызвать необходимые диалоги и произвести изменения на сайте.
1С-Битрикс: Marketplace
Также в Битрикс имеется свой Маркетплейс, где есть несколько модулей для SEO оптимизации проекта. Они дублируют функции друг друга, так что выбирайте по цене и функциям.
Простое управление мета-тегами для SEO
Бесплатный
Модуль, который позволяет добавить уникальные SEO-данные (title, description, keywords) на любую страницу сайта, включая элементы каталога.
SEO-инструменты
Платный
- Управление ЧПУ сайта на одной странице.
- Возможность переопределения заголовков, и мета-тегов страниц.
- Возможность установки редиректов.
- Тестирование OpenGraph-тегов.
- Последний заход реального бота Гугла или Яндекса (отложенная проверка валидности бота по его IP-адресу).
- Список переходов на ваши страницы, поисковый трафик
- Подсчет количества лайков к вашим страницам, сторонним сервисом
SEO инструменты: Управление мета-тегами PRO
Платный
Инструмент для автоматической генерации мета тэгов title, description, keywords, а также заголовка H1 для ЛЮБЫХ страниц сайта.
- использование правил и шаблонов;
- применение правила с учетом таргетинга;
- возможность настройки проекта на ЛЮБОЕ количество ключей;
- централизованное управление мета-тегами на любых проектах;
- оперативный контроль состояния мета-тегов на любой странице проекта.
Инструменты SEO специалиста
Платный
Модуль позволяет:
- Устанавливать мета-теги (title, keywords, description).
- Принудительно менять H1 (заголовок страницы), устанавливаемый любыми компонентами на странице.
- Устанавливать признак канонического адреса.
- Устанавливать до трех SEO-текстов в любое место страницы с использованием визуального редактора или без него.
- Многосайтовость.
- Редактировать все вышеуказанное как "с лица" сайта, так и из админки.
- Устанавливать и использовать модуль на редакции Битрикса "Первый сайт".
ASEO редактор-оптимизатор
Платный
Модуль позволяет задать уникальные SEO данные (title, description, keywords) и изменить контент для HTML-блоков на любой странице сайта, имеющей свой URL, либо для определенного шаблона URL на основе GET-параметров.
SeoONE: комплексная поисковая оптимизация и анализ
Платный
- Настройка "URL без параметров".
- Настройка "META-данные страниц".
- "Статичные" - здесь вы сможете легко задать уникальные meta-данные (keywords и description) для страницы, а также уникальный заголовок браузера и заголовок страницы (обычно h1).
- "Динамические" - эта настройка аналогична предыдущей. Отличие заключается лишь в том, что она создается для динамически генерируемых страниц (например, для каталога товаров).
- Настройка "Подмена адресов" позволяет задать вторичный URL для страницы.
- Настройка "Экспресс-анализ". На этой странице вы сможете добавить неограниченное число сайтов для анализа.
ЧПУризатор (выставляем символьный код)
Платный
Модуль позволяет выставить на сайте символьные коды для элементов и разделов в автоматическом режиме.
Linemedia: SEO блоки на сайте
Платный
Предоставляет компонент, который позволяет добавить несколько SEO-блоков текста на любую страницу, установить meta-информацию о странице.
Ссылка на разделы и элементы инфоблоков
Платный
С помощью данного модуля в стандартном визуальном редакторе появляется возможность добавлять и редактировать ссылки на элементы/разделы инфоблоков.
Веб-аналитика в 1C Bitrix: Яндекс Метрика и Google Analytics
Существует несколько вариантов размещения счетчиков в cms:
Вариант № 1. Разместить код счетчика bitrix/templates/имя шаблона/headers.php после тега
.Вариант № 2. Использовать для Яндекс Метрики специальный плагин .
Вариант № 3. В Битрикс есть свой модуль веб-аналитики. Конечно же, он не позволит создавать собственные отчеты, делать сигментации и так далее, но для простого использования следить за статистикой - вполне себе инструмент.
Яндекс Вебмастер и Google webmaster в 1C Bitrix
Да, чтобы добавить сайт в сервис Вебмастер (как в Гугл, так и в Яндекс) существуют встроенные решения, но мы настойчиво рекомендуем напрямую работать с этими сервисами.
Потому, что:
- там вы сможете увидеть намного больше данных;
- вы будете уверенны, что данные актуальны (насколько это возможно) и не искажены;
- если сервис выпустит обновление, вы сразу сможете его увидеть и использовать (в случае работы с плагином, придется ждать обновлений).
Если вы только создаете сайт и задумались о том, насколько 1C Bitrix подходит для продвижения в поисковых системах и нет ли в нем каких-то проблем, то беспокоиться не нужно. Движок является лидером среди платных cms на рынке и уже очень давно, все seo специалисты (я не только про нашу студию говорю) уже не раз сталкивались с Битриксом и у всех есть опыт.
На 1C Bitrix не отличается от продвижения на других cms или самописных движках. Различия можно увидеть лишь в инструментах для оптимизации, о которых мы написали выше.
Но стоит помнить о том, что инструменты сами по себе не продвинут ваш сайт. Здесь нужны специалисты, которые правильно их настроят.
Кстати, у нас полно статей-инструкций, в которых много практических советов с историей многолетней практики. Конечно, мы думали над тем, чтобы наладить тематическую рассылку, но пока не успеваем. Так что удобней всего