Краулинговый бюджет сайта: что это такое, как проверить сканирование ресурса поисковыми роботами и оптимизировать лимит обхода

Сайт, особенно во время оптимизации, постоянно меняется: корректируются страницы или создаются новые. Чтобы эти изменения отобразились в результатах поиска и участвовали в ранжировании, их необходимо заново проиндексировать. Занимаются этим специальные поисковые роботы – краулеры. Бывает, что площадка слишком большая: представьте, что это интернет-магазин с сотнями тысяч страничек. Для их обхода системе нужны огромные ресурсы. Поэтому были введены лимиты – количество посещений в день. Это и есть краулинговый бюджет, а его оптимизация влияет на продвижение в целом. В статье я расскажу подробнее об этом понятии и способах работы в этом направлении.

Содержание скрыть

Как поисковик обходит сайт
- Статические документы
- JS-страницы
Нужно ли следить за краулингом сайта
Как проверить сканирование
Проверенные способы, как оптимизировать краулинговый бюджет
Как сделать индексацию сайта лучше при текущем краулинговом бюджете?
Как работать с рендеринговым бюджетом
Что делать после оптимизации бюджета
Заключение
Часто задаваемые вопросы

Как поисковик обходит сайт

Чтобы страница находилась в поиске, участвовала в ранжировании и приносила трафик, ее должен посетить и проиндексировать поисковый робот. Однако этот процесс различается в зависимости от специфики веб-ресурса.

Статические документы

В их формировании участвует обычный HTML-код, он статичен и не создает проблем для краулеров.

Поэтому обход выглядит так:

Бот собирает все URL площадки – все это он находит в Sitemap, а также по внешним и внутренним ссылкам.
Этот перечень он сверяет с robots.txt – какие урлы можно добавлять, а какие нет.
После этого crawler сортирует все по приоритетности и приступает к сканированию. Приоритет рассчитывается по нескольким факторам: указания в сайтмепе, вложенность, PageRank и т.д.

Оксана Зорий

Руководитель SEO-производства

Хочу заметить, что в файл добавляются нестрогие правила. И если, например, в роботсе стоит запрет на индексацию папки /catalog/, но на нее ссылаются другие страницы или есть 301 редиректы, то поисковик может решить, что она все же нужна и добавит ее в свой список.

Из-за краулингового бюджета, особенно если ресурс большой, не все странички могут сразу просканироваться. Бот будет делать это порционно, из-за чего индексирование может растянуться на недели. Поэтому важно следить за своей площадкой и сразу закрывать ненужные ссылки в robots.txt, чтобы лимит не расходовался на нецелевые урлы.

Поисковый (SEO) аудит сайта

Проведем полный, комплексный поисковый (SEO) аудит сайта, включая: техническая проверку, оптимизацию, коммерческие факторы, внешние характеристики. Никакой воды в отчете! Только описание существующих проблем и их эффективных решений.

Оставить заявку

Подробнее…

JS-страницы

С современными тенденциями популярными становятся так называемые AJAX сайты. В них все документы динамические с использованием визуализации и JS-фреймворков. Процесс обхода здесь включает промежуточный этап, так как робот сначала должен распознать и перевести контент, сделанный через JavaScript, на понятный ему язык, а уже потом его проиндексировать. Это называется рендерингом.

Обрабатывается содержимое с помощью Chromium. Кстати говоря, Google справляется с этой задачей лучше. Яндекс долгое время находился в бездействии и только недавно начал выкатывать в Вебмастере новые инструменты для JS. Но пока что лучше перестраховаться и воспользоваться сторонними сервисами для перевода информации в HTML.

Количество динамических страниц, обрабатываемых ботом, называется рендеринговым бюджетом (подробнее об этом в справке Гугла). Процесс зависит от сложности реализации, и индексирование иногда может занимать больше времени, чем для статических. Это не влияет на ранжирование, но все равно имеет значение для web-ресурса: чем дольше проходит индексация, тем больше времени URL не появится в поиске, а значит и трафик на него собираться не будет.

SEO-продвижение для Google: как убедить поисковик в ценности вашего сайта

Нужно ли следить за краулингом сайта

Сложно сказать наверняка, стоит ли тратить много сил на отслеживание этих показателей. Как правило, для небольших площадок эта необходимость отпадает, но на крупных интернет-магазинах, новостных порталах и маркетплейсах, где данные обновляются практически ежедневно, пренебрегать этим не желательно. Ведь есть большая вероятность, что роботы начнут массово обходить второстепенные документы (дубли, урлы с GET-параметрами), из-за чего актуальные будут дольше попадать в индекс.

Как проверить сканирование

Для этого в SEO есть несколько способов. Подробнее рассмотрим каждый из них.

Динамика ресурса

Посмотреть ее можно в Вебмастерах обеих систем. В Яндексе отчет находится во вкладке «Статистика обхода». Здесь указан список страниц, обойденных краулером, а также ЧПУ, которые он не смог распознать.

В Search Console тоже есть такие данные. Они отображаются в разделе в разделе «Статистика сканирования».

Ошибки в индексации влекут за собой ухудшение ранжирования, а значит и падение трафика. В сервисах отображается, какие документы и по какой причине не попадают в поиск. Возможно, они некачественные, или доступ к ним закрыт в robots.txt и т.д. Все это можно проверить и своевременно исправить.

Анализ конкретного урла

Узнать статус тоже получится в Вебмастерах. В GSC есть отдельный инструмент «Проверка URL». Вставляем в него интересующую ссылку и смотрим, обработана ли она ботом и что мешает процессу, если обработка не произошла.

Важно, что анализируется последняя версия странички. Если после сканирования она менялась или была удалена, то эти изменения могут и не отобразиться. Но можно перейти на сайт, где будет ее актуальный ее вариант.

Кроме того, не учитываются блокировки и санкции от ПС. Уведомление о том, что все хорошо, не всегда означает, что ЧПУ есть в индексе. Лучше лишний раз перепроверить: ввести его в поисковую строку и посмотреть в выдаче. Здесь же мы увидим контент глазами краулера. Кликаем на стрелочку справа от ссылки и выбираем «Сохраненная копия».

Тут вы найдете полную или текстовую версии, а также исходный код.

Серверные логи

Этот способ поможет вам посчитать приблизительный краулинговый бюджет вашего сайта. Все, что необходимо сделать: выгрузить отчеты с сервера. В них есть данные, что обходил бот, а что проигнорировал, как часто он посещает ресурс и что индексирует.

Для анализа вам понадобится всего 3 показателя:

URL;
дата обхода;
User Agent (чтобы быть уверенным, что это поисковик).

Каждый краулер оставляет после себя следы. Например, Googlebot десктопной версии отметится так:

А в Яндексе он будет таким:

Внимание

На какие-то урлы робот может не заходить по разным причинам. Например, из-за плохой перелинковки или закрытия в роботсе. Но если проблем с этим нет, то в динамике можно оценить приблизительный лимит.

Проверенные способы, как оптимизировать краулинговый бюджет

По опыту могу сказать, что проработав некоторые моменты, возможно улучшить результаты по своему сайту. Расскажу, что мы в студии для этого делаем.

ТОП инструменты для SEO-продвижения: 20+ бесплатных сервисов

Скорость загрузки

Чем дольше грузятся страницы, тем больше времени бот на них тратит. Это не комильфо, особенно если на очереди еще много нового или измененного контента.

Проверить показатель можно разными сервисами. Лучше использовать несколько, чтобы получить более достоверные цифры.

Среди них:

Гугл выводит в своем инструменте довольно подробный отчет с рекомендациями по исправлению ошибок.

Продвижение по трафику

Привлечем целевых пользователей из Яндекс и Google. Работаем над внутренними и внешними факторами ранжирования и видимостью сайта в поисковиках. Вы получаете рост посещаемости и высокий охват среди потенциальных клиентов.

Оставить заявку

Подробнее…

Настроить Sitemap.xml

Это нужно для того, чтобы краулеры быстрее находили и обходили документы. Добавляем в карту только актуальные урлы с качественным содержимым, которые должны попасть в индекс.

В дополнение можно настроить постраничный last-modified. С его помощью лимит не будет тратиться на то, что в последнее время не изменялось.

Если такой возможности нет, прописываем теги в самом xml-файле:

<lastmod> – отобразит дату изменений;
<changefreq> – вероятный интервал обновления;
<priority> – приоритет для индексации.

Сделать правильный robots.txt

Несмотря на то, что в файле указаны только рекомендации, а не строгие правила, он все равно может повлиять на сканирование. Например, закрываем все служебные точки, фильтры, ЧПУ с GET-параметрами. Вполне вероятно, что все это проигнорируется, а краулинг не будет растрачен зря.

Убрать множественные редиректы

От длинных 301 цепочек нужно максимально избавляться. Они вредят всем: краулеры тратят больше сил на переадресации, а если их слишком много, то они и вовсе могут потерять след и уйти. Для пользователей это тоже плохо, так как скорость загрузки итоговой странички заметно увеличивается.

Избавиться от дублей

Разобраться с этим надо обязательно, так как они не несут пользы ни посетителям, ни поисковикам. Системы не любят такой контент и снижают сайт в выдаче, боты редко обходят эти страницы вместе с целевой.

Сделайте технический аудит, чтобы выявить список дублирования. А затем либо удалите эти документы, либо настройте редиректы.

Реализовать правильную внутреннюю перелинковку

Все URL краулеры разбивают по приоритетности. И один из факторов – его удаленность от главной. Чем меньше мы кликаем до искомой странички, тем она важнее.

Еще момент: crawler тоже переходит по ссылкам. Так он находит все нужные для сканирования ЧПУ. Но если новые из них не перелинковываются со старыми, то добраться до них будет проблематично.

Наращивать ссылочную массу

Но приоритет определяется и авторитетом контента. Если на него ссылается большое количество внешних ресурсов, он становится значимее в глазах роботов. Главное, чтобы сайты-доноры были релевантные, качественные и подходили по тематике.

Что такое сниппет и как его правильно сделать

Как сделать индексацию сайта лучше при текущем краулинговом бюджете?

Часто в индексе оказываются «мусорные» URL: служебные, нецелевые или дубли.

Проблемы начинаются, если:

CMS выводит техстраницы с кодом 200 OK;
фильтры дублируют основную информацию и становятся ее копиями;
теги размещаются с практически нулевой частотностью.

Решить такие задачи можно только тщательной работой над площадкой:

вовремя замечать генерацию «мусора» и закрывать его от обхода;
оптимизировать административную панель.

На практике используются различные сервисы для аудита, в том числе и Вебмастера.

Как работать с рендеринговым бюджетом

При использовании JS-страниц нужно заранее подумать о том, чтобы поисковикам было удобно их сканировать. Помним, в начале статьи мы говорили о том, как роботы обходят веб-ресурсы. А еще о промежуточном этапе в этом процессе – рендеринге. Именно из-за него индексация будет проходить медленнее. Но и это мы можем решить.

Не визуализируем часть контента

Решения, связанные с JavaScript необходимы не для всего содержимого. Не переусердствуйте с визуализацией, иначе можно утяжелить страничку. Некоторую информацию прописываем с помощью HTML, чтобы боты могли сразу ее распознать.

Сокращаем JS

В скриптах тоже часто может быть мусор: ненужные куски кода, неактуальные библиотеки, комментарии и разрывы. Размеры кодовых фрагментов мы рекомендуем уменьшать. Для этого есть много бесплатных сервисов и инструментов, например:

Ускорьте загрузку документа

Скорость отображения контентной части тоже нужно повысить, так урл будет грузиться быстрее. Для этого есть разные способы: вынести JS и CSS в отдельные папки, настроить долгосрочное кэширование и т.д.

Сделать динамическую отрисовку контента

Не все поисковики умеют правильно рендерить JS-содержимое, либо делают это довольно долго. Например, Google справляется с этой задачей неплохо, тогда как Яндекс только начал внедрять подобные алгоритмы.

Пока что проблема индексации AJAX-сайтов остается, поэтому для перестраховки лучше прибегать к этому методу, возможно, и на стороннем сервисе. Суть в том, что сервер должен узнать ботов и предоставить им данные, переведенные на понятный им HTML. Внедрить это можно как на всю площадку в целом, так и на конкретные ЧПУ.

Что делать после оптимизации бюджета

Когда все работы проделаны, нам остается только смотреть и анализировать. Используем Вебмастеры (о чем я уже говорила выше), либо другие сервисы, например, Топвизор.

На что смотрим

соотношение новых страниц и проиндексированных в этом месяце;
список URL, посещаемых краулером;
документы, не попавшие в индекс, и общее между ними.

Я.Вебмастер, так же как и Google показывает информацию, почему контент был исключен из поиска. Это могут быть малоценные или маловостребованные урлы, дубли, неправильный код ответа сервера. Либо бот так и не нашел страничку, а значит ее необходимо получше перелинковать.

Проводить такой аудит рекомендуется ежемесячно. Если же площадка огромная и регулярно обновляемая, то обращать внимание на краулинг рекомендуется почаще.

Заключение

Итак, мы узнали, что краулинговый бюджет – это количество ссылок, которые поисковик может обойти за определенный период. Для каждого ресурса этот лимит индивидуальный. Однако владельцам больших сайтов нужно за этим следить, так как любая ошибка может негативно сказаться на индексации, а значит и на получении результата.

Часто задаваемые вопросы

Как понять, что есть проблемы с краулингом?

Первые признаки — замедление индексации, падение позиций и резкие колебания частоты обхода. Проверить можно в Google Search Console во вкладке «Статистика сканирования». Если видно, что робот посещает сайт редко или получает большое количество ответов 404, 500 или 301 — это сигнал к техническому аудиту. Дополнительно изучите логи сервера — они покажут, какие странички обходятся, сколько времени уходит на загрузку. Если значительная часть ресурсов расходуется на неважные разделы (например, фильтры, дубликаты), необходимо оптимизировать структуру и перенаправить внимание поисковика на приоритетные материалы.

Как часто нужно пересматривать краулинговый бюджет?

Оптимальная регулярность — каждые 2–3 месяца, но при активных обновлениях сайта анализ стоит проводить ежемесячно. Переоценивать показатели важно после добавления новых блоков, изменения CMS, редизайна или миграции на другой сервер. Систематический контроль позволяет отследить динамику и заметить, если робот стал обходить меньше страниц. Также сравнивайте данные из Search Console, логов и аналитики: это помогает понять, какие корректировки положительно сказываются на индексировании.

Влияет ли дублированный контент на распределение бюджета?

Да, довольно сильно. Когда поисковый бот сталкивается с одинаковыми страничками, он тратит часть лимита на их обход, вместо того чтобы индексировать уникальные материалы. В результате важные разделы могут остаться вне индекса. Чтобы этого избежать, стоит внедрить канонические урлы, объединять дубликаты с помощью 301 редиректов и корректно прописывать теги rel=»canonical». Также необходимо следить за параметрами в URL — сортировка и сессии часто создают множество технических страниц, которые дублируют контент.

Почему крупные веб-ресурсы иногда индексируются хуже, чем маленькие?

Большие проекты содержат тысячи малозначительных разделов: фильтры, архивы, повторяющиеся карточки товаров. Если они не ограничены в robots.txt, робот тратит ресурсы на их сканирование, а не на то, что приносит трафик. Кроме того, объемные сайты испытывают проблемы с глубиной вложенности — чем дальше страница от главной, тем реже она обходится. Чтобы избежать этого, нужно оптимизировать внутренние ссылки, выстраивать логическую иерархию, сокращать количество переходов и следить за правильной настройкой пагинации.

Какие технические ошибки сильнее всего ухудшают эффективность краулинга?

Циклические редиректы, битые адреса и ответы сервера 404 и 500. Робот тратит время на бесполезные обходы, и это снижает общий лимит сканирования. Часто проблемы создают некорректно настроенные robots.txt и sitemap.xml — например, когда в карте сайта указаны устаревшие ссылки. Не стоит забывать и про дубли из-за параметров в URL или бесконечной пагинации. Решение — провести аудит, проверить правильность перенаправлений и оптимизировать внутреннюю структуру.