Как найти страницы сайта в поиске Яндекса
Опубликовано: 13.09.2019г.
Летом 2019 года Яндекс модифицировал фильтр по результатам поиска, который отображается кнопкой справа от поисковой строки. В итоге функция “Поиск по сайту” стала недоступна. Яндекс убрал ее из фильтра, но сам оператор поиска по сайту site был сохранен.
Любой пользователь может получить список страниц сайта используя простые действия.
Метод 1. Модификация GET запроса с использованием параметра site
Используем несложную модификацию стандартного запроса к результатам поиска Яндекса
https://yandex.ru/search/?lr=54&text=[запрос]
добавив оператор site через амперсанд & в конец строки
https://yandex.ru/search/?lr=54&text=[запрос]&site=[домен сайта]
Метод 2. Добавление оператора site в поисковую строку
Этот метод более удобен рядовым пользователям. Он не требует вносить изменения в строку запроса, а достаточно просто в поисковой строке к основному запросу добавить через пробел site:[домен сайта].
Полученнный результат ничем не будет отличаться от результата, полученного при использованиии первого метода.
Получение списка всех страниц в поиске
Если есть задача получить список всех страниц сайта, то достаточно в поисковой строке ввести оператор site без запроса.
Получение списка страниц с нескольких сайтов
Для того, чтобы получить результаты поиска с нескольких сайтов, можно воспользоваться дополнительным оператором ИЛИ (|) и круглыми скобками для группировки.
[запрос] ( site:domen1.ru | site:domen2.ru )
В этом случае, поисковый запрос будет выглядеть следующим образом:
Данный метод отлично позволяет оценить уровень ранжирования сайта по запросу в сравнении с другими сайтами.
Как правило, оператор указывается после текста поискового запроса и отделяется от него пробелом. В одном запросе одновременно можно использовать несколько фильтров и операторов, так же разделяя их пробелом — [поиск site:www.yandex.ru mime:pdf]. Если пробел стоит внутри оператора, его нужно заменить символами %20
.
При использовании операторов, где в качестве параметра задается имя хоста (url
, host
и rhost
), следует указывать главное зеркало сайта. Например, [host:lib.ru], а не [host:www.lib.ru]. Узнать, является ли сайт главным зеркалом, можно, добавив хост в базу Яндекса.
Чтобы найти все документы, адреса которых начинаются с заданного значения, поставьте в конце URL символ *
. URL в запросе следует заключить в кавычки, если он содержит один из следующих символов:'
"
(
)
_
.
Примечание. Регистр букв в адресе не учитывается.
Оператор | Синтаксис | Пример запроса |
site: |
|
[яндекс site:narod.ru] Будут найдены документы, содержащие слово «яндекс» и размещенные на поддоменах и страницах сайта narod.ru. |
Оператор | Синтаксис | Пример запроса |
host: |
|
[поиск host:www.yandex.ru] Будут найдены документы, содержащие слово «поиск» и размещенные на хосте www.yandex.ru. |
Идентичен оператору url: с заданным именем хоста.
Оператор | Синтаксис | Пример запроса |
rhost: |
|
[новости rhost:com.livejournal.www] Будут найдены документы, содержащие слово «новости» и размещенные на домене livejournal.com. [новости rhost:com.livejournal.*] Будут найдены документы, содержащие слово «новости» и размещенные на всех поддоменах домена livejournal.com. |
Идентичен оператору host:, но имя хоста записывается в обратном порядке: сначала домен верхнего уровня, затем домен второго уровня и т. д.
Для поиска по всем поддоменам заданного домена в конце URL поставьте символ *
.
Оператор | Синтаксис | Пример запроса |
domain: |
|
[яндекс domain:ua] Будут найдены документы, содержащие слово «яндекс» и размещенные на домене ua. |
Как проверить индексацию для неподтвержденного сайта мы рассказали ранее. Сейчас же расскажем о проверке с помощью данных, которые предоставляет Яндекс Вебмастер и Google Search Console.
Список проиндексированных страниц
Для того чтобы получить полный список проиндексированных страниц в Яндексе, необходимо зайти в раздел Индексация > Страницы в поиске > вкладка «Все страницы».
Ниже представлен список всех страниц, находящихся в поиске, и возможность выгрузить таблицу в XLS и CSV.
В новой версии Google Search Console также появилась возможность увидеть список всех проиндексированных страниц. Для этого нужно зайти в отчет «Покрытие» (в разделе «Индекс»).
В списке ниже представлена информация о страницах, о которых известно поисковой системе и дополнительная информация по ним.
Детальный список проиндексированных страниц можно получить из списка со статусом «Страница без ошибок».
Проверка индексации
Чтобы обнаружить «мусорные страницы», нужно следовать следующему алгоритму:
- Получаем полный список страниц, которые должны быть проиндексированы. Для этого мы используем программу Screaming Frog SEO Spider. При правильной настройке файла robots.txt спарсится список всех доступных для индексации страниц.
- Выгружаем индексируемые страницы сайта из Вебмастеров.
- Сравниваем попарно получившиеся списки с помощью инструмента «Условное форматирование» в Excel, подсветив все уникальные значения.
В ходе сравнения могут возникнуть следующие ситуации:
- подсветка страниц, которые есть только в списке парсера. В таком случае нужно диагностировать причину, почему страница не находится в индексе. Если она должна индексироваться, то отправляем ее на переобход.
- подсветка страниц, которые есть только в индексе. В данном случае пытаемся понять, почему ее нет в списке всех страниц сайта. Возможно, это страница с кодом 404, которая так и не была удалена поисковым роботом или деактивированный элемент, у которого неверно настроен код ответа.
Для удаления страниц в Вебмастере существует инструмент «Удаление страниц из поиска», позволяющий единовременно удалить до 500 отдельных страниц или группу страниц по префиксу в url. Главное, чтобы страницы были закрыты от индексации.
Инструмента для принудительного удаления страниц у Google нет, но можно временно удалить свои URL из результатов поиска.
Для этого необходимо зайти в старую версию Search Console и в левом меню выбрать «Индекс Google» > «Удалить URL-адреса».
Далее указываем URL страницы, которую вы хотите скрыть. Выбираем из списка необходимое действие и отправляем запрос.
Ждите новые заметки в блоге или ищите на нашем сайте.
Иногда оптимизатору нужно получить список всех страниц сайта, в том числе технических и не проиндексированных. Чтобы собрать их вручную, придется потратить не один час, особенно если сайт большой. Существуют сервисы, которые упрощают задачу. Чтобы при аудите ни один документ не потерялся, можно воспользоваться не одним, а сразу несколькими инструментами.
Расскажем, как найти все страницы сайта и какие сервисы для этого нужны.
Зачем нужна такая информация
Список страниц полезен для того, чтобы:
- Найти все страницы, которые не проиндексированы или выпали из индекса поисковой системы. Их нужно проанализировать. Возможно, причина в технических настройках (например, URL закрыт от роботов ПС) или в низком качестве документов. При необходимости их нужно доработать.
- Такой список — хорошая помощь, когда нужно найти причину проблем. Например, при резком падении трафика.
- Настроить перелинковку — проставить внутренние ссылки, правильно распределить ссылочный вес.
- Избавиться от «мусорных» документов, ошибок, дублей.
- Найти все страницы сайта с кодом ответа, отличным от 200 OK.
Почему для сбора данных одного инструмента мало
Выбор инструмента зависит от задачи. Если встал вопрос, как найти все проиндексированные документы или только те, на которые идет трафик, Вебмастера и Метрики будет достаточно. Если проводится технический аудит, подходит Screaming frog SEO spider.
Если нужен полный список страниц, удобнее воспользоваться сразу несколькими инструментами и объединить получившиеся списки. Если ограничиться только одним способом, перечень будет неполным. Например, если использовать только xml-карту, в списке не окажется «мусорных» файлов, сгенерированных из-за неправильных технических настроек. Яндекс.Вебмастер показывает только те документы, которые попали в поиск или выпали из него.
Пиксель Тулс
С помощью онлайн-инструмента «Анализ структуры проекта» можно узнать все страницы, проиндексированные поисковой системой Яндекс. Для анализа не нужен доступ к файлам сайта и Метрике. Можно получить список URL любого проекта, например, конкурента.
Введите домен в верхнюю строку и кликните на кнопку «Найти». Если выбрать опцию «Анализировать число документов только для разделов второго уровня», сервис подсчитает количество страниц в категориях и не будет определять объем подкатегорий.
Инструмент строит подробную наглядную структуру (иерархию), подсчитывает количество документов в разделах и процент от общего объема проекта.
Яндекс.Вебмастер
Откройте подраздел «Страницы в поиске» в разделе «Индексирование».
Откройте вкладку «Все страницы» и скачайте таблицу в формате CSV или XLS.
Чтобы получить перечень не попавших в индекс документов, нужно скачать таблицу в разделе «Исключенные страницы».
Яндекс.Метрика
Полный список страниц, на которые заходят пользователи, можно найти в Яндекс.Метрике. Для этого нужно выбрать большой период, например, год, и зайти в раздел «Адрес страницы».
По умолчанию документы ранжируются по количеству просмотров.
В список попадают не только проиндексированные, но и неканонические документы: пагинационные, с результатами поиска и другие.
Xml-карта сайта
Обычно Xml-карта располагается по стандартному адресу site.ru/sitemap.xml, но может находиться и на другом URL. Иногда карта строится как список всех адресов, расположенных по датам индексации.
Карта может представлять собой набор файлов со ссылками. Чтобы получить полный список страниц, нужно открыть каждый файл и скопировать ссылки.
Google Analytics
В счетчике Google Analytics, так же, как и в метрике, можно посмотреть все адреса, на которые есть заходы.
Откройте отчет «Страницы и экраны». Кликните на «Путь к странице и класс экрана».
Чтобы скачать результат, выберите опцию «Поделиться отчетом»-«Загрузить файл».
Google Search Console
Еще один способ получить нужные данные — скачать их через консоль Google. В разделе «Индексирование» сформированы два перечня — проиндексированных и не проиндексированных документов. Здесь же показаны причины, почему документы не индексируются. Например, ошибка 404, переадресация, блокировка в файле robots.txt.
Чтобы скачать отчет, кликните «Экспортировать» в правом верхнем углу и выберите удобный формат.
Сканирование через Screaming frog SEO spider
Screaming Frog SEO Spider («Паук», «Лягушка») – десктопная платная программа, один из самых популярных и продвинутых парсеров. Умеет без доступа к файлам и админпанели сканировать любые сайты.
- Проверяет весь сайт или указанный раздел, файлы только основного домена или всех поддоменов.
- Находит все страницы сайта, проверяет коды ответа сервера.
- Составляет список битых ссылок.
- Находит все страницы с очень длинными заголовками, тегами или URL-адресами.
- Ищет изображения без тега alt.
- Вычисляет дубли SEO-тегов или URL.
- Проверяет орфографию.
- Находит документы с директивами nofollow, noindex, canonical.
- Проверяет файл robots.txt, микроразметку Schema.
- Выявляет все страницы без контента или с минимумом контента.
Иногда лучше ограничить парсинг только некоторыми разделами или типами документов. Чтобы уменьшить время сканирования и объем работы, можно снять галочки с Изображений, CSS, JavaScript и SWF ресурсов.
Во вкладке Settings можно настроить парсинг относительно правил robots.txt.
Respect robots.txt — сканируются только те файлы, которые открыты в файле robots.txt.
Ignore robots.txt — парятся все файлы домена, независимо от того, открыты ли они для индексирования.
Ignore robots.txt but report status — сканируются все файлы, но отдельно выводится информация, проиндексирован документ или нет.
Чтобы запустить сканирование, введите адрес сайта, выберите функцию Spider, кликните на кнопку Start.
Итоговый список страниц можно скачать на компьютер в удобном формате.
Заключение
Существуют сервисы, которые формируют списки документов сайта. Выбор инструмента зависит от задачи. Если нужно просканировать свой проект, возможно, будет достаточно Google Analytics, Яндекс.Метрики и Яндекс.Вебмастера. Если планируется глубокий технический аудит, с задачей справится Screaming frog SEO spider. Он же подходит для парсинга конкурентов. Также для анализа чужого сайта можно воспользоваться Xml-картой и инструментом «Анализ структуры проекта» от Пиксель Тулс.
Технические доработки под требования SEO и оптимизация структуры сайта – это первостепенные моменты в продвижении ресурса, но если поисковые системы не знают о нем, то есть он не проиндексирован, то продвижение невозможно.
Что же такое индексация? Это добавление поисковыми роботами собранных сведений о ресурсе в базы данных. Дальнейшее ранжирование происходит уже по проиндексированным страницам. Предлагаем несколько простых и понятных способов проверки страниц, которые «видят» поисковые системы.
Рассмотрим каждый вариант подробнее.
Оглавление:
-
Проверка индексирования сайта через панель Яндекс.Вебмастера и Google Search Console
-
Проверка количества проиндексированных страниц в ПС при помощи операторов
-
Анализ индексации сайта при помощи плагинов и расширений
-
Отслеживание проиндексированных страниц с помощью online сервисов
-
Программы для контроля индексации сайта
-
Проверка индексации страницы
-
Почему сайт может не индексироваться
-
Выводы SEO-специалиста Веб-Центра
1. Проверка индексирования сайта через панель Яндекс.Вебмастера и Google Search Console
Бесплатный и достоверный способ с использованием сервисов для вебмастеров.
Яндекс.Вебмастер
В первую очередь выполняем авторизацию в аккаунте Яндекса и входим в сервис Вебмастер. Далее вводим url ресурса и нажимаем кнопку «Добавить».
Добавление сайта в вебмастер Яндекса
После прохождения верификации переходим в панель и нажимаем вкладку «Индексирование» – «Страницы в поиске». Тут представлены страницы веб-сайта, участвующие в поиске Яндекса.
Просмотр страниц в поиске Яндекса через панель для вебмастеров
Также количество загруженных и проиндексированных страниц можно посмотреть в сервисе на странице «Мои сайты».
Просмотр количества страниц в поиске на вкладке «Мои сайты»
Для анализа список страниц можно скачать из сервиса файлом в форматах .xls и .csv.
Google Search Console
Аналогично вебмастеру Яндекса проходим авторизацию в аккаунте Google, входим в сервис search.google, вводим url сайта и нажимаем кнопку «Добавить ресурс».
Пример верификации в панели вебмастеров в Гугл
После подтверждения прав на сайт для проверки индексации ресурса в панели Вебмастера Гугл переходим во вкладку «Индекс» – «Покрытие».
Просмотр страниц в ПС Гугл через панель для вебмастеров
Нужно учитывать, что информация в Google Search Console примерная, так как в отчете показывается статистика после последнего обхода, то есть количество страниц может быть другим на текущий момент проверки.
Примеры проверки индексации сайта
На скриншоте – сайт, у которого нет проблем с индексацией в Яндексе
На скриншоте – сайт, у которого регулярно удаляются страницы из поиска Яндекса
На скриншоте – сайт, у которого регулярно удаляются страницы из поиска Гугл
2. Проверка количества проиндексированных страниц в ПС при помощи операторов
1. Оператор «site»
Применяя документный оператор «site» возможно увидеть примерное количество страниц в индексе. Для использования этого параметра введите в строке поиска «site:адрес_интересующего_сайта», например «site:https://www.bordur32.ru».
Пример использования оператора «site» в Яндексе
Пример использования команды «site» в Гугле
Но в использовании этого оператора есть особенность. Если на сайте более 2 тысяч страниц, то Яндекс часто показывает их некорректное количество. Поэтому сам Яндекс рекомендует уточнять информацию по количеству страниц в индексе через панель вебмастеров, о которой говорили выше.
С помощью оператора мы видим количество страниц – 2 тысячи, если смотреть через панель вебмастера, то число будет совсем другим – 7 808:
Оператор «host»
Оператор «host:» работает по принципу оператора «site», только он позволяет сузить область поиска до конкретного домена. Поддомены не учитываются и не выводятся в результатах поиска. Чтобы использовать оператор, введите в строке поиска «host:адрес_интересующего_сайта».
Если бы мы использовали оператор «site», в выдачу попали бы страницы с поддоменами других городов.
3. Анализ индексации сайта при помощи плагинов и расширений
Чтобы не вводить операторы в строке браузера перед url используется данный автоматизированный способ. Скачиваем бесплатный букмарклет для браузера (небольшой по размеру скрипт, сохраняемый в закладках) и кликаем на специальную иконку находясь на сайте.
Пример использования плагина SEO-tools
Установить расширение вы можете по ссылке
Пример использования расширения RDS bar
Установить расширение вы можете по ссылке
4. Отслеживание проиндексированных страниц с помощью online сервисов
Еще один способ проверки индексации это использование сторонних ресурсов. Например, переходим на сайт a.pr-cy.ru
вводим url и нажимаем «Анализировать».
Скриншот проверки индексации сайта в a.pr-cy.ru
Индексацию сайта можно проверить и в других сервисах, например: seogadget.ru, xseo.in и других.
5. Программы для контроля индексации сайта
Существуют бесплатные (Site-Auditor) и платные программы (Semonitor) для анализа сайта и проверки страниц в индексе. Выбранное программное обеспечение скачиваем и устанавливаем на ПК. В строку ввода добавляем url проверяемого сайта.
Скриншот фрагмента анализа сайта в программе Site-Auditor
Больше полезных материалов о digital читайте в телеграм-канале «В центре маркетинга»
Проверка индексации страницы
Иногда требуется не только узнать сколько страниц проиндексировано в Яндексе и Google, но и нужно определить индексируется ли какая-то конкретная страница. Это можно сделать следующими способами:
1. В панели для вебмастеров:
-
Яндекс – следовать по пути «Индексирование» – «Проверить статус URL». В поле для ввода данных ввести либо полный урл интересующей страницы, либо путь от корня сайта начинающийся с «/». Далее нажать кнопку «Проверить».
Проверяемая страница в поиске Яндекса
-
Google – перейти во вкладку «Проверка URL» и ввести урл интересующей страницы.
Проверяемая страница проиндексирована в Google
2. Оператор «url»
В строке поиска вводим специальный оператор. Запрос будет выглядеть так: «url:адрес_интересующей_страницы».
Пример использования оператора «url» в ПС Яндекс
Ранее, по типу оператора «url» в Яндекс, в поисковой системе Google был оператор «info». В 2019 году Google отключил данный поисковый оператор. Причиной этого решения стал тот факт, что эта команда мало используется, а получить эти данные можно с помощью инструмента проверки URL в Search Console.
Используя оператор info, можно было просмотреть канонический URL для конкретной страницы. Однако, поскольку эти данные доступны в инструменте проверки URL, то отдельный поисковый оператор, по мнению Google, больше не нужен.
3. Оператор «info»
В поисковой системе Google можно воспользоваться оператором «info». Запрос в строке поиска будет выглядеть следующим образом: «info:адрес_интересующей_страницы»
Пример использования оператора «info» в ПС Гугл
Почему сайт может не индексироваться
В идеале страницы ресурса должны быть проиндексированы и их количество в поисковых системах должно быть примерно одинаковым. Но так бывает далеко не всегда. Рассмотрим причины мешающие индексации сайта.
Ошибки в файле robots.txt
Файл robots.txt – это текстовый документ в формате .txt лежащий в корневом каталоге веб-сайта, запрещающий или разрешающий индексирование страниц роботам ПС. Поэтому неправильное использование директив может закрыть от индексации весь сайт или отдельные страницы ресурса.
Отсутствие файла sitemap.xml
Карта сайта (файл sitemap.xml) – это специальный документ расположенный в корневом каталоге, содержащий ссылки на все страницы ресурса. Этот файл помогает поисковым роботам оперативно и качественно индексировать ресурс. Поэтому в него нужно добавлять только те страницы, которые должны попасть в индекс.
Новый сайт
Процесс индексации нового ресурса занимает некоторое время. Поэтому в данном случае нужно просто подождать, не забывая контролировать процесс индексации.
Приватные настройки
В некоторых CMS, таких, как WordPress и Megagroup, существует возможность скрыть от индексации страницы через админку сайта, данные настройки могут стоять по умолчанию.
Тег «noindex»
Страницы могут быть закрыты от индекса в коде с помощью мета тега name=”robots” content=”noindex, nofollow” />. Нужно проверить его наличие и либо убрать из кода, либо заменить на «index» и «follow».
Мусорные страницы
Еще одной из причин может стать большое количество мусорных страниц, не предоставляющих полезного и уникального контента в рамках сайта. Такие страницы нужно закрывать от индексации, чтобы не возникали проблемы с индексированием ресурса и робот не тратил время на посещения этих страниц.
Также причиной не индексации страниц ресурса могут быть ошибки сканирования, блокировка сайта в файле .htaccess, дубли страниц, не уникальный контент, низкий uptime хостинга, медленная скорость загрузки сайта, баны и фильтры ПС.
Если вы не смогли решить проблему с индексацией отдельных страниц, или хотите поручить поисковую оптимизацию сайта профессионалам, расскажите нам о вашем проекте. Команда Веб-Центра выводит в топ сайты любой тематики.
Выводы SEO-специалиста Веб-Центра
Главная цель как владельца сайта так и SEO-специалиста добиться индексирования нужных страниц ресурса. Для этого нужно регулярно контролировать страницы в поиске Яндекса и Google, проверять сервисы для вебмастеров на наличие ошибок на сайте, наполнять его уникальным и полезным контентом, следить и оптимизировать скорость загрузки ресурса.
Для ускорения процесса индексации нужно подтвердить права на сайт в Яндекс.Вебмастер и Google Search Console и разместить в них ссылку на файл sitemap.xml, также можно отправлять на переобход важные страницы ресурса.
Подробно эту тему мы разобрали в видео на нашем Ютуб-канале
-
А если у вас возникли трудности или вы не хотите тратить время, то можете заказать бесплатную SEO-консультацию у наших специалистов.