Как удалить сайт или его отдельные фрагменты из индекса Google

Согласно концепции индексации, принятой Google, учитывается полнота, объективность информации и соответствие ее поисковому запросу при выдаче результатов. Если в индексацию попадает сайт с противозаконным контентом, или же ресурс предназначен для спама, то страницы такого сайта не будут помечены в общей базе поисковой системы. Нам же важно узнать, как удалить сайт из выдачи сервера по результатам поиска.

Варианты нулевой индексации Google

Как только поисковый робот – программа сбора информации о новых ресурсах - просканирует сайт постранично, то, при соответствии требованиям политики Google в отношении парсинга, он будет проиндексирован. Но мы также расскажем, как удалить свой сайт или отдельные фрагменты для поисковых систем посредством robots.txt – указателя и одновременно ограничителя поиска.

Чтобы исключить из выдачи ресурс целиком, в корневой папке сервера, на котором расположен сайт, создается определенная текстовая зона – упомянутый robots.txt. Эту зону обрабатывают поисковые машины и действуют, согласно прочитанным инструкциям.

Имейте в виду, что поисковая система Google проиндексирует страницу, даже если для пользователя доступ к просмотру запрещен. Когда браузер выдает ответ 401 или 403 «Доступ недействителен», то это касается только посетителей, а не программ-сборщиков для этого поискового сервера.

Чтобы понять, как удалить сайт из поисковой индексации, в текстовый указатель следует вписать такие строки:

User-agent: Googlebot

Disallow: /

Это указывает поисковому роботу на запрет для индексирования всего содержимого сайта. Вот как удалить сайт Google, чтобы последний не кэшировал ресурс в список обнаруженных.

Варианты сканирования для различных протоколов

Если вам нужно перечислить отдельные стандарты связи, для которых вы хотели бы применить особые правила в отношении индексации Google, например, отдельно для гипертекстовых протоколов http/https, это также нужно прописать в robots.txt следующим путем (пример).

(https://yourserver.com/robots.txt) – доменное имя вашего сайта (любое)

User-agent: * - для любой поисковой системы

Allow: / - разрешить полную индексацию

Как удалить сайт из выдачи полностью для протокола https

(https://yourserver.com/robots.txt):

User-agent: *

Disallow: / полный запрет на индексирование

Срочное удаление URL- адреса ресурса из поисковой выдачи Google

Если вы не хотите ждать повторной индексации, и сайт нужно скрыть как можно скорее, рекомендую воспользоваться сервисом https://services.google.com/urlconsole/controller. Предварительно robots.txt уже должен быть размещен в корневом каталоге сервера сайта. В нем должны быть прописаны соответствующие инструкции.

Если указатель по каким-то причинам не доступен для редактирования в корневом каталоге, достаточно создать его в той папке с объектами, для которых требуется скрытие от поисковых систем. Как только вы проделаете это и обратитесь на сервис автоматического удаления гипертекстовых адресов, Google не будет сканировать папки, которые прописано изъять в robots.txt.

Период такой невидимости устанавливается на 3 месяца. По истечении этого срока каталог, изъятый из выдачи, снова будет обработан сервером Google.

Как удалить сайт для сканирования частично

Когда поисковый бот читает содержимое robots.txt, то на основании его содержимого принимаются определенные решения. Допустим, вам нужно исключить из показа весь каталог с названием anatom. Для этого достаточно прописать такие инструкции:

User-agent: Googlebot

Disallow: /anatom

Или, к примеру, вы хотите, чтобы не индексировались все картинки типа .jpg. Для этого добавьте следующий список:

User-agent: Googlebot

Disallow: /*.jpg$

Вот еще один пример. Пускай требуется удалить из парсинга информацию о динамически генерируемых страницах, тогда добавляем в указатель запись типа:

User-agent: Googlebot

Disallow: /*?

Вот так, примерно, и прописываются правила для поисковых систем. Другое дело, что гораздо удобней для всего этого использовать тег META. И веб-мастера чаще используют именно такой стандарт, регулирующий действие поисковых систем. Но об этом мы поговорим в следующих статьях.

Sdílet na sociálních sítích:

Podobné