Как удалить сайт или его отдельные фрагменты из индекса Google
Согласно концепции индексации, принятой Google, учитывается полнота, объективность информации и соответствие ее поисковому запросу при выдаче результатов. Если в индексацию попадает сайт с противозаконным контентом, или же ресурс предназначен для спама, то страницы такого сайта не будут помечены в общей базе поисковой системы. Нам же важно узнать, как удалить сайт из выдачи сервера по результатам поиска.
Варианты нулевой индексации Google
Как только поисковый робот – программа сбора информации о новых ресурсах - просканирует сайт постранично, то, при соответствии требованиям политики Google в отношении парсинга, он будет проиндексирован. Но мы также расскажем, как удалить свой сайт или отдельные фрагменты для поисковых систем посредством robots.txt – указателя и одновременно ограничителя поиска.
Чтобы исключить из выдачи ресурс целиком, в корневой папке сервера, на котором расположен сайт, создается определенная текстовая зона – упомянутый robots.txt. Эту зону обрабатывают поисковые машины и действуют, согласно прочитанным инструкциям.
Имейте в виду, что поисковая система Google проиндексирует страницу, даже если для пользователя доступ к просмотру запрещен. Когда браузер выдает ответ 401 или 403 «Доступ недействителен», то это касается только посетителей, а не программ-сборщиков для этого поискового сервера.
Чтобы понять, как удалить сайт из поисковой индексации, в текстовый указатель следует вписать такие строки:
User-agent: Googlebot
Disallow: /
Это указывает поисковому роботу на запрет для индексирования всего содержимого сайта. Вот как удалить сайт Google, чтобы последний не кэшировал ресурс в список обнаруженных.
Варианты сканирования для различных протоколов
Если вам нужно перечислить отдельные стандарты связи, для которых вы хотели бы применить особые правила в отношении индексации Google, например, отдельно для гипертекстовых протоколов http/https, это также нужно прописать в robots.txt следующим путем (пример).
(https://yourserver.com/robots.txt) – доменное имя вашего сайта (любое)
User-agent: * - для любой поисковой системы
Allow: / - разрешить полную индексацию
Как удалить сайт из выдачи полностью для протокола https
(https://yourserver.com/robots.txt):
User-agent: *
Disallow: / полный запрет на индексирование
Срочное удаление URL- адреса ресурса из поисковой выдачи Google
Если вы не хотите ждать повторной индексации, и сайт нужно скрыть как можно скорее, рекомендую воспользоваться сервисом https://services.google.com/urlconsole/controller. Предварительно robots.txt уже должен быть размещен в корневом каталоге сервера сайта. В нем должны быть прописаны соответствующие инструкции.
Если указатель по каким-то причинам не доступен для редактирования в корневом каталоге, достаточно создать его в той папке с объектами, для которых требуется скрытие от поисковых систем. Как только вы проделаете это и обратитесь на сервис автоматического удаления гипертекстовых адресов, Google не будет сканировать папки, которые прописано изъять в robots.txt.
Период такой невидимости устанавливается на 3 месяца. По истечении этого срока каталог, изъятый из выдачи, снова будет обработан сервером Google.
Как удалить сайт для сканирования частично
Когда поисковый бот читает содержимое robots.txt, то на основании его содержимого принимаются определенные решения. Допустим, вам нужно исключить из показа весь каталог с названием anatom. Для этого достаточно прописать такие инструкции:
User-agent: Googlebot
Disallow: /anatom
Или, к примеру, вы хотите, чтобы не индексировались все картинки типа .jpg. Для этого добавьте следующий список:
User-agent: Googlebot
Disallow: /*.jpg$
Вот еще один пример. Пускай требуется удалить из парсинга информацию о динамически генерируемых страницах, тогда добавляем в указатель запись типа:
User-agent: Googlebot
Disallow: /*?
Вот так, примерно, и прописываются правила для поисковых систем. Другое дело, что гораздо удобней для всего этого использовать тег META. И веб-мастера чаще используют именно такой стандарт, регулирующий действие поисковых систем. Но об этом мы поговорим в следующих статьях.
- Что такое зеркало сайта? Особенности
- Кратко о том, как удалить профиль с `Одноклассников` с телефона
- Вечный вопрос: что лучше - Гугл или Яндекс?
- Если взломали страницу в `Одноклассниках`, что делать? Способы решения проблемы
- Как найти музыку по мелодии: все существующие способы
- `Яндекс.Метрика` (сайта): как установить
- Подробно о том, как звонить в ВК
- Подробно о том, как удалить аккаунт в Gmail
- Как узнать ID своего `Стима` (не название профиля)?
- Как разместить объявление на `Дроме`? Как удалить объявление с…
- Асессор – это кто?
- Что искать в Интернете? Как правильно искать информацию в Интернете
- Семантическая микроразметка `Яндекса`: как сделать и проверить
- Как прописать атрибут ALT к картинке правильно?
- Как сделать description правильно?
- Что такое спам и как с ним бороться
- Как удалить Yoursearching: простейшая методика
- Контент – это двигатель любого ресурса
- Что делать, если задан пустой поисковый запрос в `Яндексе`?
- Продвижение сайта статьями - способ просочиться сквозь все поисковые фильтры
- Как отключить автономный режим? Инструкция