Robots.txt Zakázat: jak vytvořit, funkce a doporučení

Získání kurzů na podporu SEO, začátečníci se setkají se spoustou srozumitelných a ne příliš výrazných. Ve všech to není tak snadné pochopit, zvláště pokud jeden z prvků je nejprve špatně vysvětlen nebo zmeškán. Zvažte hodnotu v souboru robots.txt Disallow, pro který potřebujete tento dokument, jak jej vytvořit a pracovat s ním.

Obsah

Jednoduše řečeno
Standardní
Mapa webu
Použijte
Proč?
Směrnice
Vizitka
Zákaz
Rozlišení
Zrcadla
Navigátor
Další příkazy
Univerzální
Chyby
Závěry

Jednoduše řečeno

Aby nedocházelo k "krmení" čtenářům s komplexními vysvětleními, které se obvykle vyskytují na specializovaných místech, je lepší vysvětlit vše "na prstech". Vyhledat robot přichází na vaše stránky a indexuje stránky. Poté se zobrazí zprávy, které ukazují na problémy, chyby atd. roboty txt zakázat

Ale na internetových stránkách jsou také takové informace, které nejsou pro statistiku povinné. Například na stránce "O společnosti" nebo "Kontakty". To vše není nutné pro indexování a v některých případech nežádoucí, protože může narušit statistické údaje. Abyste se ujistili, že k tomu nedojde, je lepší tyto stránky zavřít od robota. To je příkaz, který je v souboru robots.txt zakázán.

Standardní

Tento dokument je vždy na stránkách. Jeho tvorbu zpracovávají vývojáři a programátoři. Někdy mohou vlastníci zdrojů to udělat, zejména pokud jsou malé. V tomto případě práce s ním netrvá dlouho.

Robots.txt se nazývá standard vyloučení pro crawler. Představuje dokument, ve kterém jsou předepsána hlavní omezení. Dokument je umístěn v kořenovém adresáři zdroje. V tomto případě je možné jej najít na cestě "/robots.txt". Pokud má zdroj několik subdomén, pak je tento soubor umístěn v kořenovém adresáři každého z nich. Standard je nepřetržitě spojen s ostatními - soubory Sitemap.

Mapa webu

Chcete-li pochopit úplný obrázek toho, co je v sázce, pár slov o souborech Sitemap. Toto je soubor napsaný ve formátu XML. Uchovává všechna data o zdrojích pro MS. Podle dokumentu se můžete dozvědět o webových stránkách indexovaných roboty. zakázat direktivu robotů txt

Soubor poskytuje PS rychlý přístup na libovolnou stránku, zobrazuje nejnovější změny, frekvenci a význam těchto stránek. Pro tato kritéria robot nejsprávněji skenuje místo. Je však důležité si uvědomit, že přítomnost takového souboru nedává jistotu, že všechny stránky budou indexovány. Je to víc informací o tomto procesu.

Použijte

Správný soubor robots.txt se používá dobrovolně. Samotný standard se objevil již v roce 1994. Bylo přijato konsorciem W3C. Od té chvíle je používán téměř ve všech vyhledávačích. Je zapotřebí pro "dávkovanou" opravu skenování prostředků vyhledávacím robotem. Soubor obsahuje soubor pokynů, které používají systém MS.

Díky sadě nástrojů je snadné instalovat soubory, stránky a adresáře, které nelze indexovat. Robots.txt také upozorňuje na takové soubory, které je třeba zkontrolovat najednou.

Proč?

Navzdory skutečnosti, že soubor lze skutečně použít dobrovolně, téměř všechny stránky vytvářejí. To je nezbytné pro zjednodušení práce robota. V opačném případě zkontroluje všechny stránky v náhodném pořadí a kromě toho může přeskočit některé stránky, vytváří významné zatížení zdroje.

Soubor se také skrývá z očí vyhledávače:

Stránky s osobními údaji návštěvníků.
Stránky, na kterých existují formy odesílání dat atd.
Stránky - zrcadla.
Stránky s výsledky vyhledávání.

robot txt uživatelský agent zakázat

Pokud jste pro určitou stránku uvedli možnost Zakázat v souboru robots.txt, existuje šance, že se bude stále zobrazovat v SERP. Tato možnost může nastat, pokud je odkaz na takovou stránku umístěn na jednom z externích zdrojů nebo uvnitř vašeho webu.

Směrnice

Když hovoříme o zákazu vyhledávače, často používáme koncept "směrnice". Tento termín je znám všem programátorům. Často se nahrazuje synonymem pro "indikaci" a používá se společně s "příkazy". Někdy může být reprezentována sadou konstrukcí programovacích jazyků.

Direktiva Disallow v souboru robots.txt je jednou z nejběžnějších, ale ne jediných. Kromě ní je několik dalších, kteří jsou zodpovědní za určité směry. Existuje například uživatelský agent, který zobrazuje roboty vyhledávače. Povolit je příkaz Opustit zakázat. Označuje oprávnění pro skenování některých stránek. Dále se podívejme na hlavní příkazy podrobněji.

Vizitka

Samozřejmě, uživatelský agent robots.txt Disallow není jediná směrnice, ale jedna z nejběžnějších. To jsou ty, které tvoří většinu souborů pro malé zdroje. Vizitka pro libovolný systém je stále příkazem User agent. Toto pravidlo je navrženo tak, aby ukázalo na roboty, kteří se dívají na instrukce, které budou následně psány v dokumentu.

Nyní je k dispozici 300 vyhledávacích robotů. Pokud chcete, aby každý z nich sledoval určitou indikaci, neměli byste je všechny přepisovat nepravděpodobné. Bude stačit specifikovat "User-agent: *". "Hvězdička" v tomto případě zobrazí systémy, které vypočítají následující pravidla pro všechny vyhledávače.

Pokud vytvoříte pokyny pro Google, musíte zadat název robota. V tomto případě použijte Googlebot. Pokud dokument určuje pouze tento název, pak ostatní vyhledávače nebudou přijímat příkazy souboru robots.txt: Disallow, Allow, atd. Budou předpokládat, že dokument je prázdný a pro ně nejsou žádné instrukce. zakázat robotům txt zakázat indexování

Kompletní seznam jmen bot naleznete na internetu. Je to velmi dlouhé, takže pokud budete potřebovat pokyny pro konkrétní služby Google nebo Yandex, budete muset zadat konkrétní jména.

Zákaz

O dalším týmu jsme již mnohokrát říkali. Disallow jen poukazuje na to, jaké informace by neměl číst robot. Chcete-li vyhledávacím nástrojům zobrazit veškerý svůj obsah, stačí napsat "Zakázat:". Takže roboty skenují všechny stránky vašeho zdroje.

Úplný zákaz indexování v souboru robots.txt "Disallow: /". Pokud tak napíšete, roboty vůbec nevygenerují zdroj. Obvykle se to dělá v úvodních fázích, v přípravě na zahájení projektu, experimenty apod. Pokud je stránka již připravena se ukázat, změňte tuto hodnotu, aby se uživatelé mohli seznámit s tím.

Obecně je tým univerzální. Může blokovat určité prvky. Například složka s příkazem "Disallow: / papka /" může zakázat odkaz, soubor nebo dokumenty specifické oprávnění pro skenování.

Rozlišení

Chcete-li umožnit robotovi zobrazit konkrétní stránky, soubory nebo adresáře, použijte směrnici Povolit. Někdy je pro tým robot potřebný tým, aby navštívil soubory z určité části. Pokud je například online obchod, můžete zadat adresář. Zbývající stránky nebudou naskenovány. Nezapomeňte však, že nejprve je nutné zabránit stránkám zobrazit celý obsah a po zadání příkazu Povolit s otevřenými stránkami. což znamená zakázat v robot txt

Zrcadla

Další hostitelská směrnice. Ne všichni správci webu ji používají. Je zapotřebí v případě, že váš zdroj zrcadlí. Pak je toto pravidlo povinné, protože to znamená, že robot "Yandex" na kterém z zrcadel je hlavní a co musí být skenováno.

Systém se neztrácí sám o sobě a snadno zjistí požadovaný zdroj podle pokynů popsaných v souboru robots.txt. V samotném souboru je web zaregistrován bez zadání "http: //", ale pouze pokud pracuje na HTTP. Pokud používá protokol HTTPS, je tato předpona zadána. Například "Host: site.com" v případě HTTP nebo "Host: https://site.com" v případě HTTPS.

Navigátor

Již jsme hovořili o souboru Sitemap, ale o samostatném souboru. Když se podíváme na pravidla psaní souboru robots.txt s příklady, vidíme použití takového příkazu. Soubor je označen souborem "Sitemap: https://site.com/sitemap.xml". To je provedeno, aby se zajistilo, že robot zkontroloval všechny stránky, které jsou uvedeny na mapě webu. Při každém návratu se robot zobrazí nové aktualizace, provedené změny a rychlejší odesílání dat do vyhledávače.

Další příkazy

Jednalo se o hlavní směrnice, které poukazují na důležité a nezbytné příkazy. Existují méně užitečné a ne vždy použitelné pokyny. Například Zpoždění procházení určuje dobu, která bude použita mezi načtením stránky. To je nutné pro slabé servery, aby nedošlo k jejich "vkládání" pomocí invaze robotů. Na zadání parametru se používají sekundy.

Clean-param pomáhá vyhnout se duplikace obsahu, který je umístěn na různých dynamických adresách. Vznikají, pokud existuje funkce řazení. Takový příkaz bude vypadat takto: "Clean-param: ref / catalog / get_product.com".

Univerzální

Pokud nevíte, jak vytvořit správný soubor robots.txt, není to děsivé. Kromě těchto pokynů existují univerzální možnosti pro tento soubor. Mohou být umístěny na téměř jakémkoli místě. Výjimka se může stát hlavním zdrojem. V tomto případě by však odborníci měli vědět o souboru a měli by se do něj zapojit zvláštní lidé. jak vytvořit správný txt robotů

Univerzální soubor směrnic umožňuje otevřít obsah webu pro indexování. K dispozici je registrace hostitele a je zobrazena mapa webu. Umožňuje robotům vždy navštěvovat stránky, které jsou potřebné pro skenování.

Úlovkem je, že data se mohou lišit v závislosti na systému, na kterém je váš zdroj umístěn. Proto by měla být zvolena pravidla, při pohledu na typ webu a CMS. Pokud si nejste jisti, že soubor, který jste vytvořili, je správný, můžete zkontrolovat nástroj Google pro webmastery a "Yandex".

Chyby

Pokud jste pochopili, co znamená Disallow v souboru robots.txt, nezaručuje to, že se při vytváření dokumentu nebudete mýlit. Existuje řada běžných problémů, které nezkušené uživatele zažívají.

Hodnoty směrnice jsou často zmatené. Může to být způsobeno nedorozuměním a nevědomostí o pokynech. Možná uživatel jen přehlédl a nepozorně se rozmíchal. Například mohou používat hodnotu "/" pro User-agent a pro jméno robota pro Disallow.

Výčet je další častou chybou. Někteří uživatelé se domnívají, že výčet zakázaných stránek, souborů nebo složek by měl být uveden v řádku za sebou. Ve skutečnosti musíte pro každý zakázaný nebo povolený odkaz, soubor a složku napsat příkaz znovu a nový řádek.

Chyby mohou být způsobeny nesprávným názvem samotného souboru. Pamatujte si, že se říká "robots.txt". Použijte malá písmena pro název bez variací typu "Robots.txt" nebo "ROBOTS.txt". roboty txt pravidla s příklady

Pole User-agent musí být vždy vyplněno. Nenechávejte tuto směrnici bez příkazu. Pokud se opět vrátíte k hostiteli, nezapomeňte, že pokud web používá protokol HTTP, nemusí být v příkazu zadán. Pouze pokud je to rozšířená verze jeho protokolu HTTPS. Nemůžete ponechat zakázanou směrnici bez hodnoty. Pokud ji nepotřebujete, nezadávejte jej.

Závěry

Stručně řečeno, stojí za zmínku, že robots.txt je standard, který vyžaduje přesnost. Pokud jste se s ním nikdy nesetkali, pak v prvních fázích stvoření budete mít mnoho otázek. Je lepší dát tuto práci webmasterům, protože pracují s dokumentem po celou dobu. Navíc může dojít k určitým změnám ve vnímání směrnic vyhledávači. Pokud máte malý web - malý internetový obchod nebo blog - pak stačí prozkoumat tuto otázku a vzít jeden z univerzálních příkladů.

Sdílet na sociálních sítích:

Podobné