Robots.txt Zakázat: jak vytvořit, funkce a doporučení
Získání kurzů na podporu SEO, začátečníci se setkají se spoustou srozumitelných a ne příliš výrazných. Ve všech to není tak snadné pochopit, zvláště pokud jeden z prvků je nejprve špatně vysvětlen nebo zmeškán. Zvažte hodnotu v souboru robots.txt Disallow, pro který potřebujete tento dokument, jak jej vytvořit a pracovat s ním.
Obsah
Jednoduše řečeno
Aby nedocházelo k "krmení" čtenářům s komplexními vysvětleními, které se obvykle vyskytují na specializovaných místech, je lepší vysvětlit vše "na prstech". Vyhledat robot přichází na vaše stránky a indexuje stránky. Poté se zobrazí zprávy, které ukazují na problémy, chyby atd.
Ale na internetových stránkách jsou také takové informace, které nejsou pro statistiku povinné. Například na stránce "O společnosti" nebo "Kontakty". To vše není nutné pro indexování a v některých případech nežádoucí, protože může narušit statistické údaje. Abyste se ujistili, že k tomu nedojde, je lepší tyto stránky zavřít od robota. To je příkaz, který je v souboru robots.txt zakázán.
Standardní
Tento dokument je vždy na stránkách. Jeho tvorbu zpracovávají vývojáři a programátoři. Někdy mohou vlastníci zdrojů to udělat, zejména pokud jsou malé. V tomto případě práce s ním netrvá dlouho.
Robots.txt se nazývá standard vyloučení pro crawler. Představuje dokument, ve kterém jsou předepsána hlavní omezení. Dokument je umístěn v kořenovém adresáři zdroje. V tomto případě je možné jej najít na cestě "/robots.txt". Pokud má zdroj několik subdomén, pak je tento soubor umístěn v kořenovém adresáři každého z nich. Standard je nepřetržitě spojen s ostatními - soubory Sitemap.
Mapa webu
Chcete-li pochopit úplný obrázek toho, co je v sázce, pár slov o souborech Sitemap. Toto je soubor napsaný ve formátu XML. Uchovává všechna data o zdrojích pro MS. Podle dokumentu se můžete dozvědět o webových stránkách indexovaných roboty.
Soubor poskytuje PS rychlý přístup na libovolnou stránku, zobrazuje nejnovější změny, frekvenci a význam těchto stránek. Pro tato kritéria robot nejsprávněji skenuje místo. Je však důležité si uvědomit, že přítomnost takového souboru nedává jistotu, že všechny stránky budou indexovány. Je to víc informací o tomto procesu.
Použijte
Správný soubor robots.txt se používá dobrovolně. Samotný standard se objevil již v roce 1994. Bylo přijato konsorciem W3C. Od té chvíle je používán téměř ve všech vyhledávačích. Je zapotřebí pro "dávkovanou" opravu skenování prostředků vyhledávacím robotem. Soubor obsahuje soubor pokynů, které používají systém MS.
Díky sadě nástrojů je snadné instalovat soubory, stránky a adresáře, které nelze indexovat. Robots.txt také upozorňuje na takové soubory, které je třeba zkontrolovat najednou.
Proč?
Navzdory skutečnosti, že soubor lze skutečně použít dobrovolně, téměř všechny stránky vytvářejí. To je nezbytné pro zjednodušení práce robota. V opačném případě zkontroluje všechny stránky v náhodném pořadí a kromě toho může přeskočit některé stránky, vytváří významné zatížení zdroje.
Soubor se také skrývá z očí vyhledávače:
- Stránky s osobními údaji návštěvníků.
- Stránky, na kterých existují formy odesílání dat atd.
- Stránky - zrcadla.
- Stránky s výsledky vyhledávání.
Pokud jste pro určitou stránku uvedli možnost Zakázat v souboru robots.txt, existuje šance, že se bude stále zobrazovat v SERP. Tato možnost může nastat, pokud je odkaz na takovou stránku umístěn na jednom z externích zdrojů nebo uvnitř vašeho webu.
Směrnice
Když hovoříme o zákazu vyhledávače, často používáme koncept "směrnice". Tento termín je znám všem programátorům. Často se nahrazuje synonymem pro "indikaci" a používá se společně s "příkazy". Někdy může být reprezentována sadou konstrukcí programovacích jazyků.
Direktiva Disallow v souboru robots.txt je jednou z nejběžnějších, ale ne jediných. Kromě ní je několik dalších, kteří jsou zodpovědní za určité směry. Existuje například uživatelský agent, který zobrazuje roboty vyhledávače. Povolit je příkaz Opustit zakázat. Označuje oprávnění pro skenování některých stránek. Dále se podívejme na hlavní příkazy podrobněji.
Vizitka
Samozřejmě, uživatelský agent robots.txt Disallow není jediná směrnice, ale jedna z nejběžnějších. To jsou ty, které tvoří většinu souborů pro malé zdroje. Vizitka pro libovolný systém je stále příkazem User agent. Toto pravidlo je navrženo tak, aby ukázalo na roboty, kteří se dívají na instrukce, které budou následně psány v dokumentu.
Nyní je k dispozici 300 vyhledávacích robotů. Pokud chcete, aby každý z nich sledoval určitou indikaci, neměli byste je všechny přepisovat nepravděpodobné. Bude stačit specifikovat "User-agent: *". "Hvězdička" v tomto případě zobrazí systémy, které vypočítají následující pravidla pro všechny vyhledávače.
Pokud vytvoříte pokyny pro Google, musíte zadat název robota. V tomto případě použijte Googlebot. Pokud dokument určuje pouze tento název, pak ostatní vyhledávače nebudou přijímat příkazy souboru robots.txt: Disallow, Allow, atd. Budou předpokládat, že dokument je prázdný a pro ně nejsou žádné instrukce.
Kompletní seznam jmen bot naleznete na internetu. Je to velmi dlouhé, takže pokud budete potřebovat pokyny pro konkrétní služby Google nebo Yandex, budete muset zadat konkrétní jména.
Zákaz
O dalším týmu jsme již mnohokrát říkali. Disallow jen poukazuje na to, jaké informace by neměl číst robot. Chcete-li vyhledávacím nástrojům zobrazit veškerý svůj obsah, stačí napsat "Zakázat:". Takže roboty skenují všechny stránky vašeho zdroje.
Úplný zákaz indexování v souboru robots.txt "Disallow: /". Pokud tak napíšete, roboty vůbec nevygenerují zdroj. Obvykle se to dělá v úvodních fázích, v přípravě na zahájení projektu, experimenty apod. Pokud je stránka již připravena se ukázat, změňte tuto hodnotu, aby se uživatelé mohli seznámit s tím.
Obecně je tým univerzální. Může blokovat určité prvky. Například složka s příkazem "Disallow: / papka /" může zakázat odkaz, soubor nebo dokumenty specifické oprávnění pro skenování.
Rozlišení
Chcete-li umožnit robotovi zobrazit konkrétní stránky, soubory nebo adresáře, použijte směrnici Povolit. Někdy je pro tým robot potřebný tým, aby navštívil soubory z určité části. Pokud je například online obchod, můžete zadat adresář. Zbývající stránky nebudou naskenovány. Nezapomeňte však, že nejprve je nutné zabránit stránkám zobrazit celý obsah a po zadání příkazu Povolit s otevřenými stránkami.
Zrcadla
Další hostitelská směrnice. Ne všichni správci webu ji používají. Je zapotřebí v případě, že váš zdroj zrcadlí. Pak je toto pravidlo povinné, protože to znamená, že robot "Yandex" na kterém z zrcadel je hlavní a co musí být skenováno.
Systém se neztrácí sám o sobě a snadno zjistí požadovaný zdroj podle pokynů popsaných v souboru robots.txt. V samotném souboru je web zaregistrován bez zadání "http: //", ale pouze pokud pracuje na HTTP. Pokud používá protokol HTTPS, je tato předpona zadána. Například "Host: site.com" v případě HTTP nebo "Host: https://site.com" v případě HTTPS.
Navigátor
Již jsme hovořili o souboru Sitemap, ale o samostatném souboru. Když se podíváme na pravidla psaní souboru robots.txt s příklady, vidíme použití takového příkazu. Soubor je označen souborem "Sitemap: https://site.com/sitemap.xml". To je provedeno, aby se zajistilo, že robot zkontroloval všechny stránky, které jsou uvedeny na mapě webu. Při každém návratu se robot zobrazí nové aktualizace, provedené změny a rychlejší odesílání dat do vyhledávače.
Další příkazy
Jednalo se o hlavní směrnice, které poukazují na důležité a nezbytné příkazy. Existují méně užitečné a ne vždy použitelné pokyny. Například Zpoždění procházení určuje dobu, která bude použita mezi načtením stránky. To je nutné pro slabé servery, aby nedošlo k jejich "vkládání" pomocí invaze robotů. Na zadání parametru se používají sekundy.
Clean-param pomáhá vyhnout se duplikace obsahu, který je umístěn na různých dynamických adresách. Vznikají, pokud existuje funkce řazení. Takový příkaz bude vypadat takto: "Clean-param: ref / catalog / get_product.com".
Univerzální
Pokud nevíte, jak vytvořit správný soubor robots.txt, není to děsivé. Kromě těchto pokynů existují univerzální možnosti pro tento soubor. Mohou být umístěny na téměř jakémkoli místě. Výjimka se může stát hlavním zdrojem. V tomto případě by však odborníci měli vědět o souboru a měli by se do něj zapojit zvláštní lidé.
Univerzální soubor směrnic umožňuje otevřít obsah webu pro indexování. K dispozici je registrace hostitele a je zobrazena mapa webu. Umožňuje robotům vždy navštěvovat stránky, které jsou potřebné pro skenování.
Úlovkem je, že data se mohou lišit v závislosti na systému, na kterém je váš zdroj umístěn. Proto by měla být zvolena pravidla, při pohledu na typ webu a CMS. Pokud si nejste jisti, že soubor, který jste vytvořili, je správný, můžete zkontrolovat nástroj Google pro webmastery a "Yandex".
Chyby
Pokud jste pochopili, co znamená Disallow v souboru robots.txt, nezaručuje to, že se při vytváření dokumentu nebudete mýlit. Existuje řada běžných problémů, které nezkušené uživatele zažívají.
Hodnoty směrnice jsou často zmatené. Může to být způsobeno nedorozuměním a nevědomostí o pokynech. Možná uživatel jen přehlédl a nepozorně se rozmíchal. Například mohou používat hodnotu "/" pro User-agent a pro jméno robota pro Disallow.
Výčet je další častou chybou. Někteří uživatelé se domnívají, že výčet zakázaných stránek, souborů nebo složek by měl být uveden v řádku za sebou. Ve skutečnosti musíte pro každý zakázaný nebo povolený odkaz, soubor a složku napsat příkaz znovu a nový řádek.
Chyby mohou být způsobeny nesprávným názvem samotného souboru. Pamatujte si, že se říká "robots.txt". Použijte malá písmena pro název bez variací typu "Robots.txt" nebo "ROBOTS.txt".
Pole User-agent musí být vždy vyplněno. Nenechávejte tuto směrnici bez příkazu. Pokud se opět vrátíte k hostiteli, nezapomeňte, že pokud web používá protokol HTTP, nemusí být v příkazu zadán. Pouze pokud je to rozšířená verze jeho protokolu HTTPS. Nemůžete ponechat zakázanou směrnici bez hodnoty. Pokud ji nepotřebujete, nezadávejte jej.
Závěry
Stručně řečeno, stojí za zmínku, že robots.txt je standard, který vyžaduje přesnost. Pokud jste se s ním nikdy nesetkali, pak v prvních fázích stvoření budete mít mnoho otázek. Je lepší dát tuto práci webmasterům, protože pracují s dokumentem po celou dobu. Navíc může dojít k určitým změnám ve vnímání směrnic vyhledávači. Pokud máte malý web - malý internetový obchod nebo blog - pak stačí prozkoumat tuto otázku a vzít jeden z univerzálních příkladů.
- Interní optimalizace webu. Jak získat lásku vyhledávačů
- Jak postavit web na internet?
- Как удалить сайт или его отдельные фрагменты из индекса Google
- Jak zavřít odkazy z indexování?
- Jak vytvořit připojení HTTPS? Jaký je rozdíl mezi weby na HTTPS nebo HTTP?
- Jak se podívat na statistiky v Instagram: populární způsoby
- Registrace titulní stránky kurzu v souladu s GOST
- Jak mohu uvolnit stránku v "VK"? Tipy
- Jak zakázat reklamu v operaci za pár kliknutí
- Indexování stránek. Rychlé indexování webu vyhledávači `Google` a`…
- Jak zobrazit statistiky stránky `VKontakte`: podrobné pokyny
- Indexování stránek ve vyhledávačích
- Co je prolézací modul? Funkce vyhledávacího robota "Yandex" a Google
- HTML tagy: layout, programování, design
- Indexování stránek ve vyhledávačích. Jak indexuje stránky v "Yandex" a "Google"
- Indexování webu v Yandexu: jak vytvořit stránku "chutné" pro vyhledávač?
- Přidání stránky do vyhledávačů nestačí - jak urychlit indexování?
- Co je rozvržení webu? Rozložení tabulek a bloků: rozdíly
- Popisek: Funkce a způsoby vytváření
- Optimalizace stránek. Registrace ve vyhledávačích
- Registrace webu v Google není snadná, ale velmi jednoduchá