Tento projekt již není aktivní. Obsah je ponechán z archivních důvodů.

Já, Robots.txt

Robots.txt (Robots Exclusion Protocol / robots.txt protokol) je soubor pomocí kterého můžete zakázat robotům/crawlerům, aby indexovaly celé nebo části vašich stránek. Tím že je zakážete, nezobrazí se v SERPs, ale budou stále viditelné návštěvníkům. Robot Exclusion Standard byl vytvořen v roce 1994, který ovládal roboty, které se snažily napadnout servery.

Robots.txt je textový soubor, takže jej vytvoříte jednoduše pomocí poznámkového bloku a uložíte jako robots.txt. Tento soubor musí být umístěn v rootu vašich stránek, takže v nejvyšším adresáři například: www.domena.cz/robots.txt. U subdomény www.sub.domena.cz/robots.txt

Robot.txt

V momentě kdy robot navštíví vaše stránky, zjistí nejdřív, jestli je tento soubor přítomen a na základě toho co je v něm, postupuje dál.

Robots.txt používá dva základní příkazy: User-agent a Disallow. V řádku User-agent se identifikuje robot a v řádku Disallow (zakázat) se vypisují adresáře, které chcete zakázat.

Takže až budete mít vytvořený soubor robots.txt, tak musíte zadat příkazy pro roboty. Pokud chcete zakázat celé stránky robotům, tak napište do souboru:

User-agent: *

Disallow: /

*Znamená všichni boti a ‚/‘ znamená celý web od rootu.

Pokud byste chtěli povolit indexaci vašeho webu všem robotům napište:

User-agent: *

Disallow:

Znovu všechny roboty pomocí *, ale tentokrát Disallow zanecháte prázdný (/), znamená to, že žádné adresáře nejsou zakázány, takže si robot může dělat, co chce.

Pokud byste chtěli zakázat robotům jen jeden adresář, tak vypište do Disallow adresář nebo soubor který nechcete zakázat robotům:

User-Agent: *

Disallow: /administrace/

Můžete také zakázat jen jeden soubor nebo třeba obrázek. Pokud by byly stejné soubory ve dvou různých složkách, tak byste museli vypsat obě složky takhle:

User-Agent: *

Disallow: /obrazky/strom.jpg

Disallow: /obrazky2/strom.jpg

Také někdy chcete zakázat celý adresář, ale jeden soubor chcete povolit, dosáhnete toho pomocí Allow (povolit):

User-Agent: *

Disallow: /obrazky/

Allow: /obrazky/strom.jpg

Samozřejmě, někdy potřebujete, aby vaše stránky indexovali jen někteří roboti, takže můžete omezit přístup různých robotů.

Pokud byste chtěli Google-botovi zakázat přístup k jednomu souboru ale třeba Seznambotovi ho povolit napište tohle:

User-Agent: Google-bot

Disallow: /kontakty/

User-Agent: Seznambot

Disallow:

Googlebot takto nemůže zindexovat adresář /kontakty/, vše ostatní ale může. Seznambot má povoleno zindexovat celý web.

Pokud chcete přidat nového bota, musíte je rozdělit mezerou.

Příklady dalších robotů různých vyhledávačů:

User-agent: Googlebot

User-agent: Googlebot-Image

User-agent: MSNBot

User-agent: Jyxobot

User-agent: Slurp (Yahoo)

User-agent: Teoma

User-agent: Gigabot

User-agent: Scrubby

User-agent: Robozilla

User-agent: Nutch

User-agent: ia_archiver

User-agent: baiduspider

User-agent: yahoo-mmcrawler

User-agent: psbot

User-agent: asterias

User-agent: yahoo-blogs/v3.9

Další věc, která je velmi důležitá, je vytvoření mapy stránek, ale ve formátu XML. Googlu XML sitemapu můžete odevzdat pomocí Webmasters Tools, ale u seznamu to jde jen přes robots.txt.

Napište tento příkaz do vašeho robots.txt souboru kamkoliv chcete a Seznambot si už jej vyhledá:

Sitemap: http://www.domena.cz/sitemap.xml

Mimo jiné v souboru robots.txt můžete zanechat i komentáře pomocí ‘#’:

# Sem můžete vložit komentář

User-agent: * # Všechny boti

Disallow: /obrázky/ # žádný bot ma zakázaný přístup do této složky

Tak to je vše, samozřejmě jsou i další vychytávky jako Nofollow nebo index, follow v Meta tags, anebo rel=nofollow. O nich si řekneme někdy příště.

Jeden komentář


Pingbacks

  1. Google Webmasters Tools: Funkce pro vygenerování robots.txt | Blog - SEO-PROFESIONÁL.CZ

Zanechte komentář




Pravdepodobne nemate nainstalovany flash player. Stahnete si ho a nainstalujte. Adobe Flash Player