Někdy si nepřejeme ať Google indexuje naše stránky. Například z důvodů že se jedná o interní dokumenty (přesto že by měly být již ošetřeny heslem), nebo o placený obsah, nebo jenom že se jedná o část stránek, která je pro návštěvníka zbytečná. K tomuto slouží robots.txt nebo meta tagy, které popíšu příště. Obecně platí že, některá řešení se dají udělat jak robots.txt tak meta tagy.. Robot.txt má výhodů, že může řídit přístup Google v rámci jak celé domény, tak určitých typů stránek, nebo adresářů.
Robot.txt musí být umístěn v kořenu webu, a musí být napsan malými písmeny. Např http://www.opensourcehosting.cz/robots.txt.
Ukázka:
User-Agent: Googlebot - za tímto řádkem bude definice pro Google
Disallow: /log/ - nebude procháze logy
Disallow: /*.jpg$ - rovněž ani obrázky jpg
Disallow: /*.jpeg$
Disallow: /dokumenty/ - a složku s dokumenty
Disallow: /ini/ - a do adresare ini
Disallow: /tajne - a a stranky, které zadinami slovem tajne (napr tajneinfo.html)
User-Agent: Jyxobot – jyxo robot
Disallow: / - přistup zakán všude
User-Agent: Seznambott – seznam.cz
Disallow: /log/ - nebude procháze logy
Disallow: - přistup povolen všude
V případě že chceme, mít pravidla pro všechny roboty, napíšteme User-agent: *.
Pokud chceme všem robotům povolit vše, nemusíte soubor robot.txt zakládat.
Pozor na zápisy
User-Agent: *
Disallow: /ZakazVsem/
User-Agent: Googlebot
Disallow: /jenGoogleZakaz/
V tomto případě, i když by se mohlo zdát, bude mít Google přístup do ZakazVsem, tedy bude potřeba Disallow: /ZakazVsem/ napsat ještě jednou za User-Agent: Googlebot.
Disallow: /tmp/* - Není povoleno psát
Disallow: /tmp/ - správně
Robotů je mnoho
Googlebot - Gooole.com
MSNBot – www.msn.cz
Slurp - Yahoo
Jyxobot – jyxo robot
Seznambott – seznam.cz
další roboti
Ochrana před zneužítím robots.txt
Jak jsme si řekli, robots.txt musí být v rootu a je to textový soubor. Není problém je tedy číst, tak že uvedete v prohlížeci domena.tld/robots.txt
Podívejme se na zápis
User-Agent: *
Disallow: /tajneveci.html # je vidět že člověk (hacker amatér) si prohlídne soubor tajneveci.html
Podívejme se na zápis
User-Agent: *
Disallow: /tajn # schováme soubor tajneveci.html, protože zadinami slovem tajn a nikdo se nedozvi o nazvu tajneveci.html