Jak na Google, robots.txt

Napsal Mgr.Radovan Kaluža (») 23. 8. 2007 v kategorii Vyhledávače, katalogy, SEO, přečteno: 3411×
obrazky/google-robot-txt.jpg

Někdy si nepřejeme ať Google indexuje naše stránky. Například z důvodů že se jedná o interní dokumenty (přesto že by měly být již ošetřeny heslem), nebo o placený obsah, nebo jenom že se jedná o část stránek, která je pro návštěvníka zbytečná. K tomuto slouží robots.txt nebo meta tagy, které popíšu příště. Obecně platí že, některá řešení se dají udělat jak robots.txt tak meta tagy.. Robot.txt má výhodů, že může řídit přístup Google v rámci jak celé domény, tak určitých typů stránek, nebo adresářů.


Robot.txt musí být umístěn v kořenu webu, a musí být napsan malými písmeny. Např http://www.opensourcehosting.cz/robots.txt.

Ukázka:
User-Agent: Googlebot - za tímto řádkem bude definice pro Google
Disallow: /log/ - nebude procháze logy
Disallow: /*.jpg$ - rovněž ani obrázky jpg
Disallow: /*.jpeg$
Disallow: /dokumenty/ - a složku s dokumenty
Disallow: /ini/ - a do adresare ini
Disallow: /tajne - a a stranky, které zadinami slovem tajne (napr tajneinfo.html)

User-Agent: Jyxobot – jyxo robot
Disallow: / - přistup zakán všude

User-Agent: Seznambott – seznam.cz
Disallow: /log/ - nebude procháze logy
Disallow: - přistup povolen všude


V případě že chceme, mít pravidla pro všechny roboty, napíšteme User-agent: *.

Pokud chceme všem robotům povolit vše, nemusíte soubor robot.txt zakládat.

Pozor na zápisy
User-Agent: *
Disallow: /ZakazVsem/


User-Agent: Googlebot
Disallow: /jenGoogleZakaz/


V tomto případě, i když by se mohlo zdát, bude mít Google přístup do ZakazVsem, tedy bude potřeba Disallow: /ZakazVsem/ napsat ještě jednou za User-Agent: Googlebot.

Disallow: /tmp/* - Není povoleno psát
Disallow: /tmp/ - správně


Robotů je mnoho

Googlebot - Gooole.com
MSNBot www.msn.cz
Slurp - Yahoo
Jyxobot – jyxo robot
Seznambott – seznam.cz
další roboti

Ochrana před zneužítím robots.txt

Jak jsme si řekli, robots.txt musí být v rootu a je to textový soubor. Není problém je tedy číst, tak že uvedete v prohlížeci domena.tld/robots.txt

Podívejme se na zápis
User-Agent: *
Disallow: /tajneveci.html # je vidět že člověk (hacker amatér) si prohlídne soubor tajneveci.html



Podívejme se na zápis
User-Agent: *
Disallow: /tajn # schováme soubor tajneveci.html, protože zadinami slovem tajn a nikdo se nedozvi o nazvu tajneveci.html

Štítky: Google
Facebook Twitter Topčlánky.cz Linkuj.cz

Komentáře

Zobrazit: standardní | od aktivních | poslední příspěvky | všechno
Článek ještě nebyl okomentován.


Nový komentář

Téma:
Jméno:
Notif. e-mail *:
Komentář:
  [b] [obr]
Odpovězte prosím číslicemi: Součet čísel třináct a dvě