Robots.txt

Ve světě Robots.txt byl vždy velký zájem a nekonečná zvědavost. Od nepaměti Robots.txt vzbuzuje pozornost lidstva, ať už díky své záhadnosti, své důležitosti, svému dopadu nebo své transcendenci. Bez ohledu na čas, místo nebo kulturu hraje Robots.txt zásadní roli v životech lidí, ovlivňuje zvyky, přesvědčení, rozhodnutí a činy. V tomto článku hluboce prozkoumáme fascinující svět Robots.txt, analyzujeme jeho důležitost, důsledky a vliv na společnost. Prostřednictvím hluboké analýzy objevíme rozmanité aspekty Robots.txt, odhalíme záhady, demystifikujeme koncepty a budeme sdílet nové perspektivy, které nám pomohou lépe porozumět tomuto vzrušujícímu tématu.

robots.txt je standardizovaný textový soubor, kterým může web indikovat, u kterých stránek je nebo není žádoucí, aby je procházeli internetoví boti např. za účelem indexace skrze web crawler. Tento soubor se musí nacházet v kořenovém adresáři daného webu. Jeho syntaxi definuje RFC 9309.

Příklady

Uvedením následujícího textu v souboru robots.txt lze zakázat procházení webu všem vyhledávačům:

User-agent: *
Disallow: /

Následující příklad zakáže všem robotům, aby procházeli obsah složek /cgi-bin, /images, /tmp a /private:

User-agent: *
Disallow: /cgi-bin/
Disallow: /images/
Disallow: /tmp/
Disallow: /private/

Zakázaní Googlebotu procházet vše v adresáři /en:

User-agent: Googlebot
Disallow: /en/

Alternativy

Parametr konkrétních odkazů

Zakázat procházení konkrétních odkazů lze i vložením speciálního parametru rel="nofollow" do každého z odkazů.

<a href="/stranka-kterou-nechci-prochazet" rel="nofollow">

Metatag robots

Zákaz procházení odkazů vedoucí z konkrétní URL lze pomocí umístění speciálního metatagu do hlavičky stránky.

<meta name="robots" content="nofollow" />

Sitemap.xml

Do souboru robots.txt je doporučené vložit odkaz na sitemap.xml, aby tento soubor mohly vyhledávače snáze nalézt a využívat jej k efektivnějšímu procházení webu.

Sitemap: http://www.example.org/sitemap/sitemap.xml

Zákaz procházení není zákaz indexace

Mnoho správců webů se mylně domnívá, že zákazem procházení dojde automaticky i k zákazu indexace stránek, ale praxe je mírně složitější. Internetové vyhledávače musí stránku navštívit a stáhnout, aby ji mohly zanést do svého indexu (proces indexace). Když je procházení daného adresáře zakázané v souboru robots.txt, tak danou stránku nemohou roboti navštívit a tedy indexovat. Jestliže však na danou stránku vede mnoho zpětných odkazů, tak mohou tuto stránku vyhodnotit, jako důležitou a přesto ji indexovat.

Související články

Externí odkazy