robots.txt

Was ist Robots.txt?

Robots.txt ist eine einfache Textdatei im Bereich einer Internetseite. In der Datei wird festgelegt, ob eine Webseite gecrawlt werden darf oder nicht. Möglich ist es, einzelne Dateien, komplette Verzeichnisse und ganze Domains crawlen und nicht scannen zu lassen. Ein Bot ruft immer erst die robots.txt Datei auf und erkennt, welche Seiten aufgenommen werden sollen und bei welchen Internetseiten des Projektes es nicht gewünscht ist.

Welche Bedeutung hat Robots.txt für SEO?

Für SEO ist die Robots Textdatei sehr wichtig, da sie einen großen Einfluss hat. Wird eine Webseite von dem Crawling ausgeschlossen, kann diese selbstverständlich in den Suchergebnislisten nicht ranken. Sind die Einschränkungen zu groß, wirkt es sich nachteilig auf das Ranking aus. Ebenfalls kommt es zu einem negativen Einfluss, wenn Seiten gescannt werden, die nicht gecrawlt werden sollten (möglicherweise wegen Duplicate Content).

Deswegen ist es sehr wichtig, die Robots.txt Datei gewissenhaft zu führen. Es ist aber auch so, dass Angaben in der Robots.txt die Indexierung nicht verhindern. Sinnvoll ist es daher, Noindex-Meta-Tags auf Seiten zu verwenden, die nicht indexiert werden sollen. Diese Angaben kommen in den Header und schließen auf jeden Fall die Indexierung aus.

Dennoch ist die Robots.txt Datei ein wichtiges Instrument für SEOs, um das Verhalten der Crawler zu steuern. Treten in dem Bereich Fehler auf, könnte es passieren, dass Webseiten überhaupt nicht erreichbar sind oder im Suchmaschinen-Index auftauchen.