Suchmaschinen schicken regelmäßig sogenannte Crawler (auch Searchbots oder Spiders genannt) los, um Websites nach neuen Einträgen und Unterseiten abzusuchen. Mithilfe der robots.txt-Datei können Sie steuern, welche Unterseiten Ihrer Website nicht von den Crawlern erfasst und somit auch nicht in den Google-Index aufgenommen werden sollen. Die entsprechenden Seiten erscheinen dann also nicht in den Suchergebnissen. Dies können Sie natürlich nicht nur für Google festlegen, sondern auch für andere Suchmaschinen wie Bing, Yahoo und Co.
WordPress erstellt eine eigene robots.txt-Datei, solange Sie selbst keine separate Datei anlegen. Die robots.txt von WordPress ist recht schmal gehalten und hat folgenden Inhalt:
WordPress legt fest, welche Suchmaschine ihre Crawler (user-agent) bei Ihrer Site vorbeischickt (das Sternchen steht im Beispielfall für alle Suchmaschinen) und dass diese die komplette Website, bis auf die Verzeichnisse /wp-admin und /wp-includes/, indexieren dürfen. Durch den Befehl „disallow“ wird dem Bot der Zugriff auf die beiden genannten Verzeichnisse versperrt. Die genannten Standard-Einstellungen sind prinzipiell sinnvoll, denn mit ihnen stellen Sie sicher, dass der Crawler alle Seiten aufrufen kann. Dennoch ist es meist ratsam, für WordPress die robots.txt manuell anzupassen. Denn Unterseiten wie das Impressum müssen nicht bei Google gelistet werden. Auch die Plug-ins sollten nicht in den Suchergebnissen auftauchen. Denn falls ein Plug-in eine Sicherheitslücke aufweist, ist es für Angreifer ein Leichtes, die Websites zu finden, welche die Erweiterung aktiviert haben. Die robots.txt sollte also alles sperren, was nicht für die Öffentlichkeit bestimmt ist und dem Nutzer in der Google-Anzeige keinen Mehrwert bietet.
Jeder Webmaster definiert die robots.txt-Datei für WordPress anders, je nach der Seitenstruktur und den eigenen Präferenzen. Das folgende Beispiel gibt aber eine gute Orientierung, da es die wichtigsten Fälle abdeckt:
In den ersten Zeilen unter user-agent wird festgelegt, welchen Bots der Zugang erlaubt wird. Demnach sind die Google-Bildersuche sowie Google Ads erlaubt, duggmirror hingegen ist komplett gesperrt. Die Zeile user-agent: * drückt aus, dass die folgenden Einschränkungen für alle Suchmaschinen gelten. In den Zeilen darunter wird unter anderem definiert, dass das Admin-Verzeichnis (/wp-admin/) sowie Plug-ins (/wp-content/plugins/) und Themes (/wp-content/themes/) nicht gelistet werden. Auch die Kommentare, Archive und Feeds werden ausgeschlossen, um das Risiko für Duplicate Content zu verringern. Denn sind Beiträge sowohl auf Ihrer Site als auch in einem Extra-Archiv gelistet, kann Google Sie für den doppelten Content abstrafen, sodass sich beispielsweise Ihre Rankings verschlechtern. Das Sternchen in den letzten Befehlen sorgt dafür, dass sämtliche Dateien aus den Verzeichnissen "trackback", "feed" und "comments" nicht gecrawlt werden. In der vorletzten Zeile legt das Sternchen fest, dass alle URLs, die ein Fragezeichen enthalten, nicht indexiert werden sollen. Um dem Google Crawler die Webseitenstruktur zu zeigen, kann man außerdem die Sitemap in die robots.txt-Datei eintragen.
Die von WordPress erstellte robots.txt wird über die wp-functions.php-Datei erstellt und ausgegeben. Änderungen lassen sich mit einem Editor wie Notepad++ vornehmen. Allerdings werden diese Änderungen bei einem WordPress Update überschrieben, sodass es zu einer Wiederherstellung der Standardeinstellungen kommt. Sinnvoller ist es, in einem Editor eine neue Datei mit dem Namen robots.txt zu erstellen und diese im Stammverzeichnis (auch Root-Verzeichnis genannt) Ihrer Domain abzuspeichern. Lautet Ihre Domain also http://www.ihre-beispielseite.de, muss der Pfad für die robots.txt wie folgt aussehen: http://www.ihre-beispielseite.de/robots.txt. Ist eine solche Datei erst einmal angelegt, erhält sie stets Vorrang vor der automatisch generierten robots.txt-Datei von WordPress.
Bei WordPress gibt es für die Erstellung einer robots.txt noch einen einfacheren Weg, der über Plug-ins führt. Es gibt diverse SEO-Plug-ins, mit denen sich eine robots.txt direkt im Backend erstellen oder verändern lässt. Zu den bewährtesten Plug-ins zählt Yoast SEO. Haben Sie die Erweiterung erfolgreich installiert und aktiviert, gelangen Sie über die Menüpunkte "SEO => Werkzeuge" und anschließend mit einem Klick auf "Datei-Editor" an die Stelle, an der Sie direkt in WordPress die robots.txt-Datei bearbeiten können. Mit einem Klick auf "Änderungen in der robots.txt übernehmen" werden Ihre Modifikationen gespeichert und sofort aktiv.
Die Verhaltensvorschrift, die in der robots.txt-Datei für WordPress festgelegt wurde, dient den Suchmaschinen-Crawlern lediglich als Richtlinie, sie ist nicht bindend. Zwar halten sich die Bots von Google und anderen seriösen Suchmaschinen stets an deren Angaben, doch andere Crawler tun dies keineswegs immer. Wenn Sie also sichergehen möchten, dass bestimmte Teile Ihrer Website nirgendwo indexiert werden, sollten Sie über andere Blockierungsmethoden nachdenken – zum Beispiel über passwortgeschützte Dateien und Ordner auf Ihrem Server.
Mit einer robots.txt-Datei können Sie genau festlegen, welche Bereiche Ihrer Website oder Ihres Webshops von den Crawlern der Suchmaschinen aufgesucht werden dürfen und welche gesperrt bleiben. Mittels individueller Anpassungen können Sie das Verhalten der Suchmaschinen den Gegebenheiten Ihrer Website anpassen.