Die icash Tutorials befassen sich weitgehend mit Themen welche eher
 selten behandelt werden aber dennoch von Wichtigkeit sind. 
Tutorial

 | Home of icash.ch | Fenster schliessen |



Robots.txt

Die Datei robots.txt

User-agent
Disallow
Beispiel einer robots.txt
Sicherheit der robots.txt
Related Links



Die Datei robots.txt

Suchmaschinen suchen mit Robots in Ihrem Rootverzeichnis nach dem Vorhandensein einer speziellen Datei, die 'robots.txt' (http://www.IhreDomain.com/robots.txt). Diese Datei beinhaltet Angaben darüber, welche Dateien oder Verzeichnisse Ihrer Hompage von den robots (Spiders) nicht eingesehen werden dürfen.
Dieses System nennt sich: The Robots Exclusion Standard.

Das Format von robots.txt ist eine sehr einfache reine Textdatei die zeilenweise Records enthält welche der Suchmaschine mitteilen ob sie überhaupt berechtigt ist eine Durchsuchung vornehmen zu dürfen und welche Inhalte, das können Verzeichnisse oder Dateien sein, für das Einsehen gesperrt sind. Jeder Record besteht aus zwei Feldern: Eine User-agent line und eine oder mehrere Dissallow lines (Verbote). Das Format ist wie folgt vereinbart:

<Feld>: <Wert>

Die robots.txt sollte mit einem reinen Texteditor erstellt werden (zBsp. mit dem notepad) und, verwenden Sie keinen HTML Editor welcher nicht über einen reinen Textmodus verfügt.


User-agent

Der erste Teil eines Records, die User-agent Linie, richtet sich direkt an den Robots (Spider) der Suchmaschine. Eine ausführliche Liste von Spidernamen finden Sie hier...  
Um zBsp für den google Robot 'googlebot' explizit Anweisungen zu geben, würde dies so definiert:

User-agent: googlebot

Sie können auch das wildcard Zeichen '*' dazu verwenden um alle Robots, oder die nicht vorher erwähnten, einzubeziehen:

User-agent: *

Jeder der Zeilen können Kommentare beigefügt werden welche von den Robots ignoriert werden und stehen nach dem Zeichen '#'

User-agent: googlebot   #google's crawler


Disallow

Der zweite Teil eines Records enthält jene Verzeichnisse und Dateien die nicht eingesehen werden dürfen. zBsp. teilt  folgende Zeile dem Robot mit, dass die Datei 'privat.html' im Root-Verzeichnis beim Durchsuchen nicht einbezogen werden darf:

User-agent: *            #An alle Crawler
Disallow: /privat.html   #Meine persönliche und private HP-Seite ist OUT


Liegt diese private Seite in einem Unterverzeichnis, muss dieses wie folgt angegeben werden. Beachten Sie dass Unterverzeichnisse immer zwischen Slashes stehen müssen:

User-agent: *                            #an alle Crawler
Disallow: /Unterverzeichnis/privat.html  #meine private HP-Seite ist OUT


Wollen Sie gar das keine der Verzeichnisse und Dateien durchsucht werden sollen geben Sie einfach einen Slash als Wert an:

User-agent: *   #An alle Crawler
Disallow: /     #Hier wird rein gar nichts durchsucht


Wünschen Sie dass alle Verzeichnisse und Dateien durchforscht werden dürfen, lassen Sie bei disallow den Slash weg:

User-agent: *   #An alle Crawler
Disallow:       #Hier darf alles durchsucht werden


Aber vielleicht wollen Sie explizit nur einer Suchmaschine das crawlen untersagen, dann teilen Sie dies wie folgt mit:

User-agent: roverbot   #An den roverbot crawler
Disallow: /            #Hier wird von dir nichts durchsucht


Auch Verzeichnisse lassen sich für das Durchsuchen durch Robots ausschliessen. Diese stehen immer zwischen Slashes. Um die zBsp. die Verzeichnisse 'cgi-bin' und 'images' unberührt zu lassen geben Sie folgende Zeilen an:

User-agent: *          #An alle crawler
Disallow: /cgi-bin/    #Dieses Verzeichnis nicht durchsuchen
Disallow: /images/     #Dieses Verzeichnis nicht durchsuchen

oder gleich an mehrere Robots:

User-agent: wget
User-agent: webmirror
User-agent: webcopy
Disallow: /cgi-bin/    #Diese Verzeichnis nicht durchsuchen
Disallow: /images/     #Diese Verzeichnis nicht durchsuchen


Oft will man eine Gruppe von Dateien mit dem gleich lautenden Dateivorspann von den Robots fernhalten, zBsp alle Dateien die mit 'privat' beginnen, wie privat-tel,  privat-dates, privat-links, etc. Erstellen Sie dazu folgende Zeile:

User-agent: *          #an alle Crawler
disallow: /privat      #Alle privat*.* ausschliessen (ohne Slash am Ende)



Beispiel einer robots.txt Datei

# http://www.MeineHomepage.com/robots.txt

User-agent: e-collector #Für diesen
User-agent: webzip      #und diesen Robot
Disallow:               #keine Erlaubnis für die gesamte Homepage

User-agent: *           #An alle restlichen Robots
Disallow: /news/        #Verzeichnis news nicht durchforsten
Disallow: /temp         #Alle mit temp beginnenden Dateien sind out
Disallow: /privat.html  #Diese Datei nicht durchforsten
 


Sicherheit der robots.txt

Diese gibt es leider nicht! Dieser 'Robots Exclution Standard' wird von einigen Robots einfach ignoriert, zBsp von speziellen eMail Spidern deren Aufgabe es ist eMail Adressen weltweit aufzutreiben die oft dann als Spam-Mails in Ihrer Mailbox landen. Aber auch 'namhafte' Unternehmen umgehen die robots.txt bei der Durchforstung des Webs.


November 15 2003


Related Links

robotstxt.org (Der Standard für Robots Exclution)
webcrawler.com (hier können Sie Ihre Hompage durchforsten lassen)
searchengineworld.com (Meta-Tags für Robots)

| Top | Home of icash.ch | Fenster schliessen |