![]() |
Die icash Tutorials befassen sich weitgehend mit Themen welche eher selten behandelt werden aber dennoch von Wichtigkeit sind. |
| Tutorial |
Robots.txt
Die Datei robots.txt
User-agent
Disallow
Beispiel einer robots.txt
Sicherheit der robots.txt
Related Links
Suchmaschinen suchen mit Robots in Ihrem Rootverzeichnis nach dem Vorhandensein
einer speziellen Datei, die 'robots.txt' (http://www.IhreDomain.com/robots.txt).
Diese Datei beinhaltet Angaben darüber, welche Dateien oder Verzeichnisse Ihrer
Hompage von den robots (Spiders) nicht eingesehen werden dürfen.
Dieses System
nennt sich:
The Robots Exclusion Standard.
Das Format von robots.txt ist eine sehr einfache reine Textdatei die zeilenweise
Records enthält welche der Suchmaschine mitteilen ob sie überhaupt berechtigt
ist eine Durchsuchung vornehmen zu dürfen und welche Inhalte, das können
Verzeichnisse oder Dateien sein, für das Einsehen gesperrt sind. Jeder Record
besteht aus zwei Feldern: Eine User-agent line und eine oder mehrere
Dissallow lines (Verbote). Das Format ist wie folgt vereinbart:
<Feld>: <Wert>
Die robots.txt sollte mit einem reinen Texteditor erstellt werden (zBsp. mit dem
notepad) und, verwenden Sie keinen HTML Editor welcher nicht über einen reinen
Textmodus verfügt.
User-agent
Der erste Teil eines Records, die User-agent Linie, richtet sich direkt an den
Robots (Spider) der Suchmaschine. Eine ausführliche Liste von Spidernamen
finden Sie hier...
Um
zBsp für den google Robot 'googlebot' explizit Anweisungen zu geben, würde dies so definiert:
User-agent:
googlebot
Sie können auch das wildcard Zeichen '*' dazu verwenden um alle Robots,
oder die nicht vorher erwähnten, einzubeziehen:
User-agent:
*
Jeder der Zeilen können Kommentare beigefügt werden welche von den
Robots ignoriert werden und stehen nach dem Zeichen '#'
User-agent:
googlebot #google's crawler
Disallow
Der zweite Teil eines Records enthält jene Verzeichnisse und Dateien die nicht
eingesehen werden dürfen. zBsp. teilt folgende Zeile dem Robot mit, dass
die Datei 'privat.html' im Root-Verzeichnis beim Durchsuchen nicht einbezogen
werden darf:
User-agent: *
#An alle Crawler
Disallow: /privat.html #Meine persönliche und private HP-Seite
ist OUT
Liegt diese private Seite in einem Unterverzeichnis, muss dieses wie folgt
angegeben werden. Beachten Sie dass Unterverzeichnisse immer zwischen Slashes
stehen müssen:
User-agent: *
#an alle Crawler
Disallow: /Unterverzeichnis/privat.html #meine private HP-Seite ist OUT
Wollen Sie gar das keine der Verzeichnisse und Dateien durchsucht werden sollen
geben Sie einfach einen Slash als Wert an:
User-agent: * #An
alle Crawler
Disallow: / #Hier wird rein gar nichts durchsucht
Wünschen Sie dass alle Verzeichnisse und Dateien durchforscht werden dürfen,
lassen Sie bei disallow den Slash weg:
User-agent: * #An
alle Crawler
Disallow: #Hier darf alles durchsucht werden
Aber vielleicht wollen Sie explizit nur einer Suchmaschine das crawlen
untersagen, dann teilen Sie dies wie folgt mit:
User-agent: roverbot #An
den roverbot crawler
Disallow: / #Hier wird
von dir nichts durchsucht
Auch Verzeichnisse lassen sich für das Durchsuchen durch Robots ausschliessen.
Diese stehen immer zwischen Slashes. Um die zBsp. die Verzeichnisse 'cgi-bin'
und 'images' unberührt zu lassen geben Sie folgende Zeilen an:
User-agent: * #An
alle crawler
Disallow: /cgi-bin/ #Dieses Verzeichnis nicht durchsuchen
Disallow: /images/ #Dieses Verzeichnis nicht durchsuchen
oder gleich an mehrere Robots:
User-agent: wget
User-agent: webmirror
User-agent: webcopy
Disallow: /cgi-bin/ #Diese Verzeichnis nicht durchsuchen
Disallow: /images/ #Diese Verzeichnis nicht durchsuchen
Oft will man eine Gruppe von Dateien mit dem gleich lautenden Dateivorspann von
den Robots fernhalten, zBsp alle Dateien die mit 'privat' beginnen, wie
privat-tel, privat-dates, privat-links, etc. Erstellen Sie dazu folgende
Zeile:
User-agent: * #an
alle Crawler
disallow: /privat #Alle privat*.* ausschliessen (ohne
Slash am Ende)
Beispiel einer robots.txt Datei
| #
http://www.MeineHomepage.com/robots.txt User-agent: e-collector #Für diesen User-agent: webzip #und diesen Robot Disallow: #keine Erlaubnis für die gesamte Homepage User-agent: * #An alle restlichen Robots Disallow: /news/ #Verzeichnis news nicht durchforsten Disallow: /temp #Alle mit temp beginnenden Dateien sind out Disallow: /privat.html #Diese Datei nicht durchforsten |
Sicherheit der robots.txt
Diese gibt es leider nicht! Dieser 'Robots Exclution Standard' wird von
einigen Robots einfach ignoriert, zBsp von speziellen eMail Spidern deren
Aufgabe es ist eMail Adressen weltweit aufzutreiben die oft dann als Spam-Mails
in Ihrer Mailbox landen. Aber auch 'namhafte' Unternehmen umgehen die robots.txt
bei der Durchforstung des Webs.
November 15 2003
Related Links
robotstxt.org (Der Standard für Robots Exclution)
webcrawler.com (hier können Sie Ihre
Hompage durchforsten lassen)
searchengineworld.com
(Meta-Tags für Robots)
| Top
| Home of icash.ch | Fenster schliessen
|