| "Autor" |
Nr.101 - oder die Funktionsweise |
|
|
|
geschrieben am: 29.01.2002 um 15:36 Uhr
|
|
Funktionsprinzip
Zentrales Mittel des SRE (Standard for Robot Exclusion) ist eine Datei namens »robots.txt«, die jeder Administrator im Hauptverzeichnis seines Web-Servers anlegen kann. Die Datei kann Informationen darüber aufnehmen, für welche Web-Roboter welche URL-Bereiche zugänglich sein sollen und welche Bereiche gemieden werden sollen.
Das Funktionsprinzip ist denkbar einfach: Bevor ein Web-Roboter beginnt Anfragen an einen Web-Server zu stellen, lädt er die robots.txt-Datei, eine normale ASCII-Datei, herunter und wertet sie, sofern sie überhaupt vorhanden war, aus. Findet der Roboter für ihn relevante Einträge in der robots.txt-Datei, sollte er vor jedem neuen Zugriff überprüfen, ob er auf den jeweiligen URL-Pfad zugreifen darf oder nicht.
Der SRE kennt drei verschiedene Anweisungen:
User-Agent: Gibt den Namen eines Web-Roboters an, für den die darauffolgenden Anweisungen gelten sollen. Zwischen Groß- und Kleinschreibung wird nicht unterschieden. Wird der Wert »*« angegeben, sind alle Web-Roboter gemeint. Mehrfache Angabe der Anweisung ist möglich.
Disallow: Kann mehrfach angegeben werden und erhält als Wert jeweils einen URL-Pfad. Wie der Name vermuten läßt, kennzeichnet Disallow die URL-Bereiche, die vom Web-Roboter gemieden werden sollen. Wird als URL-Pfad beispielsweise »/cgi-bin« angegeben, so darf ein Roboter nicht auf Ressourcen zugreifen, deren Pfad mit »/cgi-bin« beginnt.
Allow: Entspricht der Disallow-Anweisung, allerdings können hiermit explizit URL-Bereiche gekennzeichnet werden, die vom Web-Roboter besucht werden dürfen. Die Allow-Anweisung wurde erst in einer späteren Version des SRE eingeführt.
Bei der Auswertung einer robots.txt-Datei ist darauf zu achten, daß immer der erste relevante User-Agent-Eintrag
verwendet wird. Für die Allow- und Disallow-Anweisungen gilt dies genauso. Der erste Eintrag, der den Zugriff auf den
jeweils zu betrachtenden URL erlaubt beziehungsweise sperrt, sollte verwendet werden.
Die genauen Details des SRE sind in [42] und [43] zu finden.
3.3.2 Anwendungsbeispiele
Nachfolgend finden sich zur Verdeutlichung einige Beispiele:
Soll grundsätzlich kein Web-Roboter auf den Web-Server zugreifen, so läßt sich dies durch folgende Konfiguration erreichen:
User-Agent: *
Disallow: /
Dem Roboter, mit dem Namen »mediafox«, soll der Zugriff nur auf einige bestimmte Dateien gestattet sein:
User-Agent: mediafox
Allow: /project/multimedia
Allow: /multimedia.html
Disallow: /
Zum Schluß ein etwas umfangreicheres Beispiel:
User-Agent: badbot
User-Agent: prefetchbot
Disallow: /
User-Agent: mediafox
Allow: /
User-Agent: *
Disallow: /cgi-bin
Disallow: /info/private
Disallow: /news
Den Web-Robotern »badbot« und »prefetchbot« ist es grundsätzlich nicht erlaubt, Ressourcen vom Web-Server anzufordern.
Der Roboter »mediafox« hingegen darf auf alle verfügbaren Ressourcen des Web-Servers zugreifen. Anderen Web-Robotern
ist ein Besuch der URL-Bereiche »/cgi-bin«, »/info/private« und »/news« nicht gestattet.
42.Koster, Martijn: »A Method for Web Robots Control«; Internet Draft; 1996;
Link
43.Koster, Martijn: »Evaluation of the Standard for Robots Exclusion«; 1996;
Link
ReneeW
P.S.: Man sieht, wie sehr die Technik daran arbeitet. |
|
|
|
|
|
|
Top
|
| "Autor" |
|
|
|
|
geschrieben am: 29.01.2002 um 16:09 Uhr
|
|
| Willst du uns damit irgendwas sagen? |
| Ich mag Signaturen nicht |
|
|
|
|
|
|
Top
|
| "Autor" |
|
|
|
|
geschrieben am: 29.01.2002 um 16:50 Uhr
|
|
(gg romeo7, ich glaub das kann er selber nicht beschreiben;o) )
Grüß dich ReneeW,
das hört sich ganz schön Kompliziert oder besser gesagt profesionell an;o). Ich leite doch eher zur Kurzfassung hin zu;o).
Tja, Robots sind Programme, die die HyperText-Struktur des World Wide Web durchqueren, indem sie an einem oder mehreren Knotenpunkten, den Wurzeln, beginnen und dann rekursiv alle referenzierten Seiten auffinden. Sie werden eingesetzt in verschiedene Gebiete zu geordnet;
Statistische Analysen
Spiegel-Dienste
Wartungsdienste
'Resource Discovery'
Kombinierte Aufgaben
Etwas anders formuliert, könnte man die Robots auch als "Schnappschuß"-Software bezeichnen; denn was die meisten tun, ist im Prinzip nichts anderes, als das Umsetzen der dynamischen Struktur des WWW in eine statische Struktur - z.B. durch Abspeichern in einer Datenbank.
Und daß manche Seiten eines Angebots die nicht durch Suchmaschinen erfaßt werden sollen ist euch schon auch bekannt denk ich mal. Da haben zufällige (das ist wirklich zufällig passiert) kluge Menschen einen "robot exclusion standard" ersonnen.
Auf die gute Nachricht folgt sofort die schlechte:Theorie ;Dieser Standard ist gar keiner, sondern eine Empfehlung, das zur Verzweiflung kommt. Also ich habe ne Internetseite und ich habe in meinem Fehler Protokoll gesehen das diverse suchmaschienen versuchen die Datei Robots.txt zu laden. Ich denke die ist wichtig aber wozu und was muss drinstehen. Will sagen, die Roboter sollen sich daran halten, müssen es aber nicht. Wenn es keine robots.txt gibt...ist das nicht tragisch. Dann ist es den Robotern erlaubt, alle erreichbaren Seiten zu laden; Praktisch; wie gesagt von ReneeW
Standart:(zitat)
»User-Agent: *«
»Disallow: /CGI«
»Disallow: /icons«
»Disallow: /teer«
»Disallow: /problem«
»Disallow: /eintrag«
»Disallow: /wb«(/zitat)
Bedeutung der Eintragung: Zeilen die mit dem Doppelkreuz (#) anfangen sind Kommentare. Meist wird in der ersten Zeile im Kommentar die mail-Adresse des Verantwortlichen (evetuell: webmaster) mitgeteilt. Kommentare werden nicht verarbeitet
Zeilsen wie diese;
User-Agent: *
Damit wird gesagt, daß alles Folgende für alle Roboter gilt. (Dort kann auch der Name eines bestimmten Roboters stehen; damit kann man "wild gewordene" Roboter gezielt ausschließen.) Dann folgt eine oder folgen mehrere Zeilen etwa so: Disallow: /CGI
Damit sagt man dem Roboter, daß alle Fragen nach Seiten, die so anfangen, nicht erlaubt sind.
Hier ist ein Beispiel
(zitat)Die folgende "/robots.txt" Datei bestimmt, daß kein Robot URLs beginnend mit "/cyberworld/map/" oder "/tmp/" besuchen sollte:
# robots.txt für »Link
User-agent: *
Disallow: /cyberworld/map/ # Achtung: schwarzes Loch
Disallow: /tmp/ # temporäre Dateien(/zitat)
Neben diesen Robots gibt es auch auf andere Themen spezialisierte Spiders, die in diesem Vortrag angesprochen werden. Mehr als in den vorhergehenden Vorträgen, spielt hier nicht nur der technische bzw. wissenschaftliche Aspekt eine Rolle - durch den Einsatz solcher primitiver Agenten entstehen zunehmend Schwierigkeiten und Probleme, die eine ethische Diskussion entfachen.
#btf |
|
|
|
|
|
|
Top
|
| "Autor" |
|
|
|
|
geschrieben am: 29.01.2002 um 17:08 Uhr
|
|
Wie gut, das hier keiner zwischen den Zeilen lesen kann, so behalte ich meinen Namen auch weiterhin.
ReneeW |
|
|
|
|
|
|
Top
|
| "Autor" |
|
|
|
|
geschrieben am: 29.01.2002 um 20:04 Uhr
|
|
So. Mir reichts. Toll, nun hab ich Kopfschmerzen wegen euch. Das habt ihr nun davon!
sich die beiden schnappt, an Wand aufhängt und auspeitscht
Evil-R7 |
| Ich mag Signaturen nicht |
|
|
|
|
|
|
Top
|
| "Autor" |
|
|
|
|
geschrieben am: 29.01.2002 um 20:17 Uhr
|
|
sich die beiden schnappt, an Wand aufhängt und auspeitscht » Lass es lieber...
Ich glaub die wollen das doch nur... gg
Aber Renee, solltest du meinen auf diese weise könnte man die Werbebots loswerden: Ich glaube nicht daran... Bots halten sich ja nicht zwangsweise an solche Datensätze...
 |
|
|
|
|
|
|
Top
|
| "Autor" |
|
|
|
|
geschrieben am: 29.01.2002 um 20:40 Uhr
|
|
Weitere Ausführungen zu der Funktionsweise von Bots:
Eine der wichtigsten Methoden der MediaFox-Klasse ist retrieveÂSingleDocument(). Sie sorgt dafür, daß die
Ressource, die vom dem URL, der an die Methode übergeben wurde, von der entsprechenden Web-Site angefordert wird.
Eventuelle Restriktionen bezüglich einer robots.txt-Datei werden kontrolliert.
Der grobe Ablauf der retrieveSingleDocument()-Methode ist im folgenden stichpunktartig zusammengefaßt:
(...)
Die Methode allowedByRobotsTXT() wird aufgerufen. Sie sorgt dafür, daß die robots.txt-Datei vom Web-Server angefordert wird, sofern dies nicht schon zuvor geschehen ist, und die relevanten Einträge gespeichert werden. Ist der Zugriff auf den URL erlaubt, wird als Rückgabewert »true« zurückgegeben, andernfalls der Wert »false«.
Ist der Zugriff nicht erlaubt, wird retrieveSingleDocument() mit dem Statuswert »NO ACCESS« beendet und der URL als besucht markiert.
(...)
ReneeW
P.S.: Was man so alles an einem Mittag herausfinden kann.... |
|
|
|
|
|
|
Top
|
| "Autor" |
|
|
|
|
geschrieben am: 29.01.2002 um 21:15 Uhr
|
|
Grüß dich time,
ich weiß zwar nicht was deine Bemerkung dazu soll, aber lassen wir das -erstmal-;o)
(zitat)Eventuelle Restriktionen bezüglich einer robots.txt-Datei werden kontrolliert.(/zitat)
Naja time, ein bisschen ist was drann. Es ist schwierig das zu kontrollieren, ein eindeutiges Urteil pro oder contro Robots abzugeben. Sie sind momentan ein unverzichtbares Hilfsmittel für das Erstellen von Datenbanken, die Suchmaschinen zugrunde liegen; auch die Wartungsdienste, die mit diesen Helfern teilweise automatisiert werden können, profitieren von den Robots.
andernfalls der Wert »false«?was bedeutet das denn?
#btf |
|
|
|
|
|
|
Top
|
| "Autor" |
|
|
|
|
geschrieben am: 30.01.2002 um 13:05 Uhr
|
|
Die Chatter profitieren auch von den Robots, vor allem abends beim chatten.
Ich frage mich, wer noch alles davon profitiert?
ReneeW |
|
|
|
|
|
|
Top
|
| "Autor" |
|
|
|
|
geschrieben am: 30.01.2002 um 18:49 Uhr
|
|
öhm .. renee .. beschreibste hier ne suchmaschinenoptimierung? .. oder gilt das gar für die flüsterdamen? ;-)
D.
tja ja .. räschtschraibumm .. Geändert am 30.01.2002 um 18:50 Uhr von devon |
|
|
|
|
|
|
Top
|