Startseite - Technik und Support - Nr.101 - oder die Funktionsweise

1 von 1 1

Auf den Beitrag: (ID: 17853) sind "9" Antworten eingegangen (Gelesen: 746 Mal).

"Autor"

Nr.101 - oder die Funktionsweise

Nutzer: ReneeW
Status: Profiuser  
 Post schicken
Registriert seit: 01.01.2000
Anzahl Nachrichten: 1232

	

geschrieben am: 29.01.2002 um 15:36 Uhr

Funktionsprinzip

Zentrales Mittel des SRE (Standard for Robot Exclusion) ist eine Datei namens Â»robots.txtÂ«, die jeder Administrator im Hauptverzeichnis seines Web-Servers anlegen kann. Die Datei kann Informationen darÃ¼ber aufnehmen, fÃ¼r welche Web-Roboter welche URL-Bereiche zugÃ¤nglich sein sollen und welche Bereiche gemieden werden sollen.

Das Funktionsprinzip ist denkbar einfach: Bevor ein Web-Roboter beginnt Anfragen an einen Web-Server zu stellen, lÃ¤dt er die robots.txt-Datei, eine normale ASCII-Datei, herunter und wertet sie, sofern sie Ã¼berhaupt vorhanden war, aus. Findet der Roboter fÃ¼r ihn relevante EintrÃ¤ge in der robots.txt-Datei, sollte er vor jedem neuen Zugriff Ã¼berprÃ¼fen, ob er auf den jeweiligen URL-Pfad zugreifen darf oder nicht.

Der SRE kennt drei verschiedene Anweisungen:

User-Agent: Gibt den Namen eines Web-Roboters an, fÃ¼r den die darauffolgenden Anweisungen gelten sollen. Zwischen GroÃŸ- und Kleinschreibung wird nicht unterschieden. Wird der Wert Â»*Â« angegeben, sind alle Web-Roboter gemeint. Mehrfache Angabe der Anweisung ist mÃ¶glich.

Disallow: Kann mehrfach angegeben werden und erhÃ¤lt als Wert jeweils einen URL-Pfad. Wie der Name vermuten lÃ¤ÃŸt, kennzeichnet Disallow die URL-Bereiche, die vom Web-Roboter gemieden werden sollen. Wird als URL-Pfad beispielsweise Â»/cgi-binÂ« angegeben, so darf ein Roboter nicht auf Ressourcen zugreifen, deren Pfad mit Â»/cgi-binÂ« beginnt.

Allow: Entspricht der Disallow-Anweisung, allerdings kÃ¶nnen hiermit explizit URL-Bereiche gekennzeichnet werden, die vom Web-Roboter besucht werden dÃ¼rfen. Die Allow-Anweisung wurde erst in einer spÃ¤teren Version des SRE eingefÃ¼hrt.

Bei der Auswertung einer robots.txt-Datei ist darauf zu achten, daÃŸ immer der erste relevante User-Agent-Eintrag
verwendet wird. FÃ¼r die Allow- und Disallow-Anweisungen gilt dies genauso. Der erste Eintrag, der den Zugriff auf den
jeweils zu betrachtenden URL erlaubt beziehungsweise sperrt, sollte verwendet werden.

Die genauen Details des SRE sind in [42] und [43] zu finden.

3.3.2 Anwendungsbeispiele

Nachfolgend finden sich zur Verdeutlichung einige Beispiele:

Soll grundsÃ¤tzlich kein Web-Roboter auf den Web-Server zugreifen, so lÃ¤ÃŸt sich dies durch folgende Konfiguration erreichen:

User-Agent: *
Disallow: /

Dem Roboter, mit dem Namen Â»mediafoxÂ«, soll der Zugriff nur auf einige bestimmte Dateien gestattet sein:

User-Agent: mediafox
Allow: /project/multimedia
Allow: /multimedia.html
Disallow: /

Zum SchluÃŸ ein etwas umfangreicheres Beispiel:

User-Agent: badbot
User-Agent: prefetchbot
Disallow: /

User-Agent: mediafox
Allow: /

User-Agent: *
Disallow: /cgi-bin
Disallow: /info/private
Disallow: /news

Den Web-Robotern Â»badbotÂ« und Â»prefetchbotÂ« ist es grundsÃ¤tzlich nicht erlaubt, Ressourcen vom Web-Server anzufordern.
Der Roboter Â»mediafoxÂ« hingegen darf auf alle verfÃ¼gbaren Ressourcen des Web-Servers zugreifen. Anderen Web-Robotern
ist ein Besuch der URL-Bereiche Â»/cgi-binÂ«, Â»/info/privateÂ« und Â»/newsÂ« nicht gestattet.

42.Koster, Martijn: Â»A Method for Web Robots ControlÂ«; Internet Draft; 1996;
Link

43.Koster, Martijn: Â»Evaluation of the Standard for Robots ExclusionÂ«; 1996;
Link

ReneeW

P.S.: Man sieht, wie sehr die Technik daran arbeitet.

Antwort schreiben

Im Zitat antworten

Beitrag abonnierenÂ

Top

"Autor"

Nutzer: Romeo7
Status: Profiuser  
 Post schicken
Registriert seit: 01.01.2000
Anzahl Nachrichten: 4511

	

geschrieben am: 29.01.2002 um 16:09 Uhr

Willst du uns damit irgendwas sagen?

Ich mag Signaturen nicht

Antwort schreiben

Im Zitat antworten

Top

"Autor"

Nutzer: coockie
Status: Profiuser  
 Post schicken
Registriert seit: 10.01.2002
Anzahl Nachrichten: 72

	

geschrieben am: 29.01.2002 um 16:50 Uhr

(gg romeo7, ich glaub das kann er selber nicht beschreiben;o) )

GrÃ¼ÃŸ dich ReneeW,

das hÃ¶rt sich ganz schÃ¶n Kompliziert oder besser gesagt profesionell an;o). Ich leite doch eher zur Kurzfassung hin zu;o).
Tja, Robots sind Programme, die die HyperText-Struktur des World Wide Web durchqueren, indem sie an einem oder mehreren Knotenpunkten, den Wurzeln, beginnen und dann rekursiv alle referenzierten Seiten auffinden. Sie werden eingesetzt in verschiedene Gebiete zu geordnet;
Statistische Analysen
Spiegel-Dienste
Wartungsdienste
'Resource Discovery'
Kombinierte Aufgaben
Etwas anders formuliert, kÃ¶nnte man die Robots auch als "SchnappschuÃŸ"-Software bezeichnen; denn was die meisten tun, ist im Prinzip nichts anderes, als das Umsetzen der dynamischen Struktur des WWW in eine statische Struktur - z.B. durch Abspeichern in einer Datenbank.
Und daÃŸ manche Seiten eines Angebots die nicht durch Suchmaschinen erfaÃŸt werden sollen ist euch schon auch bekannt denk ich mal. Da haben zufÃ¤llige (das ist wirklich zufÃ¤llig passiert) kluge Menschen einen "robot exclusion standard" ersonnen.
Auf die gute Nachricht folgt sofort die schlechte:Theorie ;Dieser Standard ist gar keiner, sondern eine Empfehlung, das zur Verzweiflung kommt. Also ich habe ne Internetseite und ich habe in meinem Fehler Protokoll gesehen das diverse suchmaschienen versuchen die Datei Robots.txt zu laden. Ich denke die ist wichtig aber wozu und was muss drinstehen. Will sagen, die Roboter sollen sich daran halten, mÃ¼ssen es aber nicht. Wenn es keine robots.txt gibt...ist das nicht tragisch. Dann ist es den Robotern erlaubt, alle erreichbaren Seiten zu laden; Praktisch; wie gesagt von ReneeW
Standart:(zitat)
Â»User-Agent: *Â«
Â»Disallow: /CGIÂ«
Â»Disallow: /iconsÂ«
Â»Disallow: /teerÂ«
Â»Disallow: /problemÂ«
Â»Disallow: /eintragÂ«
Â»Disallow: /wbÂ«(/zitat)
Bedeutung der Eintragung: Zeilen die mit dem Doppelkreuz (#) anfangen sind Kommentare. Meist wird in der ersten Zeile im Kommentar die mail-Adresse des Verantwortlichen (evetuell: webmaster) mitgeteilt. Kommentare werden nicht verarbeitet
Zeilsen wie diese;
User-Agent: *
Damit wird gesagt, daÃŸ alles Folgende fÃ¼r alle Roboter gilt. (Dort kann auch der Name eines bestimmten Roboters stehen; damit kann man "wild gewordene" Roboter gezielt ausschlieÃŸen.) Dann folgt eine oder folgen mehrere Zeilen etwa so: Disallow: /CGI
Damit sagt man dem Roboter, daÃŸ alle Fragen nach Seiten, die so anfangen, nicht erlaubt sind.
Hier ist ein Beispiel

(zitat)Die folgende "/robots.txt" Datei bestimmt, daÃŸ kein Robot URLs beginnend mit "/cyberworld/map/" oder "/tmp/" besuchen sollte:

# robots.txt fÃ¼r Â»Link

User-agent: *
Disallow: /cyberworld/map/ # Achtung: schwarzes Loch
Disallow: /tmp/ # temporÃ¤re Dateien(/zitat)

Neben diesen Robots gibt es auch auf andere Themen spezialisierte Spiders, die in diesem Vortrag angesprochen werden. Mehr als in den vorhergehenden VortrÃ¤gen, spielt hier nicht nur der technische bzw. wissenschaftliche Aspekt eine Rolle - durch den Einsatz solcher primitiver Agenten entstehen zunehmend Schwierigkeiten und Probleme, die eine ethische Diskussion entfachen.

#btf

Antwort schreiben

Im Zitat antworten

Top

"Autor"

Nutzer: ReneeW
Status: Profiuser  
 Post schicken
Registriert seit: 01.01.2000
Anzahl Nachrichten: 1232

	

geschrieben am: 29.01.2002 um 17:08 Uhr

Wie gut, das hier keiner zwischen den Zeilen lesen kann, so behalte ich meinen Namen auch weiterhin.

ReneeW

Antwort schreiben

Im Zitat antworten

Top

"Autor"

Nutzer: Romeo7
Status: Profiuser  
 Post schicken
Registriert seit: 01.01.2000
Anzahl Nachrichten: 4511

	

geschrieben am: 29.01.2002 um 20:04 Uhr

So. Mir reichts. Toll, nun hab ich Kopfschmerzen wegen euch. Das habt ihr nun davon!
sich die beiden schnappt, an Wand aufhÃ¤ngt und auspeitscht

Evil-R7

Ich mag Signaturen nicht

Antwort schreiben

Im Zitat antworten

Top

"Autor"

Nutzer: timeserver
Status: Profiuser  
 Post schicken
Registriert seit: 06.07.2001
Anzahl Nachrichten: 1078

	

geschrieben am: 29.01.2002 um 20:17 Uhr

sich die beiden schnappt, an Wand aufhÃ¤ngt und auspeitscht Â» Lass es lieber...
Ich glaub die wollen das doch nur... gg
Aber Renee, solltest du meinen auf diese weise kÃ¶nnte man die Werbebots loswerden: Ich glaube nicht daran... Bots halten sich ja nicht zwangsweise an solche DatensÃ¤tze...

Antwort schreiben

Im Zitat antworten

Top

"Autor"

Nutzer: ReneeW
Status: Profiuser  
 Post schicken
Registriert seit: 01.01.2000
Anzahl Nachrichten: 1232

	

geschrieben am: 29.01.2002 um 20:40 Uhr

Weitere AusfÃ¼hrungen zu der Funktionsweise von Bots:

Eine der wichtigsten Methoden der MediaFox-Klasse ist retrieveÂSingleDocument(). Sie sorgt dafÃ¼r, daÃŸ die
Ressource, die vom dem URL, der an die Methode Ã¼bergeben wurde, von der entsprechenden Web-Site angefordert wird.
Eventuelle Restriktionen bezÃ¼glich einer robots.txt-Datei werden kontrolliert.

Der grobe Ablauf der retrieveSingleDocument()-Methode ist im folgenden stichpunktartig zusammengefaÃŸt:

(...)

Die Methode allowedByRobotsTXT() wird aufgerufen. Sie sorgt dafÃ¼r, daÃŸ die robots.txt-Datei vom Web-Server angefordert wird, sofern dies nicht schon zuvor geschehen ist, und die relevanten EintrÃ¤ge gespeichert werden. Ist der Zugriff auf den URL erlaubt, wird als RÃ¼ckgabewert Â»trueÂ« zurÃ¼ckgegeben, andernfalls der Wert Â»falseÂ«.
Ist der Zugriff nicht erlaubt, wird retrieveSingleDocument() mit dem Statuswert Â»NO ACCESSÂ« beendet und der URL als besucht markiert.

(...)

ReneeW

P.S.: Was man so alles an einem Mittag herausfinden kann....

Antwort schreiben

Im Zitat antworten

Top

"Autor"

Nutzer: coockie
Status: Profiuser  
 Post schicken
Registriert seit: 10.01.2002
Anzahl Nachrichten: 72

	

geschrieben am: 29.01.2002 um 21:15 Uhr

GrÃ¼ÃŸ dich time,
ich weiÃŸ zwar nicht was deine Bemerkung dazu soll, aber lassen wir das -erstmal-;o)

(zitat)Eventuelle Restriktionen bezÃ¼glich einer robots.txt-Datei werden kontrolliert.(/zitat)

Naja time, ein bisschen ist was drann. Es ist schwierig das zu kontrollieren, ein eindeutiges Urteil pro oder contro Robots abzugeben. Sie sind momentan ein unverzichtbares Hilfsmittel fÃ¼r das Erstellen von Datenbanken, die Suchmaschinen zugrunde liegen; auch die Wartungsdienste, die mit diesen Helfern teilweise automatisiert werden kÃ¶nnen, profitieren von den Robots.

andernfalls der Wert Â»falseÂ«?was bedeutet das denn?

#btf

Antwort schreiben

Im Zitat antworten

Top

"Autor"

Nutzer: ReneeW
Status: Profiuser  
 Post schicken
Registriert seit: 01.01.2000
Anzahl Nachrichten: 1232

	

geschrieben am: 30.01.2002 um 13:05 Uhr

Die Chatter profitieren auch von den Robots, vor allem abends beim chatten.

Ich frage mich, wer noch alles davon profitiert?

ReneeW

Antwort schreiben

Im Zitat antworten

Top

"Autor"

Nutzer: DEVON
Status: Profiuser  
 Post schicken
Registriert seit: 27.07.2005
Anzahl Nachrichten: 385

	

geschrieben am: 30.01.2002 um 18:49 Uhr

Ã¶hm .. renee .. beschreibste hier ne suchmaschinenoptimierung? .. oder gilt das gar fÃ¼r die flÃ¼sterdamen? ;-)

D.

tja ja .. rÃ¤schtschraibumm ..
GeÃ¤ndert am 30.01.2002 um 18:50 Uhr von devon

Antwort schreiben

Im Zitat antworten

Top