Skip to content

How not to be seen

Gestern fühlte ich mich ja irgendwie zu dämlich, eine Suchmaschine zu bedienen. Ich suchte Informationen über das Dortmunder Schulverwaltungsamt, eine Stellenausschreibung, Ansprechpartner, doch Google scheint dort niemanden zu kennen. Inzwischen bin ich etwas schlauer, habe mich durchgeklickt und von dort sogar schon eine hilfreiche E-Mail bekommen.

Trotzdem wollte ich wissen, warum Google sich so unwissend gibt. Die Lösung liegt in einer kleinen Textdatei auf dem Webserver des Schulverwaltungsamtes. Diese heißt "robots.txt" und hat folgenden Inhalt:

# Ganze Site für alle Robots sperren
User-agent: *
Disallow: /


Lustig, nicht? Die Spezialisten dort stellen Informationen ins Internet und sorgen gleichzeitig auf wirksame Art dafür, dass diese nicht durch Suchmaschinen erfasst werden können. Damit jeder sieht, dass es nicht aus Versehen geschehen ist, wird die Tat auch noch ausführlich kommentiert.

„Aber Mr. Dent, die Pläne lagen die letzten neun Monate im Planungsbüro aus.“
„O ja. Als ich davon hörte, bin ich gestern Nachmittag gleich rübergegangen, um sie mir anzusehen. Man hatte sich nicht gerade viel Mühe gemacht die Aufmerksamkeit darauf zu lenken. Ich meine, dass man’s jemandem gesagt hätte oder so.“
„Aber die Pläne lagen aus…“
„Lagen aus? Ich musste schließlich erst in den Keller runter…“
„Da werden sie immer ausgehängt.“
„Mit einer Taschenlampe.“
„Tja, das Licht war wohl kaputt.“
„Die Treppe auch.“
„Aber die Bekanntmachung haben Sie doch gefunden, oder?“
„Jaja“, sagte Arthur, „ja, das habe ich. Ganz zuunterst in einem verschlossenen Aktenschrank in einem unbenutzten Klo, an dessen Tür stand Vorsicht! Bissiger Leopard!“


Zitat aus: Douglas Adams - Per Anhalter durch die Galaxis

Nachtrag (13. September 2008):

Irrsinnig komisch ist auch die robots.txt des Nordrheinwestfälischen Schulministeriums. Microsoft und andere dem Ministerium genehme Firmen dürfen dort alles durchsuchen; allein Google hat augenscheinlich weitreichendes Hausverbot:
User-agent: Googlebot
#Disallow: /*.mitte.html$
#Disallow: /*.rechts.html$
#Disallow: /*.links.html$
#Disallow: /*.abstand.html$
#Disallow: /*.oben.html$
#Disallow: /*.unten.html$
#Disallow: /*.hauptmenue.html$
#Disallow: /*.bannerleiste.html$
#Disallow: /*.kontextbezogene_links.html$
#Disallow: /*.micronavigation.html$
#Disallow: /*.impressum.html$
#Disallow: /*.inhaltsbereich.html$
Disallow: /*.jsp$
Disallow: /*.php$
Disallow: /BPBP
Disallow: /BP/dpa
Disallow: /BP/Schule
Disallow: /*?
Disallow: /*.jpg$

http://www.schulministerium.nrw.de/robots.txt

Nachtrag (15. September 2008):

Inzwischen gibt es eine offizielle Erklärung für die Robotsperrungen auf dortmund.de. Das verwendete CMS ist wohl nicht vernünftig erweiterbar und soll 2009 durch ein besseres System ersetzt werden. Bis dahin wird ein Notbetrieb aufrechterhalten, der soviel Traffic wie möglich vermeidet, damit die Server nicht wieder zusammenbrechen.
Beim Schulministerium dagegen konnte man dessen Google-Embargo bisher nicht begründen, behauptete mir gegenüber jedoch, interessierte Lehrer würden die Seiten trotzdem finden.

Trackbacks

Vogels Perspektive am : Stellenangebot Grundschulleiter/Grundschulleiterin Grundschule Eichlinghofen

Vorschau anzeigen
Irgendwo "im Internet" soll das Schulverwaltungsamt Dortmund eine Stellenanzeige mit der Ausschreibung der demnächst frei werdenden Stelle des Schulleiters oder der Schulleiterin der Grundschule Dortmund-Eichlinghofen geschaltet haben. Leider reichen mein

Vogels Perspektive am : IT-Kompetenz des NRW-Schulministeriums

Vorschau anzeigen
Die Vorliebe des Schulministeriums für Microsoft-Produkte macht's möglich: Eine VBScript-Fehlermeldung sieht man selten auf professionell betriebenen Webservern.Besuche auf den Internetseiten des NRW-Schulministeriums sind immer wieder ein Erlebnis. Nachd

Vogels Perspektive am : Bibliothek Dortmund-Hombruch: Fristen von Büchern online verlängern

Vorschau anzeigen
Die Stadtteilbibliothek Hombruch hat eine Internetseite, auf der die Online-Verlängerung von Ausleihfristen möglich ist. Für ausgeliehene Bücher kann dort eine Fristverlängerung von bis zu vier Wochen über ein Webformular aktiviert werden. Aus irgendwelch

Kommentare

Ansicht der Kommentare: Linear | Verschachtelt

Andi am :

Hallo!

Google indiziert die Webseite des Bildungsministeriums NRW im gegensatz zur Dortmunder Webseite allerdings. Google indiziert fast 5000 Seiten: http://www.google.de/search?q=site%3Ahttp%3A%2F%2Fwww.schulministerium.nrw.de&btnG=Suche

Die robots.txt erlaubt aber u.a. keinen Zugriff auf Bilddateien
Disallow: /*.jpg$
(Der richtige Befehl hierfür wäre eigentlich:
User-Agent: Googlebot-Image
Disallow: / )

PHP oder asp-Dateien und ein paar Unterverzeichnisse werden ebenfalls blockiert. Eines davon zeigt zu den DPA-Meldungen.

Was aber bedeutet: "Disallow: /*?" ???

Die Seite mit den Stellenausschreibungen ist auch indiziert:
http://www.schulministerium.nrw.de/BP/Lehrer/Stellen/index.html
Mit dem Suchbegriff "stellenangebote schulministerium" hätte man es wohl gefunden. Wäre die Webseite suchmaschinenfreundlich gestaltet hätte man es auch mit "stellenausschreibung ..." finden müssen.

Martin Vogel am :

Mit "Disallow: /*?" sollen alle Seiten blockiert werden, die ein Fragezeichen enthalten, also alle Ergebnisseiten von Datenbankabfragen. Der Googlebot erlaubt etwas komplexere Ein- und Ausschlussformulierungen als andere Bots: http://www.google.com/support/webmasters/bin/answer.py?hl=de&answer=40367

Warum aber nicht einfach in die Metatags der erzeugten Seiten ein "noindex, nofollow" eingesetzt wird, ist im Moment allerdings noch das Geheimnis des Schulministeriums.

Andi am :

Ach so ist das also. Danke für den Hinweis.

Kommentar schreiben

Die angegebene E-Mail-Adresse wird nicht dargestellt, sondern nur für eventuelle Benachrichtigungen verwendet.
Um einen Kommentar hinterlassen zu können, erhalten Sie nach dem Kommentieren eine E-Mail mit Aktivierungslink an ihre angegebene Adresse.

Um maschinelle und automatische Übertragung von Spamkommentaren zu verhindern, bitte die Zeichenfolge im dargestellten Bild in der Eingabemaske eintragen. Nur wenn die Zeichenfolge richtig eingegeben wurde, kann der Kommentar angenommen werden. Bitte beachten Sie, dass Ihr Browser Cookies unterstützen muss, um dieses Verfahren anzuwenden.
CAPTCHA

Standard-Text Smilies wie :-) und ;-) werden zu Bildern konvertiert.
Formular-Optionen