Googlebot und der Caching Proxy

JoJo bloggt gerade über den Google Crawl Caching Proxy und seine Beobachtungen zu schwindenden Seiten. Ob letzteres etwas mit Googles neuem Caching Proxy zu tun hat bleibt unklar, aber die Existenz und die Motivation zu Googles Crawl Caching Proxy wurden soeben von Matt Cutts ausführlich dargelegt.

Überraschen sollte uns so ein Proxy-Cache für Robots nun wirklich nicht. Google hat von jeher versucht, seine Technik bzgl. Geschwindigkeit und Bandbreite zu optimieren. Da ist es nur konsequent, nicht für jede Seitenabfrage einen anderen Robot zu schicken. Ich wundere mich vielmehr, dass es so lange gedauert hat. Die neuen BigDaddy GoogleBots sollen laut Matts Aussage auch die gzip-Kompression (besser) unterstützen. Das hoffe ich doch schwer, immerhin gibt es das gzip-Feature schon seit 2004 beim alten Mozilla5.0 Googlebot.

Ob nun für AdSense, News, Blogsuche oder die Websuche gecrawlt wird, der neue BigDaddy Bot holt sich die Daten, cacht sie mit dem Proxy zwischen und liefert sie entsprechend ihrer Rechte (robots.txt) an den jeweiligen anfragenden Service weiter. Mit Cloaking Detection soll die Sache ursächlich nichts zu tun haben, aber mehr Vorsicht sollten die Cloaker ab jetzt schon walten lassen, denn gefährlicher wird es durch diese Entwicklung wahrscheinlich schon.

2 Gedanken zu „Googlebot und der Caching Proxy“

  1. Die Sache mit den verschiedenen robots.txt finde ich sehr bedenklich. Da droht potentieller duplicate content z.B. in einem gemoddeten Forum mit Adsense, wenn man nicht ebenfalls dem adsense bot die „alten“ URLs verbietet (was haeufig vergessen wird).

    Da Google nicht eindeutig sagt wieviel Bots „live“ sind (und auf welchen UA die in der robots.txt reagieren) finde ich die Geschichte mal wieder sehr heikel. Die Idee ist gut, aber die Umsetzung meiner Meinung nach wieder sehr „Googletypisch“. Naja, was solls. Harren wir der Dinge, die da kommen.

    Antworten

Schreibe einen Kommentar