Über den "Robots Exclusion Standard" ist es jedem Webseiten-Betreiber möglich, den Zugriff eines Crawlers auf die eigenen Webseiten zu beeinflussen. Dieser Standard legt fest, dass ein Crawler zuerst die Datei "robots.txt" auswertet. Über die darin enthaltenen Regeln kann dieser Crawler dann von bestimmten Website-Bereichen ferngehalten werden. Es ist ebenso möglich, den Crawler von der gesamten Domain auszusperren. Eine genauere Erklärung des Robots Exclusion Standards und dem Umgang mit "robots.txt" Dateien sowie praktische Beispiele findest du bei wikipedia unter Robots Exclusion Standard.
Es ist sehr wichtig, zu verstehen, dass die Anweisungen in der "robots.txt" Datei keinen garantierten Schutz einer Webseite vor dem Zugriff durch Crawler darstellen. Es handelt sich dabei nicht um verpflichtende Regeln, sondern eher um eine Bitte.
Die Website-info.net Webcrawler sind selbstverständlich (auf freiwilliger Basis) so konfiguriert, dass gängige Anweisungen, wie die Sperrung einzelner Dateien oder Verzeichnisse sowie auch die Sperrung der gesamten Domain berücksichtigt werden.
Möchtest du die komplette Website (oder Teile davon) sicher vor sämtlichen Crawlern schützen, so empfiehlt sich der Schutz der Seite durch ein vorgeschaltetes Login.
Um unsere Crawler komplett auszuschließen genügt folgender Eintrag:
User-agent: Website-info.net
Disallow: /
Website-info.netDu kannst die User-Agent-Kennung z.B. in den Logfiles deines Web-Servers finden. Durch die übertragene User-Agent-Kennung können sämtliche Zugriffe eindeutig unseren Webcrawlern zugeordnet (und damit auch nachvollzogen) werden.
Um Beeinträchtigungen auf die Stabilität und Performance Ihrer Internetpräsenzen zu verhindern, sind unsere Webcrawler so konfiguriert, dass zwischen zwei Seitenabrufen stets eine Pause von ca. 1 Sekunde eingehalten wird. Dadurch minimieren wir die durch unsere Crawler entstehende Last. Abhängig von der Anzahl der vorhandenen Seiten kann sich die Crawling-Phase, bedingt durch die Mindestpausen zwischen zwei Zugriffe, jedoch über längere Zeiträume erstrecken. Ein "Hacken" deiner Seite, d.h. das Einbrechen in eigentlich passwortgeschützte Bereiche deiner Webseite, ist den Crawlern nicht möglich, da sie technisch keinerlei Formulare ausfüllen oder gar absenden können.
Ein Zugriff auf vermeintlich geschützte Seiten durch den Crawler deutet darauf hin, dass es einen direkten, nicht passwortgeschützten Link auf diesen Bereich gibt, über welchen der Crawler Zugang gefunden hat.
Nein!
Unsere Crawler wurden weder dazu programmiert, noch sind sie in der Lage, auf dem besuchten Servern irgendeine Art von Schadsoftware zu installieren.