Unsere Webcrawler

Unsere Webcrawler durchsuchen das Internet gezielt nach Inhalten zur Weiterverarbeitung. Konkret dienen sie dazu, diese Website mit den Daten zu füllen, die dir hier angezeigt werden. Solltest du Probleme mit einem unserer Webcrawler haben, bietet dir diese Webseite die nötige Hilfe zur Lösung. Selbstverständlich kannst du auch jederzeit persönlich mit uns in Kontakt treten.

Was ist sind bzw. was machen die Webcrawler?

Ein Webcrawler (auch kurz Crawler, Spider, Bot oder Robot genannt) ist ein Computerprogramm, das automatisch das World Wide Web nach Webseiten durchsucht. Der Crawler gelangt dabei über sog. Hyperlinks von einer Website zur Nächsten. Findet der Crawler auf einer Webseite weitere Hyperlinks zu noch nicht von ihm besuchten Webseiten, so werden diese Links gespeichert und zu einem späteren Zeitpunkt zum Besuch der Webseiten verwendet.

Unsere Website-info.net Crawler durchsuchen Websites gezielt nach den Daten, die auf unsere Webseite (website-info.net) angezeigt werden. Diese werden ermitteln und in unserer Datenbank als zur jeweiligen Domain gehörend abgespeichert.

Wie steuere ich die Zugriffe der Website-info.net Webcrawler auf meiner Website?

Über den "Robots Exclusion Standard" ist es jedem Webseiten-Betreiber möglich, den Zugriff eines Crawlers auf die eigenen Webseiten zu beeinflussen. Dieser Standard legt fest, dass ein Crawler zuerst die Datei "robots.txt" auswertet. Über die darin enthaltenen Regeln kann dieser Crawler dann von bestimmten Website-Bereichen ferngehalten werden. Es ist ebenso möglich, den Crawler von der gesamten Domain auszusperren. Eine genauere Erklärung des Robots Exclusion Standards und dem Umgang mit "robots.txt" Dateien sowie praktische Beispiele findest du bei wikipedia unter Robots Exclusion Standard.

Es ist sehr wichtig, zu verstehen, dass die Anweisungen in der "robots.txt" Datei keinen garantierten Schutz einer Webseite vor dem Zugriff durch Crawler darstellen. Es handelt sich dabei nicht um verpflichtende Regeln, sondern eher um eine Bitte.

Die Website-info.net Webcrawler sind selbstverständlich (auf freiwilliger Basis) so konfiguriert, dass gängige Anweisungen, wie die Sperrung einzelner Dateien oder Verzeichnisse sowie auch die Sperrung der gesamten Domain berücksichtigt werden.

Möchtest du die komplette Website (oder Teile davon) sicher vor sämtlichen Crawlern schützen, so empfiehlt sich der Schutz der Seite durch ein vorgeschaltetes Login.

Um unsere Crawler komplett auszuschließen genügt folgender Eintrag:
User-agent: Website-info.net
Disallow: /

Wie kann ich die Website-Info.net Webcrawler identifizieren?

Unsere Webcrawler verstecken sich nicht! Sie übertragen ihre User-Agent-Kennung

Website-info.net

Du kannst die User-Agent-Kennung z.B. in den Logfiles deines Web-Servers finden. Durch die übertragene User-Agent-Kennung können sämtliche Zugriffe eindeutig unseren Webcrawlern zugeordnet (und damit auch nachvollzogen) werden.

Wird die Stabilität oder Sicherheit meiner Website durch die Website-Info.net Webcrawler gefährdet?

Um Beeinträchtigungen auf die Stabilität und Performance Ihrer Internetpräsenzen zu verhindern, sind unsere Webcrawler so konfiguriert, dass zwischen zwei Seitenabrufen stets eine Pause von ca. 1 Sekunde eingehalten wird. Dadurch minimieren wir die durch unsere Crawler entstehende Last. Abhängig von der Anzahl der vorhandenen Seiten kann sich die Crawling-Phase, bedingt durch die Mindestpausen zwischen zwei Zugriffe, jedoch über längere Zeiträume erstrecken. Ein "Hacken" deiner Seite, d.h. das Einbrechen in eigentlich passwortgeschützte Bereiche deiner Webseite, ist den Crawlern nicht möglich, da sie technisch keinerlei Formulare ausfüllen oder gar absenden können.

Ein Zugriff auf vermeintlich geschützte Seiten durch den Crawler deutet darauf hin, dass es einen direkten, nicht passwortgeschützten Link auf diesen Bereich gibt, über welchen der Crawler Zugang gefunden hat.

Hilfe - es passieren allerhand ungeplante Dinge auf meiner Webseite!

Sollten durch das einfache Verfolgen von Links beispielsweise Warenkörbe gefüllt oder Gästebucheinträge abgesendet werden, so ist das ein Zeichen für Schwächen deiner Website. Ein leeres Formular sollte z.B. nicht ohne Weiteres abgeschickt werden können und Aktionen wie das Versenden von Emails auslösen. Zudem können die Website-info.net Crawler nur sog. "GET"- aber keine "POST"-Requests absetzen. Dies sollte aus technischer Sicht immer dazu führen, dass nur Daten der Website gelesen, aber keine Daten an diese übermittelt werden. Bitte beachte unbedingt, dass eine nicht ausreichend abgesicherte Webanwendung auch für jeden Besucher auf deiner Seite die Möglichkeit der Datenveränderung bietet. Es handelt sich in dem Sinne um eine Sicherheitslücke deiner Webseite, die du schnellstens beseitigen solltest.

Können die Website-info.net Webcrawler eine Schadsoftware enthalten?

Nein!

Unsere Crawler wurden weder dazu programmiert, noch sind sie in der Lage, auf dem besuchten Servern irgendeine Art von Schadsoftware zu installieren.