Sonntag, 10. März 2013

Webcrawler zur Websitenanalyse

Bei einer gestrigen Besprechung kam das Problem der Website-Wartung, der Behandlung toter Weblinks, des Aufspürens inzwischen falscher E-Mail-Adressen und - ich ergänze - defekter (Bild–)Dateien auf die Tagesordnung. Das Problem scheint „ungelöst“, jedenfalls wenn man dem Wikipedia-Artikel zu „Toten Weblinks“ glauben darf.

Erste Überlegungen

Ich hatte mir gestern überlegt an drei Stellen ansetzen zu können:
  1. Datenbank-Dump zur Website als CSV-Datei oder als SQL-Datei.
    Vorteil: Die Prüfung erfasst alle Seiten und nicht nur die, die öffentlich zugänglich sind, sondern auch die, die einst zugänglich waren und vielleicht noch von jemandem über ein Lesezeichen besucht werden.

    Nachteil: Per Hand muss zunächst ein Datenbank-Dump erzeugt werden. 
  2. Website im Laufenden Betrieb parsen.
    Vorteil: Ich erfasst die vollständig zugängliche Website und brauche keinen Datenbankzugriff.
    Nachteil: Einige Seiten werden übersehen.
  3. Ich generiere spezielle 404-Seiten, die eine Meldung per E-Mail an den Webadmin absetzen und zeitnah über einen möglichen Fehler der Seite informieren.
Tja.

Ausgabe eines Protokolls
Prüfung der Bilddateien auf dem Rechner
Prüfung der E-Mail-Adressen durch Test-E-Mail und Information an den Empfänger.
Prüfung der Links über Protokoll (Liste) zur manuellen Prüfung und automatischen Prüfung über Test auf 404- oder weitere Fehlerseiten...

2 Kommentare:

  1. Zu 3.: Da könnte man auch regelmässig das Zugriffsprotokoll des Webservers auswerten wo die 404-Antworten protokolliert werden. Selbst etwas in der Webanwendung zu machen ist nur nötig wenn man „soft 404”s in der Anwendung hat, also solche bei denen zwar der Status 200 zurückgegeben wird, der Anwender in der ausgelieferten Webseite aber trotzdem über eine nicht vorhandene Ressource informiert wird.

    Crawler um tote Links aufzuspüren gibt es ja bereits, die werden interessanterweise nicht im deutschen Wikipediaartikel zu diesem Thema erwähnt.

    AntwortenLöschen
  2. Danke dir für deinen zahlreichen Kommentare. Es wird etwas dauern, bis ich mir das wieder ansehen kann. Ich habe hier jetzt längere Zeit nicht mehr in den Blog reingeschaut - und deine Kommentare erst gerade wahrgenommen - und auch länger nicht mein Mailprogramm kontrolliert. Da waren etliche Mails eingelaufen. Dauert jetzt etwas...

    AntwortenLöschen