Feinjustierung des Spiders: Zone-Files

Artikel-Anfang verpasst? Zurück zu „Der erste Domain-Spider für mein eigenes Zone-File

Tag 3: Feinjustierung des Spiders
Der Spider hat noch seine Macken. Er versuchte auch Dateien wie PDFs, ZIP-Files und MP3s zu spidern. Dies ist natürlich unnötig. Also ignoriert der Spider diese Links seit heute. Auch gibt es einige Seiten, die dem Spider ein Zeitproblem verschafft haben. Ein Timer kontrolliert den Spider und bricht nun gegebenenfalls den Zugriff auf eine Seite ab.

Tag 4: Start des ersten Ping
Wir kommen zu der Frage, wie wir erkennen, dass eine Domain gelöscht wurde. Darauf habe ich auch noch nicht die eindeutige Antwort. Denke, dass die Lösung im DNS liegt. Heute weiß ich noch nicht, wie genau ich das prüfen soll. Ich fange einmal mit einer einfachen Ping-Prüfung an. Der Gedanke: Ist eine Domain per Ping nicht mehr erreichbar, ist die Domain schon mal ein Grund für eine weitere Prüfung. Vor allem, wenn die Domain in der Vergangenheit auf Pings reagiert hat. Ich werde sehen, wie weit ich damit komme.
Meine Ping-Application geht nun alle bereits vom Spider besuchten Domains durch und pingt diese an. Ist eine Domain nicht erreichbar, ist dies noch kein Grund zur Freunde. Ich erhöhe den Status der Domain und pinge die Domain später erneut an. Ist diese wieder nicht erreichbar, pinge ich später erneut. Ist sie nach ein paar Versuchen immer noch nicht erreichbar, ist dies ein Grund zur Kontrolle.
Sind mehrere Domains hintereinander nicht erreichbar, ist dies ein Grund, die eigene Internet-Verbindung in Frage zu stellen. In diesem Fall stoppt der Pinger eine Weile und probiert später erneut. Hier will ich erreichen, dass der Pinger plötzlich hunderte vom Domains aufgrund einer fehlerhaften Netzverbindung als gelöscht kennzeichnet. Eine ähnliche Sperre habe ich auch beim Spider eingebaut. Erreicht der Spider mehrere Seiten hintereinander nicht, legt er eine Zwangspause ein.

Tag 5: Und es gibt sie doch: Zone-Files
Mein Spider findet tagein, tagaus weitere Domains. Der Pinger muss noch angepasst werden. Er ermittelt sehr viele nicht erreichbaren Domains. Mehr, als eine manuelle Prüfung erlauben. Hier muss nachgebessert werden. Im Internet habe ich heute einige interessante Links zum Thema „Domainlisten“ gefunden. Auch eine weitere Seite, die gelöschte Domains veröffentlich und die meines Erachtens sehr gut ist. Wäre ich früher auf diese Seite gestoßen, hätte ich mir vielleicht die Arbeit hier nicht gemacht. Aber das „Projekt“ ist gestartet ….
Auf drei interessante Links bin ich gestoßen: Eine Firma verkauft eine Liste mit DE-Domains. Kostet Geld. Nicht viel, aber mein Spider arbeitet so gesehen umsonst. Die Liste ist in Teilen zum freien Download erhältlich. Ich habe sie mir einmal heruntergeladen. Vielleicht bestücke ich meine Datenbank noch mit diesen Domains. Natürlich war sehr interessant, ob in dieser Liste auch meine eigenen Domains enthalten sind. Ein paar habe ich darin gefunden.

Hier geht es weiter

Schreibe einen Kommentar