Der erste Domain-Spider für mein eigenes Zone-File

Anfang verpasst? Zurück zu: „Gelöschte Domains: Wie der Spider entstand

Wie geht man so was an?
Nun, ebenso wenig, wie eine Liste über gelöschte Domains zu erhalten ist, gibt es eine Liste der vergebenen DE-Domains. Eine solche Liste, auch Zone File genannt, ist aber die Basis der Prüfung. Wie also so etwas erhalten? Ein Spider programmieren, der damit beginnt, eine Webseite und deren Links auszulesen. Deren Links folgt der Spider und liest die nächste und nächste und nächste Webseite aus. Aus den gewonnenen Daten füllt sich die Domain-Liste automatisch.
Die ersten Versuche habe ich heute in VB6 gemacht. Diese alte Microsoft-Sprache gilt nicht zu unrecht als veraltet, doch die Ergebnisse sind schlank, da sie kein großes Framework benötigen. Die Programme laufen auch auf kleinen virtuellen Maschinen und der Code ist stabil. Die Nasa soll die Software ihrer Raumschiffe noch immer in C bzw. einem Dialekt davon programmieren. Warum? Es läuft sein vielen, vielen Jahren. Die Programmierer keinen die Tücken, da alles ausgiebig getestet ist. Es wäre ein Fiasko, wenn ein Satellit wegen eines Softwarefehler abstürzen würde. Oder ein BlueScreen bei einem bemannten Raumflug …
Doch nach einigen Tests heute Morgen habe ich mich doch für C# entschieden. Hintergrund war, dass ich mit zwei Komponenten in VB6, die den iNet-Zugriff steuern, oftmals auf „Kriegsfuß“ stehe. Auch bei diesem Projekt war das der Fall, so dass ich relativ schnell auf C# umgestiegen bin. Doch dies wird sich sicherlich rächen, denn spätestens bei der Virtualisierung muss ich die hier gewonnene Zeit wieder in ein Vielfaches davon investieren.

Tag 2: Der erste Domain-Spider für mein eigenes Zone-File
Die erste SQL-Datenbank habe ich bereits gestern erstellt. Erst einmal ganz einfach. Eine Tabelle mit einem ID-Feld, einem Feld „Domain“, ein Feld mit einem Timestamp und einem Status-Feld. Nichts weltbewegendes. Es ist schon jetzt klar, dass hier noch weitere Felder hinzukommen werden. Ich stehe auf Projekte, die nicht von vorne komplett durchdacht sind … <g>
Der Spider nimmt langsam Formen an. Er liest die Startseite einer Seite aus, extrahiert die Links daraus und gleicht sie mit seiner Datenbank ab. Ist die Domain neu, trägt er diese in die Datenbank ein. Ich habe mich entschlossen, auch alle Seiten eines Web, die von der Startseite aus verlinkt sind, zu spidern. Ich verspreche mir hier doch noch den ein oder anderen Link. Spidert mein Programm ein Webkatalog o.ä, wäre natürlich eine tiefere Analyse wünschenswert. Doch für 90 Prozent der Seiten, so meine Hoffnung, ist dies in Ordnung.
Für den Spider habe ich als Startdomain die Seite des Heise-Verlages festgelegt. Unter Computerkennern ein beliebtes Portal. Er hat dort eine Masse an Domains gefunden und spidert eifrig vor sich hin. Inzwischen ist er bereits in die Tiefen des Internets abgetaucht und nähert sich den ersten 1.000 Domains.
Per Definition habe ich festgelegt, dass der Spider nur Domains folgenden soll, die eine Top-Level-Domain (TLD) DE, COM, NET und ORG haben. Mehr habe ich selbst nicht im Fokus. Evtl. werde ich diese Restriktion irgendwann noch anpassen.

Weiter geht es hier

Gelöschte Domains: Wie der Spider entstand

Tag 1: Auf der Suche nach gelöschten Domains
Aus SEO-Sicht sind gelöschte Domains oft sehr wertvoll. Viele Domains, die aufgegeben werden, haben durch ihre Verlinkung noch einiges an Besuchern zu bieten. Wertvolle Backlinks, auf die jeder SEO auf der Suche ist, sind vielleicht so für lau zu haben. So kann eine gelöschte Domain schon einmal einen guten Grundstock für ein zukünftiges Projekt sein. Auch die Suchmaschine mit dem „G“ (nennen wir sie mal „die Tante“ ist ein Grund, warum SEOs sich auf gelöschte Domains stürzen. Denn die Tante mag keine neuen Domains. Zumindest keine neue Domains mit altbekanntem Thema. Es halten sich Gerüchte, dass neue Domains mit nicht brandaktuellem Thema sich erst einmal ein Jahr bewähren müssen, bis die Tante die Inhalte der neuen Seite positiv bewertet. Also ein weiterer Grund, weshalb viele mit „gebrauchten Domains“ liebäugeln.
Soviel vorweg. Auch ich schaue täglich, was es neues auf dem „Markt“ gibt. Wo? Nun, es gibt drei oder vier Seiten, die jede Minute weitere gelöschte Domains auflisten. Doch nach vielen Wochen ist mir der Kragen geplatzt: Warum? Nun, alle Domains, die irgendwie „lukrativ“ waren, sind bereits wieder belegt. Der Grund liegt auf der Hand: Nicht nur ich bin auf der Suche nach diesen Domains. Und der Inhaber eines solchen Spiders schaut natürlich als erstes auf die Liste. Das liegt einfach in der Natur der Sache. Was liegt also näher, als seinen eigenen Spider zu programmieren?

Denn im Gegensatz zu anderen Domains gibt es (meines Wissens) keine Möglichkeit direkt nachzulesen, welche Domains gerade gelöscht wurden. Die Denic, die deutsche Verwaltungsstelle der DE-Domains, hüllt sich darüber in Schweigen. Also, wie kommt man dann an die Information? Durch Ausprobieren! Und darin liegt der Vorteil des eigenen Spiders: Da es keine zentrale Liste der gelöschten Domains gibt, „stolpert“ jeder mehr oder weniger zufällig über eine freigewordene Domain. Mit diesem Wissen macht es durchaus Sinn, mehrere Seiten täglich zu prüfen, die gelöschte Domains veröffentlichen. Und bei diesem Studium wird man feststellen, dass die Seiten nicht den gleichen Inhalt ausspucken. Vereinzelt gibt es Überscheidungen, doch jede nach Datenbank trudeln die Ergebnisse auch unterschiedlich ein. Und somit kann ein eigener Spider ein großer Vorteil sein.
Nachdem die Entscheidung gefallen war, kam die Frage nach der richtigen Sprache und Hardware auf. Ist ein solcher Spider in PHP auf einem Webserver zu realisieren oder ist besser, das Ganze lokal anzuhandeln. Für PHP würde einiges sprechen, doch die Belastung des Servers darf nicht unterschätzt werden. Da im Keller ein großer SQL-Server läuft und noch einige virtuelle Clients auf Arbeit warten, ist die Entscheidung schnell auf einen lokalen Spider gefallen.

Weiter geht es hier