Es wird immer ein Glückspiel sein, ob ich eine wichtige Domain schnell erkenne, die gerade gelöscht ist. Im Netz sind einige der Ansicht, dass die wirklich wichtigen gelöschten DE-Domains binnen Minuten, wenn nicht gar Sekunden wieder neu registriert sind. Schneller als diese etablierten Spider werde ich wohl nicht sein. Hier ist Hoffnung fehl am Platz.
In einem Blog bin ich heute über die Meinung gestolpert, dass man gute gelöschte Domains nicht über eine DNS-Abfrage, sondern über eine Real-Whois-Abfrage findet. Der Autor ist der Meinung, dass alle Spider über die DNS-Abfrage gehen (was ich aktuell zumindest für meinen bestätigen kann) und man somit das Rennen verlieren wird (siehe auch der vorherige Absatz). Weiter ist er der Meinung, dass man auf Whois-Abfragen setzen sollte, da diese wohl fortlaufend aktualisiert werden, und nicht nur alle zwei Stunden. Ob dies stimmt, weiss ich nicht. Das interessante an der Sache ist jedoch, dass genau die Whois-Abfrage etwas ist, was ich schon vor Jahren für eine Handvoll Domains gemacht habe. Eben bis zu dem Tage, an dem die Denic eine Chapta-Prüfung eingebaut hat. Zudem sind nur ein paar Abfragen pro Tag und pro IP via Whois möglich. Vom Ansatz hat der Autor sicherlich recht. Denke, man könnte hier zweigleisig fahren: Die wichtigsten Domains per Whois, die weniger wichtigen Domains per Massen-DNS-Abfrage.
Ferner war der Autor die Meinung, dass man de/com/net/org-Domains vergessen kann. Zu groß sei die Konkurrenz, die ebenfalls nach diesen Domains auf der Suche ist. Er setze auf andere Top-Level-Domains. Sicherlich ist es da leichter, eine gute Domain zu erwischen. Ungeklärt ist meines Erachtens jedoch, die die Suchmaschinen-Tante reagiert, wenn man eine gute skandinavische Domain plötzlich mit deutschem Text bestückt und auch zu deutschen Domains linkt. Aktuell scheint dies noch kein Problem zu sein. Die „Tante“ scheint sich hier offenbar noch ein wenig „irreführen“ zu lassen. Es dürfte jedoch nur eine Frage der Zeit sein, wann hier Filter anschlagen.
Tag 14: Über 8 Millionen de-Domains
Nachdem seit über einem Tag keine neue Domain mehr in meinen Pool hinzugekommen ist, stand es fest: Mein Grabber muss einen Fehler haben. Nach langem Suchen fand ich den Übeltäter. Doppelte Verneinung und kein unscheinbarer Slash („/“) sorgten dafür, dass keine neue Domain mehr in die Datenbank hinzukam. Ich habe das Problem gefixt und über Nacht stieg die Anzahl der Domains von 76.000 auf über 200.000 an. Allerdings habe ich auch festgestellt, dass sich vermehrt doppelte Domains eingeschlichen haben. Dies kann eigentlich nicht sein, da jeder Insert per StoredProcedure auf das Vorhandensein der Domain zuerst geprüft wird. Es sieht so aus, dass die Datenbank mit den Anfragen nicht mehr hinterherkommt, denn die doppelten Einträge stammen aus der gleichen Sekunde. Daher habe ich im Grabber nun einen eigenen Cache eingebaut. Die letzten zehn Domains werden nun selbst in einer ArrayList gespeichert und zuerst darüber abgeglichen, bevor sie Richtung Datenbank geschickt werden. Der Performance des Grabber schadet dies nicht messbar, die Datenbank ist deutlich entlastet.
Beim googeln bin ich heute über einen alten Artikel aus dem Jahr 2004 gestolpert, in dem es heisst, dass die 8-Millionen-Marke bei de-Domains überschritten wurde.
Also habe ich noch einiges an Spiderarbeit vor mir …
Nachtrag: Der automatisierte Löschvorgang der doppelten Domains hat mal rund 60% der Datenbankeinträge wieder entfernt. Aktuell ist das Problem behoben, die Cache-Funktion entlastet den Datenbankserver enorm. Heute Nacht haben wir die 100.000-Domain-Marke nun wirklich ohne Dupletten überschritten.