Tag 13: Tag der wenigen Domains
Aktuell werden nur noch wenige Domains gefunden. Verwundert mich ein wenig. War schon auf der Suche nach einem Programmierfehler, den ich aber aktuell ausschließen kann. Denke es liegt daran, dass aktuell durch den Grabber hauptsächlich die verlinkten Domains aufgerufen werden, die nur Backlinks zu den Seiten haben, von denen der Grabber die Domain gefunden hat. Also der klassische 1:1-Link. Aber der Grabber wühlt sich weiter durch und ich habe noch Zeit. Denn die Datenbank mit weitern Domains zu füllen ist nicht das Problem. Momentan möchte ich eher schauen, wie sich die Datenbank selbst füllt. Immer im Hinterkopf: Der Grabber ist einmal von der Domain heise.de gestartet …
Vor einigen Tagen habe ich bereits geschrieben, wie ich zu einigen Domainlisten gekommen bin. Inzwischen hatte ich noch einige weitere Ideen, die ich irgendwann programmtechnisch umsetzen werde. Da sind neben dem Grabben von Webkatalogen / Linklisten natürlich die Keyword-Suche via Google. Die Domains der ersten 10 Google-Seiten sollten natürlich immer im Auge behalten werden. Wobei diese Domains ab einem bestimmten Füllungsgrad der Datenbank bereits in dieser enthalten sein sollte. Zum weiteren Füllen eignet sich auch die automatisierte Generierung der Domains. Es ist bekannt, dass alle dreistelligen DE-Domains bereits vergeben sind. Ich glaube, dass inzwischen auch alle vierstelligen Domains vergeben sind. Also bräuchte man nur einen kleinen Generator schreiben, der alle möglichen Zeichenkombinationen ermittelt. Aber auch hier habe ich Zeit, denn solche Domains sollten so schnell nicht gelöscht werden.
Aktuell mache ich mir noch weitere Gedanken zur Prüfung der Domainverfügbarkeit. Ich bin via Ping zur DNS-Abfrage gekommen. Diese klappt bereits soweit ganz gut. In der Regel werden die DNS-Server der großen Registrare alle zwei Stunden upgedatet. Es macht also Sinn, kurz nach einem Update alle bekannten Domains zu prüfen. Mit der nötigen Maschinenpower durchaus machbar. Vielleicht sollte man hier auch noch auf klassische Webserver setzen. Auch diese könnten die Abfrage durchführen. Bei allen bekannten Webhoster eine kleine Maschine mieten und ab geht die Post. Durch die geteilte Last und die Abfrage über verschiedene IP-Kreise kann so in kürzester Zeit die Domainliste abgefragt werden.
Allerdings stellt sich auch die Frage, ob dies überhaupt sein muss. Es gibt viele Domains, die mich von vorneherein nicht interessieren. Warum Maschinen- und Netzlast für diese Domains verschwenden? Aktuell führe ich eine Domainbewertung erst durch, wenn die Domain als gelöscht gekennzeichnet wurde. Es würde durchaus Sinn machen, die Bewertung durchzuführen, wenn die Domain neu gefunden wird. Gerade wenn nicht mehr tausende von neuen Domains pro Tag hinzukommen, macht dies Sinn. Für die Abfrage wiederum haben dann die Domains Priorität, die schon als wichtig bekannt sind.