Über 8 Millionen de-Domains

Anfang verpasst?

Es wird immer ein Glückspiel sein, ob ich eine wichtige Domain schnell erkenne, die gerade gelöscht ist. Im Netz sind einige der Ansicht, dass die wirklich wichtigen gelöschten DE-Domains binnen Minuten, wenn nicht gar Sekunden wieder neu registriert sind. Schneller als diese etablierten Spider werde ich wohl nicht sein. Hier ist Hoffnung fehl am Platz.
In einem Blog bin ich heute über die Meinung gestolpert, dass man gute gelöschte Domains nicht über eine DNS-Abfrage, sondern über eine Real-Whois-Abfrage findet. Der Autor ist der Meinung, dass alle Spider über die DNS-Abfrage gehen (was ich aktuell zumindest für meinen bestätigen kann) und man somit das Rennen verlieren wird (siehe auch der vorherige Absatz). Weiter ist er der Meinung, dass man auf Whois-Abfragen setzen sollte, da diese wohl fortlaufend aktualisiert werden, und nicht nur alle zwei Stunden. Ob dies stimmt, weiss ich nicht. Das interessante an der Sache ist jedoch, dass genau die Whois-Abfrage etwas ist, was ich schon vor Jahren für eine Handvoll Domains gemacht habe. Eben bis zu dem Tage, an dem die Denic eine Chapta-Prüfung eingebaut hat. Zudem sind nur ein paar Abfragen pro Tag und pro IP via Whois möglich. Vom Ansatz hat der Autor sicherlich recht. Denke, man könnte hier zweigleisig fahren: Die wichtigsten Domains per Whois, die weniger wichtigen Domains per Massen-DNS-Abfrage.
Ferner war der Autor die Meinung, dass man de/com/net/org-Domains vergessen kann. Zu groß sei die Konkurrenz, die ebenfalls nach diesen Domains auf der Suche ist. Er setze auf andere Top-Level-Domains. Sicherlich ist es da leichter, eine gute Domain zu erwischen. Ungeklärt ist meines Erachtens jedoch, die die Suchmaschinen-Tante reagiert, wenn man eine gute skandinavische Domain plötzlich mit deutschem Text bestückt und auch zu deutschen Domains linkt. Aktuell scheint dies noch kein Problem zu sein. Die „Tante“ scheint sich hier offenbar noch ein wenig „irreführen“ zu lassen. Es dürfte jedoch nur eine Frage der Zeit sein, wann hier Filter anschlagen.

Tag 14: Über 8 Millionen de-Domains
Nachdem seit über einem Tag keine neue Domain mehr in meinen Pool hinzugekommen ist, stand es fest: Mein Grabber muss einen Fehler haben. Nach langem Suchen fand ich den Übeltäter. Doppelte Verneinung und kein unscheinbarer Slash („/“) sorgten dafür, dass keine neue Domain mehr in die Datenbank hinzukam. Ich habe das Problem gefixt und über Nacht stieg die Anzahl der Domains von 76.000 auf über 200.000 an. Allerdings habe ich auch festgestellt, dass sich vermehrt doppelte Domains eingeschlichen haben. Dies kann eigentlich nicht sein, da jeder Insert per StoredProcedure auf das Vorhandensein der Domain zuerst geprüft wird. Es sieht so aus, dass die Datenbank mit den Anfragen nicht mehr hinterherkommt, denn die doppelten Einträge stammen aus der gleichen Sekunde. Daher habe ich im Grabber nun einen eigenen Cache eingebaut. Die letzten zehn Domains werden nun selbst in einer ArrayList gespeichert und zuerst darüber abgeglichen, bevor sie Richtung Datenbank geschickt werden. Der Performance des Grabber schadet dies nicht messbar, die Datenbank ist deutlich entlastet.
Beim googeln bin ich heute über einen alten Artikel aus dem Jahr 2004 gestolpert, in dem es heisst, dass die 8-Millionen-Marke bei de-Domains überschritten wurde.
Also habe ich noch einiges an Spiderarbeit vor mir …

Nachtrag: Der automatisierte Löschvorgang der doppelten Domains hat mal rund 60% der Datenbankeinträge wieder entfernt. Aktuell ist das Problem behoben, die Cache-Funktion entlastet den Datenbankserver enorm. Heute Nacht haben wir die 100.000-Domain-Marke nun wirklich ohne Dupletten überschritten.

Tag der wenigen Domains

Anfang verpasst?

Tag 13: Tag der wenigen Domains
Aktuell werden nur noch wenige Domains gefunden. Verwundert mich ein wenig. War schon auf der Suche nach einem Programmierfehler, den ich aber aktuell ausschließen kann. Denke es liegt daran, dass aktuell durch den Grabber hauptsächlich die verlinkten Domains aufgerufen werden, die nur Backlinks zu den Seiten haben, von denen der Grabber die Domain gefunden hat. Also der klassische 1:1-Link. Aber der Grabber wühlt sich weiter durch und ich habe noch Zeit. Denn die Datenbank mit weitern Domains zu füllen ist nicht das Problem. Momentan möchte ich eher schauen, wie sich die Datenbank selbst füllt. Immer im Hinterkopf: Der Grabber ist einmal von der Domain heise.de gestartet …
Vor einigen Tagen habe ich bereits geschrieben, wie ich zu einigen Domainlisten gekommen bin. Inzwischen hatte ich noch einige weitere Ideen, die ich irgendwann programmtechnisch umsetzen werde. Da sind neben dem Grabben von Webkatalogen / Linklisten natürlich die Keyword-Suche via Google. Die Domains der ersten 10 Google-Seiten sollten natürlich immer im Auge behalten werden. Wobei diese Domains ab einem bestimmten Füllungsgrad der Datenbank bereits in dieser enthalten sein sollte. Zum weiteren Füllen eignet sich auch die automatisierte Generierung der Domains. Es ist bekannt, dass alle dreistelligen DE-Domains bereits vergeben sind. Ich glaube, dass inzwischen auch alle vierstelligen Domains vergeben sind. Also bräuchte man nur einen kleinen Generator schreiben, der alle möglichen Zeichenkombinationen ermittelt. Aber auch hier habe ich Zeit, denn solche Domains sollten so schnell nicht gelöscht werden.
Aktuell mache ich mir noch weitere Gedanken zur Prüfung der Domainverfügbarkeit. Ich bin via Ping zur DNS-Abfrage gekommen. Diese klappt bereits soweit ganz gut. In der Regel werden die DNS-Server der großen Registrare alle zwei Stunden upgedatet. Es macht also Sinn, kurz nach einem Update alle bekannten Domains zu prüfen. Mit der nötigen Maschinenpower durchaus machbar. Vielleicht sollte man hier auch noch auf klassische Webserver setzen. Auch diese könnten die Abfrage durchführen. Bei allen bekannten Webhoster eine kleine Maschine mieten und ab geht die Post. Durch die geteilte Last und die Abfrage über verschiedene IP-Kreise kann so in kürzester Zeit die Domainliste abgefragt werden.
Allerdings stellt sich auch die Frage, ob dies überhaupt sein muss. Es gibt viele Domains, die mich von vorneherein nicht interessieren. Warum Maschinen- und Netzlast für diese Domains verschwenden? Aktuell führe ich eine Domainbewertung erst durch, wenn die Domain als gelöscht gekennzeichnet wurde. Es würde durchaus Sinn machen, die Bewertung durchzuführen, wenn die Domain neu gefunden wird. Gerade wenn nicht mehr tausende von neuen Domains pro Tag hinzukommen, macht dies Sinn. Für die Abfrage wiederum haben dann die Domains Priorität, die schon als wichtig bekannt sind.

Hier geht es weiter

76.000 Domains und ein paar kleinere Programmfehler

Anfang verpasst?

Die Ruhe kann ich auch anhand meiner Daten nachweisen. Von den 52.000 Domains in meiner Datenbank waren nur drei (!) Domains korrekt per Punycode kodiert. Rund 20 Domains waren mit Umlauten erfasst (und von meinem Spider fälschlicherweise als gelöscht gekennzeichnet). Also vielleicht 25 Umlautdomains auf 52.000 Domains im Gesamten. Dies zeigt den Beliebtheitsgrad der Umlautdomains, zumal gerade im deutschen Sprachraum Umlaute durchaus häufig auch in Domainnamen vorkommen.
Auch wenn der prozentuale Anteil extrem niedrig ist, musste ich meinen Spider anpassen. Die Umrechnung in Punycode ist nachvollziehbar, aber auch nicht gerade trivial. So war ich eher auf der Suche, ob es schon fertige dll´s oder Klassen gibt, die diese Arbeit korrekt erledigen. Und in der Tat habe ich schnell was für VB6 gefunden. Ärgerlich, denn ich habe mich ja für C# entschieden. Aber ein wenig weiter googeln und auch hier wurde Freeware gefunden. So konnte ich die vorhandenen Domains schnell umrechnen. Die neu gefundenen Domains werden nun automatisch richtig in der Datenbank abgelegt.

Tag 12: 76.000 Domains und ein paar kleinere Programmfehler
Es ist das Wochenende vergangen. Nun stimmen die Tage im Titel nicht mehr mit den wirklichen Kalendertagen überein. Ist nun mal so von mir bestimmt.
Inzwischen tummeln sich über 76.000 Domains in der Datenbank. Ein wenig beachtlich, denn ich habe nach wie vor noch keine Datensätze importiert. Diese stammen nur vom Grabber. Allerdings macht mir der Grabber dahingehend Sorgen, als dass sich dieser als „Nadelöhr“ herauskristalisiert hat. Er hat noch nicht einmal zehn Prozent der aktuell in der Datenbank befindlichen Domains besucht. Dass der Grabber durch die Aufgabe, auch alle Links von der Startseite zu besuchen, durchaus beschäftigt sein wird, lag auf der Hand. Auch habe ich immer damit gerechnet, ihn einmal auf mehreren Maschinen laufen zu lassen. Doch dass er derart „hinterherhinkt“, muss ich im Auge behalten.
Über das Wochenende wurde noch einige kleinere Bugs in den Programmen gefixed. Unter anderem hat die Punycode-Umrechnung bei Deeplinks zu Problemen geführt. Wenn Zeichen wie „?“ oder „=“ in der URL vorkamen, hat die DLL einen Fehler zurückgegeben. Also musste ich die eigentliche Domain aus der URL herauslösen, umrechnen und die URL neu zusammensetzen. Die DLL hätte dies sicherlich schon von alleine erledigen können, doch sie ist Freeware und darüber sind wir dankbar. Es fällt einem hier das Sprichwort vom „Geschenkten Gaul“ ein …
Der Gedanke, dass auch eine gelöschte Domain wieder konnektiert wird, liegt ja auf der Hand. Bisher habe ich diese Domains aus der weiteren Überprüfung herausgenommen. Am Wochenende habe ich eine spezielle Prüfung dieser Teilmenge hinzugefügt. Aktuell wird bei Start des „Pingers“ diese Menge zuerst abgefragt. Habe mich für diese Lösung entschieden, da geplant ist, dass das Programm auf einem V-Server in Betrieb zu nehmen. Die Maschine wird normalerweise einmal am Tag gebootet. Somit würde diese Prüfung auch nur einmal pro Tag ausgeführt. Ob das in der Praxis langt, oder ob die Prüfung der bereits gelöschten Domains nicht mit der Prüfung der restlichen Domains durchgeführt wird, das werden wie weiteren Tage zeigen.

Hier geht es weiter

Umlaut-Domains

Anfang verpasst?

Kommen wir zum fünften Punkt, den Backlinks. Beim Start dieses Projektes habe ich mit dem Gedanken gespielt, die Links einer Seite, die ich ja bereits ermittle, dauerhaft in einer Datenbank zu speichern. Somit hätten wir ein eigenes Backlinkverzeichnis. Jedoch stellt sich die Frage, welchen Sinn das macht. Denn die Tante bewertet die Domains und mein Spider hat auf jeden Fall eine abweichende Datenbank. Ich bin von dem Gedanken abgekommen und bereue ihn aktuell noch nicht.

Für mich gibt es aktuell drei Backlinkquellen: Google (‚link:domain.tld’), wobei dort sehr wenig Daten zurückkommen, Alexa.com und den Yahoo Site Explorer. Interessanter Weise liefert keiner ein Ergebnis, das man als „umfassend“ oder als „alleine ausreichend“ bezeichnen kann. Ich werde in den kommenden Tagen den Pinger dahingehend anpassen, dass er die Links einer gelöschten Domain von allen drei Seiten ermittelt und auch in einer Datenbank ablegt. In Anlehnung an den wirklich guten Backlinkchecker von x4d.de könnte man dann die Backlinks prüfen. Also alle Seiten aufrufen und erst einmal prüfen, ob der Link auch wirklich noch vorhanden ist. Dann könnte man den PR der linkenden Domain prüfen. Und dann könnte man die Links bewerten, so wie es x4d.de bereits macht. Schön wäre es, wenn man natürlich auf die Daten von x4d zurückgreifen könnte, doch die Jungs haben ja nicht umsonst ihrem Backlinkchecker ein Chapta spendiert. Also muss eine eigene Berechnung her.

Tag 11: Umlaut-Domains
Jetzt ist Zeit, einmal kurz die vergangenen Tage revue passieren zu lassen. Ich weiss nicht, ob ich dieses Projekt heute noch einmal starten würde, denn durch das Auffinden einer anderen Seite, die hervorragende Ergebnisse liefert, wäre heute der Aufwand nicht mehr gerechtfertigt. Doch das Projekt wurde gestartet und wird auch zu Ende gebracht. Aktuell tummeln sich über 52.000 unterschiedliche Domains in der Datenbank. Rund 450 Domains hat mein Tool aus gelöscht gekennzeichnet. Diese Zahl finde ich recht hoch, denn alle gelöschten Domains haben noch einen „verwaisten“ Backlink, sonst hätte mein Spider die Domain ja nicht gefunden. Denn ich habe bis heute noch keine Domainliste hinzugefügt. Bei der Kontrolle der gelöschten Domains ist aufgefallen, dass mein Spider über die Umlautproblematik gestoßen ist.
Kurze Erläuterung: Domains, die Umlaute beinhalten, müssen per sogenannten „Punycode“ kodiert werden. Mehr darüber ist bei heise nachzulesen. Das Ergebnis einer solchen Umrechnung ist beispielsweise bei der Domain „käse.de“ ein „xn--kse-qla.de“. Das heißt, wenn der User „käse.de“ im Browser eintippt, wird automatisch die Domain „xn--kse-qla.de“ gesucht. Ich erinner mich an ein Forumartikel in einem SEO-Board in dem es darum ging, wie der Link zu einer solchen Domain lauten muss. Mit Umlaut oder ohne. Der eigentliche Link sollte Punycode-kodiert sein. Andernfalls läuft man die Gefahr, dass der Link nicht richtig funktioniert. Allerdings ist nicht zweifelsfrei geklärt, ob die Suchmaschinen-Tante das Keyword „käse“ auch richtig interpretiert, was aus SEO-Gesichtspunkten ja enorm wichtig ist. Dies ist mit ein Grund, warum bei Umlautdomains nach einem kurzen Hype inzwischen gelassene Ruhe eingekehrt ist.

Hier geht es weiter

Probleme mit Umlaut-Domains; Ernüchterung bei Alexa.com

Anfang verpasst?

Tag 10: Probleme mit Umlaut-Domains; Ernüchterung bei Alexa.com
Bei der Durchsicht der gefundenen gelöschten Domains fallen zwei Dinge auf: Massenweise com, net und org-Domains, die angeblich gelöscht sind sowie deutsche Umlautdomains. Im ersten Falle handelt es sich um den „Expiring Domains“-Status. Darum muss ich mich noch kümmern. Erste Tests über Whois habe ich bereits gemacht und werde darüber zeitnah berichten. Die Umlautdomains machen mir eher Sorgen. Dazu muss ich noch eine ausgiebige Analyse machen.
Kommen wir zurück zu Alexa.  Hier hat sich die Euphorie von gestern ein wenig gelegt. Die Webservice von Amazon sind super, keine Frage. Die Technik ist gut und stabil, die Preise moderat. Doch um alle Informationen, die ich gerne hätte, abzuholen, benötige ich vier kostenpflichtige Aufrufe. Und das stört mich, zumal ich mit einem kostenlosen Aufruf über die Webseite alle Informationen auf einen Blick habe. Lediglich der dmoz.org-Eintrag erfahre ich nicht. Aber den kann ich ebenfalls kostenlos direkt erfragen. Auch das Thema Backlinks hat sich nach weiteren Tests als bedeutungslos herausgestellt. Die bei Alexa.com angezeigten Backlinks bilden in keinster Weise einen tatsächlichen Spiegel ab. Ich kann es kurz machen: Das Thema Amazon-Cloud wurde ad acta gelegt. Ich programmiere heute einen Direktaufruf via alexa und dmoz. So komme ich kostenfrei an alle Daten.
So, der DMOZ-Aufruf ist fertig gestellt. Langsam nähere ich mich dem Ende. Zumindest dem Vorläufigen. Wenn das jetzt alles soweit läuft, habe ich genau den Stand, den die anderen Portale auch bieten. Also zehn Tage Arbeit für nicht? Nicht ganz, denn einerseits wieder einiges gelernt, andererseits eben den Vorteil, durch die eigene Datenbank einen entscheidenden Vorteil zu haben. Und natürlich ist jetzt der Zeitpunkt gekommen, die nächsten Schritte zu planen:

  • Das Thema Expiring Domains muss dringend angegangen werden.
  • Umlaut-Domains müssen bereinigt werden
  • Die Qualität einer Domain muss noch bewertet werden

Einige Gedanken zum Thema Qualität der Domain: Meines Erachtens sind es viele Faktoren, die eine Domain wertvoll machen. Das gewünschte Keyword im Domainnamen ist ein Punkt. Nicht wirklich ausschlaggebend, aber doch schön, wenn vorhanden. Das Alter der Domain, also der Eintrag bei archive.org und ein Alexa-Ranking sind ebenfalls Punkte, auf die ich Wert lege. Welchen Alexa-Rang ist mir egal. Wenn er vorhanden ist, ist das ein weiterer positiver Punkt. Ebenso wie ein Eintrag bei archive.org. Gleichwertig sehe ich einen Eintrag bei dmoz.org. Sehr schön, wenn bereits vorhanden. Also haben wir bereits vier Faktoren, die den Wert für mich bestimmen. Alle vier sehe ich mal als gleichwertig an.

Hier geht es weiter

Was Alexa kann, kann die Tante auf jeden Fall

Anfang verpasst?

Das Portal wurde von Amazon übernommen. Die Ranking-Daten sind nun über einen Amazon Web Service abrufbar. Allerdings nicht für lau. Die Kosten sind allerdings überschaubar und ich habe mich heute für den Webservice angemeldet. Meine Kreditkarte wird schon nicht zu glühen anfangen, hoffe ich. Spätestens beim Studium der API wird ersichtlich, warum ich auf diesen kostenpflichtigen Webservice setze: Denn der Webservice liefert durchaus einiges an Daten, die für mich interessant sind. Neben dem Ranking kommen noch bis zu drei Kategorien aus dem DMOZ-Verzeichnis (siehe Tag 5) mit. Bedeutet, ich muss die Daten nicht manuell pflegen, sondern kann mich nun auf die Abfrage hier stützen. Ferner bringt die API die Felder „Keywords“, „OwnedDomains“, „LinksInCount“ und „SiteData“ mit. Die Keywords sind sicherlich interessant. Decken sich diese mit den Keywords, die ich für die neue Seite vorhabe, kann dies ein Vorteil sein. Auch die SiteData, also der Titel und die Beschreibung der Seite sind vielleicht ein Kriterium. Das sind alles Daten, die ich hätte selbst über meinen Spider hätte ermitteln können, doch wenn mir der Webservice diese Daten liefert, dann nehme ich doch gerne. Auch selbst zu ermitteln sind die Daten des Feldes „OwnedDomains“. Hier kommt eine Liste mit Domains zurück, die dem gleichen Besitzer der Seite gehören. Dies ist ebenfalls ein Kriterium, auf das die Tante schaut. Zumindest munkelt man dies. Bis heute habe ich dem nicht so arg viel Ermessen eingeräumt. Ich werde nun die Daten hier analysieren und man schauen, ob es Überraschungen gibt. Eines ist auf jeden Fall sicher: Was Alexa kann, kann die Tante auf jeden Fall (und vielleicht noch besser). Ich werde sicherlich darauf noch zurückkommen. Als letzten sehr interessanten Wert sehe ich noch den „LinksInCount“ an, also die Anzahl Links, die auf die Domain linken. Diesen Wert finde ich extrem wichtig, denn die Tante wird daraus (und vielen, vielen weiteren Werten) die Qualität der Domain bemessen. Ich gehe mal davon aus, dass dieser Wert von Alexa selbst ermittelt wird. Die Erfahrung zeigt, dass eine Ermittelung der Backlinks bei drei verschiedenen Diensten auch drei verschiedene Zahlen offenbart. Dies liegt daran, dass jeder Spider wieder seine eigenen Gesetze hat. Allerdings verlassen sich viele auf den Yahoo Site Explorer. Ich plane beide Werte zu ermitteln. Eine Gegenüberstellung beider Zahlen dürfte sehr interessant sein. Ach ja, falls jemand die Frage hat, warum man sich hier nicht auf google verlässt: Der Suchmaschinengigant geizt mit diesen Informationen. Der Crawler kennt mehr Links auf eine Seite, als er anzeigt. Dies ist Politik des Konzerns. Vielleicht könnte man aus der genauen Liste zu große Rückschlüsse auf den Suchalgo ziehen.

Hier geht es weiter

Domain-Alter über archive.org hinzugefügt

Anfang verpasst?

Tag 8: Domain-Alter über archive.org hinzugefügt
Der Spider lief über das Wochenende sehr stabil. Knapp 30.000 Domains wurden inzwischen gefunden. Kleinere Anpassungen wurden vorgenommen. Auch der Pinger läuft stabil. Bis heute Nacht. Da haben beide Programme ein „Freez“ erfahren. Warum ist mir noch nicht klar. Ein Neustart der Applikationen hat das Problem erst einmal behoben. Aussitzen ist erst mal die Devise. Vielleicht tritt das Problem ja nicht mehr auf. Doch meistens ist dies nicht der Fall.
Heute wurde der Ping-App ein Zugriff auf archive.org hinzugefügt. Da der Tante bekanntermaßen „alte“ Domains wichtig sind, kann das Datum aus Archive.org wichtig sein. Denn es gibt nirgendwo eine Möglichkeit, das genau „Domainalter“ zu ermitteln. Das Vorhandensein einer Seite bei archive.org ist immerhin ein „Näherungswert“. Diesen Wert prüft der Pinger nun und fügt, sofern vorhanden, der nicht erreichbaren Domain hinzu.
Kleiner Ausflug in die Vorgehensweise von archive.org: Dieser Dienst existiert im Internet schon lange. Es handelt sich bei der „Wayback Machine“ selbst um einen Spider, der Seiten im Internet besucht und den Inhalt der Seiten speichert. Nach deutschem Recht vielleicht gar nicht so legal. Wie auch immer. Findet der Spider beim nächsten Besuch eine geänderte Seite vor, speichert er die Seite erneut. Der Vorteil von archive.org ist, dass alle Stände im Nachhinein ersichtlich sind. So kann sich beispielsweise prüfen lassen, welchen Content eine Seite im Februar 2000 hatte. Wer sich mit der Seite beschäftigt wird feststellen, dass nicht jede Domain und auch nicht jeder Stand dort vorhanden ist. Wann die Seite und nach welchen Kriterien die Inhalte speichert, das ist das Geheimnis dieses Spiders. Der gemeine SEO geht einfach davon aus, dass wenn eine Seite dort gespeichert wurde, also die Seite für das Archiv interessant war oder ist, dann gilt dies auch für die Tante. Nach diesem Gedanken ist eine Domain, die dort seit Jahren auftaucht, also durchaus interessanter, als eine ohne diese Verewigung.
Heute Abend werde ich mich weiter mit den Alexa-Daten beschäftigen. Darüber hoffentlich morgen mehr. Hier zeigt sich auf jeden Fall, dass das setzen auf C# durchaus nicht falsch war. Denn wieder einmal sind Codebeispiele in PHP und C# erhältlich. Nicht, dass man das nicht auf VB6 hätte umschreiben können, doch es erspart enorm viel Zeit, wenn der Zugriff bereits als Code vorliegt.

Tag 9: Alexa Ranking – oder mein Tag mit Alexa
Erst einmal einiges Vorweg zur Alexa: Bei alexa.com handelt es sich um ein Portal, das einige Informationen über eine Domain zur Verfügung stellt. Unter anderem gibt es den „Alexa-Rank“, einen Wert, der Domains miteinander wertet. Je kleiner der Wert, umso besser. Hat eine Domain keinen Wert, ist dies eher schlecht. Wirklich? Nun, Alexa versucht den Traffic einer Webseite zu ermitteln. Und dies hauptsächlich über die eigene Toolbar. Heisst also, ein User muss die Toolbar installiert haben, damit Alexa den Zugriff auf eine Seite messen kann. Ein Zugriff von einem Rechner ohne die Toolbar fließt dann nicht in das Ranking ein. Diese bedeutet, dass das Alexa-Ranking mit Vorsicht zu genießen ist. Ein hohes Ranking kann positiv sein. Wird eine Domain mit hohem Alexa-Ranking beispielsweise verkauft, würde ich mich nie alleine auf diesen Wert stützen. Denn das Ranking ist relativ leicht zu manipulieren. Doch in die Gesamtbewertung einer Domain kann das Ranking durchaus einfließen.

Hier geht es weiter

Tag des PageRank

Anfang verpasst?

Tag 6: Tag des PageRank
Der PageRank ist ein Kriterium, auf den viele SEOs Wert legen. Die Berechnung des Google-Pagerank (PR) kann hier nachgelesen werden.
Ich möchte an dieser Stelle keine Diskussion über die Wertigkeit des PR beginnen. Ob Sinn oder Unsinn, ob früher sinnvoll und heute nicht mehr: All diese Meinungen sind im Netz vertreten. Ich für meinen Teil schaue mir schon den PR einer Seite an. Wenn man dazu die Backlinks einer Seite vergleicht, kann man daraus schon ein wenig über die Seite bzw. die Domain sagen. Von daher sind die Anzahl der Backlinks und der PR ein weiterer Parameter bei der Domainbewertung.
Der PR kann über die Google-Toolbar ermittelt werden. Automatisiert hat mich dies schon ein wenig auf die Probe gestellt, da ich lange keine freien Webservice gefunden habe, der mir den PR liefert. Wenn man die Angaben des PR einer Domain auf vielen Webseiten vergleicht, wird man feststellen, dass dieser durchaus nicht immer gleich ist – obwohl dies so sein müsste, denn den PR einer Seite legt die Tante fest.
Ich stütze mich seit heute auf einen Webservice aus Holland. Die Daten erscheinen mir bisher plausibel. Ich werde sehen, ob ich hier noch nachbessern muss. Vor allem weiß ich noch nicht, wie ich einen „nicht validen PR“ erkennen soll. Ich habe ja noch Zeit …

http://www.database-search.com/sys/pre-check.php
http://www.heise.de/tp/r4/artikel/19/19401/1.html
http://www.hp-profi.info/pagerank/pagerank-spiegeln.php

Bis heute ist noch nicht klar, ob ich die Daten der gelöschten Domains alleine für mich nutzen werde, oder ob ich die Daten öffentlich bereitstelle. Dies wird die Zeit zeigen …

Tag 7: Ping vs. DNS-Server-Abfrage
Meine Idee zu Anfangs, dass ein Ping auf eine Domain erst einmal langt, hat sich in der Praxis als wenig zufriedenstellend herausgestellt. Zu viele Domains waren nicht mehr pingbar, aber noch registriert. Also musste dieser Programmteil auf eine ordentliche DNS-Abfrage umgestellt werde. Gibt ein DNS-Server „nxdomain“ zurück, kann davon ausgegangen werden, dass die Domain nicht registriert ist. Eine solche Abfrage habe ich realisiert und eingebaut. Nun ist die Ergebnismenge der gelöschten Domains wesentlich kleiner – und diese Domains sind bei einer Überprüfung in der Tat frei.
Aktuell plagt mich noch ein Problem. Ich prüfe die Domains über den DNS-Server meines lokalen Internet-Providers. Diese Daten können natürlich schon bis zu 24h alt sein. Es macht sicherlich Sinn, den DNS-Server des TLD-Anbieters abzufragen, denn dieser sollte zuerst wissen, dass eine Domain gelöscht wurde. Also beispielsweise bei de-Domains den DNS-Server der Denic. Prinzipiell kein Problem, sollte man meinen. Aktuell liefert mir jede Anfrage einen Fehler. Hier muss ich noch einmal darüber schlafen. Bekanntlich gibt’s „manchen der Herr im Schlaf“ …

Hier geht es weiter

DMOZ-Links und Wiki-Links auch erhältlich

Anfang verpasst?

DMOZ-Links ebenfalls erhältlich
Etwas überrascht war ich, dass der Inhalt des DMOZ-Webkataloges ebenfalls per Download erhältlich ist. Kleiner Ausflug: Beim dmoz.org-Katalog handelt es sich um einen alten Webkatalog, der ausschließlich manuell gepflegt wird. Eine Aufnahme dort ist aus meiner Erfahrung gar nicht so einfach. Die Qualität der Inhalte wiederum ist auch fragwürdig. Es heißt in SEO-Kreisen, dass sich die Tante und andere Suchmaschinen bei der Bewertung einer Domain durchaus auf die Aufnahme bei dmoz.org stützen. Soll heißen, wenn eine Domain durch die (strenge) Kontrolle der dmoz-Community gekommen ist, sind die Inhalte wichtig oder einzigartig. Dies ist dann ein Pluspunkt, den die Suchmaschinen bei der automatischen Bewertung einer Domain hinzuziehen. In wieweit dies heute noch der Fall ist: Wer weiß. Als kleine Regel kann gelten: Eine Domain bei dmoz.org anmelden ist sicherlich keine Zeitverschwendung. Wenn sie dort nicht aufgenommen wird, ist dies auch kein Beinbruch. Denn auch Domains, die nicht bei dmoz gelistet sind, können bei der Tante auf den vorderen Plätzen stehen. Bei der Auswahl einer gelöschten Domain wiederum ist der Eintrag bei dmoz durchaus ein Qualitätskriterium. Ist der Eintrag nämlich vorhanden, erspare ich mir diesen.
Um wieder auf meinen Spider zurückzukommen: Ich weiss noch nicht, wie ich mit diesen Daten umgehe. Füge ich sie einfach meinen Domains dazu oder lasse ich die Daten in einer separaten Tabelle? Durch letzteres würde ich mir einen eigenen Zugriff auf die Seite ersparen, da ich direkt über meine SQL-Tabelle nun nachschauen kann, ob die Domain im Webverzeichnis gelistet ist. Bedeutet aber auch, dass ich prüfen muss, ob ein Update vorhanden ist, da ich sonst vielleicht veraltete Daten habe. Und so was gerät oftmals in Vergessenheit.

Wiki-Links auch erhältlich
Auch die Links der freien Enzyklopädie Wikipedia sind per Download erhältlich. Die Files sind groß und wenn man daraus die reinen (und einzigartigen) Domains extrahiert, legt sich die Vorfreude. Ein Kriterium zur Domainbewertung kann dies jedoch schon sein. Denn wenn eine Domain bei Wikipedia genannt ist, sollte dies schon Traffic bringen. Die Tante selbst dürfte den Link aus PR-Sicht nicht bewerten, da Wikipedia die Links „nofollow“ stellt. Doch ein Link ist ein Link.

Der Tag heute war durchaus erfolgreich. Drei Listen aus dem Netz gezogen und auch schon hübsch aufbereitet. Zwar noch nicht auf den Datenbankserver eingespielt, da ich noch nicht genau weiß, wie ich mit den Daten umgehe, doch ungenutzt werden die Daten nicht bleiben. Überhaupt ist immer noch nicht klar, was mir diese ganze Arbeit bringen wird. Sicherlich eine Erkenntnis, doch wird sich die Arbeit irgendwann auszahlen? Wir werden sehen.

Hier geht es weiter

Feinjustierung des Spiders: Zone-Files

Artikel-Anfang verpasst? Zurück zu „Der erste Domain-Spider für mein eigenes Zone-File

Tag 3: Feinjustierung des Spiders
Der Spider hat noch seine Macken. Er versuchte auch Dateien wie PDFs, ZIP-Files und MP3s zu spidern. Dies ist natürlich unnötig. Also ignoriert der Spider diese Links seit heute. Auch gibt es einige Seiten, die dem Spider ein Zeitproblem verschafft haben. Ein Timer kontrolliert den Spider und bricht nun gegebenenfalls den Zugriff auf eine Seite ab.

Tag 4: Start des ersten Ping
Wir kommen zu der Frage, wie wir erkennen, dass eine Domain gelöscht wurde. Darauf habe ich auch noch nicht die eindeutige Antwort. Denke, dass die Lösung im DNS liegt. Heute weiß ich noch nicht, wie genau ich das prüfen soll. Ich fange einmal mit einer einfachen Ping-Prüfung an. Der Gedanke: Ist eine Domain per Ping nicht mehr erreichbar, ist die Domain schon mal ein Grund für eine weitere Prüfung. Vor allem, wenn die Domain in der Vergangenheit auf Pings reagiert hat. Ich werde sehen, wie weit ich damit komme.
Meine Ping-Application geht nun alle bereits vom Spider besuchten Domains durch und pingt diese an. Ist eine Domain nicht erreichbar, ist dies noch kein Grund zur Freunde. Ich erhöhe den Status der Domain und pinge die Domain später erneut an. Ist diese wieder nicht erreichbar, pinge ich später erneut. Ist sie nach ein paar Versuchen immer noch nicht erreichbar, ist dies ein Grund zur Kontrolle.
Sind mehrere Domains hintereinander nicht erreichbar, ist dies ein Grund, die eigene Internet-Verbindung in Frage zu stellen. In diesem Fall stoppt der Pinger eine Weile und probiert später erneut. Hier will ich erreichen, dass der Pinger plötzlich hunderte vom Domains aufgrund einer fehlerhaften Netzverbindung als gelöscht kennzeichnet. Eine ähnliche Sperre habe ich auch beim Spider eingebaut. Erreicht der Spider mehrere Seiten hintereinander nicht, legt er eine Zwangspause ein.

Tag 5: Und es gibt sie doch: Zone-Files
Mein Spider findet tagein, tagaus weitere Domains. Der Pinger muss noch angepasst werden. Er ermittelt sehr viele nicht erreichbaren Domains. Mehr, als eine manuelle Prüfung erlauben. Hier muss nachgebessert werden. Im Internet habe ich heute einige interessante Links zum Thema „Domainlisten“ gefunden. Auch eine weitere Seite, die gelöschte Domains veröffentlich und die meines Erachtens sehr gut ist. Wäre ich früher auf diese Seite gestoßen, hätte ich mir vielleicht die Arbeit hier nicht gemacht. Aber das „Projekt“ ist gestartet ….
Auf drei interessante Links bin ich gestoßen: Eine Firma verkauft eine Liste mit DE-Domains. Kostet Geld. Nicht viel, aber mein Spider arbeitet so gesehen umsonst. Die Liste ist in Teilen zum freien Download erhältlich. Ich habe sie mir einmal heruntergeladen. Vielleicht bestücke ich meine Datenbank noch mit diesen Domains. Natürlich war sehr interessant, ob in dieser Liste auch meine eigenen Domains enthalten sind. Ein paar habe ich darin gefunden.

Hier geht es weiter