Probleme bei Suchmaschinen: Unterschied zwischen den Versionen

Aus Enigma
Wechseln zu: Navigation, Suche
Zeile 20: Zeile 20:
 
==Spam==
 
==Spam==
 
Mittels Suchmaschinen-Spamming versuchen manche Website-Betreiber, den Ranking-Algorithmus der Suchmaschinen zu überlisten, um eine bessere Platzierung für gewisse Suchanfragen zu bekommen. Sowohl den Betreibern der Suchmaschine als auch deren Kunden schadet dieses, da nun nicht mehr die relevantesten Dokumente zuerst angezeigt werden.
 
Mittels Suchmaschinen-Spamming versuchen manche Website-Betreiber, den Ranking-Algorithmus der Suchmaschinen zu überlisten, um eine bessere Platzierung für gewisse Suchanfragen zu bekommen. Sowohl den Betreibern der Suchmaschine als auch deren Kunden schadet dieses, da nun nicht mehr die relevantesten Dokumente zuerst angezeigt werden.
 +
 +
==Datenmenge==
 +
Das Web wächst schneller als die Suchmaschinen mit der derzeitigen Technik indizieren können. Dabei ist der den Suchmaschinen unbekannte Teil – das so genannte Deep Web – noch gar nicht eingerechnet.
 +
Zu umfangreiche Internetseiten können nicht vollständig indexiert werden. Alle Wörter, die hinter der Indexierungsgrenze liegen, werden nicht indexiert und können auch nicht gefunden werden
 +
 +
===Technik===
 +
Suchen auf sehr großen Datenmengen so umzusetzen, dass die Verfügbarkeit hoch ist (trotz Hardware-Ausfällen und Netzengpässen) und die Antwortzeiten niedrig (obwohl oft pro Suchanfrage das Lesen und Verarbeiten mehrerer 100 MB Index-Daten erforderlich ist), stellt große Anforderungen an den Suchmaschinenbetreiber. Systeme müssen sehr redundant ausgelegt sein, zum einen auf den Computern vor Ort in einem Rechenzentrum, zum anderen sollte es mehr als ein Rechenzentrum geben, das die komplette Suchmaschinenfunktionalität anbietet.

Version vom 13. Dezember 2008, 17:35 Uhr

Suchmaschinen müssen auch mit verschiedenen Problemen fertig werden, die nicht immer ohne weiteres überwunden werden können. Auch mit optimalen Suchstrategien lassen sich niemals alle relevanten Internetseiten auffinden, denn es gibt einige Grenzen in den Suchmaschinen. Keine Suchmaschine kennt alle Seiten, die es im Internet gibt.

Mehrdeutigkeit

Suchmaschinen können nicht selbständig entscheiden welcher Begriff wirklich gesucht werden soll. Mann sollte auch immer Synonyme mit eingeben, damit der richtige Begriff gefunden wird.

Satzzeichen

Fachbegriffe und Produktbezeichnungen zu deren Eigennamen ein Satzzeichen gehört, können nicht effektiv gesucht und gefunden werden.

Auf die Internetseite führt kein Link

Es können nur Internetseiten indexiert werden, die über einen Link auch erreichbar sind. Gibt es keinen Link auf die Internetseite, kann sie auch nicht indexiert werden, landet nicht im Index der Suchmaschinen und ist bei der Suche in dieser Suchmaschine nicht auffindbar.


Die Internetseite ist zu versteckt

Sehr umfangreiche Internetseiten besitzen oft eine sehr tiefe Hierarchie. Die Suchmaschinen-Crawler dringen aber nicht immer bis in die tiefsten Ebenen einer Internetseite vor und so bleiben einige Seiten verborgen, auch wenn ein Link auf die Seite führt.

Die Internetseite ist zu aktuell

Ist die Internetseite sehr aktuell, kann sie nach ein paar Stunden schon wieder veraltet sein (Börsenkurse, Wetterbericht, aktuelle Nachrichten). Suchmaschinen brauchen aber in der Regel mehrere Tage, um eine Internetseite zu indexieren, damit die Seite auch auffindbar ist. Deshalb bleibt dieser Bereich auch unsichtbar.
Viele Webseiten werden häufig aktualisiert, was die Suchmaschinen zwingt, diese Seiten nach definierbaren Regeln (Robots) immer wieder zu besuchen. Dieses ist auch notwendig, um zwischenzeitlich aus der Datenbasis entfernte Dokumente zu erkennen und nicht länger als Ergebnis anzubieten. Das regelmäßige Herunterladen der mehreren Milliarden Dokumente, die eine Suchmaschine im Index hat, stellt große Anforderungen an die Netzwerkressourcen (Traffic) des Suchmaschinenbetreibers,

Spam

Mittels Suchmaschinen-Spamming versuchen manche Website-Betreiber, den Ranking-Algorithmus der Suchmaschinen zu überlisten, um eine bessere Platzierung für gewisse Suchanfragen zu bekommen. Sowohl den Betreibern der Suchmaschine als auch deren Kunden schadet dieses, da nun nicht mehr die relevantesten Dokumente zuerst angezeigt werden.

Datenmenge

Das Web wächst schneller als die Suchmaschinen mit der derzeitigen Technik indizieren können. Dabei ist der den Suchmaschinen unbekannte Teil – das so genannte Deep Web – noch gar nicht eingerechnet. Zu umfangreiche Internetseiten können nicht vollständig indexiert werden. Alle Wörter, die hinter der Indexierungsgrenze liegen, werden nicht indexiert und können auch nicht gefunden werden

Technik

Suchen auf sehr großen Datenmengen so umzusetzen, dass die Verfügbarkeit hoch ist (trotz Hardware-Ausfällen und Netzengpässen) und die Antwortzeiten niedrig (obwohl oft pro Suchanfrage das Lesen und Verarbeiten mehrerer 100 MB Index-Daten erforderlich ist), stellt große Anforderungen an den Suchmaschinenbetreiber. Systeme müssen sehr redundant ausgelegt sein, zum einen auf den Computern vor Ort in einem Rechenzentrum, zum anderen sollte es mehr als ein Rechenzentrum geben, das die komplette Suchmaschinenfunktionalität anbietet.