Probleme bei Suchmaschinen: Unterschied zwischen den Versionen

Aus Enigma
Wechseln zu: Navigation, Suche
(Mehrdeutigkeit)
 
(34 dazwischenliegende Versionen von 2 Benutzern werden nicht angezeigt)
Zeile 1: Zeile 1:
 
Suchmaschinen müssen auch mit verschiedenen Problemen fertig werden, die nicht immer ohne weiteres überwunden werden können. Auch mit optimalen Suchstrategien lassen sich niemals alle relevanten Internetseiten auffinden, denn es gibt einige Grenzen in den Suchmaschinen. Keine Suchmaschine kennt alle Seiten, die es im Internet gibt.
 
Suchmaschinen müssen auch mit verschiedenen Problemen fertig werden, die nicht immer ohne weiteres überwunden werden können. Auch mit optimalen Suchstrategien lassen sich niemals alle relevanten Internetseiten auffinden, denn es gibt einige Grenzen in den Suchmaschinen. Keine Suchmaschine kennt alle Seiten, die es im Internet gibt.
 +
 +
  
 
==Mehrdeutigkeit==
 
==Mehrdeutigkeit==
Suchmaschinen können nicht selbständig entscheiden welcher Begriff wirklich gesucht werden soll. Mann sollte auch immer Synonyme mit eingeben, damit der richtige  Begriff gefunden wird.
+
Suchmaschinen können nicht selbständig entscheiden welcher Begriff wirklich gesucht werden soll. Mann sollte auch immer Synonyme, mit gleicher oder sehr ähnlicher Bedeutung, eingeben, damit der richtige  Begriff gefunden wird.
  
 
==Satzzeichen==
 
==Satzzeichen==
Fachbegriffe und Produktbezeichnungen zu deren Eigennamen ein Satzzeichen gehört, können nicht effektiv gesucht und gefunden  werden.
+
Fachbegriffe und Produktbezeichnungen zu deren Eigennamen ein Satzzeichen gehört, können durch Entfall dieser Sonderzeichen einer jeden Schrift, oft nicht effektiv gesucht und gefunden  werden.
  
 
==Auf die Internetseite führt kein Link==
 
==Auf die Internetseite führt kein Link==
 
Es können nur Internetseiten indexiert werden, die über einen Link auch erreichbar sind. Gibt es keinen Link auf die Internetseite, kann sie auch nicht indexiert werden, landet nicht im Index der Suchmaschinen und ist bei der Suche in dieser Suchmaschine nicht auffindbar.  
 
Es können nur Internetseiten indexiert werden, die über einen Link auch erreichbar sind. Gibt es keinen Link auf die Internetseite, kann sie auch nicht indexiert werden, landet nicht im Index der Suchmaschinen und ist bei der Suche in dieser Suchmaschine nicht auffindbar.  
 
  
 
==Die Internetseite ist zu versteckt==
 
==Die Internetseite ist zu versteckt==
Sehr umfangreiche Internetseiten besitzen oft eine sehr tiefe Hierarchie. Die Suchmaschinen-Crawler dringen aber nicht immer bis in die tiefsten Ebenen einer Internetseite vor und so bleiben einige Seiten verborgen, auch wenn ein Link auf die Seite führt.
+
Sehr umfangreiche Internetseiten besitzen oft eine sehr tiefe Hierarchie. Die [http://de.wikipedia.org/wiki/Crawler Suchmaschinen-Crawler] dringen aber nicht immer bis in die tiefsten Ebenen einer Internetseite vor,<br /> so bleiben einige Seiten verborgen, auch wenn ein Link auf die Seite führt.
  
==Die Internetseite ist zu aktuell==
+
==Aktualisierung von Internetseiten==
 
Ist die Internetseite sehr aktuell, kann sie nach ein paar Stunden schon wieder veraltet sein (Börsenkurse, Wetterbericht, aktuelle Nachrichten). Suchmaschinen brauchen aber in der Regel mehrere Tage, um eine Internetseite zu indexieren, damit die Seite auch auffindbar ist. Deshalb bleibt dieser Bereich auch unsichtbar. <br />
 
Ist die Internetseite sehr aktuell, kann sie nach ein paar Stunden schon wieder veraltet sein (Börsenkurse, Wetterbericht, aktuelle Nachrichten). Suchmaschinen brauchen aber in der Regel mehrere Tage, um eine Internetseite zu indexieren, damit die Seite auch auffindbar ist. Deshalb bleibt dieser Bereich auch unsichtbar. <br />
Viele Webseiten werden häufig aktualisiert, was die Suchmaschinen zwingt, diese Seiten nach definierbaren Regeln (Robots) immer wieder zu besuchen. Dieses ist auch notwendig, um zwischenzeitlich aus der Datenbasis entfernte Dokumente zu erkennen und nicht länger als Ergebnis anzubieten. Das regelmäßige Herunterladen der mehreren Milliarden Dokumente, die eine Suchmaschine im Index hat, stellt große Anforderungen an die Netzwerkressourcen (Traffic) des Suchmaschinenbetreibers,
+
Viele Webseiten werden häufig aktualisiert, was die Suchmaschinen zwingt, diese Seiten nach definierbaren Regeln immer wieder zu besuchen. Dieses ist auch notwendig,<br /> um zwischenzeitlich aus der Datenbasis entfernte Dokumente zu erkennen und nicht länger als Ergebnis anzubieten. Das regelmäßige Herunterladen der mehreren Milliarden Dokumente,<br /> die eine Suchmaschine im Index hat, stellt große Anforderungen an die Netzwerkressourcen des Suchmaschinenbetreibers.
+
 
 
==Spam==
 
==Spam==
 
Mittels Suchmaschinen-Spamming versuchen manche Website-Betreiber, den Ranking-Algorithmus der Suchmaschinen zu überlisten, um eine bessere Platzierung für gewisse Suchanfragen zu bekommen. Sowohl den Betreibern der Suchmaschine als auch deren Kunden schadet dieses, da nun nicht mehr die relevantesten Dokumente zuerst angezeigt werden.
 
Mittels Suchmaschinen-Spamming versuchen manche Website-Betreiber, den Ranking-Algorithmus der Suchmaschinen zu überlisten, um eine bessere Platzierung für gewisse Suchanfragen zu bekommen. Sowohl den Betreibern der Suchmaschine als auch deren Kunden schadet dieses, da nun nicht mehr die relevantesten Dokumente zuerst angezeigt werden.
 +
 +
==Datenmenge==
 +
Das Web wächst schneller als die Suchmaschinen mit der derzeitigen Technik indizieren können. Dabei ist der den Suchmaschinen unbekannte Teil – das so genannte [[Deep Web]] – noch gar nicht eingerechnet.
 +
Zu umfangreiche Internetseiten können nicht vollständig indexiert werden. Alle Wörter, die hinter der Indexierungsgrenze liegen, werden nicht indexiert und können auch nicht gefunden werden
 +
 +
===Technik===
 +
Suchen auf sehr großen Datenmengen so umzusetzen, dass die Verfügbarkeit hoch ist (trotz Hardware-Ausfällen und Netzengpässen) und die Antwortzeiten niedrig (obwohl oft pro Suchanfrage das Lesen und Verarbeiten mehrerer 100 MB Index-Daten erforderlich ist), stellt große Anforderungen an den Suchmaschinenbetreiber. Systeme müssen sehr redundant ausgelegt sein, zum einen auf den Computern vor Ort in einem Rechenzentrum, zum anderen sollte es mehr als ein Rechenzentrum geben, das die komplette Suchmaschinenfunktionalität anbietet.
 +
 +
==Die Internetseite darf nicht indexiert werden==
 +
Der Ersteller einer Internetseite kann festlegen, welche Seiten von einem [http://de.wikipedia.org/wiki/Crawler Suchmaschinen-Crawler] nicht besucht oder nicht indexiert werden dürfen. Hält sich der Crawler an diese Vorgaben, bleiben ihm diese Seiten verborgen.
 +
 +
==Die Internetseite hat keinen Text==
 +
Suchmaschinen können nur den Text auf einer Internetseite indexieren. Grafiken, Musik, Filme und Animationen können nur durch die dazugehörigen Beschreibungstexte indexiert werden; häufig fehlen diese jedoch.
 +
 +
==Die Internetseite hat zu viel Text==
 +
Zu umfangreiche Internetseiten können nicht vollständig indexiert werden. Alle Wörter, die hinter der Indexierungsgrenze liegen, werden nicht indexiert und können auch nicht gefunden werden.
 +
 +
==Das Dateiformat ist unbekannt==
 +
Dateiformate, wie HTML-, Word-, Excel-, Powerpoint und PDF-Dateien können von Suchmaschinen indexiert werden. Einige unbekannte Formate jedoch nicht.
 +
 +
==Die Internetseite ist nicht frei zugänglich==
 +
Viele Internetseiten sind nur nach Eingabe eines Passwortes  oder innerhalb einer Firma zugänglich. Da eine Suchmaschine die Passwörter nicht kennt und von außerhalb der Firma kommt, kann die Suchmaschine die Seiten, die hinter dieser Grenze liegen, nicht erreichen.
 +
 +
==Inhalte aus Bibliothekskatalogen und Fachdatenbanken==
 +
Um eine Datenbank (z. B. Bibliothekskataloge) zu durchsuchen, gibt man in der Regel Stichwörter in eine Suchmaschine ein. Anschließend erhält man das Suchergebnis auf einer Internetseite. Diese Seiten werden dynamisch erzeugt, d. h. sie sind nirgendwo gespeichert. Wenn man eine Suche durchgeführt hat, kann man nur die Seite mit der Trefferliste sehen. Ruft man eine andere Seite auf oder führt eine neue Suche durch, existiert diese Seite nicht mehr. Die Indexierungsprogramme der Suchmaschine folgen nur den Links auf der Internetseite. Sie können keine Internetadressen selber eingeben oder Stichwörter in einer Suchmaske eintragen. Deshalb bleibt dieser Bereich unsichtbar.
 +
 +
==Recht==
 +
Suchmaschinen werden meistens international betrieben und bieten somit Benutzern Ergebnisse von Servern, die in anderen Ländern stehen. Da die Gesetzgebungen der verschiedenen Länder unterschiedliche Auffassungen davon haben, welche Inhalte erlaubt sind, geraten Betreiber von Suchmaschinen oft unter Druck, gewisse Seiten von ihren Ergebnissen auszuschließen.
 +
Ein Nutzer des (google.de) muss nicht zwangsläufig die gleiche Antwort von (google.at) erhalten. Wer sich als deutscher Kosmopolit gleich (google.com) benutzt,<br /> um sich etwa über Antisemetismus im WWW zu informieren, wird anhand seiner IP-Adresse identifiziert und auf (google.de) umgeleitet. Die deutschen Internet-Suchmaschinen wollen jugendgefährdende Seiten durch die Freiwillige Selbstkontrolle aus ihren Trefferlisten streichen.
 +
 +
=Warum wird manche Internetseite nicht angezeigt, obwohl sie indexiert ist?=
 +
 +
==Die Seite wird aus formalen Gründen ausgefiltert==
 +
Seiten, die inhaltlich identisch sind, erscheinen meist nur einmal in der Trefferliste. Manchmal versagt allerdings diese Dublettenprüfung und die Internetseiten werden nicht angezeigt, obwohl sich die Inhalte unterscheiden.
 +
 +
==Die Seite wird aus inhaltlichen Gründen ausgefiltert (Zensur)==
 +
In vielen Ländern wird der Index der Suchmaschinen von rechtswidrigen oder einfach von unerwünschten  Inhalten gesäubert, was dazu führt, dass Suchmaschinen-Betreiber in der öffentlichen Kritik stehen, beispielsweise von Menschenrechtsorganisationen, weil sie kritische Einträge für Nutzer in China - und nicht nur dort- gesperrt haben.
 +
 +
==Der Suchmaschinenbetreiber löscht die Seite aus dem Index==
 +
Niemand kann einen Suchmaschinenbetreiber vorschreiben, was über den Index zu finden sein soll und was nicht. Inhalte können vom Suchmaschinenbetreiber gelöscht werden,<br /> wenn sich der Betreiber einer Internetseite nicht an die Spielregeln hält.
 +
 +
==Eingeschränkte Suchmöglichkeiten==
 +
Suchmaschinen bieten im Vergleich  zu Bibliothekskatalogen oder Fachdatenbanken nur eingeschränkte Suchmöglichkeiten. Die Verwendung von Platzhaltern ist z. B. nicht möglich.<br /> Es kann sein, dass eine Seite nur deshalb nicht als Treffer angezeigt wird, weil das Wort falsch geschrieben wurde.

Aktuelle Version vom 29. Mai 2009, 18:42 Uhr

Suchmaschinen müssen auch mit verschiedenen Problemen fertig werden, die nicht immer ohne weiteres überwunden werden können. Auch mit optimalen Suchstrategien lassen sich niemals alle relevanten Internetseiten auffinden, denn es gibt einige Grenzen in den Suchmaschinen. Keine Suchmaschine kennt alle Seiten, die es im Internet gibt.


Mehrdeutigkeit

Suchmaschinen können nicht selbständig entscheiden welcher Begriff wirklich gesucht werden soll. Mann sollte auch immer Synonyme, mit gleicher oder sehr ähnlicher Bedeutung, eingeben, damit der richtige Begriff gefunden wird.

Satzzeichen

Fachbegriffe und Produktbezeichnungen zu deren Eigennamen ein Satzzeichen gehört, können durch Entfall dieser Sonderzeichen einer jeden Schrift, oft nicht effektiv gesucht und gefunden werden.

Auf die Internetseite führt kein Link

Es können nur Internetseiten indexiert werden, die über einen Link auch erreichbar sind. Gibt es keinen Link auf die Internetseite, kann sie auch nicht indexiert werden, landet nicht im Index der Suchmaschinen und ist bei der Suche in dieser Suchmaschine nicht auffindbar.

Die Internetseite ist zu versteckt

Sehr umfangreiche Internetseiten besitzen oft eine sehr tiefe Hierarchie. Die Suchmaschinen-Crawler dringen aber nicht immer bis in die tiefsten Ebenen einer Internetseite vor,
so bleiben einige Seiten verborgen, auch wenn ein Link auf die Seite führt.

Aktualisierung von Internetseiten

Ist die Internetseite sehr aktuell, kann sie nach ein paar Stunden schon wieder veraltet sein (Börsenkurse, Wetterbericht, aktuelle Nachrichten). Suchmaschinen brauchen aber in der Regel mehrere Tage, um eine Internetseite zu indexieren, damit die Seite auch auffindbar ist. Deshalb bleibt dieser Bereich auch unsichtbar.
Viele Webseiten werden häufig aktualisiert, was die Suchmaschinen zwingt, diese Seiten nach definierbaren Regeln immer wieder zu besuchen. Dieses ist auch notwendig,
um zwischenzeitlich aus der Datenbasis entfernte Dokumente zu erkennen und nicht länger als Ergebnis anzubieten. Das regelmäßige Herunterladen der mehreren Milliarden Dokumente,
die eine Suchmaschine im Index hat, stellt große Anforderungen an die Netzwerkressourcen des Suchmaschinenbetreibers.

Spam

Mittels Suchmaschinen-Spamming versuchen manche Website-Betreiber, den Ranking-Algorithmus der Suchmaschinen zu überlisten, um eine bessere Platzierung für gewisse Suchanfragen zu bekommen. Sowohl den Betreibern der Suchmaschine als auch deren Kunden schadet dieses, da nun nicht mehr die relevantesten Dokumente zuerst angezeigt werden.

Datenmenge

Das Web wächst schneller als die Suchmaschinen mit der derzeitigen Technik indizieren können. Dabei ist der den Suchmaschinen unbekannte Teil – das so genannte Deep Web – noch gar nicht eingerechnet. Zu umfangreiche Internetseiten können nicht vollständig indexiert werden. Alle Wörter, die hinter der Indexierungsgrenze liegen, werden nicht indexiert und können auch nicht gefunden werden

Technik

Suchen auf sehr großen Datenmengen so umzusetzen, dass die Verfügbarkeit hoch ist (trotz Hardware-Ausfällen und Netzengpässen) und die Antwortzeiten niedrig (obwohl oft pro Suchanfrage das Lesen und Verarbeiten mehrerer 100 MB Index-Daten erforderlich ist), stellt große Anforderungen an den Suchmaschinenbetreiber. Systeme müssen sehr redundant ausgelegt sein, zum einen auf den Computern vor Ort in einem Rechenzentrum, zum anderen sollte es mehr als ein Rechenzentrum geben, das die komplette Suchmaschinenfunktionalität anbietet.

Die Internetseite darf nicht indexiert werden

Der Ersteller einer Internetseite kann festlegen, welche Seiten von einem Suchmaschinen-Crawler nicht besucht oder nicht indexiert werden dürfen. Hält sich der Crawler an diese Vorgaben, bleiben ihm diese Seiten verborgen.

Die Internetseite hat keinen Text

Suchmaschinen können nur den Text auf einer Internetseite indexieren. Grafiken, Musik, Filme und Animationen können nur durch die dazugehörigen Beschreibungstexte indexiert werden; häufig fehlen diese jedoch.

Die Internetseite hat zu viel Text

Zu umfangreiche Internetseiten können nicht vollständig indexiert werden. Alle Wörter, die hinter der Indexierungsgrenze liegen, werden nicht indexiert und können auch nicht gefunden werden.

Das Dateiformat ist unbekannt

Dateiformate, wie HTML-, Word-, Excel-, Powerpoint und PDF-Dateien können von Suchmaschinen indexiert werden. Einige unbekannte Formate jedoch nicht.

Die Internetseite ist nicht frei zugänglich

Viele Internetseiten sind nur nach Eingabe eines Passwortes oder innerhalb einer Firma zugänglich. Da eine Suchmaschine die Passwörter nicht kennt und von außerhalb der Firma kommt, kann die Suchmaschine die Seiten, die hinter dieser Grenze liegen, nicht erreichen.

Inhalte aus Bibliothekskatalogen und Fachdatenbanken

Um eine Datenbank (z. B. Bibliothekskataloge) zu durchsuchen, gibt man in der Regel Stichwörter in eine Suchmaschine ein. Anschließend erhält man das Suchergebnis auf einer Internetseite. Diese Seiten werden dynamisch erzeugt, d. h. sie sind nirgendwo gespeichert. Wenn man eine Suche durchgeführt hat, kann man nur die Seite mit der Trefferliste sehen. Ruft man eine andere Seite auf oder führt eine neue Suche durch, existiert diese Seite nicht mehr. Die Indexierungsprogramme der Suchmaschine folgen nur den Links auf der Internetseite. Sie können keine Internetadressen selber eingeben oder Stichwörter in einer Suchmaske eintragen. Deshalb bleibt dieser Bereich unsichtbar.

Recht

Suchmaschinen werden meistens international betrieben und bieten somit Benutzern Ergebnisse von Servern, die in anderen Ländern stehen. Da die Gesetzgebungen der verschiedenen Länder unterschiedliche Auffassungen davon haben, welche Inhalte erlaubt sind, geraten Betreiber von Suchmaschinen oft unter Druck, gewisse Seiten von ihren Ergebnissen auszuschließen. Ein Nutzer des (google.de) muss nicht zwangsläufig die gleiche Antwort von (google.at) erhalten. Wer sich als deutscher Kosmopolit gleich (google.com) benutzt,
um sich etwa über Antisemetismus im WWW zu informieren, wird anhand seiner IP-Adresse identifiziert und auf (google.de) umgeleitet. Die deutschen Internet-Suchmaschinen wollen jugendgefährdende Seiten durch die Freiwillige Selbstkontrolle aus ihren Trefferlisten streichen.

Warum wird manche Internetseite nicht angezeigt, obwohl sie indexiert ist?

Die Seite wird aus formalen Gründen ausgefiltert

Seiten, die inhaltlich identisch sind, erscheinen meist nur einmal in der Trefferliste. Manchmal versagt allerdings diese Dublettenprüfung und die Internetseiten werden nicht angezeigt, obwohl sich die Inhalte unterscheiden.

Die Seite wird aus inhaltlichen Gründen ausgefiltert (Zensur)

In vielen Ländern wird der Index der Suchmaschinen von rechtswidrigen oder einfach von unerwünschten Inhalten gesäubert, was dazu führt, dass Suchmaschinen-Betreiber in der öffentlichen Kritik stehen, beispielsweise von Menschenrechtsorganisationen, weil sie kritische Einträge für Nutzer in China - und nicht nur dort- gesperrt haben.

Der Suchmaschinenbetreiber löscht die Seite aus dem Index

Niemand kann einen Suchmaschinenbetreiber vorschreiben, was über den Index zu finden sein soll und was nicht. Inhalte können vom Suchmaschinenbetreiber gelöscht werden,
wenn sich der Betreiber einer Internetseite nicht an die Spielregeln hält.

Eingeschränkte Suchmöglichkeiten

Suchmaschinen bieten im Vergleich zu Bibliothekskatalogen oder Fachdatenbanken nur eingeschränkte Suchmöglichkeiten. Die Verwendung von Platzhaltern ist z. B. nicht möglich.
Es kann sein, dass eine Seite nur deshalb nicht als Treffer angezeigt wird, weil das Wort falsch geschrieben wurde.