Probleme bei Suchmaschinen: Unterschied zwischen den Versionen
(→Die Seite wird aus inhaltlichen Gründen ausgefiltert (Zensur)) |
Janik (Diskussion | Beiträge) (→Mehrdeutigkeit) |
||
(20 dazwischenliegende Versionen von 2 Benutzern werden nicht angezeigt) | |||
Zeile 1: | Zeile 1: | ||
Suchmaschinen müssen auch mit verschiedenen Problemen fertig werden, die nicht immer ohne weiteres überwunden werden können. Auch mit optimalen Suchstrategien lassen sich niemals alle relevanten Internetseiten auffinden, denn es gibt einige Grenzen in den Suchmaschinen. Keine Suchmaschine kennt alle Seiten, die es im Internet gibt. | Suchmaschinen müssen auch mit verschiedenen Problemen fertig werden, die nicht immer ohne weiteres überwunden werden können. Auch mit optimalen Suchstrategien lassen sich niemals alle relevanten Internetseiten auffinden, denn es gibt einige Grenzen in den Suchmaschinen. Keine Suchmaschine kennt alle Seiten, die es im Internet gibt. | ||
+ | |||
+ | |||
==Mehrdeutigkeit== | ==Mehrdeutigkeit== | ||
− | Suchmaschinen können nicht selbständig entscheiden welcher Begriff wirklich gesucht werden soll. Mann sollte auch immer Synonyme | + | Suchmaschinen können nicht selbständig entscheiden welcher Begriff wirklich gesucht werden soll. Mann sollte auch immer Synonyme, mit gleicher oder sehr ähnlicher Bedeutung, eingeben, damit der richtige Begriff gefunden wird. |
==Satzzeichen== | ==Satzzeichen== | ||
Zeile 11: | Zeile 13: | ||
==Die Internetseite ist zu versteckt== | ==Die Internetseite ist zu versteckt== | ||
− | Sehr umfangreiche Internetseiten besitzen oft eine sehr tiefe Hierarchie. Die [http://de.wikipedia.org/wiki/Crawler Suchmaschinen-Crawler] dringen aber nicht immer bis in die tiefsten Ebenen einer Internetseite vor | + | Sehr umfangreiche Internetseiten besitzen oft eine sehr tiefe Hierarchie. Die [http://de.wikipedia.org/wiki/Crawler Suchmaschinen-Crawler] dringen aber nicht immer bis in die tiefsten Ebenen einer Internetseite vor,<br /> so bleiben einige Seiten verborgen, auch wenn ein Link auf die Seite führt. |
==Aktualisierung von Internetseiten== | ==Aktualisierung von Internetseiten== | ||
Ist die Internetseite sehr aktuell, kann sie nach ein paar Stunden schon wieder veraltet sein (Börsenkurse, Wetterbericht, aktuelle Nachrichten). Suchmaschinen brauchen aber in der Regel mehrere Tage, um eine Internetseite zu indexieren, damit die Seite auch auffindbar ist. Deshalb bleibt dieser Bereich auch unsichtbar. <br /> | Ist die Internetseite sehr aktuell, kann sie nach ein paar Stunden schon wieder veraltet sein (Börsenkurse, Wetterbericht, aktuelle Nachrichten). Suchmaschinen brauchen aber in der Regel mehrere Tage, um eine Internetseite zu indexieren, damit die Seite auch auffindbar ist. Deshalb bleibt dieser Bereich auch unsichtbar. <br /> | ||
− | Viele Webseiten werden häufig aktualisiert, was die Suchmaschinen zwingt, diese Seiten nach definierbaren Regeln immer wieder zu besuchen. Dieses ist auch notwendig, um zwischenzeitlich aus der Datenbasis entfernte Dokumente zu erkennen und nicht länger als Ergebnis anzubieten. Das regelmäßige Herunterladen der mehreren Milliarden Dokumente, die eine Suchmaschine im Index hat, stellt große Anforderungen an die Netzwerkressourcen des Suchmaschinenbetreibers. | + | Viele Webseiten werden häufig aktualisiert, was die Suchmaschinen zwingt, diese Seiten nach definierbaren Regeln immer wieder zu besuchen. Dieses ist auch notwendig,<br /> um zwischenzeitlich aus der Datenbasis entfernte Dokumente zu erkennen und nicht länger als Ergebnis anzubieten. Das regelmäßige Herunterladen der mehreren Milliarden Dokumente,<br /> die eine Suchmaschine im Index hat, stellt große Anforderungen an die Netzwerkressourcen des Suchmaschinenbetreibers. |
==Spam== | ==Spam== | ||
Zeile 46: | Zeile 48: | ||
==Recht== | ==Recht== | ||
− | Suchmaschinen werden meistens international betrieben und bieten somit Benutzern Ergebnisse von Servern, die in anderen Ländern stehen. Da die Gesetzgebungen der verschiedenen Länder unterschiedliche Auffassungen davon haben, welche Inhalte erlaubt sind, geraten Betreiber von Suchmaschinen oft unter Druck, gewisse Seiten von ihren Ergebnissen auszuschließen. Die deutschen Internet-Suchmaschinen wollen jugendgefährdende Seiten durch die Freiwillige Selbstkontrolle aus ihren Trefferlisten streichen | + | Suchmaschinen werden meistens international betrieben und bieten somit Benutzern Ergebnisse von Servern, die in anderen Ländern stehen. Da die Gesetzgebungen der verschiedenen Länder unterschiedliche Auffassungen davon haben, welche Inhalte erlaubt sind, geraten Betreiber von Suchmaschinen oft unter Druck, gewisse Seiten von ihren Ergebnissen auszuschließen. |
− | + | Ein Nutzer des (google.de) muss nicht zwangsläufig die gleiche Antwort von (google.at) erhalten. Wer sich als deutscher Kosmopolit gleich (google.com) benutzt,<br /> um sich etwa über Antisemetismus im WWW zu informieren, wird anhand seiner IP-Adresse identifiziert und auf (google.de) umgeleitet. Die deutschen Internet-Suchmaschinen wollen jugendgefährdende Seiten durch die Freiwillige Selbstkontrolle aus ihren Trefferlisten streichen. | |
− | = | + | =Warum wird manche Internetseite nicht angezeigt, obwohl sie indexiert ist?= |
==Die Seite wird aus formalen Gründen ausgefiltert== | ==Die Seite wird aus formalen Gründen ausgefiltert== | ||
Zeile 58: | Zeile 60: | ||
==Der Suchmaschinenbetreiber löscht die Seite aus dem Index== | ==Der Suchmaschinenbetreiber löscht die Seite aus dem Index== | ||
− | Niemand kann einen Suchmaschinenbetreiber vorschreiben, was über den Index zu finden sein soll und was nicht. Inhalte können vom Suchmaschinenbetreiber gelöscht werden, wenn sich der Betreiber einer Internetseite nicht an die Spielregeln hält. | + | Niemand kann einen Suchmaschinenbetreiber vorschreiben, was über den Index zu finden sein soll und was nicht. Inhalte können vom Suchmaschinenbetreiber gelöscht werden,<br /> wenn sich der Betreiber einer Internetseite nicht an die Spielregeln hält. |
==Eingeschränkte Suchmöglichkeiten== | ==Eingeschränkte Suchmöglichkeiten== | ||
− | Suchmaschinen bieten im Vergleich zu Bibliothekskatalogen oder Fachdatenbanken nur eingeschränkte Suchmöglichkeiten. Die Verwendung von Platzhaltern ist z. B. nicht möglich. Es kann sein, dass eine Seite nur deshalb nicht als Treffer angezeigt wird, weil das Wort falsch geschrieben wurde. | + | Suchmaschinen bieten im Vergleich zu Bibliothekskatalogen oder Fachdatenbanken nur eingeschränkte Suchmöglichkeiten. Die Verwendung von Platzhaltern ist z. B. nicht möglich.<br /> Es kann sein, dass eine Seite nur deshalb nicht als Treffer angezeigt wird, weil das Wort falsch geschrieben wurde. |
Aktuelle Version vom 29. Mai 2009, 18:42 Uhr
Suchmaschinen müssen auch mit verschiedenen Problemen fertig werden, die nicht immer ohne weiteres überwunden werden können. Auch mit optimalen Suchstrategien lassen sich niemals alle relevanten Internetseiten auffinden, denn es gibt einige Grenzen in den Suchmaschinen. Keine Suchmaschine kennt alle Seiten, die es im Internet gibt.
Inhaltsverzeichnis
- 1 Mehrdeutigkeit
- 2 Satzzeichen
- 3 Auf die Internetseite führt kein Link
- 4 Die Internetseite ist zu versteckt
- 5 Aktualisierung von Internetseiten
- 6 Spam
- 7 Datenmenge
- 8 Die Internetseite darf nicht indexiert werden
- 9 Die Internetseite hat keinen Text
- 10 Die Internetseite hat zu viel Text
- 11 Das Dateiformat ist unbekannt
- 12 Die Internetseite ist nicht frei zugänglich
- 13 Inhalte aus Bibliothekskatalogen und Fachdatenbanken
- 14 Recht
- 15 Warum wird manche Internetseite nicht angezeigt, obwohl sie indexiert ist?
Mehrdeutigkeit
Suchmaschinen können nicht selbständig entscheiden welcher Begriff wirklich gesucht werden soll. Mann sollte auch immer Synonyme, mit gleicher oder sehr ähnlicher Bedeutung, eingeben, damit der richtige Begriff gefunden wird.
Satzzeichen
Fachbegriffe und Produktbezeichnungen zu deren Eigennamen ein Satzzeichen gehört, können durch Entfall dieser Sonderzeichen einer jeden Schrift, oft nicht effektiv gesucht und gefunden werden.
Auf die Internetseite führt kein Link
Es können nur Internetseiten indexiert werden, die über einen Link auch erreichbar sind. Gibt es keinen Link auf die Internetseite, kann sie auch nicht indexiert werden, landet nicht im Index der Suchmaschinen und ist bei der Suche in dieser Suchmaschine nicht auffindbar.
Die Internetseite ist zu versteckt
Sehr umfangreiche Internetseiten besitzen oft eine sehr tiefe Hierarchie. Die Suchmaschinen-Crawler dringen aber nicht immer bis in die tiefsten Ebenen einer Internetseite vor,
so bleiben einige Seiten verborgen, auch wenn ein Link auf die Seite führt.
Aktualisierung von Internetseiten
Ist die Internetseite sehr aktuell, kann sie nach ein paar Stunden schon wieder veraltet sein (Börsenkurse, Wetterbericht, aktuelle Nachrichten). Suchmaschinen brauchen aber in der Regel mehrere Tage, um eine Internetseite zu indexieren, damit die Seite auch auffindbar ist. Deshalb bleibt dieser Bereich auch unsichtbar.
Viele Webseiten werden häufig aktualisiert, was die Suchmaschinen zwingt, diese Seiten nach definierbaren Regeln immer wieder zu besuchen. Dieses ist auch notwendig,
um zwischenzeitlich aus der Datenbasis entfernte Dokumente zu erkennen und nicht länger als Ergebnis anzubieten. Das regelmäßige Herunterladen der mehreren Milliarden Dokumente,
die eine Suchmaschine im Index hat, stellt große Anforderungen an die Netzwerkressourcen des Suchmaschinenbetreibers.
Spam
Mittels Suchmaschinen-Spamming versuchen manche Website-Betreiber, den Ranking-Algorithmus der Suchmaschinen zu überlisten, um eine bessere Platzierung für gewisse Suchanfragen zu bekommen. Sowohl den Betreibern der Suchmaschine als auch deren Kunden schadet dieses, da nun nicht mehr die relevantesten Dokumente zuerst angezeigt werden.
Datenmenge
Das Web wächst schneller als die Suchmaschinen mit der derzeitigen Technik indizieren können. Dabei ist der den Suchmaschinen unbekannte Teil – das so genannte Deep Web – noch gar nicht eingerechnet. Zu umfangreiche Internetseiten können nicht vollständig indexiert werden. Alle Wörter, die hinter der Indexierungsgrenze liegen, werden nicht indexiert und können auch nicht gefunden werden
Technik
Suchen auf sehr großen Datenmengen so umzusetzen, dass die Verfügbarkeit hoch ist (trotz Hardware-Ausfällen und Netzengpässen) und die Antwortzeiten niedrig (obwohl oft pro Suchanfrage das Lesen und Verarbeiten mehrerer 100 MB Index-Daten erforderlich ist), stellt große Anforderungen an den Suchmaschinenbetreiber. Systeme müssen sehr redundant ausgelegt sein, zum einen auf den Computern vor Ort in einem Rechenzentrum, zum anderen sollte es mehr als ein Rechenzentrum geben, das die komplette Suchmaschinenfunktionalität anbietet.
Die Internetseite darf nicht indexiert werden
Der Ersteller einer Internetseite kann festlegen, welche Seiten von einem Suchmaschinen-Crawler nicht besucht oder nicht indexiert werden dürfen. Hält sich der Crawler an diese Vorgaben, bleiben ihm diese Seiten verborgen.
Die Internetseite hat keinen Text
Suchmaschinen können nur den Text auf einer Internetseite indexieren. Grafiken, Musik, Filme und Animationen können nur durch die dazugehörigen Beschreibungstexte indexiert werden; häufig fehlen diese jedoch.
Die Internetseite hat zu viel Text
Zu umfangreiche Internetseiten können nicht vollständig indexiert werden. Alle Wörter, die hinter der Indexierungsgrenze liegen, werden nicht indexiert und können auch nicht gefunden werden.
Das Dateiformat ist unbekannt
Dateiformate, wie HTML-, Word-, Excel-, Powerpoint und PDF-Dateien können von Suchmaschinen indexiert werden. Einige unbekannte Formate jedoch nicht.
Die Internetseite ist nicht frei zugänglich
Viele Internetseiten sind nur nach Eingabe eines Passwortes oder innerhalb einer Firma zugänglich. Da eine Suchmaschine die Passwörter nicht kennt und von außerhalb der Firma kommt, kann die Suchmaschine die Seiten, die hinter dieser Grenze liegen, nicht erreichen.
Inhalte aus Bibliothekskatalogen und Fachdatenbanken
Um eine Datenbank (z. B. Bibliothekskataloge) zu durchsuchen, gibt man in der Regel Stichwörter in eine Suchmaschine ein. Anschließend erhält man das Suchergebnis auf einer Internetseite. Diese Seiten werden dynamisch erzeugt, d. h. sie sind nirgendwo gespeichert. Wenn man eine Suche durchgeführt hat, kann man nur die Seite mit der Trefferliste sehen. Ruft man eine andere Seite auf oder führt eine neue Suche durch, existiert diese Seite nicht mehr. Die Indexierungsprogramme der Suchmaschine folgen nur den Links auf der Internetseite. Sie können keine Internetadressen selber eingeben oder Stichwörter in einer Suchmaske eintragen. Deshalb bleibt dieser Bereich unsichtbar.
Recht
Suchmaschinen werden meistens international betrieben und bieten somit Benutzern Ergebnisse von Servern, die in anderen Ländern stehen. Da die Gesetzgebungen der verschiedenen Länder unterschiedliche Auffassungen davon haben, welche Inhalte erlaubt sind, geraten Betreiber von Suchmaschinen oft unter Druck, gewisse Seiten von ihren Ergebnissen auszuschließen.
Ein Nutzer des (google.de) muss nicht zwangsläufig die gleiche Antwort von (google.at) erhalten. Wer sich als deutscher Kosmopolit gleich (google.com) benutzt,
um sich etwa über Antisemetismus im WWW zu informieren, wird anhand seiner IP-Adresse identifiziert und auf (google.de) umgeleitet. Die deutschen Internet-Suchmaschinen wollen jugendgefährdende Seiten durch die Freiwillige Selbstkontrolle aus ihren Trefferlisten streichen.
Warum wird manche Internetseite nicht angezeigt, obwohl sie indexiert ist?
Die Seite wird aus formalen Gründen ausgefiltert
Seiten, die inhaltlich identisch sind, erscheinen meist nur einmal in der Trefferliste. Manchmal versagt allerdings diese Dublettenprüfung und die Internetseiten werden nicht angezeigt, obwohl sich die Inhalte unterscheiden.
Die Seite wird aus inhaltlichen Gründen ausgefiltert (Zensur)
In vielen Ländern wird der Index der Suchmaschinen von rechtswidrigen oder einfach von unerwünschten Inhalten gesäubert, was dazu führt, dass Suchmaschinen-Betreiber in der öffentlichen Kritik stehen, beispielsweise von Menschenrechtsorganisationen, weil sie kritische Einträge für Nutzer in China - und nicht nur dort- gesperrt haben.
Der Suchmaschinenbetreiber löscht die Seite aus dem Index
Niemand kann einen Suchmaschinenbetreiber vorschreiben, was über den Index zu finden sein soll und was nicht. Inhalte können vom Suchmaschinenbetreiber gelöscht werden,
wenn sich der Betreiber einer Internetseite nicht an die Spielregeln hält.
Eingeschränkte Suchmöglichkeiten
Suchmaschinen bieten im Vergleich zu Bibliothekskatalogen oder Fachdatenbanken nur eingeschränkte Suchmöglichkeiten. Die Verwendung von Platzhaltern ist z. B. nicht möglich.
Es kann sein, dass eine Seite nur deshalb nicht als Treffer angezeigt wird, weil das Wort falsch geschrieben wurde.