Diskussion:Suchmaschinen: Unterschied zwischen den Versionen
Janik (Diskussion | Beiträge) (Die Seite wurde geleert.) |
Janik (Diskussion | Beiträge) |
||
Zeile 1: | Zeile 1: | ||
+ | ='''1. Was sind Suchmaschinen?'''= | ||
+ | Eine Suchmaschine (search engine) ist ein Programm zur Recherche von veröffentlichten Schriftstücken, die in einem Computernetzwerk gespeichert sind. Das wichtigste, verbreitetste und bekannteste Internet-Computernetzwerk ist das www-World Wide Web ( Weltweites-Netz ). | ||
+ | Die Suchanzeigen, z.B. nach Dokumenten, werden über Schlüsselwörter mit einer nach Wichtigkeit geordneten Trefferliste beantwortet. Der jeweilige Datenbestand wird in hierarchischer Form katalogisiert. Die Recherchen werden ferner gewichtet und ebenso für die Anzahl von Suchergebnissen begrenzt, die der Benutzer wünscht. Die Suchmaschine liefert dann eine Liste mit Verweisen auf möglicherweise passende Ergebnisse. | ||
+ | |||
+ | Die wesentlichen Bestandteile bzw. Aufgabenbereiche einer Suchmaschine sind: | ||
+ | |||
+ | • Erstellung und Pflege eines Index über Dokumente, | ||
+ | • Verarbeiten von Suchanfragen sowie, | ||
+ | • Aufbereitung der Ergebnisse in einer möglichst sinnvollen Form. | ||
+ | |||
+ | Suchmaschinen gibt es seit Beginn der Entwicklung und des Aufstiegs der Personalcomputer, seit Anfang des letzten Jahrzehnts des vorigen Jahrhunderts, das WWW seit 1993. | ||
+ | Unter mehr als Hundert Suchmaschinen weltweit, hat sich in den letzten Jahren die Suchmaschine „Google“ eine eindeutige Vormachtstellung erobert, sodass der Name mittlerweile ein Synonym für Suchmaschinen geworden ist. | ||
+ | |||
+ | ==1.2 Arten der Suchmaschinen== | ||
+ | |||
+ | Suchmaschinen lassen sich nach einer Reihe von Merkmalen kategorisieren. Die nachfolgenden Merkmale sind weitgehend unabhängig. Man kann sich beim Entwurf einer Suchmaschine also für eine Möglichkeit aus jeder der drei Merkmalsgruppen entscheiden, ohne dass dies die Wahl der anderen Merkmale beeinflusst. | ||
+ | |||
+ | |||
+ | ===1.2.1 Datenquellen=== | ||
+ | |||
+ | Verschiedene Suchmaschinen können unterschiedliche Arten von Daten durchsuchen. Zunächst lassen sich diese grob in „Dokumenttypen“ wie Text, Bild, Ton, Video und andere unterteilen. Ergebnisseiten werden in Abhängigkeit von dieser Gattung gestaltet. Bei einer Suche nach Textdokumenten wird üblicherweise ein Textfragment angezeigt, das die Suchbegriffe enthält. Bildsuchmaschinen zeigen eine Miniaturansicht der passenden Bilder an. | ||
+ | Eine weitere feinere Aufgliederung geht auf datenspezifische Eigenschaften ein, die nicht alle Dokumente innerhalb einer Gattung teilen. Bleibt man beim Beispiel Text, so kann bei Usenet-Beiträgen nach bestimmten Autoren gesucht werden, bei Web-Seiten im HTML-Format nach dem Dokumententitel. | ||
+ | Je nach Datengattung ist als weitere Funktion eine Einschränkung auf eine Untermenge aller Daten einer Gattung möglich. Dieses wird im Allgemeinen über zusätzliche Suchparameter realisiert, die einen Teil der erfassten Daten ausschließt. Alternativ kann sich eine Suchmaschine darauf beschränken, von Anfang an nur passende Dokumente aufzunehmen. Beispiele sind etwa eine Suchmaschine für Weblogs (statt für das komplette Web) oder Suchmaschinen, die nur Dokumente von Universitäten verarbeiten, oder ausschließlich Dokumente aus einem bestimmten Land, in einer bestimmten Sprache oder einem bestimmten Dateiformat. | ||
+ | |||
+ | |||
+ | ===1.2.2. Merkmale häufig genutzten Suchmaschinen=== | ||
+ | |||
+ | Die gängigste und meistgenutzte Kombination von Merkmalen benutzt das WWW als Datenquelle, für Text-Dokumente im HTML-Format und baut zur Realisierung einen Index auf. Die Interpretation der Eingabe erfolgt meist auf der Basis einer einfachen Syntax, bei der etwa durch ein dem vorangestelltes "-" ein Schlüsselwort ausgeschlossen werden kann. Die Suchmaschinen der drei größten Anbieter Google (53,7 %), Yahoo Search (22,7 %) und Microsofts Live Search (8,9 %) arbeiten nach diesem Muster[2], Markanteile in Deutschland: Google (89,2 %), Yahoo (3,3 %) und Live Search (2,2 %)[3]. | ||
+ | |||
+ | |||
+ | ===1.2.3. Interpretationen der Eingaben=== | ||
+ | |||
+ | Die Suchanfrage eines Nutzers wird vor der eigentlichen Suche interpretiert und in eine für den intern verwendeten Such-Algorithmus verständliche Form gebracht. Dies dient dazu, die Syntax der Anfrage möglichst einfach zu halten und dennoch komplexe Anfragen zu erlauben. Viele Suchmaschinen unterstützen die logische Verknüpfung von verschiedenen Suchworten durch Boolesche Operatoren. Dadurch lassen sich Webseiten finden, die bestimmte Begriffe enthalten, andere jedoch nicht. | ||
+ | Eine neuere Entwicklung ist der Versuch, in natürlicher Sprache gefasste Eingaben an die Suchmaschine zu akzeptieren (siehe auch semantische Suchmaschine | ||
+ | |||
+ | |||
+ | ='''2. Suchverhalten der Nutzer'''= | ||
+ | |||
+ | ==2.1. Navigationsorientiert== | ||
+ | |||
+ | Der Nutzer sucht bei navigationalen Anfragen gezielt nach Seiten, die er bereits kennt, oder von denen er glaubt, sie existieren. Das Informationsbedürfnis des Nutzers ist damit befriedigt. | ||
+ | |||
+ | ==2.2. Informationsorientiert== | ||
+ | |||
+ | Der Nutzer sucht bei informationalen Anfragen eine Vielzahl von Angaben zu bestimmten Themengebieten. Mit erhalt der Information ist die Suche beendet. | ||
+ | |||
+ | ==2.3. Transaktionsorientiert== | ||
+ | |||
+ | Der Nutzer sucht bei transaktionalen Anfragen nach Internetseiten mit denen er zu arbeiten gedenkt. Dies sind zum Beispiel Internetshops. | ||
+ | |||
+ | ='''3. Probleme bei Suchmaschinen'''= | ||
+ | |||
+ | ==3.1. Mehrdeutigkeit== | ||
+ | |||
+ | Suchmaschinen können nicht selbständig entscheiden welcher Begriff wirklich gesucht werden soll. Mann sollte auch immer Synonyme mit eingeben, damit der richtige Begriff gefunden wird. | ||
+ | |||
+ | ==3.2. Grammatik== | ||
+ | |||
+ | Viele mögliche Treffer gehen verloren, weil der Nutzer nach einer bestimmten grammatikalischen Form eines Suchbegriffes sucht. So findet die Suche nach dem Begriff Auto zwar alle im Suchindex enthaltenen Seiten, die diesen Begriff enthalten, nicht aber jene mit dem Begriff Autos. Manche Suchmaschinen erlauben die Suche mittels Wildcards, mit denen sich dieses Problem teilweise umgehen lässt (z. B. berücksichtigt die Suchanfrage Auto* auch den Begriff Autos oder Automatismus), allerdings muss der Nutzer die Möglichkeit auch kennen. Weiterhin wird oft Stemming verwendet, dabei werden Wörter auf ihren Grundstamm reduziert. So ist einerseits eine Abfrage nach ähnlichen Wortformen möglich (schöne Blumen findet so auch schöner Blume), außerdem wird die Anzahl der Begriffe im Index reduziert. Eine weitere Möglichkeit ist der Einsatz statistischer Verfahren, mit denen die Suchmaschine die Anfrage z. B. durch das Auftauchen verschiedener verwandter Begriffe auf Webseiten danach bewertet, ob mit der Suche nach Auto reparieren auch die Suche nach Autos reparatur oder Automatismus repariert gemeint gewesen sein könnte. | ||
+ | |||
+ | |||
+ | ==3.3. Satzzeichen== | ||
+ | |||
+ | Fachbegriffe und Produktbezeichnungen zu deren Eigennamen ein Satzzeichen gehört, können nicht effektiv gesucht werden. | ||
+ | |||
+ | ==3.4. Datenmenge== | ||
+ | |||
+ | Das Web wächst schneller als die Suchmaschinen mit der derzeitigen Technik indizieren können. Dabei ist der den Suchmaschinen unbekannte Teil – das so genannte Deep Web – noch gar nicht eingerechnet. | ||
+ | |||
+ | ==3.5. Aktualität== | ||
+ | |||
+ | Viele Webseiten werden häufig aktualisiert, was die Suchmaschinen zwingt, diese Seiten nach definierbaren Regeln (Robots) immer wieder zu besuchen. Dieses ist auch notwendig, um zwischenzeitlich aus der Datenbasis entfernte Dokumente zu erkennen und nicht länger als Ergebnis anzubieten. Das regelmäßige Herunterladen der mehreren Milliarden Dokumente, die eine Suchmaschine im Index hat, stellt große Anforderungen an die Netzwerkressourcen (Traffic) des Suchmaschinenbetreibers | ||
+ | |||
+ | |||
+ | ==3.6. Spam== | ||
+ | |||
+ | Mittels Suchmaschinen-Spamming versuchen manche Website-Betreiber, den Ranking-Algorithmus der Suchmaschinen zu überlisten, um eine bessere Platzierung für gewisse Suchanfragen zu bekommen. Sowohl den Betreibern der Suchmaschine als auch deren Kunden schadet dieses, da nun nicht mehr die relevantesten Dokumente zuerst angezeigt werden. | ||
+ | |||
+ | |||
+ | ==3.7. Technik== | ||
+ | |||
+ | Suchen auf sehr großen Datenmengen so umzusetzen, dass die Verfügbarkeit hoch ist (trotz Hardware-Ausfällen und Netzengpässen) und die Antwortzeiten niedrig (obwohl oft pro Suchanfrage das Lesen und Verarbeiten mehrerer 100 MB Index-Daten erforderlich ist), stellt große Anforderungen an den Suchmaschinenbetreiber. Systeme müssen sehr redundant ausgelegt sein, zum einen auf den Computern vor Ort in einem Rechenzentrum, zum anderen sollte es mehr als ein Rechenzentrum geben, das die komplette Suchmaschinenfunktionalität anbietet. | ||
+ | |||
+ | |||
+ | ==3.8. Recht== | ||
+ | |||
+ | Suchmaschinen werden meistens international betrieben und bieten somit Benutzern Ergebnisse von Servern, die in anderen Ländern stehen. Da die Gesetzgebungen der verschiedenen Länder unterschiedliche Auffassungen davon haben, welche Inhalte erlaubt sind, geraten Betreiber von Suchmaschinen oft unter Druck, gewisse Seiten von ihren Ergebnissen auszuschließen. Die deutschen Internet-Suchmaschinen wollen jugendgefährdende Seiten durch die Freiwillige Selbstkontrolle aus ihren Trefferlisten streichen | ||
+ | |||
+ | |||
+ | |||
+ | ='''4. Verschiedenes'''= | ||
+ | |||
+ | ==4.1. Suchfunktionen== | ||
+ | |||
+ | Eine Suchfunktion ist eine Funktion eines Produkts (oft Software), die es erlaubt, einen bestimmten Datensatz in einer Datenmenge (schnell) zu finden. | ||
+ | |||
+ | ===4.1.1. Verfahren=== | ||
+ | |||
+ | Die Suche läuft dabei wie folgt ab: | ||
+ | • der Suchende legt die Suchkriterien und weitere Parameter zur Steuerung der Funktion fest | ||
+ | • es wird ein Verfahren angewendet um den Datenbestand mit den Suchkriterien zu vergleichen | ||
+ | • es wird der erste oder alle oder die ersten N Treffer des Datenbestands, die zu den Suchkriterien passen, verwendet . | ||
+ | |||
+ | ===4.1.2.Beispiel Telefonbuch=== | ||
+ | |||
+ | Ein Beispiel aus dem Alltag ist das Telefonbuch. Das verwendete Verfahren ist die Index-Sequentielle Suche. | ||
+ | • Zunächst wird über die Reiter am Rand des Telefonbuchs (Index) der erste Buchstabe des gesuchten Namens aufgeschlagen | ||
+ | • Danach werden die nachfolgenden Seiten einzeln (sequentiell) durchlaufen bis der gesuchte Name gefunden ist. | ||
+ | Da das Telefonbuch nach Nachnamen und Vornamen sortiert ist, kann die Suche weiter beschleunigt werden, indem z. B. immer 5 Seiten überblättert werden und dann verglichen wird, ob der zweite Buchstabe des Nachname passt. Falls er kleiner ist springt man wieder einige Seiten zurück. Ansonsten springt man entweder weiter oder fährt mit der sequentiellen Suche fort | ||
+ | |||
+ | |||
+ | ===4.1.3.Suchfunktionen in Software-Programmen=== | ||
+ | |||
+ | In Software-Programmen sind sehr oft komfortable Suchfunktionen verfügbar, die ein schnelles (Dauer wenige Sekunden) Durchsuchen riesiger Datenbestände (Milliarden Datensätze) ermöglichen. Wesentliche Voraussetzung für die schnelle Suche ist die Sortierung bzw. Indizierung der Datenbestände. Die Entwicklung und Realisierung von Suchalgorithmen ist ein Teilgebiet der Informatik. | ||
+ | Der Funktionsumfang häufig verwendeter Suchfunktionen reicht von sehr einfach bei einem einfachen Texteditor (z. B. Notepad.exe bei MS Windows) über detailliert (z. B. Grep-Programm) bis zu sehr komplex (SQL-Datenbanken). | ||
+ | Die Verfügbarkeit einer bedarfsgerechten Suchfunktion ist heute die Grundvoraussetzung für den sinnvollen Einsatz von Programmen. Fehlt eine Suchfunktion, ist dies eine Einschränkung, die es nahelegt, ein anderes Produkt mit ähnlicher Funktion zu verwenden, das eine Suchfunktion bereithält. Selbst eine einfache Suchfunktion ergibt eine spürbare Steigerung der Produktivität beim Arbeiten mit der Anwendung | ||
+ | |||
+ | |||
+ | ==4.1.4.Intelligente Suchfunktion=== | ||
+ | |||
+ | Maß für die Intelligenz der Funktion ist das Verhältnis aus dem Aufwand für die Eingabe von Suchkriterien zur erzielten Treffergenauigkeit bei Einhaltung der akzeptablen Zeit, nach der das erste Suchergebnis verfügbar sein soll. So sollte eine Internet-Suchmaschine nach wenigen Sekunden bei Eingabe eines einzelnen Stichworts die Adresse der Internetseiten zurückliefern, die den maximalen Bezug zu diesem Stichwort haben, und zwar nach absteigender Relevanz sortiert. Tipp- oder Rechtschreibfehler müssen automatisch erkannt werden und ggf. Korrekturvorschläge gemacht werden. Die Eingabe von Suchkriterien unter Verwendung einer bestimmen Syntax ist nur sehr eingeschränkt akzeptabel. Produkte mit einer 'intelligenten' Suchfunktion waren in der jüngsten Vergangenheit sehr erfolgreich. | ||
+ | |||
+ | ===4.1.5.Komplexe Suchfunktion=== | ||
+ | |||
+ | Bei komplexen Suchfunktionen spielt der Aufwand für die Eingabe der Suchkriterien eine untergeordnete Rolle. Sie wird von ausgebildeten Experten durchgeführt und kann u. U. viele Tage dauern. Fast immer ist dazu das Erlernen einer umfangreichen Syntax einer spezialisierten Abfragesprache notwendig. Im Vordergrund steht die Präzision der Suchergebnisse, die Geschwindigkeit und der Ressourcenverbrauch. Es sollte möglich sein, bei der Durchführung zusätzliche Informationen zu gewinnen, z. B. statistische Daten. Bei einem Suchdurchlauf sollte man gleichzeitig nach mehreren Kriterien suchen können. Komplexe Suchfunktionen müssen mit riesigen Datenmengen zurechtkommen, z. B. Milliarden von Dateien oder Datenbanken mit mehreren Terabyte Umfang. | ||
+ | |||
+ | ==4.2. Suchmaschinenoptimiierung== | ||
+ | |||
+ | Suchmaschinenoptimierung oder Search Engine Optimization (SEO) ist ein Fachbegriff für Maßnahmen, die dazu dienen, dass Webseiten auf den Ergebnisseiten von Suchmaschinen auf höheren Plätzen erscheinen | ||
+ | |||
+ | ===4.2.1.Arbeitsweise=== | ||
+ | |||
+ | Suchmaschinenoptimierung berücksichtigt die Vorgehensweise, nach der Webcrawler verschiedener Suchmaschinen Webseiten suchen, deren Inhalte lesen und verarbeiten, nach welchen Kriterien diese bewertet und wie Suchergebnisse zusammengestellt und sortiert werden (Suchmaschinenranking). Die Arbeitsweise der Sortieralgorithmen wird von den Betreibern der Suchmaschinen geheim gehalten und häufig geändert, um Missbrauch zu erschweren und dem Benutzer nur wirklich relevante Ergebnisse zu liefern. Auf sie muss deshalb indirekt durch die Analyse der Suchergebnisse geschlossen werden. Das Aufsuchen und Einlesen der Inhalte von Webseiten folgt dagegen bekannten HTML-Standards des Web, deren Einhaltung bei der Erstellung von Webseiten den ersten und wesentlichen Schritt einer Optimierung darstellt. | ||
+ | Ein weiterer Schritt ist die Auswahl der geeigneten Suchbegriffe. Hierzu kann man sich frei verfügbarer Datenbanken, wie einer Keyword-Datenbank oder dem Metager Web-Assoziator, bedienen. | ||
+ | Die Metatags, welche man im Headbereich einer Homepage einarbeiten kann, verlieren dabei immer mehr an Bedeutung. Um korrekte Suchergebnisse gewährleisten zu können, werden diese von großen Suchmaschinen wie Google kaum noch beachtet. Allein die Meta-Description wird noch zur Anzeige unterhalb des verlinkten Titels in den Suchergebnisseiten (SERPS) genutzt. Wichtig ist viel Text in der betreffenden Internetpräsenz, um möglichst viele Keywordphrasen gewährleisten zu können. Besonders bedeutsam sind außerdem die Wörter, die im Seitentitel (Title-Tag), in ausgewiesenen Überschriften (H1-, H2-Tags usw.), in Textlinks (auch solchen, die auf die betreffende Seite verweisen) sowie innerhalb der URL vorkommen. | ||
+ | |||
+ | ===4.2.2.Traditionelle Suchmaschinenoptimierung=== | ||
+ | |||
+ | Bei der traditionellen Suchmaschinenoptimierung wird üblicherweise eine Seite für ein oder zwei Suchwörter optimiert. Oft wird auch eine umfangreiche Seite in mehrere Einzelseiten aufgeteilt, um diese für verschiedene Suchbegriffe zu optimieren. Dabei werden die Suchwörter mit den entsprechenden Inhalten kombiniert. Dieser (klassische) Bereich zählt zur so genannten „OnPage-Optimierung“; dies bezeichnet alle Methoden und Möglichkeiten, die am Inhalt und der Struktur einer Website durchgeführt werden können. | ||
+ | Mittlerweile genügt es nicht mehr alleine, die Relevanz von Webseiten zu erhöhen. Ein gutes Listing und eine gute Sichtbarkeit in Suchmaschinen sowie die Quantität und Qualität der eingehenden Links auf eine Website (Backlinks) sollten mit in Betracht gezogen werden. Diesen Bereich der Suchmaschinenoptimierung nennt man „OffPage-Optimierung“. | ||
+ | Um Websites auf ihr Potenzial hin zu untersuchen, können kostenlose Online-Tools genutzt werden. Oftmals genügen kleine Veränderungen, um sich in Suchmaschinen auf einer viel besseren Platzierung wiederzufinden. | ||
+ | |||
+ | ===4.2.3.Ethik der Suchmaschinenoptimierung=== | ||
+ | |||
+ | Methoden, die nicht relevante Webseiten auf vordere Plätze der Ergebnisseiten von Suchmaschinen bringen, werden als Suchmaschinen-Spamming bezeichnet; sie verstoßen gegen Regeln, die Suchmaschinen zum Schutz vor Manipulationen ihrer Suchergebnisse aufstellen. So ist es möglich, automatisierte Umleitungen einzurichten, die speziell für Suchmaschinen erstellte Textseiten enthalten. Diese Methode, mit so genannten Brückenseiten zu arbeiten, widerspricht jedoch den Richtlinien der meisten Suchmaschinen. Fälle, die von den Suchmaschinenbetreibern aufgedeckt werden, haben oftmals den Bann der betreffenden Seite zur Folge, d.h. die betreffenden Zielseiten werden aus dem Suchindex ausgeschlossen. | ||
+ | So musste BMW Anfang 2006 kurzfristig hinnehmen, dass das Internetangebot des Automobilkonzernes komplett aus Google entfernt wurde, weil eine Reihe von automatisch weiterleitenden Brückenseiten erstellt wurden.[1] Nachdem BMW die beanstandeten Seiten entfernt hatte, wurde bmw.de wieder in den Google-Index aufgenommen.[2] | ||
+ | Ethische Suchmaschinenoptimierung (engl. white hat search engine optimization) vermeidet Spamming. Sie verzichtet auf verbotene Praktiken wie den Einsatz von Brückenseiten oder einer Linkfarm und befolgt die Direktiven der einzelnen Suchmaschinen. Dadurch wird das Risiko eines Ausschlusses oder der Herabstufung in den Suchergebnisseiten vermieden. | ||
+ | |||
+ | ===4.2.4.Grenzen der Suchmaschinenoptimierung=== | ||
+ | |||
+ | Rein grafisch orientierte, mit Filmen, Bildern und grafisch eingebetteten Texten gestaltete Seiten, wie es z.B. die Programmierung in Flash ermöglicht, bieten den Suchmaschinen kaum auswertbaren Textcode. Die Programmierung einer Webseite ausschließlich in Flash empfiehlt sich daher aus Sicht der Suchmaschinenoptimierung nicht. Von den Suchmaschinenbetreibern wird jedoch daran gearbeitet, reine Flash-Seiten zu durchsuchen und in den Index aufzunehmen. | ||
+ | Um dennoch das Gestaltungspotential animierter Startseiten oder ganzer Internetauftritte in Flash ohne Ranking-Verlust zu ermöglichen, werden teilweise Brückenseiten eingesetzt. Dies widerspricht jedoch den Richtlinien der meisten Suchmaschinen. Derartig „optimierte“ Zielseiten werden, sobald sie bemerkt werden, von Suchmaschinenbetreibern ausgeschlossen. | ||
+ | ==4.3. Business Suchmaschinen== | ||
+ | Business-Suchmaschinen durchsuchen das Internet nach ganz konkreten Inhalten, Informationen, Produkten, Preisen oder Kontakten. Sie existieren neben den bekannten allgemeinen Suchmaschinen wie Google, Yahoo! oder MSN. | ||
+ | Sie haben sich in den letzten Jahren auf Geschäftskunden spezialisiert und durchsuchen Business-to-Business-Verzeichnisse wie Wer liefert was?, Gelbe Seiten Business oder Exportpages. Business-Suchmaschinen greifen dabei auf vorselektierte Quellen und Daten zurück und bearbeiten diese noch redaktionell. | ||
+ | |||
+ | ='''5. Literatur'''= | ||
+ | |||
+ | * Christian Ellwein: ''Suche im Internet für Industrie und Wissenschaft'' Oldenbourg, 2002, ISBN 3-486-27039-7 | ||
+ | * Stefan Karzauninkat: ''Die Suchfibel: Wie findet man Informationen im Internet?'' Klett, 2002, 3. Aufl., ISBN 3-12-238106-0 | ||
+ | * Michael Glöggler: ''Suchmaschinen im Internet'' Springer, 2003, ISBN 3-540-00212-X | ||
+ | * [[Heike Faller]]: „[http://images.zeit.de/text/2005/41/Suchmaschinen_2 David gegen Google]“. In: [[Die Zeit]] Nr. 41/2005, 6. Oktober 2005, S. 17 ff. (Dossier). | ||
+ | * Dirk Lewandowski: „Web Information Retrieval: Technologien zur Suche im Internet“ DGI, 2005, ISBN 3-925474-55-2 [http://www.durchdenken.de/lewandowski/web-ir Online-Version des Buchs] | ||
+ | * Chakrabarti, Soumen (2003), Mining the Web: Discovering Knowledge from Hypertext Data, Morgan-Kauffman | ||
+ | * Rainer Strzolka: ''Suchmaschinenkunde für Bibliothekare, Archivare und Dokumentare'' Koechert, 2006, ISBN 3-922556-96-5 | ||
+ | * Steve Lawrence und C. Lee Giles: ''Accessibility of information on the web'', in: ''[[Nature]]'' 400, 1999, S. 107, {{DOI|10.1038/21987}} | ||
+ | |||
+ | ='''6. Quellen'''= | ||
+ | |||
+ | ='''7. Weblinks'''= | ||
+ | |||
+ | <!-- Vorschläge für neue Weblinks bitte auf der Diskussionsseite eintragen. Insbesondere keine Links zu bestimmten Suchmaschinen eintragen – in diesen Abschnitt sollen etwa fünf Links zum Thema Suchmaschine, keine spezifischen Suchmaschinen. --> | ||
+ | * [http://www.at-web.de/ Nachrichten zum Thema Suchmaschinen] | ||
+ | * [http://www.ososo.de/suchmaschinen-faq/ FAQ der Newsgroup de.comm.infosystems.suchmaschinen] | ||
+ | * [http://www.muenchner-kreis.de/index.php?id=69 ''Suchen und Finden im Internet'' – Vorträge der Fachkonferenz des ''Münchner Kreises''] | ||
+ | * [http://www.suchmaschinen-und-recht.de/ Suchmaschinen & Recht - Aktuelle Urteile und Aufsätze zu Suchmaschinen – SEO-Themen] | ||
+ | * {{dmoz|World/Deutsch/Computer/Internet/Suchen/Suchmaschinen/|Liste von Suchmaschinen}} |
Version vom 29. November 2008, 17:58 Uhr
Inhaltsverzeichnis
1. Was sind Suchmaschinen?
Eine Suchmaschine (search engine) ist ein Programm zur Recherche von veröffentlichten Schriftstücken, die in einem Computernetzwerk gespeichert sind. Das wichtigste, verbreitetste und bekannteste Internet-Computernetzwerk ist das www-World Wide Web ( Weltweites-Netz ). Die Suchanzeigen, z.B. nach Dokumenten, werden über Schlüsselwörter mit einer nach Wichtigkeit geordneten Trefferliste beantwortet. Der jeweilige Datenbestand wird in hierarchischer Form katalogisiert. Die Recherchen werden ferner gewichtet und ebenso für die Anzahl von Suchergebnissen begrenzt, die der Benutzer wünscht. Die Suchmaschine liefert dann eine Liste mit Verweisen auf möglicherweise passende Ergebnisse.
Die wesentlichen Bestandteile bzw. Aufgabenbereiche einer Suchmaschine sind:
• Erstellung und Pflege eines Index über Dokumente, • Verarbeiten von Suchanfragen sowie, • Aufbereitung der Ergebnisse in einer möglichst sinnvollen Form.
Suchmaschinen gibt es seit Beginn der Entwicklung und des Aufstiegs der Personalcomputer, seit Anfang des letzten Jahrzehnts des vorigen Jahrhunderts, das WWW seit 1993. Unter mehr als Hundert Suchmaschinen weltweit, hat sich in den letzten Jahren die Suchmaschine „Google“ eine eindeutige Vormachtstellung erobert, sodass der Name mittlerweile ein Synonym für Suchmaschinen geworden ist.
1.2 Arten der Suchmaschinen
Suchmaschinen lassen sich nach einer Reihe von Merkmalen kategorisieren. Die nachfolgenden Merkmale sind weitgehend unabhängig. Man kann sich beim Entwurf einer Suchmaschine also für eine Möglichkeit aus jeder der drei Merkmalsgruppen entscheiden, ohne dass dies die Wahl der anderen Merkmale beeinflusst.
1.2.1 Datenquellen
Verschiedene Suchmaschinen können unterschiedliche Arten von Daten durchsuchen. Zunächst lassen sich diese grob in „Dokumenttypen“ wie Text, Bild, Ton, Video und andere unterteilen. Ergebnisseiten werden in Abhängigkeit von dieser Gattung gestaltet. Bei einer Suche nach Textdokumenten wird üblicherweise ein Textfragment angezeigt, das die Suchbegriffe enthält. Bildsuchmaschinen zeigen eine Miniaturansicht der passenden Bilder an. Eine weitere feinere Aufgliederung geht auf datenspezifische Eigenschaften ein, die nicht alle Dokumente innerhalb einer Gattung teilen. Bleibt man beim Beispiel Text, so kann bei Usenet-Beiträgen nach bestimmten Autoren gesucht werden, bei Web-Seiten im HTML-Format nach dem Dokumententitel. Je nach Datengattung ist als weitere Funktion eine Einschränkung auf eine Untermenge aller Daten einer Gattung möglich. Dieses wird im Allgemeinen über zusätzliche Suchparameter realisiert, die einen Teil der erfassten Daten ausschließt. Alternativ kann sich eine Suchmaschine darauf beschränken, von Anfang an nur passende Dokumente aufzunehmen. Beispiele sind etwa eine Suchmaschine für Weblogs (statt für das komplette Web) oder Suchmaschinen, die nur Dokumente von Universitäten verarbeiten, oder ausschließlich Dokumente aus einem bestimmten Land, in einer bestimmten Sprache oder einem bestimmten Dateiformat.
1.2.2. Merkmale häufig genutzten Suchmaschinen
Die gängigste und meistgenutzte Kombination von Merkmalen benutzt das WWW als Datenquelle, für Text-Dokumente im HTML-Format und baut zur Realisierung einen Index auf. Die Interpretation der Eingabe erfolgt meist auf der Basis einer einfachen Syntax, bei der etwa durch ein dem vorangestelltes "-" ein Schlüsselwort ausgeschlossen werden kann. Die Suchmaschinen der drei größten Anbieter Google (53,7 %), Yahoo Search (22,7 %) und Microsofts Live Search (8,9 %) arbeiten nach diesem Muster[2], Markanteile in Deutschland: Google (89,2 %), Yahoo (3,3 %) und Live Search (2,2 %)[3].
1.2.3. Interpretationen der Eingaben
Die Suchanfrage eines Nutzers wird vor der eigentlichen Suche interpretiert und in eine für den intern verwendeten Such-Algorithmus verständliche Form gebracht. Dies dient dazu, die Syntax der Anfrage möglichst einfach zu halten und dennoch komplexe Anfragen zu erlauben. Viele Suchmaschinen unterstützen die logische Verknüpfung von verschiedenen Suchworten durch Boolesche Operatoren. Dadurch lassen sich Webseiten finden, die bestimmte Begriffe enthalten, andere jedoch nicht. Eine neuere Entwicklung ist der Versuch, in natürlicher Sprache gefasste Eingaben an die Suchmaschine zu akzeptieren (siehe auch semantische Suchmaschine
2. Suchverhalten der Nutzer
Der Nutzer sucht bei navigationalen Anfragen gezielt nach Seiten, die er bereits kennt, oder von denen er glaubt, sie existieren. Das Informationsbedürfnis des Nutzers ist damit befriedigt.
2.2. Informationsorientiert
Der Nutzer sucht bei informationalen Anfragen eine Vielzahl von Angaben zu bestimmten Themengebieten. Mit erhalt der Information ist die Suche beendet.
2.3. Transaktionsorientiert
Der Nutzer sucht bei transaktionalen Anfragen nach Internetseiten mit denen er zu arbeiten gedenkt. Dies sind zum Beispiel Internetshops.
3. Probleme bei Suchmaschinen
3.1. Mehrdeutigkeit
Suchmaschinen können nicht selbständig entscheiden welcher Begriff wirklich gesucht werden soll. Mann sollte auch immer Synonyme mit eingeben, damit der richtige Begriff gefunden wird.
3.2. Grammatik
Viele mögliche Treffer gehen verloren, weil der Nutzer nach einer bestimmten grammatikalischen Form eines Suchbegriffes sucht. So findet die Suche nach dem Begriff Auto zwar alle im Suchindex enthaltenen Seiten, die diesen Begriff enthalten, nicht aber jene mit dem Begriff Autos. Manche Suchmaschinen erlauben die Suche mittels Wildcards, mit denen sich dieses Problem teilweise umgehen lässt (z. B. berücksichtigt die Suchanfrage Auto* auch den Begriff Autos oder Automatismus), allerdings muss der Nutzer die Möglichkeit auch kennen. Weiterhin wird oft Stemming verwendet, dabei werden Wörter auf ihren Grundstamm reduziert. So ist einerseits eine Abfrage nach ähnlichen Wortformen möglich (schöne Blumen findet so auch schöner Blume), außerdem wird die Anzahl der Begriffe im Index reduziert. Eine weitere Möglichkeit ist der Einsatz statistischer Verfahren, mit denen die Suchmaschine die Anfrage z. B. durch das Auftauchen verschiedener verwandter Begriffe auf Webseiten danach bewertet, ob mit der Suche nach Auto reparieren auch die Suche nach Autos reparatur oder Automatismus repariert gemeint gewesen sein könnte.
3.3. Satzzeichen
Fachbegriffe und Produktbezeichnungen zu deren Eigennamen ein Satzzeichen gehört, können nicht effektiv gesucht werden.
3.4. Datenmenge
Das Web wächst schneller als die Suchmaschinen mit der derzeitigen Technik indizieren können. Dabei ist der den Suchmaschinen unbekannte Teil – das so genannte Deep Web – noch gar nicht eingerechnet.
3.5. Aktualität
Viele Webseiten werden häufig aktualisiert, was die Suchmaschinen zwingt, diese Seiten nach definierbaren Regeln (Robots) immer wieder zu besuchen. Dieses ist auch notwendig, um zwischenzeitlich aus der Datenbasis entfernte Dokumente zu erkennen und nicht länger als Ergebnis anzubieten. Das regelmäßige Herunterladen der mehreren Milliarden Dokumente, die eine Suchmaschine im Index hat, stellt große Anforderungen an die Netzwerkressourcen (Traffic) des Suchmaschinenbetreibers
3.6. Spam
Mittels Suchmaschinen-Spamming versuchen manche Website-Betreiber, den Ranking-Algorithmus der Suchmaschinen zu überlisten, um eine bessere Platzierung für gewisse Suchanfragen zu bekommen. Sowohl den Betreibern der Suchmaschine als auch deren Kunden schadet dieses, da nun nicht mehr die relevantesten Dokumente zuerst angezeigt werden.
3.7. Technik
Suchen auf sehr großen Datenmengen so umzusetzen, dass die Verfügbarkeit hoch ist (trotz Hardware-Ausfällen und Netzengpässen) und die Antwortzeiten niedrig (obwohl oft pro Suchanfrage das Lesen und Verarbeiten mehrerer 100 MB Index-Daten erforderlich ist), stellt große Anforderungen an den Suchmaschinenbetreiber. Systeme müssen sehr redundant ausgelegt sein, zum einen auf den Computern vor Ort in einem Rechenzentrum, zum anderen sollte es mehr als ein Rechenzentrum geben, das die komplette Suchmaschinenfunktionalität anbietet.
3.8. Recht
Suchmaschinen werden meistens international betrieben und bieten somit Benutzern Ergebnisse von Servern, die in anderen Ländern stehen. Da die Gesetzgebungen der verschiedenen Länder unterschiedliche Auffassungen davon haben, welche Inhalte erlaubt sind, geraten Betreiber von Suchmaschinen oft unter Druck, gewisse Seiten von ihren Ergebnissen auszuschließen. Die deutschen Internet-Suchmaschinen wollen jugendgefährdende Seiten durch die Freiwillige Selbstkontrolle aus ihren Trefferlisten streichen
4. Verschiedenes
4.1. Suchfunktionen
Eine Suchfunktion ist eine Funktion eines Produkts (oft Software), die es erlaubt, einen bestimmten Datensatz in einer Datenmenge (schnell) zu finden.
4.1.1. Verfahren
Die Suche läuft dabei wie folgt ab: • der Suchende legt die Suchkriterien und weitere Parameter zur Steuerung der Funktion fest • es wird ein Verfahren angewendet um den Datenbestand mit den Suchkriterien zu vergleichen • es wird der erste oder alle oder die ersten N Treffer des Datenbestands, die zu den Suchkriterien passen, verwendet .
4.1.2.Beispiel Telefonbuch
Ein Beispiel aus dem Alltag ist das Telefonbuch. Das verwendete Verfahren ist die Index-Sequentielle Suche. • Zunächst wird über die Reiter am Rand des Telefonbuchs (Index) der erste Buchstabe des gesuchten Namens aufgeschlagen • Danach werden die nachfolgenden Seiten einzeln (sequentiell) durchlaufen bis der gesuchte Name gefunden ist. Da das Telefonbuch nach Nachnamen und Vornamen sortiert ist, kann die Suche weiter beschleunigt werden, indem z. B. immer 5 Seiten überblättert werden und dann verglichen wird, ob der zweite Buchstabe des Nachname passt. Falls er kleiner ist springt man wieder einige Seiten zurück. Ansonsten springt man entweder weiter oder fährt mit der sequentiellen Suche fort
4.1.3.Suchfunktionen in Software-Programmen
In Software-Programmen sind sehr oft komfortable Suchfunktionen verfügbar, die ein schnelles (Dauer wenige Sekunden) Durchsuchen riesiger Datenbestände (Milliarden Datensätze) ermöglichen. Wesentliche Voraussetzung für die schnelle Suche ist die Sortierung bzw. Indizierung der Datenbestände. Die Entwicklung und Realisierung von Suchalgorithmen ist ein Teilgebiet der Informatik. Der Funktionsumfang häufig verwendeter Suchfunktionen reicht von sehr einfach bei einem einfachen Texteditor (z. B. Notepad.exe bei MS Windows) über detailliert (z. B. Grep-Programm) bis zu sehr komplex (SQL-Datenbanken). Die Verfügbarkeit einer bedarfsgerechten Suchfunktion ist heute die Grundvoraussetzung für den sinnvollen Einsatz von Programmen. Fehlt eine Suchfunktion, ist dies eine Einschränkung, die es nahelegt, ein anderes Produkt mit ähnlicher Funktion zu verwenden, das eine Suchfunktion bereithält. Selbst eine einfache Suchfunktion ergibt eine spürbare Steigerung der Produktivität beim Arbeiten mit der Anwendung
4.1.4.Intelligente Suchfunktion=
Maß für die Intelligenz der Funktion ist das Verhältnis aus dem Aufwand für die Eingabe von Suchkriterien zur erzielten Treffergenauigkeit bei Einhaltung der akzeptablen Zeit, nach der das erste Suchergebnis verfügbar sein soll. So sollte eine Internet-Suchmaschine nach wenigen Sekunden bei Eingabe eines einzelnen Stichworts die Adresse der Internetseiten zurückliefern, die den maximalen Bezug zu diesem Stichwort haben, und zwar nach absteigender Relevanz sortiert. Tipp- oder Rechtschreibfehler müssen automatisch erkannt werden und ggf. Korrekturvorschläge gemacht werden. Die Eingabe von Suchkriterien unter Verwendung einer bestimmen Syntax ist nur sehr eingeschränkt akzeptabel. Produkte mit einer 'intelligenten' Suchfunktion waren in der jüngsten Vergangenheit sehr erfolgreich.
4.1.5.Komplexe Suchfunktion
Bei komplexen Suchfunktionen spielt der Aufwand für die Eingabe der Suchkriterien eine untergeordnete Rolle. Sie wird von ausgebildeten Experten durchgeführt und kann u. U. viele Tage dauern. Fast immer ist dazu das Erlernen einer umfangreichen Syntax einer spezialisierten Abfragesprache notwendig. Im Vordergrund steht die Präzision der Suchergebnisse, die Geschwindigkeit und der Ressourcenverbrauch. Es sollte möglich sein, bei der Durchführung zusätzliche Informationen zu gewinnen, z. B. statistische Daten. Bei einem Suchdurchlauf sollte man gleichzeitig nach mehreren Kriterien suchen können. Komplexe Suchfunktionen müssen mit riesigen Datenmengen zurechtkommen, z. B. Milliarden von Dateien oder Datenbanken mit mehreren Terabyte Umfang.
4.2. Suchmaschinenoptimiierung
Suchmaschinenoptimierung oder Search Engine Optimization (SEO) ist ein Fachbegriff für Maßnahmen, die dazu dienen, dass Webseiten auf den Ergebnisseiten von Suchmaschinen auf höheren Plätzen erscheinen
4.2.1.Arbeitsweise
Suchmaschinenoptimierung berücksichtigt die Vorgehensweise, nach der Webcrawler verschiedener Suchmaschinen Webseiten suchen, deren Inhalte lesen und verarbeiten, nach welchen Kriterien diese bewertet und wie Suchergebnisse zusammengestellt und sortiert werden (Suchmaschinenranking). Die Arbeitsweise der Sortieralgorithmen wird von den Betreibern der Suchmaschinen geheim gehalten und häufig geändert, um Missbrauch zu erschweren und dem Benutzer nur wirklich relevante Ergebnisse zu liefern. Auf sie muss deshalb indirekt durch die Analyse der Suchergebnisse geschlossen werden. Das Aufsuchen und Einlesen der Inhalte von Webseiten folgt dagegen bekannten HTML-Standards des Web, deren Einhaltung bei der Erstellung von Webseiten den ersten und wesentlichen Schritt einer Optimierung darstellt. Ein weiterer Schritt ist die Auswahl der geeigneten Suchbegriffe. Hierzu kann man sich frei verfügbarer Datenbanken, wie einer Keyword-Datenbank oder dem Metager Web-Assoziator, bedienen. Die Metatags, welche man im Headbereich einer Homepage einarbeiten kann, verlieren dabei immer mehr an Bedeutung. Um korrekte Suchergebnisse gewährleisten zu können, werden diese von großen Suchmaschinen wie Google kaum noch beachtet. Allein die Meta-Description wird noch zur Anzeige unterhalb des verlinkten Titels in den Suchergebnisseiten (SERPS) genutzt. Wichtig ist viel Text in der betreffenden Internetpräsenz, um möglichst viele Keywordphrasen gewährleisten zu können. Besonders bedeutsam sind außerdem die Wörter, die im Seitentitel (Title-Tag), in ausgewiesenen Überschriften (H1-, H2-Tags usw.), in Textlinks (auch solchen, die auf die betreffende Seite verweisen) sowie innerhalb der URL vorkommen.
4.2.2.Traditionelle Suchmaschinenoptimierung
Bei der traditionellen Suchmaschinenoptimierung wird üblicherweise eine Seite für ein oder zwei Suchwörter optimiert. Oft wird auch eine umfangreiche Seite in mehrere Einzelseiten aufgeteilt, um diese für verschiedene Suchbegriffe zu optimieren. Dabei werden die Suchwörter mit den entsprechenden Inhalten kombiniert. Dieser (klassische) Bereich zählt zur so genannten „OnPage-Optimierung“; dies bezeichnet alle Methoden und Möglichkeiten, die am Inhalt und der Struktur einer Website durchgeführt werden können. Mittlerweile genügt es nicht mehr alleine, die Relevanz von Webseiten zu erhöhen. Ein gutes Listing und eine gute Sichtbarkeit in Suchmaschinen sowie die Quantität und Qualität der eingehenden Links auf eine Website (Backlinks) sollten mit in Betracht gezogen werden. Diesen Bereich der Suchmaschinenoptimierung nennt man „OffPage-Optimierung“. Um Websites auf ihr Potenzial hin zu untersuchen, können kostenlose Online-Tools genutzt werden. Oftmals genügen kleine Veränderungen, um sich in Suchmaschinen auf einer viel besseren Platzierung wiederzufinden.
4.2.3.Ethik der Suchmaschinenoptimierung
Methoden, die nicht relevante Webseiten auf vordere Plätze der Ergebnisseiten von Suchmaschinen bringen, werden als Suchmaschinen-Spamming bezeichnet; sie verstoßen gegen Regeln, die Suchmaschinen zum Schutz vor Manipulationen ihrer Suchergebnisse aufstellen. So ist es möglich, automatisierte Umleitungen einzurichten, die speziell für Suchmaschinen erstellte Textseiten enthalten. Diese Methode, mit so genannten Brückenseiten zu arbeiten, widerspricht jedoch den Richtlinien der meisten Suchmaschinen. Fälle, die von den Suchmaschinenbetreibern aufgedeckt werden, haben oftmals den Bann der betreffenden Seite zur Folge, d.h. die betreffenden Zielseiten werden aus dem Suchindex ausgeschlossen. So musste BMW Anfang 2006 kurzfristig hinnehmen, dass das Internetangebot des Automobilkonzernes komplett aus Google entfernt wurde, weil eine Reihe von automatisch weiterleitenden Brückenseiten erstellt wurden.[1] Nachdem BMW die beanstandeten Seiten entfernt hatte, wurde bmw.de wieder in den Google-Index aufgenommen.[2] Ethische Suchmaschinenoptimierung (engl. white hat search engine optimization) vermeidet Spamming. Sie verzichtet auf verbotene Praktiken wie den Einsatz von Brückenseiten oder einer Linkfarm und befolgt die Direktiven der einzelnen Suchmaschinen. Dadurch wird das Risiko eines Ausschlusses oder der Herabstufung in den Suchergebnisseiten vermieden.
4.2.4.Grenzen der Suchmaschinenoptimierung
Rein grafisch orientierte, mit Filmen, Bildern und grafisch eingebetteten Texten gestaltete Seiten, wie es z.B. die Programmierung in Flash ermöglicht, bieten den Suchmaschinen kaum auswertbaren Textcode. Die Programmierung einer Webseite ausschließlich in Flash empfiehlt sich daher aus Sicht der Suchmaschinenoptimierung nicht. Von den Suchmaschinenbetreibern wird jedoch daran gearbeitet, reine Flash-Seiten zu durchsuchen und in den Index aufzunehmen. Um dennoch das Gestaltungspotential animierter Startseiten oder ganzer Internetauftritte in Flash ohne Ranking-Verlust zu ermöglichen, werden teilweise Brückenseiten eingesetzt. Dies widerspricht jedoch den Richtlinien der meisten Suchmaschinen. Derartig „optimierte“ Zielseiten werden, sobald sie bemerkt werden, von Suchmaschinenbetreibern ausgeschlossen.
==4.3. Business Suchmaschinen==
Business-Suchmaschinen durchsuchen das Internet nach ganz konkreten Inhalten, Informationen, Produkten, Preisen oder Kontakten. Sie existieren neben den bekannten allgemeinen Suchmaschinen wie Google, Yahoo! oder MSN. Sie haben sich in den letzten Jahren auf Geschäftskunden spezialisiert und durchsuchen Business-to-Business-Verzeichnisse wie Wer liefert was?, Gelbe Seiten Business oder Exportpages. Business-Suchmaschinen greifen dabei auf vorselektierte Quellen und Daten zurück und bearbeiten diese noch redaktionell.
5. Literatur
- Christian Ellwein: Suche im Internet für Industrie und Wissenschaft Oldenbourg, 2002, ISBN 3-486-27039-7
- Stefan Karzauninkat: Die Suchfibel: Wie findet man Informationen im Internet? Klett, 2002, 3. Aufl., ISBN 3-12-238106-0
- Michael Glöggler: Suchmaschinen im Internet Springer, 2003, ISBN 3-540-00212-X
- Heike Faller: „David gegen Google“. In: Die Zeit Nr. 41/2005, 6. Oktober 2005, S. 17 ff. (Dossier).
- Dirk Lewandowski: „Web Information Retrieval: Technologien zur Suche im Internet“ DGI, 2005, ISBN 3-925474-55-2 Online-Version des Buchs
- Chakrabarti, Soumen (2003), Mining the Web: Discovering Knowledge from Hypertext Data, Morgan-Kauffman
- Rainer Strzolka: Suchmaschinenkunde für Bibliothekare, Archivare und Dokumentare Koechert, 2006, ISBN 3-922556-96-5
- Steve Lawrence und C. Lee Giles: Accessibility of information on the web, in: Nature 400, 1999, S. 107, Vorlage:DOI