Suchmaschinen
Inhaltsverzeichnis
Was sind Suchmaschinen?
Eine Suchmaschine (search engine) ist ein Programm zur Recherche von veröffentlichten Schriftstücken, die in einem Computernetzwerk gespeichert sind. Das wichtigste, verbreitetste und bekannteste Internet-Computernetzwerk ist das www-World Wide Web ( Weltweites-Netz ).
Die Suchanzeigen, z.B. nach Dokumenten, werden über Schlüsselwörter mit einer nach Wichtigkeit geordneten Trefferliste beantwortet. Der jeweilige Datenbestand wird in hierarchischer Form katalogisiert. Die Recherchen werden ferner gewichtet und ebenso für die Anzahl von Suchergebnissen begrenzt, die der Benutzer wünscht. Die Suchmaschine liefert dann eine Liste mit Verweisen auf möglicherweise passende Ergebnisse.
Leider gibt es auch viele Probleme bei Suchmaschinen, wodurch nicht immer das gewünschte Ergebnis erzielt werden kann.
Die wesentlichen Bestandteile bzw. Aufgabenbereiche einer Suchmaschine sind:
- • Erstellung und Pflege eines Index über Dokumente,
- • Verarbeiten von Suchanfragen sowie,
- • Aufbereitung der Ergebnisse in einer möglichst sinnvollen Form.
Suchmaschinen gibt es seit Beginn der Entwicklung und des Aufstiegs der Personalcomputer, seit Anfang des letzten Jahrzehnts des vorigen Jahrhunderts, das WWW seit 1993.
Unter mehr als Hundert Suchmaschinen weltweit, hat sich in den letzten Jahren die Suchmaschine „Google“ eine eindeutige Vormachtstellung erobert, sodass der Name mittlerweile ein Synonym für Suchmaschinen geworden ist.
Arten der Suchmaschinen
Suchmaschinen lassen sich nach einer Reihe von Merkmalen kategorisieren. Die nachfolgenden Merkmale sind weitgehend unabhängig. Man kann sich beim Entwurf einer Suchmaschine also für eine Möglichkeit aus jeder der drei Merkmalsgruppen entscheiden, ohne dass dies die Wahl der anderen Merkmale beeinflusst.
Datenquellen
Verschiedene Suchmaschinen können unterschiedliche Arten von Daten durchsuchen. Zunächst lassen sich diese grob in „Dokumenttypen“ wie Text, Bild, Ton, Video und andere unterteilen. Ergebnisseiten werden in Abhängigkeit von dieser Gattung gestaltet. Bei einer Suche nach Textdokumenten wird üblicherweise ein Textfragment angezeigt, das die Suchbegriffe enthält. Bildsuchmaschinen zeigen eine Miniaturansicht der passenden Bilder an.
Eine weitere feinere Aufgliederung geht auf datenspezifische Eigenschaften ein, die nicht alle Dokumente innerhalb einer Gattung teilen. Bleibt man beim Beispiel Text, so kann bei Usenet-Beiträgen nach bestimmten Autoren gesucht werden, bei Web-Seiten im HTML-Format nach dem Dokumententitel.
Je nach Datengattung ist als weitere Funktion eine Einschränkung auf eine Untermenge aller Daten einer Gattung möglich. Dieses wird im Allgemeinen über zusätzliche Suchparameter realisiert, die einen Teil der erfassten Daten ausschließt. Alternativ kann sich eine Suchmaschine darauf beschränken, von Anfang an nur passende Dokumente aufzunehmen. Beispiele sind etwa eine Suchmaschine für Weblogs (statt für das komplette Web) oder Suchmaschinen, die nur Dokumente von Universitäten verarbeiten,
oder ausschließlich Dokumente aus einem bestimmten Land, in einer bestimmten Sprache oder einem bestimmten Dateiformat.
Merkmale häufig genutzten Suchmaschinen
Die gängigste und meistgenutzte Kombination von Merkmalen benutzt das WWW als Datenquelle, für Text-Dokumente im HTML-Format und baut zur Realisierung einen Index auf.
Die Interpretation der Eingabe erfolgt meist auf der Basis einer einfachen Syntax, bei der etwa durch ein dem vorangestelltes "-" ein Schlüsselwort ausgeschlossen werden kann.
Die Suchmaschinen der drei größten Anbieter Google (53,7 %), Yahoo Search (22,7 %) und Microsofts Live Search (8,9 %) arbeiten nach diesem Muster,
Markanteile in Deutschland: Google (89,2 %), Yahoo (3,3 %) und Live Search (2,2 %),
Interpretationen der Eingaben
Die Suchanfrage eines Nutzers wird vor der eigentlichen Suche interpretiert und in eine für den intern verwendeten Such-Algorithmus verständliche Form gebracht. Dies dient dazu,
die Syntax der Anfrage möglichst einfach zu halten und dennoch komplexe Anfragen zu erlauben. Viele Suchmaschinen unterstützen die logische Verknüpfung von verschiedenen Suchworten durch Boolesche Operatoren. Dadurch lassen sich Webseiten finden, die bestimmte Begriffe enthalten, andere jedoch nicht.
Eine neuere Entwicklung ist der Versuch,
in natürlicher Sprache gefasste Eingaben an die Suchmaschine zu akzeptieren (siehe auch semantische Suchmaschine
Suchverhalten der Nutzer
Der Nutzer sucht bei navigationalen Anfragen gezielt nach Seiten, die er bereits kennt, oder von denen er glaubt, sie existieren.
Das Informationsbedürfnis des Nutzers ist damit befriedigt.
Informationsorientiert
Der Nutzer sucht bei informationalen Anfragen eine Vielzahl von Angaben zu bestimmten Themengebieten. Mit erhalt der Information ist die Suche beendet.
Transaktionsorientiert
Der Nutzer sucht bei transaktionalen Anfragen nach Internetseiten mit denen er zu arbeiten gedenkt. Dies sind zum Beispiel Internetshops
Verschiedenes
Suchfunktionen
Eine Suchfunktion ist eine Funktion eines Produkts (oft Software), die es erlaubt, einen bestimmten Datensatz in einer Datenmenge (schnell) zu finden.
Verfahren
Die Suche läuft dabei wie folgt ab:
- •
der Suchende legt die Suchkriterien und weitere Parameter zur Steuerung der Funktion fest.
- •
es wird ein Verfahren angewendet um den Datenbestand mit den Suchkriterien zu vergleichen.
- •
es wird der erste oder alle oder die ersten N Treffer des Datenbestands, die zu den Suchkriterien passen, verwendet.
- •
Beispiel Telefonbuch
Ein Beispiel aus dem Alltag ist das Telefonbuch. Das verwendete Verfahren ist die Index-Sequentielle Suche.
- • Zunächst wird über die Reiter am Rand des Telefonbuchs (Index) der erste Buchstabe des gesuchten Namens aufgeschlagen
- • Danach werden die nachfolgenden Seiten einzeln (sequentiell) durchlaufen bis der gesuchte Name gefunden ist.
Da das Telefonbuch nach Nachnamen und Vornamen sortiert ist, kann die Suche weiter beschleunigt werden, indem z. B. immer 5 Seiten überblättert werden und dann verglichen wird,
ob der zweite Buchstabe des Nachname passt. Falls er kleiner ist springt man wieder einige Seiten zurück. Ansonsten springt man entweder weiter oder fährt mit der sequentiellen
Suche fort.
Suchfunktionen in Software-Programmen
In Software-Programmen sind sehr oft komfortable Suchfunktionen verfügbar, die ein schnelles (Dauer wenige Sekunden) Durchsuchen riesiger Datenbestände (Milliarden Datensätze) ermöglichen. Wesentliche Voraussetzung für die schnelle Suche ist die Sortierung bzw. Indizierung der Datenbestände. Die Entwicklung und Realisierung von Suchalgorithmen ist ein Teilgebiet der Informatik. Der Funktionsumfang häufig verwendeter Suchfunktionen reicht von sehr einfach bei einem einfachen Texteditor (z. B. Notepad.exe bei MS Windows) über detailliert (z. B. Grep-Programm) bis zu sehr komplex (SQL-Datenbanken). Die Verfügbarkeit einer bedarfsgerechten Suchfunktion ist heute die Grundvoraussetzung für den sinnvollen Einsatz von Programmen. Fehlt eine Suchfunktion, ist dies eine Einschränkung, die es nahelegt, ein anderes Produkt mit ähnlicher Funktion zu verwenden, das eine Suchfunktion bereithält. Selbst eine einfache Suchfunktion ergibt eine spürbare Steigerung der Produktivität beim Arbeiten mit der Anwendung
Intelligente Suchfunktion
Maß für die Intelligenz der Funktion ist das Verhältnis aus dem Aufwand für die Eingabe von Suchkriterien zur erzielten Treffergenauigkeit bei Einhaltung der akzeptablen Zeit, nach der das erste Suchergebnis verfügbar sein soll. So sollte eine Internet-Suchmaschine nach wenigen Sekunden bei Eingabe eines einzelnen Stichworts die Adresse der Internetseiten zurückliefern, die den maximalen Bezug zu diesem Stichwort haben, und zwar nach absteigender Relevanz sortiert. Tipp- oder Rechtschreibfehler müssen automatisch erkannt werden und ggf. Korrekturvorschläge gemacht werden. Die Eingabe von Suchkriterien unter Verwendung einer bestimmen Syntax ist nur sehr eingeschränkt akzeptabel. Produkte mit einer 'intelligenten' Suchfunktion waren in der jüngsten Vergangenheit sehr erfolgreich.
Komplexe Suchfunktion
Bei komplexen Suchfunktionen spielt der Aufwand für die Eingabe der Suchkriterien eine untergeordnete Rolle. Sie wird von ausgebildeten Experten durchgeführt und kann u. U. viele Tage dauern. Fast immer ist dazu das Erlernen einer umfangreichen Syntax einer spezialisierten Abfragesprache notwendig. Im Vordergrund steht die Präzision der Suchergebnisse, die Geschwindigkeit und der Ressourcenverbrauch. Es sollte möglich sein, bei der Durchführung zusätzliche Informationen zu gewinnen, z. B. statistische Daten. Bei einem Suchdurchlauf sollte man gleichzeitig nach mehreren Kriterien suchen können. Komplexe Suchfunktionen müssen mit riesigen Datenmengen zurechtkommen, z. B. Milliarden von Dateien oder Datenbanken mit mehreren Terabyte Umfang.
Suchmaschinenoptimiierung
Suchmaschinenoptimierung ist ein Fachbegriff für Maßnahmen, die dazu dienen, dass Webseiten auf den Ergebnisseiten von Suchmaschinen auf höheren Plätzen erscheinen
Arbeitsweise
Suchmaschinenoptimierung berücksichtigt die Vorgehensweise, nach der Webcrawler verschiedener Suchmaschinen Webseiten suchen, deren Inhalte lesen und verarbeiten,
nach welchen Kriterien diese bewertet und wie Suchergebnisse zusammengestellt und sortiert werden (Suchmaschinenranking). Die Arbeitsweise der Sortieralgorithmen wird von den Betreibern der Suchmaschinen geheim gehalten und häufig geändert, um Missbrauch zu erschweren und dem Benutzer nur wirklich relevante Ergebnisse zu liefern. Auf sie muss deshalb indirekt durch die Analyse der Suchergebnisse geschlossen werden. Das Aufsuchen und Einlesen der Inhalte von Webseiten folgt dagegen bekannten HTML-Standards des Web,
deren Einhaltung bei der Erstellung von Webseiten den ersten und wesentlichen Schritt einer Optimierung darstellt.
Ein weiterer Schritt ist die Auswahl der geeigneten Suchbegriffe.
Hierzu kann man sich frei verfügbarer Datenbanken, wie einer Keyword-Datenbank oder dem Metager Web-Assoziator, bedienen.
Die Metatags, welche man im Headbereich einer Homepage einarbeiten kann, verlieren dabei immer mehr an Bedeutung. Um korrekte Suchergebnisse gewährleisten zu können, werden diese von großen Suchmaschinen wie Google kaum noch beachtet. Allein die Meta-Description wird noch zur Anzeige unterhalb des verlinkten Titels in den Suchergebnisseiten (SERPS) genutzt. Wichtig ist viel Text in der betreffenden Internetpräsenz, um möglichst viele Keywordphrasen gewährleisten zu können. Besonders bedeutsam sind außerdem die Wörter, die im Seitentitel (Title-Tag),
in ausgewiesenen Überschriften (H1-, H2-Tags usw.), in Textlinks (auch solchen, die auf die betreffende Seite verweisen) sowie innerhalb der URL vorkommen.
Traditionelle Suchmaschinenoptimierung
Bei der traditionellen Suchmaschinenoptimierung wird üblicherweise eine Seite für ein oder zwei Suchwörter optimiert. Oft wird auch eine umfangreiche Seite in mehrere Einzelseiten aufgeteilt, um diese für verschiedene Suchbegriffe zu optimieren. Dabei werden die Suchwörter mit den entsprechenden Inhalten kombiniert. Dieser (klassische) Bereich zählt zur so genannten „OnPage-Optimierung“; dies bezeichnet alle Methoden und Möglichkeiten, die am Inhalt und der Struktur einer Website durchgeführt werden können.
Mittlerweile genügt es nicht mehr alleine, die Relevanz von Webseiten zu erhöhen. Ein gutes Listing und eine gute Sichtbarkeit in Suchmaschinen sowie die Quantität und Qualität der eingehenden Links auf eine Website (Backlinks) sollten mit in Betracht gezogen werden. Diesen Bereich der Suchmaschinenoptimierung nennt man „OffPage-Optimierung“.
Um Websites auf ihr Potenzial hin
zu untersuchen, können kostenlose Online-Tools genutzt werden. Oftmals genügen kleine Veränderungen, um sich in Suchmaschinen auf einer viel besseren Platzierung wiederzufinden.
Ethik der Suchmaschinenoptimierung
Methoden, die nicht relevante Webseiten auf vordere Plätze der Ergebnisseiten von Suchmaschinen bringen, werden als Suchmaschinen-Spamming bezeichnet; sie verstoßen gegen Regeln, die Suchmaschinen zum Schutz vor Manipulationen ihrer Suchergebnisse aufstellen. So ist es möglich, automatisierte Umleitungen einzurichten, die speziell für Suchmaschinen erstellte Textseiten enthalten. Diese Methode, mit so genannten Brückenseiten zu arbeiten, widerspricht jedoch den Richtlinien der meisten Suchmaschinen. Fälle, die von den Suchmaschinenbetreibern aufgedeckt werden, haben oftmals den Bann der betreffenden Seite zur Folge, d.h. die betreffenden Zielseiten werden aus dem Suchindex ausgeschlossen.
So musste BMW Anfang 2006 kurzfristig hinnehmen, dass das Internetangebot des Automobilkonzernes komplett aus Google entfernt wurde, weil eine Reihe von automatisch weiterleitenden Brückenseiten erstellt wurden. Nachdem BMW die beanstandeten Seiten entfernt hatte, wurde bmw.de wieder in den Google-Index aufgenommen.
Ethische Suchmaschinenoptimierung (engl. white hat search engine optimization) vermeidet Spamming. Sie verzichtet auf verbotene Praktiken wie den Einsatz von Brückenseiten oder einer Linkfarm und befolgt die Direktiven der einzelnen Suchmaschinen. Dadurch wird das Risiko eines Ausschlusses oder der Herabstufung in den Suchergebnisseiten vermieden
Grenzen der Suchmaschinenoptimierung
Rein grafisch orientierte, mit Filmen, Bildern und grafisch eingebetteten Texten gestaltete Seiten, wie es z.B. die Programmierung in Flash ermöglicht, bieten den Suchmaschinen kaum auswertbaren Textcode. Die Programmierung einer Webseite ausschließlich in Flash empfiehlt sich daher aus Sicht der Suchmaschinenoptimierung nicht. Von den Suchmaschinenbetreibern wird jedoch daran gearbeitet, reine Flash-Seiten zu durchsuchen und in den Index aufzunehmen. Um dennoch das Gestaltungspotential animierter Startseiten oder ganzer Internetauftritte in Flash ohne Ranking-Verlust zu ermöglichen, werden teilweise Brückenseiten eingesetzt. Dies widerspricht jedoch den Richtlinien der meisten Suchmaschinen. Derartig „optimierte“ Zielseiten werden, sobald sie bemerkt werden, von Suchmaschinenbetreibern ausgeschlossen.
Business Suchmaschinen
Business-Suchmaschinen durchsuchen das Internet nach ganz konkreten Inhalten, Informationen, Produkten, Preisen oder Kontakten. Sie existieren neben den bekannten allgemeinen Suchmaschinen wie Google, Yahoo! oder MSN. Sie haben sich in den letzten Jahren auf Geschäftskunden spezialisiert und durchsuchen Business-to-Business-Verzeichnisse wie Wer liefert was?, Gelbe Seiten Business oder Exportpages. Business-Suchmaschinen greifen dabei auf vorselektierte Quellen und Daten zurück und bearbeiten diese noch redaktionell.