Suchtechnologien
Human head and brain. Different kind of waveforms produced by brain activity shown on background. Digital illustration.
Jeder von uns war mehr als einmal mit dem Problem konfrontiert, nach Informationen zu suchen. Unabhängig von der Datenquelle, die wir verwenden (Internet, Dateisystem auf unserer Festplatte, Datenbank oder ein globales Informationssystem eines großen Unternehmens), können die Probleme vielfältig sein und das physische Volumen der durchsuchten Datenbank umfassen, da die Informationen unstrukturiert sind , unterschiedliche Dateitypen und auch die Komplexität der genauen Formulierung der Suchanfrage. Wir sind bereits so weit, dass die Datenmenge auf einem einzelnen PC vergleichbar ist mit der Menge an Textdaten, die in einer richtigen Bibliothek gespeichert sind. Und was die unstrukturierten Datenströme betrifft, so werden sie in Zukunft nur noch zunehmen, und zwar in einem sehr schnellen Tempo. Wenn dies für einen durchschnittlichen Benutzer nur ein kleines Unglück ist, kann die fehlende Kontrolle über Informationen für ein großes Unternehmen erhebliche Probleme bedeuten. Die Notwendigkeit, Suchsysteme und -technologien zu schaffen, die den Zugriff auf die erforderlichen Informationen vereinfachen und beschleunigen, entstand also schon vor langer Zeit. Solche Systeme sind zahlreich und zudem basiert nicht jedes auf einer einzigartigen Technologie. Und die Aufgabe, die richtige auszuwählen, hängt direkt von den konkreten Aufgaben ab, die in Zukunft gelöst werden sollen. Während die Nachfrage nach den perfekten Datensuch- und -verarbeitungstools stetig wächst, betrachten wir den Stand der Dinge auf der Angebotsseite.
Ohne auf die verschiedenen Besonderheiten der Technologie einzugehen, können alle Suchprogramme und -systeme in drei Gruppen eingeteilt werden. Diese sind: globale Internetsysteme, schlüsselfertige Geschäftslösungen (Such- und Verarbeitungstechnologien für Unternehmensdaten) und einfache Wort- oder Dateisuche auf einem lokalen Computer. Unterschiedliche Richtungen bedeuten vermutlich unterschiedliche Lösungen.
Lokale Suche
Über die Suche auf einem lokalen PC ist alles klar. Es ist nicht bemerkenswert, dass bestimmte Funktionen für die Auswahl des Dateityps (Medien, Text usw.) und des Suchziels akzeptiert werden. Geben Sie einfach den Namen der gesuchten Datei (oder Textstelle, zB im Word-Format) ein und fertig. Die Geschwindigkeit und das Ergebnis hängen vollständig von dem in die Abfragezeile eingegebenen Text ab. Darin liegt keine Intellektualität: Einfach die verfügbaren Dateien durchsehen, um ihre Relevanz zu bestimmen. Das ist in gewisser Weise erklärbar: Was nützt es, ein ausgeklügeltes System für solch unkomplizierte Bedürfnisse zu schaffen.
Globale Suchtechnologien
Ganz anders sieht es bei den Suchsystemen aus, die im globalen Netzwerk arbeiten. Man kann sich nicht darauf verlassen, die verfügbaren Daten einfach durchzusehen. Das riesige Volumen (Yandex zum Beispiel kann sich einer Indizierungskapazität von mehr als 11 Terabyte an Daten rühmen) des globalen Chaos unstrukturierter Informationen macht die einfache Suche nicht nur uneffektiv, sondern auch langwierig und arbeitsintensiv. Deshalb hat sich der Fokus in letzter Zeit auf die Optimierung und Verbesserung von Qualitätsmerkmalen der Suche verlagert. Aber das Schema ist immer noch sehr einfach (abgesehen von den geheimen Neuerungen jedes einzelnen Systems) – die Phrasensuche durch die indizierte Datenbank mit angemessener Berücksichtigung von Morphologie und Synonymen. Zweifellos funktioniert ein solcher Ansatz, löst das Problem jedoch nicht vollständig. Wenn man Dutzende von verschiedenen Artikeln liest, die sich mit der Verbesserung der Suche mit Hilfe von Google oder Yandex befassen, kann man zu dem Schluss kommen, dass es ohne Kenntnis der verborgenen Möglichkeiten dieser Systeme eine Sache von mehr als einer Minute ist, ein relevantes Dokument durch die Abfrage zu finden, und manchmal mehr als eine Stunde. Das Problem besteht darin, dass eine solche Realisierung der Suche sehr abhängig ist von dem Suchwort oder der Suchphrase, die vom Benutzer eingegeben wird. Je undeutlicher die Abfrage, desto schlechter die Suche. Dies ist zu einem Axiom oder Dogma geworden, je nachdem, was Sie bevorzugen.