Information Retrieval


Passage RetrievalPassage Retrieval ist eine Technik der Informationsrückgewinnung (Information Retrieval), die nur diejenigen Teile von Dokumenten (Passagen) liefert, die für ein spezielles Informationsbedürfnis relevant sind. Es handelt sich um einen Spezialfall und eine besondere Anwendung des Dokumenten-Retrievals, das wiederum die Rückgewinnung von relevanten Dokumenten mit Unterstützung duch Computertechnologie beschreibt.

 

Die Dokumente aus einem Pool, dem Dokumentenkorpus, werden beim Passage Retrieval in kleinere Einheiten, die Passagen, zerlegt. Passage Retrieval bedient sich unterschiedlicher Verfahren, mit denen die Relevanz der Passagen bestimmt und das Ranking für die zurückgewonnenen Passagen festgelegt werden.

 

Unterteilungsmöglichkeiten von Dokumenten in Passagen

Um Passagen identifizieren zu können, die eine ausreichende Relevanz zum Informationsbedürfnis des Anwenders besitzen, muss ein Dokument zunächst einmal in mehrere Einheiten unterteilt werden. Je nach Suchanfrage und Kontext kann die Größe von Passagen auch ein komplettes Dokument umfassen, wenn es durchgehend als relevant erachtet wird. Die Unterteilung kann nach rein strukturellen Aspekten der Dokumente geschehen, also beispielswiese anhand von Kapiteln, Überschriften, Absätzen und Sätzen in einem Text, sie kann sich aber auch an semantischen Aspekten orientieren. Dabei wird versucht, thematisch zusammenhängende Bereiche zu identifizieren.
Zur Bildung logischer Einheiten eines Dokuments kann beispielsweise die folgende Zuordnung dienen:

  • Satz: einzelne Idee
  • Absatz: einzelner Oberbegriff
  • Kapitel: Kernthema

Sollen semantische Einheiten gebildet werden, können spezielle Algorithmen zum Einsatz kommen, die aufgrund der jeweils verwendeten Worte und Worthäufigkeiten Themenwechsel erkennen können. Hierzu gibt beispielsweise Ansätze, die auf der Erweiterung des TextTiling-Algorithmus' basieren.

Die Kernprobleme bei der Unterteilung von Dokumenten in Passagen sind die folgenden:

  • Es gibt keine allgemein richtige Unterteilung. Vielmehr hängt die passsende Unterteilung von der jeweiligen Suchanfrage und dem herrschenden Kontext ab.
  • Eine zu feine Unterteilung kann die Relevanz der einzelnen Passagen zu sehr reduzieren, eine zu grobe Unterteilung vermindert die Vorteile, die durch die Unterteilung erzielt werden sollen.

Eine Unterscheidung in der Weise, wie die Aufteilung von Dokumenten erfolgt, ergibt sich durch die Wahl zwischen fixer und variabler Länge der Passagen. Beiden Ansätzen, sowohl der fixen als auch der variablen Längeneinteilung von Passagen, ist gemein, dass die Startpunkte, an denen die Passagen beginnen, zunächst einmal beliebig sind. Der initiale Startpunkt wird nach der Eingabe der Suchanfrage bestimmt. Bei einer fest vorgegeben Länge der Passagen, also zum Beispiel 400 Wörtern pro Passage, können dann vom Anfang bis zum Ende des Dokumetes Passagen jeweils gleicher Länge gebildet werden. Ist die Schrittweite zwischen zwei aufeinander folgenden Startpunkten dabei kleiner als die vorgegebene Länge der Passagen, übergeben sich Überlappungen. Die Methode des schrittweisen Voranschreitens im Text wird auch als Sliding Window-Ansatz bezeichnet.

Passage Retireval, Schrittweite und Auswertungsfenster

Bei variabler Länge der Passagen erhöht sich die Menge der potentiellen Passagen weiter. Daddurch kann es hier zu einem hohen Rechenaufwand kommen.


Modelle des Passage Retrievals

Es gibt zahlreiche Ansätze, mit denen die Relevanz von Passagen in Bezug auf bestimmte Suchphrasen bestimmt werden kann. Manche davon bedienen sich bestimmter Sprachmodelle, andere nutzen statistische Verfahren. Auch Maschinenlernen kann zum Einsatz kommen, um Ergebnisse von Suche zu Suche zu verbessern. Einige der Modelle werden im Folgenden dargestellt.

 

TFIDF

Ein klassischer Ansatz zur Relevanzbestimmung ist der des TFIDF, was für "Term Frequency Inverse Document Frequency" steht. Dahinter verbirgt sich die folgende Annahme: Wenn ein Term innerhalb eines Dokuments häufig vorkommt, also eine hohe Termfrequenz besitzt, auf der anderen Seite aber im gesamten Dokumentenkorpus selten anzutreffen ist (Inverse Dokumentenhäufigkeit), so ist das betreffende Dokument für diesen Termn relevant.
Im Passage Retrieval werden jede Passage und jede Suchanfrage als Vektor im Gesamttextraum betrachtet. Die Relevanz einer Passage für eine bestimmnte Suchanfrage ergibt sich aus der Multiplikation des Vektors, der die Suchanfrage repräsentiert, mit dem Vektor der Passage. Dabei entspricht das Gewicht jeder Dimension der beiden Vektoren den Produkt aus Termfrequenz (TF) und inverser Dokumentenfrequenz (IDF).
TFIDF lässt sich auch diese Formel darstellen:

TFIDF

 

Query Likelihood Language Model und Relevance Modelling Approach

Sowohl das Query Likelihood Model als auch der Relevance Modelling Approach bedienen sich statistischer Methoden zur Relevanzbestimmung von Passagen. Dabei wird, ausgehend von bestimmten Sprachmodellen, eine angenommene Wahrscheinlichkeitsverteilung des Vokabulars in den Dokumenten und Passagen vorausgesetzt. Für jede Suchanfrage wird dann bestimmt, mit welcher Wahrscheinlichkeit sie zu den einzelnen Dokumenten bzw. Passagen passt.

 

Bootstrap Vector Machine

Ziel dieses Ansatzes ist es, durch Maschinenlernen immer besser relevante von nicht relevanten Passagen unterscheiden zu können. Es wird zunächst mit positiven und negativen Beispielen gearbeitet. Diese Beispiele werden durch Datenpunkte im Mehrdimensionalen Vektorraum repräsentiert. Mit Hilfe einer Diskriminanzanalyse werden dann relevante von nicht relevanten Dokumenten unterschieden.


Ein Nachteil dieses Ansatzes ist, dass er sehr rechenintensiv sein kann. Außerdem muss bei den Trainingsbeispielen auf ein ausgewogenes Verhältnis zwischen relevanten und nicht relevanten Beispielen geachtet werden, da ansonsten die Lern- und Erkennungsrate leiden können.

 

Mixture of Language Model

Beim Mixture of Language-Modell werden Informationen aus einer Passage und dem sie umgebenden Text genutzt. Dabei gilt folgende Annahme: Jedes Wort in einer Passage entsteht durch eine Mischung aus drei multinominalen Sprachmodellen, nämlich dem Korpusmodell, dem Modell des Dokuments und dem Modell der Passage selbst. Die Gewichte dieser Faktoren können unterschiedlich gesetzt sein. Als Formel ausgedrückt ergibt sich:

Mixture of Language Models Formel

Alle drei Sprachmodelle werden mit Hilfe der Maximum-Likelihood-Methode berechnet. Anschließend wird die Divergenz der Sprachmodelle der Suchanfrage und des berechneten, gemischten Sprachmodells durch Anwendung der negativen Kullback-Leibler-Divergenz bestimmt. Auf diese Weise erhält man den Relevanz-Score für die einzelnen Passagen.

 

 

Query Word Density

Im Gegensatz zu den anderen hier dargestellten Ansätzen zur Relevanzbestimmung von Passagen wendet das Query Word Density Model eine variable Passagenlänge an. Jedes Wort innerhalb eines zu prüfenden Dokuments wird gewertet. Die Gewichte der Suchbegriffe aus der Suchanfrage werden linear skaliert, und zwar so lange, bis jeder Begriff einen ganzzahligen Wert wi besitzt. Anschließend werden jeweils wi Worte jeweils rechts und links des Suchbegriffs markiert. Sobald dies für jeden Suchbegriff durchgeführt wurde, wird jede auf diese Weise entstandene Wortgruppe, die größer als ein vorher festgelegter Schwellwert ist, als Passage zurückgeliefert.
Diese Passagen können dann anschließend beispielsweise mit Hilfe des Mixture of Language-Modells bewertet werden.

 

Vorteile des Passage Retrievals

Im Gegensatz zum klassischen Dokumentenretrieval bietet das Passage Retrieval den Vorteil, dass nur die relevantesten Passagen von Dokumenten zurückgeliefert werden. Dies entlastet den Anwender, der sich ansonsten gerade bei umfangreichen Dokumenten einer großen Informationsmenge gegenüber sieht. Es können kurze, relevante Passagen herausgelesen und erkannt werden, auch wenn sie sich zwischen weniger relevanten Passagen befinden.

Einzelne Passagen weisen in der Regel eine größere Ähnlichkeit mit Suchphrasen auf als ganze Dokumente. Dies kann zur Rückgewinnung zusätzlicher Passagen führen, was wiederum eine Verbesserung der Recall-  und Precision-Raten bewirken kan, also einen höheren Anteil von relevanten Dokumenten im Suchergebnis.

Zudem kann es im Dokumenten-Retrieval bei umfangreichen Dokumenten dazu kommen, dass relevante Passagen nicht genügend zur Geltung kommen, wenn ein größerer Teil dieser Dokumente nicht oder nur wenig relevant ist. Dies kann im Passage Retireval vermieden werden.

Das Rückgewinnung von Dokumenten wird beim Passage Retrieval vereinfacht, weil in der Regel kürzere Texteinheiten einfacher zu finden sind als lange Texte. Ein Grund dafür ist, dass in langen Texten relevante Inhalte weiter voneinander entfernt liegen und somit übersehen werden können.

Schließlich kann beim Passage Retrieval das Problem vermieden werden, das sich aus dem Vergleich unterschiedlich langer Dokumente ergibt, das heißt, ein "Verwässern" durch Länge ist bei einheitlicher Länge der Passagen nicht mehr gegeben.

 

Nachteile des Passage Retrievals

Methoden zur Berechnung relevanter Passagen können sehr rechenintensiv sein und eignen sich daher unter Umständen nicht immer zum Echtzeiteinsatz (siehe zum Beispiel den Absatz über die Bootstrap Vector Machine).

Die Vielzahl der möglichen Aufgliederungen eines Dokuments in Passagen und die große Menge an Rechenmodellen zur Bestimmung der Relevanz und des Ranking von Passagen erfordern eine genaue Sachkenntnis, um die für den jeweiligen Einsatzzweck optimale Konfiguration zu erzielen.


Vergleiche zwischen klassischem Dokumenten-Retrieval und Passage-Retrieval

Untersuchungen haben gezeigt, dass das Passage-Retireval mit festen Längen der Passagen Effektivitätsgewinne gegenüber dem klassischen Dokumenten-Retrieval bringen kann. Die Verbesserungen bewegten sich in den Tests zwischen 8 und 37 Prozent. Noch besser schnitt das Passage-Retrieval mit variablen Längen ab. Dazu wurden beim Verarbeiten der Suchanfragen jeweils Passagen unterschiedlicher Länge gebildet und die jeweils am besten passenden Passagen ausgewählt. Dieser Gewinn an Effektivität musste jedoch mit einem erhöhten Rechenaufwand erkauft werden.

 

Fazit

Passage Retrieval ist ein vielversprechender Ansatz zur Rückgewinnung von relevanten Informationen in Form passender Textstellen bzw. Passagen. Im Vergleich zum herkömmlichen Information Retrieval können die Ergebnisse beim Passage Retrieval überzeugen. Allerdings steht dem ein erhöhter Rechenaufwand entgegen. Zudem erfordern die Auswahl der passenden Methoden und der Optimierung der Untergliederung von Dokumenten sowohl Sachverstand als auch Geduld.

Iim Rahmen dieses Beitrags lassen sich die Eigenschaften und die Einsatzmöglichkeiten des Passage Retrievals nur oberflächlich beschreiben. Jede einzelne Methode der Relevanzbestimmung oder der Unterteilung von Dokumenten würde einen eigenen Beitrag füllen. Dennoch lässt sich recht gut erkennen, was das Passage Retrieval auszeichnet und wie es genutzt werden kann.

In der Praxis wird das Passage Retrieval mit Sicherheit schon vielfach genutzt - etwa von den Suchmaschinen, um passende Descriptions in den Snippets der Suchergebnisse anzeigen zu können.


Christian Kunz

Von Christian Kunz+Mehr Infos hier.





Anzeige von Clixado

Artikelveröffentlichungen auf starken Magazinen und Blogs

Wir kooperieren mit unzähligen Verlagen und Bloggern und können daher auf über 4000 Blogs zu fast allen Themengebieten Artikelplätze anbieten:

    - Nachhaltiger Linkaufbau, kein SEO-Netzwerk
    - Hohe Sichtbarkeitswerte, keine expired Domains
    - Einmalzahlung, keine Vertragsbindung

Für jede Artikelveröffentlichung erstellen wir hochwertigen Content mit mindestens 400 Wörtern und publizieren den Artikel mit einem DoFollow-Bachlink zu deiner Seite auf einem Magazin oder Blog deiner Wahl.

Frag uns unverbindlich nach Beispielen





{extravote 1}

 

 


 

SEO-Checkliste

SEO-Checkliste

 

Anzeigen







SEO-Beratung

Suchmaschinenoptimierung und SEO-Beratung für Karlsruhe, Baden und die Pfalz

 

06340/351-943

 

info(at)seo-suedwest.de

SEO-Wissenstest

SEO-Wissenstest

SEO selber machen

SEO selber machen

Bekannt aus

Website Boosting


Internet World Business

SEO United


The SEM Post


Webselling

Sprecher auf

Partner

15 Prozent sparen!
Euer Rabatt-Code lautet SEOSUEDWESTSMX

Auszeichnungen

SEO Südwest: Platz 5 bei den SEO-Wahlen 2014 zum besten deutschen SEO-Blog

 

SEO-united.de Tipp 12/15

iBusiness Top-100-Liste SEO-Dienstleister

SEO Südwest English website

Jetzt vernetzen

SEO-Glossar

SEO-Glossar

 

SEO-Kalender 2018

SEO-Kalender 2018

 

Onsite-Optimierung

Onsite-Optimierung

 

SEO- und Suchmaschinenblogs

SEO-Tipps und SEO-Tricks

IMAGE 'Noindex' oder robots.txt - wann ist welches Instrument das richtige?
Freitag, 09. Februar 2018
Um zu steuern, welche Seiten von Google und anderen Suchmaschinen gecrawlt und indexiert werden... Weiterlesen...
IMAGE Lighthouse: ein Top-Tool für die Performancemessung von Webseiten und PWAs
Montag, 16. Oktober 2017
Lighthouse ist ein Tool, mit dem man die Performance und die Nutzerfreundlichkeit von Progressive... Weiterlesen...
IMAGE Tipp: Reddit für den Aufbau von Backlinks nutzen
Samstag, 17. Januar 2015
Die Social-News-Plattform Reddit erlaubt den Aufbau von guten Backlinks - wenn man sich an... Weiterlesen...

News aus dem Blog

IMAGE Vielen Dank für die Glückwünsche, Google!
Dienstag, 07. November 2017
Google hat mich mit einem persönlichen Geburtstags-Doodle überrascht. Vielen Dank dafür! Weiterlesen...
IMAGE SEO: Können 'Ausverkauft'-Seiten in Online-Shops positive Rankingeffekte haben?
Sonntag, 01. Februar 2015
Wie geht Google eigentlich mit Seiten aus Online-Shops um, die nicht mehr lieferbare Produkte... Weiterlesen...
IMAGE Bloggen in der Sauregurkenzeit: Auffallen leicht gemacht
Dienstag, 02. Januar 2018
Beim Bloggen kommt es auf das richtige Timing an. Wer den richtigen Zeitpunkt für die... Weiterlesen...

 Eine Auswahl zufriedener Kunden

Rebel - Bad Küche Raum
Schöne Haare Karlsruhe
kr3m
feel-perfect.eu - Die Nährstoffexperten border=
Flintec IT GmbH
ESM Academy
Ringladen

Verbinden

Social Networks und RSS-Feed