Systemgruppe Angewandte Informatik
Harvest Web Indexer - Suchmaschine über das Web Angebot am Institut für Informatik
Hilfe zu Broker Abfragen
Der Harvest
Broker bearbeitet viele Arten von Abfragen. Die einfachste Abfrage ist
ein einzelnes Schlüelwort wie:
Lichtzwiebel
Die Suche nach gebräuchlichen Wörtern (wie "Rechner" oder "html"(Übertextauszeichnungssprache)) kann längere Zeit beanspruchen. Bitte
bedenken Sie weitere Anwender.
Besonders bei großen Brokern ist es oftmals hilfreich, mächtigere
Abfragen zu stellen. Harvest unterstützt viele verschiedene Register-/
Suchmaschinen mit unterschiedlichen Fähigkeiten. Zur Zeit ist unsere
mächtigste (und am meisten genutzte) Suchmaschine
Glimpse, welche
- Groß-/Kleinschreibung unterscheidende und nicht unterscheidende
Abfragen;
- die Fähigkeit zur Auswahl von Wortteilen, ganzen Wörtern
oder Phrasen aus mehreren Wörtern (wie "Ressourcen Entdeckung");
- boolsche (AND/OR) Kombinationen von Schlüsselwörtern;
- ungefähre Auswahl (zum Beispiel, Erlauben von Rechtschreibfehlern);
- strukturierte Abfragen (die die Auswahl auf bestimmte Felder begrenzt);
- die Fähigkeit, ausgewählte Zeilen oder die ausgewählten
Datensätze ganz anzuzeigen (zum Beispiel für Zitate);
- die Fähigkeit, Obergrenzen für die Anzahl auszugebender
Zeilen anzugeben; und
- eine begrenze Form an Regulären Ausdrücken
(zum Beispiel Erlauben von "ungestümen Karten" Ausdrücken,
die alle Worte mit einer bestimmten Endung auswählen);
- Negierung einer Auswahl mit dem NOT Operator;
unterstützt.
Die unterschiedlichen Arten von Abfragen (und wie man diese anwendet)
sind unten besprochen. Beachten Sie, dass Sie die gleiche Syntax
unabhängig davon, welche Register-/Suchmaschine in einem bestimmten
Broker verwendet wird, nutzen, aber nicht alle Maschinen alle oben
genannten Merkmale unterstützen. Insbesondere verwenden einige
der Broker WAIS, welches manchmal schneller als Glimpse sucht, jedoch
nur boolsche Abfragen von Schlüsselworten und die Möglichkeit
zur Angabe von Resultatsobergrenzen erlaubt.
Die verschiedenen Optionen - Groß-/Kleinschreibung, approximierte
Suche, Möglichkeit zur Anzeige passender zeilen gegenüber
der gesamten passenden Datensätze und die Möglichkeit eine
Obergrenze für die Anzahl auszugebender gefunder Einträge -
lassen sich allesamt mit Knöpfen und Menus im Broker Abfrageformular
angeben.
Eine strukturierte Abfrage hat die Form:
tag-name : value
wobei tag-name ein Content Summary attribute nam ist und value
ein Suchwert innerhalb dieses Attributes. Wenn Sie ein Content Summary
anwählen, bekommen Sie die für einen bestimmten Broker
verfügbaren Attribute aufgelistet. Eine Liste gebrächlicher
Attribute finden Sie hier.
Schlüsselwortsuche und strukturierte Abfragen könen mittels
boolscher Operatoren (AND und OR) zu komplexen Abfragen kombiniert werden.
Ohne Angabe einer Klammerung wird ein Vorrang der Operatoren von links
nach rechts angenommen. Bei Phrasen oder regulären Ausdrücken
müssen die Zeichenketten in doppelte Hochkommata eingeschlossen werden,
zum Beispiel
"Internetz Rohstoff Entdeckung"
or
"Entdeck.*"
Beispiele
Einfache Schlüsselwortabfragen:
Arizona
Diese Abfrage wird alle Objekte des Brokers liefern, die das Wort
Arizona beinhalten.
Boolsche Abfrage:
Arizona AND desert
Diese Abfrage wird alle Objekte des Brokers liefern, die die beiden
Wörter in beliebiger Reihenfolge enthalten.
Negierte Abfrage:
Arizona AND NOT desert
Diese Abfrage wird alle Objekte des Brokers liefern, die das Wort
Arizona jedoch nicht das Wort dessert enthalten.
Phrasen Abfrage:
"Arizona desert"
Diese Abfrage wird alle Objekte des Brokers liefern, die die beiden
Worte in genau dieser Form Arizona desert als Phrase
enthalten. Beachten Sie, daß Sie doppelte Hochkommata um die
Phrase setzen müssen.
Boolsche Abfragen mit Phrasen:
"Arizona desert" AND windsurfing
Einfach strukturierte Abfrage:
Title : windsurfing
Diese Abfrage wird alle Objekte des Brokers liefern, in denen das
Title Attribut den Wert windsurfing
enthält.
Komplexe Abfrage:
"Arizona desert" AND (Title : windsurfing)
Diese Abfrage wird alle Objekte des Brokers liefern, die die Phrase
arizona desert enthalten und gleichzeitig in ihrem
Title Attribut den Wert windsurfing
aufweisen.
Query options selected by menus or buttons
These checkboxes allow some control of the query specification.
- Case insensitive:
-
By selecting this checkbox the query will become case insensitive (lower
case and upper case letters differ). Otherwise, the query will be case
senstive. The default is case insensitive.
- Keywords match on word boundaries:
-
By selecting this checkbox, keywords will match on word boundaries.
Otherwise, a keyword will match part of a word (or phrase). For example,
"network" will matching "networking", "sensitive" will match "insensitive",
and "Arizona desert" will match "Arizona desertness". The default is to
match keywords on word boundaries.
- Number of errors allowed:
-
Glimpse allows the search to contain a number of errors. An error is
either a deletion, insertion, or substitution of a single character.
The Best Match option will find the match(es) with the least number of
errors. The default is 0 (zero) errors.
Note: The previous three options do not apply to attribute names.
Attribute names are always case insensitive and allow no errors.
Result set presentation
These checkboxes allow some control of presentation of the query return.
- Display matched lines (from content summaries):
-
By selecting this checkbox, the result set presentation will contain the
lines of the Content Summary that matched the query. Otherwise, the
matched lines will not be displayed. The default is to display the matched
lines.
- Display object descriptions (if available):
-
Some objects have short, one-line descriptions associated with them. By
selecting this checkbox, the descriptions will be presented. Otherwise,
the object descriptions will not be displayed. The default is to display
object descriptions.
- Verbose display:
-
This checkbox allows you to set whether results are displayed listing
the filename, host, path, and Content Summary each on separate lines, or
just with two lines listing the filename (without a label) and the
Content Summary (with a label). The default is verbose.
Regular Expressions
Some types of regular expressions are supported by Glimpse.
A regular expression search can be much slower that other searches.
The following is a partial list of possible patterns.
(For more details see the
Glimpse manual pages.)
- ^joe will match "joe" at the beginning of a line.
- joe$ will match "joe" at the end of a line.
- [a-ho-z] matches any character between a and h or
between o and z.
- . matches any single character except newline.
- c* matches zero or more occurrences of the character "c"
- .* matches any number of wild cards
- \* matches the character "*" (\ escapes any of the above
special characters).
Regular expressions are currently limited to approximately 30 characters,
not including meta characters. Regular expressions will generally not
cross word boundaries (because only words are stored in the index). So,
for example, "lin.*ing" will find "linking" or "flinching," but not "linear
programming."
Each Broker can support different attributes, depending on the data it
holds. Below we list a set of the most common attributes. Clicking on a
hypertext link below will provide a brief explanation about each.
text taken from the Harvest Web Indexer System
|