Institut für Informatik
Rheinische Friedrich-Wilhelms-Universität Bonn


Index
Institut
Forschung
Lehre und Studium
DV-Dienste
Bibliothek
Fachschaft
english page .
Index
Gruppen
Benutzungsordnung
Kennungen
Printaccounting
Zugangskontrollsystem
Einwahl
Mail Dienst
Mailverteiler
NetNews
Java Labor
MultiMedia
MM-Hörsaal
FTP-Server
WWW
Harvest
WWW-Cache

Index
Hilfe
Statistik
Suche/Abfragemaske

* Systemgruppe Angewandte Informatik
Harvest Web Indexer - Suchmaschine über das Web Angebot am Institut für Informatik

Hilfe zu Broker Abfragen

Der Harvest Broker bearbeitet viele Arten von Abfragen. Die einfachste Abfrage ist ein einzelnes Schlüelwort wie:
	Lichtzwiebel
Die Suche nach gebräuchlichen Wörtern (wie "Rechner" oder "html"(Übertextauszeichnungssprache)) kann längere Zeit beanspruchen. Bitte bedenken Sie weitere Anwender.

Besonders bei großen Brokern ist es oftmals hilfreich, mächtigere Abfragen zu stellen. Harvest unterstützt viele verschiedene Register-/ Suchmaschinen mit unterschiedlichen Fähigkeiten. Zur Zeit ist unsere mächtigste (und am meisten genutzte) Suchmaschine Glimpse, welche

  • Groß-/Kleinschreibung unterscheidende und nicht unterscheidende Abfragen;
  • die Fähigkeit zur Auswahl von Wortteilen, ganzen Wörtern oder Phrasen aus mehreren Wörtern (wie "Ressourcen Entdeckung");
  • boolsche (AND/OR) Kombinationen von Schlüsselwörtern;
  • ungefähre Auswahl (zum Beispiel, Erlauben von Rechtschreibfehlern);
  • strukturierte Abfragen (die die Auswahl auf bestimmte Felder begrenzt);
  • die Fähigkeit, ausgewählte Zeilen oder die ausgewählten Datensätze ganz anzuzeigen (zum Beispiel für Zitate);
  • die Fähigkeit, Obergrenzen für die Anzahl auszugebender Zeilen anzugeben; und
  • eine begrenze Form an Regulären Ausdrücken (zum Beispiel Erlauben von "ungestümen Karten" Ausdrücken, die alle Worte mit einer bestimmten Endung auswählen);
  • Negierung einer Auswahl mit dem NOT Operator;
unterstützt.

Die unterschiedlichen Arten von Abfragen (und wie man diese anwendet) sind unten besprochen. Beachten Sie, dass Sie die gleiche Syntax unabhängig davon, welche Register-/Suchmaschine in einem bestimmten Broker verwendet wird, nutzen, aber nicht alle Maschinen alle oben genannten Merkmale unterstützen. Insbesondere verwenden einige der Broker WAIS, welches manchmal schneller als Glimpse sucht, jedoch nur boolsche Abfragen von Schlüsselworten und die Möglichkeit zur Angabe von Resultatsobergrenzen erlaubt.

Die verschiedenen Optionen - Groß-/Kleinschreibung, approximierte Suche, Möglichkeit zur Anzeige passender zeilen gegenüber der gesamten passenden Datensätze und die Möglichkeit eine Obergrenze für die Anzahl auszugebender gefunder Einträge - lassen sich allesamt mit Knöpfen und Menus im Broker Abfrageformular angeben.

Eine strukturierte Abfrage hat die Form:

	tag-name : value

wobei tag-name ein Content Summary attribute nam ist und value ein Suchwert innerhalb dieses Attributes. Wenn Sie ein Content Summary anwählen, bekommen Sie die für einen bestimmten Broker verfügbaren Attribute aufgelistet. Eine Liste gebrächlicher Attribute finden Sie hier.

Schlüsselwortsuche und strukturierte Abfragen könen mittels boolscher Operatoren (AND und OR) zu komplexen Abfragen kombiniert werden. Ohne Angabe einer Klammerung wird ein Vorrang der Operatoren von links nach rechts angenommen. Bei Phrasen oder regulären Ausdrücken müssen die Zeichenketten in doppelte Hochkommata eingeschlossen werden, zum Beispiel

	"Internetz Rohstoff Entdeckung"
or
	"Entdeck.*"

Beispiele

Einfache Schlüsselwortabfragen:
	Arizona
Diese Abfrage wird alle Objekte des Brokers liefern, die das Wort Arizona beinhalten.

Boolsche Abfrage:

	Arizona AND desert
Diese Abfrage wird alle Objekte des Brokers liefern, die die beiden Wörter in beliebiger Reihenfolge enthalten.

Negierte Abfrage:

	Arizona AND NOT desert
Diese Abfrage wird alle Objekte des Brokers liefern, die das Wort Arizona jedoch nicht das Wort dessert enthalten.

Phrasen Abfrage:

	"Arizona desert"
Diese Abfrage wird alle Objekte des Brokers liefern, die die beiden Worte in genau dieser Form Arizona desert als Phrase enthalten. Beachten Sie, daß Sie doppelte Hochkommata um die Phrase setzen müssen.

Boolsche Abfragen mit Phrasen:

	"Arizona desert" AND windsurfing
Einfach strukturierte Abfrage:
	Title : windsurfing
Diese Abfrage wird alle Objekte des Brokers liefern, in denen das Title Attribut den Wert windsurfing enthält.

Komplexe Abfrage:

	"Arizona desert" AND (Title : windsurfing)
Diese Abfrage wird alle Objekte des Brokers liefern, die die Phrase arizona desert enthalten und gleichzeitig in ihrem Title Attribut den Wert windsurfing aufweisen.

Query options selected by menus or buttons

These checkboxes allow some control of the query specification.

Case insensitive:
By selecting this checkbox the query will become case insensitive (lower case and upper case letters differ). Otherwise, the query will be case senstive. The default is case insensitive.
Keywords match on word boundaries:
By selecting this checkbox, keywords will match on word boundaries. Otherwise, a keyword will match part of a word (or phrase). For example, "network" will matching "networking", "sensitive" will match "insensitive", and "Arizona desert" will match "Arizona desertness". The default is to match keywords on word boundaries.
Number of errors allowed:
Glimpse allows the search to contain a number of errors. An error is either a deletion, insertion, or substitution of a single character. The Best Match option will find the match(es) with the least number of errors. The default is 0 (zero) errors. Note: The previous three options do not apply to attribute names. Attribute names are always case insensitive and allow no errors.

Result set presentation

These checkboxes allow some control of presentation of the query return.

Display matched lines (from content summaries):
By selecting this checkbox, the result set presentation will contain the lines of the Content Summary that matched the query. Otherwise, the matched lines will not be displayed. The default is to display the matched lines.
Display object descriptions (if available):
Some objects have short, one-line descriptions associated with them. By selecting this checkbox, the descriptions will be presented. Otherwise, the object descriptions will not be displayed. The default is to display object descriptions.
Verbose display:
This checkbox allows you to set whether results are displayed listing the filename, host, path, and Content Summary each on separate lines, or just with two lines listing the filename (without a label) and the Content Summary (with a label). The default is verbose.

Regular Expressions

Some types of regular expressions are supported by Glimpse. A regular expression search can be much slower that other searches. The following is a partial list of possible patterns. (For more details see the Glimpse manual pages.)
  • ^joe will match "joe" at the beginning of a line.
  • joe$ will match "joe" at the end of a line.
  • [a-ho-z] matches any character between a and h or between o and z.
  • . matches any single character except newline.
  • c* matches zero or more occurrences of the character "c"
  • .* matches any number of wild cards
  • \* matches the character "*" (\ escapes any of the above special characters).
Regular expressions are currently limited to approximately 30 characters, not including meta characters. Regular expressions will generally not cross word boundaries (because only words are stored in the index). So, for example, "lin.*ing" will find "linking" or "flinching," but not "linear programming."

List of Common Attribute Names

Each Broker can support different attributes, depending on the data it holds. Below we list a set of the most common attributes. Clicking on a hypertext link below will provide a brief explanation about each.

text taken from the Harvest Web Indexer System
  Uni-Bonn - Math-Nat - Informatik - DV - Harvest   -   english page   -   I   II   III   IV   V   VI   -   Suche
Anregungen? - 1998-05-07 -> 1999-10-26