|
Entwicklung einer benutzerunterstützten automatisierten Klassifikation von Web - Dokumenten
Untersuchung gegenwärtiger Methoden zur automatisierten Dokumentklassifikation und Implementierung eines Prototyps zum verbesserten Information Retrieval für das xFIND System
Diplomarbeit
an der
Technischen Universität Graz
vorgelegt von
Robert Hoffmann
Institut für Informationsverarbeitung und Computerunterstützte neue Medien (IICM) Technische Universität Graz A-8010 Graz
Dezember 2002
Ó 2002, Robert Hoffmann Diese Arbeit ist in deutscher Sprache verfasst.
Begutachter: o.Univ.-Prof. Dr. Dr.h.c.mult. Hermann Maurer Betreuer: Dipl.-Ing. Dr. Christian Gütl
Kurzfassung
Das unüberschaubare und permanent wachsende Angebot von Informationen im Internet ermöglicht es den Menschen nicht mehr, dieses inhaltlich zu erfassen oder gezielt nach Informationen zu suchen. Einen Lösungsweg zur verbesserten Informationsauffindung stellt hierbei die Kategorisierung bzw. Klassifikation der Informationen auf Basis ihres thematischen Inhaltes dar. Diese thematische Klassifikation kann sowohl anhand manueller (intellektueller) Methoden als auch durch automatisierte Verfahren erfolgen. Doch beide Ansätze für sich konnten die an sie gestellten Erwartungen bis zum heutigen Tag nur unzureichend erfüllen. Im Rahmen dieser Arbeit soll daher der naheliegende Ansatz, die beiden Methoden sinnvoll zu verknüpfen, untersucht werden.
Im ersten Teil dieser Arbeit, dem Untersuchungsbereich, wird einleitend das Problem des Informationsüberangebots in unserer Gesellschaft erläutert und gezeigt, dass die Kategorisierung bzw. Klassifikation dieser Informationen speziell im Internet sinnvoll erscheint. Die prinzipiellen Möglichkeiten der Themenzuordnung von Dokumenten zur Verbesserung der Wissensverwaltung und Wissensauffindung werden beschrieben. Dabei werden unter anderem verschiedene Klassifikationsschemata, Topic Maps und semantische Netze vorgestellt. Schwerpunkt des Untersuchungsbereiches ist die Beschreibung automatisierter Methoden zur Themenzuordnung. Neben einem Überblick über die gebräuchlichsten Klassifikations-Algorithmen werden sowohl am Markt existierende Systeme sowie Forschungsansätze und frei verfügbare Module zur automatischen Klassifikation vorgestellt. Berücksichtigt werden auch Systeme, die zumindest teilweise den erwähnten Ansatz der Kombination von manuellen und automatischen Methoden unterstützen. Auch die in Zusammenhang mit der Klassifikation von Dokumenten im Internet auftretenden Probleme werden aufgezeigt.
Die im Untersuchungsbereich gewonnenen Erkenntnisse fließen in die Entwicklung eines Moduls zur benutzerunterstützten, automatischen Dokumentklassifikation im Rahmen des xFIND Systems (extended Framework for Information Discovery) ein. Dieses an der technischen Universität Graz konzipierte Framework stellt die Basis für eine Vielzahl neuer Ideen zur Verbesserung des Information Retrieval dar. Der im Gestaltungsbereich entwickelte Lösungsansatz sieht zunächst die Verwendung bereits im System vorhandener, manuell klassifizierter Dokumente, Server oder Serverbereiche als Grundlage für die automatische Klassifikation vor. Nach erfolgter automatischer Klassifikation können in einem nächsten Schritt dann Autoren und Administratoren die Ergebnisse im Rahmen einer Benutzerunterstützung anpassen. Dabei kann das kollektive Benutzerverhalten durch die Möglichkeit eines Votings - mittels Zustimmung bzw. Ablehnung der Klassifikationsergebnisse - Einfluss finden. Das Wissen von Fachexperten und Benutzern trägt somit letztendlich zur Verbesserung der automatischen Klassifikation bei. Im Gestaltungsbereich werden die grundlegenden Konzepte, der Aufbau und die Funktionsweise des entwickelten Moduls beschrieben, sowie eine Reihe von Vorschlägen und Ideen zur Weiterentwicklung der benutzerunterstützten automatischen Dokumentklassifikation präsentiert.
Abstract
The unmanageable and permanently increasing amount of information found on the Internet prevents users from searching and identifying the adequate information. Classification or categorization of information based on its content seems to be one appropriate solution to support the location of information of interest on the Internet. There exist either manual or automated methods to assist authors and users in thematically classifying information. However, up to now both of these methods have not fulfilled the expectations. This subsequent thesis follows an approach to combine those two methods effectively.
The theoretical section of this thesis will show, that classification and categorization of information seems to be inevitable to solve the problem of information overflow, especially on the Internet. Therefore, in order to improve knowledge management some mechanisms like classification schemes, topic maps and semantic networks will be introduced. Main emphasis of this first section will be placed on the description of automated systems for classification based on thematic affiliation. Besides an overview over the mainly used automated algorithms, some well-known and currently used systems will also be explained. Additionally, research projects and freely available modules, which partly support the idea of combining automated and manual classification, will be described. Finally, the problems that can occur concerning classification will be discussed.
Results of the research in the theoretical section of this thesis will be used in the practical part to develop a module for human supported automatic classification of documents. An already existing system for information retrieval, named xFIND (extended Framework for Information Discovery), will be introduced for further implementations. In the proposed solution, already existing manually classified documents or servers on the xFIND system will act as a basis for further automatic classification. The results of this automated classification may be reviewed and adjusted by experts and users. Thus, their general knowledge may enhance the automated system by using some kind of voting mechanism for the classification results. The basic concepts and the functionality of the developed module will be described and some ideas for further improvements of the human supported automatic classification will be presented.
ACM Klassifikation: H.3.1 [Information Storage and Retrieval]: Content Analysis and Indexing – linguistic processing; H.3.3 [Information Storage and Retrieval]: Information Search and Retrieval – Information filtering, clustering;
DDC Klassifikation: 004 [Data processing, Computer Science]
Schlagworte: Klassifikation, Dokumentklassifikation, Textklassifikation, automatische Kategorisierung, Klassifikationsschemata, Benutzerunterstützte Klassifikation, Klassifikationsalgorithmen
ACM categories and subject headings: H.3.1 [Information Storage and Retrieval]: Content Analysis and Indexing – linguistic processing; H.3.3 [Information Storage and Retrieval]: Information Search and Retrieval – Information filtering, clustering;
DDC category: 004 [Data processing, Computer Science]
Keywords: Classification, text classifcation, document classification, classification schemes, automated categorization, classification algorithms, human supported automated classification
Ich versichere hiermit, diese Arbeit selbständig verfasst, andere als die angegebenen Quellen und Hilfsmittel nicht benutzt und mich auch sonst keiner unerlaubten Hilfsmittel bedient zu haben.
I hereby certify that the work presented in this thesis is my own and that work performed by others is appropriately cited.
Danksagung
Hiermit möchte ich mich bei all jenen bedanken, die mich bei der Erstellung dieser Diplomarbeit mit Rat und Tat unterstützt haben.
Mein besonderer Dank gilt den Mitarbeitern des IICM um Herrn Prof. Dr. Dr.hc.mult. Hermann Maurer für die Unterstützung in administrativen Angelegenheiten, sowie meinen Kollegen in der Web Application Group (WAG) für ihre aufmunternden, unterhaltsamen Gespräche.
Insbesondere danken möchte ich meinem Betreuer, Herrn Dipl. Ing. Dr. Christian Gütl, der mich durch zahlreiche Anregungen, Ratschläge und unermüdliches Korrekturlesen bei der Erstellung dieser Arbeit unterstützt hat.
Herzlich bedanken möchte ich mich auch bei meinen Eltern, Waltraud und Michael Hoffmann, die mir durch ihre vielseitige Unterstützung über all die Jahre hinweg diese Ausbildung erst ermöglicht haben.
Robert Hoffmann Graz, Dezember 2002
Inhaltsverzeichnis
Kapitel 2 Wissensstrukturierung
2.1 Problematik des Informationsaufkommens 2.3.1 Verwaltung von Metadaten
3.1 Möglichkeiten der Themenzuordnung 3.2.2 Fachspezifische Schemata 3.2.4 selbstentwickelte Schemata 3.3 automatische Themenzuordnung
Kapitel 4 Automatische Klassifikation
4.2 Einteilung der Klassifikationsverfahren 4.3 Vorgangsweise bei der automatischen Klassifikation 4.3.3 Begriffsorientierte Verfahren 4.4 statistische Klassifikationsalgorithmen 4.4.2 Der Naive-Bayes Algorithmus 4.4.3 Das K-Nearest-Neighbor Verfahren 4.4.4 Support Vektor Maschinen (SVM) 4.4.5 Künstliche Neuronale Netze
Kapitel 5 Anwendungen der Klassifikation
5.1.7 weitere Forschungsstudien 5.2.3 Verity Intelligent Classifier 5.2.5 IBM Intelligent Miner for Text
Kapitel 6 Probleme bei der Klassifikation
6.2 Besonderheiten bei der Klassifikation von Web-Dokumenten 6.3 Anforderungen an ein Klassifikationssystem
Kapitel 7 Kombination automatisierter und benutzerunterstützter Klassifikation
7.1.1 Verwendete Themenstruktur 7.1.2 Einbringen der Dokumente und Sicherung der Dokumentqualität 7.1.3 automatische Klassifikation 7.1.4 benutzerunterstützte automatische Klassifikation 7.2 Gestaltungsmodell eines verbesserten Klassifikationssystems
Kapitel 9 Themenklassifikation für xFIND
9.2.3 Bildung des Klassifikationsmodells 9.2.4 automatische Klassifikation 9.5 Probleme bei der Implementierung
10.4 Zusammenfassung und Fazit
Kapitel 11 Zusammenfassung und Ausblick
Kapitel 1
Einleitung
Wer im Internet surft, hat das Gefühl, über den Ärgernissen des Alltags zu schweben. Statt aber im Himmel zu landen, findet man sich alsbald im Fegefeuer des Informations-Überangebots wieder... Georg Wailand
1.1 Motivation
Unsere moderne Gesellschaft ist geprägt durch ein enormes Wachstum an Information, aber auch durch einen ebenso hohen Informationsbedarf. Der Umgang mit Information beeinflusst nahezu alle Bereiche des täglichen Lebens, sei es in der Ausbildung, der Freizeit oder aber in der Arbeitswelt. Häufig ist daher von einer sogenannten „Informationsgesellschaft“ die Rede. Die Ausübung fast aller Berufe ist heutzutage unabdingbar mit der raschen Informationsbeschaffung und ebenso der raschen Informationsanwendung verbunden, beispielsweise in der Informatik, Medizin oder insbesondere bei Entwicklungen auf den technischen Gebieten. In unserer schnelllebigen Gesellschaft kann es sich aber kaum jemand noch erlauben, Informationen über die neuesten Errungenschaften ausschließlich aus althergebrachten Medien wie Büchern und Zeitschriften, vielleicht sogar in Bibliotheken, zu beziehen. Information muss heute von einer Minute auf die andere verfügbar sein, dies ist auch unter dem Schlagwort Information on Demand bekannt.
Welchen Stellenwert Information bzw. deren Besitz in unserer Gesellschaft hat, wird durch eine Stellungnahme des UN-Generalsekretärs Kofi Annan anlässlich des Weltgipfels zur Informationsgesellschaft deutlich, welcher im Dezember 2003 in Genf stattfinden wird:
„Diese globale Versammlung wird eine einzigartige Gelegenheit sein, eine gemeinsame Vision von Wegen zur Überbrückung der digitalen Kluft zu entwickeln und eine wirklich globale Informationsgesellschaft zu schaffen.“[1][Annan]
Der technologische Fortschritt unseres Jahrhunderts beschert uns einen Überfluss an Daten[2]. Viele der Entscheidungen, die man im täglichen Leben trifft, werden bereits aufgezeichnet, sei es das jeweilige Einkaufsverhalten oder ideologische Positionen. Oft hat man den Eindruck, Daten würden aufgezeichnet, nur weil es die technische Möglichkeit dazu gibt. Die Lücke zwischen dem reinen Sammeln von Daten und dem tatsächlichen Verstehen dieser Daten, wodurch erst brauchbare Information entsteht, wird immer größer. [Frank et al. 2001]
In vielen Bereichen, ob in der öffentlichen Verwaltung oder aber im kommerziellen Bereich, ist ein enormes Wachstum an Information zu verzeichnen. Insbesondere im Intranet und Internet wird man aber mit einer Flut von Informationen[3] konfrontiert. Um hier brauchbare Information zu finden müssen bestimmte Verfahren entwickelt werden. Es stellt sich die Frage, wie die riesige Menge an vorhandenem Wissen[4] in persönlich verwertbare Information transformiert werden kann.
Laut [Kuhlen 1990] ist Information jene Teilmenge von Wissen, die von jemandem in einer konkreten Situation zur Lösung eines Problems benötigt wird. Um ein Problem zu lösen, muss die passende Information aber oft erst gefunden werden. Ein wesentlicher Schritt zur leichteren Auffindung dieser Information ist, das vorhandene Wissen - nach bestimmten Kriterien - zu kategorisieren[5].
Die Kategorisierung bzw. Strukturierung kann bei der Verwaltung und insbesondere beim Zugriff auf Wissen helfen. Sei es über eine einfache alphabetische Kategorisierung bis hin zu aufwendigeren Klassifikationsmechanismen. Grundsätzlich scheint die Kategorisierung von Daten und Objekten den Menschen ein Bedürfnis zu sein („to classify is human“). Ohne sie entstünde ein Chaos. Daher prägen Klassifikationssysteme verschiedenster Art und Weise das menschliche Leben [Walther 2001]. Schon seit ca. 4000 Jahren kategorisieren Menschen das ihnen zur Verfügung stehende Wissen für eine spätere Auffindung und Verwendung. Neben einzelnen Wissenschaftern gehörten speziell Bibliotheken als Speicher für das Wissen der jeweiligen Zeit zu jenem Kreis, der sich mit dem Problem der Informationsauffindung auseinander setzen musste [Baeza-Yates et al.1999]. So verfügte die Universitätsbibliothek Göttingen bereits seit 1755 über einen systematischen Katalog, obwohl sie um 1765 gerade 30.000 Bände besaß. Heute nähert sich beispielsweise die Library of Congress in Washington einem Bestand von 100 Millionen Büchern, Zeitschriften, Druckgrafiken und Handschriften [Barth 1997]. Auch das in den letzten Jahrzehnten entstandene elektronische Äquivalent, die digitalen Bibliotheken, haben sich mit dem enormen Wachstum an Information zu beschäftigen. Analog den in herkömmlichen Bibliotheken verfügbaren Sachgebiet- oder Autorenkatalogen müssen auch digitale Bibliotheken eine strukturierte Möglichkeit zur Auffindung der entsprechenden Ressourcen bieten.
Gerade im Bereich des Internet bzw. Intranet zeigt sich, dass eine manuelle Verwaltung der Informationsmengen kaum mehr zu bewerkstelligen ist. Vor wenigen Jahrzehnten konnte man im Internet - bzw. bei Einführung des WWW - den Überblick über die verfügbaren Ressourcen noch mit Hilfe manuell geführter Linklisten bewahren. Auch heutzutage versuchen digitale, katalog-basierte Suchdienste wie DMOZ[6] oder BUBL[7] auf Basis einer manuellen thematischen Gliederung des Wissens, ein qualitativ möglichst hochstehendes Angebot bereitzustellen. Dies ist allerdings mit einem sehr hohen Bedarf an menschlichen Ressourcen und hohen Kosten verbunden. Zur Deckung dieser Kosten wird dann oft der Zugang zu diesem Wissen über die Bezahlung eines Entgeltes beschränkt[8]. Dies steht aber gerade im Internet in großem Gegensatz zum freien Meinungs- und Informationsaustausch.
Mit den in den letzten vierzig bis fünfzig Jahren entwickelten computerunterstützten, automatischen Verfahren zur Einteilung (Klassifikation) von Wissen bietet sich ein Lösungsansatz zur Bewältigung der Informationsflut. Eine automatische Klassifikation bedeutet letztendlich Einsparung von Zeit und Kosten und macht teilweise den Umgang mit den gewaltigen Informationsmengen erst vertretbar. Aber die automatische Klassifikation ist auch mit Nachteilen behaftet, seien es die technischen Mängel der eingesetzten Verfahren oder aber das mangelnde Verständnis der Bedeutung des zu klassifizierenden Inhaltes.
Ziel dieser Arbeit ist es, die Verfahren der manuellen und automatischen Dokumentklassifikation zu untersuchen. Basierend auf den gewonnenen Ergebnissen soll eine effiziente Möglichkeit entwickelt werden, beide Verfahren der Klassifikation in intelligenter Weise zu kombinieren. Hierdurch sollen die Vorteile der manuellen und automatisierten Klassifikation genutzt und gleichzeitig deren Nachteilen entgegen gewirkt werden. Der Schwerpunkt der Arbeit liegt dabei auf der Klassifikation von textuellem Wissen in elektronischen Dokumenten. Hier wiederum gilt das Hauptaugenmerk der Betrachtungen dem Intranet bzw. Internet.
1.2 Struktur der Arbeit
Die vorliegende Arbeit gliedert sich in zwei Teile, den Untersuchungsbereich und den Gestaltungsbereich.
Beginnend mit Kapitel 2 soll im Untersuchungsbereich die derzeitige Problematik des Überangebots an Information erläutert werden. Eine Reihe der im elektronischen Bereich des Information Retrieval mittels Suchmaschinen auftretenden Probleme wird dargestellt. In der Folge wird mit der Strukturierung von Wissen eine Möglichkeit der Verbesserung bei der Auffindung und im Umgang mit Information aufgezeigt. Ausgehend von einer allgemeinen Betrachtungsweise soll vor allem die Notwendigkeit einer thematischen Strukturierung erläutert werden. Dies geschieht speziell im Hinblick auf Information in textueller Form. Gerade im Zusammenhang mit dem Internet ist das Problem der Informationsauffindung akut, hier kann sich die Strukturierung von Dokumenten im Web auf die Informationsauffindung positiv auswirken. Diese Arbeit beschäftigt sich daher vorwiegend mit Text-Dokumenten im Intranet und Internet.
Kapitel 3 stellt eine Auswahl an Möglichkeiten der thematischen Strukturierung von Dokumenten basierend auf ihrem Inhalt vor. Ausgehend von einer unstrukturierten Themenzuweisung mittels Schlüsselwörtern werden auch einige der etablierten hierarchisch organisierten Klassifikationsschemata vorgestellt. Sowohl Universalschemata, als auch fachspezifische und nationale Schemata sowie semantische Netze und Topic Maps werden dargestellt. Basierend auf einer manuellen Themenzuordnung mit Hilfe dieser Schemata wird auf die Vor- und Nachteile einer automatisierten Klassifikation eingegangen.
Kapitel 4 zeigt mit statistischen, linguistischen und begriffsorientierten Verfahren die prinzipiellen Möglichkeiten einer automatischen Klassifikation. Weiters wird die Vorgehensweise bei ebendieser Klassifikation erläutert. Ebenso wird eine Auswahl von Algorithmen vorgestellt, welche vor allem bei der statistischen automatisierten Beschreibung zum Einsatz kommen können.
Das 5. Kapitel beleuchtet zunächst den Stand der Forschung auf dem Gebiet der Textklassifikation und erläutert theoretische und praktische Ansätze. Ebenso wird eine Auswahl an Softwareprodukten sowohl aus dem kommerziellen als auch dem Open Source Bereich vorgestellt, welche zum Teil auf den im vorhergehenden Kapitel beschriebenen Algorithmen aufbauen.
In Kapitel 6 wird eine Auswahl der im Zusammenhang mit der Klassifikation auftretenden Probleme diskutiert. Dies betrifft sowohl die manuelle als auch die automatisierte Klassifikation. Ausgehend von den Problemen werden mögliche Verbesserungspotentiale für die Klassifikation identifiziert.
Im zweiten Teil der Arbeit, dem Gestaltungsbereich, wird in Kapitel 7 ein Modell zur Verbesserung der automatisierten Klassifikation durch ein benutzerunterstütztes Feedback entwickelt, auf Grundlage der im Untersuchungsbereich besprochenen Probleme. Die Grundidee des Ansatzes basiert auf einer einfachen automatischen Klassifikation von Dokumenten. Benutzerfeedback findet sich erstens in der Verwendung von manuell klassifizierten Dokumenten als Trainingsdaten für die automatische Klassifikation. Zweitens wird den Nutzern des Systems zusätzlich die Möglichkeit geboten, ihre Meinung über die Korrektheit einer Klassifikation mittels Voting kundzutun. Dieses Feedback soll in weiterer Folge zu einer Verbesserung der automatischen Klassifikation und somit letztlich zur verbesserten Informationsauffindung beitragen.
Kapitel 8 präsentiert im Überblick das an der TU-Graz entwickelte xFIND System (extended Framework for Information Discovery) als Grundlage für die prototypenhafte Implementierung des im vorigen Kapitel vorgestellten Modells einer verbesserten Informationsauffindung.
Kapitel 9 zeigt einen neuen Ansatz, in das xFIND System, basierend auf den im Gestaltungsmodell erarbeiteten Erkenntnissen, eine Kombination aus benutzerunterstützter und automatischer Themenklassifikation zu integrieren. Die der Implementierung zugrundeliegenden Konzepte werden erläutert.
Im 10. Kapitel werden erste Tests zur Demonstration der Funktionsweise des implementierten Moduls vorgestellt. Hierbei wird die grundsätzliche Eignung der verwendeten Algorithmen zur themenbasierten Dokumentklassifikation aufgezeigt. Ebenso werden ansatzweise die Auswirkungen einer Attributreduktion mittels Filterung durch Häufigkeitsgrenzen (obere und untere Schranken) untersucht. Kapitel 2
Wissensstrukturierung
Dürstend nach Wissen, ertrinkt man im Meer der Informationen. Ian Niethbet
Die Menge an Wissen, auf die ein Mensch heutzutage Zugriff hat, ist enorm. Dieses Wissen kann auf die vielfältigsten Arten zur Verfügung stehen. Sowohl als gedrucktes Medium, als Audio- oder Videoaufzeichnung, sowie in Fotos und Bildern. Je nach Medium ist ein anderer Zugang zu diesem Wissen notwendig. Es stellt sich nun die Frage, auf welche Art und Weise aus dieser Menge an verfügbarem Wissen persönlich verwertbare Information gefiltert werden kann. Die richtige Information zu besitzen oder sie schnellstmöglich zu finden, bedeutet in unserer Leistungsgesellschaft einen Vorsprung gegenüber anderen. Noch nie hatte das Sprichwort „Wissen ist Macht“ so große Bedeutung wie heute. Eine große bzw. wichtige Aufgabe kommt hierbei der Wissensstrukturierung zu. Denn letztlich wird durch die Einschränkung auf einen Teilbereich (die Kategorie) die Informationsauffindung aus dem gesamten verfügbaren Wissen erleichtert.
Einleitend zeigt dieses Kapitel die Problematik des steigenden Informationsaufkommens in unserer Gesellschaft. Obwohl man in vielen Bereichen des Lebens mit einem Überangebot an Information konfrontiert ist, liegt der Fokus der Betrachtungen in dieser Arbeit auf dem elektronischen Gebiet des Internets und Intranets. Ausgehend von einer allgemeinen Untersuchung wird vor allem auf textbasierte Informationen eingegangen. Es soll gezeigt werden, warum neben der Vergabe von Schlüsselwörtern und Metadaten zur leichteren Identifikation gerade auch eine thematische Strukturierung des vorhandenen textuellen Wissens eine sinnvolle Lösung zur verbesserten Auffindung von Information sein kann.
2.1 Problematik des Informationsaufkommens
Wie bereits eingangs erwähnt, wird man ständig mit Informationen der unterschiedlichsten Art konfrontiert. Die Menschheit hat im 21. Jahrhundert nicht nur Zugang zu gewaltigen Informationsmengen, sie selbst produziert und veröffentlicht eine enorme Flut an Informationen. Privatpersonen veröffentlichen 600 mal mehr Informationen als der kommerzielle bzw. öffentliche Bereich. Es gibt also nicht nur eine Massenproduktion an Information, sondern auch eine Informationsproduktion durch die Massen. [Lyman et al. 2000]
Im Mittelalter gab es noch einige wenige Gelehrte, die sich fast mit dem gesamten Wissen ihrer Zeit beschäftigen konnten. Heute ist dies unmöglich, denn das Wissen ist bereits derart spezialisiert, dass man sich nicht mit all den täglich anfallenden Publikationen auseinandersetzen kann. Ein Beispiel: Die jährliche weltweite Informationsproduktion liegt bei ein bis zwei Milliarden Gigabyte[9] Daten, dies entspricht 250 Megabyte pro Person weltweit. Allein die Information, auf die man aus dem Web Zugriff hat, liegt bei 7.500 Terrabyte[10]. Knapp eine Million Bücher werden jährlich veröffentlicht (entspricht bis zu 8 Terrabyte an Daten). [Lyman et al. 2000]
Täglich werden weltweit ca. 20.000 wissenschaftliche Artikel zu den unterschiedlichsten Themen veröffentlicht. Dies entspricht ca. 4 Millionen Fachveröffentlichungen pro Jahr. Um 1950 lag dieser Wert noch bei einem Zehntel der heutigen Menge. So ist es nicht verwunderlich, dass schon seit längerem Unternehmen existieren, die sich rein auf die rasche Auffindung von Information spezialisiert haben[11]. 90 % aller Wissenschafter, die jemals gelebt haben, leben in der Gegenwart. Die meisten davon sind natürlich im Sinne des globalen Fortschritts daran interessiert, ihre Erkenntnisse der Welt kundzutun. Weltweit erscheinen auch zwischen 100.000 und 200.000 Fachzeitschriften. [Marx et al. 2002]
Heute ist es nach Meinung des Autors gerade auf dem wissenschaftlichen Sektor aber kaum mehr möglich, neue Erkenntnisse ausschließlich über den Weg der Verlage und Bibliotheken zu publizieren. Es besteht immer die Gefahr, dass diese Erkenntnisse bis zu ihrer Veröffentlichung bereits veraltet sind. Ebenso sind diese Erkenntnisse dann nur in einem begrenzten Rahmen verfügbar[12]. Im Sinne einer globalen Zusammenarbeit für den Fortschritt muss man sich deshalb anderer Methoden bedienen. Hier bietet sich nun natürlich auf Grund der globalen Vernetzung ein elektronisches Medium an. Auch aus diesem Grund hat sich gerade das Internet zu einem der größten Wissensspeicher der Welt entwickelt. Was vor wenigen Jahrzehnten noch als technische Spielerei zum Informationsaustausch an einigen Universitäten galt, stellt heute für viele einen nicht mehr wegzudenkenden Teil ihres Lebens dar. Sei es nun beruflich oder privat, das Internet nimmt einen immer höheren Stellenwert ein. Dies wird unter anderem dadurch verdeutlicht, dass die Anzahl der im Internet verfügbaren Hosts ständig wächst und auch die Anzahl der Internetnutzer ständig zunimmt (siehe Abbildung 2.1 und 2.2). So gab es im ersten Quartal des Jahres 2002 bereits über 162.000.000 Hosts und über 580 Millionen Internetnutzer. [NUA] [ISC]
Abbildung 2.1 Anzahl der Hosts im Internet nach [ISC]
Abbildung 2.2 Anzahl der Internetnutzer nach [NUA]
Gerade als Nachschlagewerk und Informationsquelle hat das Internet enorm an Bedeutung gewonnen. Zielsetzung war der einfache, weltweite Informationsaustausch. Dies hat sich mittlerweile eher in das Gegenteil gewandelt. Fast jedermann ist in der Lage, Dokumente im Internet zu veröffentlichen, doch oft kann man nicht wirklich von brauchbarer Information sprechen. Robert Wilensky von der University of California hat dies - nach Meinung des Autors - passenderweise so beschrieben:
„Man sagt, eine Million Affen auf einer Million Tastaturen könnte die komplette Arbeit von Shakespeare reproduzieren; heute, dank dem Internet, wissen wir, dass das nicht wahr ist.“[13] [Wilensky]
Die Qualität der Information leidet also unter der Quantität, wie auch folgende Aussage von Jacob Palme im Rahmen des Projektes „Select“, einem Projekt zur Bewertung und Filterung von wissenschaftlichen und technischen Dokumenten im Internet, deutlich macht:
„Seit jedermann die Möglichkeit hat, jede Art von Information im Internet zu veröffentlichen, gibt es keine Qualitätskontrolle (wie beispielsweise jene von Editoren und Lektoren in Magazinen und Journalen). Ein weiteres Problem ist das enorme Angebot an Information, welches es für einen Benutzer schwierig macht, das für ihn am interessanteste Angebot zu finden.“[14] [Select 1998]
Mit neuen technischen Entwicklungen und steigendem Bekanntheitsgrad des Internet hat sich auch der Konsum von Information einem Wandel unterzogen. Durch das eben erwähnte Überangebot wird es immer schwerer, sich wirklich kritisch mit dem Wahrheitsgehalt des Dargebotenen auseinander zu setzen. Der Fachbereich Neue Medien der IGS Mühlenberg formuliert diesen Umstand wie folgt:
„‘Was Du schwarz auf weiß besitzt‘, galt jahrhundertelang als Garant für Wahrheit. [...] Wer heutzutage an aktueller Information interessiert ist, sucht diese im Internet - im Glauben und mit der unbewussten Gewissheit, dort nicht nur Aktuelles, sondern die aktuellste Wahrheit zu finden.“ [IGSM]
Das Internet scheint eine einzige Flut von mehr oder minder relevanten Dokumenten zu sein. Eine Recherche im Internet ähnelt immer mehr der vielzitierten Suche nach der Stecknadel im Heuhaufen. Um hier noch Information zu finden, müssen effektive Zugänge bzw. Zugangshilfen individuell für den Einzelnen entwickelt werden. Eine wichtige Aufgabe kommt hierbei der geeigneten Verwaltung der Informationseinheiten[15] zu. Dies führte zur Entwicklung verschiedenster Suchdienste im Web, welche in Abschnitt 2.2 genauer beschrieben werden.
Der momentan größte Suchdienst, Google[16], hat bereits im Dezember 2001 die Grenze von drei Milliarden Dokumenten überschritten. Dies inkludiert etwa zwei Milliarden Web-Seiten (siehe Abbildung 2.3) und 700 Millionen Usenet Einträge[17]. Um diese 3 Milliarden Dokumente manuell zu durchsuchen bräuchte man laut Aussage von Google-Mitbegründer Larry Page ca. 5707 Jahre (24h/Tag, 1 Minute pro Dokument) [SEWb]. Hierdurch wird deutlich, mit welchen Dimensionen an Daten man es im Internet zu tun hat.
Abbildung 2.3: Anzahl indizierter Seiten
verschiedener Suchmaschinen[18]
[SEWa]
Doch nicht nur globale Dienste wie das Internet liefern eine Flut von Informationen. Es produziert schon fast jedes klein- oder mittelständische Unternehmen eine Menge an elektronischer Information. Beispiele hierfür wären:
· Rechnungen, Aufträge, Lieferscheine · Emails von und an Kunden · Firmeninterne Memos · Wirtschafts-, Presse-, und Finanznachrichten · Marktstudien · technische Dokumentationen, Produktspezifikationen, Projektberichte
Diese kurze Aufstellung zeigt, mit welcher Art von Informationen es die Unternehmen jetzt und auch in Zukunft zu tun haben. Laut [Nohr 2000] ist Information der entscheidende Wettbewerbsfaktor in allen Märkten und Branchen. Es bedarf aus diesem Grund eines gezielten Managements ebendieser. Keith Davidson, Executive Director der Firma Xplor International[19], hat in seinen Untersuchungen folgende beeindruckende Fakten herausgefunden: Arbeitnehmer benötigen ungefähr 3 Stunden pro Woche, um nach fehlender Information zu suchen, jedes Dokument wird durchschnittlich 19 mal kopiert und 200 Millionen Blatt Papier werden Tag für Tag abgeheftet [Davidson 1994]. Im Sinne des Credos „Zeit ist Geld“ ist es für diese Unternehmen natürlich wichtig, das die Arbeitnehmer möglichst schnell auf die für sie relevanten Informationen zugreifen können.
Zum Zweck des oft weltweiten Transfers von firmeninternen Daten besitzen die meisten größeren Firmen ein eigens konzipiertes Computernetzwerk, das Intranet. Die Probleme mit denen das Internet zu kämpfen hat, gelten in kleinerem Rahmen ebenso für das Intranet vieler Firmen. Auch hier wird eine Menge an Informationen zur Verfügung gestellt und prinzipiell sind alle Mitarbeiter in der Lage, neue Informationen zu publizieren. Christoph Michel, Vorstand der Hyperwave AG, fasst das Problem auf anschauliche Weise zusammen:
„Es herrscht Chaos auf Grund unstrukturierter Datenhalden in den Unternehmen. Über viele kleine, amorphe Internet-, Extra-, aber vor allem Intranetlösungen sind die Mitarbeiter nicht mehr Herr der eigenen Informationen. [...] Das Intranet sollte alle Kommunikationsprobleme lösen. Doch vielerorts sorgt gerade das Intranet zunehmend für chaotische Zustände. [...] Erschwert wird die Situation durch die sprunghafte Zunahme von unstrukturierten Informationen, die administrativ kaum noch in den Griff zu bekommen ist.“ [Hyperwave 2001]
Jede Abteilung jeder auch noch so kleinen Zweigstelle produziert also Informationen, die grundsätzlich für das gesamte Unternehmen überlebenswichtig sein könnten. Nicht übersehen werden darf hierbei, dass sich wertvolle Information für Mitarbeiter auch im Internet befinden kann, welche dann im Zuge der Informationsrecherche in das Intranet integriert wird. Hier ist aus Sicht des Autors eine gute Datenstruktur, die einen schnellen Zugriff auf die Daten erlaubt, essentiell wichtig. Es existieren heute viele Produkte namhafter Hersteller, die es sich zur Aufgabe gemacht haben, alle im Intranet eines Unternehmens anfallenden Daten zu strukturieren und in eine Hierarchie einzubinden. Diese sogenannten Document- bzw. Content Management Systeme arbeiten bereits mit aufwändigen Mechanismen und zugrundeliegenden komplexen Strukturen und Datenbanken[20].
Verstärkt wird das Problem der enormen Dokumentenflut noch durch die Tatsache, dass immer mehr große Unternehmen dazu übergehen, sämtliche technischen Dokumentationen (z.B. Handbücher) über das Internet zu verbreiten. Denn es ist naheliegend, ein bereits elektronisch erstelltes Dokument auch auf diesem elektronischen Weg zu verbreiten. Die kostenintensive Arbeit der Wartung dieser Dokumentation, zum Beispiel das Austauschen einiger Handbuchseiten bei neuen Versionen und das neuerliche Versenden an alle Kunden, entfällt somit. [Fuhr 2002]
Nicht nur kommerzielle Unternehmen kämpfen mit der Informationsflut, diese spielt auch in der Bildung bzw. Ausbildung eine wesentliche Rolle. Immer mehr Schulen und andere Ausbildungsstätten sind mit eigenen Homepages im Internet vertreten, dieses gewinnt auch im Unterricht immer mehr an Bedeutung. Einerseits ermöglicht das Internet die globale Zusammenarbeit von Schulklassen im Rahmen von Projekten und stellt eine Plattform für den einfachen Austausch von Bildungsmaterial und anderen Multimedia-Daten dar. Andererseits ist das Internet in seiner heutigen weitgehend unstrukturierten Form eine wesentliche Hürde bei der Informationsbeschaffung für „Internet-Anfänger“. Ziel muss es hier sein, die Informationen so zu erschließen, dass sie auffindbar werden und die Qualität der Angebote entsprechend zu verbessern. [Diepold 1998]
Es zeigt sich also, man ist in vielen Bereichen mit einer wachsenden Informationsflut konfrontiert, sowohl im weltumspannenden Internet als auch in unternehmensinternen Intranets. Die Fragestellung, welche sich durch das eben geschilderte Problem des Überangebots an Information ergibt, ist folgende: Welche Möglichkeiten gibt es, Information so zu verwalten, zu strukturieren und zu repräsentieren, dass die Auffindung derselben erleichtert wird? Ziel ist es, möglichst effizient aus dem gesamten verfügbaren Wissen jene Information zu extrahieren, welche zur Lösung eines konkreten Problems benötigt wird. Dies führt im nachfolgenden Abschnitt zum großen Themengebiet des sogenannten Information Retrieval. 2.2 Information Retrieval
Für den Begriff des Information Retrieval (kurz IR) gibt es eigentlich keine allgemein gültige oder anerkannte Definition. Historisch gesehen wurde das IR zum besseren Auffinden bzw. Wiederauffinden von Literatur entwickelt. Die Informationsauffindung ist auch heute noch ein Kernbereich des IR, obwohl sich die Aufgabenstellungen erweitert haben [Ferber 2000]. Eine mögliche Definition von IR, welche dieser Tatsache Rechnung trägt, ist jene von G.Salton:
Gegenstand des Information Retrieval die Repräsentation, Speicherung und Organisation von Informationen und der Zugriff darauf. [Salton et al. 1987]
Laut [Fuhr 2002] kann man das in der Abbildung 2.4 dargestellte Modell des Information Retrieval entwickeln.
Abbildung 2.4 Grundmodell des Information Retrieval [Fuhr 2002]
Wie der Abbildung 2.4 zu entnehmen ist, beruht das IR dabei auf der Analyse von Daten, welche über eine geeignete Repräsentation in einer Wissensstruktur gespeichert werden. Ziel der Wissensstrukturierung ist es, ein Muster in all den verfügbaren Daten zu finden, anhand dessen man die Daten gliedern und einteilen kann. Nur geeignete Mechanismen der Wissensstrukturierung erleichtern das spätere Auffinden persönlich verwertbarerer Information zur Lösung eines Problems. Aber auch der im Modell dargestellte Punkt der Analyse von Daten und die möglichen Verfahren der Wissensrepräsentation sind jene Kernpunkte, mit denen man sich für eine brauchbare Informationsauffindung auseinander setzen muss. Denn in unserem Jahrhundert wird neben dem Problem der Informationsspeicherung vor allem jenes der Informationsauffindung akut. C.J van Rijsbergen fasst das Problem bereits 1979 auf anschauliche Weise zusammen:
„Wir haben große Mengen an Information, auf welche akkurater und schneller Zugriff immer schwieriger wird. Ein Effekt daraus ist, dass relevante Information ignoriert wird, da sie niemals aufgefunden wird. Dies führt zu einer Verdoppelung von Arbeit und Aufwand.“[21][Rijsbergen 1979]
Wissen muss nicht immer auf Basis von geschriebenen Dokumenten transportiert werden. Gerade seit den letzten hundert Jahren, durch die technischen Entwicklungen auf dem Audio- und Videosektor, werden aktuelle Neuigkeiten über Filme, Videos und ähnlichem nähergebracht. Noch geschieht hier die Informationsgewinnung auf herkömmlichem Weg: Der Mensch selbst liest, hört und wertet aus. Doch dies kann sich bald ändern, wie ein Forschungsprojekt der Gerhard-Mercator Universität Duisburg in Zusammenarbeit mit mehreren europäischen Ländern zeigt. Das sogenannte „alert system for selective dissemination of multimedia information“ (ALERT-System)[22] hilft dem Nutzer, aus dem großen und oft unüberschaubaren Informationspool von Radio, Fernsehen und Internet die für ihn relevanten Aussagen herauszufiltern und weiterzuverarbeiten. Möglich wird dies über Methoden der Bildanalyse und Spracherkennung. Es existieren verschiedene Benutzerprofile, die Benutzer selbst können ihre Vorlieben und Interessen über Schlüsselwörter definieren und werden benachrichtigt, wenn das System Übereinstimmungen gefunden hat. Die Anwendungsmöglichkeiten des Systems sind vielfältig. Von Recherchen in Videobibliotheken und Nachrichtenarchiven bis hin zur Personenerkennung. Generell spielt die Bilderkennung und Strukturierung von Bildern und Fotos ebenso in vielen anderen Bereichen eine Rolle, man denke nur an Zeitschriftenverlage oder Geschichtsarchive. [Alert]
In [Drew et al. 2001] wird ebenfalls ein Ansatz gezeigt, um auch die Bilddaten in Webseiten beim Aufbau einer brauchbaren Einteilung zu nutzen. Möglich wird dies durch die Kombination eines textbasierten Algorithmus und eines Algorithmus basierend auf der Behandlung der RGB-Farbwerte und Histogramme von Bildern (OF*IIF Algorithmus) [Drew et al. 2001]. Auch das von IBM entwickelte QBIC (Query By Image Content) Tool ermöglicht die Suche nach Bild-Information im Web. Die Suche kann dabei über einen Vergleich von Farben bzw. Farbverläufen stattfinden. Einerseits kann einfach der Prozentsatz festgelegt werden, zu dem ein bestimmter Farbwert in den Ergebnissen enthalten sein soll. Andererseits können auf einem virtuellen Bild verschiedene Farbbereiche definiert werden. Auch die Angabe von Strukturen und Texturen mit Hilfe geometrischer Formen in diesem virtuellen Bild ist möglich. Diese werden dann mit den in einer Datenbank gespeicherten Bildern verglichen [QBIC].
Es existieren also viele Ansätze zur Informationsauswertung aus den unterschiedlichsten Medien. Die vorliegende Arbeit konzentriert sich allerdings vorwiegend auf Betrachtungen von text-basierten Informationseinheiten (Dokumente).
In Zusammenhang mit den Techniken zur Strukturierung von textuellem Wissen im Rahmen des Information Retrieval stehen die Begriffe Precoordination und Postcoordination. Bei Anwendung der Precoordination wird ein Dokument gleich zu Beginn (z.B. bei seiner Veröffentlichung, d.h. bei der Informationsorganisation) in eine bestehende Struktur integriert. Im Gegensatz dazu ermöglicht die Postcoordination, beim Informationretrieval beispielsweise im Rahmen einer Suche mittels Suchmaschine, durch Angabe bzw. Verknüpfung von Schlüsselwörtern, das Thema der erhaltenen Resultate selbst festzulegen. [Gütl 2002]
Die Verfahren, die bei Dokumenten zur Informationsgewinnung bzw. Informationsauffindung eingesetzt werden, sind vielfältig. Abbildung 2.5 zeigt dabei eine Möglichkeit der Einteilung der eingesetzten Techniken.
Abbildung 2.5 Einteilung von IR Techniken [McCune et al. 1985]
Es gibt im wesentlichen drei große Gruppen von IR-Techniken, den Ansatz über Worte und Begriffe, den statistischen sowie den semantischen Ansatz. Diese stehen, wie in Abbildung 2.5 ersichtlich, in einer Art Kraftdreieck zueinander. An den Kanten des Dreieckes befinden sich nun die verschiedenen Verfahren. Ein möglicher Ansatz ist jener über Wörter und Begriffe. Dabei können einerseits alle Wörter in die Betrachtung miteinbezogen werden (der Volltext), oder aber es kommt zu einer Filterung der Wörter und Einbeziehung von Strukturinformationen in einem Dokument. Dann bewegt man sich, beispielsweise durch Verwendung von Stemming, Thesauri oder dem Parsen natürlicher Sprache, hin in Richtung eines semantischen Verfahrens. Auf der anderen Seite führt – wiederum ausgehend von Wörtern – beispielsweise die Häufigkeitsanalyse dieser Wörter oder die Kategorisierung zur Gruppe der statistischen Verfahren. Das IR über Regeln und Hypothesen stellt letztlich eine Kombination aus statistischem und semantischem Ansatz dar. Für weitere Informationen sei auf [McCune et al. 1985] verwiesen.
Eine Möglichkeit der Verbesserung der Informationsauffindung liegt einerseits in der Kombination der eben erwähnten Techniken[23], oder aber in der Vergabe von zusätzlicher Information über ein Dokument, mit deren Hilfe dieses Dokument dann leichter identifiziert und gefunden werden kann. Grundsätzlich stellen diese sogenannten Metadaten im elektronischen Bereich quasi Information über Information dar. Auf Metadaten wird in Abschnitt 2.3 genauer eingegangen.
Aufgrund des enormen Dokumentangebotes bieten sich gerade im Internet eine Reihen von Suchdiensten an, welche die Suche nach brauchbarer Information erleichtern sollen. Diese basieren zum Teil auf den eben erwähnten Techniken des Information Retrieval. So bietet die Suchmaschine NorthernLight[24] ein Clustering der Suchergebnisse, die Auswertung von booleschen Verknüpfungen wird von fast jeder Suchmaschine beherrscht. Ziel der Entwicklungen auf diesem Gebiet ist es, Suchanfragen möglichst optimal auszuwerten und entsprechende Resultate zu präsentieren. Untersuchungen der Firma Forrester [Forrester 2000] haben gezeigt, dass Suchdienste von 80% der Menschen bei einer Informationssuche im Web genutzt werden.
Suchdienste im Web lassen sich grundsätzlich in drei verschiedene Arten einteilen – in Spider-basierte Suchdienste, Katalogbasierte Dienste und Metasuchdienste. Die folgenden Beschreibungen orientieren sich dabei an der Arbeit von [Gütl 2002].
Spider-basierte oder auch Robot-basierte Suchdienste durchsuchen automatisch das WWW. In einem ersten Schritt werden, ausgehend von einer oder mehreren Start-URLs, unter Verwendung der Hyperlinkstruktur, die in den Dokumenten gefundenen Verweise rekursiv verfolgt. Die auf diese Weise gefundenen Dokumentinhalte werden in einem zweiten Schritt aufbereitet und indexiert. Hierbei entstehen durch Extraktion wichtiger Elemente wie dem Titel, Multimedia Objekten oder den in Abschnitt 2.3 beschriebenen Metadaten, Datensätze zur Beschreibung der Webinhalte. Diese können nun für Suchanfragen verwendet werden. Ein Vertreter dieser Spider-basierten Dienste ist Google[25].
Katalog-basierte Dienste wiederum bauen auf einem Klassifikationsschema[26], also einer (meist hierarchischen) Einteilung anhand bestimmter Kriterien, auf. Die gefundenen Informationen (Websites etc.) werden anhand dieser Kriterien kategorisiert. Dies geschieht häufig manuell durch Fachexperten, oder aber durch die Nutzer des Systems selbst. Für jede Ressource wird ein Metadatensatz verwaltet, welcher beliebige Informationen über die Ressource beinhalten kann. Der Umfang dieser Metadaten kann dabei von Titel und URL bis hin zu aufwändigen Beschreibungen wie Qualitätskriterien und Ressource-Bewertungen reichen. Durch die intellektuelle Erstellung und Wartung eines solchen Dienstes besitzen die Einträge meist recht hohe Qualität, verbunden allerdings mit hohem Wartungsaufwand. Deshalb wird meist nur ein geringer Teil des WWW durch solche Web-Kataloge erfasst. Oft ist eine Suche außerdem nur anhand des Metadatensatzes möglich, nicht jedoch in den tatsächlichen Inhalten (dem Volltext) der Ressourcen. Als Beispiel eines solchen Web-Katalogs sei DMOZ[27] genannt.
Letztlich zu erwähnen sind Metasuchdienste, wie beispielsweise MetaCrawler[28]. Diese bauen keine eigene Datenbank auf, sondern greifen auf den Datenbestand mehrerer anderer Suchdienste zurück. Sie fassen die Ergebnisse dieser Suchdienste zusammen, bereiten sie auf und stellen diese dem Benutzer zur Verfügung. Der Vorteil liegt darin, dass eine Anfrage an mehrere Suchdienste parallel und über ein einheitliches Interface gestellt werden kann.
Wichtige Begriffe in Zusammenhang mit elektronischem IR sind die beiden Maße Recall und Precision. Diese werden oft verwendet, um die Effektivität eines IR-Systems zu beschreiben bzw. um Suchsysteme zu vergleichen (siehe Gleichung 2.1 und 2.2). Um den Vergleich anhand dieser Faktoren zu vereinfachen, werden sie oft in dem sogenannten F1-Maß kombiniert (siehe Gleichung 2.3). [Pierre 2001]
Recall gibt dabei an, wie viele der für eine Suchanfrage relevanten Dokumente vom Suchsystem auch gefunden wurden. Precision hingegen definiert, wie viele der insgesamt gefundenen Dokumente auch tatsächlich für die jeweilige Anfrage relevant waren. [Pierre 2001]
Als großer Nachteil, insbesondere bei den Spider-basierten Suchdiensten sowie Metasuchdiensten, stellt sich die enorme Menge an verfügbaren Dokumenten heraus. Diese Dienste indizieren zwar auch nur einen relativ kleinen Teil des gesamten Webs[29] und die Techniken zur Informationsauffindung werden immer weiter verbessert. Dennoch ist man bei einer Suche mit einer Unzahl an (oft irrelevanten) Ergebnissen konfrontiert, das heißt die Precision ist niedrig. Dies zeigt auch eine von D. Sullivan in [Sullivan 2001] beschriebene Studie an über 560 Personen zum Thema Informationsauffindung. Ein Drittel aller Befragten gab an, dass es sehr frustrierend sei, bei einer Suche im Web irrelevante Informationen zu erhalten (siehe Abbildung 2.6). Über ein Drittel der Befragten erklärte, mehr als zwei Stunden pro Woche für die Suche nach Information zu benötigen (siehe Abbildung 2.7).
Abbildung 2.6 Frustration bei irrelevanten Informationen [Gütl 2002] (basierend auf [Sullivan 2001])
Abbildung 2.7 Zeitaufwand für Web Recherchen [Gütl 2002] (basierend auf [Sullivan 2001])
Letztlich antworteten auch 86 % der Befragten auf die Frage, ob die Suche im Internet effizienter gestaltet werden könnte, mit „Ja“. [Sullivan 2001]
Probleme bei Spider-basierten Suchdiensten ergeben sich also durch die geringe Treffergenauigkeit, der geringen Übereinstimmung zwischen indexiertem und tatsächlichem Angebot an Information und nicht mehr aktuellen Verweisen.[30] Als nachteilig bei Suchdiensten erweist sich weiterhin, dass diese oft eine komplexe Syntax zur Eingabe einer Anfrage besitzen. Eine dadurch falsch oder fehlerhaft gestellte Suchanfrage liefert selbstverständlich nicht das gewünschte Ergebnis. Abgesehen davon, ist es oft gar nicht möglich, eine Suchanfrage so zu formulieren, dass sie dem eigenen Informationsbedarf adäquat ist [Kurbel et al. 2000]. Dies wird auch dadurch deutlich, dass ca. 20% aller übereinstimmenden Resultate durch Tippfehler oder falsche Schreibweise von Fremdwörtern verloren gehen. Des weiteren wird in bis zu 80% aller Anfragen keine boolesche Verknüpfung (UND, ODER) zur genaueren Definition der Anfrage verwendet, welche natürlich bessere Ergebnisse liefern würde. Letztlich darf auch das Problem der Polysemie (mehrfache Bedeutungen des selben Wortes) bei der Erstellung einer Anfrage nicht außer Acht gelassen werden[31]. [Baeza-Yates et al. 1999]
Wie im vorigen Absatz erwähnt, sind die Probleme in der herkömmlichen Informationssuche also vielfältig. Um die Auffindung gespeicherter Information in Form von Text-Dokumenten zu verbessern, muss diese anhand bestimmter Kriterien identifizierbar sein. In der herkömmlichen Form der Wissensspeicherung (z.B. in Bibliotheken und Archiven) geschieht dies beispielsweise durch Angabe von Schlagwörtern, Autoren oder Titel. Zur Auffindung der eigentlichen Information werden dieser also weitere beschreibende Informationen hinzugefügt – die bereits erwähnten Metadaten. Auch auf elektronischem Gebiet kann die Auswertung von Metadaten nützlich sein. Wie bereits im Rahmen der Katalog-basierten Suchdienste erwähnt, erstellen viele Suchdienste Metadatensätze durch die Speicherung von zusätzlicher Information über eine Ressource. Oft wird hierbei auch auf eine bereits in der Ressource vorhandene Metainformation Rücksicht genommen. Dies ist durchaus sinnvoll, denn ist die Beschreibung eines Dokumentes mittels Metadaten informativ genug, so kann eine Suche unter Zuhilfenahme dieser Metadaten eine Verbesserung in den erzielten Resultaten bewirken[32]. Nicht zuletzt da Metadaten im elektronischen Bereich prinzipiell für alle Formen von Multimedia-Objekten verwendet werden können, stellen sie in Kombination mit Suchdiensten einen Lösungsansatz für das Problem der Informationsauffindung dar und sollen deshalb im Folgenden näher betrachtet werden.
2.3 Metadaten
Grundsätzlich sind Metadaten Daten über Daten. Ihre Aufgabe ist es, eine Informationseinheit so zu charakterisieren, dass der Nutzer den Inhalt dieser Ressource versteht, ebenso wie ihren Zweck, ihre Herkunft und möglicherweise sogar die Art ihrer Anwendung [Milstead et. al. 1999].
Eine genauere Definition von Metadaten trifft C. McClean:
„Metadata sind mit Objekten referenzierte Daten, welche potentielle Benutzer dabei unterstützen sollen, verbesserte Kenntnisse über die Existenz dieser Objekte und deren Charakteristika zu vermitteln. Zunehmend wird der Term Metadata mit all jenen Daten in Verbindung gebracht, welche die Identifikation, Beschreibung und Lokalisierung von Netzwerk-basierten Ressourcen unterstützen.“[33] [McClean 1997].
Wie erwähnt, können Metadaten zur Beschreibung jedweder Information (Text, Audio, Video, Bilder) verwendet werden. Der Schwerpunkt der nachfolgenden Betrachtungen liegt allerdings auf der Verwendung von Metadaten in Zusammenhang mit elektronischen Dokumenten. Metadaten stellen im weitesten Sinne zusätzliche Information über eine Ressource dar. Im Kontext dieser Arbeit werden Metadaten vorwiegend als Möglichkeit gesehen, um elektronischen Dokumenten ein oder mehrere Sachgebiete oder Themen zuzuweisen.
2.3.1 Verwaltung von Metadaten
Der Autor dieser Arbeit identifiziert drei grundlegende Möglichkeiten der Verwaltung von Metadaten. Erstens können diese Metadaten direkt in der zu beschreibenden Informationseinheit gespeichert werden. Zweitens kann die Speicherung zwar getrennt von der Einheit erfolgen, allerdings bleiben die Metadaten im selben organisatorischen Einflussbereich. Letztlich können Metadaten aber auch komplett organisatorisch und physisch getrennt von der eigentlichen Ressource verwaltet werden. Diese drei Möglichkeiten sollen im Folgenden etwas genauer beschrieben werden.
Verwaltung von Metadaten im Objekt
Im einfachsten Fall sind die Metadaten direkt Teil des zu beschreibenden Dokumentes. Die gängigsten Textverarbeitungsprogramme unterstützen schon seit längerem die Angabe von Zusatzinformationen. Dies betrifft die verschiedensten Formate wie beispielsweise Word, PDF oder aber auch HTML. Bei letztgenanntem Format wird es durch spezielle HTML-Tags[34] möglich, zusätzliche Informationen zu einem Dokument anzugeben. Beispielsweise Schlüsselwörter, die eine einfache Themenzuordnung ermöglichen sollen und in weiterer Folge auch von Suchdiensten interpretiert werden.
Viele der heute gängigen Web-Autorensysteme[35] binden leider nur Metadaten wie „generator“ oder „content-type“ automatisch mit ein. Dies führt zwar zu vermehrten Metadaten in HTML-Dokumenten allgemein, allerdings werden die für eine brauchbare Beschreibung von Dokumenten sinnvollen Attribute, wie beispielsweise „description“ und „keywords“, nur selten angegeben. [O’Neill et al. 1998]
Verwaltung von Metadaten im selben organisatorischen Kontext
Metadaten müssen aber nicht immer im Dokument selbst angegeben werden, sondern können separat vom eigentlichen Objekt gespeichert werden. Die Verwaltung des Objektes und der zugehörigen Information erfolgt allerdings gemeinsam, sie verbleiben also im selben organisatorischen Kontext. So gibt es seit der Spezifikation HTML 4.0 auch die Möglichkeit, Meta-Angaben aus einer separaten Datei zu lesen. Zu diesem Zweck existiert der Tag <head profile = „URL“>, wobei URL eine Datei oder eine WWW-Adresse sein kann, in der sich die Meta-Angaben befinden. [W3C]
Ein weiteres, nach Meinung des Autors gut geeignetes Format zur getrennten Speicherung von Metainforationen ist das Resource Description Framework (RDF). Das RDF hat den vereinfachten Wissensaustausch im Web zum Ziel. Der RDF Standard wurde vom W3 Consortium in Zusammenarbeit mit dem OCLC[36] entwickelt und 1997 vorgestellt. Der Standard selbst definiert hier keine neuen Attribute wie beispielsweise die HTML-Metatags, sondern stellt Möglichkeiten zur Verfügung, diese Attribute und die zugehörige Semantik selbst zu entwickeln. Für Bibliothekskataloge werden beispielsweise oft Attribute wie „Autor“, „Titel“ usw. benötigt. Im digitalen Bereich hingegen wären es Attribute wie „Checksumme“ oder „Identifikation“. Die Festlegung dieser Attribute für den jeweiligen Anwendungsbereich führt schließlich zum RDF Schema. Das RDF könnte also in gewisser Weise als „Schemata-Spezifikationssprache“ gesehen werden. [RDFa] Folgende Darstellung zeigt die einfache Beschreibung einer RDF Ressource (in diesem Fall einer Webseite) mittels Dublin Core Datensatz (siehe Abbildung 2.8). [RDFb]
<rdf:RDF xmlns:rdf="http://w3.org/TR/1999/PR-rdf-syntax-19990105#" xmlns:dc="http://purl.org/metadata/dublin_core#"> <rdf:Description about="http://www.dlib.org"> <dc:Title>D-Lib Program - Research in Digital Libraries</dc:Title> <dc:Description>The D-Lib program supports the community of people with research interests in digital libraries and electronic publishing.</dc:Description> <dc:Publisher>Corporation For National Research Initiatives </dc:Publisher> <dc:Subject> <rdf:Bag> <rdf:li>Research; statistical methods</rdf:li> <rdf:li>Education, research, related topics</rdf:li> <rdf:li>Library use Studies</rdf:li> </rdf:Bag> </dc:Subject> <dc:Type>World Wide Web Home Page</dc:Type> <dc:Format>text/html</dc:Format> <dc:Language>en</dc:Language> </rdf:Description> </rdf:RDF>
Abbildung 2.8 RDF Ressource mittels DC [RDFb]
Gerade für die automatisierte Verarbeitung von Metadaten kann es sinnvoll sein, diese in einer zusätzlichen Datei oder in einer Datenbank abzuspeichern. Als vorteilhaft erweist sich hierbei, das Metadaten (z.B. bei Vorkommen gleicher Einträge) leichter reproduzierbar sind. Metadaten können somit nicht nur für einzelne Dokumente, sondern beispielsweise für ein ganzes Unterverzeichnis oder einen Serverbereich vergeben werden. Dies ermöglicht zum Beispiel das Projekt xFIND, wie Kapitel 8 beschreibt. Nachteilig hierbei ist natürlich, das ebendiese Metainformation leichter verloren gehen kann, da sie nicht direkt mit der Ressource verknüpft ist. [Klarity 2001]
Organisatorisch getrennte Verwaltung von Metadaten
Im Gegensatz zur eben erwähnten Verwaltung im selben organisatorischen Kontext hat man bei der organisatorisch und meist auch physisch getrennten Verwaltung von Metadaten keinerlei Einflussmöglichkeit entweder auf die Metadaten oder aber das originale Objekt. Der Autor dieser Arbeit sieht dies am Besten verdeutlicht am Beispiel der Internet-Kataloge. Diese legen Metadatensätze über die untersuchten Dokumente an, mit Informationen über Herkunft, Inhalt, Themenzugehörigkeit und vieles mehr. Doch befinden sich die Dokumente physisch meist auf verschiedensten Servern, der Katalogdienst hat keinerlei Einfluss auf die Speicherung und Verwaltung der Dokumente auf den Servern. Ebenso können die Autoren der Dokumente und die Administratoren der Server normalerweise keinerlei Einfluss auf die Speicherung und Verwaltung der Metadaten ihrer Dokumente im Rahmen des Katalogdienstes nehmen. Andere Suchdienste allerdings können von diesen Metadaten profitieren. So werden die im Rahmen einer Anfrage an den Suchdienst Google gefundenen Dokumente mit dem Katalog von DMOZ verglichen und bei Übereinstimmung wird die entsprechende DMOZ-Kategorie, quasi als Metainformation, zusätzlich zum Ergebnis in Google angezeigt.
Als weiteres Beispiel für ein System, welches Metadaten organisatorisch getrennt speichert, sei das im Rahmen der Gestaltungsarbeit verwendete xFIND System (siehe auch Kapitel 8) genannt. Das eigens entwickelte Metadatenschema xQMS [Weitzer 2000] zeigt zugleich auch, dass Metadaten aber nicht nur zur Beschreibung von Dokumenten herangezogen werden können, sondern auch bewertende Merkmale möglich sind. Hierbei wurden eigene Attribute eingeführt, wie beispielsweise die Zielgruppe, für welche ein Dokument gedacht ist (siehe Tabelle 2.2).
Tabelle 2.1 Beispiel für die Bewertung einer Seite mittels xQMS Metadatenschema [Weitzer 2000]
Selbstverständlich kann auch das vorhin erwähnte Format RDF zur organisatorisch getrennten Speicherung von Metadaten verwendet werden. Ein interessantes Anwendungsgebiet für RDF ergibt sich in der Entwicklung des sogenannten Semantic Web. Dieses Projekt soll hier aufgrund der entwickelten zukunftsweisenden Ideen kurz beschrieben werden. Basierend auf einer Vision von Tim Berners-Lee[37], ist das Ziel die einfachere, maschinenlesbare Verarbeitung von Informationen. Das Problem des derzeitigen automatischen Information Retrieval liegt ja auch darin begründet, dass Suchdienste in ihren Datenbanken zwar Wörter oder Sätze vergleichen können, nicht aber deren tiefere Bedeutung bzw. Sinn verstehen. Aufgrund einer Initiative des W3C Konsortiums entstand daher die Idee zum Semantic Web.
Die Entwicklung des Semantic Web lässt sich folgendermaßen beschreiben:
„Das ‚Semantic Web’ ist die Vision, Daten im Netz in einer Form bereitzustellen und zu verlinken, dass sie von Maschinen nicht nur zu Darstellungszwecken verarbeitet werden können, sondern vielmehr dazu, um Automation, Integration und Wiederverwendbarkeit über Applikationsgrenzen hinweg zu ermöglichen. Um diese Vision im Netz zu realisieren, müssen unterstützende Standards, Technologien und Verfahrensweisen entworfen werden, um Maschinen in die Lage zu versetzen, Zusammenhänge im Web zu erkennen, damit die Menschen letztendlich mehr Nutzen aus dem Web ziehen können.“[38][SWWS] „Einrichtungen und Technologien um maschinenverständliche Daten ins Netz zu stellen, werden schnell eine hohe Priorität für viele Netz-Communities erreichen. Das Netz kann sein volles Potential nur dann erreichen, wenn es zu einem Ort wird, wo Daten von Programmen wie von Menschen zur Verfügung gestellt und verarbeitet werden können. Damit das Netz mit den Anforderungen mithalten kann, ist es unabdingbar, dass die Programme gemeinsame Datenbestände bilden und verarbeiten können, selbst wenn die Programme vollkommen unabhängig voneinander entwickelt wurden."[39] [W3SM] Das Semantic Web repräsentiert eine Art Meta-Web, dessen Ziel darin besteht, die Inhalte von Webseiten mit einer maschineninterpretierbaren Bedeutung zu versehen. RDF ist ein Standard, der hierbei verwendet wird.
Neben den eben erwähnten drei Arten der Verwaltung von Metadaten gibt es ein weiteres Unterscheidungsmerkmal von Metadaten, nämlich die Struktur dieser Metadaten. Hier identifiziert der Autor wiederum vier grundlegende Einteilungen, welche kurz beschrieben werden sollen.
2.3.2 Struktur von Metadaten
Die erste Möglichkeit der Vergabe von Metadaten liegt darin, einfach im Freitext Informationen anzugeben. Der Autor dieser Arbeit stellt nach der durchgeführten Recherchearbeit fest, dass es sich auch im Rahmen der wissenschaftlichen Publikationen scheinbar etabliert hat, über Schlüsselwörter die Zugehörigkeit zu bestimmten Themen anzuzeigen. Der Vorteil ist, dass der Leser sofort über die Zugehörigkeit zu einer Kategorie bzw. einem Themenbereich informiert ist. Einen wesentlichen Nachteil sieht der Autor darin, dass solche Schlüsselwörter kaum von automatischen Suchdiensten identifiziert und ausgewertet werden können, obwohl sie den Inhalt auf kompakte Weise beschreiben.
Metadaten können aber auch im Rahmen einer vorgegebenen Struktur, allerdings wiederum mit beliebigem Inhalt vergeben werden. Als Beispiel sei hier das HTML-Metatag <meta name=“keywords“ content=“Words“> angeführt. Hier existiert ein fixes Format, der Inhalt (content) ist aber nicht vorgegeben.
Die dritte Möglichkeit zur Vergabe von Metadaten liegt in einer vorgegebenen Struktur mit zusätzlich festem Format des Inhaltes. Die Verwendung der Metadaten verliert ja stark an Effizienz, wenn es zum Beispiel verschiedene Felder für ein und dasselbe Konzept gibt (wie „composer“, „creator“, oder „sculptor“ für den Autor eines Dokumentes). Sind für ein Feld dann noch mehrere Werte zugelassen (wie beispielsweise „Joe Smith“, „Joseph R. Smith“ oder „Smith, J. R.“ für das Feld „Autor“), so wird die Informationsauffindung nur wenig verbessert [Milstead et al. 1999]. Als Beispiel für eine feste Syntax des Inhaltes erwähnt sei das HTML-Metatag für das Datum der Erstellung einer Ressource <meta name=“date“ content=“2002-06-25T08:49:37“>. Der Inhalt kann hier zwar beliebig sein, folgt allerdings einer vorgegebenen Syntax.
demonstriert. Der Content kann hier genau drei, definierte Werte annehmen. Auch das früher in diesem Kapitel erwähnte Metadatenschema xQMS bietet die Vergabe von Metadaten anhand eines festen Formats und mit teilweise eingeschränktem Werteformat für die einzelnen Attribute.
Ein Ansatz um das eben erwähnte Problem zu lösen wäre, die Autoren bei der Veröffentlichung ihrer Dokumente, eventuell in einem Publikationssystem, dazu anzuregen, aus vorgegebenen Meta-Informationen auszuwählen. Zudem kann die Eingabe der Metadaten über ein Formular, durch diverse Drop-Down-Menüs und Checkboxen, wesentlich vereinfacht werden. Durch die vorgegebenen Eingabemöglichkeiten kann sich der Autor an existierenden Themenstrukturen orientieren und außerdem kann gleichzeitig auch ein gewisser Standard zur Themenzuordnung eingeführt werden. Beispiele solcher Formulare wären die Anmeldung eines Artikels in dem Journal RUN[40] oder die Anmeldung einer Veröffentlichung am Konrad-Zuse-Zentrum für Informationstechnik (ZIB)[41]. Um Autoren zu unterstützen, wurden aber auch Softwareprodukte entwickelt, die solche Metainformationen automatisch generieren und somit einen ersten Schritt zur vollständig automatischen Klassifikation von Dokumenten setzen. Der Autor der vorliegenden Arbeit sieht die Möglichkeit der Generierung der Metadaten auf zwei Arten. Einerseits kann ein einfaches Template zur Verfügung gestellt werden. Der Anwender füllt die entsprechenden Felder aus und danach wird ein standardisierter Metadatensatz (z.B. entsprechend Dublin Core) erzeugt, der ins Dokument selbst eingefügt werden kann. Andererseits kann aber auch die Erzeugung der Metadaten vollständig automatisiert werden, durch Parsen des jeweiligen Dokumentes. Ein Beispiel hierfür wäre die Software Klarity[42]. Diese analysiert und verarbeitet Dokumente und generiert Metadaten, basierend auf dem vorgefundenen Text. Zu Trainingszwecken werden dem System dazu einige Dokumente als Vertreter der entsprechenden Konzepte präsentiert. Die weitere Bearbeitung von Dokumenten kann dann automatisiert erfolgen. Diese Metadaten können in Form von Meta-Tags ausgegeben werden oder in den Formaten RDF (siehe Kapitel 2.2.1) oder ASCII. [Klarity 2001]
Als Weiterentwicklung des obigen Ansatzes zur automatischen Beschreibung wäre aber auch ein System denkbar, welches einerseits die Dokumente analysiert und danach den Autoren Vorschläge für die Angabe der Metainformation macht. Zum Beispiel über bereits vorselektierte Checkboxen oder Auswahlelemente, welche die aus der Analyse hervorgegangenen Schlüsselwörter zur Auswahl anbieten. Es wäre also quasi eine Kombination aus Publikationssystem und automatischer Metadatengenerierung. Dieses System könnte auch aus den Eingaben der Autoren lernen und somit bei vermehrter Anwendung für neue Dokumente immer bessere Vorschläge präsentieren. Die Autoren bräuchten in weiterer Folge die vom System gemachten Vorschläge nicht mehr zu korrigieren, sondern nur noch zu bestätigen. Bei einer Indizierung der Metadaten wäre dann neben einer eventuellen Volltextsuche auch eine Suche mittels der Metadaten möglich. Eine Korrektur der automatisch generierten Information muss nicht notwendiger Weise auf den Autor beim erstmaligen Anmelden einer Ressource beschränkt sein. Auch im weiteren Umgang mit der Information (z.B. im Rahmen einer Suche) könnte eine Korrektur vorgenommen werden. Hierbei kann vom kollektiven Wissen der Nutzer des Systems profitiert werden.
Wird für die Vergabe von Metadaten in Dokumenten ein fester Wertevorrat verwendet, wie in diesem Abschnitt gezeigt, so kann aus Sicht des Autors von einer Kategorisierung oder Strukturierung der Dokumente anhand dieser Werte oder Begriffe gesprochen werden. Denn diesen Dokumenten wird einer oder mehrere Begriffe aus einer vorgegebenen Menge zugeteilt. Durch diese Begriffe kann beispielsweise eine thematische Einteilung der Dokumente vorgenommen werden. Eine sich in diesem Zusammenhang ergebende Fragestellung ist, wie dieser Wertevorrat erzeugt bzw. wie eine Struktur aufgebaut werden kann. Der folgende Abschnitt zeigt deshalb, welche Möglichkeiten es im Sinne des verbesserten Information Retrieval für eine Strukturierung von Wissen gibt, und welche Anforderungen an eine solche Einteilung gestellt werden.
2.4 Strukturierung von Wissen
Im täglichen Leben treffen Menschen die vielfältigsten Entscheidungen. Oft sind darunter simple „Ja-Nein“ oder „Richtig-Falsch“ Entscheidungen. Der Mensch tendiert dazu, Dinge zu kategorisieren bzw. zu strukturieren. Nicht umsonst existiert das Sprichwort: „Etwas in eine geistige Schublade stecken“. Durch Strukturierung wird es ermöglicht, die enorme Menge an Informationen zu verwalten und mehr Ordnung ins Chaos zu bringen. Die Anwendung einer Kategorisierung ist grundsätzlich nicht beschränkt, so können zum Beispiel Bücher, Lebensmittel, Menschen oder auch Wertvorstellungen nach geeigneten Einteilungskriterien kategorisiert werden.
Schon immer war die Menschheit aber auch davon fasziniert, das Wissen ihrer Zeit an einem Ort zu sammeln und zu ordnen. Ptolemäus I. (ca. 300 v. Chr.) hatte mit der Bibliothek von Alexandria genau dieses Ziel verfolgt. Sein Wunsch war es, alle Bücher der damaligen Welt an einem Ort zu versammeln[43]. Doch schon damals wurden die Schriftrollen nicht einfach inventarisiert, sondern von den Bibliothekaren bereits systematisch geordnet. [Haber 2000]
Auch nach der Zerstörung der Bibliothek von Alexandria blieb der Wunsch nach einer allumfassenden und vor allem strukturierten Wissenssammlung, einer „Bibliotheca Universalis“. Die im 18. Jahrhundert von Jean d´Alembert entwickelte „Encyclopédie“ wies bereits eine Zuordnung der Artikel zu verschiedenen Wissensbereichen auf. Durch eine Art der Verkettung dieser Artikel war eine einfache Navigation in den verschiedenen Wissensgebieten möglich. [Haber 2000]
Mit dem Internet scheint man heutzutage der Idee einer „Bibliotheca Universalis“ näher denn je. Doch das in Abschnitt 2.1 erläuterte Problem der Informationsflut macht natürlich auch im digitalen Bereich eine Strukturierung zur Auffindung dieser Informationen notwendig. Aber auch aus Sicht der Unternehmen ist in der heutigen globalisierten Konsumgesellschaft das Wissen über Absatzmärkte, Marktanteile und Mitbewerber, also grundsätzlich die gesamte Wissensbasis eines Unternehmens, ein entscheidender Wettbewerbsvorteil. Der schnelle und umfassende Zugriff auf Informationen ist dabei Vorraussetzung für den Erfolg eines Unternehmens. Durch die Vielfalt des Informationsangebotes kommt es unter anderem darauf an, zu wissen, wo welche Information zu finden ist. Für dieses Wissensmanagement ist also die effiziente Strukturierung von Information eine bedeutende Aufgabe. [Michelson]
Bei der Zuweisung eines Objektes zu einer Struktur kann unterschieden werden, ob diese Struktur bereits von vornherein festgelegt ist, oder aber je nach Ausgangsbasis neu entsteht. Im ersten Fall spricht man von einer Klassifikation, im zweiten Fall von Clustering[44].
Klassifikation im herkömmlichen Sinn bedeutet die Einteilung in bestimmte Kategorien oder Klassen. Es werden also Zugehörigkeitsentscheidungen basierend auf verfügbaren Daten getroffen. Ein Klassifikationsprozess ist demnach die wiederholte Anwendung dieser Entscheidungsfindung in neuen Situationen [Mitchie et al. 1994]. Sinn und Zweck der Klassifikation ist es, ein logisches System zu schaffen, damit Objekte jederzeit wieder auffindbar sind, und somit das Chaos zu minimieren. [Walther 2001]
Zwei Punkte gilt es nach Meinung des Autors bei einer Klassifikation zu klären: Erstens was soll klassifiziert werden und zweitens anhand welcher Kriterien soll diese Einteilung erfolgen.
Daten und Objekte können auf vielfältigste Art und Weise kategorisiert werden. In der Astronomie werden Sterne beispielsweise aufgrund ihres Aufbaues kategorisiert. Autos können unter Anderem nach Farbe oder Marke eingeteilt werden. Im elektronischen Bereich kann die Einteilung von Bauteilen anhand der Funktion, Größe, Leistungsaufnahme und vieles mehr erfolgen. Daten in Unternehmen können nach örtlichen Aspekten (z.B. nach Abteilungen) oder zeitlichen Aspekten (z.B. Datum einer Lieferung) sortiert werden. Elektronisch verfügbare Daten lassen sich beispielsweise nach Dateinamen, Größe oder Dokumenttyp (Text, HTML usw.) einteilen.
Grundsätzlich können auch für das Information Retrieval alle Arten von Daten klassifiziert werden, seien es nun Text, Video bzw. Audiodaten oder Bilder in verschiedensten Formaten. Der zum Einsatz kommende Algorithmus hängt einerseits natürlich von den vorhandenen Rohdaten ab, andererseits auch von dem späteren Verwendungszweck der Daten. Im Bereich der Bildverarbeitung existieren Algorithmen, die eine Einteilung anhand von Farbwerten, Histogrammen oder Objektanalyse (Formen, Kurven) vornehmen. Im Bereich der Audioverarbeitung werden oft Spracherkennungssysteme eingesetzt, anhand derer eine Einteilung der Audio-Daten möglich wird[45]. Obwohl gerade in Bezug auf das Internet die Verarbeitung von Multimedia-Daten immer wichtiger wird, basiert sicherlich ein Großteil aller Klassifikationssysteme aufgrund der historischen Entwicklung noch auf der Analyse von Text. Der Schwerpunkt der weiteren Arbeit liegt daher auf der Untersuchung der für die textbasierte Klassifikation notwendigen Algorithmen.
Die Möglichkeiten der Strukturierung von textbasierten Dokumenten sind je nach Art der benötigten Information vielfältig. Diese Einteilungen können je nach gewünschter Form des Information Retrieval beispielsweise nach Sprache, Dokumenttyp, Größe, Autor oder Erstellungsdatum getroffen werden. Besonderes Augenmerk wird im Folgenden aber auf eine Strukturierung der Dokumente auf Basis ihres Inhaltes bzw. ihrer daraus folgenden thematischen Zugehörigkeit gelegt. Je nach Anwendungsfall können die inhaltlichen Unterscheidungsmerkmale eine Einteilung in allgemeine Wissensbereiche wie Physik, Chemie (z.B. in Bibliotheken) oder aber ebenso in spezielle Bereiche wie Rechnungen, Aufträge, Gutschriften (in Unternehmen) vornehmen.
Der Autor der vorliegenden Arbeit definiert dabei auf Basis der Literaturrecherche (siehe auch Kapitel 3) folgende unterschiedliche Anforderungen an eine thematisch gegliederte Struktur:
· Die Struktur ist bereits fest vorgegeben oder sie entsteht beispielsweise im Zuge eines Retrieval-Prozesses jedes Mal neu. · Die Struktur besteht nur aus einer Ebene (unverbundene Klassen) oder es gibt eine Hierarchie. · Im Falle einer hierarchischen Struktur, besitzt diese eine geringe oder hohe Tiefe (genaue Unterteilungen). · Die Strukturierung ist sprachunabhängig oder sprachabhängig · diese Einteilung deckt ein Thema (bzw. ein Spezialgebiet) oder mehrere Themengebiete ab. · Eine Informationseinheit kann nur einem oder mehreren Themen zugewiesen werden.
Die auch im folgenden Kapitel 3 vorgestellten Klassifikationsschemata erfüllen beispielsweise jeweils unterschiedliche Anforderungen.
Durch die Klassifikation einer Informationseinheit anhand einer thematischen Struktur wird diese Informationseinheit einem Thema (oder aber auch mehreren Themen) zugewiesen. Wie groß der Bedarf an einer thematischen Strukturierung von Dokumenten vor allem im Internet tatsächlich ist, wird deutlich, wenn sogar Anbieter von ehemals reinen roboter-basierten Suchdiensten dazu übergehen, auch Kataloge anzubieten (z.B. AltaVista[46] mit dem Katalog LookSmart oder aber das Google[47]-Verzeichnis mit einem auf DMOZ[48] basierenden Katalog).
Die auf einer thematischen Struktur basierenden Dienste bieten nach Meinung des Autors folgende Vorteile. Allgemein erleichtern sie den Zugang zu Information. Der Nutzer kann sich durch die Navigationsmöglichkeiten (browsing) innerhalb der Struktur einen einfacheren Überblick über das vorhandene Wissen verschaffen. Durch eine Themenzuordnung wird der Umgang mit den Informationseinheiten erleichtert, der Nutzer kann auf sein gewünschtes Interessensgebiet hingeführt werden. Des weiteren kann die Informationssuche beispielsweise anhand des Themas auf einen Teilbereich der Wissensmenge eingeschränkt und somit vereinfacht werden. Letztlich ist durch die Anzeige der Struktur (bzw. Hierarchie), beispielsweise im Rahmen von Suchergebnissen, eine verbesserte Auswahl der relevanten Informationen möglich. Vereinfacht wird durch die quasi Standardisierung der Themennamen auch die Eingliederung eines neuen Dokumentes in eine solche Struktur.
Natürlich dürfen die Schwierigkeiten in Zusammenhang mit einer (thematischen) Strukturierung nicht übersehen werden. Eine Auswahl der Probleme wird unter anderem auch in Kapitel 6 besprochen. So können viele Strukturen nur mangelhaft auf eine Änderung der Interessensbereiche gerade im elektronischen Bereich reagieren. Die große Anzahl der Themenbereiche erschwert die Wartung. Oft überlappen sich weiters einzelne Themenbereiche, was eine genaue Zuteilung neuer Dokumente schwierig macht.
Am Rande zu erwähnen ist ebenfalls, dass durch solche thematischen Strukturen auch eine statistische Auswertung des Benutzerinteresses möglich wird. So führt der Katalog BUBL[49] eine Statistik über die am häufigsten bei einer Suche verwendeten Metadaten, beziehungsweise darüber, aus welchen Ländern die meisten Zugriffe stattfanden. Das Verzeichnis von Yahoo[50] listet die beliebtesten Webseiten auf. Nach Meinung des Autors dieser Arbeit könnten solche und ähnliche Auswertungen helfen, beispielsweise die Konzentration des Benutzerinteresses auf bestimmte Themen zu erkennen. Auch die Änderung bzw. Strömung des Interesses von oder zu bestimmten Themen kann verfolgt werden. In weiterer Folge lässt sich untersuchen, welche Gruppen von Benutzern sich für welche Themenbereiche interessieren und welche Anforderungen (z.B. an die Struktur) sich für diese Themenbereiche ergeben. Hierdurch wiederum können Erkenntnisse über die Informationskonsumenten gewonnen werden (z.B. über das Vorwissen, Bildungsstand usw.). All dies könnte zur Verbesserung des Angebotes führen, beispielsweise durch Ausbau oder Verfeinerung der Gliederung von häufig besuchten Themengebieten, oder aber in dem das Angebot in allgemeine und spezielle Themenbereiche unterteilt wird (interessant für Nutzer mit entsprechendem Vorwissen).
2.5 Schlussbemerkung
Die verfügbare Informationsmenge im Allgemeinen, aber insbesondere auch in textueller Form, ist in den letzten Jahren stark gewachsen. Dies beeinflusst die Arbeit in allen Lebensbereichen, sei es in der Ausbildung oder im Beruf. In jedem Unternehmen werden täglich die vielfältigsten Informationen produziert, welche verwaltet werden müssen. Insbesondere aber das enorme Informationsaufkommen im Internet bereitet zunehmend Probleme. Bei einer Recherche stößt man auf eine Unmenge, sich oft auch widersprechender Informationen. Dies lässt jede einzelne Information immer wertloser erscheinen[51]. Eine Strukturierung des verfügbaren Wissens erscheint als sinnvoller Ansatz, um die Informationsauffindung zu verbessern und somit die richtige, persönlich brauchbare Information leichter zu erhalten. In diesem Kapitel wurde gezeigt, um benötigte Informationen zu finden und letztlich in persönlichen Nutzen transferieren zu können, muss eine wie auch immer gestaltete Einteilung dieser Informationen (auch mit Hilfe von Metadaten) vorgenommen werden. Ziel ist eine rasche, einfache Wiederauffindung. Oft wird durch eine Strukturierung die Auffindung erst ermöglicht. Obwohl sich grundsätzlich jede Information (Text, Audio, Video) klassifizieren und je nach Anwendungsfall anhand der vielfältigsten Kriterien einteilen lässt (beispielsweise Sprache, Datum, Größe usw.), widmet sich diese Arbeit vorwiegend der inhaltsbezogenen Einteilung von Text-Dokumenten. Für diese thematische Strukturierung von Dokumenten auf Basis ihres Inhaltes existieren schon seit längerem die vielfältigsten Klassifikationsstrukturen. Das folgende Kapitel soll einige dieser Klassifikationsstrukturen vorstellen.
Kapitel 3Themenzuordnung
Im vorigen Abschnitt wurde der Wunsch der Menschheit erwähnt, das gesamte Wissen zu sammeln und vor allem zu strukturieren. Der Schwerpunkt der Untersuchungen in der vorliegenden Arbeit liegt dabei auf jenem Teilbereich des Wissens, der in elektronischer Form in Web-Dokumenten[52] vorhanden ist. Die Strukturierung von Dokumenten anhand ihres Inhaltes bzw. Themas ist eine Möglichkeit, die Wiederauffindung von Information im Internet zu verbessern. Durch eine vorgegebene Struktur wird einerseits - wie durch Web-Kataloge - die Navigation in Themenbereichen ermöglicht und andererseits können themenverwandte Dokumente schnell aufgefunden werden.
Eine thematische Themenzuordnung kann im Sinne des Information Retrieval sowohl bei der Verwaltung des verfügbaren Wissens (durch die Speicherung in einer Struktur) als auch bei der Informationsauffindung helfen. Dabei darf allerdings aus der Sicht des Autors nicht übersehen werden, dass all diese Einteilungen keinerlei Bewertung des einem Thema zugeordneten Dokumentes vorsehen. Dies bedeutet, es kann keinerlei Aussage darüber gemacht werden, wie genau das Thema im Dokument behandelt wird oder für welche Zielgruppe dieses Dokument gedacht ist. Informationen sind aber oft gerade benutzergruppenabhängig (z.B. wissenschaftl. Arbeit vs. Kinderaufsatz). Abhilfe in dieser Richtung bietet beispielsweise die Verwendung des in Kapitel 2.3 im Rahmen der Metadaten vorgestellten und in xFIND[53] verwendeten Qualitäts-Metadatenschemas xQMS.
In diesem Kapitel werden die grundsätzlichen Möglichkeiten der Themenzuordnung besprochen. Eine Themenstruktur legt fest, welche Beziehung die einzelnen Themengebiete zueinander haben. In weiterer Folge werden Klassifikationsschemata als eine Möglichkeit der Themenzuordnung mit hierarchisch organisierten Themenbereichen vorgestellt.
3.1 Möglichkeiten der Themenzuordnung
Nach Meinung des Autors dieser Arbeit gibt es drei verschiedene Sichtweisen, um Themenzuordnungen zu unterscheiden. Diese Sichtweisen sollen im folgenden kurz erläutert werden.
Die erste Sichtweise ergibt sich aus der Tatsache, dass das gesamte Wissen der Menschheit eine enorme Vielfalt an Themenbereichen umfasst. Die Strukturierung dieser Vielfalt kann entweder sehr allgemein (überblicksmäßig) erfolgen, oder aber bereits sehr speziell. Dies wird am Beispiel der in Abschnitt 3.2 vorgestellten Klassifikationsschemata deutlich. Hier existieren einerseits Schemata, die versuchen, möglichst viele Themenbereiche zu strukturieren bzw. abzubilden. Als Beispiele seien hier die Internet Kataloge Yahoo[54] und DMOZ[55] genannt. Letzterer versucht, mittels manueller Unterstützung, mehrere tausend Themenbereiche zu verwalten. Andererseits ist aber auch die Spezialisierung auf ein bestimmtes Themengebiet möglich. Hier können die ACM- Bibliothek[56] oder aber auch verschiedene Subject-Gateways als Beispiele genannt werden. Diese ähneln im Aufbau den normalen Web-Katalogen, behandeln aber meist nur Ressourcen zu einem Themenbereich. Weiters existieren Suchmaschinen für spezielle Fachbereiche wie beispielsweise NewsWatch[57], eine Suchmaschine für österreichische Printmedien. Beide Vorgehensweisen, sowohl die allgemeine als auch die spezielle Strukturierung, haben ihre Vorteile. Durch die Einbeziehung großer Teile einer möglichen Themenhierarchie in einer Suche kann der Recall erhöht werden, eine Beschränkung auf spezielle Gebiete hingegen verbessert die Precision [Koch 1998]. Der Vorteil der Spezialisierung liegt also darin, aktuellere und exaktere, auf die Wünsche des Anfragenden zugeschnittene Suchergebnisse zu bieten und die einzelnen Fachgebiete besser voneinander zu unterscheiden.
Die zweite Unterscheidungsmöglichkeit der Themenstrukturen kann anhand ihrer Anwendung erfolgen. Hier stellt sich die Frage, von wem bzw. wann eine Themenzuordnung vorgenommen wird. Diese kann einerseits im Sinne der Precoordination [58] erfolgen. Die Klassifikation kann also direkt vom Autor eines Dokumentes oder aber von den Benutzern beispielsweise eines Publikationssystems vorgenommen werden. Natürlich besteht auch die Möglichkeit einer automatischen Klassifikation. Andererseits kann die Themenzuordnung auch als Postcoordination erfolgen. Hier gibt ein Nutzer beispielsweise im Rahmen einer Suche durch die Formulierung einer Anfrage vor, welches Themengebiet er quasi „on-the-fly“ als Resultat wünscht. Ähnliches kann über die (automatische) Anwendung von Konzepten oder Modellen erfolgen (siehe „focused crawling“, Abschnitt 3.3).
Die dritte Sichtweise letztlich basiert auf der praktischen Art der Durchführung einer Themenzuordnung. Die folgenden Unterscheidungen dieser Form der Themenzuordnung orientieren sich an der Arbeit von [Walther 2001].
Die einfachste Möglichkeit, beispielsweise eine Publikation für eine Datenbank oder Bibliothek zu kategorisieren liegt sicherlich darin, sie manuell (im Rahmen der Metadaten) einem oder mehreren Themengebieten zuzuordnen. Dies kann einerseits durch die Autoren oder andererseits durch die Nutzer des Systems erfolgen. Diese geben also zusätzlich zum Inhalt eines Dokuments auch Informationen zum Dokument selbst an. Diese „freie“ Themenvergabe setzt allerdings entsprechendes Wissen voraus und ist bei der Quantität der Themenbereiche kaum zu bewerkstelligen. Die Themenvergabe mittels einzelner Wörter oder Sätze erfolgt also eher unstrukturiert. Es gibt bei dieser Art kein standardisiertes Verfahren für die Vergabe der Themennamen. Die Beschreibung eines Themas ist aber eine sehr individuelle Angelegenheit. Außerdem besitzen die meisten Sprachen viele Synonyme für ein und dasselbe Thema, wodurch die Übersichtlichkeit verringert wird.
Eine weitere Art der Themenvergabe ist jene über unverbundene Klassen. Hierbei können zwar die Themennamen bereits bekannt sein und einem gewissen Standard folgen. Sie sind jedoch unstrukturiert und nicht hierarchisch. Dies bedeutet, die Einordnung des vergebenen Themas in einen größeren Themenbereich ist nicht ersichtlich.
Dies alles macht eine thematische Gliederung schwierig. Daher gibt es letztlich auch die Möglichkeit einer Struktur mit verbundenen, also hierarchisch organisierten Themengebieten. Das übergeordnete Thema ist der Oberbegriff für alle nachfolgenden Themen. Je weiter weg man sich vom Oberbegriff bewegt, desto spezifischer wird die Einteilung. Die Einordnung des Themas ist also leicht ersichtlich, eine Navigation in den Themenbereichen wird möglich. Im Folgenden werden mit den Klassifikationsschemata Konzepte vorgestellt, die eine Einbindung eines Dokumentes in solch eine vorgegebene, hierarchische Themenstruktur mit festen Namen erlauben.
3.2 Klassifikationsschemata
Ein Klassifikationsschema schafft die strukturellen Vorraussetzungen für eine Klassifikation. Die Klassen (Themen) stehen dabei in einem hierarchischen Über- bzw. Unterordnungsverhältnis zueinander. Die Aspekte der höheren Hierarchieebenen werden auf die darunter liegenden Klassen vererbt (Merkmalsvererbung) [Nohr]. So lässt sich beispielsweise das Themengebiet rund um Computer weiter unterteilen in Hard- oder Software. Letzteres lässt sich einteilen in Anwendersoftware und Entwicklersoftware und so weiter. Diese Merkmalsvererbung, die durch den hierarchischen Aufbau ermöglichte Navigation in der Themenstruktur, sowie die standardisierte Vergabe von Themennamen über eine eindeutige Notation sind nach Meinung des Autors jene Vorteile, die für die Einteilung von Dokumenten anhand eines Klassifikationsschemas sprechen. Nach Ansicht des Autors entsprechen sie auch weitgehend der menschlichen Sicht der Dinge. Die Klassifikationsschemata lassen sich einteilen in Universal-Schemata, fachspezifische Schemata, nationale Schemata sowie selbstentwickelte Schemata. [Desire 1997]
Die Nutzung von etablierten Klassifikationsschemata ermöglicht im optimalen Fall sogar die Suche bzw. das Browsen über mehrere Dienste hinweg (bei Verwendung gleicher bzw. kompatibler Schemata). Diese Interoperabilität ist eine wichtige Vorraussetzung für die Integration der im Internet vorhandenen heterogenen Informationsdienste. [Koch 1998]
Eine Auswahl der bekanntesten Universalschemata bzw. fachspezifischen Schemata soll nun im Folgenden kurz mit der DDC, UDC, LCC sowie der ACM CCS und ICS vorgestellt werden. Sie unterscheiden sich bezüglich der in Kapitel 2.4 erwähnten Anforderungen nur in der Sprachabhängigkeit (bzw. Sprachunabhängigkeit), sowie der Themenabdeckung und Tiefe, mit der Themen behandelt werden. Grundsätzlich bieten alle einen hierarchischen Aufbau und die Dokumente können mehreren Themen zugeordnet werden.
3.2.1 Universalschemata
Universal-Schemata wurden großteils im 19. Jahrhundert zur verbesserten Organisation von Bibliotheken entwickelt. Sie umfassen deshalb einen großen Themenbereich und versuchen das gesamte Wissen der Menschheit einzubeziehen. Eine weitere Anforderung ist ihre universale Anerkennung und die mögliche Verwendung durch alle Menschen [Nohr]. Auslöser für ihre Entstehung war die rasante Entwicklung auf dem wissenschaftlichen Sektor. Die in Zusammenhang damit stehende große Anzahl an neu erscheinenden Büchern verlangte eine optimale thematische Einteilung. [Desire 1997]
Dewey Decimal Classification (DDC)
Die Dewey Decimal Classification (DDC) wurde von Melvin Dewey bereits im Jahr 1876 entwickelt und stellt heute eines der meistverbreiteten Klassifikationsschemata dar[59]. Sie wird in 135 Ländern angewandt und liegt in Übersetzungen in 30 Sprachen vor. Die gesamte Information wird mit der DDC in 10 Hauptkategorien eingeteilt (siehe Tabelle 3.1). Aus der Darstellung in Tabelle 3.1 wird auch ersichtlich, dass die DDC versucht, im Sinne einer Universalklassifikation das gesamte Wissen zu klassifizieren. Jede diese Kategorien wird wiederum in 10 Unterkategorien eingeteilt usw. (daher auch der Name Dezimaldarstellung). Die Darstellung der Klassen erfolgt über die Dezimalzahlen von 0-9. In dieser hierarchischen Struktur stellt jede Unterkategorie einen Teil des übergeordneten Themas dar [DDC 2002] [Nohr]. Als ein Beispiel für eine Klassifikation nach Dewey siehe Tabelle 3.2.
Tabelle 3.1 Hauptklassen der DDC [Nohr]
Tabelle 3.2 Beispiel des hierarchischen Aufbaus einer DDC Klassifikation [Fuhr 2002]
Tabelle 3.2 zeigt eine beispielhafte Klassifikation mittels DDC. Hierbei ist ersichtlich, wie ausgehend von einem allgemeinen Thema eine immer feinere Unterteilung hin zu einem ganz speziellen Gebiet vorgenommen wird. Jeweils nach 3 Zahlen wird ein Punkt in die Klassennummer eingefügt, um eine bessere Lesbarkeit zu gewährleisten.
In den Vereinigten Staaten findet die DDC in 95% aller öffentlichen Bibliotheken und Schulbibliotheken Anwendung. Verantwortlich für die Änderungen und Anpassungen der DDC zeichnet die Decimal Classification Division. Neben der Klassifikation von jährlich mehr als 100.000 Dokumenten werden ebenfalls in unregelmäßigen Abständen neue Editionen der DDC herausgebeben. Die Dewey Datenbank wird von der OCLC Forest Press mit Hilfe des Editorial Support Systems (ESS) gewartet. Die DDC besitzt für jede Klasse eine Menge an Schlüsselwörtern, welche diese Klasse beschreiben[60] [DDC 2002] [Nohr]. Dies ermöglicht, zum Beispiel durch Vergleich dieser Schlüsselwörter, in weiterer Folge auch den Einsatz automatisierter Systeme zur Klassifikation (siehe Scorpion Projekt, Kapitel 5.1.2)
Wie viele andere Universalklassifikationen weist auch die DDC einige Nachteile auf. So ist sie verständlicherweise stark amerikanisch geprägt und somit für viele Bereiche des europäischen Lebens nur bedingt anwendbar. Als Beispiel sei hier die Klasse 34 (Recht) genannt. Aufgrund essentieller Unterschiede zwischen amerikanischem und europäischem Rechtssystem kann das EU-Recht mittels DDC nicht wirklich korrekt beschrieben werden. Des weiteren ist die DDC natürlich thematisch orientiert, das Recht ist aber in erster Linie ein örtlich orientiertes Fach. Auch aus diesem Grund wurde für die DDC seit der Revision 19 eine sogenannte „Option B“ eingeführt, die zuerst eine örtliche und erst in weiterer Folge eine thematische Gliederung aufweist.[61] Klasse 344 steht dann nicht mehr für Sozialrecht, sondern für Europa. Dies hat natürlich zur Folge, das eine korrekte Anwendung der DDC, ohne Kenntnis der verwendeten Option, nicht mehr möglich ist. [Knudsen 1999]
Derzeit besteht die Klassifikation in 2 Versionen. Die kleinere Version eignet sich für Datenbestände mit maximal 20.000 Büchern. Die Vollversion unterliegt prinzipiell keiner Größenbeschränkung. Vorteil von Dewey ist die hohe Klassenintegrität, d.h. es kommt kaum zu Überschneidungen von einzelnen Themengebieten. Die Themendefinition in der Datenbank ist eindeutig, obwohl mehr als 30.000 definierte Klassen existieren. [DDC 2002]
Library of Congress Classification (LCC)
Das Library of Congress Classification System gehört mit der Entstehung vor über 100 Jahren ebenso zu den ältesten Klassifikationsschemata. Entwickelt wurde das System 1899 von Herbert Putnam mit dem Ziel, ein neues Klassifikationsschema für die umfangreichste Buchsammlung der Vereinigten Staaten, die Library of Congress einzuführen. Die LCC besteht aus 21 Hauptklassen, welche den Buchstaben von A-Z zugeordnet sind (ohne die Buchstaben I,O,W,X und Y, diese werden erst in den Unterklassen benötigt). Der Schwerpunkt der Klassen liegt auf amerikanischen Themen, was die universelle Einsetzbarkeit wieder etwas einschränkt. Deshalb scheint die LCC von den Universalklassifikationen die am wenigsten detailreiche zu sein. Hauptsächlich verwendet wird die LCC deshalb neben Amerika auch in Kanada und Australien. [Desire 1997]
Ein LCC Eintrag besteht nun aus einer Buchstaben – Kombination, gefolgt von Ziffern (siehe Tabelle 3.3).
Tabelle 3.3 Beispiele einer Themenbeschreibung nach LCC [Heber 2000]
Die LCC ist ein amerikanisches System und hat keine wirklich offizielle Übersetzung in andere Sprachen. Einige Dienste im Internet verwenden LCC zur Klassifikation, wie beispielsweise die WWW Virtual Library[62] oder CyberStacks[63]. [Desire 1997]
Universal Decimal Classification (UDC)
Die Universal Decimal Classification (UDC) ist eine internationale Klassifikation, die alle Wissensgebiete abdeckt. Die Ursprünge liegen in der Dewey Decimal Classification. Diese wurde Ende des 19. Jahrhunderts von Paul Otlet und Henri LaFontaine adaptiert, mit dem Ziel eine universale Bibliographie zu entwickeln. Das Schema besteht aus über 60.000 Klassen, die ständig überarbeitet werden. [Desire 1997]
Die Notation ist aufgrund der Verwendung von Nummern zur Klassenidentifikation sprachunabhängig und jener der DDC sehr ähnlich. Es existieren unter anderem UDC Versionen in Deutsch, Englisch, Französisch und Japanisch. Neben den Vorteilen der Flexibilität und Adaptierbarkeit kann die UDC im Normalfall kostenlos genutzt werden[64]. Die Schwächen der UDC bestehen vor allem in der recht hohen Komplexität und schlechten Aktualität aufgrund der langen Update-Intervalle. [Desire 1997]
Obwohl Universalklassifikationen den Anspruch stellen, eine große Themenvielfalt zu behandeln, kann es aufgrund der Anzahl nicht für alle Bereiche des täglichen Lebens eigene Klassen geben. Daher ist es möglich, einzelne Klassen zu gruppieren bzw. zu verknüpfen. Dies geschieht über Zeichen (Hilfsoperatoren), die an die Zahlen angehängt werden. Unterschieden wird dabei in sogenannte allgemeine Hilfsoperatoren, die überall auftreten dürfen und spezielle Hilfsoperatoren, die nur an definierten Stellen der Hierarchie auftreten. Als Beispiele für Hilfsoperatoren seien hier die Zeichen „=“(Sprache), „()“(Ort), und „-05“(Person) angeführt. So bedeutet die Kombination „860=20“ beispielsweise „Spanische Literatur in englischer Sprache“, „622.33(493)“ bedeutet „Kohlebergbau in Belgien“ oder „655.1-05“ erhält die Bedeutung „Buchdrucker“. [Manecke 1997]
Als Hilfsmittel zur Klassifizierung stehen Tabellen zur Verfügung, die einerseits einen Überblick über die Wissensgebiete und deren Unterteilung geben und andererseits die anwendbaren Hilfszeichen beinhalten, die zur Verbindung mehrerer Klassen verwendet werden können. Damit lassen sich, im Gegensatz zu Schemata mit starrer Themenhierarchie, auch Beziehungen zwischen verschiedenen Themen darstellen [UDC 1999]. Die Verantwortung für das Schema lag bis 1992 bei der FID (Federation Internationale de Documentation). Danach übernahm das neu gegründete UDC Konsortium die Wartung der UDC. [Desire 1997]. Die UDC wird heute in mehreren Internet-Katalogen, Bibliotheken und Projekten verwendet. Dazu gehören GERHARD[65] (siehe Kapitel 5.1.6), das NISS Information Gateway[66] und SOSIG[67].
3.2.2 Fachspezifische Schemata
Fachspezifische Schemata wurden für eine bestimmte Benutzergruppe oder zur Organisation eines speziellen Themengebietes entwickelt. Die verwendete Struktur bzw. Terminologie ist stark mit dem jeweiligen Themengebiet verbunden. Sie werden vor allem in jenen Bereichen eingesetzt, die im Gegensatz zu Universalklassifikationen eine feinere Strukturierung benötigen. [Heber 2000]
ACM Computing Classification System (ACM CCS)
Das ACM (Association for Computing Machinery) CCS ist ein Vertreter der fachspezifischen Schemata. Im Fall der ACM CCS ist dies das Gebiet der Computerliteratur und der mit Computer im Zusammenhang stehenden Ressourcen. ACM CSS besteht aus 11 Hauptklassen (siehe Tabelle 3.4).
Tabelle 3.4 Hauptklassen der ACM [ACM 2001]
Diese werden aber selten direkt zur Bewertung einer Ressource herangezogen, da sie meist zu allgemein gehalten sind. Innerhalb einer Klasse kann eine weitere Verfeinerung durch sogenannte Subject Headings vorgenommen werden. Hierbei sind auch Eigennamen erlaubt [ACM 2001]. Tabelle 3.5 zeigt ein Beispiel einer Kategorisierung nach ACM.
Tabelle 3.5 Beispiel einer Themenbeschreibung nach ACM [ACM 2001]
Das Schema wurde erstmals 1964 veröffentlicht und hat aufgrund des sehr dynamischen Fachgebiets zahlreiche Revisionen erfahren. Durch die beiden Sub-Klassen „Allgemeines“ und „Sonstiges“ unter jeder Hauptklasse besteht immer die Möglichkeit, atypische bzw. neu auftretende Wissensbereiche entsprechend zu beschreiben. [ACM 2001]
International Classification for Standards (ICS)
Das Auffinden von technischer Spezialliteratur wie Normen und technischer Regeln ist in unserer technisierten Welt von größter Bedeutung. Eine Fehlinformation kann hier zu Schäden in wirtschaftlicher, finanzieller und technischer Sicht führen. Um dies zu verhindern wurde 1992 die ICS, die internationale Normenklassifikation, vom Commitee on Information der ISO vorgelegt. Sie existiert auf englisch und französisch. Die oberste Ebene besteht aus 40 Hauptklassen, welche die Sachgebiete der Normung darstellen und durch eine zweistellige Zahl gekennzeichnet werden. Die Untergruppen werden durch einen Punkt getrennt (siehe Abbildung 3.1). [Nohr]
Ziel der ICS ist es, dem Wunsch nach einem weltweit einheitlichen Ordnungssystem quer durch alle Normungsorganisationen nachzukommen. Viele dieser Normungsorganisationen (wie DIN, ISO, CEN, VDE) wenden die ICS bereits an. [Nohr]
Abbildung 3.1 Aufbau eines ICS-Eintrags [Nohr]
Neben ACM CSS und ICS gibt es noch eine Menge weiterer fachspezifischer Klassifikationen wie PACS[68] (Physics and Astronomy Classification Scheme) oder NLM[69] (National Library of Medicine). Auch die IPC[70] (internationale Patentklassifikation) sollte in diesem Zusammenhang erwähnt werden.
3.2.3 nationale Schemata
Nationale Schemata sind zwar bezüglich der Themen allgemein gehalten, jedoch meistens für ein Land oder eine geographische Region entwickelt worden. Dazu zählen beispielsweise BC (Nederlandse Basisclassificatie, Niederlande) oder SAB[71] (Sveriges Allmänna Biblioteksförening, Schweden).
3.2.4 selbstentwickelte Schemata
Zu erwähnen sind auch noch diverse selbstentwickelte Themenhierarchien wie jene von YAHOO[72] oder DMOZ[73], welche komplette Neuentwicklungen darstellen. Vorteilhaft ist hier die hohe Flexibilität und Aktualität, neue Wissensbereiche können einfach abgebildet werden. DMOZ hat zum Beispiel zum Zeitpunkt des Verfassens dieser Arbeit über 460.000 Kategorien. Diese Schemata besitzen allerdings, nach Meinung des Autors, auch einige gravierende Nachteile. Es findet hier im Zuge der Entwicklung des öfteren eine Neustrukturierung der Themenzuordnung statt, dies führt zu fehlender Konsistenz. Oft fehlt auch eine eindeutige numerische Identifikation der Themen, was einen sprachunabhängigen Einsatz (aufgrund verschiedener Wortbedeutungen in unterschiedlichen Sprachen) erschwert. Außerdem basieren diese selbstentwickelten Hierarchien, mehr noch als die bekannten Universalklassifikationen, auf subjektiven Einschätzungen der Entwickler. Diese sind für Außenstehende nicht immer nachvollziehbar. Durch die (einerseits natürlich positive) permanente Weiterentwicklung (z.B. hinzufügen von Kategorien) und die große Menge an verfügbaren Kategorien ist auch nicht immer sichergestellt, dass sich Dokumente in der für sie am Besten passenden Kategorie befinden. [Heber 2000]
Vorhandene Querverweise (wie beispielsweise bei DMOZ) zeigen nach Meinung des Autors der vorliegenden Arbeit beim Browsen durch die Kategorien einerseits neue Sichtweisen für die Suche auf, andererseits verliert man durch verfolgen dieser Verweise leicht das ursprüngliche Suchziel aus den Augen.
Ein interessanter Aspekt gerade bei selbstentwickelten Themenhierarchien ist die Objektivität. Eine Einteilung der Themenhierarchie wird oft als objektiv betrachtet, dies ist in Realität oft nicht der Fall. Themenstrukturen sind manuell erstellt und spiegeln nicht selten geographische, gesellschaftliche oder politische Situationen zur Zeit ihrer Entstehung wieder [Walther 2001]. So ist vorstellbar, dass je nach politischem oder religiösem Einfluss bestimmte Themenbereiche besonders behandelt werden, und andere (kritische) Themen nicht aufgenommen werden.
3.2.5 weitere Schemata
Außer den eben erwähnten Schemata gibt es noch eine Reihe weiterer Klassifikationsmethoden, die im Folgenden kurz erwähnt werden sollen. So zeigen Facettenklassifikationen, semantische Netze oder Topic Maps neue Sichtweisen zur thematischen Klassifikation von Dokumenten auf.
3.2.5.1 Facettenklassifikation
Eine Weiterentwicklung der Klassifikationsschemata in Bezug auf Flexibilität stellen die sogenannten Facettenklassifikationen dar. Die Grundkategorien (vergleichbar mit Hauptklassen) entsprechen dabei den Gesichtspunkten, unter denen Objekte betrachtet werden können. Für jede dieser Grundkategorien werden dann als mögliche Werte sogenannte Facetten angegeben. Die Facetten selbst können wiederum hierarchisch strukturiert sein. Tabelle 3.6 zeigt ein Beispiel zur Klassifikation von Obstbäumen. [Ferber 2000]
Tabelle 3.6 Beispiel einer Facettenklassifikation von Obstbäumen [Fuhr 2002]
Ein niederstämmiger Frühapfelbaum würde also nach Tabelle 3.6 mit A1B3C1 beschrieben werden. Die Facettenklassifikation kann als mehrdimensionales System angesehen werden, bei dem in jeder Dimension eine von den anderen Dimensionen mehr oder weniger unabhängige Beschreibung durchgeführt wird. [Ferber 2000]
3.2.5.2 Semantische Netze
Semantische Netze stehen nicht unbedingt direkt in Verbindung mit einer Themenzuordnung zu Dokumenten, sind aber ebenfalls ein Verfahren, einen effizienten Zugang zu unstrukturierten Daten zu ermöglichen. Semantische Netze bestehen im Wesentlichen aus Knoten und Kanten. Knoten stellen Objekte, Begriffe oder Konzepte dar, Kanten symbolisieren die Relationen der Objekte zueinander. Eines der bekanntesten semantischen Netze ist „WordNet“[74], ein System von Synonymmengen, die durch Relationen miteinander verknüpft sind. Der Vorteil der semantischen Netze gegenüber der üblichen hierarchischen Klassifikation besteht darin, dass es möglich ist, verschiedene Arten der Verfeinerung der Hierarchie zu berücksichtigen (einige Klassifikationsschemata versuchen dies ansatzweise durch Anhängezahlen). Das System wird dadurch zwar mächtiger, allerdings auch wesentlich komplizierter. Semantische Netze ermöglichen durch verschiedene Relationen auch verschiedene Sichtweisen, in der normalen Klassifikation ist die Art der Spezialisierung ja für die ganze Hierarchie vorgegeben. [Ferber 2000]
Als Beispiel sei hier die Einteilung verschiedener Bücher gezeigt (siehe Abbildung 3.2). Die Einteilung erfolgt hier einmal nach Buchtyp sowie auch nach Autor. Semantische Netze haben den Vorteil, dass Interferenzregeln, die beispielsweise die Transitivität (erkennen neuer Fakten basierend auf bestehenden Relationen) einer Relation ausnutzen, neues Wissen aus Altem erschließen können. Durch die Relation „Der Telekinet“ -> H.Maurer und H.Maurer -> Science-Fiction ergibt sich, dass das Buch mit dem Titel „Der Telekinet“ aus dem Bereich Science-Fiction stammt.
Abbildung 3.2 Einfaches Beispiel für ein semantisches Netz
Ein weiteres Kennzeichen ist die Vererbung von Eigenschaften entlang der Hierarchie. Eigenschaften auf höherer Ebene gelten automatisch für die darunter liegenden Ebenen. Sie sind sehr flexibel, haben aber den Nachteil, dass ihre Überschaubarkeit mit zunehmender Anzahl von Begriffen verloren geht. [Knorz 2002]
3.2.5.3 Topic Maps
Themennetze (engl. Topic Maps) stellen eine Weiterentwicklung auf dem Gebiet der semantischen Netze dar. Grundsätzlich besteht eine Topic Map aus sogenannten „Topics“ (also Themen bzw. Knoten) und „Topic Occurances“ (statische Dokumentzuordnungen zu einem bestimmten Thema). Verweise (Assoziationen bzw. Kanten) verknüpfen diese Themen (und die damit verbundenen Dokumente) und machen deren Beziehung deutlich. Laut ISO Standard 13250:2000 definieren Topic Maps ein Modell und eine Architektur für ein strukturiertes Netzwerk von Hyperlinks, das mit entsprechenden Informationsobjekten (Dokumenten) verknüpft werden kann. Somit wird den ehemals unstrukturierten Dokumenten quasi eine „virtuelle“ Struktur auferlegt. [Knorz 2002]
Vorteil ist hierbei die Trennung der Struktur von den eigentlichen Dokumenten, was eine Pflege und Nutzung der Struktur vereinfacht. Mit Topic Maps können auf dem gleichen Informationsbestand viele verschiedene Sichten definiert werden. Im Gegensatz zur üblichen, hierarchischen Klassifikation ist mittels Topic Maps auch die Anzeige von Querverweisen möglich. Das dabei verwendete Format ist SGML bzw. XML. Dadurch wird ein leichter Austausch von Topic Maps bzw. deren Konzepten möglich. Auf unterster Ebene ist eine Topic Map nichts anderes als ein spezielles XML-File. Topic Maps sind also quasi ein XML-basiertes Austauschformat für semantische Netze. [Korz 2002]
3.2.6 Fazit
Mit Hilfe der eben vorgestellten Klassifikationsschemata stellt es im Normalfall kein Problem dar, Dokumente entsprechend ihrer Themenzugehörigkeit einzuteilen. Probleme ergeben sich allerdings wegen der Inkompatibilität der Schemata, beispielsweise bei der Zusammenführung mehrerer Bibliotheksbestände oder Diensten (Katalogen) im Internet. Gerade das Internet wirft ebenfalls das Problem auf, dass Schemata die unterschiedlichsten Wissensbereiche abbilden müssen. Diese sind aber gerade auf dem elektronischen Gebiet einem raschen Wandel unterworfen. Vor allem ältere Klassifikationsschemata können hier nicht flexibel genug reagieren. Außerdem wäre es vermessen, aufgrund der Verfügbarkeit dieser Schemata von einer generellen Klassifizierbarkeit aller Dokumente auszugehen. Schon allein das exponentielle Wachstum der Dokumente im WWW bringt es mit sich, dass eine manuelle Klassifikation von allen verfügbaren Dokumenten nach Themen nahezu unmöglich gemacht wird. Die Forschung beschäftigt sich aber schon seit einigen Jahren intensiv mit der Möglichkeit der automatischen, computergenerierten Klassifikation von Dokumenten. Klassifikationsschemata bieten auch hier interessante Ansatzpunkte, nach welchen Kriterien solch eine automatische Klassifikation erfolgen könnte.
3.3 automatische Themenzuordnung
Wie im vorigen Abschnitt gezeigt, gibt es verschiedene Möglichkeiten, Dokumente nach Themen zu kategorisieren. Häufig geschieht dies durch eine manuelle Zuordnung. In den letzten Jahren wurde aber auf dem elektronischen Sektor auch eine Vielzahl von Algorithmen und Methoden entwickelt[75], um diese Themenzuordnung zum Großteil automatisiert vornehmen zu lassen. Erste Ansätze hierzu gehen bereits auf die 50er Jahre des vorigen Jahrhunderts zurück (siehe z.B. [Luhn 1958]).
Im Bereich der digitalen Bibliotheken und Archive, gerade im Internet, ist eine manuelle Klassifikation schon aus Gründen der Quantität und der Informationsvielfalt nicht für alle Dokumente möglich. Weiters würde dies entsprechend hohes Wissen auf den Gebieten voraussetzen. Niemand ist allerdings in der Lage, Experte auf allen Gebieten zu sein und somit eine qualitativ richtige Einteilung der Dokumente vorzunehmen. Der Einsatz vieler Experten wiederum bedeutet hohen Verwaltungsaufwand und nicht zuletzt hohe Kosten. Schließlich muss auch erwähnt werden, dass die Klassifikation durch menschliche Experten immer von subjektiven Eindrücken und Erfahrungen und nicht zuletzt von der jeweiligen Tagesverfassung abhängig sind. [Walther 2001]
Im kommerziellen Bereich der Unternehmen spielt neben den Kosten sicherlich auch der Zeitfaktor eine Rolle. Ein automatisches System kann Dokumente in einem Bruchteil jener Zeit klassifizieren, die ein menschlicher Experte dafür benötigen würde. Nicht zuletzt werden durch eine automatische Klassifikation auch manuelle Ressourcen für andere Aufgaben frei. [Hagedorn 2001]
Bei einer automatischen Themenzuordnung gibt es aus technischem Blickwinkel nach Meinung des Autors zwei Möglichkeiten. Es existiert sowohl die Möglichkeit des Clustering, als auch jene der Klassifikation. Das Clustering kann beispielsweise im Information Retrieval mittels Spider-basierten Suchdiensten eingesetzt werden, um die erhaltenen Suchergebnisse nach Themen zu ordnen. Ein Beispiel hierfür wäre die im Kapitel 5.1.7 vorgestellte Suchmaschine Kartoo. Sollen Dokumente allerdings auf Basis einer thematischen Suche gefunden werden, so ist eine Klassifikation mit fester Klassenstruktur vielleicht vorteilhafter. Da natürlich auch einer automatischen Klassifikation irgendeine feste Themenstruktur zugrunde liegen muss (im Gegensatz zum Clustering), liegt es nahe, die im vorigen Abschnitt vorgestellten Klassifikationsschemata zu verwenden. Einige Projekte, wie beispielsweise das im Kapitel 5.1.2 vorgestellte Projekt Scorpion, forschen in diese Richtung. Im Gestaltungsbereich dieser Arbeit wird ebenfalls exemplarisch für die automatische Klassifikation das ACM Schema angewandt.
Die Klassifikation lässt sich dabei ähnlich dem in Kapitel 2.2 in Abbildung 2.5 darstellten Dreieck in mehrere Gruppen einteilen. Es werden die verschiedensten Techniken zur Informationsaufbereitung verwendet. Ausgehend vom manuellen Vergleich von Schlüsselwörtern gelangt man einerseits beispielsweise durch eine Frequenzanalyse der Wörter in Richtung automatisierter statistischer Verfahren. Von dort führt zum Beispiel der Einsatz regelbasierter Verfahren hin in Richtung semantischer Verfahren. Weiters ist auch die Stammformreduktion von Schlüsselwörtern ein Ansatz in Richtung semantischer Verfahren. Eine genaue Einteilung der Klassifikationsverfahren wird im folgenden Kapitel vorgenommen.
Die automatische Themenzuordnung kann aus der Sicht des Autors auf drei verschiedene Arten stattfinden:
· Direkt beim Einfügen einer neuen Ressource in eine vorhandene Struktur. Dies wiederum ist halbautomatisch mittels manueller Unterstützung möglich (z.B. Kontrolle durch Experten), oder kann vollkommen automatisch auf Basis eines vorhandenen Modells erfolgen (siehe Kapitel 4.3).
· Als Prozess im Hintergrund. Dieser wird in regelmäßigen Abständen gestartet und weist allen neu aufzunehmenden Dokumenten ein oder mehrere Themen zu.
· Quasi „on demand“, direkt im Rahmen von Suchergebnissen eines Spider-basierten Suchdienstes oder allgemeiner beim Surfen und der Arbeit mit Dokumenten. Ein interessanter Ansatz, eine Informationssuche mittels Spider-basiertem Suchdienst mit einer automatischen Themenklassifikation zu kombinieren, findet sich im sogenannten „focused crawling“. Eine Klassifikation neuer Dokumente basiert hier auf der aus bekannten Dokumenten[76] gelernten thematischen Einteilung, sodass nur ein möglichst geringer Teil des gesamten Webs nach diesen gelernten Themen abgesucht werden muss. Jedes betrachtete Dokument wird mittels automatischer Klassifikation dahingehend untersucht, ob es in den gewünschten Themenbereich passt oder nicht [Fuhr et al. 2001]. Das Verfahren des „focused crawling“ stellt also einen Versuch dar, die Indexierung neuer Dokumente mittels automatischer Klassifikation zu verbessern. Ein anderer Ansatz wird im Gestaltungsbereich dieser Arbeit, mit der Kombination einer automatisierten und benutzerunterstützten Klassifikation im Rahmen eines Suchdienstes, vorgestellt.
Prinzipiell erscheint die bei einer Dokument-Klassifikation an automatische Systeme gestellte Aufgabe relativ einfach. Die grundsätzliche Vorgehensweise ist folgende: Ein Dokument wird analysiert und aufbereitet, der Inhalt wird mit bereits klassifizierten Beispielen anhand verschiedener Schlüsselwörter verglichen. Wie auch Kapitel 4 zeigt, ist die Filterung einer Menge von Dokumenten nach bestimmten Schlüsselwörtern mittels Volltextsuche heutzutage kein großes Problem mehr. Schwierigkeiten ergeben sich allerdings gerade im elektronischen Bereich durch Unterschiede in der internen Struktur der Dokumente und der unterschiedlichen Sprachen. Weitere Probleme sowohl der manuellen als auch der automatischen Klassifikation werden in Kapitel 6 diskutiert.
3.4 Schlussbemerkung
In vielen Bereichen des täglichen Lebens ist man mit einer Flut an Informationen konfrontiert. Es gibt daher das Bestreben, Dokumente anhand ihres inhaltlichen Themas zu strukturieren. Dies gilt natürlich auch für den im Rahmen dieser Arbeit betrachteten Bereich der elektronischen, textbasierten Dokumente. In diesem Kapitel wurde mit den bereits seit langem bekannten und in vielen Bereichen wie Bibliotheken und Archiven eingesetzten Klassifikationsschemata eine Möglichkeit der thematischen Klassifikation aufgezeigt. Im Bereich der Themenstrukturierung ergeben sich auch mit der Entwicklung von semantischen Netzen und Topic Maps neue Verfahren. Aufgrund der Fülle an verfügbaren Dokumenten ist man allerdings auf der Suche nach Möglichkeiten, diese Themenklassifikation automatisiert vornehmen zu lassen. Nach [Koch 1998] bietet sich durchaus die Verwendung der im manuellen Klassifikationsbereich bereits etablierten Klassifikationsschemata als Grundlage für diese automatische Klassifikation an. Denn diese etablierten Schemata können zu Wissensdatenbanken ausgebaut werden, welche als Vorraussetzung für eine automatische Klassifikation dienen können. Das bekannte Begriffs-Vorkabular der Schemata kann ebenfalls für eine automatische Klassifikation genutzt werden (siehe Projekt Scorpion, Kapitel 5.1.2). Das folgende Kapitel soll nun einen Überblick über Vorgangsweise und die Verfahren geben, die bei einer automatischen Klassifikation zum Einsatz kommen können.
Kapitel 4Automatische Klassifikation
Im vorigen Kapitel wurde eine Reihe von Vorteilen erwähnt (wie geringere Kosten oder Zeitbedarf), welche eine automatische Text-Klassifikation gegenüber einer manuellen bei der vorherrschenden Flut an elektronischen Dokumenten bieten kann. Die Einsatzgebiete für eine solche automatische Klassifikation sind vielfältig. Gerade im Internet kann durch die thematische Einteilung der Dokumente im Rahmen von digitalen Bibliotheken oder Suchdiensten das Auffinden von Information wesentlich erleichtert werden. Ob eine automatische, thematische Kategorisierung von Text-Dokumenten brauchbare Ergebnisse liefert, hängt hauptsächlich vom verwendeten Verfahren ab. Hier spielen die Aufbereitung des Dokumentes, die Abstimmung (das Training) des Algorithmus und die eingesetzten Analysemethoden eine wesentliche Rolle.
Dieses Kapitel soll daher einen Überblick über die verschiedenen Klassifikationsmethoden sowie über die Vorgangsweisen geben, die bei einer automatisierten Dokumentklassifikation zum Einsatz kommen können. Zuerst sollen im folgenden Abschnitt allerdings Begriffe in Zusammenhang mit der Klassifikation erläutert und auch der Unterschied zum Clustering dargestellt werden.
4.1 Begriffsdefinitionen
In diesem Abschnitt werden einige Definitionen erläutert, die oft in Zusammenhang mit einer automatischen Klassifikation genannt werden. Diese Definitionen sind in der DIN 32 705 festgelegt. [Nohr]
Ein Klassifikationssystem ist die strukturierte Darstellung von Klassen und der zwischen ihnen bestehenden Begriffsbeziehungen. Eine Klasse ist die Zusammenfassung derjenigen Begriffe, die mindestens ein identisches Merkmal (Klassem) haben. Ein Klassem (oder klassifikatorisches Merkmal) ist dasjenige Merkmal von Begriffen, das zur Bildung einer Klasse benutzt wird und diese von anderen Klassen unterscheidet. Jede Klasse muss verbal durch eine Klassenbenennung bezeichnet werden. [Nohr]
Grundsätzlich kann der Begriff Klassifikation als Oberbegriff für alle Verfahren gesehen werden, die sich mit der Einteilung von Daten und Objekten beschäftigen, wie es auch in Abbildung 4.1 deutlich wird. Der Autor dieser Arbeit hat im Rahmen der Literaturrecherche allerdings festgestellt, dass der Begriff der Klassifikation oft in Opposition zum Begriff des Clusterings verwendet wird. Auch in dieser Arbeit wird daher mit Klassifikation eine Einteilung der Daten (Ressourcen)[77] in bereits von vornherein bekannte Klassen (eventuell mit einer hierarchischen Struktur) definiert. Im Gegensatz dazu steht das Clustering, bei dem auch die Klassen zuerst unbekannt sind und erst aus den zu bearbeitenden Daten hervorgehen. Eine Klassifikation findet oft durch Vergleich mit bereits klassifizierten Beispielen statt. Beim Clustering werden Ressourcen mit ähnlichen Eigenschaften (also ähnlichen klassifikatorischen Merkmalen) zusammengefasst und diese Eigenschaften kennzeichnen in weiterer Folge eine Klasse. Beim Clustering-Prozess wird eine Klasse also nicht a priori festgelegt, sondern erst über die Eigenschaften mehrerer, einander ähnlicher Dokumente definiert. Ziel sowohl der Klassifikation als auch des Clusterings ist es, dass eine zu bewertende Instanz der zugeteilten Klasse ähnlicher ist, als allen anderen Klassen. [Mitchie et al. 1994]
Die oben erwähnten Begriffe gelten grundsätzlich für jede Art der Klassifikation, folgende Begriffe treten hingegen vorwiegend in Zusammenhang mit der automatischen Klassifikation von Dokumenten auf.
Bei einer Klassifikation werden meist die zu klassifizierenden Dokumente (das Testset) mit bereits vorhandenen und indizierten Trainingsdokumenten verglichen (dem Trainingsset). In diesem Zusammenhang spricht man oft auch von einem sogenannten Klassifikationsmodell, anhand dessen neue Dokumente klassifiziert werden. Zur Überprüfung des Modells bzw. des Klassifikators gibt es wiederum einige Möglichkeiten. Eine davon ist die Kreuzvalidierung[78]. Dabei werden die vorhandenen Daten in ungefähr gleich große Partitionen eingeteilt. Jede dieser Partitionen wird nacheinander als Testset verwendet, die restlichen Partitionen als Trainingsset. Eine andere Möglichkeit wäre, jeweils nur einen Datensatz als Testset zu verwenden, die übrigen Datensätze als Trainingsset („Leave one out“ - Validierung). [Ferber 2000]
Im folgenden Abschnitt soll nun eine feinere Unterteilung der Klassifikations- bzw. Clusteringalgorithmen vorgestellt werden.
4.2 Einteilung der Klassifikationsverfahren
Eine mögliche Einteilung der Klassifikationsverfahren ist in dem in Abbildung 4.1 dargestellten Schema zu sehen. Eine nicht exklusive Klassifikation (Polyhierarchie) ist jene, bei der Dokumente auch mehreren Klassen zugeordnet werden können (deshalb wird sie auch als überlappende Klassifikation bezeichnet). Bei einer exklusiven Klassifikation (Monohierarchie) wird das Dokument hingegen genau einer Untermenge (Klasse) zugeordnet. Wird von Klassifikation gesprochen (auch im Rahmen dieser Arbeit), so meint man meistens die extrinsische bzw. überwachte Klassifikation[79]. Hier verwendet man eine a priori festgelegte Kategorisierung. Die intrinsische Klassifikation entspricht hingegen dem bereits erwähnten Clustering[80]. Beim hierarchischen Clustering entstehen auch Subklassen (es existieren also mehrere Ebenen bzw. eine Hierarchie), wogegen ein partitionierendes Clustering aus nur einer einzigen Ebene besteht. [Rosenstiel et al. 1998]
Nach Meinung des Autors kann die in Abbildung 4.1 getroffene Unterteilung der exklusiven Klassifikation aber auch auf die nicht exklusive Klassifikation angewandt werden. Auch bei einer Zuordnung der Dokumente zu mehreren Klassen ist zum Beispiel eine hierarchische Struktur derselben vorstellbar.
Vorteil der (überwachten) Klassifikation ist die Verwendung bereits festgelegter Klassen, was die Konstruktion eines effektiven Algorithmus wesentlich erleichtert. Nachteilig hingegen erweist sich, das ein möglichst großes Trainingsset zur Verfügung gestellt werden muss. Dies ist oft mit hohem Arbeitsaufwand und hohen Kosten verbunden. Beim Clustering müssen keinerlei Vorgaben existieren, allerdings bedarf das Ergebnis meist einer nachträglichen Kontrolle, um die sinnvolle, korrekte Einteilung der Daten zu überprüfen. [Ferber 2000]
Im nächsten Abschnitt soll nun die grundsätzliche Vorgangsweise bei der Klassifikation eines textbasierten Dokumentes beschrieben werden.
4.3 Vorgangsweise bei der automatischen Klassifikation
Basis jeder Klassifikation von Dokumenten ist die entsprechende Analyse der Dokumente. Erste grundlegende Untersuchungen auf diesem Gebiet wurden unter anderem von H.P.Luhn gemacht. Dieser schrieb in einer seiner ersten Arbeiten 1958 (Zitat aus [Rijsbergen 1979]):
„Die Häufigkeit eines Wortes in einem Artikel ist eine brauchbare Maßeinheit für die Signifikanz des Wortes. Weiters ist die relative Position von Wörtern mit bestimmter Signifikanz innerhalb eines Satzes eine Maßeinheit um die Signifikanz des Satzes zu bestimmen.“[81][Luhn 1958]
Grundsätzlich basiert die Klassifikation von Dokumenten auf mehreren Schritten, aufgeteilt in 2 Phasen: In der sogenannten Lernphase wird ein Modell auf Grund von Trainingsdaten erstellt und das System angepasst. In der 2 Phase, der Anwendung, werden dann neue Dokumente anhand des zuvor erstellten Modells klassifiziert. [Klinkenberg 1998]
Folgende Abbildung (siehe Abbildung 4.2) zeigt im Wesentlichen den Ablauf der beiden Phasen. Die einzelnen Schritte, die letztlich zur Bildung des Klassifikators führen, werden auch später in diesem Kapitel erläutert (siehe Abschnitt 4.3.2). Aus den Trainingsdokumenten werden die relevanten Attribute (meistens Wörter) anhand verschiedener Methoden gewonnen (siehe Abschnitt 4.3.2.1 bis 4.3.2.4). Diese werden oft mittels Vektorraumdarstellung (siehe Abschnitt 4.4) repräsentiert und daraus ein Klassifikationsmodell und somit ein Klassifikator gewonnen. Bei der Klassifikation neuer Dokumente werden nun ebenfalls die relevanten Attribute extrahiert und durch verschiedene Methoden und Algorithmen (siehe Abschnitt 4.4.1) mit dem Klassifikationsmodell verglichen.
Abbildung 4.2 Phasen der Klassifikation
Die Textanalyse kann im Wesentlichen auf 3 Arten erfolgen: Erstens auf linguistischer Basis. Diese beschäftigt sich mit der Erkennung von verschiedenen Phänomenen der Sprache wie beispielsweise unterschiedliche Wortformen und Suffixe sowie Phrasen. Zweitens auf statistischer Basis (vereinfacht bedeutet dies das Zählen der Worte), oder aber drittens mit Hilfe von begriffsorientierten Verfahren. [Nohr 2000]
Diese 3 Verfahren sollen im nächsten Abschnitt etwas genauer erläutert werden.
4.3.1 Linguistische Analyse
Grundlage für die linguistische Analyse sind morphologische, syntaktische sowie semantische Verfahren. Erstere bauen auf Wortebene auf und haben die Aufgabe, nicht sinntragende Wörter zu entfernen. Dies geschieht einerseits durch die Stoppwortelimination und Wortstammbildung (siehe 4.3.3). Weitere Möglichkeiten der morphologischen Analyse sind: [Fuhr 2002]
· Flexionsformengenerierung: Hierbei wird ein Wörterbuch mit allen grammatikalisch möglichen Formen aller Wörter angelegt[82]. Ziel ist es unter anderem, sehr schnell gleiche Grundformen zu erkennen (z.B. die Verben „ging“, „gegangen“ mit der Grundform „gehen“).
· Kompositärzerlegung: Darunter versteht man die Zerlegung von Mehrwortbegriffen auf ihre Wortgrundformen. Schwierigkeiten durch die deutsche Sprache ergeben sich dadurch, dass der vordere Teil aus dem Nominativ oder Genitiv des Singular oder Plural gebildet werden kann.
· Derivation: Es werden Wörter bzw. Wortklassen mit der selben Grundform zusammengefasst (z.B. Berechnung mit rechnen).
· Phrasenerkennung: Beispielsweise mittels Abgleich von Listen.
Die syntaktische Analyse baut auf Satzebene auf und untersucht die einzelnen Komponenten eines Satzes (Subjekt, Verben, Adjektive usw.). Die semantische Analyse letztlich bezieht das gesamte Dokument in die Betrachtungen ein. Es wird versucht, sinntragende Zusammenhänge zu erkennen. [Fuhr 2002]
Die bei einer linguistischen Analyse eingesetzten Techniken lassen sich einteilen in wörterbuchbasierte Verfahren und regelbasierte Verfahren. Erstere verwenden die Flexionsformengenerierung um ein Wörterbuch aller möglichen Wörter anzulegen. Zweitere hingegen verwenden genau definierte Regeln, um Wörter auf ihre Grundformen zu reduzieren. Als Beispiel sei hier eine Regel erwähnt, welche die englische Endung „ies“ nach „y“ reduziert. Das Wort „Activities“ würde mit Hilfe dieser Regel auf die Grundform „Activity“ zurückgeführt. [Fuhr 2002]
Viele der statistischen Verfahren beinhalten auch Grundformen der linguistischen Verfahren, in der Hoffnung auf bessere Ergebnisse. Einige der in Kapitel 5 vorgestellten Softwarepakete bedienen sich neben statistischer Verfahren oft auch linguistischer Methoden. Grundsätzlich stellen aber rein linguistische Verfahren, gerade bei der Komplexität der menschlichen Sprache, die weniger gute Wahl dar, folgt man G. Knorz:
„Bei der Vielfalt und der Komplexität der Probleme, die die natürliche Sprache stellt, sind perfekte Lösungen entweder unverhältnismäßig aufwendig oder gegenwärtig gar nicht erreichbar.“ [Knorz 1994]
4.3.2 statistische Analyse
Die statistische Analyse beschäftigt sich hauptsächlich mit der Vorkommenshäufigkeit von Wörtern bzw. deren statistischer Verteilung. Die Bedeutung der Wörter wird großteils ausgeklammert. Dadurch erst wird das Problem der Dokumentklassifikation einigermaßen (auch mathematisch) handhabbar. Die eingangs erwähnte Lernphase zum Aufbau eines entsprechenden Modells beinhaltet im wesentlichen 5 Schritte: Die Textnormalisierung, die Termgenerierung, die Attributauswahl, die Attributgewichtung und den Lernschritt. [Klinkenberg 1998]
Diese 5 Schritte sollen im folgenden Abschnitt nun etwas genauer erläutert werden.
4.3.2.1 Textnormalisierung
Die das spätere Modell bildenden Dokumente werden anhand ihres Inhalts analysiert. Bei der Textnormalisierung werden alle unerwünschten Zeichen bzw. Zeichenketten (Token) entfernt. Welche dies sind, hängt natürlich stark von der Art der vorliegenden Dokumente ab. So können zum Beispiel neben Satz- und Sonderzeichen aus HTML oder XML Dokumenten die entsprechenden Tags entfernt werden, bei Newsgroup Nachrichten könnten es die Zeilen mit den Email-Adressen sein. [Klinkenberg 1998]
4.3.2.2 Termgenerierung
Es stellt sich nun die Frage, wie das Dokument im Modell repräsentiert werden soll. Es können für die weitere Verarbeitung die Wörter des Dokuments herangezogen werden. Bei den meisten Verfahren spielt dabei die Reihenfolge der Wörter keine Rolle. Anstatt einer Sequenz von Wörtern betrachtet man also eine sogenannte Multimenge von Wörtern (engl: Bag of words). Es liegt auf der Hand, dass dadurch zwar Information über das Dokument verloren geht, allerdings ist dies ein guter Kompromiss zwischen tatsächlichem Inhalt und der mathematisch, formalen Handhabbarkeit. [Klinkenberg 1998]
Eine weitere gebräuchliche Repräsentationsmethode sind sogenannte n-Gramme. Hierbei werden nicht einzelne Wörter betrachtet, sondern alle Zeichenketten mit Länge n. Beispielsweise wird das Wort „Auto“ mittels n-Gramm der Länge 3 (sog. Trigramme) folgendermaßen abgebildet: „_Au“, „Aut“, “uto“, “to_“. Vorteil dieses Verfahrens der Zerlegung in n-Gramme ist die Robustheit gegenüber Schreibfehlern sowie die sprachunabhängige Erkennung von Wortbestandteilen, was eine sprachübergreifende Einsatzmöglichkeit bietet. [Klinkenberg 1998]
4.3.2.3 Attributauswahl
Hat man den Text in einzelne Token bzw. Attribute zerlegt, gilt es diese so zu filtern, dass nur jene mit dem höchsten Informationsgehalt für die spätere Verarbeitung übrigbleiben.
Durch die sog. Stoppwortelimination werden jene Token entfernt, die das spätere Ergebnis störend beeinflussen könnten. Hierbei gibt es wiederum mehrere Ansätze: [Weiss 2001]
· Wörter mit einer geringen Buchstabenanzahl werden entfernt. Dies sind meist Bindewörter wie „und“ oder Artikel wie „der“, „die“ usw. · Wörter, die in einer Stoppwortliste enthalten sind, werden entfernt. Dies bedeutet natürlich eine Sprachabhängigkeit des Systems. Stoppwortlisten können auch automatisiert erzeugt werden. Grundlage dafür sind 2 Verfahren.
Das erste Verfahren ist die Wortfrequenzanalyse. Alle Wörter werden entsprechend ihrer Auftretenshäufigkeit sortiert. Es sind nun all jene Wörter interessant, welche eine Klasse am Besten beschreiben. Häufig oder in vielen Klassen auftretende Wörter bieten dabei ebenso geringen Informationsgehalt wie jene Wörter, die sehr selten auftreten (sie sind in einem Modell unnötig, wenn sie nie in einem zu klassifizierenden Dokument auftreten). Jene Wörter, die also eine bestimmte Häufigkeit (einen Schwellwert) über- bzw. unterschreiten, werden entfernt.
Die zweite Betrachtung gilt dem Rauschmaß. Ist das Auftreten eines Terms über alle Dokumente relativ gleich verteilt, so ist die durch ihn neu gewonnene Information sehr gering und der Term kann entfernt werden. Tritt ein Term hingegen sehr selten auf, kann man von einer hohen Bedeutung ausgehen.
Des weiteren findet in diesem Schritt oft auch die bereits erwähnte Stammformreduktion (oft in Zusammenhang mit der Derivation) zur weiteren Verbesserung des Ergebnisses statt. Dabei werden Endungen entfernt, es entsteht eine Form, die im Allgemeinen kein in der Sprache vorkommendes Wort ist. So werden die Wörter „computer“, „computerization“, „compute“ und „computation“ auf ihre Stammform „comput“ zurückgeführt. [Fuhr 2002]
Schon seit längerem existieren gerade im Bereich des Content-Management Werkzeuge, mit deren Hilfe es möglich ist, automatische Zusammenfassungen von Dokumenten zu erzeugen. Untersuchungen auf diesem Gebiet finden sich beispielsweise in [Salton et al. 1993]. Diese Zusammenfassung beschreibt Dokumente ebenfalls und kann als eine Art der Attributvorauswahl gesehen werden. Die Dokumente werden transparenter und könnten in Folge die Arbeit der Klassifizierung erleichtern. Für die weiteren Schritte wird in diesem Fall nicht mehr das originale Dokument, sondern nur mehr seine Zusammenfassung betrachtet. Ein solches Verfahren wird in [Kolcz et al. 2001] vorgestellt (siehe auch Kapitel 5.1.7).
Ein Problem bei der Attributauswahl stellen natürlich mehrsprachige Dokumente dar. Schon einzelne englischsprachige Fachbegriffe in einem ansonsten in Deutsch verfassten Dokument, könnten negative Auswirkungen auf das mit Hilfe dieses Dokuments zu entwickelnde Modell haben. Diese Wörter gehen natürlich bei der Ermittlung der Worthäufigkeiten in die Berechnung mit ein und können das Ergebnis verfälschen. Ein Ansatz zur Lösung dieses Problems ergibt sich in der Verwendung des in 4.3.2.2 beschriebenen n-Gramm Verfahrens zur Termgenerierung.
4.3.2.4 Attributgewichtung
Die nach der Attributauswahl verbleibenden Attribute können nun in einem weiteren Schritt noch gewichtet werden. Dabei spielt die Auftretenshäufigkeit eine wesentliche Rolle. Die Möglichkeiten der Attributgewichtung sind vielfältig. Eines der verwendeten Verfahren ist das sogenannte Term Frequency Inverse Document Frequency (TFIDF) Verfahren [Klinkenberg 1998].
Bei TFIDF wird mittels der Termfrequenz und der Dokumentfrequenz eine Gewichtung durchgeführt. Dabei gibt die Termfrequenz TF(w,d) an, wie oft ein Wort w in einem Dokument d auftritt. Die Dokumentfrequenz DF(w) hingegen gibt die Anzahl jener Dokumente an, in denen das Wort w zumindest einmal vorkommt. Eine grundsätzliche Annahme hierbei ist, dass nur jene Wörter aussagekräftig sind bzw. Informationsgewinn besitzen, welche zwar im aktuellen Dokument häufig auftreten (hohe Termfrequenz), aber gleichzeitig in wenigen Dokumenten zu finden sind (geringe Dokumentfrequenz). Letzteres wird mit der sogenannten inversen Dokumentfrequenz IDF zum Ausdruck gebracht (siehe 4.1) [Klinkenberg 1998]:
Hierbei stellt D die gesamte Trainingsmenge dar, |D| ist also die Anzahl der Trainingsdokumente und w ist ein Attribut des Dokuments. Das TFIDF Gewicht eines Wortes w im Dokument d ergibt sich also wie folgt (siehe 4.2) [Klinkenberg 1998]:
Interessant bei der Klassifikation von Web-Dokumenten im HTML-Format ist natürlich auch eine Gewichtung der Wörter entsprechend der Position ihres Vorkommens im Dokument. So können beispielsweise Wörter in Überschriften (<H1> bis <H6>) ein höheres Gewicht bekommen als jene Wörter im Text (<Body>). Berücksichtigt werden können aber auch Wörter in diversen Meta-Beschreibungen wie beispielsweise die Schlüsselwörter (<meta name=“keywords“>). Diese Gewichtung findet unter Anderem auch Verwendung beim DESIRE II Projekt (siehe Kapitel 5.1.3) und auch bei xFIND (siehe Kapitel 8). Ein Klassifikationsmechanismus unter Ausnützung einiger HTML-Strukturen findet sich auch in [Jenkins et al. 2000] (siehe auch Kapitel 5.1.7). Auch bei der im Gestaltungsbereich dieser Arbeit entwickelten automatischen Klassifikation (siehe Kapitel 9) wird eine ähnliche Gewichtungsmethode eingesetzt.
Es sei noch erwähnt, dass die Gewichtung von Attributen natürlich auch komplett manuell vorgenommen werden kann. Dies gilt natürlich sowohl für die Indexierung (den Bau des Modells) als auch beispielsweise für die spätere Formulierung einer Suchanfrage an das System mittels Schlüsselwörtern. Die manuelle Gewichtung ist jedoch nur bis zu einer bestimmten, relativ geringen Anzahl von Attributen sinnvoll und weist zudem weitere Nachteile auf. Neben hohem Arbeits- und Kostenaufwand hängt diese Gewichtung dann auch von Faktoren ab, die eigentlich keine Rolle spielen sollten. Dies wäre zum Beispiel der Wissensstand oder die Tagesverfassung der indexierenden Person. Ebenso hat sich in Experimenten gezeigt, dass Versuchspersonen generell nur schlecht in der Lage sind, Wahrscheinlichkeiten einzuschätzen und mit ihnen umzugehen. [Ferber 2000]
4.3.2.5 Lernschritt
In diesem letzten Schritt wird nun mit Hilfe der vorher modifizierten Attribute und eines darauf angewendeten Algorithmus, ein Modell erstellt. Ziel ist also das Trainieren eines Klassifikators für eine feste, bekannte Anzahl an Klassen eines Trainingsdokumentensatzes. Dies ermöglicht in weiterer Folge auch die Klassifikation von unbekannten Dokumenten. [Klinkenberg 1998]
4.3.3 Begriffsorientierte Verfahren
Alle bislang vorgestellten Verfahren sind angewiesen auf eine gegebene Wortwahl im vorliegenden Text. So können beispielsweise weder statistische noch informationslinguistische Verfahren erkennen, dass es sich bei den Termen „Klavier“ und „Piano“ um die sprachliche Repräsentation einer Bedeutung handelt. Informationslinguistische Ansätze erkennen zwar „Klavier“ und „Klaviere“ durch Rückführung der Pluralform als das gleiche Wort und statistische Verfahren berücksichtigen dies bei ihrer Berechnung, eine sprach-unabhängige, auf Bedeutungen abhebende Analyse leisten sie jedoch nicht. Begriffsorientierte Verfahren abstrahieren nun die Bedeutung von den vorgefundenen Wörtern und versuchen, den Inhalt eines Textes zu erfassen. Die ermittelte Bedeutung wird anschließend mit Hilfe eines festen Vokabulars (beispielsweise eines Thesaurus oder Wörterbuchs) repräsentiert. Durch die Erfassung der Bedeutung eines Textes einigermaßen unabhängig von den tatsächlich vorgefundenen Wörtern, kommt man damit dem menschlichen Klassifikationsverhalten näher. Allerdings kann hier von tatsächlichem Verstehen noch keine Rede sein. Die moderne Sprachwissenschaft geht von der Annahme aus, die Bedeutung von Wörtern könne nur über den Kontext ihres jeweiligen Gebrauchs erschlossen werden. Optimale Analyseverfahren müssten daher auch den Kontext mitberücksichtigen. Diese Forderung wird weder von linguistischen noch von statistischen Verfahren erfüllt. Die Forschung im Bereich der begriffsorientierten Verfahren geht daher in eine wissensbasierte Richtung. Die Modelle aus dem Bereich der künstlichen Intelligenz zeichnen sich durch Einbeziehung von Weltwissen aus und sind zudem in der Lage, Wissensakquisition zu betreiben. Als nachteilig erweist sich allerdings ein sehr hoher Implementierungsaufwand, die Systeme sind bereits für den Einsatz in kleinen Systemen extrem aufwendig. Dies ist auch der Grund, weshalb begriffsorientierte Verfahren zur Zeit in der Praxis noch keine große Rolle spielen. [Nohr 2000]
Da also linguistische und begriffsorientierte Verfahren mit hohem Implementierungsaufwand verbunden sind, werden in der Folge Algorithmen vorgestellt, die vor allem bei der statistischen Dokumentauswertung zum Einsatz kommen. Diese liefern auch ohne Aufbau eines komplexen Lexikons oder einer kompletten Wissensdatenbank, respektable Ergebnisse. Einige dieser Algorithmen werden auch für die Testimplementierung im Rahmen des Gestaltungsbereichs dieser Arbeit im xFIND System verwendet.
4.4 statistische Klassifikationsalgorithmen
Grundsätzlich gilt es bei der Klassifikation von Dokumenten immer zu berücksichtigen, ob ein Dokument genau einem Thema oder aber mehreren Themen zugeordnet werden soll (bzw. darf). Dies hängt vom jeweiligen Einsatzgebiet ab. Die in Abschnitt 4.4.4 vorgestellten Support Vector Machines eignen sich besonders gut bei binär separierbaren Problemen (d.h. richtig oder falsch). Als Beispiel eines solchen binär separierbaren Problems sei hier der medizinische Bereich angeführt. Basierend auf Untersuchungsergebnissen bzw. Krankheitsmerkmalen soll bestimmt werden, ob eine Krankheit vorliegt oder nicht. Algorithmen wie KNN (Abschnitt 4.4.3) hingegen können einem Dokument aber auch mehrere Themen zuweisen. Die meisten Klassifikatoren verwenden zur Entscheidungsfindung das Prinzip des Vektorraum-Modells (siehe Abbildung 4.3). Es ist vermutlich das bekannteste Modell aus der IR-Forschung. Ursprünglich entwickelt wurde es im Rahmen des SMART – Projektes[83] von G. Salton. [Rijsbergen 1979]
Die formale Definition des Vektorraummodells lautet nach [Ferber 2000]:
Definition: Sei T = {t1,...,tn} eine endliche Menge von Termen und D = {d1,..., dm} eine Menge von Dokumenten. Für jedes Dokument di Î D sei zu jedem Term tk Î T ein Gewicht wi,k Î R gegeben. Die Gewichte des Dokuments di lassen sich zu einem Vektor wi = (wi,1 ,...,wi,n ) Î Rn zusammenfassen. Dieser Vektor beschreibt das Dokument im Vektorraummodell: er ist seine Repräsentation und wird Dokumentvektor genannt.
Abbildung 4.3 Vektorraummodell [Nohr 2000]
Auch neu zu klassifizierende Dokumente werden durch Vektoren q Î Rn dargestellt. Wie bei der Repräsentation der Trainingsdokumente werden diese durch eine Menge gewichteter Terme dargestellt (für diverse Gewichtungsmethoden siehe Abschnitt 4.3.4). Schließlich sei eine Ähnlichkeitsfunktion s : Rn x Rn -> R definiert, mit der jedem Paar aus zwei Vektoren x,y Î Rn ein reeller Ähnlichkeitswert s(x,y) zugewiesen wird. [Ferber 2000]
Zusammengefasst bedeuten obige formale Definitionen, dass Trainingsdokumente bzw. die durch sie definierten Klassen über Vektoren repräsentiert werden, genauso wie das neu zu klassifizierende Dokument. Danach wird die Ähnlichkeit dieser Vektoren berechnet (z.B. über den Abstand bzw. den Raumwinkel zwischen den Vektoren) und aufgrund des Ergebnisses eine Zuteilung zu einer Klasse vorgenommen. Zur Berechnung des Ähnlichkeitswertes kann beispielsweise das Skalarprodukt zweier Vektoren x und y (wobei xi und yi das i-te Element des Vektors x bzw. y darstellen)
oder das Kosinusmaß
verwendet werden. [Ferber 2000]
Das Ergebnis mittels Skalarprodukt weist eine starke Abhängigkeit von der Anzahl und Größe der einzelnen Werte in den Vektoren auf, was gleichbedeutend mit der Länge der Dokumente ist. Würde man (unabhängig von der Gewichtung der einzelnen Attribute) den Text eines Dokuments einfach verdoppeln, so würde sich aufgrund der Linearität auch die Ähnlichkeit der Dokumente verdoppeln, obwohl kein zusätzlicher Informationsgewinn vorliegt. Trotzdem kann das Skalarprodukt überall dort eingesetzt werden, wo die Länge der Dokumente (beispielsweise durch ein vorgegebenes Format) bekannt ist. Das Kosinusmaß hingegen ist unabhängig von der Länge. Das Maß gibt lediglich die Richtung der Vektoren an. Zwei Dokumente sind sich am ähnlichsten, wenn ihre Vektoren in dieselbe Richtung zeigen. [Ferber 2000]
Der Vollständigkeit halber seien noch andere verwendete Maße wie das Overlap-Maß
das Dice-Maß
das Jaccard-Maß
und die euklidische Distanz erwähnt. Diese wird allerdings für Textkategorisierungsprobleme eher selten gewählt, da auch diese für unterschiedliche Dokumentlängen empfindlich ist. Für eine genauere Beschreibung dieser Maße sei auf [Ferber 2000] verwiesen.
Im folgenden Abschnitt sollen kurz die gängigsten Algorithmen zur Textklassifikation beschrieben werden.
4.4.1 Der Rocchio Algorithmus
Dieser Algorithmus ist einer der am häufigsten eingesetzten Verfahren. Er dient oft auch als Referenz zur Bestimmung der Güte anderer Verfahren. Entsprechend dem eben erwähnten Vektorraummodell (siehe Abschnitt 4.4) werden die Dokumente als Vektoren repräsentiert, deren Attribute dem ebenfalls bereits erwähnten TFIDF (siehe Abschnitt 4.3.2.4) gewichtet und anschließend in der Regel auf die euklidische Länge 1 normiert werden. Deshalb wird dieser Algorithmus (und von ihm abgeleitete Varianten) oft auch als TFIDF-Algorithmus bezeichnet. Letztlich wird wiederum über das Kosinus-Maß die Ähnlichkeit bestimmt. [Klinkenberg 1998]
Der Algorithmus wurde ursprünglich im Rahmen des Information Retrieval Systems SMART (siehe Abschnitt 4.4) eingesetzt. Er wird in Kombination mit Relevance-Feedback verwendet, eignet sich also besonders bei Anfragesystemen. Das Relevance-Feedback ist eines der populärsten Verfahren zur Aufbereitung von Anfragen und soll im Folgenden etwas genauer erläutert werden. Bei einer Anfrage wird dem Benutzer eine Liste der gefundenen Dokumente präsentiert und dieser markiert jene Dokumente, die für ihn relevant sind [Baeza-Yates et al. 1999].
Die Dokumente werden durch das Feedback vom Benutzer entsprechend ihrer Ähnlichkeit zur Anfrage bewertet. Ein Dokument ist umso relevanter, je ähnlicher es der gestellten Anfrage q ist.
Mit folgender Formel kann auf Basis des Relevance-Feedback eine neue Anfrage q´ formuliert werden, in welcher vom Benutzer als relevant gekennzeichnete Dokumente addiert und nicht relevante subtrahiert werden.
Hierbei ist q die alte Anfrage, D+ stellen die vom Benutzer als relevant gekennzeichneten Dokumente dar, und D- die nicht relevanten Dokumente. Dementsprechend ist |D| die Anzahl der jeweiligen Dokumente. Über die Parameter a und b kann der Einfluss der relevanten bzw. nicht relevanten Dokumente gesteuert werden. [Klinkenberg 1998]
In Abbildung 4.4 ist das Relevance-Feedback mit Usern schematisch dargestellt. Der Algorithmus ermittelt über das Ähnlichkeitsmaß ein Ranking der gefundenen Dokumente, der Benutzer gibt Feedback über passende bzw. nicht passende Dokumente, dadurch wird ein neues Ranking ermittelt und so weiter.
Abbildung 4.4 Relevance Feedback [Uden]
Dieses Verfahren kann jetzt auch für eine automatische Klassifikation verwendet werden (siehe Abbildung 4.5). Es wird zuerst aus den Trainingsdaten ein Modell aus Klassenvektoren gebildet. Danach wird ein neues Trainingsdokument eingeführt und klassifiziert. Der Algorithmus klassifiziert dieses Dokument und überprüft, ob das Dokument richtig klassifiziert wurde und passt gegebenenfalls die Klassenvektoren an. Diese Vorgehensweise kann wiederholt werden, bis die erhaltenen Ergebnisse passend vorliegen. [Uden]
Abbildung 4.5 Relevance Feedback in der Klassifikation [Uden]
4.4.2 Der Naive-Bayes Algorithmus
Der Naive-Bayes Algorithmus ist einer der bekanntesten Algorithmen basierend auf Wahrscheinlichkeiten in der Textklassifikation. Folgende Betrachtungen beziehen sich auf die Arbeiten von [Klinkenberg 1998] und [Chouaieb 1998].
Der Ansatz beruht auf folgender Fragestellung: „Mit welcher Wahrscheinlichkeit wird einem Dokument d die Klasse Cj zugeordnet“. Dies lässt sich mathematisch mit Hilfe der sogenannten bedingten Wahrscheinlichkeit definieren. Diese gibt die Wahrscheinlichkeit an, das ein Ereignis A auftritt, wenn Ereignis B aufgetreten ist (also in Kombination mit diesem).
Die Gleichung dafür lautet wie folgt:
wobei
Dabei wird P(Cj/d) als sogenannte „a posteriori“ Wahrscheinlichkeit bezeichnet. Sie definiert die Wahrscheinlichkeit für die Zuweisung der Klasse Cj, unter der Bedingung, dass das Dokument klassifiziert wurde. P(d) gibt hierbei an, mit welcher Wahrscheinlichkeit ein Dokument klassifiziert wird. Dieser Faktor ist bei den weiteren Berechnungen meist vernachlässigbar, da konstant. Der Ausdruck P(d/Cj) definiert die bedingte Wahrscheinlichkeit, dass sich ein Dokument d in der betrachteten Klasse Cj befinden kann. Der Faktor P(Cj) ist die sogenannte „a priori“ Wahrscheinlichkeit. Dieser beschreibt die vor der eigentlichen Klassifikation bekannte Wahrscheinlichkeit, dass die Klasse Cj dem Dokument zugeordnet werden kann. Diese Wahrscheinlichkeit ist im Normalfall für alle Klassen gleich groß und stellt somit einen vernachlässigbaren konstanten Faktor für alle Klassen dar. Es ist also zu Beginn für jede Klasse gleich wahrscheinlich, dass sie einem Dokument zugeordnet wird.
Mit Hilfe der obigen Gleichung lässt sich nun das sogenannte Bayes’sche Theorem definieren, welches als Ausgangspunkt des Naive-Bayes Klassifikators dient (siehe Gleichung 4.11). Der Algorithmus berechnet die Wahrscheinlichkeit P(Cj/d), mit der ein Dokument d in die Klasse Cj gehört. Das Dokument d wird hierbei als Vektor (a1..an) aus Attributen (Wörtern) gesehen.
Gemäß der Bayes‘schen Regel gehört ein Dokument dann in jene Klasse, bei der die höchsten Wahrscheinlichkeit ermittelt wird. Es gilt also
Nach Umformung mittels Bayes‘schem Theorem ergibt sich
Der Nenner P(d) kann weggelassen werden, da er im Normalfall keinen Einfluss auf das Ergebnis hat.
Der Algorithmus geht hierbei von der naiven Annahme aus, das alle Attribute (bzw. Attributwerte) stochastisch von einander unabhängig sind (konditionale Unabhängigkeitsannahme). Dies entspricht natürlich nicht der Realität (viele Worte kommen nur in Zusammenhang mit anderen Worten vor). Doch wie so oft in der Klassifikation muss man auch hier Zugeständnisse machen, um das komplexe Problem auf eine handhabbare, vernünftige Größe zu reduzieren. Diese stochastische Unabhängigkeit bewirkt, das obige Formel folgendermaßen umgeformt werden kann:
wobei ai ein Attribut aus dem Dokument d ist. Nun müssen noch die Wahrscheinlichkeiten bestimmt werden. Eine mögliche Formel dafür ist
wobei nai(Cj) die Häufigkeit bzw. das Gewicht des Attributes i in Klasse Cj ist und n(Cj) die Häufigkeit (das Gewicht) aller Attribute in Cj. Hieraus ist auch ein wesentliches Problem ersichtlich. Wenn nämlich ein Attribut aus der zu klassifizierenden Instanz in der gerade betrachteten Klasse nicht vorkommt, so ist nai = 0, in weiterer Folge auch P(ai/Cj) = 0 und somit die Wahrscheinlichkeit für diese Klasse P(Cj/d) = 0.
Abhilfe schafft hier die Glättung des Ergebnisses mittels sogenanntem m-estimate. Die neue Formel lautet dann
Hierbei ist m eine Konstante zur Steuerung der Glättung und p eine a priori Wahrscheinlichkeit[84]. Die Wahrscheinlichkeitsberechnung wird quasi um m virtuelle Attribute mit der Wahrscheinlichkeit p vergrößert. Dadurch wird auf alle Fälle vermieden, dass das Fehlen eines einzelnen Attributes in der Klasse bereits zu einer Klassenwahrscheinlichkeit von 0 % führt. [Klinkenberg 1998] [Chouaieb 1998]
4.4.3 Das K-Nearest-Neighbor Verfahren
Das K-Nearest-Neighbor Verfahren (KNN) oder auch „nächster Nachbar Klassifikation“ verwendet einen anderen Ansatz. Anstatt wie beispielsweise bei Naive-Bayes das zu untersuchende Dokument mit den jeweiligen Klassen zu vergleichen, werden hier grundsätzlich alle Dokumente gespeichert und es wird dokumentweise verglichen. Wird ein neues Dokument klassifiziert, so werden die k (ein variabel festlegbarer Faktor) ähnlichsten Trainingsdokumente über ein Ähnlichkeitsmaß (meistens Kosinusmaß, siehe Gleichung 4.4) bestimmt. Das neue Dokument wird nun jener Klasse zugeteilt, aus der die meisten dieser Trainingsdokumente stammen. Ist also Cj die Klasse mit der Anzahl kCj an Beispielen aus den k ähnlichsten Dokumenten, so wird das neue Dokument mit einer Konfidenz von kCj / k der Klasse Cj zugeteilt. Die mathematische Regel zur Klassenzuteilung für das Dokument d mittels KNN-Verfahren lautet also wie folgt:
Das Verfahren ist recht unempfindlich gegenüber verrauschten Daten (beispielsweise Dokumente mit falscher Klassenzuordnung als Nachbarn), da diese durch nicht-verrauschte Beispiele überstimmt werden. [Klinkenberg 1998]
Problematisch erweist sich allerdings, abgesehen von einer großen Anzahl an irrelevanten Attributen auch eine gleichmäßige Gewichtung dieser Attribute, da der Klassifikator nicht zwischen den einzelnen Attributen unterscheidet. Dieses Problem tritt allgemein in der Textklassifikation recht häufig auf und wird auch als „Fluch der Dimensionen“ bezeichnet. Ist das Verhältnis von relevanten zu irrelevante Attributen recht groß, so wird das Ergebnis verfälscht. Dies soll an einem Beispiel verdeutlicht werden (Abbildung 4.6).
Abbildung 4.6 Fluch der Dimensionen [Bouattour 1999]
Es seien U und W zwei gleich gewichtete Attribute und weiters existieren zwei Klassen „Kreis“ und „Rechteck“. Der Einfachheit halber wird als Ähnlichkeitsmaß die euklidische Distanz gewählt. Das neu zu klassifizierende Element xq (aus der Klasse „Kreis“) wird nun im linken Bild aufgrund der kürzeren Distanz fälschlicherweise der Klasse „Rechteck“ zugeordnet (siehe linke Darstellung in Abbildung 4.6). Erst eine Gewichtung der Attribute mittels der Faktoren w1 und w2, welche durch Änderung der Achsen die relevanten Attribute verstärkt, verbessert dieses Problem und führt zu einer korrekten Klassifikation. [Bouattour 1999]
Ein weiteres Problem des KNN-Ansatzes liegt darin, das alle k nächsten Nachbarn gleich behandelt werden. Dies kann zu falschen Ergebnissen führen, wie Abbildung 4.7 veranschaulicht.
Abbildung 4.7 KNN mit falschem Ergebnis [Bouattour 1999]
Das Dokument xq soll mit KNN (bei k=10) anhand der Klassen + und - klassifiziert werden. Als Ergebnis liefert der KNN hier die Klasse +, obwohl xq durch die Lage im Vektorraum eher der Klasse - zugeordnet werden sollte. Abhilfe schafft hier die Verwendung des sogenannten abstandsgewichteten (engl: distance weighted) KNN. Hierbei werden die Klassen wiederum mit Gewichten versehen, die ein Maß für den Abstand sind. Als Gewichtungsfunktion wird meist die Inverse des quadratischen Abstands verwendet. Somit erhalten Klassen, die im Vektorraum dem zu klassifizierenden Dokument näher liegen ein höheres Gewicht. [Bouattour 1999]
4.4.4 Support Vektor Maschinen (SVM)
Der Einsatz von Support Vektor Maschinen (SVM) in der Textklassifikation ist ein relativ junges Forschungsgebiet. SVM eignen sich besonders, um linear separierbare Kategorisierungsprobleme zu lösen. Die Textklassifikation ist je nach Anwendungsfall aufgrund ihrer binären „JA / NEIN“ Entscheidungsfindung ein solches Problem. Folgende Betrachtungen beziehen sich auf die Arbeit von [Klinkenberg1998].
Die Funktionsweise der SVM sei an einem 2-dimensionalen Beispiel demonstriert.
Gegeben seien Datenpunkte, welche durch eine Hyperebene der Form
klassifiziert (separiert) werden. Im 2-dimensionalen Beispiel
in Abbildung 4.8 wird dies durch eine Gerade symbolisiert.
Abbildung 4.8 Beispiel für SVM [Dumais et. al. 2000]
Die Punkte (Dokumente) mit geringstem Abstand zur Ebene werden
als Support-Vektoren bezeichnet. SVM finden nun jene Ebene, welche diese Bedingung
erfüllt. Der euklidische Abstand und die Norm des Gewichtsvektors
Ziel ist es, eine Hyperebene der Form
zu finden wobei für die praktische Klassifikation gilt
Das Finden der Hyperebene lässt sich in ein Optimierungsproblem überführen, und zwar so, dass gilt
Dabei hat yi den Wert –1, wenn das Dokument
gebracht. Durch geeignete Algorithmen lassen sich jene ai finden, für die obiges Problem minimal wird. Nun lässt sich die gesuchte Hyperebene konstruieren
Der Gewichtungsvektor wird also aus der Linearkombination
der Trainingsbeispiele berechnet, wobei nur jene Beispiele
SVM lassen sich gut bei Problemen mit sehr vielen Attributen einsetzen, da die Berechnungen nicht auf den Attributen, sondern auf Abstandsberechnungen beruhen. SVM verwenden auch eine Art Schutz vor Overfitting, die sogenannte strukturelle Risiko-Analyse. Dadurch wird eine obere Grenze für Fehler festgelegt, in deren Rahmen man Fehler akzeptiert. So wird vermieden, das sich der Klassifikator zu sehr an die Trainingsdaten anpasst. [Klinkenberg 1998]
4.4.5 Künstliche Neuronale Netze
Das Forschungsgebiet der künstlichen neuronalen Netze stellt ein Teilgebiet der Forschungsdisziplin Künstliche Intelligenz (KI) dar. Eines der Ziele der künstlichen neuronalen Netze ist es, die Vorgänge im menschlichen Gehirn nachzubilden. Denn während herkömmliche Probleme mit wiederkehrender Aufgabenstellung durch einen Computeralgorithmus schnell gelöst werden können, ist das menschliche Gehirn beispielsweise bei der Erkennung und Zuordnung von Mustern wesentlich schneller. Zudem hat es den Vorteil, auch „unscharfe“ (fehlerhafte, unvollständige) Eingaben noch korrekt auswerten zu können. Somit hat die Entwicklung der künstlichen neuronalen Netze auch im Bereich der Klassifikation interessante Anwendungsgebiete. Neuronale Netze zeichnen sich vor allem durch ihre Lernfähigkeit aus. Sie können auf Basis von Trainingsdokumenten für eine Aufgabe (wie beispielsweise die Klassifikation von Dokumenten) lernen, ohne extra dafür programmiert zu werden. Neuronale Netze bestehen, wie das Gehirn, aus einer großen Anzahl kleiner Elemente, den Neuronen. Information wird verarbeitet, indem sich diese Neuronen mit Hilfe von Verbindungen untereinander aktivieren. Wann welche Neuronen aktiv werden, wird über Regeln bzw. Aktivierungsfunktionen und letztlich natürlich auch über die Topologie des Netzes festgelegt. Das Neuron „feuert“ bei Überschreiten eines bestimmten Schwellwertes. Die prinzipielle Arbeitsweise soll anhand der Nachbildung der OR-Funktion demonstriert werden. Jedes Neuron hat ein eine (beliebige) Menge an Eingangsvariablen, eine Aktivierungsfunktion und eine Ausgangsvariable. Die Kombination vieler dieser Neuronen führt schließlich zum Neuronalen Netz. Für die OR-Funktion sind nur 3 Neuronen notwendig, wie in Abbildung 4.9 dargestellt. [Stauffer 2000]
Abbildung 4.9 OR-Funktion mittels Neuronen [Stauffer 2000]
Die Eingaben der Neuronen ergeben sich aus den Ausgaben der Vorgängerneuronen, multipliziert mit dem Gewicht wi der Verbindung. Im Falle der OR-Funktion werden die Gewichte und der Schwellwert auf 1 gesetzt. Dann ergibt sich die OR-Funktion laut folgender Tabelle:
Tabelle 4.1 OR-Funktion mittels Neuron [Stauffer 2000]
Es gibt im Bereich der neuronalen Netze eine Vielzahl an Netzwerktopologien. Ein öfter im Bereich der automatischen Klassifikation eingesetztes Netz ist das „multilayer Perceptron“ (MLP). Es besteht im wesentlichen aus einer Eingangsschicht an Neuronen, einer oder mehrerer sogenannter Hidden-Schichten und einer Ausgangsschicht (siehe Abbildung 4.10).
Als Input für das Netz wird eine Anzahl an Attributen eines Dokumentes (bzw. deren Gewicht) angelegt. Der Output wird berechnet, indem Neuronen anhand ihrer Aktivierungsfunktion „feuern“ oder nicht. [Mitchie et al. 1994]
Abbildung 4.10 neuronales Netz [Mitchie et al. 1994]
Grundsätzlich unterscheidbar sind Netze mit und ohne Rückkopplung (ein Pfad, direkt oder über zwischengeschaltete Neuronen wieder zurück zu einem Neuron). Ein Netz lernt nun, in dem es sich anhand einer Vorschrift bzw. Lernregel selbst modifiziert. Lernen bedeutet hierbei das Entwickeln neuer und Löschen alter Verbindungen, sowie die Modifikation bestehender Verbindungen über die Gewichte. Die Lernregel wird bei der Klassifikation (überwachtes Lernen) durch die Trainingsdaten vorgegeben. Zu jeder Eingabe ist die Ausgabe (das gewünschte Ergebnis) also bekannt. Ein typisches Lernverfahren (wie der bekannte Backpropagation Algorithmus[85]) durchläuft für alle Eingabe/Ausgabe Paare folgende Schritte: Eine Eingabe (das Anlegen eines Eingabemusters) erfolgt durch Aktivieren der entsprechenden Eingabeneuronen. Diese Eingabe läuft nun vorwärts durch das Netz und präsentiert eine bestimmte Ausgabe. Diese wird nun mit der korrekten Ausgabe verglichen und die Differenz berechnet. Die Fehler laufen nun rückwärts durch das Netz, wobei durch Modifikation der Gewichte versucht wird, diese Fehler zu minimieren. [Stauffer 2000]
Heutzutage existiert eine Vielzahl von Varianten in Bezug auf Aktivierungsfunktionen, Ausgangsfunktionen und Lernverfahren. Nicht alle sind für alle Aufgabenstellungen verwendbar. Ihre Eignung muss durch intensive Tests herausgefunden werden. Dies bedeutet einen hohen Aufwand bei der Installation eines neuronalen Netzes. Vorteilhaft sind gute Resultate und die hohe Unempfindlichkeit gegenüber Rauschen beziehungsweise gestörten Signalen. [Stauffer 2000]
4.5 Schlussbemerkung
Klassifikation im eigentlichen Sinn bedeutet eine Einteilung einer Ressource in a priori bekannte Kategorien oder Klassen. Es gibt im wesentlichen drei Möglichkeiten zur Dokumentklassifikation, die statistische Analyse, die linguistischen Verfahren sowie die begriffsorientierten Verfahren. Alle Verfahren haben ihre Vor- und Nachteile. Erstere beschäftigt sich nur mit der Häufigkeit der Worte bzw. deren Position im Text. Die beiden anderen Verfahren versuchen sich beispielsweise durch Stammformreduktion und Erkennung der Bedeutung mehr Information zunutze zu machen. Dies führt unter Umständen zu besseren Ergebnissen, resultiert allerdings in einem enormen programmiertechnischen Aufwand. Für automatische Systeme ist daher die Erkennung der Bedeutung eines Textes zur Zeit kaum möglich. Aus diesem Grund konzentrierte sich der Schwerpunkt der in diesem Kapitel angestellten Untersuchungen auf statistische Verfahren. Die vom Autor dieser Arbeit durchgeführte Recherche zeigt, dass Algorithmen wie der Naive-Bayes oder KNN häufig in Untersuchungen in Bezug auf Textklassifikation eingesetzt werden. Im Gestaltungsbereich dieser Arbeit wird daher mit der Verwendung ebendieser beiden Algorithmen auch der Einsatz von statistischen Verfahren zur Klassifikation demonstriert.
Generell stellen die in diesem Kapitel erwähnten Algorithmen und Verfahren aber nur einen kleinen Überblick über die gängigen Möglichkeiten in der Klassifikation dar. Verschiedene Untersuchungen der gegenwärtigen „state-of-the-art“ Algorithmen (z.B. in [King et al. 1995]) haben gezeigt, dass es keinen universell einsetzbaren und optimalen Algorithmus gibt. So benötigt der KNN im Normalfall keine Trainingszeit, ist aber bei der Klassifikation langsam. Im Gegensatz dazu ist der Naive-Bayes Ansatz schneller, die Annahme der statistischen Unabhängigkeit der Attribute wird ihm aber des öfteren zum Verhängnis. Abschließend festzuhalten ist, dass gerade durch das Internet und die damit verbundenen Herausforderungen bezüglich Dokumentstrukturen (XML, HTML) und Inhalte (Multimedia Objekte) generell alle Klassifikationsalgorithmen hinsichtlich ihrer Verwendbarkeit untersucht werden müssen. Entwicklungen auf diesem Gebiet resultieren in einigen neuen Ansätzen, wie in den erst seit einigen Jahren gebräuchlichen Support Vector Maschinen. Aber um zukünftigen Anforderungen (z.B. dem Erkennen der Bedeutung von Inhalten im Rahmen des Semantic Web) zu genügen, sind weitere Forschungen auf dem Gebiet der Textklassifikation unabdingbar. Das folgende Kapitel stellt nun einige dieser Forschungsansätze vor und zeigt außerdem eine Reihe der zur Zeit kommerziell eingesetzten Produkte.
Kapitel 5Anwendungen der Klassifikation
Wie das vorhergehende Kapitel gezeigt hat, gibt es eine Vielzahl von Algorithmen und mathematischen Methoden um eine weitgehende automatisierte Klassifikation von Text-Dokumenten vorzunehmen. Einige dieser Algorithmen sind bereits gut erforscht und verfeinert, bei anderen bietet sich noch ein weites Feld für Untersuchungen. Gerade für die Klassifikation von HTML-Dokumenten aus dem Internet liegen Verbesserungsmöglichkeiten beispielsweise in der Ausnutzung der Dokumentstruktur oder von Verweisen.
Ziel des folgenden Kapitels ist es, anhand einiger Beispiele aus dem kommerziellen Bereich[86] sowie aus dem Bereich des Open Source die Anwendungsmöglichkeiten und die Entwicklungen im Rahmen der Textklassifikation darzustellen. Die Textklassifikation ist natürlich auch einem ständigen Wandel bzw. einer ständigen Weiterentwicklung unterworfen. Daher wird zunächst auch der Stand der Forschung (vorwiegend an Universitäten) erläutert.
5.1 Forschungsprojekte
Durch neue technische Entwicklungen (beispielsweise auf dem Gebiet der Dokumentformate durch die XML Struktur) oder aber durch Verwendung von Erkenntnissen auf dem Gebiet der Mathematik, sind auch die verschiedenen Klassifikationsalgorithmen einem ständigen Wandel unterworfen. In diversen Forschungsprojekten wird daher versucht, die herkömmlichen Klassifikationsverfahren zu erweitern und zu verbessern oder neue, effektivere Methoden zu entwickeln. Im Folgenden werden einige interessante Ansätze vor allem zur Klassifikation von Dokumenten im Web vorgestellt.
5.1.1 BIKINI
Das Projekt BIKINI wurde im Jahr 2000 am Studiengang für Computerlinguistik und künstliche Intelligenz der Universität Osnabrück entwickelt. Das Akronym BIKINI steht dabei für "Benutzerbasierte Intelligente Klassifikation von INformationen aus dem Internet". Verschiedene Informationsquellen werden regelmäßig, nach zeitlichen Vorgaben eines Benutzers, auf neue Inhalte kontrolliert. In einer ersten Testimplementierung sind diese Informationsquellen News-Seiten. Diese Inhalte werden anhand eines Benutzermodells mittels Klassifikation analysiert und bewertet. In einer ersten Version ist sowohl das Benutzerinterface als auch die Klassifikation selbst auf die deutsche Sprache beschränkt. [BIKINI]
Das Benutzermodell kann vom Benutzer entweder anhand eines bereits existierenden Profils ausgewählt oder aber manuell erstellt werden. Hierzu wählt der Nutzer für ihn relevante Themenbereiche aus und gibt Beispiel-URLs dieser Themenbereiche, sowie repräsentative Stichwörter für die einzelnen Klassen vor. Im Laufe der vermehrten Anwendung und Verfeinerung des Modells können neue Kategorien dynamisch integriert werden. [BIKINI]
Das in BIKINI verwendete Klassifikationsmodell besteht aus sogenannten Klassenbeschreibungsvektoren. Diese bestehen wiederum aus ca. 250 (teils manuell hinzugefügten, teils aus Trainingsdokumenten gewonnenen) Worten pro Klasse mit einer TFIDF Gewichtung. Bei der Klassifikation neuer Inhalte findet zuerst eine morphologische Behandlung des zu klassifizierenden Textes statt, die Wörter werden auf ihre Grundform reduziert. BIKINI verwendet dafür ein Vollformenlexikon, also ein Lexikon in dem alle Formen aller Wörter vorkommen[87]. Nicht reduziert werden allerdings Verben, da es hier zu Problemen mit abspaltbaren Vorsilben kommt (z.B. abspalten – man spaltet ab). Ohne komplexe Syntaxanalyse des Satzes ist es kaum möglich, die Grundform solcher Verben zu ermitteln. Aus den mit Hilfe des Lexikons reduzierten Worten wird pro neuem Dokument ein Vektor bestehend aus den Wörtern selbst und deren Auftretenshäufigkeit gebildet. Dieser Vektor wird nun mit den einzelnen Klassenbeschreibungsvektoren aus dem Modell verglichen. Der Beschreibungs- und der Dokumentvektor werden dahingehend verknüpft, dass für jedes übereinstimmende Wort die Gewichte aus Beschreibungs- und Dokumentvektor multipliziert und die erhaltenen Werte aufsummiert werden. Danach erfolgt eine Normierung auf die Länge des zu klassifizierenden Dokuments. Liegt das so erhaltene Ergebnis über einem bestimmten Schwellwert (welcher in Trainingsläufen ermittelt wurde), so kann dieses Dokument der entsprechenden Klasse zugeordnet werden. [BIKINI]
Um herauszufinden, ob ein derart klassifiziertes und mit einem Thema versehenes Dokument nun für einen Benutzer interessant ist, werden die dem Dokument zugewiesenen Klassen mit jenen in seinem Benutzermodell bestimmten Themengebieten verglichen. Außerdem aber auch ob Worte im Dokument mit den vom Benutzer festgelegten Stichwörtern übereinstimmen. Zusätzlich wird noch darauf geachtet, ob die URL des klassifizierten Dokuments einer angegebenen Beispiel-URL des bevorzugten Themengebietes des jeweiligen Nutzers entspricht. All diese Faktoren werden miteinander kombiniert, um endgültig festzustellen, ob ein neu klassifiziertes Dokument in einen vom Benutzer ausgewählten Themenbereich passt. [BIKINI]
Die so aufbereiteten Informationen aus den verschiedenen Quellen werden dem Benutzer präsentiert. Dieser hat die Möglichkeit, die Qualität zukünftiger Ergebnisse zu verbessern, indem er Feedback über die korrekte Klassifikation von Dokumenten gibt. Dies kann zum Beispiel mittels einer Skala von <-10,10> geschehen. Dieses Feedback wiederum hat dann Einfluss auf den internen Wert dieser Kategorie im Benutzermodell. [BIKINI]
5.1.2 Scorpion
Das Projekt Scorpion ist ein vom Online Computer Library Center[88] (OCLC) entwickeltes System. Eine grundlegende Beschreibung des Projekts findet sich in einer Arbeit von K. Shafer:
„Das Projekt Scorpion der OCLC beschäftigt sich mit der automatischen Klassifikation bzw. Indexierung von elektronischen Ressourcen. Da die Themeneinteilung der Schlüssel zu verbessertem Auffinden, Navigieren und Katalogisieren von Information ist, liegt das Hauptaugenmerk von Scorpion auf der Entwicklung von Werkzeugen zur automatischen Themenerkennung basierend auf bekannten Schemata wie der Dewey Decimal Classification (DDC).“ [89] [Shafer 1997]
Einen Überblick über die Funktionsweise von Scorpion gibt Abbildung 5.1. Das zu bewertende Dokument wird quasi als Anfragevektor (siehe Kapitel 4) an eine Scorpion Datenbank verwendet. Die Grundannahme bei Scorpion ist, dass die Einträge im Editorial Support System (ESS, siehe Kapitel 3.2.1) der DDC als Datenbank zur Bewertung von Dokumenten verwendet werden können. Der Kern der Scorpion Wissensdatenbank ist deshalb identisch mit Einträgen aus dem ESS. Innerhalb des Projektes werden Versuche mit Datenbanken bestehend aus verschiedene Teilen der ESS durchgeführt.
Abbildung 5.1 Funktionsweise von Scorpion [Shafer 1997]
Als Beispiel eines in Scorpion verwendeten und entsprechend aufbereiteten ESS Eintrags siehe Abbildung 5.2. Die in einem ESS Eintrag vorhandenen Bereiche sind beispielsweise die „Upward Hierarchie“ oder aber „Relative Index Term“. Die jeweiligen Inhalte dieser Bereiche können für eine Klassifkation verwendet werden. So stimmen die hervorgehobenen Wörter in diesem Beispiel mit einer Anfrage (hier einem Artikel von Linda Harvey über Men in Black) überein.
Abbildung 5.2 Beispiel eines aufbereiteten ESS Eintrags [Goetz 1997]
Je nach Dokument kann der Anfragevektor nun beispielsweise nur Titel und Thema beinhalten, Metadateninformationen aus HTML-Dokumenten, oder aber auch komplette Textpassagen aus dem Dokument. Scorpion verwendet verschiedene Gewichtungsschemata (ATC und ATN) aus dem System SMART[90]. Jeder Term des Dokuments wird nun mittels Worthäufigkeit entsprechend dem Gewichtungsschema gewichtet und daraus ein Score gebildet. Bei ATN wird einfach die Summe der Gewichte herangezogen, bei ATC wird zusätzlich die Länge des ESS Eintrags berücksichtigt, um den Score auf einen Wertebereich von 0 bis 1 zu normalisieren. Das Ergebnis, basierend auf dem Beispiel aus Abbildung 5.2, ist eine sortierte Liste von Themen, wie der Tabelle 5.1 zu entnehmen ist.
Tabelle 5.1 Beispielergebnis von Scorpion [Goetz 1997]
Diese Themen können dem Dokument nun zugeordnet werden und somit eine automatische Einteilung ermöglichen. Sie können als Metadaten in HTML-Dokumente eingetragen werden oder einen menschlichen Klassifizierer bei der traditionellen manuellen Klassifikation unterstützen. [Shafer 1997]
Scorpion wird unter anderem verwendet, um sogenannte Extended Concept Trees aufzubauen. Darunter versteht man eine Methode, um neue Attribute mit den traditionellen DDC Klassen in Verbindung zu bringen. Dieses aus neuen Attributen bestehende Vokabular kann beispielsweise aus alternativen Klassifikationsschemata wie der Library of Congress Classification (LCC) stammen. Hierbei werden Dokumente, die mit den Inhaltskategorien dieser alternativen Systeme versehen sind, durch Anwendung von Scorpion mittels DDC klassifiziert und somit den DDC Klassen zugeordnet. [Koch 1998]
5.1.3 DESIRE
Im Rahmen des EU-Projektes DESIRE[91] werden unter anderem die Möglichkeiten der automatischen Klassifikation evaluiert und auch in Kombination mit manueller Klassifikation untersucht. Eines der Ziele des Projektes ist es, herauszufinden, wie man eine intellektuell (manuell) selektierte, katalogisierte und qualitätsgeprüfte Sammlung von Web-Ressourcen[92] mit einem wesentlich größeren roboterbasierten Themenindex kombinieren könnte. Zu Testzwecken wird einerseits das Subject Gateway der EELS[93] (Engineering Electronic Library Sweden) verwendet und andererseits der roboter-generierte Index „All Engineering“ (AE)[94]. Die Ressourcen der EELS sind entsprechend dem Ei (Engineering Information) Klassifikationsschemas eingeteilt und ermöglichen ein Browsen in den Ressourcen. Der verwendete roboterbasierte Index AE hingegen besteht aus über 250.000 Ressourcen. Eine manuelle Klassifikation dieses Index ist deshalb nicht möglich. Durch eine automatische Klassifikation des Index im Rahmen des DESIRE Projektes soll ein übergreifendes Browsen sowohl in der manuell erstellten Sammlung, als auch im roboterbasierten Index, anhand des Ei Schemas möglich sein. [Koch et al. 2000]
Für die automatische Klassifikation wird der bestehende Ei Thesaurus verwendet. Dieser enthält ca. 16000 Terme, ein Term kann dabei aus einem oder mehreren Worten bestehen, diese sind eingeteilt in 700 Klassen. Der Thesaurus beinhaltet also Tupel aus Termen und den Termen zugeordneten Klassencodes. Dieser Thesaurus ist allerdings für den direkten Einsatz in der automatischen Klassifikation ungeeignet und muss wie folgt aufbereitet werden. Die Terme des Thesaurus werden dahingehend untersucht, dass Stoppwörter sowie Sonderzeichen entfernt und Mischformen aus Groß- und Kleinschreibung korrigiert werden. Zusätzlich wird eine Stammformbildung angewandt. Klassifiziert werden können nur englischsprachige Dokumente, da der Ei Thesaurus nur englische Terme enthält. [Koch et al. 2000]
Aus den zu klassifizierenden Dokumenten wiederum werden Titel, Metainformationen und der restliche Text extrahiert. Die einzelnen Terme aus den Dokumenten des Index werden nun mit jenen im modifizierten Thesaurus verglichen und bei Übereinstimmung wird ihnen der entsprechenden Klassencode zugeordnet. In einem weiteren Schritt werden die Terme mit einem Gewicht versehen, je nach Termkomplexität bzw. Auftreten im Text (Metadaten, Titel oder restlicher Text mit den Faktoren 4, 2 und 1). Danach werden diese Gewichte aufsummiert und somit für jedes Dokument eine Liste von möglichen Klassen generiert. In einem letzten Schritt werden dann noch jene Klassen entfernt, deren Gewicht unter einem bestimmten Schwellwert liegt. Ein zusätzlicher Vergleich dieser automatischen Klassifikation mit einer Manuellen zeigt eine Übereinstimmung von knapp 70%. Im Rahmen dieses Projektes wird der Klassifikator auch hinsichtlich einer Verwendung der DDC statt Ei untersucht (in Zusammenarbeit mit OCLC und deren Scorpion Projekt, siehe 5.1.2). [Koch et al. 2000]
5.1.4 SONJA
Das Projekt SONJA wurde 1998 an der Stanford University ins Leben gerufen. SONJA steht hierbei für „Service for Organizing Networked Information Autonomously“[95] und wurde quasi als Anfragesystem für die Stanford Digital Library entwickelt. Mit SONJA besteht (über das sogenannte „SenseMaker Interface“) die Möglichkeit, verschiedene heterogene, vernetzte Informationsquellen wie Web-Suchmaschinen oder Datenbanken abzufragen und automatisch Dokumente anzufordern, aufzubereiten und in Echtzeit in kohärente Kategorien einzuteilen und diese dem Nutzer zu präsentieren. Hierbei werden nach Meinung des Autors in erster Linie englischsprachige Ressourcen verwendet. SONJA baut dabei im Unterschied zu manch anderen Suchdiensten keine eigene (vielleicht nicht immer aktuelle) Datenbank auf, sondern betrachtet die vernetzte Information als eine große Datenbank. [Sahami et al. 1998]
Die Funktionsweise von SONJA ist folgende. Über das SenseMaker-Interface wird eine Suchanfrage gestellt, diese wird an eine Suchmaschine (oder andere Informationsquelle) geschickt und die erhaltenen Urls werden an SONJA weitergegeben. SONJA sucht diese Urls nun mit Hilfe eines Crawlers ab. Die erhaltenen Dokumente werden aufbereitet. Zuerst erfolgt die Zerlegung in Wörter und eine optionale Anwendung von Stemming. Des weiteren erfolgt die Transformation in das Vektorraummodell und Gewichtung der Wörter unter Verwendung von TFIDF. Durch den modularen Aufbau ist aber auch der Einsatz einer anderen Gewichtung (z.B. boolesche Repräsentation) möglich. Schließlich werden die Attribute auch anhand einer Stoppwortliste und unter Anwendung einer Häufigkeitsverteilung gefiltert[96] (siehe Kapitel 4). Nun kann der Nutzer entscheiden, ob eine Klassifikation, also eine Einteilung in ein bereits bestehendes Schema, oder ein Clustering (die Bildung einer neuen thematischen Ordnung) vorgenommen werden soll. Bei einer Klassifikation werden dabei die in einem anzulegenden Benutzerprofil abgespeicherten Beispieldokumente als Trainingsdokumente zum Bau eines Modells verwendet. Als Klassifikationsalgorithmus kommt in weiterer Folge der Naive Bayes Algorithmus zum Einsatz. [Sahami et al. 1998]
Einer der markantesten Unterschiede von SONJA zu ähnlichen Projekten ist die Möglichkeit, verschiedene Dokument-Cluster bzw. Klassifikationen in einem Benutzerprofil abzuspeichern. Diese Dokumentenstruktur kann dann quasi als Klassifikationsschemata in weiterer Folge eingesetzt werden, um die Ergebnisse einer anderen, ähnlichen Suchanfrage zu klassifizieren. Dies bedeutet, neue Dokumente können in eine Themenhierarchie eingebunden werden, welche wiederum aus einer früheren Suchanfrage entstanden ist. [Sahami et al. 1998]
5.1.5 THESEUS
Der Klassifikator Theseus ist ein experimentelles Produkt des Instituts für Informatik an der Universität Pisa. Hier wird ein neuer Ansatz der Dokumentklassifikation versucht. Normalerweise werden Dokumente ja anhand der Analyse ihres Inhalts klassifiziert[97]. Gerade bei Dokumenten, die im Internet angeboten werden, kommt dadurch aber ein Aspekt nicht zum Tragen, nämlich die Struktur der Dokumente und die Verweis(Link)-Topologie. Hieraus kann ebenfalls für die Klassifikation brauchbare Information gewonnen werden. Theseus stellt nun ein Konzept dar, um Dokumente im Internet anhand ihres Kontextes[98] einzuteilen. Die hierbei unterstützten Sprachen sind Englisch und Italienisch. Da mit diesem Verfahren der Inhalt des zu klassifizierenden Dokuments eigentlich nicht betrachtet wird, ist die Anwendung nicht nur auf Textdokumente beschränkt. Sämtliche Multimedia-Objekte wie Bilder, Audio und Video, können als möglicher Input verwendet werden. Dabei wird die Umgebung eines Hyperlinks betrachtet, um eine Zuordnung jenes Dokuments (oder Objektes) vorzunehmen, auf das der Hyperlink verweist. Es werden zusätzliche Informationen in dem den Link beinhaltenden HTML-Dokument wie Titel oder Struktur ausgewertet. Grundlage dafür ist die Hypothese, dass ein HTML-Dokument (das Quell-Dokument), welches auf ein anderes Dokument (das Ziel-Dokument) verweist, genug Informationen über das Ziel-Dokument selbst beinhaltet. Tatsache ist, dass Internet-Nutzer ihre Entscheidung, einem Link zu folgen, auch von der textuellen Beschreibung dieses Links abhängig machen. Selbst wenn gegen gängige HTML-Style Guidelines verstoßen wird und der Link nur mittels „Hier klicken“ angeboten wird, sollte sich im Normalfall trotzdem genug Information finden lassen, um auf den Inhalt des Ziel-Dokumentes zu schließen. Theseus verwendet dafür die HTML-Tags <TITLE>,<H1> bis <H6> sowie <UL>, <DL> und <OL> und natürlich auch <A> des Quell-Dokuments. Mithilfe dieser Tags wird für jede gefundene URL in einem HTML-Dokument ein sogenannter Kontextpfad gebildet, mit folgendem Aussehen: URL: C1:C2:C3: ... Cn, wobei C1 den Anker-Text darstellt und C2 bis Cn nun den (verschachtelten) Kontext, also Text in Tags, welche die URL umgeben. Aufgabe der Klassifikation ist es nun, jene am Besten passende Kategorie (Klasse) zu finden, zu der das Ziel-Dokument gehört. Dies geschieht durch Vergleich mit einem sogenannten Kategorienbaum. Das ist ein Baum, wo sich an jedem Knoten ein „Titel“ (einfache Wörter oder Phrasen) befindet, welcher eine Kategorie eindeutig identifiziert. Für jeden Knoten wird nun die Übereinstimmung aller Ci einer Url mit dem Titel (bzw. dessen Synonymen) des Knotens betrachtet. Dies wird für alle Knoten durchgeführt. Ergebnis des Vergleichs ist eine Sequenz von Tupeln aus Knoten und Gewicht der Form URL: N1=w1,N2=w2...Nn=wn, wobei jedes Gewicht wi die Konfidenz darstellt, mit der die URL zu dem entsprechenden Knoten Ni gehört. Die so ermittelten Gewichte des Kontextpfades einer URL werden nun mit den Gewichten möglicher anderer Kontextpfade derselben URL addiert. Liegt das Gewicht über einem bestimmten Schwellwert, so wird die URL diesem Knoten zugeordnet. Dies ermöglicht auch die Zuordnung zu mehreren Knoten. [Attardi et al. 1999]
5.1.6 GERHARD
Das Projekt GERHARD[99] (German Harvest Automated Retrieval and Directory) entstand 1996 an der Universität Oldenburg mit dem Ziel, eine flächendeckende, roboterbasierte Suchmaschine für den deutschsprachigen Raum zu entwickeln. Aufgrund des enormen Wachstums der Web-Inhalte und der damit verbundenen Menge an irrelevanten Dokumenten entschloss man sich jedoch, die Dokument- Untersuchungen auf wissenschaftliche Ressourcen zu beschränken. Ähnlich dem Projekt Scorpion von OCLC (siehe auch Punkt 5.1.2) versucht GERHARD eine automatische Klassifikation anhand der UDK (siehe Kapitel 3.2.1) zu ermöglichen. Über die Notwendigkeit einer automatischen Klassifikation in Verbindung mit einer Suchmaschine schreibt T. Koch:
„Automatische Klassifikationsprozesse sind notwendig, wenn große robotergenerierte Dienste eine gute Navigationsstruktur für ihre Dokumente, oder erweiterte Filtertechniken, sowie geeignete Anfragemöglichkeiten zur Verbesserung des Suchprozesses anbieten wollen.“[100] [Desire 1997]
Das System GERHARD weist dabei gegenüber anderen Systemen folgende Vorteile auf:
· Es deckt vorwiegend deutsche, wissenschaftliche Ressourcen ziemlich vollständig in einer Datenbank ab. Dazu wurden 350 Domains mit ca. einer Million Dokumenten untersucht. Von einer Indexierung aller Dokumente des gesamten deutschsprachigen Raumes wurde aufgrund der hohen Anzahl an irrelevanten Dokumenten, welche die Qualität verringern würden, abgesehen. · GERHARD bietet durch die Mehrsprachigkeit der UDK ein dreisprachiges Verzeichnis und erschließt dadurch grundsätzlich deutsche wissenschaftliche Ressourcen auch englisch- und französischsprachigen Benutzern. · Es wird eine Stichwortsuche in Dokumenten (Searching), eine Stichwortsuche in Klassenbezeichnungen und eine Navigation über eine hierarchische Klassifikation (Browsing) angeboten. Eine Verknüpfung der einzelnen Suchmethoden scheint allerdings nicht möglich.
Die für die Suche und Navigation notwendigen Techniken nutzen ausschließlich maschinelle Verfahren. Nur die zu indexierenden Server werden manuell ausgewählt, um eine hohe Qualität der Ressourcen zu sichern. Indexiert werden dabei nur HTML-Dokumente, Erweiterungen auf andere Dokumenttypen sind geplant. Die Datensammlung erfolgt über den Harvest Gatherer[101]. Dabei wird dem System eine Starturl übergeben und in Folge werden rekursiv alle Links des angegebenen Servers verfolgt. Die Klassifikation selbst erfolgt mittels linguistischer und statistischer Methoden. Zuerst werden die UDK Einträge aufbereitet, beispielsweise durch Normierung der Umlaute und Entfernen von Verweisen sowie die Extraktion von natürlichsprachlichen Elementen (Phrasen) aus den UDK-Einträgen. Danach ist ein wichtiger Schritt die Erstellung eines UDK-Lexikons aus diesen aufbereiteten Einträgen, sowie den entsprechenden Synonymen. Hier kommen diverse morphologische Ansätze zum Tragen (z.B. Reduktion der Begriffe auf die nicht flektierte Stammform durch Abschneiden der Endungen oder Verwendung einer Stoppwortliste). Der Themenbereich „Umwelt und Frauen“ in der UDK (mit Nummer 396,5.000.504) würde dann in dem erzeugten Lexikon folgendermaßen repräsentiert: umwelt#frau#:396,5.000.504. Das # (Trunkierungssymbol) ist dabei ein Kennzeichen für das Wortende. Der Zahlenwert symbolisiert die Klassenzuordnung. Neu zu klassifizierende Dokumente werden, nach einer üblichen Aufbereitung (Bereinigen des Textes, Normierung der Umlaute usw.), nun mit Einträgen in diesem Lexikon verglichen und mit entsprechenden Klassen-Notationen versehen. So würde beispielsweise der Text „Auswirkungen verschiedener Umwelteinflüsse auf Frauen am Arbeitsplatz“ eben jene Notation 396,5.00.504 erhalten. Die lineare Abarbeitung des Textes sowie die kompakte Implementierung des Lexikons sichern dabei hohe Effizienz. In einer statistischen Analyse werden nun die vergebenen Notationen pro Dokument einer genaueren Betrachtung unterzogen. Je mehr Notationen mit dem selben Präfix vorliegen, desto sicherer ist die Zuordnung zum entsprechenden Themengebiet der UDK. Je länger die Notation ist, desto spezifischer bzw. genauer ist die Zuordnung. Diese Faktoren werden für eine endgültige Bestimmung der relevanten Notationen herangezogen. Jedes Dokument wird letztlich etwa 6 Themengebieten zugeordnet. Die Struktur des Dokumentes spielt insofern eine Rolle, als das zwei verschiedene Klassifikationsanalysen vorgenommen werden: Eine für den Titel und eine für das Gesamtdokument. Notationen des Titels gehen mit höherer Relevanz in das Gesamtergebnis mit ein. Die Implementierung dieser Klassifizierungskomponente erfolgte in den Programmiersprachen C und Perl. [Möller et al. 1998]
5.1.7 weitere Forschungsstudien
In [Blosseville et al.] wird eine Möglichkeit beschrieben, wie die Kombination von linguistischen, statistischen sowie wissensbasierten Methoden, zur Verbesserung einer Klassifikation verwendet werden kann. Im konkreten Fall wird der entwickelte Prototyp zur Klassifikation von Forschungsprojekten eingesetzt. Ziel ist die Unterstützung bei Planung, Verwaltung und Kostenberechnung von Projekten[102]. Die vom Verfahren unterstützte Sprache ist Französisch. Es werden hierbei Wörter aus dem Titel der Projektbeschreibungen betrachtet, sowie auch mittels linguistischer Analyse extrahierte Schlüsselwörter. Für beide Wortmengen wird sodann eine multinominale Diskriminanzanlayse[103] durchgeführt. Das Ergebnis ist eine Zugehörigkeitswahrscheinlichkeit eines jeden Projektes zu jeder Klasse. Diese Wahrscheinlichkeiten werden in 4 diskrete Werte[104] umgewandelt und für diese 4 Werte wird jeweils eine Konfusionsmatrix[105] erstellt. In einem letzten Schritt wird dann für jede Reihe dieser Matrix eine Regel für die Faktenbasis eines Expertensystems generiert. Experten können zu diesem System auch manuell Regeln hinzufügen. Die Klassifikation eines neuen Projektes erfolgt nun anhand der Anwendung der Regeln des Experten Systems in der Interferenz-Phase. Aus den bekannten Fakten im System wird auf die Klasse des zu untersuchenden Projektes geschlossen. Sollte es bei der automatischen Klassifikation zu keinem Ergebnis kommen (z.B. aufgrund möglicher Mehrfachzugehörigkeit oder weil keine Regel passt) so wird das Projekt einem menschlichen Experten zur manuellen Klassifikation übergeben. Bei den durchgeführten Experimenten ordnete dieses System (abhängig von der Anzahl der verfügbaren Klassen) mindestens 70 % aller Projekte den richtigen Klassen zu. [Blosseville et al.]
Einen neuen Ansatz bezüglich Klassifikation von Web-Seiten zeigt auch die Arbeit in [Matsuda et al. 1999]. Der entwickelte Klassifikator teilt Dokumente in verschiedene Typen, basierend auf einer Struktur-Analyse des Inhalts der Seiten. Diese Typen repräsentieren beispielsweise „Online-Shops“, „Produktkataloge“, „FAQs“, „Homepages“ usw. Basis dafür ist die Annahme, dass zum Beispiel eine Webseite eines Online-Shops spezielle eindeutige Charakteristika aufweist, anhand derer die Seite ebendiesem Typ „Online-Shop“ zugewiesen werden kann. Tabelle 5.2 zeigt einen Ausschnitt zur Festlegung der möglichen Charakteristika für den Typ „Produktkatalog“.
Tabelle 5.2 Charakteristika eines Produktkatalogs
Das Wort „Produkt“ im Tag <h2> einer Web-Seite liefert zum Beispiel 3 Punkte zur Typ-Bewertung. Das Wort „Kunde“ im Body einer Seite liefert 2 Punkte. Für jeden Typ gibt es eine eigene Liste von Charakteristika mit entsprechender Punkteaufteilung. Die Ermittlung des tatsächlichen Typs erfolgt nun durch Summation der erreichten Punkte pro Seite und Division durch die mögliche Punkteanzahl. Einsatzgebiet dieses Klassifikators sind Anfragesysteme, wo es dem User beispielsweise ermöglicht wird, neben den üblichen Schlüsselwörtern auch einen Dokumenttyp anzugeben und somit die Anfrage zu spezifizieren. Auf der Suche nach einem neuen Computermodell könnte man somit neben dem Schlüsselwort „Computer“ auch den Dokumenttyp „Produktkatalog“ festlegen. Das System erreicht, bei von den Autoren durchgeführten Experimenten mit ca. 1 Million Seiten, eine durchschnittliche Precision von 88,9%. Diese nimmt mit der Menge der Dokumente allerdings ab. [Matsuda et al. 1999]
Ein neuer Ansatz zur Attributauswahl bei der Klassifikation von Dokumenten findet sich in [Kolcz et. al. 2001]. Ausgehend von der Tatsache, dass die Zusammenfassung eines Dokuments den Inhalt im Wesentlichen wiederspiegelt, kann diese Zusammenfassung deshalb gleich zur Attributauswahl für einen Klassifikator verwendet werden. Dies bietet den Vorteil der Attributreduzierung, um dem bereits erwähnten „Fluch der Dimensionen“ zu entgehen (siehe Kapitel 4.4.3). Außerdem existieren bereits eine Reihe von Systemen zur automatischen Generierung einer Zusammenfassung, welche hierfür verwendet werden könnten. Dadurch wird auch der Aufwand zur Aufbereitung des Textes für die Klassifikation minimal. Die durchgeführten Experimente zeigen, dass dieses Verfahren der Attributauswahl durchaus den sonst üblichen Methoden äquivalente Ergebnisse liefert. [Kolcz et al. 2001]
Nicht immer müssen Dokumente zuerst klassifiziert und dann entsprechend ihrer Klassenzugehörigkeit für eventuelle Anfragesysteme abgespeichert werden. In [Chen et al. 2000] wird ein Ansatz präsentiert, bei dem erst die aus einer normalen Anfrage an eine Suchmaschine erhaltenen Ergebnisse, quasi on-the-fly, klassifiziert werden[106]. Die Suchmaschinenresultate werden dann dem Benutzer nicht mehr in einer üblichen Liste präsentiert, sondern bereits gruppiert in entsprechende Themengebiete. Als Klassifikator kommt hierbei ein SVM-Algorithmus (siehe Kapitel 4.4.4) zum Einsatz. Zur Ermittlung der Klassenzugehörigkeit wird aus Performancegründen nicht das gesamte gefundene Dokument verwendet, sondern nur jene Zusammenfassung, die mit dem Suchergebnis retourniert wird. Eine von den Autoren ebenfalls durchgeführte Studie über die „Benutzerfreundlichkeit“ der auf diese Art und Weise präsentierten Suchergebnisse zeigt, dass, abgesehen von der besseren Übersichtlichkeit, relevante Information in den Ergebnissen auch durchschnittlich 30 Sekunden früher gefunden wird. [Chen et. al. 2000]
Ein ähnlicher Lösungsansatz, wie der eben erwähnte, kommt schon in einigen auch kommerziellen Produkten zum Einsatz. Allerdings arbeiten diesen Produkte nicht mit Klassifikation, sondern eher auf Basis des Clusterings. Beispielhaft seien hier Vivisimo[107], oder aber die im April 2002 gestartete französische Metasuchmaschine Kartoo [Kartoo] genannt. Letztere bereitet die Ergebnisse graphisch sehr ansprechend mittels Flash-Animation auf. So wird über bestimmte Schlüsselwörter eine thematische Verbindung zwischen einzelnen URLs hergestellt und diese auf einer Map durch Verbindungslinien dargestellt (siehe Abbildung 5.3). Diese Maps können für eine spätere erneute Suche auch abgespeichert oder per Email versendet werden. Auch eine Verfeinerung der Suche mittels Benutzerfeedback, durch hinzufügen oder entfernen von Wörtern, ist möglich. [Kartoo]
Abbildung 5.3 Suchergebnisse mittels Kartoo
[Oh et al. 2000] wiederum untersuchen die Verwendbarkeit der Verwandtschaftsbeziehung von HTML-Dokumenten über Hyperlinks für die Klassifikation. Zu diesem Zweck wird ein üblicher Naive Bayes Klassifikator dahingehend erweitert, dass auch der Inhalt jener Dokumente mitberücksichtigt wird, welche über Links mit dem aktuellen Dokument verbunden sind. Die Gewichtung eines Wortes wird damit um die entsprechende Worthäufigkeit in den Nachbardokumenten erhöht. Auch die Anzahl der Links zu Nachbardokumenten (der jeweiligen Klasse) spielt eine Rolle. In den von den Autoren durchgeführten Experimenten weist der neue Klassifikator eine Verbesserung von bis zu 13 % gegenüber der herkömmlichen Methode auf. Auch andere Studien, wie beispielsweise [Broder et. al.] oder [Haas et. al 1998] beschäftigen sich mit der Verwendbarkeit von HTML Links für die Klassifikation. [Oh et. al. 2000]
Die Strukturinformationen, die sich in HTML-Dokumenten befinden, dient auch [Jenkins et al. 2000] als Basis für eine Klassifikation von Dokumenten im Web. Dabei werden Trainingsdokumente analysiert und in Klassenvektoren zusammengefasst. Diese Vektoren beinhalten pro Wort die Häufigkeit in der Klasse, die Anzahl der Dokumente in denen es vorkommt, sowie die Häufigkeit des Auftretens im Titel und den Überschriften <H1> und <H2>. Mit Hilfe dieser Informationen werden zuerst all jene Wörter entfernt, die in weniger als 10 % aller Trainingsdokumente vorkommen. Danach wird mit den Werten für Titel, Überschriften und Dokumentanzahl mittels Addition ein Score gebildet. Des weiteren wird eine Klassenhierarchie über die manuelle Vergabe eindeutiger numerischer Klassenidentifikatoren erzeugt. Die Klassifikation eines neuen Dokuments erfolgt durch wortweisen Vergleich der Klassen mit dem Dokument. Beginnend bei der obersten Klasse der Hierarchie wird für jedes Wort der Klassenscore und der Dokumentscore addiert, wiederum unter Berücksichtigung der Position des Wortes (Titel oder Überschriften) im zu klassifizierenden Dokument. Liegt das so ermittelte und über einen Dice-Koeffizienten[108] normalisierte Ergebnis einer Klasse über einem bestimmten Schwellwert, so wird die Berechnung für alle Klassen in der Sub-Hierarchie dieser Kategorie fortgesetzt. Jene Klasse mit dem höchsten Ergebnis wird dem Dokument letztlich zugewiesen. In einem durchgeführten Experiment wurden immerhin über 76 % der Dokumente korrekt klassifiziert. [Jenkins et al. 2000]
Einen interessanten Ansatz zur Klassifikation zeigt auch [Godbole 2001]. Der Autor geht von der Annahme aus, dass die Klassifikation eines Dokuments nicht von einem einzelnen Algorithmus bewerkstelligt werden muss, sondern man „probiert“ mehrere Methoden aus und wählt danach das geeignetste Verfahren[109]. Die Klassifikation könnte quasi als Internet-Service angeboten werden. Das zu klassifizierende Dokument (in Folge Dokument T genannt) wird an mehrere „Klassifikationsdienste“ verschickt. Diese klassifizieren das Dokument T anhand ihres jeweiligen Algorithmus. Neben der jeweiligen Klasse für das Dokument T liefern diese Dienste aber auch eine Anzahl an weiteren Dokumenten zurück, welche (errechnet durch die jeweiligen Algorithmen) dem zu bewertenden Dokument am ähnlichsten sind. Die ähnlichen Dokumente eines Dienstes (in weiterer Folge Dienst A genannt) werden nun wiederum durch die restlichen Dienste bewertet. Jedes mal, wenn einer der anderen Dienste mit seinem Algorithmus nun einem Dokument des Dienstes A die gleiche Klasse wie dem Dokument T zuordnet, so bewertet er damit auch implizit den Dienst A (beispielsweise durch erhöhen eines Zählers für diesen Dienst A). Nachdem alle Dokumente von allen Diensten bewertet sind, erhält das Dokument T nun endgültig eine Klasse zugewiesen. Die Klasse entspricht jener, welche der Dienst mit dem höchsten Zählerstand für das Dokument T ursprünglich vergeben hatte. Vorteil dieses Verfahrens ist die Anwendung mehrerer (auch spezialisierter Algorithmen) mit unterschiedlichen Trainingsdatensätzen. Die tatsächliche Implementierung der Algorithmen bei den verschiedenen Diensten spielt keine Rolle und somit sind die Algorithmen auch leicht austauschbar. So kann Overfitting vermieden und die Klassifikation eines Dokuments verbessert werden. Auch das Abstimmungssystem für die einzelnen Dienste kann leicht geändert werden. Nachteilig ist der enorme Datentransfer zwischen den einzelnen Diensten und der damit verbundene (zeitliche) Aufwand zur Klassifikation eines Dokuments. [Godbole 2001]
5.2 Kommerzielle Produkte
Eine Recherche im Rahmen der kommerziellen Produkte hat ergeben, dass diese vorwiegend zur Klassifikation von Geschäftsunterlagen innerhalb des Intranets eingesetzt werden und nur in geringem Ausmaß zur thematischen Einteilung von Informationen aus dem Internet. Die effiziente Verwaltung dieser Dokumentmengen ist oft mit großem Aufwand verbunden. Durch die Klassifikation wird hier zumindest teilweise Abhilfe geschaffen. Kommerzielle Produkte verwenden häufig eine Kombination aus den in Kapitel 4 beschriebenen statistischen und linguistischen Verfahren. Einsatzgebiete liegen in der Klassifikation von Geschäftsunterlagen, Aufträgen, Briefen und ähnlichem. Die Hersteller sind sich der Wichtigkeit einer automatischen Klassifikation bei steigender Anzahl an elektronisch verfügbaren Dokumenten bewusst und die Zahl der Anbieter steigt kontinuierlich. Im Sinne eines Wettbewerbsvorteils sind die Unternehmen aber sehr auf Geheimhaltung bedacht. Daraus folgt, dass sich nur relativ wenig über den Aufbau und die Funktionsweise der verwendeten Verfahren herausfinden lässt. 5.2.1 IQ-Classify
IQ-Classify ist ein Produkt der Firma Easy Software[110]. Wichtigster Bestandteil ist ein selbstlernender Klassifikator (im Gegensatz zu Klassifikatoren mit starrem Regelwerk), der auf Basis statistischer Verfahren Texte und Dokumente einer jeweiligen Klasse zuordnet. Hauptaufgabe der Software ist das Erkennen und zielgerichtete Weiterleiten von Dokumenten. Die primäre Aufgabe liegt in der Erkennung der Dokumenttypen (Brief, Auftrag, Rechnung) und erfolgt dabei über automatisch extrahierte Textmerkmale. Aber weitere bzw. selbst definierte Klassen sind jederzeit hinzufügbar. Auch hier kommt wiederum eine Trainingsphase, zum Erlernen dieser Merkmale, zum Einsatz. Neben den Wörtern bzw. Wortfolgen selbst (N-Gramme) spielen linguistische Merkmale wie Häufigkeit der Wortarten und Wortstämme, aber auch Layout Informationen wie Zeilenanzahl und Schriftart eine Rolle. Jedes dieser Merkmale kann mit einer bestimmten Relevanz versehen werden. Erscheint eines der Merkmale auch im zu klassifizierenden Dokument, so erhöht sich entsprechend die Zugehörigkeitswahrscheinlichkeit. Durch Addition der einzelnen Merkmalsrelevanzen ergibt sich dann eine bestimmte Klassenzugehörigkeit. IQ-Classify erreicht eine Konfidenz (Bestimmtheit, Übereinstimmung) von ca. 95%. Neue Dokumentklassen können jederzeit hinzugefügt werden, durch das Bearbeiten einer gewissen Anzahl an Trainingsdokumenten. [EASY]
5.2.2 SERBrainware
SERBrainware stellt die Basistechnologie der Document Management Software SERware[111] dar. Dabei wird als Klassifikator ein künstliches neuronales Netzwerk verwendet. Die Vorteile des neuronalen Netzwerks in dieser Software sind Schnelligkeit und kurze Lernphase. Das Netz wird mit Hilfe einer kleinen Anzahl an Trainingsdokumenten für jede Klasse aufgebaut (Learning by Example; zwischen 20 und 100 Dokumenten pro Klasse sind ausreichend). Dabei wird auch die Struktur (Geometrie) der Dokumente mitberücksichtigt. Neue Dokumente können nach verschiedenen, logischen Sichtweisen klassifiziert werden, beispielsweise einerseits über den Sachgegenstand oder das Thema, und andererseits über die geographische Region. Ist der Einsatz paralleler Prozessoren möglich, so lassen sich mehr als 5000 Textseiten pro Sekunde klassifizieren. Prinzipiell können alle Arten von Text klassifiziert werden (Webseiten, Faxe, Emails). Über eine vorgeschaltete Spracherkennung kann auch Sprache als Input für die Klassifikation verwendet werden. [SER]
SER bietet neben der Klassifikation auch eine ausgereifte Such-Funktionalität. So lassen sich unter Anderem relevante Dokumente finden, indem einfach ein Ausschnitt eines Textes angegeben wird. Es sind also nicht unbedingt boolesche Operatoren notwendig, um sinnvolle Ergebnisse zu erhalten. [SER]
5.2.3 Verity Intelligent Classifier
Der Classifier der Firma Verity Inc[112]. ist darauf ausgelegt, unternehmensspezifische Informationen entsprechend den Geschäftsfeldern zu klassifizieren. Der Klassifikator arbeitet dabei regelbasiert. Diese Regeln werden automatisch mittels patentierter Algorithmen aus dem Inhalt oder den Metadaten (auch in Kombination) spezifischer (manuell in entsprechende Klassen eingeteilter) Dokumente erzeugt. Die Klassifikation selbst geschieht anhand dieser Regeln. Ein und dieselbe Information kann aufgrund unterschiedlicher Kriterien klassifiziert werden. Die Regeln können in einem weiteren Schritt angepasst werden und reichen von einer einfachen Filterung nach bestimmten Kriterien (z.B. Name eines Autors), bis zu komplexen kontext-basierten Beschreibungen. Sie sind dynamisch veränderbar und jede Regel kann verwendet werden, um andere Regeln zu definieren. Sollten Dokumente nicht automatisch klassifizierbar sein, so wird ein Experte verständigt, der aufgrund seines Fachwissens neue, passende Regeln erstellen kann. Die Software stellt zu diesem Zweck eine umfangreiche Entwicklungsumgebung zur Verfügung. Die Produkte von Verity lassen sich leicht in andere Produkte integrieren, so auch in den Hyperwave Information Server[113]. [VERITY] 5.2.4 MohoClassifierTM
Der MohoClassifier der Firma Mohomine[114] verwendet patentierte Algorithmen zur Klassifikation von Text. Laut Firmenaussagen ist der MohoClassifier die schnellste und höchst konfigurierbare Klassifikations-Engine, die verfügbar ist. Die Funktionsweise des MohoClassifiers entspricht gängigen Klassifikationssystemen. In den ersten drei Schritten werden die benötigten Klassen definiert, Trainingsdokumente ausgewählt und mit Hilfe dieser Dokumente ein entsprechendes Modell entwickelt. Im 4. Schritt wird ein neues Dokument durch dieses Modell klassifiziert und im letzten Schritt automatisch der entsprechenden Klasse zugewiesen. Mohomine verwendet zur internen Repräsentation der Dokumente das Vektorraummodell. Als Klassifikationsalgorithmus kommt ein modifizierter Ansatz nach dem Bayes´schen Theorem zum Einsatz. Vorteil des MohoClassifiers ist unter anderem, dass nur recht wenig Trainings-Dokumente (zwischen 5 und 8) pro Klasse benötigt werden, um ein entsprechendes Modell zu generieren. Durch ein gut entwickeltes API, sowie eine COM Schnittstelle, lässt sich der Klassifikator auch in eigene Anwendungen integrieren. MohoClassifier unterstützt die gebräuchlichsten Dokumentformate wie HTML, Text, PDF, MS Word und RTF und die Benutzeroberfläche ist in Englisch und ebenso den meisten anderen westeuropäischen Sprachen verfügbar. Zwischen 20 und 300 Dokumente können pro Sekunde klassifiziert werden, abhängig von der Dokumentlänge. Die Klassenhierarchie wird dabei eigentlich nur von der zur Verfügung stehenden Hardware-Konfiguration beschränkt. [Mohomine]
5.2.5 IBM Intelligent Miner for Text
Der Intelligent Miner for Text[115] der Firma IBM soll helfen, unstrukturierte Daten in brauchbares Wissen zu transformieren. Zu diesem Zweck steht eine Vielzahl von Textanalyse Werkzeugen zur Extraktion, Klassifikation und Zusammenfassung von Text zur Verfügung. Die meisten dieser Tools arbeiten kommandozeilenorientiert. Sowohl binäres als auch hierarchisches Clustering und eine Klassifikation sind möglich. Die Klassifikation basiert auch hier auf dem 2-stufigen Modell des Trainierens und Klassifizierens. Dabei muss auch eine Menge von Trainingsdaten zur Verfügung stehen. Das Analyse-Tool zur Attributselektion aus Texten ist dabei in der Lage, Eigennamen zu erkennen, sowie durch Stemming eine Rückführung auf die Wortgrundform zu ermöglichen. Des weiteren werden Abkürzungen richtig erkannt. Die dabei betrachteten Dokumentformate umfassen unter anderem HTML, PDF, Excel, Word und RTF. Die Klassifikation selbst basiert auf einer Ähnlichkeitsmessung zwischen den Trainingsdaten und dem zu analysierenden Dokument. Als Ergebnis wird eine Textdatei geliefert, welche den Namen des Dokuments beinhaltet, sowie eine Liste der passenden Kategorien mit den entsprechenden Werten zur weiteren Verarbeitung. Zusätzlich ausgestattet ist das Tool mit einer Dokumenten-Spracherkennung, wie auch einer Volltext-Suchmaschine mit linguistischer Analyse der Anfrage. Des weiteren existiert eine graphische Benutzeroberfläche in JAVA zur Administration der Software. [IBM]
5.2.6 AmikaClassiferTM
Das Klassifikationstool AmikaClassifier entstammt der AmikaNow! Coorp.[116]. Es basiert auf dem üblichen 2-Stufen Modell des Trainierens und der Modellbildung, sowie der eigentlichen Klassifikation. Dabei kommen vor allem Ansätze aus den statistischen Verfahren zum Einsatz, wie die Ermittlung der Wortfrequenz und Position der Wörter und auch die Phrasenerkennung. Mitberücksichtigt wird die Qualität der Dokumente[117], ebenso die Klassenintegrität[118]. Während dieser Trainingsphase werden Regeln entsprechend den vorgefundenen Dokumenten erstellt. Die verwendete Technologie ist optimiert für den Einsatz bei unstrukturierten Inhalten jeder Art, insbesondere aber für die Klassifikation von Emails. In der Klassifikationsphase werden dann die Regeln entsprechend auf die einzuteilenden Dokumente angewandt. Die Klassifikation kann sowohl exklusiv (monohierarchisch) als auch nicht exklusiv (polyhierarchisch) erfolgen. Für eine leichte Integration in Applikationen stehen sowohl C++ als auch JAVA SDKs[119] zur Verfügung und ermöglichen eine plattformunabhängige Implementierung. Optional wird die Möglichkeit einer Email-Anbindung sowie die Konvertierung von Dokumenten aus und in verschiedene Formate angeboten. [AMIKA]
5.2.7 IC-Classify
Die Firma 7d Aktiengesellschaft verspricht nach eigenen Angaben Abhilfe bei der Verwaltung von Dokumenten aus Internet und Intranet. Im Angebot befinden sich dabei CRM-Lösungen[120], die sowohl das firmeninterne Produktwissen als auch die Bedürfnisse der Kunden in Einklang bringen. IC-Classify[121] ist dabei eines von insgesamt 8 Modulen der 7d Software zur Organisation von großen Dokument- bzw. Datenbeständen[122]. IC-Classify arbeitet nach den gängigen 2 Stufen: In einem ersten Schritt wird ein bestehendes oder neu anzulegendes Kategoriensystem aufbereitet, indem für jede dieser Kategorien eine kleine Anzahl an Beispieldokumenten vorhanden sein muss. Je besser ein Trainingsdokument eine Klasse repräsentiert, desto besser sind spätere Resultate und umso weniger Trainingsdokumente sind notwendig. Diese Beispieldokumente werden nun hinsichtlich ihrer Struktur und ihres Inhaltes analysiert und es wird eine Klassenbeschreibung generiert. Diese Analyse erfolgt mittels linguistischer Methoden wie Wortarterkennung (Stemming) und Relevanzbewertung, als auch statistischer Verfahren wie beispielsweise Ermittlung der Worthäufigkeit und Gewichtung der Ergebnisse. In einem zweiten Schritt können nun neue Dokumente auf die gleiche Weise klassifiziert werden, indem sie einfach als Anfrage an das Klassifikationssystem betrachtet werden. Dieses vergleicht das Dokument mit dem aus den Trainingsdokumenten gebildeten Kategoriensystem und weist dem Dokument dann eine oder mehrere passende Kategorien zu (siehe Abbildung 5.4).
Abbildung 5.4 Klassifikation mittels IC-Classify [IC-Classify]
Die Verfahren arbeiten dabei sprachunabhängig, können aber zur Verbesserung des Ergebnisses sprachspezifisch erweitert werden. Das Kategoriensystem kann sich auch im laufenden Betrieb ändern. Durch Änderungen im Datenbestand (hinzufügen oder entfernen von Dokumenten), kann es zu einer inhaltlichen Verschiebung in einzelnen Kategorien kommen. IC-Classify prüft deshalb die Qualität des Datenbestandes durch Erzeugen neuer Klassenbeschreibungen auf Basis aller bereits klassifizierter Daten und Vergleich dieser neuen Klassenbeschreibungen mit den ursprünglichen Beispieldokumenten. Sollte sich der Datenbestand wesentlich geändert haben, so kann IC-Classify Vorschläge machen, beispielsweise den Dokumentbestand einer Klasse zu teilen. IC-Classify ist dabei leicht durch eine HTTP-Schnittstelle in bestehende Systeme zu integrieren und ist auf allen gängigen Plattformen verfügbar. [IC-Classify]
5.2.8 Inxight
Der Inxight Classifier[123] verwendet zur Klassifikation statistische und linguistische Ansätze. Auch hier kommt das Verfahren des „Klassifizierens durch Beispiele“[124], also über einen Trainingsdatensatz, zum Einsatz. Die gesamte Funktionalität steht für insgesamt 12 Sprachen gleichzeitig zur Verfügung. Durch den linguistischen Ansatz[125] ist es Inxight Classifier beispielsweise möglich, Wortkonstruktionen wie „Bundesumweltministerium und „Ministerium für Umwelt“ als identisch zu erkennen (teils durch Rückführung auf den entsprechenden Wortstamm). Hier zeigt sich ein wesentlicher Vorteil des Classifiers von Inxight gegenüber vielen anderen Tools. Er ist nämlich laut Inxight in der Lage, die doch sehr komplexe deutsche Sprache korrekt zu analysieren. Dies ist möglich, da auch der Kontext der Wörter in einem Satz betrachtet wird. [Inxight]
Wie bei allen Verfahren, die versuchen, die richtige Bedeutung eines Wortes zu ermitteln, stellt sich nach Meinung des Autors allerdings auch hier ein Problem. Man kann nicht mit Sicherheit sagen, dass der richtige Kontext bereits durch die Betrachtung des umgebenden Satzgefüges ermittelt werden kann. Vielmehr könnte sich dieser erst bei Betrachtung eines Absatzes, oder aber des gesamten Dokumentes ergeben. Inxight macht mit dem verwendeten Ansatz aber sicher einen Schritt in die richtige Richtung.
Auch neusprachliche Phrasen wie „business-to-business“ können richtig interpretiert werden. Inxight verlässt sich dabei auf Technologie und patentierte Algorithmen, welche XEROX PARC bereits seit 20 Jahren entwickelt. Diese Technik zum Indexieren der Dokumente wird schlussendlich noch mit einem modifizierten K-Nearest Neighbor Verfahren kombiniert, um die Dokumente zu klassifizieren. [Inxight]
5.3 Open Source Produkte
Die im folgenden Abschnitt betrachteten Open Source Initiativen zur Klassifikation von Text stammen meist aus dem Bereich des maschinellen Lernens. Dies bedeutet, sie beinhalten neben anderen Algorithmen zur Analyse und Auswertung von Text auch Klassifikationsmechanismen. Ihre Entstehung ist oft ein Resultat engagierter Entwickler, die diese Algorithmen dann zu Anschauungs- und Lehrzwecken einsetzen. Die in diesem Bereich durchgeführte Recherche hat aber gezeigt, dass sich die meisten Produkte nicht von Haus aus für die Klassifikation von Text-Dokumenten eignen. Sie sind auf die Klassifikation von kleinen Datenmengen, oft enthalten in einer einzigen Datei, ausgelegt und dienen nur zu Anschauungszwecken. Meist müssen diese Daten dann auch in einem bestimmt Format (z.B. ARFF, siehe 5.3.5) vorliegen. Da aber der Source Code frei verfügbar und des öfteren auch eine gute Dokumentation vorhanden ist, können diese Produkte mit mehr oder weniger hohem Aufwand für die Klassifikation von Text-Dokumenten modifiziert werden. Im Folgenden werden vorwiegend Entwicklungen vorgestellt, welche auch in der Fachliteratur am häufigsten Erwähnung finden.
5.3.1 libBow
BOW[126] (bzw. libBow) ist eine in der Programmiersprache C entwickelte Bibliothek von Algorithmen aus dem Bereich des maschinellen Lernens. Sie wurde von Andrew McCallum geschrieben und unter der LGPL veröffentlicht. Das Paket umfasst Algorithmen wie Naive-Bayes, K-Nearest Neighbor und TFIDF/Rocchio. Des weiteren sind mehrere Möglichkeiten der Attributgenerierung über N-Gramme oder der Zerlegung von Texten in Worte[127] möglich. Die Attributauswahl erfolgt über Stoppwortlisten oder Stemming. Verschiedene Parser für Text und HTML können eingesetzt werden. So gibt es die Möglichkeit, Kopfzeilen aus Newsgroupbeiträgen oder die Tags aus HTML-Dokumenten zu entfernen. Auch stehen verschiedenste Glättungsalgorithmen wie Laplace, Wittenbell oder m-estimate (siehe auch Kapitel 4.4.2) zur Verfügung. Die Auswertung des Ergebnisses kann auf vielfache Art und Weise erfolgen. Ausgegeben werden können neben der eigentlichen Klassifikation beispielsweise der Informationsgewinn[128] für jedes Attribut, Wortanzahl und Wortwahrscheinlichkeiten, sowie die komplette Wort-Dokument-Matrix. Die vorhandenen Daten können in Test- und Trainingssets eingeteilt werden. Ein wesentlicher Unterschied dieses Paketes gegenüber anderen ist, dass ein einfacher Serverbetrieb möglich ist. Dies bedeutet, die Worte der zu klassifizierenden Dokumente werden von einem Client zum Klassifikator geschickt. Als Ergebnis wird eine Liste der zugewiesenen Klassen retourniert. Der Umgang mit den entsprechenden Funktionen wird über ein textbasierendes Frontend, genannt Rainbow, erleichtert. [BOW]
5.3.2 LNKnet
Das Software-Paket LNKnet[129] ist in C geschrieben und wurde am MIT Lincoln Labratory entwickelt. Es umfasst mehr als 20 Algorithmen aus dem Bereich der Neuronalen Netze, statistischer Verfahren sowie Clustering Verfahren aus dem Bereich des maschinellen Lernens. Dazu gehören Backpropagation, Perceptron, linearer und quadratischer Gauss, Histogramm und K-Nearest Neighbor um nur einige zu nennen. Das Paket wird unter einer Open-Distribution Lizenz vertrieben. Zur Verwendung der Algorithmen stehen insgesamt 3 Zugänge zur Verfügung. Am einfachsten lässt es sich mit der graphischen Benutzeroberfläche arbeiten. Des weiteren können die einzelnen Programme aber auch im Batch-Verfahren auf der Kommandozeile oder in Shell-Scripts ausgeführt werden. Die letztlich für Programmierer interessanteste Variante ist aber jene, automatisch von LNKnet generierten C- Source Code eines Klassifikators in eigene Programme einzubinden. Dadurch ist es beispielsweise möglich, auch einen Klassifikator zur Klassifikation von Dokumenten zu entwickeln. Zusätzlich steht eine Menge an Ausgabedaten (Konfusionsmatrix, Fehlerraten usw.) zur Verfügung. [LNKnet]
5.3.3 NL ToolKit
Das NL ToolKit[130] (NLTK) stellt ein in der Programmiersprache Phyton implementiertes Framework zur Entwicklung von Software aus dem computerlinguistischen Bereich dar. Verfügbar unter GPL auf nahezu allen gängigen Plattformen dient es vor allem zu Lehrzwecken, aber auch als Ausgangsbasis für weitere Untersuchungen auf dem Gebiet der maschinellen Verarbeitung von Text. Das Softwarepaket erfährt eine kontinuierliche Weiterentwicklung. Wesentliche Design-Ziele bei der Entwicklung dieses neuartigen Tools waren Benutzerfreundlichkeit, Erweiterbarkeit und Konsistenz betreffend Datenstrukturen und Schnittstellen. Aufgeteilt in verschiedene Module stehen Funktionen wie der Bau von Syntaxbäumen oder Berechnungen von Wahrscheinlichkeits- sowie Häufigkeitsverteilungen zur Verfügung. Untersucht werden kann auch eine Verteilung, die in der Software als konditionale Häufigkeitsverteilung (Conditional Frequency Distribution) bezeichnet wird. Dies wäre beispielsweise die Untersuchung eines Textes auf dessen Verteilung der Wortlängen auf Basis der Anfangsbuchstaben (der Kondition) der Wörter. Für die Betrachtung von natürlicher Sprache können Wörter aber auch mit zusätzlicher Information versehen werden (sog. Part-of-Speech-Tagging). Diese Information kann Aufschluss über die semantische Bedeutung oder aber die interne Position innerhalb eines Satzes geben. Grundsätzlich zur Analyse von Text entwickelt, ist mit der Software aber auch die Klassifikation von Text möglich. Die in der aktuellen Version 0.7 (vom 6.Juli 2002) implementierten Klassifikationsalgorithmen sind ein „maximum Entropy“[131] Klassifikator, sowie eine Variante des Naive Bayes. Dieser kann allerdings nur mit binären Attributen hantieren. Da sich das Softwarepaket aber eher noch in einem frühen Entwicklungsstadium befindet, ist die Dokumentation noch recht unvollständig. [NLTK] 5.3.4 SVMlightDas Paket SVMlight[132] des Autors Thorsten Joachims von der Cornell University implementiert Support Vector Machines (SVM) in der Programmiersprache C. SVMs sind vor allem geeignet für binäre Klassifikationen. Sie können grundsätzlich in vielen Bereichen wie der Medizin, Meteorologie, Bioinformatik, Bilderkennung oder aber auch zur automatischen Textklassifikation eingesetzt werden. Für eine Einführung in die Funktionsweise der SVMs sei auf Kapitel 4.4.4 verwiesen. Das hier vorgestellte Paket kann mit mehreren tausend Support Vektoren und mehreren hunderttausend Trainingsdaten umgehen. Interessant an diesem Paket ist auch der implementierte Ranking Algorithmus. Dieser erlaubt es, eine Menge von Objekten entsprechend der aus einem Trainingsset gelernten Information zu sortieren, ein Problem das häufig mit Suchmaschinen oder Recommender Systems in Verbindung steht. Obwohl nicht direkt unter GLP verfügbar, ist das System dennoch frei für privaten oder wissenschaftlichen Gebrauch. Der Source Code ist verfügbar. Es existiert ebenso eine Schnittstelle zu Matlab und für dieses Paket ist auch ein Java Interface verfügbar. [SVMlight]
5.3.5 WEKA
WEKA[133] steht für „Waikato Environment for Knowledge Analysis“ und stellt eine in JAVA geschriebene Sammlung von Algorithmen aus dem Bereich des maschinellen Lernens dar. Entwickelt wurde die Bibliothek von Ian Witten und Eibe Frank von der Universität von Waikato, Neuseeland. Sie umfasst unter anderem wesentliche Algorithmen wie Naive-Bayes, Ibk (eine KNN Variante), C4.5, J.48 und Support Vector Machines. Des weiteren sind diverse Filter zur Normalisierung von Werten implementiert. Größter Vorteil von WEKA ist die gute Dokumentation[134], in deren Rahmen auch das Grundgerüst zur Erzeugung eines Klassifikators für Text gezeigt wird, sowie eine ansprechende graphische Oberfläche, über die alle Einstellungen vorgenommen werden können (siehe Abbildung 5.5).
Das Einlesen der Daten erfolgt über das ARFF[135] File Format. Eine Dokumentklassifikation selbst kann über die Oberfläche nicht vorgenommen werden, die Algorithmen lassen sich aber in eigene JAVA-Programme integrieren. WEKA wird ebenfalls unter GPL veröffentlicht und kontinuierlich weiterentwickelt. [WEKA]
Abbildung 5.5 Benutzeroberfläche von WEKA [WEKA]
5.4 Schlussbemerkung
Aufgrund der unüberschaubaren Datenflut sind sich auch kommerzielle Unternehmen der Vorteile bei einer automatischen Klassifikation ihrer Informationen im Intranet bewusst. Dies gilt in gleichem Maße natürlich für Informationen, die aus dem Internet gewonnen werden. Gerade im Bereich des Content- bzw. Dokumentmanagement versuchen Hersteller, mit teils ausgeklügelter und komplexer Klassifikationsverfahren, einen Wettbewerbsvorsprung gegenüber ihren Mitbewerbern zu erarbeiten. Eine einfachere statistische Analyse wird hier zum Teil mit aufwändigen linguistischen oder auch begriffsorientierten Verfahren verknüpft. Aufgrund der Entwicklungen im Bereich der Dokumentstruktur (HTML, XML) können zusätzliche Informationen über einen Dokumentinhalt gewonnen werden. Aufgrund des damit verbundenen Verbesserungspotentials können oder müssen diese Algorithmen jedoch auch in Zukunft angepasst werden. Speziell die in diesem Kapitel untersuchten Forschungsansätze zeigen auch für den Gestaltungsteil dieser Arbeit interessante Entwicklungen, beispielsweise in der Ausnutzung der HTML-Struktur oder der Häufigkeitsfilterung der Worte. In diesem Zusammenhang interessant sind auch die Bemühungen, die Wörter nicht mehr nur als statistische Komponente zu betrachten, sondern ihre Bedeutung zu erkennen. Die Liste der im Zuge der Recherche aufgefundenen kommerziell verfügbaren Systeme scheint endlos zu sein, deshalb konnte dieses Kapitel auch nur einen kleinen Überblick über die verfügbaren Modelle geben. Letztlich beschäftigen sich auch engagierte Entwickler im Open Source Bereich mit der Thematik Dokumentklassifikation. Hier hat sich gezeigt, dass die meisten dieser frei verfügbaren Programme nicht von vornherein auf die Klassifikation von Dokumenten ausgelegt sind, sondern sie erwarten die Dateneingabe in einem bestimmten Format (z.B. ARFF). Erst mit mehr oder weniger hohem Aufwand zur Aufbereitung der zu klassifizierenden Daten, können auch sie zur Textklassifikation eingesetzt werden. Daher ist es im Rahmen des Gestaltungsteils dieser Arbeit auch kaum möglich, eines der frei verfügbaren Produkte direkt zu verwenden, sondern eine eigene Implementierung in Anlehnung an das Paket libBow erscheint sinnvoll.
Die in diesem Kapitel vorgestellten (teilweise auch bereits in kommerziellem Einsatz befindlichen) Produkte dürfen allerdings nicht darüber hinwegtäuschen, dass die automatische Klassifikation immer noch mit einer Reihe von Problemen behaftet ist. Im folgenden Kapitel sollen diese Probleme diskutiert sowie Ansätze zur Lösung dieser Probleme aufgezeigt werden.
Kapitel 6
Probleme bei der Klassifikation
Die Klassifikation von Dokumenten stellt einen Lösungsansatz dar, der geeignet ist, dem Problem der Verwaltung und Auffindung von Informationseinheiten (Server, Serverbereiche oder einzelne Dokumente) entgegen zu wirken. In Kapitel 3 und 4 wurden Möglichkeiten der manuellen und automatischen Klassifikation vorgestellt. Die manuelle Klassifikation ist allerdings zeitaufwändig und benötigt eine große Anzahl an humaner Ressourcen. Die automatischen Verfahren sind im Einsatz schneller, benötigen allerdings Trainingsdaten und Trainingszeit. Diese automatischen Verfahren wurden zwar in den letzten Jahren immer weiter verbessert und verfeinert. Dennoch kann gerade die vollautomatisierte Klassifikation die oft zu hoch angesetzten Erwartungen nicht in vollem Umfang erfüllen.
In diesem Kapitel soll eine Auswahl an repräsentativen Problemen diskutiert werden, die in Zusammenhang mit der manuellen als auch mit der automatisierten Klassifikation von Dokumenten auftreten können. Dies geschieht im Kontext der vorliegenden Arbeit im wesentlichen im Hinblick auf Informationseinheiten im Internet. Zunächst findet eine allgemeine Betrachtung der möglichen Probleme statt. Anschließend werden jene Probleme erläutert, welche speziell in Zusammenhang mit HTML-Dokumenten im World Wide Web auftreten.
6.1 Generelle Probleme
Ziel der in dieser Arbeit untersuchten Klassifikation ist es, elektronisch verfügbare Dokumente einem oder mehreren Themenbereichen zuzuordnen. Aufgrund der durchgeführten Literaturrecherche im Rahmen dieser Arbeit identifiziert der Autor sowohl bei der manuellen als auch automatischen Klassifikation einige Probleme (u.a. siehe auch Abschnitt 2.1), wie die folgende kurze Aufstellung zeigt:
· Ein Dokument kann zu einem Thema oder zu mehreren Themen gehören. Eng damit verbunden ist das Problem, dass auch mehrere Themen der verwendeten Themenstruktur in einem Dokument vorhanden sind. · Für die manuelle Klassifikation stellt die Quantität der im Internet verfügbaren Dokumente ein Problem dar. · Die verwendeten Klassifikationsschemata sind nicht flexibel. · Autoren unterstützen die manuelle Klassifikation nur mangelhaft. · Elektronisch verfügbare Dokumente liegen in unterschiedlichsten Formaten vor. · Der Klassifikator passt sich zu gut an die Trainingsdaten an (Overfitting). · Die Qualität der eingesetzten Verfahren bei der Klassifikation ist mangelhaft.
Zusätzlich zu diesen Schwierigkeiten ergeben sich insbesondere bei Anwendung der Klassifikation auf Dokumente im Web[136] weitere Probleme (diese beziehen sich hauptsächlich auf das am häufigsten verwendete Format HTML):
· Dokumente im Internet liegen in unterschiedlichsten Sprachen vor. · Die Berücksichtigung der Linkstruktur innerhalb der Dokumente kann Probleme bereiten. · HTML-Dokumente können aufgrund der Hyperlink Navigation auch gesplittet sein. · Dokumente im Web können multimediale Inhalte aufweisen. · Die Persistenz der Inhalte in elektronischen Dokumenten ist nicht gewährleistet.
All diese in Zusammenhang mit der Klassifikation von Dokumenten auftretenden Probleme sollen nun im Folgenden genauer Untersucht werden. Zu beachten ist hierbei generell, dass sich diese Probleme je nach Anwendungsfall der Klassifikation von gravierend bis gar nicht auf die jeweilige Klassifikation auswirken können.
6.1.1 Mehrfache Themenzugehörigkeit von Dokumenten
Beiden Möglichkeiten der Klassifizierung, sowohl der manuellen als auch der automatisierten, ist das Problem gemein, dass ein und dasselbe Dokument zu mehreren Themengebieten gehören kann und eine Ja/Nein Entscheidung nicht immer zu treffen ist. So kann beispielsweise niemand genau sagen ob eine Arbeit über die gesundheitliche Auswirkung einer veränderten Raumaufteilung in Gebäuden auf das menschliche Wohlbefinden nun eher zum Bereich der Architektur oder zu dem der Medizin gehört. In dem genannten Beispiel könnte das Dokument einfach beiden Themenbereichen zugeordnet werden. Doch ist in manchen Fällen eine Zuteilung zu genau einem Themengebiet erwünscht. Dies könnte im medizinischen Bereich bei der Klassifikation von Krankheitsbildern (genau eine Krankheit) der Fall sein oder generell dort, wo Dokumentduplikate in der verwendeten Struktur nicht vorkommen dürfen.
Zwar sind die Entscheidungen der besten menschlichen Experten nach Meinung des Autors jenen der meisten automatischen Klassifikationssystemen überlegen, und zwar aufgrund ihrer Fähigkeit, die Bedeutung eines Dokumentinhaltes zu erfassen. Dennoch basieren sie auf individuellen Einstellungen und Erfahrungswerten. Jeder Mensch erfasst die Bedeutung eines Dokuments unterschiedlich. Eine absolut und für alle Betrachter korrekte Klassifikation ist daher kaum möglich. Automatische Systeme sind hier teilweise in der Lage, diese subjektiven Einflüsse bei einer manuellen Klassifikation zu minimieren. [Attardi et al. 1999]
Automatische Systeme generieren oft eine prozentuelle Zuordnung mehrerer Themen für ein Dokument. Eine sehr hohe Zuordnungswahrscheinlichkeit zu einem Thema ist hierbei allerdings ebenso sehr kritisch zu beurteilen. Denn der hierbei verwendete Wert ist eine rein rechnerische, durch mathematische Methoden ermittelte Größe (z.B. Verhältnis der Worthäufigkeiten).
Ein Ansatz zur Lösung des Problems der mehrfachen Themenzugehörigkeit liegt nach Meinung des Autors zumindest für die automatische Klassifikation darin, vor einer Klassifikation zu unterscheiden, ob mehrere Themen zugeordnet werden sollen und dementsprechend den anzuwendenden Algorithmus auszuwählen. Es existieren, wie in Kapitel 4 gezeigt, sowohl binäre Algorithmen als auch jene, die eine prozentuelle Zuordnung zu mehreren Themen vornehmen.
Bisher wurde der Fall betrachtet, das ein im Dokument behandeltes Thema mehreren Themen der verwendeten Struktur entsprechen kann. Ein hierbei sehr verwandtes Problem ist allerdings jenes, dass mehrere Themen in einem Dokument vorhanden sein können. Dieses Problem kann beispielsweise durch satz- oder absatzweise Segmentierung des Dokuments gelöst werden. Jedes Segment für sich wird dann einer thematischen Klassifikation unterzogen. Nicht außer Acht gelassen darf dabei aber das exponentielle Wachstum des Aufwandes. Enthält ein Dokument beispielsweise bei 100 vorhandenen Kategorien ebenfalls 100 Absätze so müssen bereits 100² Vergleiche durchgeführt werden (statt nur 100 Vergleichen bei Betrachtung des gesamten Dokuments). [Anderson et al. 1999]
6.1.2 Quantität der Dokumente
Die Quantität der Dokumente spielt bei der manuellen Klassifikation eine wesentliche Rolle. Keine noch so große menschliche Arbeitsanstrengung ermöglicht es, Überblick über die täglich neu erscheinenden Texte zu behalten, geschweige denn diese korrekt zu klassifizieren. Als Beispiel hierfür dient der globale Internetsuchdienst „Yahoo“[137]. Yahoo entwickelte ein eigenes Klassifikationsschema mit über 30.000 Kategorien mit zahlreichen Querverbindungen, deren Zusammenhang heute nur mehr schwer zu durchschauen ist. Obwohl größenmäßig weit hinter anderen Anbietern zurück, schafft es Yahoo nicht mehr, irgendeine systematische Auswahl zu treffen. Es werden nur mehr 25-30% aller angemeldeten Ressourcen, oft mit großer Verspätung, aufgenommen. [Koch 1998]
Es gibt zwar Projekte wie „Dmoz“[138], die über menschliche Lektoren bzw. Editoren versuchen, die Qualität einer Wissensdatenbank möglichst hoch zu halten. Doch kann dies immer nur für einen verschwindend kleinen Teil des kompletten Informationsangebots erfolgen. Dennoch scheint gerade der vom Projekt Dmoz vorgeschlagene Weg der manuellen Klassifikation durch eine große Anzahl an Personen in die richtige Richtung zu weisen. Das Problem des enormen Arbeitsaufwandes einer manuellen Klassifikation wird auf recht einfache Weise miniert. Dies geschieht durch Verwendung einer großen Anzahl an freiwilliger Editoren[139], welche durch ihre (im Gegensatz zur relativ kleinen bezahlten Personengruppe von Yahoo) unentgeltliche Arbeit versuchen, die Qualität der Wissensakquisition im Internet zu heben. Die Kombination mit einem automatisierten System könnte hier allerdings nach Meinung des Autors die Arbeit weiter vereinfachen, indem beispielsweise den Editoren vom System bereits Vorschläge für die Themenzuordnung von Ressourcen gemacht werden.
6.1.3 Mangelnde Erweiterbarkeit und Flexibilität von Schemata
Gerade bei der manuellen Klassifikation mit Hilfe von Klassifikationsschemata spielt auch deren Ausbaufähigkeiten und Flexibilität eine Rolle. Laut [Bowker et al. 1999] muss ein ideales Klassifikationsschema zumindest drei Bedingungen genügen:
· Beständigkeit: Die gewählten Prinzipien zur Klassifikation gelten jetzt und für immer. Diese Bedingung ist aber kaum erfüllbar, denn die Menschheit ist einer permanenten Entwicklung insbesondere auf dem technischen Gebiet unterworfen. Im täglichen Sprachgebrauch entstehen neue Worte und Fachbegriffe, andere wiederum verschwinden. Viele der Schemata existieren schon recht lange und haben es somit schwer, sich dem Wortschatz der neuesten Entwicklungen anzupassen.
· Eindeutigkeit: Die gebildeten Klassen schließen sich aus, sie sind eindeutig. Einige Klassifikationsschemata wie beispielsweise die DDC besitzen eine hohe Klassenintegrität. Um das Thema eines Dokuments allerdings genau zu beschreiben, müssen Klassen manchmal kombiniert werden, was im Fall der DDC bzw. häufiger im Fall der UDC durch Anhängezahlen zum Ausdruck kommt.
· Vollständigkeit: Das Klassifikationssystem ist komplett, es bietet eine 100%tige Abdeckung aller vorstellbaren Gebiete. Auch diese Forderung kann ein reales Klassifikationssystem nicht erfüllen. F. Lang hat dies schon 1980 folgendermaßen beschrieben:
„Die Fähigkeit des menschlichen Geistes, Begriffe zu neuen Einheiten zu verknüpfen, schafft ständig neue Klassen und wird dies bis ans Ende aller Zeiten tun. Eine Klassifikation kann daher auch nie fertig sein. Ihr Wert wird an ihrer Anpassungsfähigkeit an das Neue, an ihrer Flexibilität gemessen.“ [Lang 1980]
Ein wesentlicher Nachteil der meisten Klassifikationsschemata liegt in ihrer mangelnden Flexibilität hinsichtlich verschiedener Benutzergruppen. Abgesehen von semantischen Netzen verbieten die Klassifikationssysteme meist verschiedene Sichtweisen auf die zugrundeliegenden Daten. Ein Lösungsansatz in dieser Richtung sind die in Kapitel 3 erwähnten Facettenklassifikationen. Ziel sollte es also sein, die vorhandenen Daten basierend auf verschiedenen Sichtweisen klassifizieren zu können.
Bei der heutigen enormen Themenvielfalt ist es schwer, alle Themen mit entsprechender Genauigkeit bzw. Feinheit in eine einzelne Klassifikation zu ordnen. Eine Möglichkeit hierzu wäre, die bereits erwähnten Spezialschemata zu verwenden. Dadurch geht allerdings je nach Einsatzgebiet die Übersicht über die größeren, globalen Zusammenhänge verloren. Hier scheint ein möglicher Lösungsansatz in der Kombination von Universal- sowie Spezialschemata zu liegen. Es wäre für den Autor dieser Arbeit vorstellbar, zur Vermittlung des allgemeinen Zugangs zu den Themenbereichen ein Universalklassifikationsschema zu verwenden und erst mit größerer Thementiefe auf ein Spezialschema zu wechseln, um ein Themengebiet genauer zu beschreiben. So könnte beispielsweise das Gebiet der Computerwissenschaften über die DDC Klasse 004 beschrieben werden und die weiteren Themen wie Datenbanken, Programmierung usw. über eine ACM Klassifikation. Dieses neue, kombinierte Klassifikationsschema müsste natürlich einen eindeutigen Namen erhalten, damit es nicht mit anderen Schemata (im Beispiel mit der DDC) verwechselt wird.
In Zusammenhang mit Klassifikationsschemata stellt auch deren Austauschbarkeit bzw. Kompatibilität beispielsweise bei der Vereinigung verschiedener Bibliotheksbestände ein Problem dar. Aber auch hier gibt es bereits Untersuchungen zur Lösung, wie das Projekt Scorpion von OCLC (siehe Kapitel 5.1.2) zeigt.
6.1.4 Mangelnde Unterstützung durch Autoren
Viele Autoren scheuen wegen des erhöhten Arbeitsaufwandes die zusätzliche Angabe von Informationen über ein Dokument. Diese Angabe von Metadaten würde eine Klassifikation jedoch wesentlich erleichtern. Aber selbst wenn eine Einteilung durch den Autor selbst vorgenommen wird, ist oft durch fehlende Standards[140] bei dieser Einteilung eine weitere Nachbearbeitung notwendig. So sind zwar bei einer Konversion von einem Dokumentformat in ein anderes neuere Konvertierungsprogramme schon in der Lage, die Metadaten von Fremdformaten auszulesen (Adobe Acrobat erkennt beispielsweise HTML-Meta-Tags). Trotzdem kann diese Information innerhalb eines speziellen Bereichs einer Dokumentstruktur (bei HTML zum Beispiel in den Meta-Tags) manchmal verloren gehen. Daher wäre nach Meinung des Autors in manchen Fällen die (zusätzliche) Angabe direkt im sichtbaren Text des Dokumentkörpers sinnvoller, was aber unter Umständen eine automatische Extraktion und Auswertung schwieriger macht.
Grundsätzlich ist die Bereitschaft zur Angabe von zusätzlichen Informationen über ein Dokument aber generell eher gering, wie folgende Untersuchung an über 19.000 Domains zeigt [Pierre 2001] (siehe Tabelle 6.1).
Tabelle 6.1: Prozentsatz der Webseiten mit Wörtern in jeweiligen Tags [Pierre 2001]
So sind in 66 % der untersuchten Webseiten keine Meta-Keyword Informationen und sogar in 68% der Webseiten keine Meta-Beschreibungen zu finden.
Zumindest teilweise Abhilfe schaffen können hier die im Kapitel 2.3 erwähnten Tools zur Generation von Metadaten oder die Verwendung von Publikationssystemen. Bei richtigem Einsatz dieser Werkzeuge können sowohl Autoren als auch öffentliche Anbieter von Information von einer erhöhten Qualität in der Informationsauffindung profitieren. Wird bei der Generation von Metadaten zur Unterstützung auf ein automatisches System zurückgegriffen, so wird zusätzlich auch der Arbeitsaufwand reduziert.
Gerade bei der Verwendung zusätzlicher Tools zur Erzeugung von Metadaten zeigt sich, dass Metadaten aber nicht unbedingt in einem elektronischen Dokument angegeben werden müssen. Sie können sich beispielsweise auch in einer zugehörigen, externen Datei befinden, oder aber als Datenbankeintrag zu dem jeweiligen Dokument existieren. Mit Formaten wie RDF (siehe Kapitel 2.3.1) ist die Angabe von Informationen über entfernte Objekte möglich. [Klarity 2001]
Bei einer Diskussion über die Verwendung von Metadaten darf natürlich eine Tatsache nicht außer Acht gelassen werden - die bewusste falsche Verwendung dieser Metadaten. Gerade da Metadaten auch von Suchdiensten zur Erzeugung eines Relevanz-Rankings verwendet werden, tritt ein Missbrauch dieser Metadaten auf. Ziel ist meist, die Seiten in Suchdiensten besser zu positionieren. Dies äußert sich beispielsweise darin, daß die angegebenen Metadaten nichts mit dem Inhalt zu tun haben. Dieses Problem betrifft nicht unbedingt nur Metadaten. Beim sogenannten „Keyword Spamming“ werden (in HTML Dokumenten teils auch als Kommentar versteckt) Schlüsselwörter ohne jeden Bezug zum Inhalt angegeben, nur um in den Ergebnissen von Suchdiensten häufiger aufzutreten. [Terena]
Eine von [Chekuri et al. 1997] im Rahmen der Klassifikation von Webseiten durchgeführte Untersuchung zeigte, dass 1000 der 40.000 untersuchten Seiten aus Yahoo Kategorien von diesem Spamming betroffen waren. So enthielt eine der Kategorie „Wissenschaft“ zugeteilte Seite 627 mal die Phrase „maui golf real estate“ was dazu führte, dass diese 2500 irrelevanten Wörter der insgesamt 2700 Wörter im Dokument den automatischen Klassifikator bei seiner Sicht der Kategorie „Wissenschaft“ wesentlich beeinflussten bzw. das Ergebnis verfälschten.
Es liegt auf der Hand, dass solche Dokumente von Klassifikationssystemen dann oft falsch bewertet werden. Auch die Verwendung dieser Dokumente als Trainingsdokumente kann möglicherweise negative Auswirkungen haben. Abhilfe bietet auch hier nach Meinung des Autors wiederum nur eine manuelle Kontrolle und der Ausschluss der jeweiligen Dokumente. Eine automatische Kontrolle könnte dahingehend stattfinden, dass Dokumente mit zu häufigen Wortwiederholungen (ein Kennzeichen für Keyword Spamming) ignoriert werden. Eine weitere Möglichkeit wäre, den Metadaten nur geringes Gewicht zu geben (z. B. beim Bau eines Modells oder im Ranking eines Suchergebnisses), oder aber komplett auf die Auswertung dieser Metadaten zu verzichten, mit all den negativen Effekten für die Suchqualität. Aber auch die Verwendung einer (automatisch erzeugten) Zusammenfassung[141] anstatt des gesamten Dokumentes kann für die Klassifikation vorteilhaft sein.
6.1.5 Unterschiedliche Formate elektronischer Dokumente
Die Vielzahl existierender unterschiedlicher Dateiformate ist ebenfalls ein wesentlicher Punkt, weshalb eine automatische Klassifikation Probleme bereitet. Der Ausdruck „Dateiformat“ bezieht sich hierbei in den folgenden Betrachtungen auf die unterschiedliche Kodierung eines Dokuments (z.B. binär oder plain text). „Dokumentformat“ hingegen bezeichnet die interne Struktur des Dokuments (z.B. HTML-Tags oder sonstige Steuerzeichen). Nach Meinung des Autors muss bei einem Klassifikationssystem einerseits zwischen den verfügbaren Filtern für Dateiformate, und andererseits zwischen den Dokumentformaten, mit denen der Klassifikationsalgorithmus selbst umgehen kann, unterschieden werden. So können Dateiformate wie Microsoft Word oder PDF von einem Klassifikator für Textdateien aufgrund der Kodierung ohne zusätzliche Hilfsmittel nicht einmal ausgewertet werden. Sie gehen deshalb möglicherweise nicht in die Betrachtung ein, obwohl sie vielleicht sehr relevante Information beinhalten. Erst nach der Extraktion des Textes aus diesen Dateien mit Hilfe eines Filters kann dieser dem Klassifikator zugeführt werden. Aber auch ein Klassifikator, der bei reinen Textdateien gute Ergebnisse liefert, wird bei Text-Dokumenten im HTML-Format vielleicht scheitern. So haben Untersuchungen gezeigt, das ein Text-Klassifikator, der bei einem Reuters[142] Datensatz eine Trefferwahrscheinlichkeit von rund 87 % hat, bei einem Datensatz bestehend aus HTML Dokumenten nur mehr eine Trefferquote von 32 % aufweist.[143] Dies liegt zum Beispiel an den HTML-Tags, die natürlich die Bewertung Beeinflussen, über den Inhalt des Dokuments aber nichts aussagen. Hier muss der HTML-Code entweder über Filter entfernt und das Dokument wieder auf reinen Text reduziert werden oder aber der Klassifikator kann mit HTML-Tags umgehen und aus diesen Angaben vielleicht sogar zusätzliche Information für die Klassifizierung gewinnen (z.B. durch die Bewertung von Titel und Überschriften).
Die Schlussfolgerungen, welche sich für den Autor dieser Arbeit daraus ziehen lassen, sind folgende. Einerseits können Klassifikationssysteme verwendet werden, welche über viele Filter für Dateiformate verfügen und mit vielen Dokumentformaten korrekt umgehen können. Andererseits können Klassifikationssysteme aber auch für ihr spezielles Einsatzgebiet optimiert werden. Nicht immer ist es notwendig, dass ein Klassifikator für alle Dateitypen eingesetzt wird. Außerdem spielen sicherlich die je nach Anwendung verschiedenen Dokumentformate eine Rolle. Deshalb liegt es nahe, für diese Formate auch verschiedene Klassifikatoren zu benutzen. Diese sind dann für den jeweiligen Dokumenttyp optimiert und können außerdem bei Weiterentwicklungen oder Veränderungen im Aufbau des Dokumentformates leichter ausgetauscht oder angepasst werden.
6.1.6 Overfitting
In Zusammenhang mit den unterschiedlichen Einsatzgebieten der Klassifikation wird oft auch von „Overfitting“ gesprochen. Der Klassifikator passt sich zu gut an einen kleinen Weltausschnitt an, kann aber aufgrund fehlender Generalisierbarkeit nur sehr schlecht an neue Situationen angepasst werden. Das Klassifikationssystem orientiert sich zu sehr an den Trainingsdaten und liefert für neue Einsatzgebiete nur mehr schlechte Ergebnisse. Dies kann schon recht schnell der Fall sein. Nämlich dann, wenn der Klassifikator aufgrund eines falschen Trainingsdatensatzes nur auf einen kleinen Bereich des Einsatzgebietes trainiert wurde. [Ferber 2000]
Dies könnte zum Beispiel bei der Klassifikation von Geschäftsunterlagen der Fall sein, wenn die Trainingsdokumente nur aus Rechnungen bestehen. Man sollte bei der Wahl der Trainingsdokumente also vermeiden, sich nur auf schwierige „Ausnahmefälle“ zu konzentrieren. Auch bei der Klassifikation von Internetdokumenten sollte darauf geachtet werden, dass die Trainingsdokumente den gesamten gewünschten Themenbereich abdecken (seien es nun allgemeine Themen oder spezielle Themen wie der Computersektor) und eine Konzentration auf einige wenige Klassen vermieden wird.
6.1.7 Qualität der Verfahren
Die heute existierende Anzahl an Klassifikationsverfahren unterscheidet sich stark in ihrer Qualität hinsichtlich ihrer Verwendbarkeit für spezielle Einsatzgebiete. Dies beginnt schon bei der Aufbereitung der zu klassifizierenden Daten. Gerade in Unternehmen wird eine Vielzahl der Aktivitäten noch auf Papier protokolliert und erst später durch Scannen in eine elektronische Form gebracht. Einige Softwareprodukte bieten hier bereits die Möglichkeit der vollständige Automatisierung, vom Scannen der Blätter bis zur Ablage des klassifizierten Dokuments.
Die Aufbereitung als Trainingsdokument aber in weiterer Folge auch die Klassifikation eines durch OCR ungenau verarbeiteten Textes resultiert in einem unbefriedigenden Ergebnis. Die Qualität der zu ermittelten Attribute verhält sich natürlich proportional zur Qualität eines mittels OCR behandelten Dokumentes. [Hein et al. 1995]
Daneben muss auch auf die weitere Aufbereitung der Daten für den Klassifikator besonderes Augenmerk gelegt werden. Hier ist vor allem der Inhalt des Trainingsdatensatzes wichtig. Laut [Weikum et al. 2002] stellt die Qualität eines Trainingsdatensets einen äußerst kritischen Punkt und einen potentiellen Flaschenhals für die Effektivität eines Klassifikators dar. Nach Meinung des Autors nehmen nur in den seltensten Fällen wirklich dafür qualifizierte Experten die Einteilung der Trainingsdokumente vor. Ein falsches oder zu kleines Trainingsdatenset beeinflusst die korrekte Klassifikation von vorn herein negativ (siehe Abschnitt 6.1.6 Overfitting). Die Größe des Trainingsdatensets bezieht sich dabei nicht nur auf die Anzahl der zur Verfügung stehenden Dokumente, sondern auch auf die inhaltliche Abdeckung des Verwendungsgebietes.
Des weiteren ist die Verfahrensweise bei der Attributgewinnung (beispielsweise Bag of Words oder n-Gramme[144]) sowie die Attributauswahl bzw. deren Gewichtung[145] wesentlich. Bei dieser Attributgewinnung wiederum spielen die verwendeten Parser zur Untersuchung des Dokumentes eine Rolle. Maßgebend für die weitere Qualität eines Algorithmus ist nach Meinung des Autors, ob der Parser einen Text zeichenweise oder wortweise[146] analysiert und zusätzliche Information über das Attribut (z.B. Position im Text) extrahiert wird. Wird beispielsweise ein Textparser verwendet, der den Text wortweise betrachtet und Überschriften aus HTML-Dokumenten erkennen soll, dann ist dieser bei Auftreten der Zeichenkette „<H1>Überschrift</H1>“ in einem HTML Dokument aufgrund eines fehlenden Trennzeichens zwischen den Tags nicht in der Lage, die Überschrift als solche zu erkennen. Aber auch falsche oder fehlende Tags (z.B. Fehlen eines abschließenden </H1>) in HTML-Dokumenten können Klassifikationsergebnisse negativ beeinflussen. Ein dadurch entstehender Fehler ist in den Dokumenten selbst oft gar nicht so augenscheinlich, da die meisten Browser recht flexibel sind, sich nicht so genau an die festgelegten Standards halten und deshalb trotz fehlerhafter Tags HTML-Seiten richtig darstellen.
Letztlich spielt natürlich der mathematische Algorithmus hinter dem Klassifikator eine Rolle. Manche Algorithmen sind bereits gut erforscht und entsprechend verbessert, andere wiederum sind neuere Entwicklungen, deren effektiver Einsatz sich erst zeigen wird. Für die Bestimmung der Brauchbarkeit eines Algorithmus spielt natürlich die Geschwindigkeit und der damit erreichbare Datendurchsatz eine wichtige Rolle. Das K-Nearest-Neigbor Verfahren beispielsweise zeichnet sich dadurch aus, das zum Trainieren bzw. Bau des Modells im Gegensatz zu den meisten anderen Verfahren keine Zeit benötigt wird. Danach folgt der Naive Bayes Ansatz, welcher genau einmal durch den Trainingsdatensatz laufen muss. Ein neuronales Netz letztlich durchläuft den Trainingsdatensatz bis zum Erreichen der passenden Fehlerquote oft 100 bis 1000 mal. Auf der anderen Seite ist der K-Nearest Neigbor Ansatz bei der tatsächlichen Klassifikation sehr langsam, da jedes Trainingsdokument betrachtet werden muss. Einen Gegenüberstellung der anderen Verfahren zeigt, dass diese in etwa gleich schnell sind und gegenüber dem KNN-Verfahren Geschwindigkeitsvorteile besitzen. [Gerritsen 1999]
Unter Berücksichtigung all der eben erwähnten Aspekte wird ein System zur Klassifizierung der elektronischen Post eines Unternehmens, welches mit ein paar tausend Emails umgehen muss, anders implementiert und dimensioniert werden als ein System zur Klassifikation von Internetdokumenten, beispielsweise zum Aufbau einer digitalen Bibliothek. Dieses wiederum wird unter anderen Gesichtspunkten entwickelt werden als ein kleines System zum Beispiel zur Klassifizierung von wissenschaftlichen Arbeiten auf einem Forschungsserver. Dies betrifft beispielsweise die verwendete Technik, Implementierungssprache (C++, Java usw. ) oder aber die Art der Implementierung (z.B. als verteiltes System mit Netzwerkfähigkeit).
6.1.8 Sprachabhängigkeit der Dokumente
Viele der heute weltweit agierenden Unternehmen führen ihre Korrespondenz natürlich auch in mehreren Sprachen. Insbesondere Dokumente im Internet können in den verschiedensten Sprachen verfasst sein. Im schlimmsten Fall kommen sogar in einem Dokument mehrere Sprachen vor (z.B. in Metadaten oder bei Fachbegriffen). Hierbei ergibt sich natürlich für Klassifikatoren, die den Inhalt der Dokumente analysieren, ein Problem. Kaum ein Trainingsdatensatz wird für mehrere Sprachen bzw. die in diesen Sprachen vorkommenden Fachbegriffe gleich gut ausgelegt sein. Gerade Suchmaschinen verwenden oft Metadaten und Worthäufigkeiten als Hauptparameter zur Klassifikation (bzw. zum Clustering) des Inhaltes oder zur Erstellung eines Rankings. Sie unterstützen aber nur wenige (meist westeuropäische) Sprachen. So führt die Suchmaschine „Northern Light“ ein Clustering der Suchergebnisse zur Verfeinerung der Suchanfrage durch, es sind aber nur 5 westeuropäische Sprachen verfügbar. Auch Altavista[147] unterstützt im Rahmen der Cluster-Analyse hauptsächlich nur englischsprachige Dokumente. [Chan et al. 1999]
Eine allgemeine Lösung für dieses Problem ist, vor der Klassifikation eine Spracherkennung der Dokumente durchzuführen und den jeweils passenden Klassifikator zu verwenden. Dies resultiert natürlich in erhöhtem Aufwand beim Aufbau und bei der Wartung des Klassifikators und damit verbundenen höheren Kosten. Geht es allerdings nicht darum, Dokumente thematisch in bestimmte Gebiete einzuteilen, sondern eine Kategorisierung nach ihrem Typ vorzunehmen (ähnlich dem von [Matsuda et al. 1999] in Kapitel 5.1.7 vorgestellten Verfahren), wäre für den Autor dieser Arbeit auch ein anderer Ansatz denkbar. Nämlich von der inhaltlichen Analyse der zu bewertenden Dokumente abzugehen und sich auf die Analyse der Dokumentstruktur zu konzentrieren. Möglicherweise kann man, abgesehen von kleineren regionalen Unterschieden, davon ausgehen, das die äußere Form der Dokumente (z.B. Rechnungen, Bestellungen, Lieferaufträge aber auch Webseiten von Online-Shops) in allen Sprachen eine ähnliche ist.
Eine interessante Auswahl an Problemen speziell in Zusammenhang mit Webseiten, soll folgender Abschnitt zeigen.
6.2 Besonderheiten bei der Klassifikation vonWeb-Dokumenten
Bei Web-Dokumenten ergeben sich zu den bereits erwähnten noch eine Reihe weiterer Besonderheiten. Dies treten zwar nicht ausschließlich, aber aufgrund des großen Verbreitungsgrades hauptsächlich in Verbindung mit HTML-Dokumenten auf. Deshalb beziehen sich folgende Betrachtungen vorwiegend auf Dokumente in diesem Format.
6.2.1 Verlinkung der Dokumente
Web-Seiten sind aufgrund der Möglichkeiten von HTML meist keine isolierten Dokumente, sondern besitzen Verweise (Links) auf andere Seiten. Diese können nun thematisch mit dem ursprünglichen Dokument verwandt sein, oder aber in eine völlig andere Richtung gehen. Die Einbeziehung der Verweise in die Analyse des Dokuments ist somit ein zweischneidiges Schwert. Einerseits können die durch die Verlinkung zusätzlich erhaltenen Dokumente dazu beitragen, die Klassifikation zu verfeinern, andererseits können sie diese soweit negativ beeinflussen, das ein Dokument komplett falsch klassifiziert wird. Man kann hier nach Meinung des Autors keine generelle Aussage treffen, ob es besser ist, Verweise zu betrachten oder nicht. Dies müsste von Fall zu Fall auf Basis der zu klassifizierenden Dokumente entschieden werden. Bei einem Unternehmen, welches seinen Tätigkeitsbereich beschreibt, wäre es durchaus vorstellbar, dass alle Dokumente im Wesentlichen verwandten Inhalt haben (nämlich diesen Tätigkeitsbereich). In diesem Fall könnte die Betrachtung der verlinkten Dokumente zu einem besseren Ergebnis führen. Bei Homepages von Privatpersonen, die ihre vielfältigen Interessen und Hobbys mit Links zu den unterschiedlichsten Seiten wie Sport, Literatur und so weiter präsentieren, ist dies mit großer Wahrscheinlichkeit nicht mehr der Fall.
Bei der Verlinkung von Dokumenten gibt es grundsätzlich zwei Möglichkeiten der Betrachtungsweise. Einerseits gibt es Links, die auf ein Ziel-Dokument zeigen (sog. Inbound-Links oder eingehende Links) und andererseits können Links von Interesse sein, die innerhalb des Ziel-Dokumentes wiederum auf andere Dokumente verweisen (sog. Outbound-Links oder ausgehende Links).
So untersuchen [Glover et al. 2002] in ihrer Arbeit die Verwendung von Text in der Umgebung von Inbound-Links zur Klassifikation jenes Dokumentes, auf das der Link zeigt. Dies hat durchaus seine Berechtigung, denn unter Umständen besitzt ein Dokument selbst nicht genügend Information für eine Themenzuordnung. Als eines der Beispiele wird die Homepage von Microsoft genannt, welche eigentlich keine Rückschlüsse darauf zulässt, dass das Unternehmen Betriebssysteme verkauft[148]. Erst bei Betrachtung der (erweiterten) Linktexte der auf dieses Dokument verweisenden Dokumente bietet mehr Inhalt. In den Untersuchungen zeigt sich, dass der Link Text allein meist keine Verbesserung der Resultate zeigt, sondern erst die zusätzliche Betrachtung des den Link umgebenden Textes. [Glover et al. 2002]
Die Autoren von [Oh et al. 2000] kommen in ihrer Arbeit zu dem Schluss, dass ein blindes Betrachten aller Nachbardokumente (also jener Dokumente, die mit dem betreffenden Dokument sowohl über eingehende wie auch als ausgehende Links verbunden sind) eher zu einer Verringerung des Effektivitätsgrades führt, bei den von den Autoren durchgeführten Experimenten sogar bis zu 6,7 %. Eine Lösung hierfür ist, die Ähnlichkeit[149] der Nachbardokumente einzubeziehen und nur Dokumente ab einem gewissen Ähnlichkeitsfaktor zum zu klassifizierenden Dokument für die weiteren Klassifikationsschritte zu betrachten.
Für das Klassifikationsverfahren selbst gibt es in der Arbeit von [Oh et al. 2000] drei Möglichkeiten:
1) Verwenden der Terme der ähnlichen Nachbardokumente[150] 2) Einbeziehung der Klasseninformation der Nachbardokumente 3) Kombination der obigen Ansätze
In Experimenten mit dem ETRI-Kyemong[151] Datensatz konnte so eine Verbesserung zwischen 1,6 % und 13,4 % erreicht werden. [Oh et al. 2000]
Auch [Kuo et al. 2000] sehen die Hyperlink-Struktur von HTML-Dokumenten als Vorteil für die Klassifikation. Hierbei wird diese Struktur als Graph aufgefasst, wobei die Dokumente selbst die Knoten des Graphen darstellen und die Hyperlink-Verweise die Kanten. Basierend auf den beiden Begriffen Importance und Reference werden drei verschiedene Knotentypen definiert. Die Importance gibt durch Betrachtung der ein- und ausgehenden Links an, wie wichtig ein Dokument innerhalb der Dokumentmenge ist. Die Reference gibt an, wie viele Dokumente ein Dokument als Referenz besitzen. Der erste Knotentyp (Center Node) besitzt eine Importance und Reference größer als definierte Schwellwerte. Der zweite Knotentyp (Unrelated Node) ist dadurch gekennzeichnet, dass die Importance und Reference unterhalb eines weiteren Schwellwertes liegen und er innerhalb eines Subgraphs in keiner direkten Verbindung mit einem Center Node steht. Ein Terminal Node schließlich besitzt keine ausgehenden Links. Ausgehend von Center Nodes wird nun Knoten für Knoten hinzugefügt und mit der Klasse des Center Nodes versehen. Solange bis alle Kanten eines Knotens nur mehr auf Terminal Nodes oder Unrelated Nodes verweisen. Die in der Arbeit angestellten Vergleiche mit einem KNN Verfahren zeigen durchaus positive Resultate für die Verwendung im Rahmen einer Klassifikation von durch Hyperlinks verbundener Dokumente. [Kuo et al. 2000]
Die hier vorgestellten Untersuchungen zeigen, dass bei HTML Dokumenten durchaus die Verweisstruktur zur Unterstützung einer Klassifikation herangezogen werden kann. Zu beachten ist allerdings, dass manche Ansätze (z.B. Betrachtung der Wörter aller verlinkten Nachbardokumente) erst in Kombination mit anderen Ansätzen eine Verbesserung erzielen. Ein nach Meinung des Autors ebenso interessanter Ansatz ist die Verwendung von bereits existierenden Themenkatalogen zur Klassifikation von Dokumenten. Diese Kataloge beinhalten die Themeninformation für eine größere Anzahl an Dokumenten. Für die automatische Klassifikation eines Dokumentes könnte unter Einbeziehung von Nachbardokumenten beispielsweise das Thema dieser Nachbardokumente durch Vergleich der Dokumente mit einem Katalog festgestellt werden. Die solcherart gewonnene Themeninformation lässt in weiterer Folge eine einfache Aussage über das Thema des eigentlich zu klassifizierenden Dokumentes zu.
6.2.2 Zersplitterung von Dokumenten
Das Dokumentformat HTML verleitet aufgrund der Navigationsmöglichkeiten (Verweise) gerne dazu, ein Thema in mehrere Dokumente zu zerteilen. Nach gängigen Style-Guides aus dem Bereich der Human-Computer-Interaction (HCI) sollen lange HTML-Dokumente im Sinne einer Benutzerfreundlichkeit sogar auf mehrere Dokumente aufgeteilt werden, um langes Scrollen zu vermeiden[152].
Der Autor der vorliegenden Arbeit identifiziert dabei aber ein mögliches Problem für die automatische Klassifikation. Ein Thema (Aufsatz, wissenschaftliche Abhandlung etc.) könnte auf so viele einzelne Dokumente aufgeteilt werden, dass jedes Dokument für sich nicht mehr genügend Information beinhaltet, um korrekt einem Thema zugeordnet zu werden. Eine Klassifikation eines solchen (Teil-)Dokumentes wird also kein befriedigendes Ergebnis liefern. Sollte dieser Fall tatsächlich eintreten, würde hier die im vorigen Abschnitt erwähnte Einbeziehung der Nachbardokumente (also der mit der jeweiligen Seite verlinkten Dokumente) Abhilfe bieten. Dadurch könnte wieder mehr Information zur Klassifikation des Dokumentes gewonnen werden.
6.2.3 Multimedia Inhalte
Bereits nahezu Standard im Internet sind Dokumente mit Multimedia-Inhalten wie Bildern oder Audiodateien. Hier verliert der informative Text zugunsten von Videos oder Flash-Animationen immer mehr an Bedeutung. Ein auf Text basierender Klassifikator kann solchen Dokumenten nicht mehr genügend Information entnehmen, um eine ausreichende Klassifikation zu gewährleisten. Es existieren aber bereits seit längerem Klassifikationssysteme, die in der Lage sind, Bilder und auch animierte Grafiken auszuwerten und einzuteilen.
Einer dieser Ansätze ist das Searchtool WebSeek. Hier werden Bilder anhand ihrer Dateinamenerweiterung detektiert und eine Kategorisierung findet anhand der umgebenden Texte bei Inline-Bildern sowie einer Ähnlichkeitsbestimmung anhand des Farbhistogramms statt. [WebSeek]
Aber auch das in Kapitel 2.2 vorgestellte QBIC beschäftigt sich mit der Auffindung von Bildern über die Auswahl eines entsprechenden Farbverlaufs. Gerade im Internet wird in letzter Zeit Information aber auch über Sprache oder Videos transportiert. Auch auf diesem Weg versucht man mittels Spracherkennung die inhaltliche Erfassung (siehe [Alert]).
6.2.4 Persistenz der Dokumentinhalte
Nicht unbedingt ein Problem der Klassifikation an sich, jedoch ein Problem der Klassifikation in Zusammenhang mit Information Retrieval ist die Persistenz der Dokumente. Gerade bei elektronischen Dokumenten (im Internet) spielt auch die Dauerhaftigkeit ihres Inhalts eine wesentliche Rolle, denn diese können prinzipiell jederzeit geändert werden. Bei Dokumenten im Internet ist dies (beispielsweise durch Überarbeitungen) auch sehr häufig der Fall. In einer von W. Koehler über 3 Jahre hinweg durchgeführten Untersuchung über die Veränderungen in Web-Dokumenten zeigt sich, dass in 97 % aller untersuchten Dokumente Veränderungen stattfanden. Dies betrifft vorwiegend inhaltliche Änderungen, aber auch strukturelle Änderungen (beispielsweise in der Hyperlink-Struktur des Dokumentes) sind möglich. [Koehler 2000]
Das nach Meinung des Autors der vorliegenden Arbeit hierdurch entstehende Problem ist, dass die einem Dokument zugewiesene Klasse durch inhaltliche Veränderungen im Dokument mit der Zeit völlig falsch sein kann. Dies ist vor allem dann problematisch, wenn Dokumentteile oft dynamisch generiert oder verändert werden, die Klassifikation aber nur einmal (z. B. bei erstmaliger Aufnahme des Dokuments in eine Datenbank) durchgeführt und unabhängig von Dokument selbst gespeichert wird. Auch von der Verwendung solcher Dokumente als Trainingsdokumente eines Klassifikationsmodells ist ohne vorherige Kontrolle des Inhalts abzuraten.
Unter dem Gesichtspunkt möglicher Änderungen in der Hyperlinkstruktur muss nach Meinung des Autors auch folgender Punkt beachtet werden. Wird ein Klassifikator eingesetzt, der die in dieser Hyperlinkstruktur benachbarten Dokumente berücksichtigt, so kann nach Veränderung der Links in einem Dokument, diesem bei einer neuerlichen Klassifikation eine völlig andere Klasse zugewiesen werden (aufgrund der neuen Nachbardokumente), obwohl sich der tatsächliche Textinhalt nicht verändert hat.
Abhilfe schafft hier die regelmäßige Überprüfung des Dokumentinhaltes, wenn dieser nicht lokal gespeichert wird. Diese Prüfung kann neben einer aufwändigen manuellen Art auch mittels einer automatisch generierten Checksumme (z.B. MD5) bzw. eines Fingerprints erfolgen. Von Vorteil sind verteilte Systeme, die beispielsweise wie das im Gestaltungsbereich dieser Arbeit verwendete xFIND System auf dem Harvest Prinzip beruhen. Durch eine zeitliche (und örtliche) Trennung zwischen Informationsbeschaffung und tatsächlicher Integration der gewonnenen Informationen kann die zur Verfügung stehende Bandbreite (sowohl des anfragenden Systems als auch jene des untersuchten Systems) optimal ausgenutzt werden.
6.3 Anforderungen an ein Klassifikationssystem
Basierend auf den in diesem Kapitel vorgestellten möglichen Problemen identifiziert der Autor der vorliegenden Arbeit folgende Anforderungen an eine verbesserte Klassifikation von im Web verfügbaren Text-Dokumenten.
· Der zu klassifizierende Text muss entsprechend aufbereitet werden. Besonders bei der Transformation von Dokumenten durch Scannen bzw. Anwendung von OCR in ein elektronisches Format muss auf Qualität geachtet werden. Denn im Gegensatz zu einem automatischen System ist ein Mensch durch seine kognitiven Fähigkeiten in der Lage, auch teilweise verstümmelten Text korrekt zu interpretieren.
· Gerade bei einer Klassifikation von Dokumenten im Internet sollte darauf geachtet werden, dass das Klassifikationssystem möglichst viele Sprachen und durch den Einsatz diverser Filter viele Dokumentformate interpretieren kann.
· Die Besonderheiten der einzelnen Dokumentformate sollten berücksichtigt werden. Bei HTML-Dokumenten wären dies beispielsweise die interne Struktur der Dokumente (Metadaten, Titel, Überschriften usw.) als auch die Möglichkeit der Verlinkung.
· Eine Auswertung von Multimedia-Objekten wie Audio und Video (durch Sprach- bzw. Bilderkennung) sollte im Hinblick auf zukünftige technische Entwicklungen möglich sein.
· Je nach vorliegender Aufgabestellung muss ein passendes Klassifikationssystem gewählt werden. Universell einsetzbare Klassifikatoren existieren nicht. Bei der Auswahl muss sowohl auf die Qualität der Algorithmen als auch auf die Art und Komplexität der Klassifikation geachtet werden (z.B. mehrfache Themenzuordnung). Ein Klassifikationssystem sollte die Auswahl aus mehreren Algorithmen erlauben. Dies inkludiert auch die gleichzeitige Verwendung dieser Algorithmen. Ein erster Klassifikator könnte eine grobe Zuordnung treffen, in der Folge könnten spezialisiertere Algorithmen eine feinere Unterteilung vornehmen.
· Das Klassifikationssystem sollte auch den Austausch des zugrundeliegenden Trainingsmodells hinsichtlich verschiedener Benutzergruppen oder aber Klassifikationsschemata erlauben. Auch hier können verschiedene Betrachtungsweisen oder Benutzerinteressen, zum Beispiel im Sinne einer universellen oder speziellen Klassifikation (allgemeiner Themenüberblick oder Verwendung eines Fachspezifischen Schemas), Berücksichtigung finden.
· Eine Benachrichtigung bzw. Kontrolle des automatischen Systems durch manuelle Experten sollte zur Problembehebung möglich sein.
6.4 Schlussbemerkung
Die Untersuchungen in diesem Kapitel haben gezeigt, dass bei der Klassifikation von Dokumenten, sowohl manuell als auch automatisiert, noch eine Reihe von Problemen existieren. Das Resultat einer Klassifikation ist von vielen Faktoren abhängig, wie zum Beispiel der Qualität der Algorithmen oder Ausnutzung von Metainformation. In diesem Kapitel wurden einige der Probleme der Klassifikation erläutert und mögliche Verbesserungspotentiale für diese Probleme identifiziert. Basierend auf den gewonnenen Erkenntnissen wurden verschiedene Anforderungen an eine Klassifikation - wie die Unterstützung verschiedener Dokumentfilter und Algorithmen - dargestellt.
Da sich das Internet heutzutage zu einer der größten Informationsquellen entwickelt hat, ist die Klassifikation von Web-Dokumenten eine der interessantesten Möglichkeiten, mehr Ordnung und Strukturen ins Chaos des weltweiten Datennetzes zu bringen. Doch gerade bei Web-Dokumenten ergeben sich noch viele Probleme. Hierzu zählt die Vielzahl an Sprachen, ebenso wie die Existenz der verschiedensten Dokumentformate wie HTML, XML oder PDF. Hierdurch wird zum Beispiel der Einsatz viele Filter notwendig. Aber auch der vermehrte Einsatz von multimedialen Möglichkeiten birgt das Problem, dass nur ungenügende textuelle Information aufgrund von Bildern, Flash usw. zur Verfügung steht. Zur Minimierung dieser Probleme kann ein Ansatz in der Kombination einer manuellen mit einer automatischen Klassifikation liegen.
Der große Vorteil einer manuellen Klassifikation von Dokumenten liegt darin, dass Menschen in der Lage sind, die tatsächliche Bedeutung eines Textes zu verstehen. Automatische Systeme wiederum können Dokumente wesentlich schneller klassifizieren und können daher mit größeren Dokumentmengen umgehen. Allerdings sind viele der Algorithmen oft mit den in diesem Kapitel identifizierten Problemen behaftet. Aus diesem Grund liegt es nahe, die automatische Klassifikation mit einer manuellen Unterstützung zu kombinieren. Durch diese Kombination kann das individuelle Wissen, einerseits der Nutzer und Autoren eines Informationssystems, und andererseits von Fachexperten, bei der Erstellung von Themenbereichen und zur Themenzuordnung unterstützend verwendet werden. Die Beobachtung und Auswertung des kollektiven Benutzerverhaltens (z.B. im Rahmen einer Abstimmung über die automatische Klassifikation) kann letztendlich zur Kontrolle und zur Verfeinerung der automatischen Klassifikation herangezogen werden.
Im folgenden Kapitel wird im Rahmen des Gestaltungsbereiches ein mögliches Modell einer solchen Kombination entwickelt. Mit diesem Modell sollen die Möglichkeiten und Vorteile einer manuellen Unterstützung der automatischen Klassifikation untersucht werden. Kapitel 7Kombination automatisierter und benutzerunterstützter Klassifikation
Viele Systeme, seien es nun manuelle Kataloge oder automatische Suchmaschinen bieten sich für die Informationssuche im Internet an. Der Untersuchungsbereich dieser Arbeit zeigte allerdings einige der existierenden Probleme bei der Informationssuche auf. Das in Kapitel 2.1 erwähnte Überangebot an Information und die in Kapitel 2.2 erläuterten Probleme bei der herkömmlichen Informationssuche mittels Suchmaschinen, machen eine Strukturierung des elektronisch verfügbaren Wissens notwendig (wobei sich diese Arbeit auf das Wissen in textueller Form konzentriert). Es wird zwar versucht, dieser Forderung nach thematischer Strukturierung im Rahmen von digitalen Bibliotheken zu genügen. Auch immer mehr Suchmaschinenbetreiber bieten zusätzlich nach Themen geordnete Kataloge zur Informationssuche an. Doch bei der Menge an im Internet verfügbaren Dokumenten ist eine manuelle Klassifikation der verfügbaren Information kaum mehr zu bewerkstelligen, selbst bei einer Aufteilung der Arbeit auf viele Benutzer und Benutzergruppen. Abhilfe bietet hier die automatische Klassifikation von Dokumenten, doch auch diese ist mit einer Reihe von Problemen behaftet, wie das vorhergehende Kapitel gezeigt hat.
Ziel der folgenden Untersuchungen in diesem Kapitel ist es daher, die Möglichkeiten zur automatischen Klassifikation im Rahmen der Informationsauffindung anhand der im Untersuchungsbereich gewonnenen Erkenntnisse zu analysieren und ein System zur verbesserten Informationsauffindung zu entwickeln, dass die Vorteile der manuellen und automatischen Klassifikation von Dokumenten im Internet kombiniert und gleichzeitig versucht, die Nachteile beider zu minimieren. Dabei soll humane Intelligenz (Erfahrungen, Wissen sowie individuelles Benutzerverhalten) und die Leistungsfähigkeit von Computerprozessen kombiniert genutzt werden.
7.1 Verbesserungspotentiale
In diesem Abschnitt sollen verschiedene Vorschläge zur Kombination einer automatischen Klassifikation mit manueller Unterstützung evaluiert und daraus ein Modell entwickelt werden, welches unter Zuhilfenahme ebendieser automatischen Themenklassifikation das Bedürfnis der Nutzer nach einer geordneten Struktur der Informationen erfüllt. Denn die Strukturierung von Information dient den Menschen zur Minderung des Informationschaos. Berücksichtigt werden muss dabei die verwendete Themenstruktur sowie die Art und Weise, wie neue Informationen in das System integriert werden. Besonderes Augenmerk wird letztlich auf die automatische Klassifikation sowie die manuelle Unterstützung derselben gelegt.
7.1.1 Verwendete Themenstruktur
Bei der Entwicklung eines Information Retrieval (IR) Systems basierend auf einer thematischen Kategorisierung der Dokumente sollten erste Überlegungen der zu verwendenden Themenstruktur gelten.
Grundsätzlich gibt es Klassifikationssysteme mit unverbundenen Klassen, wie sie durch die einfache Vergabe eines Themas beispielsweise mittels Metadaten entstehen. Solcherart klassifizierte Dokumente sind zwar einem Thema zugewiesen, haben allerdings den Nachteil, dass kein Überblick über die Einordnung des Themas innerhalb eines größeren Themenbereichs möglich ist. Besser für ein Klassifikationssystem geeignet sind hier nach Meinung des Autors hierarchisch organisierte Themenstrukturen. Hierdurch sind inhaltlich verwandte Dokumente auch innerhalb einer Hierarchie leichter aufzufinden (siehe Abbildung 7.1).
Abbildung 7.1 unverbundene Klassen (links) vs. Klassenhierarchie (rechts)
Die Hierarchie ermöglicht nun grundsätzlich die Einteilung von Dokumenten, allerdings wird eine wesentliche Tatsache nicht berücksichtigt. Je nach Art der verwendeten Hierarchie ist die Genauigkeit, mit der die Hierarchie ein Thema behandelt, begrenzt. Als Beispiel seien hier einerseits Universalklassifikationen erwähnt, welche einen generellen Überblick über viele verschiedene Themen bieten. Auf der anderen Seite stehen Spezialschemata, die im Wesentlichen ein bestimmtes Thema mit einer feineren Struktur versehen. Ein thematisch organisiertes IR System sollte hier je nach Benutzergruppe verschiedene Klassifikationsstrukturen (eventuell gleichzeitig) bieten.
Ein interessanter Ansatz wäre die Kombination einer universellen Themenstruktur mit einer spezielleren Struktur. Erstere vermittelt das zu verwaltende Wissen auf einer eher abstrakten Ebene und kann auch als Bindeglied zwischen den spezifischeren Fachbereichen gesehen werden. Das speziellere Schema könnte helfen, das Wissen themenspezifischer aufzubereiten und je nach Anwendungsfall zu strukturieren. Hierbei könnten durchaus bekannte Schemata als Grundlage dienen. So könnten in einer ersten Ebene mit einem allgemeinen Schema (z.B. DDC) möglichst viele Themenbereiche abgedeckt werden. In der zweiten Ebene wird für die einzelnen Themen ein spezielles Schema verwendet. Dies könnte im Bereich der Computerwissenschaften zum Beispiel das ACM[153] Schema oder auf dem Gebiet der Medizin das NLM[154] Schema sein. Je nach Interesse des Nutzers kann nun im Rahmen der Ergebnisse einer Informationssuche für ein Dokument entweder nur die erste Ebene für einen generellen Überblick über die Themenzugehörigkeit präsentiert werden, oder aber beide Ebenen werden für eine genauere Einteilung dargestellt.
Außerdem darf nicht außer Acht gelassen werden, dass eine Suche innerhalb einer Struktur normalerweise alle für die jeweilige Klasse relevanten Dokumente liefert, unabhängig vom Alter oder Vorwissen der anfragenden Person. Abhilfe bietet hier die Vergabe zusätzlicher Metadaten[155], die durch eine entsprechende Auswahlmöglichkeit bei der Suchanfrage eine Einschränkung der Suche im Hinblick auf eine bestimmte Altersgruppe oder Zielgruppe zulassen. Um diese Auswahl bzw. Einschränkung nicht bei jeder Suchanfrage erneut durchführen zu müssen, könnten diese Angaben über Alter, Vorwissen, Interessengebiet beispielsweise bei einer Anmeldung an einem IR System bekannt gegeben und dann nach einer Identifikation am System automatisch bei jeder Suche berücksichtigt werden.
7.1.2 Einbringen der Dokumente und Sicherung derDokumentqualität
Nach der Auswahl der passenden Themenstruktur (bzw. des Klassifikationsschemas) für das Klassifikationssystem stellt sich die Frage, wie neu verfügbare Dokumente in diese Struktur eingebunden werden können. Um ein möglichst breitgefächertes und großes thematisch klassifiziertes Informationsangebot zur Verfügung zu stellen, sollten natürlich viele Dokumente untersucht werden. Hier bietet sich die Kombination einer thematischen Klassifikation mit einer Suchmaschine an. Suchmaschinen weisen zwar einige Probleme auf (siehe Kapitel 2.2), aber sie besitzen im Normalfall durch die automatische Indexierung mittels Spidern (Gatherern, Crawlern, Robots) Zugriff auf ein großes Informationsangebot[156]. Des weiteren ist dann (im Gegensatz zu den meisten reinen katalogbasierten Diensten) eine Suche im Volltext oder anhand weiterer indizierter Metadaten möglich. Im Rahmen der bei einer Suche aufgefunden Dokumente könnte dann die thematische Klassifikation dieser Dokumente angezeigt werden. Ein Ansatz dieser Kombination findet sich in der Suchmaschine Kartoo[157]. Hierbei werden die erhaltenen Ergebnisse allerdings einem Clustering unterzogen. Das Clustering hat gegenüber der Klassifikation aber den Nachteil, dass diese vollautomatisch gebildete Klassenstruktur kaum der menschlichen Logik entspricht[158]. Auch deshalb scheint also eine feste, vorgegebene Themenstruktur von Vorteil zu sein.
Wird allerdings das gesamte, von einer Suchmaschine automatisch zur Verfügung gestellte, Informationsangebot klassifiziert, so betrifft dies einerseits eine enorme Dokumentenmenge. Andererseits stellt sich aber hierbei das Problem, wie die Qualität der aufgefundenen Dokumente gesichert werden kann. Einfach alle durch Crawler verfügbaren Dokumente zu indizieren, in weiterer Folge zu klassifizieren und dem Benutzer zur Verfügung zu stellen, resultiert, wie die Erfahrung zeigt, in einer großen Anzahl an Treffern, befriedigt das Informationsbedürfnis der Benutzer aber nur unzureichend. Daher muss schon bei der Aufnahme der Dokumente in das System auf entsprechende Qualität geachtet werden. Dies kann, wie am Beispiel GERHARD gezeigt (Kapitel 5.1.6), dadurch erfolgen, dass von vornherein eine Einschränkung der Crawler auf bestimmte thematische Bereiche (wie z.B. Informationswissenschaft) oder Server (z.B. nur der deutschsprachige Raum) vorgenommen wird. Ein so entwickeltes System des Information Retrieval ist aber nur sehr eingeschränkt nutzbar und wird eventuell für die Mehrheit der Nutzer nicht die passenden Informationen bieten. Der vom Autor vorgeschlagene Ansatz ist daher, die Benutzer selbst entscheiden zu lassen, was im System aufgenommen werden soll. Dies erfolgt durch Anmeldung der entsprechenden Dokumente, Server bzw. Serverbereiche am IR System. Bei dieser Gelegenheit kann der Nutzer auch gleich eine optionale manuelle Vorklassifikation vornehmen.
Werden anstelle einzelner Dokumente ganze Server bzw. Serverbereiche manuell klassifiziert, so stellt dies schon eine wesentliche Arbeitserleichterung dar, da die zugeordnete Klasseninformation direkt auf alle Dokumente in diesem Serverbereich vererbt wird. Als Beispiel sei hier ein Bereich genannt, welcher die Publikationen eines einzelnen Universitätsinstituts enthält. Somit wird durch die Vererbung der Themeninformation eine größere Anzahl von Dokumenten automatisch klassifiziert und eine manuelle Klassifikation entfällt.
Grundsätzlich muss man allerdings davon ausgehen, dass die Benutzer keineswegs Experten auf jenen Gebieten sind, welche sie zur Aufnahme ins System vorschlagen bzw. selbst manuell klassifizieren. Außerdem kann gerade bei einem öffentlichen, im Internet verfügbaren System ein Missbrauch desselben (z.B. durch absichtliche Falschklassifikation) nicht ausgeschlossen werden. Dies führt dazu, dass die vom Benutzer getätigten Eingaben durch einen Experten überprüft werden sollten. Dieser Experte ist für die Entfernung nicht relevanter bzw. qualitativ minderwertiger Ressourcen sowie die Überprüfung der manuellen Klassifikation verantwortlich. Beispiele solcher von Experten betreuten Informationsdienste finden sich in den Internet Katalogen DMOZ[159] oder Yahoo[160].
Diese Dienste offenbaren aber gleichzeitig einen Schwachpunkt der manuellen Klassifikation. Bei der Quantität der im Internet verfügbaren Dokumente bzw. durch die Anzahl der bei diesen Systemen angemeldeten Ressourcen sind die Experten überlastet. Dies äußert sich beispielsweise, wie in [Koch 1998] für den Suchdienst Yahoo beschrieben, dadurch, dass Ressourcen nur mit sehr großer Verspätung aufgenommen werden können. Hingegen versucht das schon mehrfach erwähnte DMOZ Projekt, wie in Kapitel 6.1.2 erläutert, diesem Problem durch eine enorm große Anzahl an Experten entgegenzuwirken. Ein weiterer Lösungsansatz für dieses Problem wäre nach Überzeugung des Autors aber auch die automatische Klassifikation der Dokumente, welche im folgenden Abschnitt beschrieben wird.
7.1.3 automatische Klassifikation
Die automatische Klassifikation kann, wie in Kapitel 3.2 erwähnt, mit den verschiedensten Methoden (siehe Kapitel 4) dazu beitragen, die Informationsflut zu bewältigen. Wird die automatische Klassifikation im Rahmen eines Information Retrieval Systems eingesetzt, so sollte auf die im Kapitel 6.3 erwähnten Anforderungen Rücksicht genommen werden. Dies inkludiert die Verwendung entsprechend aufbereiteter Trainingsdaten, also die Verwendung eines angepassten, vorgefertigten Modells. Des weiteren muss auf passende Algorithmen sowie die Verfügbarkeit der für den jeweiligen Anwendungsfall geeigneten Dokumentfilter geachtet werden.
Bei der Entwicklung eines Klassifikationsmodells für eine automatische Klassifikation im Rahmen eines IR Systems sollten natürlich mehrere Klassifikationsverfahren zur Verfügung stehen, welche beispielsweise je nach Dokumenttyp zum Einsatz kommen können. Das Klassifikationsmodell sollte nur jene Wörter beinhalten, welche eine Klasse gut beschreiben und daher optimale Ergebnisse liefern. Um dies zu gewährleisten, können Wörter beispielsweise anhand ihrer Auftretenshäufigkeit gefiltert werden. Wie in Kapitel 4.3.2.3 gezeigt, gibt es zur Auswahl der verwendeten Attribute mehrere Möglichkeiten. Untersuchungen[161] haben aber auch gezeigt, dass vor allem Hauptwörter zur Beschreibung eines Themengebietes verwendet werden. Dies bedeutet, es sollten vorwiegend Hauptwörter im Modell enthalten sein. Dies kann zum Beispiel durch Vergleich mit einem integrierten Wörterbuch erfolgen.
Laut [Baeza-Yates et al. 1999] sind auch Zahlen keine guten Attribute, da sie ohne Kontext keinerlei Bedeutung haben. Sie sollten daher aus dem Modell entfernt werden. Als problematisch könnten sich allerdings die Entfernung von Zahlen in Kombination mit Wörtern herausstellen. So ist beispielsweise das Attribut „510 B.C.“ ein Attribut, das für eine Klassifikation wesentlich sein kann.
Um das entwickelte Klassifikationsmodell zu überprüfen, wäre für den Autor dieser Arbeit aber auch ein weiterer Ansatz denkbar. Die häufigsten Wörter einer Klasse im Modell könnten (natürlich nach Entfernung von Stoppwörtern) als Anfrage an eine Suchmaschine (z.B. Google[162]) dienen. Die so erhaltenen Ergebnisse könnten manuell auf ihre Klassenzugehörigkeit kontrolliert werden. Gehören die erhaltenen Dokumente mehrheitlich zur jeweils überprüften Klasse, so ist dies ein Hinweis darauf, dass die Wörter im Modell gut zur Beschreibung dieser Klasse geeignet sind.
Der Aufbau eines solchen Klassifikationsmodells kann also durch die Attributgewinnung bzw. komplizierte Attributauswahl sehr aufwändig werden. Daher liegt es nahe, ein Klassifikationssystem entsprechend modular im Aufbau zu gestalten und einfach fertig (kommerziell) erhältliche Klassifikationsmodelle oder gesamte Klassifikationssysteme in das IR System zu integrieren. Wie die Untersuchung an kommerziellen Systemen in Kapitel 5 gezeigt hat, besitzen viele dieser Systeme eine API, über welche sie in eigene IR Systeme integriert werden können. Um nun aber die Informationsauffindung in Internet mittels Klassifikation zu erleichtern, können und sollen natürlich auch selbst entwickelte Klassifikationsmodelle wiederum der Öffentlichkeit (kostenlos) zugänglich gemacht werden. Vorstellbar wäre sogar eine Art elektronische Tauschbörse, an der für verschiede Dokumenttypen und Klassifikationsverfahren optimierte Klassifikationsmodelle zur Integration in bestehende Systeme angeboten werden. Dadurch wird der Zugang zur Klassifikation von Dokumenten erleichtert und gleichzeitig die Qualität der eingesetzten Verfahren verbessert.
Die automatische Klassifikation ist aber generell noch mit einigen Problemen behaftet. Eines dieser Probleme besteht wie in Kapitel 6.1.1 und Kapitel 6.2.2 erläutert in der Klassifikation von besonders langen Dokumenten mit mehreren Themen oder besonders kurzen Dokumenten. Hier muss es also einerseits möglich sein, durch die Klassifikation von Teilbereichen eines Dokumentes mehrere Themen zu identifizieren und andererseits auch über eine eventuell vorhandene Hyperlinkstruktur benachbarte Dokumente in die Klassifikation mit einzubeziehen. Gerade im Internet ist auch die Sprachenvielfalt der Dokumente problematisch, eine Spracherkennung und Auswahl des entsprechenden Klassifikators ist hier sicherlich von Vorteil. Ein Hauptproblem beispielsweise der statistischen Verfahren besteht aber auch im fehlenden Verständnis der Bedeutung des zu klassifizierenden Textes. Laut [Nohr 2000] ist aber dieses Verständnis Grundlage für eine optimale Text-Analyse (siehe Kapitel 4.3.3). Ein Lösungsansatz ist hier das in Kapitel 2.3.1 im Rahmen von RDF erwähnte und in Entwicklung befindliche Semantic Web. Dieses Metaweb soll auch das maschinelle Verständnis der Bedeutung beispielsweise eines Webseiteninhaltes ermöglichen bzw. zu verbessern helfen.
Werden allerdings die herkömmlichen statistischen bzw. linguistischen Verfahren verwendet, so kann auch eine manuelle Unterstützung der automatischen Klassifikation durch die Nutzer des Informationssystems Vorteile bringen. Im Rahmen der Informationssuche findet Benutzerfeedback zur Verfeinerung der Anfrage schon seit längerem Verwendung[163]. Ansätze zur Verwendung von User-Feedback bei einer automatischen Klassifikation hingegen finden sich zum Beispiel in dem im Kapitel 5.1.1 vorgestellten Forschungsprojekt BIKINI. Weitere Möglichkeiten der Unterstützung einer automatischen Klassifikation sollen im folgenden Abschnitt erläutert werden.
7.1.4 benutzerunterstützte automatische Klassifikation
Die Bedeutung des Inhaltes spielt bei der Klassifikation von Dokumenten eine wesentliche Rolle. Ein maschinelles System wird auch in absehbarer Zukunft vermutlich nicht in der Lage sein, die Bedeutung - zumindest thematisch sehr breit gefächerter - Texte so zu erfassen, wie es dem Menschen durch seine kognitiven Fähigkeiten möglich ist. Somit fällt der Meinung der menschlichen Nutzer eine wesentliche Rolle zu. Um gerade im Internet die Informationsauffindung durch eine thematische Strukturierung der Dokumente zu verbessern, könnte man von der Meinung und dem Wissen der menschlichen Nutzer profitieren. Ein möglicher Ansatz der Verbesserung liegt also in einer Kombination aus manueller und automatischer Klassifikation.
Nach Meinung des Autors kann diese Kombination im Prinzip auf zwei Arten erfolgen. Im ersten Fall unterstützt die automatische Klassifikation den Benutzer bei seiner Entscheidungsfindung. Die Anwendung geht hier in Richtung Unterstützung von Autoren bei der Vergabe von Metadaten. Wie in Kapitel 2.3.2 erwähnt, kann ein Dokument bei der Aufnahme ins System analysiert und als Resultat dem Benutzer Vorschläge zur Themenzuordnung gemacht werden. Der Benutzer muss sich nicht mehr mit der Syntax der verwendeten Themenstruktur beschäftigen, sondern kann oft, bei entsprechender Qualität der automatischen Klassifikation, die Vorschläge einfach übernehmen. Dies erhöht die Bediendungsfreundlichkeit und außerdem werden dadurch mehr Dokumente klassifiziert, bei gleichzeitiger teilweiser Entlastung der Experten, da die Dokumentklassifikation mit höherer Treffsicherheit erfolgt.
Im zweiten Fall unterstützt der Benutzer die automatische Klassifikation über sein Feedback und trägt dazu bei, diese zu verbessern. Die folgenden Betrachtungen beziehen sich auf diesen zweiten Fall. Hier wird ein Dokument automatisch klassifiziert und die Benutzer des Information Retrieval Systems bekommen im Zuge ihrer Informationsrecherche die Gelegenheit, die automatische Klassifikation zu bewerten. Dies stellt einerseits durch die automatisierte Bearbeitung die Anwendungsmöglichkeit auf eine große Anzahl von Dokumenten sicher (hohe Quantität), andererseits ist aber durch die menschliche Komponente auch eine entsprechende Bewertung garantiert (hohe Qualität). Zudem können dadurch Fehler, die auch bei noch so guter automatischer Klassifikation immer wieder passieren, minimiert und korrigiert werden. Das System wird auch unabhängig von der Meinung einiger weniger Experten. Denn wie in Kapitel 3.2.4 erwähnt, ist eine manuelle Klassifikation immer subjektiv. Die Bewertung durch einen größeren Personenkreis kann hier den Grad an Objektivität wieder steigern.
Denkbar wäre im Sinne eines Regelungssystems eine direkte Rückwirkung der Einschätzung der Benutzer auf den Klassifikationsalgorithmus. Nicht einfach zu klären ist allerdings die Frage, wie die Rückwirkung im einzelnen aussehen sollte. Diese ist von vielen Faktoren abhängig, die nicht im vorhinein bestimmt werden können. Dazu gehört beispielsweise das unbekannte Fachwissen der Nutzer sowie die dadurch entstehende negative Beeinflussung des Systems.
Zur Lösung dieses Problems ist die Einführung eines Rollenkonzeptes mit normalen Nutzern und Experten vorstellbar. Der Experte unterscheidet sich vom normalen Nutzer durch die Möglichkeit, das automatische System über Hinzufügen bzw. Entfernen von Trainingsdokumenten zu beeinflussen. Dies betrifft natürlich immer nur das jeweilige Themengebiet, auf dem eine Person als Experte ausgewiesen ist. Das Rollenkonzept hat nach Meinung des Autors zwei Auswirkungen. Einerseits bei der Bewertung einer automatischen Klassifikation im Rahmen der Suchergebnisanzeige. Hier könnte die Klassifikations-Bewertung durch einen dezidierten Experten eines Themengebietes das automatische Klassifikationssystem stärker beeinflussen als die Bewertung eines normalen Nutzers. Können Dokumente andererseits allerdings auch manuell klassifiziert werden (beispielsweise beim Einbringen eines Dokumentes in das System wie in Abschnitt 7.1.2 beschrieben), so sollte ein von einem Experten manuell klassifiziertes Dokument in der Anzeige der Ergebnisse besonders hervorgehoben werden. Der Benutzer kann daher einen direkten Vergleich mit den Ergebnissen der automatischen Klassifikation anstellen. Dies geht von der grundsätzlichen Annahme aus, das ein Mensch aufgrund seiner kognitiven Fähigkeiten bei einer Klassifikation „treffsicherer“ als eine automatisches System ist. Das muss allerdings, wie bereits erwähnt, nicht immer der Fall sein. Auch Experten können sich irren. Hier kann vom Wissen der Gesamtheit aller Nutzer profitiert werden und eine Art „Vertrauensfaktor“ für Experten eingeführt werden. Je öfter die manuelle Klassifikation durch einen Experten bei den Nutzern Zustimmung findet, umso besser könnte sie gegenüber einer automatischen Klassifikation (in der Anzeige) positioniert werden. Des weiteren könnte diesem Experten dann bei der Bewertung einer automatischen Klassifikation mehr Gewicht verliehen werden[164]. Auf der anderen Seite könnten dem Experten bei niedrigem Vertrauensfaktor bestimmte Rechte (wie beispielsweise die Beeinflussung des Trainingsdatensatzes) entzogen werden.
Auch für die Nutzer selbst wäre so ein Vertrauensfaktor vorstellbar. Unterstützt ein User das System dadurch, dass er oft Dokumente oder Server am System anmeldet und diese gleichzeitig noch richtig klassifiziert, so könnte sein Verrauensfaktor steigen, bis er schließlich zu einem Experten für ein oder mehrere Themengebiete wird.
Letztlich ist in diesem Zusammenhang die Einführung einer Art Vertrauensfaktor auch für die automatische Klassifikation sinnvoll. Dieser Faktor gibt Aufschluss über die Güte einer automatischen Klassifikation. Die Anwendung dieses Vertrauensfaktor soll an einem Beispiel demonstriert werden. Ausgehend von einem Faktor von beispielsweise 0.6 (das heißt, die Ergebnisse einer automatische Klassifikation werden mit 0.6 multipliziert, um sie gegenüber einer manuellen Klassifikation durch einen Experten entsprechend abzustufen) wird ein Dokument einer Klasse A mit einer Wahrscheinlichkeit von 60 % zugeteilt. Wenn der Nutzer nun für jene Klasse votiert, die vom System mit der höchsten Wahrscheinlichkeit ermittelt wurde (in diesem Beispiel Klasse A) wird dieser Vertrauensfaktor stufenweise mit jeder abgegebenen Nutzerwertung erhöht (z.B. auf 0.7). Stimmen also viele Nutzer (wobei hier wieder das Rollenkonzept beachtet werden kann) auch für die vom System ermittelten Klassen, so ist die Güte des Klassifikationsmechanismus hoch. Weitere ähnliche Dokumente würden der Klasse A daher bereits mit 70 % zugewiesen werden (das heißt, das „Vertrauen“ in die Korrektheit der automatischen Klassifikation ist gestiegen). Mit welchen Faktoren genau hier allerdings gearbeitet werden kann, wäre Gegenstand weiterer Untersuchungen. Doch ist die Anzahl der Nutzer des Systems kaum im vorhinein bekannt. Als problematisch erweist sich dadurch zum Beispiel welche Anzahl an manuellen Korrekturen das System zu welchem Prozentsatz beeinflussen sollen. Natürlich könnte der Prozentsatz abhängig von der zunehmenden Anzahl der Nutzer variabel gestaltet werden. Allerdings könnten hierdurch Effekte mit negativer Auswirkung entstehen. Ein Beispiel: Ändert eine Korrektur zu Beginn bei wenigen Nutzern die Klassenwahrscheinlichkeit zu 5 % und im weiteren Nutzungsverlauf bei vielen Nutzern nur mehr zu 1 % so überwiegt unter Umständen natürlich jene Korrektur, welche User zu Nutzungsbeginn des Systems getroffen haben. Bei anonymen Systemen, wie sie häufig im Internet zur Anwendung kommen, ist zusätzlich eine offene Frage, wie ein Missbrauch derselbigen effizient verhindert werden kann.
Aus den genannten Gründen - wie Missbrauch oder fehlendes Fachwissen - ist nach Meinung des Autors in einem ersten Schritt eine Entkopplung des automatischen Klassifikationssystems von der manuellen Bewertung sinnvoll. Dies bedeutet, die automatische Klassifikation arbeitet unabhängig von eventuellen Nutzerwertungen, diese haben keinen direkten Einfluss auf die Klassifikation. Das automatische System soll nur als Grundlage für die weitere Abstimmung durch die Nutzer agieren. Durch die automatische Klassifikation werden jene Klassen (Themen) bestimmt, welche den Nutzern zur weiteren Abstimmung angeboten werden. Deren Abstimmung wiederum liefert Experten Rückschlüsse über Güte der automatischen Klassifikation.
Bisher wurde nur die Möglichkeit einer Klassifikationsbewertung durch die Nutzer eines IR Systems besprochen, nicht aber, wie diese Bewertungsmöglichkeit im Detail aussehen sollte bzw. präsentiert werden könnte.
Das Benutzerfeedback sollte nach Meinung des Autors in Anlehnung an das sogenannte Social Filtering funktionieren. Dieses kommt beispielsweise bei der Auswertung von Ergebnissen einer Suchanfrage zum Einsatz. Es werden hierbei die Dokumente unabhängig vom Inhalt gewichtet, sondern nur basierend auf der Einschätzung der Benutzer. Die Benutzermeldungen werden dazu verwendet, um die Dokumente für nachfolgende Benutzer zu charakterisieren. Jedem Ergebnis wird ein Vektor zugeordnet, in dem die Angaben der verschiedenen Nutzenden als Einträge stehen [Ferber 2000].
Analog diesem Social Filtering kann auch ein Ranking der einem Dokument zugeordneten Themen (basierend auf der automatischen Klassifikation) aufgebaut werden. Es wird den Nutzern eine kleinere Menge von in Frage kommenden Klassen zur Abstimmung angeboten, deren Reihenfolge nicht unbedingt dem Ergebnis der automatischen Klassifikation, sondern dem Abstimmungsverhalten der Nutzer entspricht. Natürlich könnten von vornherein auch alle Klassen der Themenstruktur zur Auswahl angeboten werden. Doch dies hätte einige beachtliche Nachteile. Es würde einerseits die Übersichtlichkeit für den Nutzer verloren gehen. So besitzt die DDC in der dritten Ebene bereits 1000 Klassen. Andererseits könnte der Nutzer für eine komplett falsche Klasse votieren (beispielsweise durch Missinterpretation des Inhaltes). Bei einer rein manuellen Klassifikation könnten sich dadurch die Ergebnisse ja im schlimmsten Fall über mehrere Dutzend verschiedene Klassen erstrecken und somit wertlos sein. Durch eine automatische Klassifikation werden nur mehr jene Klassen mit der höchsten Zugehörigkeitswahrscheinlichkeit zur Abstimmung angeboten. Es liegt natürlich im Bereich des Möglichen, dass die automatische Klassifikation komplett fehlgeschlagen ist (z.B. aufgrund fehlerhafter Trainingsdaten) und dem Benutzer völlig falsche Klassen zur Abstimmung angeboten werden. In diesem Fall muss der Nutzer die Möglichkeit haben, einen Experten von dem Problem zu berichten. Eine weitere Möglichkeit wäre, dem Benutzer zwar die Auswahl aus allen verfügbaren Klassen zu erlauben. Um jedoch die vorhin erwähnte Übersichtlichkeit zu wahren, könnte diese Auswahl durch einen separaten Dialog im Unterinterface (mit Browsingmöglichkeit durch die Klassenhierarchie) gestaltet werden. Außerdem sollten nur Nutzer mit relativ hohem Vertrauensfaktor die Auswahl aus allen Klassen treffen dürfen, um die Aufteilung der Klassifikation durch Missbrauch und Unwissen auf Dutzende Klassen zu verhindern.
Der Nutzer hat nun die Möglichkeit, pro Dokument für eine der präsentierten Klassen zu votieren. Mit zunehmender Anzahl der Abstimmungen kristallisiert sich sicherlich eine Meinung heraus, sodass „Fehlabstimmungen“ aufgrund fehlenden Expertenwissens der Nutzer oder aber vielleicht durch Missinterpretation des Dokumentinhalts auch innerhalb der zur Auswahl stehenden Klassen eliminiert werden.
Als vorteilhaft erweist sich auch eine dem Benutzer (bzw. dem Experten) zusätzlich angebotene Information darüber, wie andere menschliche Nutzer ein Dokument beurteilen. Die automatische Klassifikation des Systems könnte ja je nach Interpretationsstandpunkt Grundlage für Diskussionen sein. Als Beispiel sei hier eine fiktive Arbeit über die Auswirkung unterschiedlicher Raumaufteilung auf das menschliche Wohlbefinden gebracht. Ein automatisches System könnte diese Arbeit basierend auf den vorhandenen Modelldaten mit höherer Wahrscheinlichkeit dem Gebiet der Architektur zuteilen, obwohl es die Leser aufgrund ihrer differenzierten Betrachtungsweise und Beurteilung der Bedeutung eher dem medizinischen Bereich zuordnen könnten. Die Anzahl bzw. die Art der Abstimmungen erlaubt den Administratoren des Systems bzw. Experten Rückschlüsse einerseits auf die Korrektheit der automatischen Klassifikation und andererseits über die das System verwendendende Benutzergruppe.
Je feiner eine Abstimmung möglich ist, umso bessere Informationen können daraus gewonnen werden. So wäre zum Beispiel die Angabe über die korrekte Klasseneinteilung eines Dokuments denkbar über die folgende Einteilung:
sehr gut passend–gut passend–schlecht passend–nicht passend
Zusätzlich könnte auch ein Textfeld angeboten werden, in dem der Nutzer seine Entscheidung begründen kann, um so etwas über die Beweggründe für die Abstimmung und auch über den Gedankengang des Benutzers, welcher zur entsprechenden Abstimmung geführt hat, zu erfahren. All dies könnte natürlich zu einer Verbesserung des Systems führen, allerdings wird durch ein aufwändiges Abstimmungsverfahren die Hemmschwelle zur Benutzung deutlich erhöht.
Als Problem bei jeder Art des benutzerunterstützten Feedbacks erweist sich ja generell die Tatsache, dass die Bereitschaft der Nutzer zur Abgabe ihrer Einschätzung des Ergebnisses eher gering ist. Dies liegt einerseits an dem zusätzlichen Bedienaufwand. Dieser kann von einem einfachen Mausklick über eine komplexen Auswahl aus vorgefertigten Elementen bis hin zu einer Eingabe eines Freitextes reichen. Andererseits spielt aber auch der zusätzliche mentale Aufwand eine Rolle, der nötig ist, um eine Entscheidung zu treffen. [Ferber 2000]
Die Bereitschaft zur Abgabe einer persönlichen Einschätzung dürfte also höher sein, wenn die Abstimmung einerseits sehr einfach gehalten und optisch entsprechend aufbereitet ist und andererseits nicht mit einer notwendigen Authentifizierung verbunden ist, sondern anonym durchgeführt werden kann. Ein anonymes System wiederum ist aber aufgrund der niedrigeren Hemmschwelle bei den Nutzern Angriffen und Missbrauch ausgesetzt.
Wird als Basis für die Klassifikation eine hierarchische Struktur (z.B. DDC) verwendet, so könnte die Anzeige dieser Hierarchie im Rahmen der Suchergebnisse für den Nutzer durchaus von Vorteil sein. Im Sinne eines Relevance Feedback könnte der Benutzer beispielsweise eine Ebene höher oder tiefer navigieren und so seine Anfrage generalisieren oder spezialisieren. Ansätze dieser Art finden sich zum Beispiel in Yahoo[165]. Da ein Klassifikationsschema aber wie in Kapitel 6.1.3 erwähnt, niemals komplett sein kann, muss auch die Möglichkeit der Modifikation der Themenstruktur vorgesehen werden. Für den Autor wäre vorstellbar, dass ein Experte ein neues Thema in die Themenstruktur einfügen darf. Dies kann zum Beispiel im Rahmen einer manuellen Klassifikation bei der Dokumentanmeldung am System geschehen, oder aber im Zuge der Abstimmung im Rahmen der Suchergebnisse. Aber auch normale Nutzer sollten die Möglichkeit haben, neue Themen vorzuschlagen, die nach Begutachtung durch einen Experten in die Themenstruktur aufgenommen werden können.
Ein Problem der automatischen Klassifikation kann die Erstellung eines passenden Trainingsdatensatzes sein. Es müssen genügend Trainingsdokumente für alle Klassen gefunden bzw. von Experten klassifiziert werden. Abhilfe bietet hier nach Meinung des Autors ein automatischer Mechanismus, welcher bei Vorliegen einer besonders negativen Abstimmung für eine Klasse (viele Nutzer klassifizieren ein Thema als nicht passend) einen Experten verständigt. Es kann also mit Hilfe des kollektiven Wissens einer großen Personengruppe ein Experte auf einen Fehler aufmerksam gemacht werden. Aber auch bei Vorliegen einer besonders positiven Abstimmung kann ein Experte verständigt werden. Dieser kann nun im bei positiven Fall das Dokument zum Trainingsmodell hinzufügen und im negativen Fall versuchen, durch andere Modifikationen die Klassifikation zu verbessern. Somit stellt auch der Experte eine Art Benutzerunterstützung für das automatische Klassifikationssystem bereit. Außerdem ist auf diese Weise die Erstellung bzw. Modifikation eines Trainingsdatensatzes nicht mehr eine aufwändige Aufgabe für einige wenige Experten, sondern die Benutzer eines Systems unterstützen dieses quasi aktiv bei seiner Verbesserung. Diese Aufnahme eines Dokumentes ins Trainingsmodell bei entsprechender Benutzerbewertung kann natürlich auch im Sinne eines selbstlernenden Verfahrens automatisch erfolgen, allerdings muss hier die Gefahr eines Missbrauchs bei öffentlich zugänglichen Systemen nochmals betont werden.
Eine weitere Möglichkeit der Erstellung eines Trainingsdatensatzes für das automatische System liegt in der Auswertung einer bereits vorhandenen manuellen Klassifikation. So könnten wie erwähnt all jene von Benutzern vorklassifizierten und von Experten kontrollierten Dokumente des Systems zum Aufbau eines Trainingsdatensatzes verwendet werden. Aber auch die bereits bestehenden manuellen Kategorien in diversen Such-Katalogen, Subject Gateways oder Annotated Link Lists[166] könnten genutzt werden. Bei Verwendung der gleichen oder einer ähnlichen Themenstruktur für das zu entwickelnde IR System können Dokumente aus diesen Katalogen als Trainingsdokumente verwendet werden.
Aber auch zur Klassifikation der Dokumente aus dem betrachteten IR System selbst kann die Klasseninformation aus den Katalogen im Internet genutzt werden. Für den Autor dieser Arbeit wäre durchaus ein Ansatz denkbar, bei dem ein zu klassifizierendes Dokument zuerst mit einem Katalog verglichen wird und dem Dokument das entsprechende Thema des Katalogs zugewiesen wird. Sollte das Dokument selbst nicht im Katalog vorhanden sein, könnte die Klasseninformation der durch Hyperlinks identifizierbaren Nachbardokumente zur Klassifikation des Ursprungsdokuments beitragen. Somit wäre die Nutzung der Ressourcen einer größeren Gruppe menschlicher Experten möglich. Erst wenn auch diese Methode nicht zum Erfolg führt, könnte die übliche Klassifikation mittels mathematischer Methoden zum Einsatz kommen. Doch auch hier könnte der in diesem Abschnitt geschilderte Ansatz der manuellen Unterstützung der automatischen Klassifikation vorteilhaft sein.
Nur am Rande sollte in Zusammenhang mit der Modifikation eines Klassifikators beachtet werden, dass je länger ein Klassifikationsmodell existiert bzw. je länger mit dem Klassifikator gearbeitet wird, desto höher ist die Wahrscheinlichkeit, dass sich das der Klassifikation zugrundeliegende Konzept verändert. Folgt man [Klinkenberg 1998], so sind drei Arten der Konzeptverschiebung vorstellbar:
· Ein Begriff verschiebt sich. Das heißt, die Bedeutung eines Wortes wird im Laufe der Zeit eine Andere. Beispielhaft demonstrieren lässt sich dies am Begriff „Globalisierung“. Vor nicht allzu langer Zeit war dieser Begriff ein Synonym für die positive weltweite Zusammenarbeit in Forschung und Wirtschaft. Heute symbolisiert dieser Begriff nicht zuletzt durch die Berichterstattung diverser Medien eher negative Effekte wie Armut, Arbeitsplatzverlust und Ausbeutung.
· Das Interesse verschiebt sich, eventuell auf einen neuen Begriff. Dies kann vor allem bei Klassifikationssystemen in Kombination mit persönlichen Agenten der Fall sein. Diese durchsuchen gezielt Informationsquellen (z.B. das Internet) und kategorisieren Informationen entsprechend den Interessen (Klassen wie Sport, Literatur, Hobbies usw.) eines Benutzers. Ändern sich nun die Interessen eines Benutzers, so sollte das System darauf reagieren können, die bestehenden Klassen modifizieren oder neue Klassen erzeugen und geänderte Ergebnisse präsentieren.
· Die zu einem Gebiet verfügbaren Dokumente verschieben (verändern) sich. Demonstrieren lässt sich auf dem sich rasch entwickelnden Sektor der Informationstechnologien. Früher geprägt durch Begriffe wie „elektronische Datenverarbeitung“, „Rechenzentrum“ oder „Lochkarten“ kommen heute in den entsprechenden Dokumenten Begriffe vor wie „virtuelle Realität“, „E-Commerce“, „Internet“ oder „elektronischer Einkauf“. Ein Klassifikator mit einem Trainingsdatensatz bestehend aus alten Begriffen wird neuere Dokumente womöglich falsch klassifizieren.
Auch bei Auftreten der eben erwähnten Konzeptverschiebung bietet die Benutzerunterstützung Vorteile. Eine eventuell auftretende Veränderung eines Konzeptes ist durch das Abstimmungsverhalten der Benutzer rasch erkennbar. Die nicht mehr passenden Klassen werden entsprechend negativ bewertet und ein Experte (oder das System selbst) kann mit Veränderungen im Trainingsmodell reagieren.
7.2 Gestaltungsmodell eines verbessertenKlassifikationssystems
Im vorigen Abschnitt wurde ausgehend von den im Untersuchungsbereich gewonnenen Erkenntnissen Vorschläge gemacht, um die in Zusammenhang mit der thematischen Klassifikation im Rahmen der Informationsauffindung angesprochenen Probleme möglichst gut zu lösen. Aus diesen Vorschlägen wird in diesem Abschnitt ein Gestaltungsmodell eines verbesserten Systems zur Klassifikation durch Kombination von automatischer und benutzerunterstützter Klassifikation entwickelt. Einen Überblick über die Komponenten des Systems gibt Abbildung 7.2.
Das System basiert auf einer manuell erstellten Themenstruktur (im Gegensatz zum Clustering, wo Themen automatisch generiert werden). Diese ist also für die grundsätzliche Kategorisierung sowohl der Trainingsdokumente (siehe Punkt 1 in der Abbildung 7.2) als auch der im System befindlichen Dokumente (2) zuständig (durch die automatische Klassifikation auf Basis dieser Struktur). Des weiteren ist ein Mechanismus zum Einbringen neuer Dokumente in das System vorgesehen. Nutzer können durch eine Anmeldung von Dokumenten, Servern, oder Serverbereichen bestimmen, welche Dokumente ins System gelangen sollen. Deren Beschreibung wird von Experten kontrolliert. Eingefügt werden können Dokumente durch einen Gatherer, wobei ein Experte die zu betrachtenden URLs angeben kann (3). Hier findet sich also ein erster Einfluss einer Benutzerunterstützung. Außerdem kann dieser Experte über eine manuelle Vorklassifikation eines Dokumentes festlegen, ob es als Trainingsdokument für eine automatische Klassifikation dienen soll (4) und nimmt somit Einfluss auf den Trainingsdatensatz. Bei dieser manuellen Klassifikation kann ein Experte auch ein neues Thema in die Themenstruktur integrieren (5), sollte ein Dokument durch die vorhandene Struktur nur ungenügend beschrieben werden. Der Gatherer sammelt und verarbeitet nun Dokumente auf den angegebenen Webbereichen (6) und nimmt die gefundenen Dokumente ins System auf (7). In einem weiteren Schritt findet die automatische Klassifikation dieser Dokumente basierend auf den Trainingsdaten statt (8). Durch diese automatische Klassifikation wird bestimmt, welche Klassen (Themen) dem Benutzer im Rahmen von Suchergebnissen zur Bewertung angeboten werden (9). Für jedes in diesem Suchergebnis präsentierte Dokument kann eine manuelle Bewertung der automatisch zugewiesenen Themen vorgenommen werden. Diese Benutzerbewertung ist nun einerseits ausschlaggebend dafür, ob ein Dokument (bei sehr positiver Bewertung) von einem Experten in das Trainingsdatenset aufgenommen wird (10). Die Klassifikationskomponente hat wiederum auch Einfluss auf die Anmeldung neuer Seiten, da diese Seiten quasi als Unterstützung für den Benutzer schon klassifiziert werden können, sodass der Benutzer die Klassifikation nur mehr zu bestätigen braucht (11). Am Rande vorstellbar ist weiters, dass die Benutzerabstimmung in Sinne eines Regelkreises direkten Einfluss auf den Klassifikationsmechanismus hat (12). Der Benutzer kann im Zuge seiner Abstimmung auch neue Themen für eine Dokument vorschlagen, sollte die dargebotenen Klassen nicht passend sein oder aber generell keine passenden Klassen in der Themenstruktur vorhanden sein.
In den der Abbildung 7.2 folgenden Tabellen 7.1 bis 7.3 sollen punktuell die Anforderungen an ein möglicht ideales System zur benutzerunterstützten automatischen Themenklassifikation dargestellt werden. Die einzelnen identifizierten Module des Systems werden dabei mit den jeweiligen an sie gestellten Anforderungen beschrieben. Tabelle 7.1 zeigt dabei die grundlegenden Anforderungen an ein IR System bezüglich der verwendeten Themenstruktur und der Einbringung der Dokumente in das System. Tabelle 7.2 zeigt die Anforderungen an die automatische Klassifikationskomponente eines solchen Systems. Tabelle 7.3 zeigt letztlich die Anforderungen im Rahmen der Benutzerunterstützung zur Verbesserung der Informationsauffindung.
Tabelle 7.1 Grundlegende Anforderungen an ein verbessertes Klassifikationssystem
|
>> Lehre > Abschlussarbeiten > 2002 > Entwicklung ein[..] > Hoffmann, Rober[..] > Entwicklung ein[..]













(4.4)
(4.5)
(4.6)
(4.7)



(4.20)







