|
Die Verwaltung von großen Datenbeständen, die Sicherstellung ihrer Aktualität und Konsistenz sowie das Auffinden von Daten sind Kernfunktionalitäten von Informationssystemen, wie sie in den verschiedensten Anwendungsbereichen der Unternehmungen zum Einsatz kommen. Mit der Globalisierung der Märkte wächst die Notwendigkeit der Nutzung aktueller, weltweit verteilter Informationen. Der Charakter dieser Daten - ihre Heterogenität, die Strukturierung, Redundanz und Inkonsistenz - erschwert jedoch die Aufbereitung und die Integration mit den eigenen Datenbeständen. Gleichzeitig erfordert die damit verbundene Informationsflut geeignete Vorkehrungen zur Filterung und Verdichtung sowie zur Extraktion relevanter Informationen. Die Vielfalt an potentiellen Datenquellen und -strukturen, die unterschiedlichen Integrationsanforderungen (z.B. bezüglich der Konsistenz, Aktualität und Verfügbarkeit), die Unterstützung anwendungsbezogener Fusions- und Analysemethoden sowie die Anpaßbarkeit des Gesamtsystems an veränderte Rahmenbedingungen setzen eine flexibel konfigurierbare und erweiterbare Infrastruktur für Datenzugriff und Methodenintegration voraus. Im Rahmen des hier dargestellten Vorhabens sollen Methoden und Techniken für eine solche Infrastruktur als generischer Kern effizienter, anwendungsspezifischer Informationssysteme zur Unterstützung der Fusion entwickelt werden. |
Der Begriff nachhaltige Informationsfusion bezeichnet alle Aspekte, die mit der dauerhaften Nutzung eines Informationsraumes zusammenhängen. Er betont damit eine Abkehr von der traditionellen Sicht, bei der Datenfusion und Datenanalyse als Prozesse gesehen werden, die im wesentlichen einmal mit vorher festgelegten Datenquellen durchgeführt werden, um dann ihre Ergebnisse über einen längeren Zeitraum unverändert zu benutzen. Für die in der Forschergruppe betrachteten Szenarien muss man stattdessen feststellen, daß die zum Aufbau des intelligenten Zielsystems genutzten Datenquellen sowohl heterogen als auch dynamisch sind: es werden verschiedene Quellen genutzt, und es können sich sowohl die verfügbaren Quellen als auch die darin enthaltenen Daten bzw. Informationen ändern. Aktuelle Analyse- bzw. Lernverfahren sind schlecht gerüstet, um mit dieser Situation umzugehen, denn sie operieren im wesentlichen passiv, das heißt, sie nutzen alle vom Benutzer vorgegebenen Daten (im Stapelbetrieb, batch) oder warten auf neue Daten aus einer vorgegebenen Datenquelle (inkrementell). In einer Umgebung mit heterogenen dynamischen Datenquellen bleibt es bei solchen klassischen passiven Verfahren vollständig dem Benutzer überlassen, Datenquellen und Daten auszuwählen und insbesondere auch bei dynamischen Entwicklungen in den Daten zu entscheiden, ob und wie Analysen wiederholt oder ergänzt werden sollen. Dies überfordert den Benutzer und führt dazu, daß eine Vielzahl von Einzelergebnissen aus unterschiedlichen Daten erzeugt werden, die schlecht aufeinander abgestimmt sind. Ziel des vorgeschlagenen Teilprojektes ist es daher, aktive Werkzeuge und Analyseverfahren zu entwickeln, die den Benutzer bei der Aufgabe der Auswahl von Daten und ihrer dynamischen Verfolgung unterstützen bzw. diese Aufgabe für Teilbereich eigenständig wahrnehmen. Dazu benötigen aktive Lernverfahren eine präzise und operationalisierte Definition des eigenen Lernziels, beispielsweise das Erreichen optimaler Vorhersage- oder Klassifikationsgenauigkeit. Die Verfahren können dann anhand dieses Lernziels den Zustand ihres aktuell erzeugten Modells untersuchen und feststellen, in welchen Teilbereichen des Modells das Einbeziehen neuer Daten bzw. anderer Datenquellen nützlich wäre; hierbei kann eine Kostenfunktion verwendet werden, um zusätzlich zu untersuchen, ob erwarteter Gewinn und Kosten (Rechenzeit, Datenbeschaffungskosten) in einem sinnvollen Verhältnis stehen. Durch Verwendung von Revisionstechniken soll auch ein dynamischer Vergleich von Datenquellen und erstelltem Modell realisiert werden, durch den festgestellt werden kann, ob veränderte Daten(quellen) Änderungen des Modells ermöglichen oder sogar erfordern. |
Expertenwissen zu einem bestimmten Gegenstandsbereich (zum Beispiel ein Produkt, ein Verfahren, Vorschriften usw.) liegt nur in den wenigsten Fällen in Form von formalen Wissensstrukturen vor. In der Regel ist es entweder schriftlich in natürlich-sprachlichen Dokumenten festgehalten, oder ist als nicht schriftlich fixiertes Wissen nur über den Experten selbst zugänglich. In den beiden letztgenannten Fällen ist die Akquisition des Wissens ein teurer und aufwendiger Prozeß (knowledge acquisition bottleneck). Die meisten Vorgehensmodelle zur Wissensakquisition, zum Beispiel die KADS-Methode, konzentrieren sich derzeit darauf, wie bei Experten vorhandenes Gebietswissen elizitiert und formalisiert werden kann, wohingegen der Prozeß der automatischen Wissensakquisition aus Dokumenten, in denen das Gebietswissen von Experten in natürlichsprachlicher Form abgelegt ist, bisher nur ansatzweise behandelt worden ist. Die informale Beschreibung des Wissens ist das Hauptproblem: In Dokumenten verbalisiertes Wissen liegt nicht in einem Grad der Formalisierung vor, der zielgerichtete Zugriffe auf das Wissen erlaubt, sondern es muß erst mühsam aus den Dokumenten extrahiert werden. Ein weiteres Problem betrifft die verteilte Ablage von Information: In keinem der Dokumente ist das vollständige Wissen zu einem Gegenstandsbereich enthalten; vielmehr sind in unterschiedlichen Dokumenten verschiedene Aspekte der Domäne beschrieben, aber nicht ohne Redundanzen und Inkonsistenzen. Schließlich erschweren inkonsistente Begriffsverwendungen bei der textuellen Gebietsbeschreibung und unterschiedliche Sichten auf den gleichen Sachverhalt den Zugriff auf das dokumentierte Wissen. Eine Lösung dieser Probleme sehen wir in einer formalen Repräsentation des in den Dokumenten enthaltenen Gebietswissens in Form einer Wissensbasis. Eine solche formale Repräsentation unterstützt nicht nur vielfältige Arten des Zugriffs und somit Anwendungen des Wissens, z.B. in wissensbasierten Systemen, sondern realisiert darüber hinaus die Verdichtung des in den Dokumenten enthaltenen Wissens. Mit anderen Worten, das vormals über zahlreiche Dokumente verteilte, oft redundante Wissen wird in einer einzigen Wissensquelle fusioniert. Ziel des Projektvorhabens ist die Entwicklung von Elementen einer interaktiven Arbeitsumgebung (workbench), welche Hilfsmittel zur semiautomatischen Erstellung dieser kondensierten Wissensquelle zur Verfügung stellt. |
Ein wichtiges, aus Systemsicht (d.h. "von unten") zu erfüllendes Kriterium des beantragten Vorhabens zur Informationsfusion stellt u.a. die Minimierung der Antwortzeiten bei der Bearbeitung von Suchanfragen dar. Geringe Antwortzeiten verbessern allgemein die "`Empfänglichkeit"' (responsiveness) des Systems und fördern das interaktive Arbeiten mit den angebotenen Werkzeugen. Die Suchanfragen operieren dabei auf Datenbeständen, die entfernten und/oder lokalen Datenbanken zu entnehmen und innerhalb des den Anfrageprozeß beherbergenden Rechners auf verschiedenen Ebenen zu verarbeiten sind. Dazu sind lokal entweder die Daten von unten nach oben oder die Funktionen von oben nach unten zu bewegen. Verschiedentlich ist auch die vertikale Bewegung von Daten und Funktionen erforderlich. In allen Fällen müssen je nach Anfrageszenario mehr oder weniger viele Kontextgrenzen (insbesondere Adreßraumgrenzen) überwunden werden. Je nach Art und technischer Auslegung der Grenzen unter Zuhilfenahme der Mechanismen des zugrundeliegenden Betriebssystems, sind die vertikalen Interaktionsvorgänge mehr oder weniger schwergewichtig und entsprechend einflußnehmend auf die Antwortzeiten. Ziel des Vorhabens ist der Entwurf und die Entwicklung einer objektorientierten Laufzeitumgebung, auf deren Grundlage die Interaktionen zwischen Software-Komponenten hinsichtlich Laufzeiteffizienz optimiert werden können. In Abhängigkeit von dem gegebenen Anwendungsprofil sollen die jeweils aus Kostengesichtspunkten günstigsten Interaktionsmuster zum Einsatz kommen. Das System basiert dabei auf einer Suite von vorgefertigten Aufrufstümpfen, die als Programmfamilie vorliegt. Die Stümpfe unterscheiden dabei zwischen makro-, prozedur-, domänen- und nachrichtenbasierten Aufrufprotokollen. Damit legen sie die Grundlage für eine Konfektionierung der Interaktion in Abhängigkeit von der für die gegebene Anwendung ausgewählten Konfiguration. Für die Anwendung wird eine gewisse architektonische Transparenz geschaffen, d.h. ihre Komponenten operieren unabhängig davon, ob eine monolithische oder modulare Struktur des Gesamtsystems zur Laufzeit ausgewählt worden ist bzw. werden muß. Bei der Auswahl des passenden Interaktionsmusters spielt die Anwendung die entscheidende Rolle: sie legt Aspekte fest, die der Konfigurierung dienen. Die Auswahl soll (weitestgehend) automatisch erfolgen und basiert auf Spezifikationen, die sich einerseits auf die Anforderungen seitens der Anwendung beziehen und andererseits die (funktionalen) Eigenschaften der vorgefertigten Aufrufstümpfe beschreiben. Ein Aspektweber wird auf Grundlage der vorliegenden Quelltexte beider Seiten (d.h. der Anwendungs- und der Systemkomponente) zur übersetzungs- und/oder Laufzeit die gewünschte Verschmelzung mittels des ausgewählten Aufrufstumpfes bewirken. |
Die Informationsfusion ist ein Prozeß, von dem erwartet wird, daß er durch starken Einfluß von Benutzern abläuft. Einerseits müssen von Benutzern Entscheidungen über die Art der Fusionierung getroffen werden, andererseits muß der Fusionsprozeß für Benutzer nachvollziehbar dargestellt werden. Schließlich muß die Möglichkeit zur Nachbearbeitung einzelner Aspekte der Fusionsprozesse zur Verfügung gestellt werden. Deshalb müssen Methoden und Werkzeuge entwickelt werden, die es Benutzern ermöglichen, mit den zu fusionierenden bzw. den fusionierten Daten zu interagieren. Dabei besteht ein enger Bezug zwischen Interaktion und Visualisierung: Aufschlußreiche Visualisierungen sind eine Voraussetzungen dafür, daß Benutzer Zugriff auf die zugrundeliegenden Daten erhalten. Jedoch stellt die Interaktion an die Visualisierung auch die Anforderung, daß visuelle Merkmale zurückverfolgt werden können auf die Rohdaten bzw. Zwischenergebnisse der Fusion. Deshalb werden spezielle Datenstrukturen benötigt, um die Visualisierungen derart anzureichern, daß Benutzer auf die in ihnen beobachteten Merkmale auch tatsächlich direkt zugreifen können. Dieses wiederum erfordert bereits bei der Informationsfusion die Bereitstellung geeigneter Daten. Objektbewegungen werden als ein besonders charakteristisches zu visualisierendes Merkmal im Fusionsprozess betrachtet. Einerseits wird ein zusätzlicher Präsentationsvariablensatz benötigt, denn Visualisierungen der zu fusionierenden Daten verwenden oft für sich bereits die üblichen Variablen wie Farbe, Form und Position. Andererseits wird erwartet, daß es gute Entsprechungen für Fusionsprozesse in Form von visualisierten Objektbewegungen gibt. Solche Objektbewegungen bedürfen aber besonderer Interaktionsmechanismen, damit durch Benutzer auf sich bewegende Objekte und Bewegungsparameter zugegriffen werden kann. Die Benutzerinteraktion wird in der Arbeit der Forschergruppe frühzeitig berücksichtigt, damit von vornherein Daten gesammelt und strukturiert zur Verfügung gestellt werden können, auf die durch Visualisierungen zugegriffen werden kann. Wird die Interaktion nicht von Beginn an berücksichtigt, so ist es später nur mit sehr hohem Aufwand möglich, geeignete Interaktionsmechanismen vorzusehen. |
Bei der Datenfusion sollen Datenbestände aus verschiedenen Anwendungsbereichen in Zusammenhang gebracht und ausgewertet werden. Das Ziel des vorliegenden Projektes ist in diesem Zusammenhang die Entwicklung und Evaluierung eines visuellen Data Mining Systems, das eine schnelle und effektive Exploration der zu fusionierenden Datenbestände erlaubt. Die meisten derzeit verwendeten Cluster-Algorithmen arbeiten nicht effizient und/oder nicht effektiv auf großen Mengen multidimensionaler Daten. Deshalb sollen neue Visualisierungstechniken sowie eng integrierte Kombinationen aus neuartigen visuellen und adaptierten automatischen Methoden erforscht und realisiert werden, die die Nachteile bisheriger Techniken überwinden und zur Entdeckung von Clustern, Abhängigkeiten oder anderen nützlichen Informationen in großen multidimensionalen Datenbeständen dienen. Durch den Gebrauch von visuellen Methoden soll der Benutzer im Gegensatz zu bisherigen Verfahren in die Lage versetzt werden, die Signifikanz der entdeckten Information (Cluster, Abhängigkeiten) abzuschätzen, den Einfluß von Parametern automatischer Verfahren zu verstehen und diese Parameter zu tunen. Visualisierungstechniken erlauben zudem ein abstrakteres Verständnis der Daten und ermöglichen es, informales Hintergrundwissen in den Explorationsprozeß mit einfließen zu lassen. Durch die Interaktion mit einem Benutzter soll insgesamt die Qualität und Effektivität der Fusion entscheidend verbessert werden. Die Schwerpunktanwendung im Rahmen der Forschergruppe ist die Clusteranalyse von Sequenzdatenbanken zur Unterstützung der automatischen Sequenzanalyse. |
Besonders in kleinen und mittelständischen Unternehmen der Gießereibranche ist eine rechentechnische Unterstützung von ingenieurtechnischen Aufgaben zum Gußteilentwurf von Bedeutung. Mit dieser Unterstützung soll der Gußteilentwurf bei effizienter Informationsausnutzung rationalisiert werden. Dabei findet bereits eine Vielzahl von Legacy-Programmen Anwendung. Im Zusammenhang mit dem Forschungsprojekt wird der Bereich der komplexen Rohteilgenerierung gewählt, um so ein Anwendungsfeld für die Workbench zur Informationsfusion bereitzustellen. Der betrachtete Bereich umfaßt ingenieurtechnische Aufgaben, wie: Überprüfung des Gußteils auf Technische Realisierbarkeit, Überprüfung des Gußteils auf Fertigungsgerechtheit, die Festlegung des Form- und Kernformverfahrens sowie die Erarbeitung eines Einformschemas. Dabei wird unter einem Rohteil ein Gußstück nach der Entnahme aus der Form und dem Putzen, ohne Kernmarken und ohne Anschnitt- und Speisersystem verstanden. Die Rohteilgenerierung hängt hierbei von vielen Parametern ab, wobei eine wechselseitige Beziehung zwischen diesen Parametern beachtet werden muß. Beispiele für Rohteilparameter sind: Festlegung der Teilungsebenen, Lage, Gestalt und Abmessungen von Kernen, Aushebeschrägen, Gußradien, technologisch notwendige Formelemente wie Rippen, Verbindungsstege, Augen, Aussparungen sowie Werkstoffeigenschaften. Zu den Prozessen der Rohteilgenerierung existieren eine Anzahl von spezifischen Datenbanken, deren Inhalte jedoch Redundanzen und Inkonsistenzen enthalten. Beispiele sind Datenbanken zur Verwaltung von Gußfehlern, Gestaltungsregeln oder physikalischen Stoffgrößen usw. Bei der Generierung von Rohteilen muß eine Vielzahl direkter und indirekter Einflußgrößen berücksichtigt werden. Dazu gehören die Art des Form- und Gießverfahrens, die Gußteilgestalt und Kompliziertheit des Teils, die Gußteilabmessungen, Anforderungen an die Oberflächengüte von Gußteilkonturen, der Gußwerkstoff und das Anschnitt- und Speisersystem. Der Mitarbeiter, der die Rohteilgenerierung durchführt, nutzt die obigen Zusammenhänge in einem iterativen, interaktiven Prozeß. Viele Gießereien sind damit unbedingt auf das Erfahrungswissen ihrer Mitarbeiter angewiesen. Dies stellt jedoch einen entscheidenden Nachteil im Wettbewerb dar, so daß versucht wird, diesen Bereich so weit wie möglich aufzuarbeiten, um eine Rechnerunterstützung zu ermöglichen, bzw. Hilfsmittel für eine weitestgehende Automatisierung bereitzustellen. Über dieses Erfahrungswissen hinaus existieren zahlreiche Informationsquellen, wie z.B. Arbeitsanweisungen, Werkstoffblätter, DIN- und DIN EN-Normen oder auch gießereitechnische Leitfäden, die genutzt werden müssen, um die Rohteilgenerierung zu unterstützen. Diese Informationen sind in verschiedenen Quellen (Video, Foto, Text, Audio) verfügbar. Das Ziel einer Informationsfusion besteht darin, über alle Datenbanken hinweg Abhängigkeiten zu finden, die den Entwurfsprozeß eines Gußteils unterstützen. Dadurch wird das Erfahrungswissen des Ingenieurs durch das Zusammenspiel mehrerer Datenbanken unterstützt und ergänzt. Unter anderem können Informationen zur Gießereitechnologie mit Informationen zur Entstehung oder Vermeidung von Gußfehlern in Zusammenhang gebracht werden. Das sich daraus ergebende neue "Wissen" kann zur Überprüfung der Fertigungsgerechtheit des Gußteils genutzt werden, wobei dieses Wissen auch in CAD-Systemen anwendbar ist. Ein weiteres Beispiel für eine Informationsfusion während der Rohteilgenerierung ist die Nutzung der Daten zu bereits entstandenen Gußfehlern, um Form- und Gießverfahren aus einer Datenbank auszuwählen. Hierbei müssen ebenfalls Datenbanken mit Richtwerten, Gestaltungsregeln usw. berücksichtigt werden. Es muß also ein Zusammenspiel der bereits vorhandenen Datenbanken ermöglicht werden, um Abhängigkeiten zwischen den Daten mit dem Ziel zu nutzen, die Informationen in einer neuen Qualität bereitzustellen. |
In diesem Projekt steht die Analyse von DNA-Sequenzen im Mittelpunkt der Anwendung. Dazu wird ein Werkzeug entwickelt, daß neben dem integrativen Zugriff auf die relevanten molekularen Datenbanken den Einsatz neuer und bereits verfügbarer Analyse-Algorithmen zur Identifizierung von Promotorsequenzen gewährleistet. Dies soll so geschehen, daß nicht nur eine generische Schnittstelle der Daten zu den Methoden geschaffen wird, sondern auch eine Schnittstelle der Methoden untereinander. Der Informationsgehalt der zur Verfügung stehenden Daten soll durch Experten explorativ erschlossen werden können. Konkret sollen Promotormodelle durch interaktive Fusion der bereitstehenden Informationen erstellt werden können. Der erstellte Prozeß kann dann für die Analyse unbekannter DNA-Bestände eingesetzt werden. |
Ziel der lebenszyklusübergreifenden Integration umweltrelevanter Stoffinformationen ist die Analyse der Auswirkungen auf die Umwelt, die durch die Nutzung eines Stoffes entstehen, auch wenn die zu Grunde liegenden Daten unvollständig oder partiell defektbehaftet sind, da erst die Zusammenführung aller an der Verwendung eines Stoffes beteiligten Stoffströme reale Aussagen über die Umweltauswirkungen ermöglichen. Dabei sollen Datenlücken und Defekte so weit wie möglich durch Methoden der Informationsfusion entdeckt, klassifiziert und geschlossen werden. Weiterhin wird eine Beschreibung aller relevanten Daten auf einer übergeordneten Ebene (Metaebene) vorgenommen. Diese bilden die Grundlage für die Untersuchung geeigneter Datenakquisitionsmethoden, die dann für das Extrahieren von umweltrelevanten Daten aus (un- bzw. semistrukturierten) Dokumenten Verwendung finden sollen. |
|
||||||||
© 1999-2002 Otto-von-Guericke-Universität Magdeburg, Fakultät für Informatik |