Arbeitsgruppe Information Profiling and Retrieval (IPR)
Die Arbeitsgruppe Information Profiling and Retrieval ist sowohl dem Institut für Informatik der CAU als auch dem ZBW - Leibniz Informationszentrum Wirtschaft zugeordnet und betreibt grundlagen- und anwendungsorientierte Forschung in den Bereichen Information Retrieval, Text Mining und Verarbeitung von natürlicher Sprache. Hierzu werden moderne Methoden der künstlichen Intelligenz (weiter-)entwickelt und evaluiert, mit einem Schwerpunkt auf großen Sprachmodellen (LLM), Topic-Modellen, sowie Wissensgraphen (KG). Dabei bilden wir ein breites Spektrum an Anwendungen ab, von der
- Extraktion von Informationen aus großen Dokumentsammlungen, zu
- semantischen Repräsentationen von Entitäten und Texten, über die
- Analyse und Verarbeitung in konkreten Nutzungsszenarien, sowie der
- Intelligenten Visualisierung der Ergebnisse.
Kontakt
Prof. Dr. Ralf Krestel
Düsternbrooker Weg 120
24105 Kiel
+49-431-8814-273
rkr@informatik.uni-kiel.de
Aktuelles aus der Arbeitsgruppe
Jun. 2025: Artikel in der Zeitschrift World Patent Information (WPI) veröffentlicht

"Do large language models understand patents? Enhancing patent classification through AI-generated summaries" von Naoya Yoshikawa und Ralf Krestel.
Patent classification plays a crucial role in intellectual property management, but remains a challenging task due to the complexity of patent documents. This study explores a novel approach to enhance automatic patent classification by leveraging summaries generated by large language models (LLMs). Our approach involves using the GPT-3.5-turbo model to create concise summaries from different sections of patent texts, which are then used to fine-tune the RoBERTa and XLM-RoBERTa models for classification tasks. We conducted experiments on English and Japanese patent documents using two datasets: the well-established USPTO-70k and the newly developed JPO-70k, that we specifically created for this study.
Our findings show that models trained on AI-generated summaries – particularly those derived from patent claims or detailed descriptions – outperform models trained on original abstracts in both subclass-level multi-label classification and subgroup-level single-label classification. In particular, using detailed description summaries improved the micro-average F1 score for subclass-level classification by 2.9 points on the USPTO-70k and 3.0 points on the JPO-70k, compared to using original abstracts.
These results indicate that LLM-generated summaries effectively capture information relevant to patent classification from various sections of patent texts, offering a promising approach to enhance the accuracy and efficiency of patent classification across different languages.
Mär.2025: Workshop zu Wissensgraphen und große Sprachmodelle in den Digital Humanities bei der DHd Konferenz organisiert

Der Workshop zielt darauf ab, Forschenden aus den Digital Humanities neue maschinelle Lernverfahren zur Anreicherung domänenspezifischer Wissensgraphen vorzustellen. Mit der Nutzung von Large-Language-Modellen (LLMs) zur automatisierten Wissensextraktion werden neue Methoden aufgezeigt und es wird spezifisch auf die Herausforderungen bei der Informationsgewinnung aus unstrukturierten Texten eingegangen. Praktische Übungen umfassen die manuelle und automatisierte Extraktion von Triplets sowie die Nutzung von Tools zur Visualisierung und dem Abgleich von Entitäten beispielsweise mit Wikidata. Beispielhaft werden diese Techniken im Bereich der Kunstgeschichte angewendet und perspektivisch hybride KI-Modelle zur Verbesserung der Such- und Klassifikationsmethoden vorgestellt.
Dez. 2024: Artikel in der Zeitschrift Transactions on Graph Data and Knowledge (TGDK) veröffentlicht

"MELArt: A Multimodal Entity Linking Dataset for Art" von Alejandro Sierra-Munera, Linh Le, Gianluca Demartini und Ralf Krestel.
Traditional named entity linking (NEL) tools have largely employed a general-domain approach, spanning across various entity types such as persons, organizations, locations, and events in a multitude of contexts. While multimodal entity linking datasets exist (e.g., disambiguation of person names with the help of photographs), there is a need to develop domain-specific resources that represent the unique challenges present in domains like cultural heritage (e.g., stylistic changes through time, diversity of social and political context). To address this gap, our work presents a novel multimodal entity linking benchmark dataset for the art domain together with a comprehensive experimental evaluation of existing NEL methods on this new dataset. The dataset encapsulates various entities unique to the art domain. During the dataset creation process, we also adopt manual human evaluation, providing high-quality labels for our dataset. We introduce an automated process that facilitates the generation of this art dataset, harnessing data from multiple sources (Artpedia, Wikidata and Wikimedia Commons) to ensure its reliability and comprehensiveness. Furthermore, our paper delineates best practices for the integration of art datasets, and presents a detailed performance analysis of general-domain entity linking systems, when applied to domain-specific datasets. Through our research, we aim to address the lack of datasets for NEL in the art domain, providing resources for the development of new, more nuanced, and contextually rich entity linking methods in the realm of art and cultural heritage.
Sep. 2024: Preis für besten studentischen Beitrag auf der TPDL Konferenz gewonnen

Das von Dennis Davari, Liana Ermakova und Ralf Krestel eingereichte Papier mit dem Titel: "Comparative Analysis of Evaluation Measures for Scientific Text Simplification" wurde auf der 28th International Conference on Theory and Practice of Digital Libraries in Ljubljana mit dem Best Student Paper Award ausgezeichnet.
Die Arbeit befasst sich mit Textvereinfachungsmetriken: Wissenschaftliche Texte sind für Laien oftmals schwer verständlich. Moderne Sprachmodelle sind jedoch in der Lage, diese Texte in einfache Sprache zu "übersetzen", beispielsweise indem Fachbegriffe durch allgemeinverständliche Begriffe ausgetauscht werden und lange, verschachtelte Sätze in einfache, kurze Sätze umgewandelt werden. Wie gut so eine Vereinfachung gelungen ist, ist schwer zu messen: zum Einen sollen die Informationen des Originaltexts so genau und vollständig wie möglich erhalten bleiben, zum Anderen soll der Text aber leicht verständlich sein. Dafür wurden in der Forschung verschiedene Metriken entwickelt, die die Güte eines vereinfachten Texts beurteilen sollen. Mit der nun ausgezeichneten Arbeit geben die Autoren zum ersten mal einen großem Überblick über die vorhandenen Metriken und zeigen auf, wie diese Metriken Texte zum Beispiel im Vergleich zu Experten bewerten.
Die hoch angesehene Internationale Konferenz zu Theorie und Praxis digitaler Bibliotheken (TPDL) ist eine jährliche stattfindende Konferenz für Forscher zu digitalen Bibliotheken und verwandten Themen. Die Konferenz bezieht ein breites und multidisziplinäres Spektrum von Forschungsbereichen ein, darunter Informatik, Informationswissenschaft, Bibliothekswesen, Archivwissenschaft und -praxis, Museumsstudien und -praxis, Technologie, Sozialwissenschaften, kulturelles Erbe und Geisteswissenschaften. Auch in ihrem achtundzwanzigsten Jahr ist die TPDL ein internationales Referenzforum für digitale Bibliotheken und damit verbundene technische, praktische und soziale Fragen. In diesem Jahr lag der Schwerpunkt auf Dokumentenanalyse/-erkennung und Information Retrieval und trägt damit der wichtigen Rolle dieser Forschungsbereiche bei der Erstellung (durch Digitalisierung und Informationsextraktion aus heterogenen Quellen), dem Zugang, der Entdeckung und der Verbreitung digitaler Inhalte Rechnung.