Ontologien als Schlüsseltechnologie für die automatische Erzeugung natürlichsprachlicher Texte

Bense, Hermann; Schade, Ulrich

doi:10.1007/978-3-642-54886-4_16

Ontologien als Schlüsseltechnologie für die automatische Erzeugung natürlichsprachlicher Texte

Hermann Bense⁴ &
Ulrich Schade⁵

Chapter
First Online: 01 January 2015

4431 Accesses
1 Citations

Part of the book series: X.media.press ((XMEDIAP))

Zusammenfassung

In den neuen Medien vor allem im Bereich des Semantic Web gibt es einen permanent steigenden Bedarf an einzigartigen Inhalten und redaktionellen Texten. Dies betrifft sowohl Medienunternehmen als auch Nicht-Medienunternehmen. Der Großteil der Texte wird heute noch konventionell von Redakteuren erstellt. Dies gilt auch für Bereiche, in denen Texte recht schematisch und formalisiert auf Basis von Datenbankinformationen oder Excel-Tabellen erstellt werden. Dieser Beitrag beschreibt ein Ontologie-gestütztes Verfahren zur Generierung natürlichsprachlicher Texte, welches auf die für das Semantic Web vereinbarten Konventionen zurückgreift [http://www.w3.org/TR/2004/REC-rdf-primer-20040210/, besucht am 05.10.2014, http://www.w3.org/TR/2004/REC-rdf-schema-20040210/, besucht am 05.10.2014, http://www.w3.org/standards/semanticweb/, besucht am 05.10.2014]. Unter dem Begriff Ontologien sind Wissenswelten oder Unternehmens-Enzyklopädien zu verstehen, in denen durch Hinterlegung von Regeln und Anwendung von Inferenzmechanismen neues Wissen aus Vorhandenem abgeleitet werden kann.

Ziel des Verfahrens ist es, Redakteure von der routinemäßigen Erstellung von Texten zu entlasten, die in großer Anzahl und sehr schnell erstellt werden müssen. Darunter fallen u. a. Spielberichte, Börsennachrichten, Firmenprofile, standardisierte Geschäftsbriefe, Produktbeschreibungen, die Anreicherung der Suchergebnisse von Suchmaschinen u.v.m. Durch Zugriff auf das Basiswissen des jeweiligen Anwendungsbereichs und Einbindung von Hintergrundinformationen aus anderen Ontologien wie DBPedia, YAGO, schema.org etc., die im Semantic Web zugreifbar sind, können die Texte angereichert werden. Wissenslücken können darüber hinaus durch Anwendung von Regeln, Formeln und Axiomen geschlossen werden. Die generierten Texte können direkt in Webseiten eingebunden werden. Im gleichen Schritt können die Metatags der Webseiten mit den für die Generierung herangezogenen Basisinformationen angereichert werden, so dass diese direkt von Suchmaschinen ausgelesen werden können.

Ein wesentlicher Vorteil des hier beschriebenen Verfahrens zur automatisierten Textgenerierung [http://natural-language-generation.com, besucht am 05.10.2014] besteht darin, dass die zur Generierung herangezogenen Informationen ontologisch „normiert“ sind. Die erzeugten Texte sind somit in hohem Maße syntaktisch, orthographisch und semantisch korrekt und weisen durch die zahlreichen Variationsmöglichkeiten eine extrem große Originalität auf. Willem Levelt untersucht in [Willem, Speaking – From Intention to Articulation, MIT Press, Cambridge, p 537] die Prozesse, die im menschlichen Gehirn ablaufen und Voraussetzung für die kognitive Fähigkeit des Sprechens sind. Auf dem Weg dahin beschäftigt er sich sehr systematisch mit den grammatikalischen Grundlagen und mit den Algorithmen, die der von Levelt so genannten „grammatischen Enkodierung“ zugrunde liegen. Obwohl sich Levelts Ausführungen auf die mündliche Sprachproduktion (das Sprechen) beziehen, gelten sie auch für die schriftliche Sprachproduktion, also das Erzeugen von Text. Die Differenzierung zwischen diesen beiden Modalitäten findet sich bei Levelt entsprechend auch erst in der der grammatischen Enkodierung folgenden phonologischen Enkodierung. Der Ausgangspunkt für Levelts grammatische Enkodierung ist die so genannte präverbale Botschaft, deren Einheiten als Attribut-Wert-Paare angesehen werden können, wobei die Attribute thematischen Rollen entsprechen. Die Werte, die diesen Rollen zugeordnet sind, sind Begriffe (engl. „concepts“). Wir werden auf diese Struktur weiter unten noch genauer eingehen. Zunächst wird das hier beschriebene Template-basierte Verfahren zu Textgenerierung beschrieben und mit anderen klassischen Ansätzen verglichen. Es wird erläutert, wie Texte strukturell organisiert werden und mit welchen Verfahren die Varianz in Texten erreicht wird. Ein wesentlicher Bestandteil der Textgenerierung ist die Ontologie (Wissensenzyklopädie), welche aus Daten und sprachrelevanten Wörterbuchinformationen besteht. Im Rahmen der technischen Realisierung wird darauf eingegangen, welche Datenhaltungssysteme und Abfragesprachen zum Einsatz kommen. Hier wurde besonderes Augenmerk darauf gerichtet, dass die Erstellung und Modellierung der Ontologien mit Tools wie Protégé unabhängig von deren produktiven Verwendung erfolgen kann. Das hier vorgestellte Verfahren unterstützt im Betrieb alternativ den Einsatz von SQL-Datenbanksystemen, um die Einstiegsbarriere für Unternehmen so gering wie möglich zu halten.

Es wird ferner erläutert, mit welcher Qualität bei den generierten Texten zu rechnen ist und in welcher Geschwindigkeit die Texte erzeugt werden können. Im Ausblick wird dann dargestellt, wie mit Verfahren des Semantic Web nicht nur Daten und Informationen, sondern auch komplexe Sachverhalte normiert über das Internet bereitgestellt werden können. Dazu werden Verfahren angewendet, die dem Google Knowledge Graph sehr ähnlich sind.

This is a preview of subscription content, log in via an institution.

Chapter: USD 29.95; Price excludes VAT (USA)

eBook: USD 49.99; Price excludes VAT (USA)

Hardcover Book: USD 99.99; Price excludes VAT (USA)

Tax calculation will be finalised at checkout

Purchases are for personal use only

Learn about institutional subscriptions

Literatur

http://www.w3.org/TR/2004/REC-rdf-primer-20040210/. 2014. Zugegriffen: 05. Nov 2014.
http://www.w3.org/TR/2004/REC-rdf-schema-20040210/. 2014. Zugegriffen: 05. Nov 2014.
http://www.w3.org/standards/semanticweb/. 2014. Zugegriffen: 05. Nov 2014.
http://natural-language-generation.com. 2014. Zugegriffen: 05. Nov 2014.
Willem, J. M. L 1989. Speaking—From intention to articulation, 537. Cambridge: MIT Press ISBN: 13 978-0-262-12137-8.
Google Scholar
http://schema.org/. 2014. Zugegriffen: 05. Nov 2014.
http://automatedinsights.com. 2014. Zugegriffen: 05. Nov 2014.
http://narrativescience.com/. 2014. Zugegriffen: 05. Nov 2014.
Kees, van Deemter, Emiel Krahmer, und Mariet Theune. 2005. Real versus template-based natural language generation: A false opposition? 23. http://delivery.acm.org/10.1145/1130000/1122626/s2.pdf?id=1122626.
http://www.ontology4.com. 2014. Zugegriffen: 05. Nov 2014.
http://protege.stanford.edu/. 2014. Zugegriffen: 05. Nov 2014.
MQL. 2014. SmarQL – Query Optimizer for OQL http://schematik.de/s1/Abfragen/MQL/. Zugegriffen: 05. Nov 2014.
O4Store – SQL-based Implementation of Quad Store. 2014. http://schematik.de/s1/Relationen/O4Store/. Zugegriffen: 05. Nov 2014.
Markus, Luczak-Rösch. 2015. Die Rolle der Anfragesprache SPARQL im Kontext von Linked Data. In: Corporate Semantic Web – Wie semantische Anwendungen in Unternehmen Nutzen stiften, Hrsg. B. Humm, B. Ege, und A. Reibold. Berlin: Springer.
Google Scholar
Bob DuCharme. 2013. Learning SPARQL—querying and updating with SPARQL 1.1, O`Reilly Media, ISBN: 978-1-449-37143-2.
Google Scholar
http://www.schreib-maschine.info/t1/Ontopage/Spielbericht/sub_GME-20130316_BVB_SCF.html. 2014. Zugegriffen: 05. Nov 2014.
Hermann, Bense, und Bastian Haarmann. 2013. A richer notation for the representation of ontological knowledge, ICCESSE 2013: International conference on computer, electrical, and systems sciences, and engineering, London.
Google Scholar
Hermann, Bense. 2014. The unique predication of knowledge elements and their visualization and factorization in ontology engineering, in [19] 241–250.
Google Scholar
Pawel, Garbacz, und Oliver Kutz. 2014. Formal ontology in information systems. Proceedings of the Eighth International Conference (FOIS 2014), Rio de Janeiro, Brazil, Sept. 22–25, 2014, ISBN: 978-1-61499-437-4.
Google Scholar
Wilhelm, Kamlah, und Paul Lorenzen. 1996. Logische Propädeutik – Vorschule des vernünftigen Redens, 237. Stuttgart: Verlag ISBN: 978-3-476-01371-2.
Google Scholar
http://www.ontology4.us/manual/Phrasen-Generator/. 2014. Zugegriffen: 05. Nov 2014.
Gert Rickheit, und Ulrich Schade. 2000. Textkonstitution II: Grammatische Aspekte in [23], 275–283. Berlin: Walter de Gruyter.
Google Scholar
Klaus, Brinker, Gerd Antos, und Wolfgang Heinemann. 2000. Linguistics of text and conversation—An international handbook of contemporary research. 1 Vols. Berlin: Walter de Gruyter.
Google Scholar
Christian, Hensel. 2011. Automatische Fließtexterstellung aus Entitätsfaktoren in einer Wissensbasis, Großer Beleg. Dresden: Technische Universität Dresden, Fakultät Informatik. http://www.rn.inf.tu-dresden.de/uploads/Studentische_Arbeiten/Belegarbeit_Hensel_Christian.pdf.
Google Scholar
http://t3n.de/news/schwede-10000-wikipedia-artikel-557610/. 2014. Zugegriffen: 05. Nov 2014.
http://en.wikipedia.org/wiki/User:Rambot. 2014. Zugegriffen: 05. Nov 2014.
http://en.wikipedia.org/wiki/Knowledge_Graph. 2014. Zugegriffen: 21. Juli 2014.
Hypertree. 2014. Dynamische Darstellung vernetzter Ontologie-Strukturen. http://hyperbolic-tree.com/hypertree/?max_depth=3subject=%3EW3C_OWL_Ontology, Zugegriffen: 05. Nov 2014.
Lukas, Sikorski, Bastian Haarmann, und Ulrich Schade. 2011. Computational linguistics tools exploited for automatic threat recognition. Proceedings of the NATO RTE IST-099, Madrid.
Google Scholar

Download references

Author information

Authors and Affiliations

[bense.com] Verlagsgesellschaft für Digitales Publizieren mbH, Schwarze-Brüder-Straße 1, 44137, Dortmund, Deutschland
Hermann Bense
Fraunhofer-Institut für Kommunikation, Informationsverarbeitung und Kommunikation,, Fraunhoferstraße 20, 53340, Wachtberg, Deutschland
Prof. Dr. Ulrich Schade

Authors

Hermann Bense
View author publications
You can also search for this author in PubMed Google Scholar
Prof. Dr. Ulrich Schade
View author publications
You can also search for this author in PubMed Google Scholar

Corresponding author

Correspondence to Hermann Bense .

Editor information

Editors and Affiliations

Technische Universität Wien, Wien, Austria
Börteçin Ege
Fachbereich Informatik Inst. f. Angewandte Informatik, Hochschule Darmstadt, Darmstadt, Germany
Bernhard Humm
OntoPort UG und COGIA GmbH, Darmstadt, Germany
Anatol Reibold

Rights and permissions

Reprints and permissions

Copyright information

About this chapter

Cite this chapter

Bense, H., Schade, U. (2015). Ontologien als Schlüsseltechnologie für die automatische Erzeugung natürlichsprachlicher Texte. In: Ege, B., Humm, B., Reibold, A. (eds) Corporate Semantic Web. X.media.press. Springer Vieweg, Berlin, Heidelberg. https://doi.org/10.1007/978-3-642-54886-4_16

Download citation

DOI: https://doi.org/10.1007/978-3-642-54886-4_16
Published: 27 May 2015
Publisher Name: Springer Vieweg, Berlin, Heidelberg
Print ISBN: 978-3-642-54885-7
Online ISBN: 978-3-642-54886-4
eBook Packages: Computer Science and Engineering (German Language)

Publish with us

Policies and ethics