Zusammenfassung
In den neuen Medien vor allem im Bereich des Semantic Web gibt es einen permanent steigenden Bedarf an einzigartigen Inhalten und redaktionellen Texten. Dies betrifft sowohl Medienunternehmen als auch Nicht-Medienunternehmen. Der Großteil der Texte wird heute noch konventionell von Redakteuren erstellt. Dies gilt auch für Bereiche, in denen Texte recht schematisch und formalisiert auf Basis von Datenbankinformationen oder Excel-Tabellen erstellt werden. Dieser Beitrag beschreibt ein Ontologie-gestütztes Verfahren zur Generierung natürlichsprachlicher Texte, welches auf die für das Semantic Web vereinbarten Konventionen zurückgreift [http://www.w3.org/TR/2004/REC-rdf-primer-20040210/, besucht am 05.10.2014, http://www.w3.org/TR/2004/REC-rdf-schema-20040210/, besucht am 05.10.2014, http://www.w3.org/standards/semanticweb/, besucht am 05.10.2014]. Unter dem Begriff Ontologien sind Wissenswelten oder Unternehmens-Enzyklopädien zu verstehen, in denen durch Hinterlegung von Regeln und Anwendung von Inferenzmechanismen neues Wissen aus Vorhandenem abgeleitet werden kann.
Ziel des Verfahrens ist es, Redakteure von der routinemäßigen Erstellung von Texten zu entlasten, die in großer Anzahl und sehr schnell erstellt werden müssen. Darunter fallen u. a. Spielberichte, Börsennachrichten, Firmenprofile, standardisierte Geschäftsbriefe, Produktbeschreibungen, die Anreicherung der Suchergebnisse von Suchmaschinen u.v.m. Durch Zugriff auf das Basiswissen des jeweiligen Anwendungsbereichs und Einbindung von Hintergrundinformationen aus anderen Ontologien wie DBPedia, YAGO, schema.org etc., die im Semantic Web zugreifbar sind, können die Texte angereichert werden. Wissenslücken können darüber hinaus durch Anwendung von Regeln, Formeln und Axiomen geschlossen werden. Die generierten Texte können direkt in Webseiten eingebunden werden. Im gleichen Schritt können die Metatags der Webseiten mit den für die Generierung herangezogenen Basisinformationen angereichert werden, so dass diese direkt von Suchmaschinen ausgelesen werden können.
Ein wesentlicher Vorteil des hier beschriebenen Verfahrens zur automatisierten Textgenerierung [http://natural-language-generation.com, besucht am 05.10.2014] besteht darin, dass die zur Generierung herangezogenen Informationen ontologisch „normiert“ sind. Die erzeugten Texte sind somit in hohem Maße syntaktisch, orthographisch und semantisch korrekt und weisen durch die zahlreichen Variationsmöglichkeiten eine extrem große Originalität auf. Willem Levelt untersucht in [Willem, Speaking – From Intention to Articulation, MIT Press, Cambridge, p 537] die Prozesse, die im menschlichen Gehirn ablaufen und Voraussetzung für die kognitive Fähigkeit des Sprechens sind. Auf dem Weg dahin beschäftigt er sich sehr systematisch mit den grammatikalischen Grundlagen und mit den Algorithmen, die der von Levelt so genannten „grammatischen Enkodierung“ zugrunde liegen. Obwohl sich Levelts Ausführungen auf die mündliche Sprachproduktion (das Sprechen) beziehen, gelten sie auch für die schriftliche Sprachproduktion, also das Erzeugen von Text. Die Differenzierung zwischen diesen beiden Modalitäten findet sich bei Levelt entsprechend auch erst in der der grammatischen Enkodierung folgenden phonologischen Enkodierung. Der Ausgangspunkt für Levelts grammatische Enkodierung ist die so genannte präverbale Botschaft, deren Einheiten als Attribut-Wert-Paare angesehen werden können, wobei die Attribute thematischen Rollen entsprechen. Die Werte, die diesen Rollen zugeordnet sind, sind Begriffe (engl. „concepts“). Wir werden auf diese Struktur weiter unten noch genauer eingehen. Zunächst wird das hier beschriebene Template-basierte Verfahren zu Textgenerierung beschrieben und mit anderen klassischen Ansätzen verglichen. Es wird erläutert, wie Texte strukturell organisiert werden und mit welchen Verfahren die Varianz in Texten erreicht wird. Ein wesentlicher Bestandteil der Textgenerierung ist die Ontologie (Wissensenzyklopädie), welche aus Daten und sprachrelevanten Wörterbuchinformationen besteht. Im Rahmen der technischen Realisierung wird darauf eingegangen, welche Datenhaltungssysteme und Abfragesprachen zum Einsatz kommen. Hier wurde besonderes Augenmerk darauf gerichtet, dass die Erstellung und Modellierung der Ontologien mit Tools wie Protégé unabhängig von deren produktiven Verwendung erfolgen kann. Das hier vorgestellte Verfahren unterstützt im Betrieb alternativ den Einsatz von SQL-Datenbanksystemen, um die Einstiegsbarriere für Unternehmen so gering wie möglich zu halten.
Es wird ferner erläutert, mit welcher Qualität bei den generierten Texten zu rechnen ist und in welcher Geschwindigkeit die Texte erzeugt werden können. Im Ausblick wird dann dargestellt, wie mit Verfahren des Semantic Web nicht nur Daten und Informationen, sondern auch komplexe Sachverhalte normiert über das Internet bereitgestellt werden können. Dazu werden Verfahren angewendet, die dem Google Knowledge Graph sehr ähnlich sind.
This is a preview of subscription content, log in via an institution.
Buying options
Tax calculation will be finalised at checkout
Purchases are for personal use only
Learn about institutional subscriptionsLiteratur
http://www.w3.org/TR/2004/REC-rdf-primer-20040210/. 2014. Zugegriffen: 05. Nov 2014.
http://www.w3.org/TR/2004/REC-rdf-schema-20040210/. 2014. Zugegriffen: 05. Nov 2014.
http://www.w3.org/standards/semanticweb/. 2014. Zugegriffen: 05. Nov 2014.
http://natural-language-generation.com. 2014. Zugegriffen: 05. Nov 2014.
Willem, J. M. L 1989. Speaking—From intention to articulation, 537. Cambridge: MIT Press ISBN: 13 978-0-262-12137-8.
http://schema.org/. 2014. Zugegriffen: 05. Nov 2014.
http://automatedinsights.com. 2014. Zugegriffen: 05. Nov 2014.
http://narrativescience.com/. 2014. Zugegriffen: 05. Nov 2014.
Kees, van Deemter, Emiel Krahmer, und Mariet Theune. 2005. Real versus template-based natural language generation: A false opposition? 23. http://delivery.acm.org/10.1145/1130000/1122626/s2.pdf?id=1122626.
http://www.ontology4.com. 2014. Zugegriffen: 05. Nov 2014.
http://protege.stanford.edu/. 2014. Zugegriffen: 05. Nov 2014.
MQL. 2014. SmarQL – Query Optimizer for OQL http://schematik.de/s1/Abfragen/MQL/. Zugegriffen: 05. Nov 2014.
O4Store – SQL-based Implementation of Quad Store. 2014. http://schematik.de/s1/Relationen/O4Store/. Zugegriffen: 05. Nov 2014.
Markus, Luczak-Rösch. 2015. Die Rolle der Anfragesprache SPARQL im Kontext von Linked Data. In: Corporate Semantic Web – Wie semantische Anwendungen in Unternehmen Nutzen stiften, Hrsg. B. Humm, B. Ege, und A. Reibold. Berlin: Springer.
Bob DuCharme. 2013. Learning SPARQL—querying and updating with SPARQL 1.1, O`Reilly Media, ISBN: 978-1-449-37143-2.
http://www.schreib-maschine.info/t1/Ontopage/Spielbericht/sub_GME-20130316_BVB_SCF.html. 2014. Zugegriffen: 05. Nov 2014.
Hermann, Bense, und Bastian Haarmann. 2013. A richer notation for the representation of ontological knowledge, ICCESSE 2013: International conference on computer, electrical, and systems sciences, and engineering, London.
Hermann, Bense. 2014. The unique predication of knowledge elements and their visualization and factorization in ontology engineering, in [19] 241–250.
Pawel, Garbacz, und Oliver Kutz. 2014. Formal ontology in information systems. Proceedings of the Eighth International Conference (FOIS 2014), Rio de Janeiro, Brazil, Sept. 22–25, 2014, ISBN: 978-1-61499-437-4.
Wilhelm, Kamlah, und Paul Lorenzen. 1996. Logische Propädeutik – Vorschule des vernünftigen Redens, 237. Stuttgart: Verlag ISBN: 978-3-476-01371-2.
http://www.ontology4.us/manual/Phrasen-Generator/. 2014. Zugegriffen: 05. Nov 2014.
Gert Rickheit, und Ulrich Schade. 2000. Textkonstitution II: Grammatische Aspekte in [23], 275–283. Berlin: Walter de Gruyter.
Klaus, Brinker, Gerd Antos, und Wolfgang Heinemann. 2000. Linguistics of text and conversation—An international handbook of contemporary research. 1 Vols. Berlin: Walter de Gruyter.
Christian, Hensel. 2011. Automatische Fließtexterstellung aus Entitätsfaktoren in einer Wissensbasis, Großer Beleg. Dresden: Technische Universität Dresden, Fakultät Informatik. http://www.rn.inf.tu-dresden.de/uploads/Studentische_Arbeiten/Belegarbeit_Hensel_Christian.pdf.
http://t3n.de/news/schwede-10000-wikipedia-artikel-557610/. 2014. Zugegriffen: 05. Nov 2014.
http://en.wikipedia.org/wiki/User:Rambot. 2014. Zugegriffen: 05. Nov 2014.
http://en.wikipedia.org/wiki/Knowledge_Graph. 2014. Zugegriffen: 21. Juli 2014.
Hypertree. 2014. Dynamische Darstellung vernetzter Ontologie-Strukturen. http://hyperbolic-tree.com/hypertree/?max_depth=3subject=%3EW3C_OWL_Ontology, Zugegriffen: 05. Nov 2014.
Lukas, Sikorski, Bastian Haarmann, und Ulrich Schade. 2011. Computational linguistics tools exploited for automatic threat recognition. Proceedings of the NATO RTE IST-099, Madrid.
Author information
Authors and Affiliations
Corresponding author
Editor information
Editors and Affiliations
Rights and permissions
Copyright information
© 2015 Springer-Verlag Berlin Heidelberg
About this chapter
Cite this chapter
Bense, H., Schade, U. (2015). Ontologien als Schlüsseltechnologie für die automatische Erzeugung natürlichsprachlicher Texte. In: Ege, B., Humm, B., Reibold, A. (eds) Corporate Semantic Web. X.media.press. Springer Vieweg, Berlin, Heidelberg. https://doi.org/10.1007/978-3-642-54886-4_16
Download citation
DOI: https://doi.org/10.1007/978-3-642-54886-4_16
Published:
Publisher Name: Springer Vieweg, Berlin, Heidelberg
Print ISBN: 978-3-642-54885-7
Online ISBN: 978-3-642-54886-4
eBook Packages: Computer Science and Engineering (German Language)