Skip to main content

Ontologien als Schlüsseltechnologie für die automatische Erzeugung natürlichsprachlicher Texte

  • Chapter
  • First Online:

Part of the book series: X.media.press ((XMEDIAP))

Zusammenfassung

In den neuen Medien vor allem im Bereich des Semantic Web gibt es einen permanent steigenden Bedarf an einzigartigen Inhalten und redaktionellen Texten. Dies betrifft sowohl Medienunternehmen als auch Nicht-Medienunternehmen. Der Großteil der Texte wird heute noch konventionell von Redakteuren erstellt. Dies gilt auch für Bereiche, in denen Texte recht schematisch und formalisiert auf Basis von Datenbankinformationen oder Excel-Tabellen erstellt werden. Dieser Beitrag beschreibt ein Ontologie-gestütztes Verfahren zur Generierung natürlichsprachlicher Texte, welches auf die für das Semantic Web vereinbarten Konventionen zurückgreift [http://www.w3.org/TR/2004/REC-rdf-primer-20040210/, besucht am 05.10.2014, http://www.w3.org/TR/2004/REC-rdf-schema-20040210/, besucht am 05.10.2014, http://www.w3.org/standards/semanticweb/, besucht am 05.10.2014]. Unter dem Begriff Ontologien sind Wissenswelten oder Unternehmens-Enzyklopädien zu verstehen, in denen durch Hinterlegung von Regeln und Anwendung von Inferenzmechanismen neues Wissen aus Vorhandenem abgeleitet werden kann.

Ziel des Verfahrens ist es, Redakteure von der routinemäßigen Erstellung von Texten zu entlasten, die in großer Anzahl und sehr schnell erstellt werden müssen. Darunter fallen u. a. Spielberichte, Börsennachrichten, Firmenprofile, standardisierte Geschäftsbriefe, Produktbeschreibungen, die Anreicherung der Suchergebnisse von Suchmaschinen u.v.m. Durch Zugriff auf das Basiswissen des jeweiligen Anwendungsbereichs und Einbindung von Hintergrundinformationen aus anderen Ontologien wie DBPedia, YAGO, schema.org etc., die im Semantic Web zugreifbar sind, können die Texte angereichert werden. Wissenslücken können darüber hinaus durch Anwendung von Regeln, Formeln und Axiomen geschlossen werden. Die generierten Texte können direkt in Webseiten eingebunden werden. Im gleichen Schritt können die Metatags der Webseiten mit den für die Generierung herangezogenen Basisinformationen angereichert werden, so dass diese direkt von Suchmaschinen ausgelesen werden können.

Ein wesentlicher Vorteil des hier beschriebenen Verfahrens zur automatisierten Textgenerierung [http://natural-language-generation.com, besucht am 05.10.2014] besteht darin, dass die zur Generierung herangezogenen Informationen ontologisch „normiert“ sind. Die erzeugten Texte sind somit in hohem Maße syntaktisch, orthographisch und semantisch korrekt und weisen durch die zahlreichen Variationsmöglichkeiten eine extrem große Originalität auf. Willem Levelt untersucht in [Willem, Speaking – From Intention to Articulation, MIT Press, Cambridge, p 537] die Prozesse, die im menschlichen Gehirn ablaufen und Voraussetzung für die kognitive Fähigkeit des Sprechens sind. Auf dem Weg dahin beschäftigt er sich sehr systematisch mit den grammatikalischen Grundlagen und mit den Algorithmen, die der von Levelt so genannten „grammatischen Enkodierung“ zugrunde liegen. Obwohl sich Levelts Ausführungen auf die mündliche Sprachproduktion (das Sprechen) beziehen, gelten sie auch für die schriftliche Sprachproduktion, also das Erzeugen von Text. Die Differenzierung zwischen diesen beiden Modalitäten findet sich bei Levelt entsprechend auch erst in der der grammatischen Enkodierung folgenden phonologischen Enkodierung. Der Ausgangspunkt für Levelts grammatische Enkodierung ist die so genannte präverbale Botschaft, deren Einheiten als Attribut-Wert-Paare angesehen werden können, wobei die Attribute thematischen Rollen entsprechen. Die Werte, die diesen Rollen zugeordnet sind, sind Begriffe (engl. „concepts“). Wir werden auf diese Struktur weiter unten noch genauer eingehen. Zunächst wird das hier beschriebene Template-basierte Verfahren zu Textgenerierung beschrieben und mit anderen klassischen Ansätzen verglichen. Es wird erläutert, wie Texte strukturell organisiert werden und mit welchen Verfahren die Varianz in Texten erreicht wird. Ein wesentlicher Bestandteil der Textgenerierung ist die Ontologie (Wissensenzyklopädie), welche aus Daten und sprachrelevanten Wörterbuchinformationen besteht. Im Rahmen der technischen Realisierung wird darauf eingegangen, welche Datenhaltungssysteme und Abfragesprachen zum Einsatz kommen. Hier wurde besonderes Augenmerk darauf gerichtet, dass die Erstellung und Modellierung der Ontologien mit Tools wie Protégé unabhängig von deren produktiven Verwendung erfolgen kann. Das hier vorgestellte Verfahren unterstützt im Betrieb alternativ den Einsatz von SQL-Datenbanksystemen, um die Einstiegsbarriere für Unternehmen so gering wie möglich zu halten.

Es wird ferner erläutert, mit welcher Qualität bei den generierten Texten zu rechnen ist und in welcher Geschwindigkeit die Texte erzeugt werden können. Im Ausblick wird dann dargestellt, wie mit Verfahren des Semantic Web nicht nur Daten und Informationen, sondern auch komplexe Sachverhalte normiert über das Internet bereitgestellt werden können. Dazu werden Verfahren angewendet, die dem Google Knowledge Graph sehr ähnlich sind.

This is a preview of subscription content, log in via an institution.

Buying options

Chapter
USD   29.95
Price excludes VAT (USA)
  • Available as PDF
  • Read on any device
  • Instant download
  • Own it forever
eBook
USD   49.99
Price excludes VAT (USA)
  • Available as EPUB and PDF
  • Read on any device
  • Instant download
  • Own it forever
Hardcover Book
USD   99.99
Price excludes VAT (USA)
  • Durable hardcover edition
  • Dispatched in 3 to 5 business days
  • Free shipping worldwide - see info

Tax calculation will be finalised at checkout

Purchases are for personal use only

Learn about institutional subscriptions

Literatur

  1. http://www.w3.org/TR/2004/REC-rdf-primer-20040210/. 2014. Zugegriffen: 05. Nov 2014.

  2. http://www.w3.org/TR/2004/REC-rdf-schema-20040210/. 2014. Zugegriffen: 05. Nov 2014.

  3. http://www.w3.org/standards/semanticweb/. 2014. Zugegriffen: 05. Nov 2014.

  4. http://natural-language-generation.com. 2014. Zugegriffen: 05. Nov 2014.

  5. Willem, J. M. L 1989. Speaking—From intention to articulation, 537. Cambridge: MIT Press ISBN: 13 978-0-262-12137-8.

    Google Scholar 

  6. http://schema.org/. 2014. Zugegriffen: 05. Nov 2014.

  7. http://automatedinsights.com. 2014. Zugegriffen: 05. Nov 2014.

  8. http://narrativescience.com/. 2014. Zugegriffen: 05. Nov 2014.

  9. Kees, van Deemter, Emiel Krahmer, und Mariet Theune. 2005. Real versus template-based natural language generation: A false opposition? 23. http://delivery.acm.org/10.1145/1130000/1122626/s2.pdf?id=1122626.

  10. http://www.ontology4.com. 2014. Zugegriffen: 05. Nov 2014.

  11. http://protege.stanford.edu/. 2014. Zugegriffen: 05. Nov 2014.

  12. MQL. 2014. SmarQL – Query Optimizer for OQL http://schematik.de/s1/Abfragen/MQL/. Zugegriffen: 05. Nov 2014.

  13. O4Store – SQL-based Implementation of Quad Store. 2014. http://schematik.de/s1/Relationen/O4Store/. Zugegriffen: 05. Nov 2014.

  14. Markus, Luczak-Rösch. 2015. Die Rolle der Anfragesprache SPARQL im Kontext von Linked Data. In: Corporate Semantic Web – Wie semantische Anwendungen in Unternehmen Nutzen stiften, Hrsg. B. Humm, B. Ege, und A. Reibold. Berlin: Springer.

    Google Scholar 

  15. Bob DuCharme. 2013. Learning SPARQL—querying and updating with SPARQL 1.1, O`Reilly Media, ISBN: 978-1-449-37143-2.

    Google Scholar 

  16. http://www.schreib-maschine.info/t1/Ontopage/Spielbericht/sub_GME-20130316_BVB_SCF.html. 2014. Zugegriffen: 05. Nov 2014.

  17. Hermann, Bense, und Bastian Haarmann. 2013. A richer notation for the representation of ontological knowledge, ICCESSE 2013: International conference on computer, electrical, and systems sciences, and engineering, London.

    Google Scholar 

  18. Hermann, Bense. 2014. The unique predication of knowledge elements and their visualization and factorization in ontology engineering, in [19] 241–250.

    Google Scholar 

  19. Pawel, Garbacz, und Oliver Kutz. 2014. Formal ontology in information systems. Proceedings of the Eighth International Conference (FOIS 2014), Rio de Janeiro, Brazil, Sept. 22–25, 2014, ISBN: 978-1-61499-437-4.

    Google Scholar 

  20. Wilhelm, Kamlah, und Paul Lorenzen. 1996. Logische PropädeutikVorschule des vernünftigen Redens, 237. Stuttgart: Verlag ISBN: 978-3-476-01371-2.

    Google Scholar 

  21. http://www.ontology4.us/manual/Phrasen-Generator/. 2014. Zugegriffen: 05. Nov 2014.

  22. Gert Rickheit, und Ulrich Schade. 2000. Textkonstitution II: Grammatische Aspekte in [23], 275–283. Berlin: Walter de Gruyter.

    Google Scholar 

  23. Klaus, Brinker, Gerd Antos, und Wolfgang Heinemann. 2000. Linguistics of text and conversation—An international handbook of contemporary research. 1 Vols. Berlin: Walter de Gruyter.

    Google Scholar 

  24. Christian, Hensel. 2011. Automatische Fließtexterstellung aus Entitätsfaktoren in einer Wissensbasis, Großer Beleg. Dresden: Technische Universität Dresden, Fakultät Informatik. http://www.rn.inf.tu-dresden.de/uploads/Studentische_Arbeiten/Belegarbeit_Hensel_Christian.pdf.

    Google Scholar 

  25. http://t3n.de/news/schwede-10000-wikipedia-artikel-557610/. 2014. Zugegriffen: 05. Nov 2014.

  26. http://en.wikipedia.org/wiki/User:Rambot. 2014. Zugegriffen: 05. Nov 2014.

  27. http://en.wikipedia.org/wiki/Knowledge_Graph. 2014. Zugegriffen: 21. Juli 2014.

  28. Hypertree. 2014. Dynamische Darstellung vernetzter Ontologie-Strukturen. http://hyperbolic-tree.com/hypertree/?max_depth=3subject=%3EW3C_OWL_Ontology, Zugegriffen: 05. Nov 2014.

  29. Lukas, Sikorski, Bastian Haarmann, und Ulrich Schade. 2011. Computational linguistics tools exploited for automatic threat recognition. Proceedings of the NATO RTE IST-099, Madrid.

    Google Scholar 

Download references

Author information

Authors and Affiliations

Authors

Corresponding author

Correspondence to Hermann Bense .

Editor information

Editors and Affiliations

Rights and permissions

Reprints and permissions

Copyright information

© 2015 Springer-Verlag Berlin Heidelberg

About this chapter

Cite this chapter

Bense, H., Schade, U. (2015). Ontologien als Schlüsseltechnologie für die automatische Erzeugung natürlichsprachlicher Texte. In: Ege, B., Humm, B., Reibold, A. (eds) Corporate Semantic Web. X.media.press. Springer Vieweg, Berlin, Heidelberg. https://doi.org/10.1007/978-3-642-54886-4_16

Download citation

  • DOI: https://doi.org/10.1007/978-3-642-54886-4_16

  • Published:

  • Publisher Name: Springer Vieweg, Berlin, Heidelberg

  • Print ISBN: 978-3-642-54885-7

  • Online ISBN: 978-3-642-54886-4

  • eBook Packages: Computer Science and Engineering (German Language)

Publish with us

Policies and ethics