Motivation

Smarte persönliche Assistenten (SPAs) gehören zu den prominentesten Anwendungen künstlicher Intelligenz (KI), die für den breiten Konsumentenmarkt verfügbar sind. Die intelligenten Agenten nutzen Kontexterkennung und -vorhersage, um Nutzern je nach Ort, Zeit und Interessen passende Informationen und Leistungen anzubieten [1, 2]. Dafür werten sie zahlreiche nutzer- und situationsrelevante Daten aus, die über verschiedene Sensoren wie Kameras, Mikrofone, Bewegungssensoren oder externe Datenquellen gesammelt werden. Dabei sind viele dieser Systeme nicht nur in der Lage, auf Basis von Zielen, Regeln und Situationsdaten passgenaue Leistungen zu erbringen, sondern auch durch Wiederholungen und Feedback zu lernen (d. h. Prognose- und Handlungsalgorithmen zu verbessern) und somit ihre Leistungsfähigkeit über den Nutzungszeitraum noch besser an die Bedürfnisse von Nutzern anzupassen [3]. Voraussetzung dafür ist allerdings der Zugang zu einer großen Menge an personenbezogenen Daten. Zwar kann, je mehr für das System „brauchbare“ Nutzer- und Nutzungsdaten zur Verfügung stehen, eher eine situationsadäquate, für den individuellen Nutzer passende Leistung erbracht werden. Jedoch beeinträchtigen die Intransparenz bei der Sammlung, Verarbeitung und Weitergabe dieser Daten gepaart mit immer öfter auftretenden Privacy-Skandalen die Kauf- und Nutzungsentscheidungen von SPAs und anderen KI-Systemen. Langfristig wird somit ein negatives Bild von KI in der Gesellschaft gezeichnet, was wiederum die Entwicklung und Kommerzialisierung von KI-Systemen behindert.

Das DFG Forschungsprojekt „AnEkA“ stellt diesen Problemen einen Ansatz zur rechtsverträglichen und qualitätszentrierten Gestaltung von KI-Systemen entgegen, welches am Beispiel von SPAs demonstriert wird. Ein gleichzeitiges und gleichmäßiges Rechts- und Qualitätsbewusstsein kann ein wesentliches Alleinstellungsmerkmal für „KI made in Germany“ sein: Ein KI-System soll so gestaltet werden, dass es jede spezifizierte Aufgabe so erledigt, dass sowohl die Erwartungen des Nutzers zufriedenstellt werden (Fokus auf Dienstleistungsqualität) als auch den Schutz personenbezogener Daten gewährleistet (Fokus auf Rechtsverträglichkeit). In der gegenwärtigen Praxis erfassen und verarbeiten viele KI-Systeme, insbesondere viele SPAs, eine Vielzahl von personenbezogenen Daten, um hoch personalisierte Dienste zu erbringen. Der Verarbeitung personenbezogener Daten stehen jedoch die Grundrechte der Nutzer smarter persönlicher Assistenten, insbesondere die informationelle Selbstbestimmung, entgegen. Auf nationaler Ebene ergibt sich dies aus Art. 2 Abs. 1 in Verbindung mit Art. 1 Abs. 1 Grundgesetz, auf europäischer Ebene aus Art. 7 und 8 der Charta der Grundrechte der Europäischen Union (GRCh) [4]. Sekundärrechtlich werden Art. 7 und 8 GRCh durch die seit Mai 2018 geltende Datenschutzgrundverordnung (DSGVO) konkretisiert, die in Art. 25 DSGVO unter anderem europaweit Vorgaben zum Datenschutz durch Technikgestaltung („Privacy by Design“) und durch datenschutzfreundliche Voreinstellungen („Privacy by Default“) macht.

Dieser Umstand deutet bereits darauf hin, dass zwischen den Zielen der rechtsverträglichen Gestaltung und den Zielen der qualitätszentrierten Gestaltung oftmals Konflikte auftreten. Das Forschungsprojekt „AnEkA“ folgt einem interdisziplinären Vorgehen, um diese Konflikte unter Berücksichtigung beider Anforderungsbereiche zu lösen. In diesem Beitrag werden anhand eines Szenarios zur Sprechererkennung durch SPAs entsprechende Rechts- und Qualitätsziele identifiziert sowie konfligierende Ziele und Anforderungen gegenübergestellt, diskutiert und aufgelöst. Dabei wird demonstriert, wie die daraus resultierenden Gestaltungsziele in konkrete Anforderungs- und Entwurfsmuster operationalisiert werden können. Als expliziertes Wissen über wiederkehrende Probleme der Systementwicklung und dafür erprobter Lösungsansätze können diese Muster als „Schablone“ für die Entwicklung spezifischer KI-Systeme in diesem Falle SPAs „made in Germany“ genutzt werden [5,6,7].

KI-Systeme und SPAs

Regelbasierte Systeme, welche vor ca. 60 Jahren das Bild von KI prägten, stehen heute modernen Systemen gegenüber, die auf Basis einer Ausgangssituation, möglichen Zielzuständen und einem grundlegenden Verarbeitungsmodell die Lösung für ein vorgegebenes Problem eigenständig finden können [3]. Zu diesem Zweck müssen moderne KI-Systeme initial mit zahlreichen Daten zu möglichen Ausgangssituationen und Zielzuständen trainiert werden, bevor sie im realen Anwendungskontext eingesetzt werden können. Je nach Anwendungsfall kommen dabei unterschiedlichste Machine-Learning-Verfahren zum Einsatz – von einfachen Modellen linearer Regression für die Prognose wahrscheinlicher Ereignisse bis hin zu tiefen künstlichen neuronalen Netzen zur Sprach- und Bilderkennung oder der (teil-)autonomen Steuerung von Softwareagenten und Robotern.

Das Projekt AnEkA befasst sich mit der Gestaltung einer besonderen Klasse zielbasierter KI-Systeme, den SPAs. Definiert als System „that uses input such as the user’s voice […] and contextual information to provide assistance by answering questions in natural language, making recommendations and performing actions“ [8, S. 223] zeichnet sich ein SPA hauptsächlich durch folgende Charakteristika aus [9, 10]:

Kontextadaptivität

  • Das System kann Kontextdaten durch Sensorik erfassen und diesen Kontext durch Aktorik so beeinflussen, wie es seiner Zielerreichung dient.

Selbstlernfähigkeit

  • Das System wird durch Nutzerdaten trainiert und verbessert bzw. personalisiert seine Leistungserbringung über den Nutzungszeitraum

Multimodalität

  • Das System besitzt mehrere Ein- und Ausgabemöglichkeiten für Daten und Informationen, um die Mensch-Maschine-Interaktion so einfach und intuitiv wie möglich zu gestalten

Anthropomorphismus

  • Das System besitzt menschliche oder menschähnliche Merkmale, wie eine möglichst natürliche Stimme, eine grafische Repräsentation in Form eines Avatars oder Humor.

Plattformintegration und Erweiterbarkeit

  • Das System ist sowohl Teil eines digitalen Ökosystems (z. B. Amazon Voice Service, AWS Lambda) als auch häufig zentraler Knotenpunkt eines Sensornetzwerks (z. B. im Smart Home). Der SPA erhebt damit den Anspruch, für jede Interaktion mit dem Ökosystem der alleinige Zugriffspunkt für den Nutzer zu sein.

Kommerzielle Geräte, u. a. Amazons Alexa, Apples Siri, Microsofts Cortana oder Samsungs Bixby, verzeichnen mit einem prognostizierten Wachstum von weltweit 390 Mio. Nutzern in 2015 auf 1,8 Mrd. Nutzer in 2021 große Erfolge [11]. Mit zunehmender Verbreitung stellen sich jedoch auch aufseiten der Nutzer immer mehr Fragen zum Datenschutz und zur Qualität (insb. zur Nützlichkeit) der Alltagsassistenten. Nach einer für die deutsche Bevölkerung repräsentativen Studie (n = 1600) sind die häufigsten Gründe für Nichtnutzung bzw. Nichtkauf von SPAs Sicherheitsbedenken wegen ungewollter Sprachaufnahmen (43 %), Angst vor massenhafter Sammlung persönlicher Daten (39 %), mangelnde wahrgenommene Informationsqualität (35 %), Aversion gegen Kommunikation mit Maschinen (32 %) sowie fehlende Vorteile durch die Nutzung (30 %) und der Mangel an nützlichen Funktionen (29 %) [12]. Die aufgeführten Probleme sind dabei allesamt durch adäquate Technikgestaltung lösbar, nämlich durch die Umsetzung von Qualitäts- und Rechtsanforderungen. Diese Anforderungen müssen zuvor identifiziert und mögliche Konflikte zwischen den Gestaltungszielen beider Bereiche aufgelöst werden. Durch das Projekt AnEkA soll ebendies ermöglicht werden. Auf Basis interdisziplinärer Forschungsarbeit werden Anforderungs- und Entwurfsmuster entwickelt, die Anforderungsanalysten (bzw. Product Owner) und Entwickler dabei unterstützen sollen, sowohl Qualitäts- als auch Rechtsziele bereits von Projektbeginn an zu adressieren und sich abzeichnende Zielkonflikte aufzulösen.

KI zwischen Rechtsverträglichkeit und Dienstleistungsqualität

Es ist zu vermuten, dass eine „KI made in Germany“ durch ihre Rechts- und Qualitätsfokussierung vor dem Hintergrund der gegenwärtigen Entwicklungspraxis auf große Akzeptanz in der Gesellschaft stoßen wird. Viele Systementwicklungsprojekte sehen rechtliche Anforderungen noch als „notwendige Übel“ an, welche im erlaubten Mindestmaß adressiert sein müssen, um Produkte rechtmäßig auf den Markt bringen zu dürfen. Solche Minimalansätze haben den Nachteil, dass Nutzer nicht langfristig vor möglichen Negativfolgen der Techniknutzung geschützt sind und durch Datenpannen oder Gesetzesänderungen horrende Kosten durch nachträgliche Systemänderungen (ganz zu schweigen von den Kosten für Imagebereinigung und Kundenrück- bzw. -neugewinnung) entstehen können [13]. Diesem Minimalansatz der rechtmäßigen Gestaltung stehen Ansätze der Rechtsverträglichkeit gegenüber, die in der Gestaltung prüfen, wie die Nutzer vor sozialen und individuellen Risiken der Techniknutzung bestmöglich geschützt werden können [13]. Viele gesetzliche Normen enthalten unbestimmte Rechtsbegriffe, die zu ihrer Anwendung einer näheren, durch Auslegung zu ermittelnden Bestimmung bedürfen [14 § 40, Rn. 152 ff.] und sich demnach nicht ohne weiteres unmittelbar in technische Gestaltungsziele übersetzen lassen, was die Verfolgung eines Ansatzes, der lediglich eine rechtmäßige Gestaltung anstrebt, begünstigt. So schreibt beispielsweise Art. 25 Abs. 1 DSGVO dem für die Datenverarbeitung Verantwortlichen, unter Berücksichtigung mehrerer Abwägungskriterien wie „Stand[…] der Technik“, „Implementierungskosten“ und „Eintrittswahrscheinlichkeit und Schwere der mit der Verarbeitung verbundenen Risiken für die Rechte und Freiheiten natürlicher Personen“, vor, „geeignete technische und organisatorische Maßnahmen“ zu treffen, um den Datenschutzgrundsätzen durch Technikgestaltung und datenschutzfreundliche Voreinstellungen zur Durchsetzung zu verhelfen. Zwar wird hier mit der „Pseudonymisierung“ ein Beispiel für eine solche Maßnahme genannt, allerdings bleibt den Verantwortlichen insgesamt ein weiter Gestaltungsspielraum [15 Art. 25 DSGVO, Rn 16 f.]. So könnte ein Verantwortlicher, um den in Art. 5 Abs. 1 lit. c DSGVO normierten Grundsatz der Datenminimierung umzusetzen, die Datenverarbeitung so gestalten, dass unter Angabe eines weit gefassten Zwecks die Speicherung vieler Daten in vielen Datenverarbeitungsschritten zur Zweckerreichung nötig ist. Im Gegensatz zu einem solchen, lediglich auf Rechtmäßigkeit setzenden Ansatz könnte der Verantwortliche, um die rechtliche Vorgabe bestmöglich umzusetzen, jedoch auch unter Angabe eines eng gefassten Zwecks wenige Daten in wenigen Verarbeitungsschritten verarbeiten und sie anschließend endgültig löschen. Ein solcher Ansatz folgt dem Verständnis einer rechtsverträglichen Technikgestaltung, die zum Ziel hat, Nutzer vor negativen Folgen der Techniknutzung bestmöglich zu schützen und somit schwerwiegende Risiken zu minimieren. Rechtsverträglichkeit fragt dabei nach einem „mehr oder weniger“ – hier an vertretbarem Daten- und Verbraucherschutz [16]. Insbesondere in Zeiten regelmäßig auftretender Privacy-Skandale, auch in Zusammenhang mit SPAs, sowie der Forderung nach größerer Sorgfalt in der Umsetzung datenschutzrelevanter Anforderungen kann die rechtsverträgliche Gestaltung von KI-Systemen kompetitive Vorteile gegenüber internationalen Wettbewerbsprodukten bringen [17].

Während Rechtsverträglichkeit darauf abzielt, den Nutzer vor Risiken zu schützen, ist die Qualität der Leistungserbringung, die Dienstleistungsqualität, ein wesentlicher Faktor für die Zufriedenheit der Nutzer und somit auch ein maßgeblicher Treiber für den wirtschaftlichen Erfolg eines Systems [18, 19]. Dienstleistungsqualität beschreibt die Fähigkeit eines Anbieters (oder eines Systems, das an dessen Stelle auftritt), den Kundenerwartungen bei der Leistungserbringung auf einem bestimmten Anforderungsniveau gerecht zu werden [18]. Die Differenz zwischen erwarteten und tatsächlich wahrgenommenen Faktoren ist dabei Element des kontinuierlichen Spektrums aller möglichen Anforderungsniveaus. In Bezug auf die Systementwicklung lassen sich jedoch analog zur Rechtsverträglichkeit zwei wesentliche Ausprägungen beschreiben. Viele Systementwicklungsprojekte fokussieren auf die Implementierung der funktionalen Aspekte eines Systems nach Lastenheft oder Backlog und adressieren maximal ausreichend wissenschaftlich fundierte Faktoren der Qualitätswahrnehmung von Nutzern. Dies kann dazu führen, dass, obgleich objektiv gesehen womöglich ein großer Nutzen durch die Systemnutzung entstände, dieser von Nutzern unter Umständen nicht in vollem Maße erkannt werden kann, weil die minimalistische Qualitätsorientierung zu erhöhten Absprungraten in frühen Nutzungsphasen führt oder bereits vorab bewusst die Entscheidung getroffen wird, ein qualitativ höherwertig erscheinendes Konkurrenzsystem zu nutzen. Beispielsweise ist denkbar, dass Nutzer einen SPA, welcher auf Basis der eigenen Präferenzen in der Lage ist, personalisierte Dienste, wie bspw. das Abspielen des Lieblingsliedes, auszuführen, einem SPA, welcher eine solche Personalisierung nicht zulässt, vorziehen. Personalisierung der Funktionalitäten ist dabei ein Faktor für Dienstleistungsqualität und somit für Nutzer ein Indikator, wie zufrieden sie mit dem SPA während der Nutzung voraussichtlich sein werden.

Stellt man nun beide Perspektiven gegenüber, ergibt sich ein Lösungsraum für die Gestaltung von KI-Systemen, in diesem Fall SPAs, sowie für deren (teil-)autonome Handlungsmöglichkeiten, bspw. in Form einer Policy (Abb. 1). Im idealtypischen Fall sollen sowohl die Ziele für Rechtsverträglichkeit als auch die Ziele für qualitative Hochwertigkeit angestrebt werden (oben rechts, grüner Bereich). Diese grundlegende Einstellung der Systementwicklung trägt dazu bei, dass jederzeit Anforderungen beider Dimensionen identifiziert und gegenübergestellt werden. Trotz des Bestrebens einer beidseitig idealen Lösung können allerdings auch unlösbare Zielkonflikte auftreten, sodass alternative Kompromisslösungen gefunden werden müssen. Diese können, sofern nicht anders möglich, entweder verstärkt rechtsorientiert oder verstärkt qualitätsorientiert (gelbe Bereiche) sein. Sollte bei einem Zielkonflikt keine gleichermaßen rechtsverträgliche und qualitativ hochwertige Lösung gefunden werden können, so sind Lösungen in diesen Bereichen in Betracht zu ziehen. Welche dieser Gestaltungsalternativen es zu bevorzugen gilt, lässt sich nicht pauschal empfehlen, da dies von verschiedensten Faktoren abhängt. Beispielsweise könnte ein Unternehmen mit einer innovativen Lösung von einer raschen Markteinführung profitieren und deshalb, unter Berücksichtigung der rechtlichen Ziele, die Dienstleistungsqualität in den Vordergrund stellen wollen. Genauso ist es jedoch möglich, dass bei schneller Anhäufung personenbezogener Daten die nachträgliche Umsetzung von Rechtszielen eine enorme betriebsökonomische Herausforderung darstellen würde und somit Rechtsverträglichkeit bereits zu Beginn einem höheren Stellenwert beigemessen werden sollte. Eine Kompromisslösung aus den Minimalanforderungen beider Welten (mittig, oranger Bereich) sollte, wenn möglich, vermieden werden. Es lässt sich beobachten, dass insbesondere die aktuellen kommerziellen SPAs sich in diesem Bereich bewegen. In jedem Fall zu vermeiden sind Umsetzungen, die rechtswidrig und/oder qualitativ minderwertig sind (rote Bereiche). Diese Lösungen sind entweder wenig nützlich und/oder verstoßen gegen geltendes Recht.

Abb. 1
figure 1

Lösungsraum im Spannungsfeld zwischen rechtlichen und qualitativen Zielen für KI-Entwicklung und für (teil-)autonome Entscheidungen eines intelligenten Agenten

Zur Identifikation von Rechts- und Qualitätszielen stützt sich das Projekt AnEkA auf Methoden der zielorientierten Anforderungsanalyse [20]. Die aus Rechtstexten und aus der wissenschaftlichen Literatur zu Dienstleistungsqualität ableitbaren Rechts- und Qualitätsziele können damit strukturiert, priorisiert und für jede Aktion eines SPA, oder eines KI-Systems im Allgemeinen, gegenübergestellt werden, um Konflikte und Abhängigkeiten zu identifizieren. Um die Zielkonflikte, die zwischen Rechtsverträglichkeit und Dienstleistungsqualität entstehen können, zu illustrieren, soll hier und im Folgenden folgendes Szenario der Veranschaulichung dienen.

Szenario: Sprechererkennung durch fremden SPA

Anna ist bei Boris zu Besuch und möchte seinen smarten persönlichen Assistenten benutzen, um ihre Lieblingsmusik abzuspielen. Der SPA erkennt Anna anhand ihrer Stimme, ruft ihr Nutzerprofil auf, scannt die im Profil hinterlegten persönliche Präferenzen, setzt den Sprachbefehl in den entsprechenden Kontext und führt den Musikdienst aus. Freundlich bestätigt die computergenerierte Stimme des Assistenten die personalisierte Ausführung

Rechtliche Ziele

Seit dem Geltungsbeginn der DSGVO sind die Grundrechte der Grundrechtecharta der Europäischen Union die maßgeblichen rechtlichen Vorgaben im Bereich des Datenschutzrechts [21], insbesondere die Grundrechte nach Art. 7, 8, 11 und 16. Dagegen sind die deutschen Grundrechte nach Art. 2 Abs. 1 i. V. m. 1 Abs. 1, Art. 5, 6, 10, 12 und Art. 13 GG in den Hintergrund getreten. Aus diesen Grundrechten lassen sich, ausgehend von den spezifischen Chancen und Risiken, die SPAs mit sich bringen, konkrete rechtliche Ziele ableiten ([22]; Tab. 1).

Tab. 1 Rechtliche Ziele in Bezug auf das Beispielszenario

Bei der Sprechererkennung sind verschiedene rechtliche Ziele zu beachten. Das Ziel der Zweckbindung schreibt beispielsweise vor, dass bei der Datenerhebung ein bestimmter Verarbeitungszweck festgelegt werden muss, der auch für nachfolgende Verarbeitungsvorgänge maßgeblich bleibt. Zweck der Sprechererkennung ist primär die Ausführung eines personalisierten Dienstes. Werden die Stimmdaten auch zur Verbesserung der Dienstleistung im Allgemeinen oder zur Analyse des Nutzers, etwa auf ethnische Zugehörigkeit oder den aktuellen Gemütszustand hin, verwendet, entsteht ein Konflikt mit dem Ziel der Zweckbindung. Gleichzeitig ist hier das Ziel der Datenminimierung berührt, das besagt, dass personenbezogene Daten der Erreichung des Verarbeitungszwecks erforderlich sein müssen. Auch das Ziel der Speicherbegrenzung, das vorschreibt, dass diese Daten nur so lange gespeichert werden dürfen, wie es zur Zweckerreichung nötig ist, ist für diesen Fall zu beachten.

Ebenso muss während der Sprechererkennung der Schutz der Intimsphäre, die beispielsweise bei versehentlichen Aufnahmen oder beim Erkennen von Emotionen berührt sein kann, gewahrt werden. Ebenfalls zu vermeiden ist mögliche Diskriminierung, die denkbar ist, wenn dem Nutzer aufgrund bestimmter Stimmmerkmale Eigenschaften zugeschrieben werden, die wiederum zu bestimmten Produkt- oder Dienstleistungsvorschlägen führen. Das System ist weiterhin so zu konstruieren, dass Integrität und Vertraulichkeit gewahrt werden, also, dass unbefugte Dritte keinen Zugang zum System bekommen und die Daten auch nicht zu deren Kenntnis gelangen.

Qualitative Ziele

Die wahrgenommene Nützlichkeit und die Bereitschaft langfristiger intensiver Techniknutzung sind als Erfolgsmaße hochgradig abhängig von der Qualität der Leistungserbringung [23]. Seit mehr als 30 Jahren beschäftigt sich insbesondere die Dienstleistungsforschung mit der Frage nach Erwartungen des Nutzers und wie sich diese erfüllen lassen (u.a. [24, 25]). Insbesondere zu den Anfang der 2000er-Jahre populär gewordenen elektronischen Dienstleistungen (E-Services) lässt sich heute auf einen reichen Fundus an Erfolgsfaktorenforschung zurückgreifen [18, 26]. Wesentliche Qualitätsziele sind dabei Informationsqualität, Vertrauen, Komfort, soziale Präsenz, Design, Funktionalitäten, Empathie, Lernfähigkeit, Spaß bei der Nutzung, Personalisierung und Zuverlässigkeit. (Tab. 2).

Tab. 2 Qualitative Ziele in Bezug auf das Beispielszenario

Diese Ziele lassen sich anhand der Sprechererkennung von SPAs wie folgt erläutern. Informationsqualität meint primär die Richtigkeit, Aktualität und Relevanz von Informationen, die auf Basis der Nutzereingabe vom System zurückgegeben werden, in diesem Fall also implizit die richtige Profilverknüpfung und Kontextualisierung der Eingabe sowie eine passende Musikausgabe. Weiterhin sollte der SPA, insb. bei der Verarbeitung sensibler Sprach- und Profildaten, Vertrauen in die Technik und den verarbeitenden Anbieter schaffen. Ein wesentlicher Qualitätsfaktor ist zudem die soziale Präsenz des Systems, die bspw. durch einen Avatar oder eine computergenerierte aber dennoch möglichst menschlich wirkende, angenehme Stimme geschaffen werden kann. Die Interaktion mit dem SPA sollte für den Nutzer so einfach und intuitiv wie möglich gestaltet werden, um Komfort zu erhöhen. Beispielsweise sollte sofort ersichtlich sein, ob für die Interaktion ein Wake Word wie „Alexa“ gesagt oder ein bestimmter Knopf gedrückt werden muss. Ansprechendes Design des Geräts sowie der interaktiven Elemente (z. B. ein sich verändernder Leuchtring in individualisierten Farben) sind ebenso wichtig wie ein sinnvoller Funktionsumfang (z. B. das Abspielen weiterer, ähnlicher Musik). Wie auch bei bildschirmbasierten Anwendungen soll der Nutzer so intuitiv wie möglich durch den Nutzungsprozess geleitet werden. Grundlegend anders als bei bildschirmbasierten Anwendungen steht einem rein sprachgesteuerten SPA in der Regel jedoch kein visuelles oder gar haptisches Medium zur Verfügung, um dies zu bewerkstelligen. Benutzerfreundlichkeit kann also nicht mehr – wie bisher – durch intuitives Interface-Design realisiert werden, sondern erfordert ganz neues Denken. Sprachliches Anleiten, Bestätigen und Rückinformieren sind dabei wesentliche Elemente zur Dialoggestaltung bei sprachbasierten Systemen. Innerhalb dieser Dialoge ist Nutzern zudem ein Gefühl von Empathie aufseiten des SPA wichtig. Der Assistent soll zuverlässig die Emotion des Nutzers erkennen und adäquate Dialoge wählen, um geforderte Informationen auszugeben oder Dienste auszuführen. Lernfähigkeit meint, dass die Fähigkeiten des SPA, in diesem Fall insb. die Sprecheridentifizierung und die Wahl des passenden Musiktitels im Nutzerkontext, sollen sich verbessern, je öfter mit dem SPA interagiert wird. Beispielsweise könnte ein Nutzer bei der ersten Interaktion aufgefordert werden, einen vordefinierten längeren Satz zum Zwecke der Identifizierung zu sagen, während bei darauffolgenden Interaktionen nur noch ein paar Worte nötig sind, um den SPA (mithilfe eines durch Deep Learning trainierten künstlichen neuronalen Netzes) das Stimmprofil korrekt zuordnen zu lassen. Durch passende Dialoggestaltung soll der Nutzer zudem Spaß an der Interaktion mit dem SPA haben. Ebenso ist die Personalisierung des auszuführenden Dienstes bzw. der auszugebenden Information wichtig, um beim Nutzer das Gefühl des Verstandenwerdens zu erzeugen. Ebenfalls essenziell ist in diesem Zusammenhang die Zuverlässigkeit, welche die Verfügbarkeit und Verarbeitungsgeschwindigkeit des Verarbeitungsdienstes (bspw. des Stimmverarbeitungsservices in der Cloud) einschließt. Kommerzielle Assistenten, wie Alexa auf Amazon Echo Geräten, arbeiten auf mehrschichtigen Cloud-Infrastrukturen. Insbesondere durch die Verarbeitung und Kommunikation der verschiedenen Teilsysteme können für den Nutzer spürbare Latenzen auftreten, die es zu minimieren gilt.

Anforderungsmuster

Für die Aktivität „Sprechererkennung“ können nun auf Basis der rechtlichen und der qualitativen Ziele Anforderungsmuster gebildet werden. Anforderungsmuster beschreiben dabei häufig auftretende Probleme im Kontext des Anforderungsmanagements sowie den Kern der Lösung des Problems [7]. Sie fungieren als eine Art Schablone, mit deren Hilfe Anforderungsanalysten bzw. Product Owner für ihren jeweiligen Projektkontext wiederkehrende Anforderungen identifizieren, spezifizieren und dokumentieren können [27]. So lassen sich mithilfe der Anforderungsmuster entsprechende Lastenhefte erstellen bzw. im agilen Projektkontext entsprechende Backlogs für das gesamte Projekt oder einzelne Entwicklungsiterationen befüllen. In ihrer vollständigen Version beschreiben Anforderungsmuster neben der wiederkehrenden Problemstellung und dem Kern der Lösung auch Hinweise zur Priorisierung im Projekt, Abhängigkeiten zu und Konflikte mit anderen Anforderungen, Voraussetzungen zur Umsetzung sowie mögliche Konsequenzen. Anforderungsmuster können damit Anforderungsanalysten sowohl dabei helfen, das Entwicklungsprojektmanagement effizienter und zielgerichteter zu gestalten, als auch die Kommunikation mit Entwicklern durch die Verwendung eines einheitlichen Vokabulars (auch als Mustersprache bezeichnet) vereinfachen.

Um die in Abb. 1 aufgeführten Erfüllungsgrade von rechtlichen und qualitativen Anforderungen abzubilden, ergeben sich sowohl für die Rechts- als auch für die Qualitätsdimension je zwei zulässige Anforderungsmuster pro Ziel. Nachfolgend werden exemplarisch die Anforderungsmuster am Fall der Sprechererkennung für das rechtliche Ziel Datenminimierung (Tab. 3) sowie für das Qualitätsziel Lernfähigkeit (Tab. 4) dargestellt. Als Vorlage dient dabei eine vereinfachte Form der Meta-Struktur für Anforderungsmuster [27], bestehend aus einem eindeutigen Namen für das Muster, dem avisierten Ziel, einer Anforderungsvorlage sowie der Grundlage, auf der das Muster beruht.

Tab. 3 Rechtliche Anforderungsmuster: speicherbegrenzte Sprechererkennung
Tab. 4 Qualitative Anforderungsmuster: adaptive Sprechererkennung

Umsetzung der Anforderungen und Umgang mit Zielkonflikten

Dem Grundsatz folgend, dass jederzeit eine gleichermaßen qualitativ hochwertige und rechtsverträgliche Lösung angestrebt wird, ist der nächste logische Schritt die Umsetzung beider optimalen Anforderungsmuster „Anonyme Audiodatenverarbeitung“ und „Individuelle Verbesserung der Sprechererkennung“. Dabei lässt sich allerdings schnell feststellen, dass die Umsetzung beider Anforderungen nicht gleichermaßen möglich ist – ein Zielkonflikt liegt vor. Die Verbesserung der Sprechererkennung für den individuellen Nutzer verlangt, dass die für die Sprechererkennung genutzten Audiodaten mit ihrem Personenbezug (z. B. individuelle biometrische Merkmale des Stimmtrakts) gespeichert und verarbeitet werden. Aus rechtlicher Sicht bildet jedoch das Anonymisieren oder Pseudonymisieren der Audiodaten bestmöglich das Ziel der Datenminimierung ab.

Zur Bewältigung von Zielkonflikten werden zunächst verschiedene Gestaltungsalternativen erarbeitet. Dazu ist, neben dem Problemwissen von Rechts- und Qualitätsexperten, das Lösungswissen von Softwareentwicklern erforderlich. Gestaltungsalternativen ergeben sich durch interdisziplinäre Lösungssuche auf Basis der grundlegenden Ziele und hergeleiteten Anforderungen. Dabei werden Anforderungen gegeneinander „verhandelt“, um Kompromisse zu erzielen oder durch kreative Lösungen Konflikte zu überwinden. Abb. 2 zeigt die Verbindung zwischen Zielen, Anforderungsmustern und Alternativen für Entwurfsmuster am Beispiel der Sprechererkennung.

Abb. 2
figure 2

Von Zielen über Anforderungsmustern zu Entwurfsmustern am Beispiel „Sprechererkennung“

Da es zwischen den beiden Idealanforderungen „Anonyme Audiodatenverarbeitung“ und „Individuelle Verbesserung der Sprechererkennung (SE)“ zu einem Konflikt kommt, bestehen zwei naheliegende Kompromisslösungen. Beim situativen, generellen Lernen wird kein für den Nutzer oder die Nutzergruppe individualisiertes Erkennungsmodell trainiert, sondern „lediglich“ ein allgemeines Modell für die Sprechererkennung aller Nutzer auf Basis einer kleinen, für die Sprechererkennung unmittelbar erforderlichen Menge an Audiodaten, die zusätzlich anonymisiert oder pseudonymisiert wurde. Dieser Kompromiss befriedigt zwar die Idealanforderungen des Rechts, jedoch lediglich die Minimalanforderung der Dienstleistungsqualität. Genau entgegengesetzt verhält es sich beim kontinuierlichen, individuellen Lernen, bei dem das Lernen bspw. im Rahmen der Datenschutzvereinbarung – als (Sekundär‑)Zweck der Datenverarbeitung – erfasst wird und alle dafür notwendigen Daten durch den nach wie vor bestehenden Personenbezug für das Training eines individualisierten Sprechererkennungsmodells verwendet werden können. Neben den Kompromisslösungen lassen sich auch, insbesondere durch interdisziplinäre Diskussionen mit Fachexperten und Systementwicklern, kreative Lösungen finden, um Konflikte zu überwinden. In unserem Beispiel könnte der Nutzer eine Passphrase zur Identifizierung benutzen. Dadurch könnte eine ausreichend große Datenbasis für das Training eines individualisierten Sprechererkennungsmodells geschaffen werden, ohne einen weiter gefassten Zweck der Datensammlung zugrunde zu legen, wodurch wiederum Datenminimierung gewährleistet werden kann.

Entwurfsmuster „Individuelles Lernen durch Passphrase“

Der Konflikt zwischen Idealanforderungen aus den Bereichen Rechtsverträglichkeit und Dienstleistungsqualität ließe sich womöglich mit einem Sprechererkennungsverfahren lösen, welches auf einer 2‑Faktor-Authentifizierung basiert. Die Gestaltungslösung, die sich aus den Idealvorstellungen beider Anforderungsbereiche ergibt (Abb. 2 rechts, grün markiert) ist nachfolgend exemplarisch als Entwurfsmuster dargestellt (Tab. 5). Entwurfsmuster enthalten Angaben zum Kontext, der Problemstellung, den relevanten Einflussfaktoren zum Abwägen von Gestaltungsalternativen sowie dem Kern der Lösung [28]. Während Anforderungsmuster also Anforderungsanalysten und Product Owner bei der Spezifizierung von Problemen in Form eines Lastenhefts oder Backlogs unterstützen, stellen Entwurfsmuster konkrete Vorschläge zur Lösung dieser Probleme dar. Dabei können Entwurfsmuster, die etabliertes und wiederverwendbares Gestaltungswissen repräsentieren, Systementwicklern dabei helfen, anforderungsadäquat zu implementieren. Ähnlich wie Anforderungsmuster unterstützen Entwurfsmuster die Kommunikation im (agilen) Entwicklerteam durch ein einheitliches Vokabular. Neben den wesentlichen Lösungsinformationen enthalten die in AnEkA erstellten Entwurfsmuster noch Angaben zu den zugrundeliegenden Zielen der Rechtsverträglichkeit und Dienstleistungsqualität sowie Verbindungen zu anderen Entwurfsmustern und zugrundeliegenden Anforderungsmustern. In der vereinfachten, gekürzten Darstellung wurde auf ein Schaubild (bspw. ein UML Sequenzdiagramm) verzichtet.

Tab. 5 Entwurfsmuster: Individuelles Lernen durch Passphrase

Fazit und Ausblick

In diesem Beitrag wurde präsentiert, wie sich eine „KI made in Germany“ durch die Gestaltung zwischen Rechtsverträglichkeit und Dienstleistungsqualität manifestieren lässt. Dabei wurde anhand einer derzeit populären Klasse von KI-Systemen, den SPAs, demonstriert, wie sich Ziele und Anforderungen aus beiden Bereichen identifizieren, Konflikte analysieren und diese durch zielgerichtete, mustergestützte Systemgestaltung auflösen lassen. Im Rahmen des Forschungsprojekts AnEkA wenden wir, unter anderem, dieses Vorgehen an, um Anforderungs- und Entwurfsmuster für die rechtsverträgliche und qualitätszentrierte Gestaltung von SPAs zu erstellen. Gleichwohl lässt sich das verwendete Vorgehen (Abb. 2) auch für andere Klassen von KI-Systemen anwenden, um Anforderungs- und Entwurfsmuster zu entwickeln, die spezifisch für die jeweilige Klasse sind. Die Muster sollen Anforderungsanalysten und Systementwicklern helfen, die Ziele der Anforderungsbereiche gleichermaßen gut zu adressieren. Während unser Fokus dabei auf den beiden Bereichen Recht und Qualität liegt, wissen wir jedoch auch, dass Umsetzungsentscheidungen in Softwareprojekten von vielen weiteren fachlichen Anforderungsbereichen, bspw. Funktionalität, Ergonomie, Vertrauen und Sicherheit, und projektbezogenen Merkmalen, bspw. Entwicklungszeit, Kosten und Erfahrung der Mitarbeiter, abhängen. Diese Anforderungsbereiche sind zweifelsohne essenziell für Projektplanung und Entwicklungsarbeit. Jedoch lassen sich Dienstleistungsqualität und Rechtsverträglichkeit als wesentliche Eckpfeiler einer „KI made in Germany“ verstehen, die durch mustergestützte Systementwicklung aufgestellt werden. Mit diesem Verständnis und unserem Vorgehen streben wir nach KI-Systemen, die nicht nur von Endnutzern akzeptiert, sondern auch aus normativer Sicht gesellschaftlich akzeptabel gestaltet sind.