Genderinklusive Sprache & Barrierefreiheit

April 21, 2021, written on A11y Up. Check out More Articles

Wichtiger Hinweis (15.10.21): Dieser Artikel ist nicht als Handlungsanweisung zu verstehen, sondern stellt nur technische Beobachtungen dar. Einige der Beispiele sind bereits veraltet. Außerdem habe ich in der Untersuchung speziell über VoiceOver und Siri einen kategorischen Fehler gemacht. Daher solltet ihr die Beispiele diesbezüglich bitte mit einem Körnchen Salz betrachten.

Update (18.06.21): Dinge in diesem Themenbereich bewegen sich schnell und meine Soundbeispiele weiter unten sind bereits veraltet. Apple hat sich anscheinend für die Doppelpunkt-Variante entschieden und die aktuelle Version von macOS 11.4 hat eine neue Version von Siri eingebaut, die den Doppelpunkt nun als Glottisschlag ausspricht. Allerdings gilt das noch nicht für die VoiceOver Standardstimme(n) unter macOS. Anstehende Systemupdates von macOS und iOS, die diesen Herbst erscheinen, zeigen auch, dass die UI-Sprache den Doppelpunkt benutzen wird. Ob es jetzt gut ist oder nicht, dass ein Konzern mit großem Einfluss die genaue Form inklusiver Sprache definiert, ist diskutabel. Zur Normalisierung des Themas wird es sicherlich beitragen.

What is this about?

The following is about gender-inclusive variants in the German language, which is why I chose to write this article in German. The German language has lots of syntactic variants for gender-inclusive language which are also still evolving and are hotly debated. The syntactic variants quite often involve the addition of certain typographic characters like asterisks and colons. This often poses a problem for screen readers. In this article I analyze which variants currently work best and what that could mean for the future. You can jump to the english conclusion here.

My tests were made a lot easier with the help of the awesome folks at Assistiv Labs. They provide an online service that lets you test out different screen readers. Go check them out in case you need quick access to different screen readers.

Vorwort

Dieser Artikel ist eine reine technische Betrachtung dieses intersektionalen Themas. Das hier ist also nicht als Handlungsanweisung oder Referenz zu verstehen, sondern als eine reine Beobachtung und Auflistung.

Ich gehe hier bewusst nur auf eine spezielle Überlappung von zwei Themen ein: Gendern & Screenreader. Es gibt hierzu noch viel mehr Dimensionen. Lest gerne im Addendum nach.

Die Tests im Folgenden wurden möglich durch Assistiv Labs. Ich durfte freundlicherweise deren gleichnamigen Online-Dienst nutzen um verschiedene Screenreader testen zu können. Es lohnt sich das Angebot zu nutzen, wenn ihr mit verschiedenen Screenreadern testen müsst.

Intersektionalität, Sternchen & Doppelpunkte

Vor einigen Jahren las ich das erste Mal den Satz “My feminism will be intersectional, or it will be bullshit” in einer Twitter-Bio. Dieser zum Meme gewordene Satz stammt vom gleichnamigen feministischen Essay von Flavia Dzodan. Intersektionalität war bis dahin für mich ein komplett neuer Begriff, aber begleitet mich seitdem durch meine Arbeit noch mehr als zuvor.

Bei dem Versuch mehr Inklusion zu schaffen, wie z. B. bei genderinklusiver Sprache, sollte man sich nicht isoliert, sondern intersektional mit dem Thema beschäftigen. Das bedeutet man muss es universell angehen und auch mitbetrachten, wie sich Varianten der genderinklusiven Sprache z. B. auf Barrierefreiheit auswirken können. Sonst schafft man Inklusion an der einen Stelle und Exklusion an einer anderen.

Die meisten Schreibweisen für genderinklusive Sprache enthalten Sonderzeichen im Wortinnern, wie z. B. das Sternchen (”*”), einen Doppelpunkt oder den Unterstrich (”_”, sog. Gender-Gap).

Das Thema ist in den letzten beiden Jahren noch mehr in den Vordergrund gerückt als je zuvor. Es gibt regelmäßige feuilletonistische Abhandlungen zum Thema, aber auch große internationale Konzerne aus Deutschland legen sich auf genderinklusive Sprache für ihre Mitarbeitenden fest.

Während große Teile der Gesellschaft sich schwertun sich auf Veränderungen einzulassen, setzen sich verschiedene Institutionen jetzt auch aktiv und normativ mit dem Thema auseinander.

Die Dudenredaktion hat in der im Sommer 2020 erschienenen 28. Ausgabe von Die deutsche Rechtschreibung das erste Mal ein eigenes Kapitel zum “geschlechtergerechten Sprachgebrauch” aufgenommen und beschäftigt sich mit den verschiedenen Möglichkeiten, die es in der deutschen Sprache gibt.

Andere Institution sprechen sich gegen die Verwendung von Sonderzeichen aus. So wie der Rat für deutsche Rechtschreibung, der eine Verwendung von Sonderzeichen für genderinklusive Sprache nicht empfiehlt (Pressemitteilung des Rats für deutsche Rechtschreibung).

Oft steckt als Grund hinter einer Ablehnung das Argument, dass das Verwenden von Sternchen, Doppelpunkt und Unterstrich technische Hürden mit sich bringe, wie beim Vorlesenlassen von Texten durch Screenreader.

Des Weiteren ist immer mehr zu beobachten und in Diskussion zu hören, dass der Doppelpunkt aktuell die beste Variante sei um kompatibel mit Screenreader Software zu bleiben.

Deswegen habe ich mir und auch Menschen die Screenreader nutzen die Frage gestellt, wo genau die Probleme liegen und wie man damit umgehen kann.

Als Erstes hat mich interessiert wie Screenreader zum jetzigen Zeitpunkt tatsächlich mit den verschiedenen Varianten umgehen.

Bestandsaufnahme

Screenreader sind Programme die Text-To-Speech (Sprachausgabe-Algorithmen) benutzen, um dem nutzenden Menschen die Bedienelemente und Texte auf dem Bildschirm vorzulesen.

Für meine Untersuchung habe ich gängige Screenreader-Software, aber auch generelle Text-To-Speech-Software, mit den geläufigsten Formen von genderinklusiver Sprache gefüttert und aufgezeichnet wie verschieden diese Formen ausgesprochen werden.

In meinen Gesprächen und Recherchen habe ich gelernt, dass viele Screenreader-Nutzende sich ihre Screenreader individuell umkonfigurieren. Dabei stellen sie z. B. um wie mit bestimmten Sonder- oder Satzzeichen umgegangen werden soll. Während auf diese Weise ein paar Screenreader-Defizite angeglichen werden können, erzeugt das wiederum an anderen Ecken und Stellen Probleme. Ein Beispiel: Möchte man nicht, dass der Unterstrich (”_”) als solcher wörtlich vorgelesen wird kann man konfigurieren, dass Unterstriche nie vorgelesen werden sollen. Man kann sich natürlich denken, dass man dann damit auch schnell auf neue Barrieren stößt, wenn der Unterstrich nicht mehr vorgelesen wird, obwohl er essenziell ist, z. B. bei User-Namen oder E-Mail-Adressen.

In meiner Analyse geht es mir primär darum, Screenreader in ihrer Standardkonfiguration zu testen, ohne dabei explizite Workarounds einzustellen.

Screenreader und Text-To-Speech-Software, die getestet wurden

Ich habe folgende gängige Screenreader für meinen Test ausgewählt:

NVDA (Windows)
Narrator (Windows)
Jaws (Windows)
VoiceOver (macOS)
VoiceOver (iOS)

Text-To-Speech-Software ist heute allgegenwärtig. Jeder der heute üblichen KI-Assistenten nutzt Sprachausgabe. Die Microsofts, Amazons und Googles dieser Welt bieten eigene buchbare Dienste für Sprachausgabe an. Der Einfachheit halber habe ich für den Test die mir bekannten und zugänglichsten Varianten getestet:

Siri macOS
Amazon Polly (Vicky Stimme, via ttsmp3.com)
Google Translate (Aussprache Feature)

Formen von genderinklusiver Sprache

Für meine Tests habe ich mich als Erstes auf Formen fokussiert die nicht nur binäre Geschlechter, sondern gleich Mehrgeschlechtlichkeit und mehrgeschlechtliche Identitäten mit einbeziehen:

Sternchen: Die Lehrer*innen lehren. Ein*e Lehrer*in lehrt.
Doppelpunkt: Die Lehrer:innen lehren. Ein:e Lehrer:in lehrt.
Unterstrich: Die Lehrer_innen lehren. Ein_e Lehrer_in lehrt.
Mediopunkt: Die Lehrer·innen lehren. Ein·e Lehrer·in lehrt.

Andere Formen die eher binäre Geschlechter(-identitäten) abbilden, habe ich der Vollständigkeit halber auch getestet:

Binnen-I: Die LehrerInnen lehren. EinE LehrerIn lehrt.
Einfacher Schrägstrich: Die Lehrer/innen lehren. Ein/e Lehrer/in lehrt.
Schrägstrich mit Bindestrich: Die Lehrer/-innen lehren. Ein/-e Lehrer/-in lehrt.

Was ist als Aussprache zu erwarten?

Wie spricht man diese Formen nun richtig aus? Die gesellschaftlichen Diskussionen, die tatsächlich an einem Wandel zu mehr Inklusion interessiert sind, konvergieren zu einem Konsens: der sogenannte Glottisschlag (engl. glottal stop). Man macht also einen kleinen “Absetzer” mitten im Wort. Ein Beispiel: das Wort vereisen (etwas wird zu Eis) spricht man ver-eisen. Das ist ein Glottisschlag.

In meiner Betrachtung, ob eine genderinklusive Form korrekt verarbeitet und ausgesprochen wird, gehe ich daher von einem Glottisschlag aus.

Ergebnisse

Hier nun die detaillierten Ergebnisse für jede der getesteten Varianten mit jeder Software. VoiceOver auf macOS und iOS verhielten sich fast zu 100 % identisch, und der Einfachheit wegen liste ich daher nur die iOS-Variante.

Wenn du nicht an den Audioaufnahmen interessiert bist, kannst du hiermit zur Zusammenfassung springen.

Sternchen

“Die Lehrer*innen lehren. Ein*e Lehrer*in lehrt” wird folgendermaßen ausgegeben.

NVDA: Das Sternchen wird wörtlich ausgesprochen

Narrator: Das Sternchen wird wörtlich ausgesprochen

JAWS: Das Sternchen wird wörtlich ausgesprochen

VoiceOver iOS: Das Sternchen wird wörtlich ausgesprochen

Siri macOS: Das Sternchen wird wörtlich ausgesprochen

Amazon Polly: Spricht den Glottisschlag richtig aus

Google Translate: Beim Plural wird das Sternchen wörtlich ausgesprochen. Beim Singular wird der Glottisschlag richtig ausgesprochen

Doppelpunkt

“Die Lehrer:innen lehren. Ein:e Lehrer:in lehrt” wird folgendermaßen ausgegeben.

NVDA: Statt des Doppelpunkts wird eine längere Pause ausgegeben

Narrator: Statt des Doppelpunkts wird eine längere Pause ausgegeben

JAWS: Der Doppelpunkt wird wörtlich ausgesprochen

VoiceOver iOS: Statt des Doppelpunkts wird eine längere Pause ausgegeben

Siri macOS: Statt des Doppelpunkts wird eine längere Pause ausgegeben

Amazon Polly: Statt des Doppelpunkts wird eine längere Pause ausgegeben

Google Translate: Statt des Doppelpunkts wird eine längere Pause ausgegeben

Unterstrich

“Die Lehrer_innen lehren. Ein_e Lehrer_in lehrt” wird folgendermaßen ausgegeben.

NVDA: Spricht den Glottisschlag richtig aus

Narrator: Der Unterstrich wird wörtlich ausgesprochen

JAWS: Der Unterstrich wird wörtlich ausgesprochen

VoiceOver iOS: Der Unterstrich wird wörtlich ausgesprochen

Siri macOS: Der Unterstrich wird wörtlich ausgesprochen

Amazon Polly: Der Unterstrich wird wörtlich ausgesprochen

Google Translate: Der Unterstrich wird wörtlich ausgesprochen

Mediopunkt

“Die Lehrer·innen lehren. Ein·e Lehrer·in lehrt” wird folgendermaßen ausgegeben.

NVDA: Spricht den Glottisschlag richtig aus

Narrator: Spricht den Glottisschlag richtig aus

JAWS: Spricht den Mediopunkt als “Mal” wörtlich aus

VoiceOver iOS: Spricht den Mediopunkt als “Mittelpunkt” wörtlich aus

Siri macOS: Spricht den Mediopunkt als “Middle Dot” wörtlich aus

Amazon Polly: Spricht den Mediopunkt als “Mittelpunkt” wörtlich aus

Google Translate: Spricht den Glottisschlag richtig aus

Binnen-I

“Die LehrerInnen lehren. EinE LehrerIn lehrt” wird folgendermaßen ausgegeben.

NVDA: Spricht den Glottisschlag richtig aus

Narrator: Ignoriert das Binnen-I und spricht ganz normal die Plural- undSingularformen

JAWS: Spricht den Glottisschlag richtig aus

VoiceOver iOS: Spricht den Glottisschlag richtig aus

Siri macOS: Spricht den Glottisschlag richtig aus

Amazon Polly: Ignoriert das Binnen-I und spricht ganz normal die Plural- und Singularformen

Google Translate: Ignoriert das Binnen-I und spricht ganz normal die Plural- und Singularformen

Einfacher Schrägstrich

“Die Lehrer/innen lehren. Ein/e Lehrer/in lehrt” wird folgendermaßen ausgegeben.

NVDA: Spricht den Schrägstrich wörtlich aus

Narrator: Spricht den Glottisschlag richtig aus

JAWS: Spricht den Schrägstrich wörtlich aus

VoiceOver iOS: Spricht den Schrägstrich wörtlich aus

Siri macOS: Spricht den Schrägstrich wörtlich aus

Amazon Polly: Spricht den Glottisschlag richtig aus

Google Translate: Spricht den Glottisschlag richtig aus

Schrägstrich mit Bindestrich

“Die Lehrer/-innen lehren. Ein/-e Lehrer/-in lehrt” wird folgendermaßen ausgegeben.

NVDA: Spricht den Schrägstrich wörtlich aus

Narrator: Spricht den Glottisschlag richtig aus

JAWS: Spricht den Schrägstrich und den Bindestrich wörtlich aus

VoiceOver iOS: Spricht den Schrägstrich wörtlich aus

Siri macOS: Spricht den Schrägstrich wörtlich aus

Amazon Polly: Spricht den Glottisschlag richtig aus

Google Translate: Spricht den Glottisschlag richtig aus

Zusammenfassung der Ergebnisse

Bei welchen Kombinationen wird also der Glottisschlag richtig gesprochen? Im Folgenden eine tabellarische Zusammenfassung.

	NVDA	Narrator	JAWS	VO iOS	Siri	Amazon	Google
Sternchen	❌	❌	❌	❌	❌	✅	❌/✅
Doppelpunkt	❌	❌	❌	❌	❌	❌	❌
Unterstrich	✅	❌	❌	❌	❌	❌	❌
Mediopunkt	✅	✅	❌	❌	❌	❌	✅
Binnen-I	✅	❌	✅	✅	✅	❌	❌
Schrägstrich	❌	✅	❌	❌	❌	✅	✅
Schrägstrich + Bindestrich	❌	✅	❌	❌	❌	✅	✅

Folgerung und weitere Gedanken

Wie sich in den Ergebnissen erkennen lässt, ist die Situation sehr gemischt. Während das Binnen-I als eher ältere Schreibweise schon relativ großflächig unterstützt wird, wird das Sternchen, welches bis vor einer Weile als inklusivste Variante präferiert wurde, bis jetzt nur von Amazon Polly korrekt ausgegeben. Der Doppelpunkt, der allmählich das Sternchen zu ersetzen scheint und momentan als vermeintlich beste Variante propagiert wird, ist ein zweischneidiges Schwert. Ja, er erzeugt eine hörbare Pause, aber keinen Glottisschlag. Er ist im Grunde ein “Hack”, denn er zwingt den Screenreader dazu eine längere Pause wie am Ende eines Satzes zu machen. Und das ist auch logisch. Der Doppelpunkt ist ein Satz(ende)zeichen.

Ich bin kein Experte in softwarebasierter Sprachsynthese und kann daher die Frage der technischen Umsetzbarkeit von verschiedenen Formen nicht vollends beantworten. Mein kurzer Ausflug in Recherchen dazu mündete bei Part-of-Speech-Tagging und ich beschloss an dieser Stelle mich vorerst nicht noch mehr in das Thema hineinzugraben.

Was sich aber aus den Ergebnissen auch erkennen lässt ist, dass es keine Form gibt, die nicht von mindestens einem Tool bereits unterstützt wird. Es ist also anscheinend keine technische Unmöglichkeit die beliebigen Formen umzusetzen.

Für mich stellt sich daher folgende Frage:

Wenn die Ablehnung genderinklusiver Sprache oft mit dem technischen Argument daherkommt, wäre es dann nicht hilfreich, wenn Screenreader und Text-To-Speech-Software breitflächig alle gängigen Varianten unterstützten?

Zumindest meine Antwort darauf ist ein klares Ja. Denn dann wären wir in der Diskussion einen Schritt weiter und könnten uns mit den anderen Argumenten auseinandersetzen.

Addendum

Ich habe mich bei meinen eigenen Formulierungen in diesem Artikel entschieden, mich nicht auf eine genderinklusive Variante festzulegen. Ich habe stattdessen versucht möglichst neutrale Formen zu verwenden, da aus meiner Analyse letztlich hervorgeht, dass keine der Varianten universell funktioniert.
Mir ist bewusst, dass bestimmte Varianten nicht aus technischen, sondern auch aus grammatikalischen Gründen abgelehnt werden. Es gibt den berechtigten Einwand, dass manche Varianten die Sprache schwieriger machen. Z. B. für Menschen mit kognitiven Einschränkungen oder auch für Menschen die nicht muttersprachlich Deutsch sprechen.
Meine Betrachtung geht nur auf Barrierefreiheit in Bezug auf Screenreader ein. Es gibt natürlich noch viele weitere Aspekte in Bezug auf Barrierefreiheit, die man auch betrachten muss: Braille-Zeilen, Prinzipien der Leichten Sprache usw.
Ich spreche in meinem Artikel weder für blinde Menschen und Menschen mit Sehbehinderungen, noch für Menschen die regelmäßig Screenreader benutzen. Mir ging es hier eher um eine technische Betrachtung und um die Frage ob Screenreader nicht mehr Varianten unterstützen können. Der Deutsche Blinden- und Sehbehindertenverband hat z. B. zu dem Thema “gendern” auch Stellung bezogen. Wie sonst auch: Es gibt zu dem Thema sicherlich diverse Meinungen und keine Gruppe ist monolithisch.

Conclusion and Further Thoughts

The results of my analysis show a very mixed situation in terms of the correct glottal stop pronunciation required by screen readers and text-to-speech software. Certain older variants like the “Binnen-I” (a capitalized “I” mid-word) already seem to have wide support. The “asterisk” variant on the contrary is so far only supported by Amazon’s Polly text-to-speech software. The “colon” variant, which these days seems to slowly replace the “asterisk” variant is unfortunately a hack. It does not produce a glottal stop but instead is treated like the end of a sentence and thus produces a longer than necessary pause.

Since I am not an expert in software-based speech synthesis, I cannot ultimately answer the question of the technical feasibility of all the different variants. I chose to not further follow the research rabbit hole when I ended up at researching Part-of-speech tagging.

What the analysis makes clear is that there is not a variant that is not supported by at least one software. This tells me that there must be a way to achieve any variant.

Thus I want to pose the following question:

Should current software not try to support all known variants, so that the institutional and societal debate is not hindered by the technical barriers?

At least my answer to this is a yes.