Mittwoch, 24. September 2025

KI-Verzerrungen

Hello, bien­ve­nue und guten Tag hier beim Dol­metsch­we­blog. Seit 2007 be­rich­te ich in lo­ser Fol­ge über das Ar­beits­le­ben von Über­set­ze­rin­nen, Über­set­zern, Dol­metsch­er­in­nen und Dol­met­schern. Wir sind vor al­lem auf Kon­fe­ren­zen und bei De­le­ga­ti­ons­rei­sen tä­tig, aber auch in den Ku­lis­sen des po­li­ti­schen und wis­sen­schaft­li­chen Be­triebs. Heu­te: Gren­zen der KI. 

Mann mit drei Armen
Rechts dop­pelt, links vier Fin­ger
Im Rah­men der Be­wer­bung un­se­res Teams um ei­nen Ein­satz hat mir ei­ne Kun­din neu­lich of­fen ge­sagt, dass sich un­ter den Mit­be­wer­bern auch ei­ne Fir­ma be­fin­de, die die Kon­fe­renz voll­stän­dig mit „KI-Dol­metsch­ern“ durch­füh­ren wol­le. Das sei zwar recht teu­er, hel­fe aber, Rei­se-, Re­stau­rant- und Ho­tel­kos­ten ein­zu­spa­ren. Ich at­me ein­mal tief durch. 
Jetzt ist es al­so pas­siert. Vor­be­rei­tet bin ich. Denn na­tür­lich sind wir ge­wapp­net, seit die­se Tech­nik viel Ri­si­ko­ka­pi­tal­ an­ge­zo­gen hat.

Mein Vor­schlag an die Da­me: Se­hen wir uns das doch ge­mein­sam in Ru­he an. 

Zu­nächst er­klä­re ich ihr, was die­se An­bie­ter kon­kret tun: Ge­spro­che­ne Spra­che wird zu­nächst in Text um­ge­wan­delt. Die­ser Text wan­dert an­schlie­ßend in ei­ne Über­set­zungs­ma­schi­ne. Ich nen­ne Goo­gle Trans­la­te und DeepL, sie be­stä­tigt, die­se selbst schon ge­nutzt zu ha­ben. Das Er­geb­nis wird da­nach in ein „Text-to-Speech-Pro­gramm“ ein­ge­speist, und „fer­tig“ ist die so­ge­nann­te au­to­ma­ti­sier­te Sprach­über­set­zung. Sie zeigt sich über­rascht, mit so vie­len Ver­ar­bei­tungs­schrit­ten ha­be sie nicht ge­rech­net.

Ich grei­fe ih­ren ei­ge­nen Ge­dan­ken auf: Je­der die­ser Schrit­te ist ein Ein­falls­tor für Feh­ler. In­te­res­san­ter­wei­se be­stand die Kun­din den­noch dar­auf, dass die An­bie­ter ihr ei­ne ho­he Ge­nau­ig­keit zu­ge­sagt hät­ten.

Also be­rich­te ich von un­se­ren Be­ob­ach­tun­gen. Da­bei wa­ren Feh­ler beim Hin und Her zwi­schen den Pro­gram­men nicht ein­mal das größ­te Pro­blem. Wir ha­ben zwei der ak­tu­ell am Markt recgt selbst­be­wusst auf­tre­ten­den An­bie­ter tes­ten dür­fen. Als höchs­te Ge­nau­ig­keit wur­den uns 95 Pro­zent an­ge­kün­digt.

Auff­äl­lig war Fol­gen­des: Die KI war­te­te, ge­nau­so wie wir, beim „Zu­hö­ren“ zu­nächst ab, bis klar war, wo­rum es ging. An­ders als wir spul­te sie das Ge­sag­te an­schlie­ßend wie­der­holt in über­höh­ter Ge­schwin­dig­keit ab. Zwi­schen­durch wur­de et­was nicht ver­stan­den, Be­grif­fe tauch­ten in fal­schen Be­deu­tungs­zu­sam­men­hän­gen auf, Aus­sa­gen bra­chen ab und wur­den spä­ter wie­der auf­ge­nom­men.

Ein­mal fehl­te ein zen­tra­ler Be­griff, weil der Red­ner zum Was­ser­glas griff und den Kopf mi­ni­mal vom Mi­kro­fon weg­be­wegt hat­te. Das Sys­tem ge­riet ins Sto­cken, lo­gi­sche Be­zü­ge gin­gen ver­lo­ren, am En­de kol­la­bier­te der Ab­satz, war al­les Murks. Ähn­li­che Ef­fek­te tra­ten auf, als ei­ne Red­ne­rin un­ter (si­mu­lier­tem) Stress falsch be­tont hat.

Was sonst noch pas­siert ist, lässt sich in un­se­rer Lis­te un­ten er­ah­nen.

Grund­sätz­lich zeig­te sich, dass die KI die Struk­tur der Re­den ver­än­dert hat: Ak­zen­tu­ie­run­gen ver­scho­ben sich, Schwer­punk­te wur­den ver­la­gert, teils so­gar For­de­run­gen in­halt­lich ver­än­dert. Ge­nau das hat auch die Dol­metsch­ab­tei­lung des Eu­ro­pa­rats in ih­rer Ver­öf­fent­li­chung Syn­thè­se de rap­port sur l’in­ter­pre­ta­tion au­to­ma­tique (speech-to-speech) be­stä­tigt [hier der Direktlink].

Auch die Welt­ge­sund­heits­or­ga­ni­sa­ti­on [Direktlink] hat die­se Ef­fek­te be­ob­ach­te­t. In ei­ner Ver­suchs­rei­he mit 90 ge­tes­te­ten Re­den lag die Ge­nau­ig­keit in Sum­me zwi­schen 5 und 83 Pro­zent. Die­se ver­än­der­ten Ar­gu­men­ta­ti­ons­li­ni­en sind ein­mal mehr der Be­weis da­für, dass die KI (na­tür­lich) nicht weiß, wel­che Kom­mu­ni­ka­ti­ons­stra­te­gi­en hin­ter den Aus­sa­gen steht. 

Doch das ist nur ei­nes von vie­len Pro­ble­men. Ich kür­ze mal ab.

Wir ha­ben der Kun­din zu KI-Ver­dol­metsch­ung ge­ra­ten, wenn:

  • die Ver­an­stal­tung ei­nem 08-15-The­ma ge­wid­met ist, zu dem es be­reits mas­sen­haft Ma­te­ri­al im Netz gibt
  • die Kom­mu­ni­ka­ti­ons­ab­sicht der Red­ner:in­nen un­wich­tig ist
  • im Raum ga­ran­tiert Ru­he herrscht (kein Hus­ten, kein Stüh­ler­ü­cken)
  • Red­ner:in­nen nicht un­ter Stress ge­ra­ten, kei­nen Ak­zent spre­chen und auch sonst nicht von der Norm­aus­spra­che ab­wei­chen
  • nie­mand Emo­tio­nen zeigt, da die­se die Stim­me ver­än­dern
  • kei­ne rhe­to­ri­schen Schlei­fen nö­tig sind, um Aus­sa­gen ein­zu­ord­nen oder kul­tu­rell an­schluss­fä­hig zu ma­chen
  • nie­mand Rück­fra­gen stellt
  • Hal­lu­zi­na­tio­nen der KI egal sind oder vom Pu­bli­kum so­fort als sol­che er­kannt wer­den
  • kei­ne ge­schlech­ter- oder min­der­hei­ten­sen­si­ble Kom­mu­ni­ka­ti­ons­si­tua­ti­on vor­liegt, da KI nach­weis­lich be­ste­hen­de Vor­ur­tei­le ver­stärkt (be­dingt durch das Trai­nings­ma­te­ri­al)
  • bei Fehl­über­tra­gun­gen nie­mand Ver­ant­wor­tung über­neh­men muss
  • ein mög­li­cher po­li­ti­scher Miss­brauch der ei­ge­nen Da­ten voll­kom­men egal ist (Big Tech sitzt be­kann­ter­wei­se in den USA)

Sie hal­ten das für über­zo­gen? Al­le ak­tu­el­len wis­sen­schaft­li­chen Un­ter­su­chun­gen be­stä­ti­gen die­se Ein­schät­zun­gen. Und die Hal­lu­zi­na­tio­nen wer­den eher schlim­mer. Denn die KI hat das In­ter­net weit­ge­hend ab­ge­grast und trai­niert in­zwi­schen zu­neh­mend mit ei­ge­nen Aus­wür­fen. Die­se sind we­ni­ger ak­ku­rat als mensch­lich er­zeug­te In­hal­te. Die Qua­li­tät der Ge­samt­heit al­ler Pu­bli­ka­tio­nen sinkt, pa­ral­lel da­zu die Ge­nau­ig­keit der KI, die gro­be Feh­ler ein­baut.

Für die­se Feh­ler gibt es in­zwi­schen ei­nen Na­men: AI slop oder KI-Slop. Ge­meint sind In­hal­te, die auf den ers­ten Blick kor­rekt wir­ken, aber so echt sind wie die Spam-Mails, in de­nen ein An­walt Ih­nen 14 Mil­lio­nen Dol­lar ver­spricht. Die­se Mails sind leicht zu er­ken­nen, Slop hin­ge­gen nicht im­mer.

Wört­lich be­deu­tet the slop Brü­he, Schmutz­was­ser oder Rück­stand. Ge­meint sind mas­sen­haft pro­du­zier­te fal­sche In­hal­te, die plau­si­bel wir­ken und sich au­to­ma­tisch re­pro­du­zie­ren. Sie ver­zer­ren am En­de al­le KI-Aus­wür­fe, da die­se stets vom sta­tis­ti­schen Durch­schnitt des­sen aus­ge­hen, was zu­vor „re­zi­piert“ wur­de, sie­he oben.

Auch die Kun­din kann­te sol­che Bei­spie­le be­reits: Er­fin­dun­gen, Ver­zer­run­gen und Ab­sur­di­tä­ten in von der KI er­stell­ten Tex­ten oder Bil­dern.

Hier mein Schlen­ker zu­rück zum An­fang: Selbst wenn bei Kon­fe­ren­zen rei­ne La­bor­be­din­gun­gen herr­schen wür­den und die KI so­gar 95 Pro­zent kor­rekt über­trü­ge, blie­ben Rei­hen­fol­ge der Ar­gu­men­te, Ge­wich­tung des Neu­en und die feh­len­den fünf Pro­zent ent­schei­dend. Slop wird die KI im­mer pro­du­zie­ren. Das ist sys­te­misch.

Die­se Ver­zer­run­gen be­tre­fen auch un­se­ren Markt. Tat­säch­lich schaf­fen es ei­ni­ge Nerds, rei­ne KI-„Lö­sun­gen“ oh­ne Dol­metsch­er:in­nen zu ver­kau­fen. Das wird nicht lan­ge gut­ge­hen. Die Kun­din von oben hat die KI-Bu­de jetzt aus­sor­tiert.

In an­de­ren Fäl­len set­ze ich auf kri­ti­sche Rück­mel­dun­gen der End­kund:in­nen.

______________________________
Gra­fik: pixlr.com (Zu­falls­fund)

Keine Kommentare: