Warum künstliche Intelligenz allein Content-Moderation nicht bewältigen kann

Trust- & Safety-Modelle können sich nicht allein auf Automatisierung stützen. Zwar kennzeichnen große Sprachmodelle (LLMs) Inhalte in großem Umfang, doch setzen sie den wörtlichen Wortlaut der Richtlinien durch, anstatt deren Absicht zu berücksichtigen. Dabei übersehen sie den Kontext, Sonderfälle und kulturelle Nuancen, die erfahrene menschliche Prüfer instinktiv erkennen.
Die Rolle des Menschen muss sich vom Prüfer zum Entscheidungsträger wandeln. Die wertvollste menschliche Arbeit besteht darin, zu testen, wo KI versagt, neue Schadensmuster zu identifizieren und die Lücke zwischen Richtlinienwortlaut und Bedeutung durch strukturiertes Denken und Fachwissen zu schließen.
Die Automatisierung verlagert die Rolle des Menschen von der allgemeinen Moderation hin zur strategischen Optimierung. Die Nachfrage nach Spezialisten steigt, die komplexe globale Vorschriften handhaben, „richtlinienübergreifende Konflikte“ beheben und neue Risiken antizipieren können, die statische Regeln nicht erfassen können.

Große Sprachmodelle (LLMs) erkennen Inhalte schneller denn je, doch sie neigen zu wörtlichen Interpretationsfehlern und setzen das um, was eine Richtlinie vorschreibt, nicht das, was sie bedeutet. Im Bereich Trust & Safety stellt diese wörtliche Interpretation ein Risiko dar. Zwar kann die Automatisierung das Volumen digitaler Inhalte bewältigen, doch entgehen ihr oft kulturelle Nuancen, provokative Taktiken und der auf Absichten basierende Kontext, die die menschliche Intuition erfasst. Um sicherere digitale Gemeinschaften aufzubauen, müssen wir über das traditionelle „Human-in-the-Loop“-Modell der sequenziellen Überprüfung hinausgehen. Stattdessen müssen wir die „Human-on-the-Loop“-Zusammenarbeit nutzen – und die menschliche Rolle vom generellen Moderator hin zu einem strategischen Verantwortlichen für Richtlinien entwickeln, der Logikfehler behebt, Lücken in der Argumentation schließt und sich in den Komplexitäten globaler Regulierung zurechtfindet.

Entdecken Sie, wie menschliches Fachwissen neu ausgerichtet und umfunktioniert wird, während diese Systeme mehr Verantwortung im Bereich Trust & Safety übernehmen.

Warum Automatisierung zu kurz greift: Die Grenzen der regelbasierten LLM-Interpretation

Wenn eine Moderationsrichtlinie direkt in ein LLM eingespeist wird, führt dieses den wörtlichen Text aus. Dabei könnten Absichten und Sonderfälle übersehen, richtlinienübergreifende Konflikte ignoriert und der kulturelle Kontext außer Acht gelassen werden, den erfahrene menschliche Prüfer instinktiv verstehen. Wir haben dies in unserer eigenen Arbeit bei TELUS Digital direkt beobachtet. In unseren kritischen Bewertungsprogrammen erwarteten wir, dass Modelle mit wirklich schwierigen Fällen zu kämpfen haben würden, und das taten sie auch. Aber sie übersahen auch Dinge, von denen wir annahmen, dass sie gelöst seien:

Die Verwendung von „Algospeak“, um Filter zu umgehen, indem Buchstaben durch Zahlen oder Satzzeichen ersetzt werden (z. B. „H@ss“ statt „Hass“)
Das Überlagern verbotener Inhalte mit einem Raster aus Linien, um diese zu verdecken
Das Abspielen problematischer Audioinhalte mit geringer Lautstärke unter einem lauten, harmlosen Geräusch

Dies sind grundlegende audiovisuelle Signale, die jeder erfahrene Prüfer sofort erkennen würde.

Die Modelle hatten zudem durchweg Schwierigkeiten mit legitimen Inhalten, die in akzeptablen Kontexten verwendet wurden, wie z. B. in Bildungs- oder Dokumentarfilmen oder in Erzählungen, die kritischen oder transformativen Charakter haben und schädliches Material analysieren oder verurteilen. Zusammenfassend lässt sich sagen, dass sie noch nicht darauf optimiert sind, den Kontext einer Erzählung zu verstehen.

Die Lösung: „Human-on-the-Loop“-Framework

Wir sind zwar der Ansicht, dass skalierte „Human-in-the-Loop“-Prozesse den Teams für Trust & Safety auch in naher Zukunft weiterhin gute Dienste leisten werden, erwarten jedoch eine Weiterentwicklung, wie die menschliche Kontrolle optimiert werden kann. Wir bewegen uns in Richtung eines „Human-on-the-Loop“-Modells, bei dem KI-Systeme mit größerer Autonomie arbeiten, während Menschen die Aufsicht behalten.

„Human-on-the-Loop“-Prozesse sind auf eine bessere Zusammenarbeit zwischen Mensch und KI ausgelegt, um die besten Ergebnisse für Trust & Safety zu erzielen. Menschliches Fachwissen kommt am besten bei der Validierung und Überprüfung der Logik und Argumentation des Modells zum Tragen, anstatt bei der Überprüfung der Ergebnisse.

Wie funktioniert „Human-on-the-Loop“?

Frühe Forschungsergebnisse von DeepMind hatten gezeigt, dass die Zusammenarbeit zwischen Mensch und KI die Sicherheit von Inhalten verbessern kann – durch Methoden wie die Vorfilterung sicherer Inhalte durch KI, die Eskalation von Verstößen mit hoher Wahrscheinlichkeit, kontextbezogene Unterstützung, autonome Überprüfungen und die Funktion als sekundäre Fehlererkennungsschicht.

In unseren eigenen Experimenten zur Erprobung dieser Methoden haben wir strittige Fälle gleichzeitig durch einen Rat aus verschiedenen LLMs laufen lassen:

Wenn mehrere Modelle zu einem Ergebnis kamen, war die Entscheidung eindeutig.
Wenn sie sich nicht einig waren, ergab diese Uneinigkeit selbst einen wertvollen Hinweis. Dies deutet auf eine echte Ungewissheit entweder im Wortlaut der Richtlinie oder bei der Interpretation des narrativen Kontexts hin, wodurch die Modelle zu unterschiedlichen Bewertungen gelangen.

Wir leiteten diese spezifischen Fälle dann an menschliche Experten weiter, versehen mit Informationen darüber, wo genau und warum die Modelle auseinander gingen. Die Aufgabe des Menschen bestand nicht darin, den Inhalt zu überprüfen, sondern:

zu untersuchen, wo das Modell versagte
neue Schadensmuster zu identifizieren, die noch kein klassifizierendes System zuvor erkannt hatte
die Lücke zwischen Richtlinientext und Richtlinienabsicht zu schließen

Dies ist eine grundlegend andere Aufgabe und eine Zusammenarbeit mit KI, zu der sich die Branche entwickeln muss: die „Policy Stewardship“.

Der Wert des menschlichen Urteilsvermögens in KI-Workflows

Da KI zunehmend zur Generierung von Inhalten eingesetzt wird, werden Art und Ausmaß der Schäden, die die Modelle verursachen können, rapide zunehmen. Dies ist ein klares und aktuelles Problem, für dessen Erkennung Menschen besser gerüstet sind. Wenn trickreiche Nutzer verbotene Wörter durch subtile Rechtschreibfehler umgehen, können Menschen schnell reagieren und die Absicht erkennen, wodurch sie in die Lage versetzt werden, Präzedenzfälle für die zukünftige Automatisierung zu schaffen.

Menschlicher Input bringt zudem einen entscheidenden Mehrwert mit sich, den KI nicht nachbilden kann:

Einheitlichkeit und Vermeidung von Fehleinschätzungen: Vielfältige Teams aus menschlichen Bewertern, gepaart mit strukturierten Prozessen und klaren Richtlinien, helfen dabei, potenzielle Fehleinschätzungen in KI-Ergebnissen zu erkennen.
Neukalibrierung: Menschliche Entscheidungen passen KI-Schwellenwerte und -Regeln an und optimieren so die Leistung. Wenn die KI zu stark darauf ausgerichtet ist, eine bestimmte Art von Posts zu entfernen, können Menschen die Sensitivität anpassen und so ein Gleichgewicht zwischen Sicherheit und freier Meinungsäußerung herstellen.
Trainingsdaten: Menschliche Entscheidungen werden zu Trainingsdaten und verbessern die KI im Laufe der Zeit.
Einfühlungsvermögen und Dringlichkeit: Menschen bringen unersetzliches Urteilsvermögen bei kritischen Themen wie Kinderausbeutung und unmittelbaren Bedrohungen ein.

Die Entwicklung von Trust-and-Safety-Teams

Die Umstellung von „Human-in-the-Loop“ auf „Human-on-the-Loop“ hat zur Folge, dass die Anforderungen an die Teams für Trust & Safety steigen und zunehmend hochqualifizierte Spezialisten anstelle von Generalisten als Moderatoren benötigt werden. Da nutzergenerierte Inhalte exponentiell zunehmen und KI Inhalte schnell überprüft und markiert, wächst der Bedarf an diesen Spezialisten, da sie:

die Qualität von KI-Entscheidungen überprüfen
Einsprüche bearbeiten
ständig mit der Plattform verbunden bleiben
den Kontext der Community und kommunikative Nuancen verstehen

Bei TELUS Digital leisten wir Pionierarbeit mit kleinen Teams aus vor Ort eingesetzten Forschern und Experten für maschinelles Lernen, die keine Richtlinien in großem Maßstab anwenden, sondern stattdessen:

Muster analysieren und das System debuggen
richtlinienübergreifende Konflikte analysieren, bei denen Richtlinien widersprüchliche Signale erzeugen
Grenzfälle identifizieren, die zu Verschiebungen in der Verbreitung führen
Fehlermuster vor der Bereitstellung erkennen

Unsere kritischen Evaluierungsprogramme haben uns gezeigt, dass effektive Vertrauens- und Sicherheitsprogramme strategisches menschliches Fachwissen in drei Bereichen erfordern: globale Gesetze und Vorschriften (um rechtliche Nuancen zu erkennen), Verhaltensmanagement (um Ausweichtaktiken zu antizipieren) und KI-Sicherheit (um die Modelllogik zu validieren).

Die Zukunft: Zusammenarbeit zwischen Mensch und KI, nicht Ersatz

Die wesentlichen Eigenschaften, die den Menschen unersetzbar machen, sollten durch Technologien ergänzt werden, die ihn noch leistungsfähiger machen – was letztlich zu besseren KI-Modellen und sichereren Communitys führt.

Die Frage ist nicht, ob KI menschliche Moderatoren ersetzen wird. Vielmehr geht es darum, dass Menschen mit speziellen Fähigkeiten die KI kontinuierlich überwachen müssen, um intelligentere und sicherere globale Gemeinschaften zu fördern. Dies beinhaltet die Weiterentwicklung – und nicht die Unterbrechung – der Rückkopplungsschleife, um die KI in die richtige Richtung zu lenken. Darüber hinaus ist die menschliche Aufsicht entscheidend, um Strategie-, Richtlinien- und Rechenschaftsteams über die Wirksamkeit und Herausforderungen der KI zu informieren.

Mit unserer Erfahrung in der Schulung von Richtlinienmodellen kann TELUS Digital Sie bei diesem Wandel hin zu „Human-on-the-Loop“ unterstützen. Unsere globale und vielfältige Gemeinschaft aus Fachexperten und Sicherheitsexperten kann den notwendigen menschlichen Input liefern, um Modelllogik aufzubauen, und Ihnen dabei helfen, Ihre Automatisierungen so zu steuern, dass sie die Integrität der Plattform und die Einhaltung von Inhaltsrichtlinien gewährleisten.

Nehmen Sie Kontakt mit unserem Expertenteam auf, um zu erfahren, wie wir Ihre Schulungsrichtlinienmodelle weiterentwickeln können.

Das Verständnis des Kostenfaktors von Fehlern ist bei der Optimierung der Automatisierungsrate von entscheidender Bedeutung. Fehleinschätzungen untergraben das Vertrauen der Nutzer und unterdrücken berechtigte Meinungsäußerungen. Fehlentscheidungen bergen Sicherheitsrisiken und regulatorische Haftungsrisiken. Diese Kosten sind nicht äquivalent, und Systeme sollten explizit auf die Kompromisse abgestimmt werden, die sie tolerieren können.

Die zweite Priorität ist die Latenzarchitektur. Priorisieren Sie die Vorabmoderation aller Arten von Inhalten vor der Veröffentlichung, damit sich die Nachmoderation auf die Verbesserung der Wirksamkeit des Modells konzentrieren kann. Die Wahl des Zeitpunkts sollte bewusst auf der Grundlage des Content-Typs und der Sicherheitsanforderungen getroffen werden.

Da KI zunehmend zur Erstellung von Content genutzt wird, nehmen Umfang und Ausmaß potenzieller Schäden zu. Menschen sind besser in der Lage, neue Schadensmuster zu erkennen, kulturelle Zusammenhänge zu verstehen, manipulative Taktiken zu durchschauen und Risiken zu erkennen, die statische Regeln nicht erfassen können.

Menschliche Entscheidungen dienen als Trainingsdaten, die KI-Modelle im Laufe der Zeit verbessern. Menschen kalibrieren zudem die Schwellenwerte der KI neu, passen die Empfindlichkeitsstufen an und geben Feedback, das die Leistung optimiert und gleichzeitig ein Gleichgewicht zwischen Sicherheit und Meinungsfreiheit herstellt.

Um eine reibungslose Zusammenarbeit zwischen Mensch und Maschine zu gestalten, müssen Unternehmen den Fokus von der Erfassung eindeutiger Kennzeichnungen auf die Erfassung der Entscheidungsprozesse verlagern. Wenn Menschen entscheiden, dass Inhalte gegen Richtlinien verstoßen, sollte nicht nur die Kennzeichnung, sondern auch die Begründung erfasst werden – d. h., welche Richtlinie verletzt wurde, welche Beweise zu dieser Entscheidung geführt haben und wie ähnliche Fälle behandelt werden sollten. Diese Begründung wird zum Trainingssignal, das den Modellen beibringt, wie sie denken sollen, und nicht nur, wie sie entscheiden sollen.

Die Nutzung von Meinungsverschiedenheiten als Diagnosesignal ist ein weiterer Schlüsselfaktor. Lassen Sie strittige Fälle gleichzeitig durch mehrere Modelle laufen. Wenn sich die Modelle nicht einig sind, deutet diese Uneinigkeit auf wirklich mehrdeutige Inhalte hin, bei denen die Formulierung der Richtlinien interpretationsfähig ist. Leiten Sie nur Fälle, in denen Uneinigkeit herrscht, an menschliche Experten weiter, zusammen mit diagnostischen Informationen darüber, in welchen Punkten sich die Modelle unterscheiden. Dies reduziert den Umfang der menschlichen Überprüfung um 80–90 % und konzentriert die Bemühungen auf die wirklich wichtigen Fälle. Verteilen Sie die Aufgaben auf verschiedene Spezialisten: Politikexperten kümmern sich um die politische Ausrichtung, Kulturspezialisten um den Kontext und technische Experten um die Signalerfassung. Jeder arbeitet in seinem Fachgebiet, und das System kombiniert die Bewertungen.

Trust- & Safety-Modelle können sich nicht allein auf Automatisierung stützen. Zwar kennzeichnen große Sprachmodelle (LLMs) Inhalte in großem Umfang, doch setzen sie den wörtlichen Wortlaut der Richtlinien durch, anstatt deren Absicht zu berücksichtigen. Dabei übersehen sie den Kontext, Sonderfälle und kulturelle Nuancen, die erfahrene menschliche Prüfer instinktiv erkennen.
Die Rolle des Menschen muss sich vom Prüfer zum Entscheidungsträger wandeln. Die wertvollste menschliche Arbeit besteht darin, zu testen, wo KI versagt, neue Schadensmuster zu identifizieren und die Lücke zwischen Richtlinienwortlaut und Bedeutung durch strukturiertes Denken und Fachwissen zu schließen.
Die Automatisierung verlagert die Rolle des Menschen von der allgemeinen Moderation hin zur strategischen Optimierung. Die Nachfrage nach Spezialisten steigt, die komplexe globale Vorschriften handhaben, „richtlinienübergreifende Konflikte“ beheben und neue Risiken antizipieren können, die statische Regeln nicht erfassen können.

Entdecken Sie, wie menschliches Fachwissen neu ausgerichtet und umfunktioniert wird, während diese Systeme mehr Verantwortung im Bereich Trust & Safety übernehmen.

Warum Automatisierung zu kurz greift: Die Grenzen der regelbasierten LLM-Interpretation

Die Verwendung von „Algospeak“, um Filter zu umgehen, indem Buchstaben durch Zahlen oder Satzzeichen ersetzt werden (z. B. „H@ss“ statt „Hass“)
Das Überlagern verbotener Inhalte mit einem Raster aus Linien, um diese zu verdecken
Das Abspielen problematischer Audioinhalte mit geringer Lautstärke unter einem lauten, harmlosen Geräusch

Dies sind grundlegende audiovisuelle Signale, die jeder erfahrene Prüfer sofort erkennen würde.

Die Lösung: „Human-on-the-Loop“-Framework

Wie funktioniert „Human-on-the-Loop“?

In unseren eigenen Experimenten zur Erprobung dieser Methoden haben wir strittige Fälle gleichzeitig durch einen Rat aus verschiedenen LLMs laufen lassen:

Wenn mehrere Modelle zu einem Ergebnis kamen, war die Entscheidung eindeutig.
Wenn sie sich nicht einig waren, ergab diese Uneinigkeit selbst einen wertvollen Hinweis. Dies deutet auf eine echte Ungewissheit entweder im Wortlaut der Richtlinie oder bei der Interpretation des narrativen Kontexts hin, wodurch die Modelle zu unterschiedlichen Bewertungen gelangen.

zu untersuchen, wo das Modell versagte
neue Schadensmuster zu identifizieren, die noch kein klassifizierendes System zuvor erkannt hatte
die Lücke zwischen Richtlinientext und Richtlinienabsicht zu schließen

Dies ist eine grundlegend andere Aufgabe und eine Zusammenarbeit mit KI, zu der sich die Branche entwickeln muss: die „Policy Stewardship“.

Der Wert des menschlichen Urteilsvermögens in KI-Workflows

Menschlicher Input bringt zudem einen entscheidenden Mehrwert mit sich, den KI nicht nachbilden kann:

Einheitlichkeit und Vermeidung von Fehleinschätzungen: Vielfältige Teams aus menschlichen Bewertern, gepaart mit strukturierten Prozessen und klaren Richtlinien, helfen dabei, potenzielle Fehleinschätzungen in KI-Ergebnissen zu erkennen.
Neukalibrierung: Menschliche Entscheidungen passen KI-Schwellenwerte und -Regeln an und optimieren so die Leistung. Wenn die KI zu stark darauf ausgerichtet ist, eine bestimmte Art von Posts zu entfernen, können Menschen die Sensitivität anpassen und so ein Gleichgewicht zwischen Sicherheit und freier Meinungsäußerung herstellen.
Trainingsdaten: Menschliche Entscheidungen werden zu Trainingsdaten und verbessern die KI im Laufe der Zeit.
Einfühlungsvermögen und Dringlichkeit: Menschen bringen unersetzliches Urteilsvermögen bei kritischen Themen wie Kinderausbeutung und unmittelbaren Bedrohungen ein.

Die Entwicklung von Trust-and-Safety-Teams

die Qualität von KI-Entscheidungen überprüfen
Einsprüche bearbeiten
ständig mit der Plattform verbunden bleiben
den Kontext der Community und kommunikative Nuancen verstehen

Muster analysieren und das System debuggen
richtlinienübergreifende Konflikte analysieren, bei denen Richtlinien widersprüchliche Signale erzeugen
Grenzfälle identifizieren, die zu Verschiebungen in der Verbreitung führen
Fehlermuster vor der Bereitstellung erkennen

Die Zukunft: Zusammenarbeit zwischen Mensch und KI, nicht Ersatz

Nehmen Sie Kontakt mit unserem Expertenteam auf, um zu erfahren, wie wir Ihre Schulungsrichtlinienmodelle weiterentwickeln können.

Zusammenarbeit statt nur Validierung: Automatisierung von Trust & Safety mit Human-in-the-Loop-Prozessen neu gedacht

Wichtigste Erkenntnisse

Warum Automatisierung zu kurz greift: Die Grenzen der regelbasierten LLM-Interpretation

Die Lösung: „Human-on-the-Loop“-Framework

Wie funktioniert „Human-on-the-Loop“?

Der Wert des menschlichen Urteilsvermögens in KI-Workflows

Die Entwicklung von Trust-and-Safety-Teams

Die Zukunft: Zusammenarbeit zwischen Mensch und KI, nicht Ersatz

FAQs

Möchten Sie mehr erfahren?

Transformieren Sie Ihr Unternehmen mit unserer End-to-End Experience

Weitere interessante Insights

So setzen Sie KI im Contact Center ein: Neun Tipps von CX Shift

So setzen Sie KI im Contact Center ein: Neun Tipps von CX Shift

Studie zeigt, dass Unternehmen erhebliche Umsatzeinbußen hinnehmen, weil sie CX-Partnerschaften nicht ausreichend nutzen

Studie zeigt, dass Unternehmen erhebliche Umsatzeinbußen hinnehmen, weil sie CX-Partnerschaften nicht ausreichend nutzen

100%ige Anruf- und Chatsabdeckung: Wie KI-gestützte Qualitätsprüfung Agents Coaching und Contact Center transformieren

100%ige Anruf- und Chatsabdeckung: Wie KI-gestützte Qualitätsprüfung Agents Coaching und Contact Center transformieren

Zusammenarbeit statt nur Validierung: Automatisierung von Trust & Safety mit Human-in-the-Loop-Prozessen neu gedacht

Wichtigste Erkenntnisse

Warum Automatisierung zu kurz greift: Die Grenzen der regelbasierten LLM-Interpretation

Die Lösung: „Human-on-the-Loop“-Framework

Wie funktioniert „Human-on-the-Loop“?

Der Wert des menschlichen Urteilsvermögens in KI-Workflows

Die Entwicklung von Trust-and-Safety-Teams

Die Zukunft: Zusammenarbeit zwischen Mensch und KI, nicht Ersatz

FAQs

Möchten Sie mehr erfahren?

Transformieren Sie Ihr Unternehmen mit unserer End-to-End Experience

Weitere interessante Insights

So setzen Sie KI im Contact Center ein: Neun Tipps von CX Shift

So setzen Sie KI im Contact Center ein: Neun Tipps von CX Shift

Studie zeigt, dass Unternehmen erhebliche Umsatzeinbußen hinnehmen, weil sie CX-Partnerschaften nicht ausreichend nutzen

Studie zeigt, dass Unternehmen erhebliche Umsatzeinbußen hinnehmen, weil sie CX-Partnerschaften nicht ausreichend nutzen

100%ige Anruf- und Chatsabdeckung: Wie KI-gestützte Qualitätsprüfung Agents Coaching und Contact Center transformieren

100%ige Anruf- und Chatsabdeckung: Wie KI-gestützte Qualitätsprüfung Agents Coaching und Contact Center transformieren