Große Sprachmodelle (LLMs) erkennen Inhalte schneller denn je, doch sie neigen zu wörtlichen Interpretationsfehlern und setzen das um, was eine Richtlinie vorschreibt, nicht das, was sie bedeutet. Im Bereich Trust & Safety stellt diese wörtliche Interpretation ein Risiko dar. Zwar kann die Automatisierung das Volumen digitaler Inhalte bewältigen, doch entgehen ihr oft kulturelle Nuancen, provokative Taktiken und der auf Absichten basierende Kontext, die die menschliche Intuition erfasst. Um sicherere digitale Gemeinschaften aufzubauen, müssen wir über das traditionelle „Human-in-the-Loop“-Modell der sequenziellen Überprüfung hinausgehen. Stattdessen müssen wir die „Human-on-the-Loop“-Zusammenarbeit nutzen – und die menschliche Rolle vom generellen Moderator hin zu einem strategischen Verantwortlichen für Richtlinien entwickeln, der Logikfehler behebt, Lücken in der Argumentation schließt und sich in den Komplexitäten globaler Regulierung zurechtfindet.
Entdecken Sie, wie menschliches Fachwissen neu ausgerichtet und umfunktioniert wird, während diese Systeme mehr Verantwortung im Bereich Trust & Safety übernehmen.
Warum Automatisierung zu kurz greift: Die Grenzen der regelbasierten LLM-Interpretation
Wenn eine Moderationsrichtlinie direkt in ein LLM eingespeist wird, führt dieses den wörtlichen Text aus. Dabei könnten Absichten und Sonderfälle übersehen, richtlinienübergreifende Konflikte ignoriert und der kulturelle Kontext außer Acht gelassen werden, den erfahrene menschliche Prüfer instinktiv verstehen. Wir haben dies in unserer eigenen Arbeit bei TELUS Digital direkt beobachtet. In unseren kritischen Bewertungsprogrammen erwarteten wir, dass Modelle mit wirklich schwierigen Fällen zu kämpfen haben würden, und das taten sie auch. Aber sie übersahen auch Dinge, von denen wir annahmen, dass sie gelöst seien:
- Die Verwendung von „Algospeak“, um Filter zu umgehen, indem Buchstaben durch Zahlen oder Satzzeichen ersetzt werden (z. B. „H@ss“ statt „Hass“)
- Das Überlagern verbotener Inhalte mit einem Raster aus Linien, um diese zu verdecken
- Das Abspielen problematischer Audioinhalte mit geringer Lautstärke unter einem lauten, harmlosen Geräusch
Dies sind grundlegende audiovisuelle Signale, die jeder erfahrene Prüfer sofort erkennen würde.
Die Modelle hatten zudem durchweg Schwierigkeiten mit legitimen Inhalten, die in akzeptablen Kontexten verwendet wurden, wie z. B. in Bildungs- oder Dokumentarfilmen oder in Erzählungen, die kritischen oder transformativen Charakter haben und schädliches Material analysieren oder verurteilen. Zusammenfassend lässt sich sagen, dass sie noch nicht darauf optimiert sind, den Kontext einer Erzählung zu verstehen.
Die Lösung: „Human-on-the-Loop“-Framework
Wir sind zwar der Ansicht, dass skalierte „Human-in-the-Loop“-Prozesse den Teams für Trust & Safety auch in naher Zukunft weiterhin gute Dienste leisten werden, erwarten jedoch eine Weiterentwicklung, wie die menschliche Kontrolle optimiert werden kann. Wir bewegen uns in Richtung eines „Human-on-the-Loop“-Modells, bei dem KI-Systeme mit größerer Autonomie arbeiten, während Menschen die Aufsicht behalten.
„Human-on-the-Loop“-Prozesse sind auf eine bessere Zusammenarbeit zwischen Mensch und KI ausgelegt, um die besten Ergebnisse für Trust & Safety zu erzielen. Menschliches Fachwissen kommt am besten bei der Validierung und Überprüfung der Logik und Argumentation des Modells zum Tragen, anstatt bei der Überprüfung der Ergebnisse.
Wie funktioniert „Human-on-the-Loop“?
Frühe Forschungsergebnisse von DeepMind hatten gezeigt, dass die Zusammenarbeit zwischen Mensch und KI die Sicherheit von Inhalten verbessern kann – durch Methoden wie die Vorfilterung sicherer Inhalte durch KI, die Eskalation von Verstößen mit hoher Wahrscheinlichkeit, kontextbezogene Unterstützung, autonome Überprüfungen und die Funktion als sekundäre Fehlererkennungsschicht.
In unseren eigenen Experimenten zur Erprobung dieser Methoden haben wir strittige Fälle gleichzeitig durch einen Rat aus verschiedenen LLMs laufen lassen:
- Wenn mehrere Modelle zu einem Ergebnis kamen, war die Entscheidung eindeutig.
- Wenn sie sich nicht einig waren, ergab diese Uneinigkeit selbst einen wertvollen Hinweis. Dies deutet auf eine echte Ungewissheit entweder im Wortlaut der Richtlinie oder bei der Interpretation des narrativen Kontexts hin, wodurch die Modelle zu unterschiedlichen Bewertungen gelangen.
Wir leiteten diese spezifischen Fälle dann an menschliche Experten weiter, versehen mit Informationen darüber, wo genau und warum die Modelle auseinander gingen. Die Aufgabe des Menschen bestand nicht darin, den Inhalt zu überprüfen, sondern:
- zu untersuchen, wo das Modell versagte
- neue Schadensmuster zu identifizieren, die noch kein klassifizierendes System zuvor erkannt hatte
- die Lücke zwischen Richtlinientext und Richtlinienabsicht zu schließen
Dies ist eine grundlegend andere Aufgabe und eine Zusammenarbeit mit KI, zu der sich die Branche entwickeln muss: die „Policy Stewardship“.
Der Wert des menschlichen Urteilsvermögens in KI-Workflows
Da KI zunehmend zur Generierung von Inhalten eingesetzt wird, werden Art und Ausmaß der Schäden, die die Modelle verursachen können, rapide zunehmen. Dies ist ein klares und aktuelles Problem, für dessen Erkennung Menschen besser gerüstet sind. Wenn trickreiche Nutzer verbotene Wörter durch subtile Rechtschreibfehler umgehen, können Menschen schnell reagieren und die Absicht erkennen, wodurch sie in die Lage versetzt werden, Präzedenzfälle für die zukünftige Automatisierung zu schaffen.
Menschlicher Input bringt zudem einen entscheidenden Mehrwert mit sich, den KI nicht nachbilden kann:
- Einheitlichkeit und Vermeidung von Fehleinschätzungen: Vielfältige Teams aus menschlichen Bewertern, gepaart mit strukturierten Prozessen und klaren Richtlinien, helfen dabei, potenzielle Fehleinschätzungen in KI-Ergebnissen zu erkennen.
- Neukalibrierung: Menschliche Entscheidungen passen KI-Schwellenwerte und -Regeln an und optimieren so die Leistung. Wenn die KI zu stark darauf ausgerichtet ist, eine bestimmte Art von Posts zu entfernen, können Menschen die Sensitivität anpassen und so ein Gleichgewicht zwischen Sicherheit und freier Meinungsäußerung herstellen.
- Trainingsdaten: Menschliche Entscheidungen werden zu Trainingsdaten und verbessern die KI im Laufe der Zeit.
- Einfühlungsvermögen und Dringlichkeit: Menschen bringen unersetzliches Urteilsvermögen bei kritischen Themen wie Kinderausbeutung und unmittelbaren Bedrohungen ein.
Die Entwicklung von Trust-and-Safety-Teams
Die Umstellung von „Human-in-the-Loop“ auf „Human-on-the-Loop“ hat zur Folge, dass die Anforderungen an die Teams für Trust & Safety steigen und zunehmend hochqualifizierte Spezialisten anstelle von Generalisten als Moderatoren benötigt werden. Da nutzergenerierte Inhalte exponentiell zunehmen und KI Inhalte schnell überprüft und markiert, wächst der Bedarf an diesen Spezialisten, da sie:
- die Qualität von KI-Entscheidungen überprüfen
- Einsprüche bearbeiten
- ständig mit der Plattform verbunden bleiben
- den Kontext der Community und kommunikative Nuancen verstehen
Bei TELUS Digital leisten wir Pionierarbeit mit kleinen Teams aus vor Ort eingesetzten Forschern und Experten für maschinelles Lernen, die keine Richtlinien in großem Maßstab anwenden, sondern stattdessen:
- Muster analysieren und das System debuggen
- richtlinienübergreifende Konflikte analysieren, bei denen Richtlinien widersprüchliche Signale erzeugen
- Grenzfälle identifizieren, die zu Verschiebungen in der Verbreitung führen
- Fehlermuster vor der Bereitstellung erkennen
Unsere kritischen Evaluierungsprogramme haben uns gezeigt, dass effektive Vertrauens- und Sicherheitsprogramme strategisches menschliches Fachwissen in drei Bereichen erfordern: globale Gesetze und Vorschriften (um rechtliche Nuancen zu erkennen), Verhaltensmanagement (um Ausweichtaktiken zu antizipieren) und KI-Sicherheit (um die Modelllogik zu validieren).
Die Zukunft: Zusammenarbeit zwischen Mensch und KI, nicht Ersatz
Die wesentlichen Eigenschaften, die den Menschen unersetzbar machen, sollten durch Technologien ergänzt werden, die ihn noch leistungsfähiger machen – was letztlich zu besseren KI-Modellen und sichereren Communitys führt.
Die Frage ist nicht, ob KI menschliche Moderatoren ersetzen wird. Vielmehr geht es darum, dass Menschen mit speziellen Fähigkeiten die KI kontinuierlich überwachen müssen, um intelligentere und sicherere globale Gemeinschaften zu fördern. Dies beinhaltet die Weiterentwicklung – und nicht die Unterbrechung – der Rückkopplungsschleife, um die KI in die richtige Richtung zu lenken. Darüber hinaus ist die menschliche Aufsicht entscheidend, um Strategie-, Richtlinien- und Rechenschaftsteams über die Wirksamkeit und Herausforderungen der KI zu informieren.
Mit unserer Erfahrung in der Schulung von Richtlinienmodellen kann TELUS Digital Sie bei diesem Wandel hin zu „Human-on-the-Loop“ unterstützen. Unsere globale und vielfältige Gemeinschaft aus Fachexperten und Sicherheitsexperten kann den notwendigen menschlichen Input liefern, um Modelllogik aufzubauen, und Ihnen dabei helfen, Ihre Automatisierungen so zu steuern, dass sie die Integrität der Plattform und die Einhaltung von Inhaltsrichtlinien gewährleisten.
Nehmen Sie Kontakt mit unserem Expertenteam auf, um zu erfahren, wie wir Ihre Schulungsrichtlinienmodelle weiterentwickeln können.







