Interne KI-Bereitstellung für nahtlose Inhaltsübersetzung: Eine reale Projektgeschichte

(Wenn Sie Videoinhalte bevorzugen, sehen Sie sich bitte die kurze Videozusammenfassung dieses Artikels unten an.)

Wichtiges im Überblick

  • SaM Solutions implementierte ein KI-gestütztes Übersetzungssystem, um automatisch mehr als tausend interne CMS-Seiten zu übersetzen und damit die operativen Herausforderungen der manuellen Übersetzung in einer wachsenden mehrsprachigen Umgebung zu bewältigen.
  • Ein selbst gehostetes Large Language Model (LLM) wurde gewählt, um maximale Datensicherheit zu gewährleisten, Abonnementkosten zu vermeiden, innerhalb des Unternehmens-Intranets zu laufen und eine tiefgehende Anpassung zu ermöglichen.
  • Das Team entwickelte eine modulare Architektur, die in den Workflow des Umbraco-CMS integriert ist und Tools wie Hangfire für die Planung von Hintergrundjobs nutzt. So wird automatisierte Übersetzung mit manuellen redaktionellen Prüfungen kombiniert, wo dies erforderlich ist.
  • Das System übersetzte große Inhaltsmengen innerhalb weniger Stunden statt der geschätzten Wochen manueller Arbeit und zeigte damit deutliche Effizienzgewinne sowie hohe Skalierbarkeit.

In heutigen mehrsprachigen Arbeitsumgebungen ist eine schnelle und zuverlässige Lokalisierung essenziell. Bei SaM Solutions haben wir uns kürzlich der Herausforderung gestellt, eine große Menge interner Inhalte ins Englische zu übersetzen, indem wir eine KI-gestützte Lösung implementiert haben. Diese Fallstudie beschreibt, wie unser Team ein lokal gehostetes Large Language Model (LLM) nutzte, um die Übersetzung direkt in unserem Content-Management-System (CMS) zu automatisieren und dabei Effizienz, Kosteneinsparungen und vollständige Datenkontrolle zu erreichen.

Mit KI zum Erfolg – erleben Sie Marketing, das sich selbst optimiert.

Business-Need

Da SaM Solutions international weiter wächst, ist der Bedarf an mehrsprachiger Kommunikation zwischen den Abteilungen immer dringlicher geworden. Unser internes Portal, das auf dem Umbraco CMS basiert, dient als zentrale Plattform für Nachrichten, Artikel und Unternehmensupdates. Mit über tausend Seiten Inhalt in verschiedenen Sprachen (Englisch, Deutsch, Polnisch, Litauisch usw.) standen wir vor der operativen Herausforderung sicherzustellen, dass dieses Material für alle Mitarbeiter zugänglich ist – unabhängig von der Ausgangs- oder Zielsprache. Dafür war eine skalierbare Lösung für die Übersetzung zwischen allen Unternehmenssprachen erforderlich.

Eine manuelle Übersetzung wurde geprüft, jedoch aufgrund des Umfangs des Materials und der Zeitbeschränkungen schnell verworfen. Wir benötigten eine automatisierte Lösung, die direkt in unser Unternehmensportal integriert werden kann, den Datenschutz wahrt und qualitativ hochwertige Ergebnisse mit minimalem manuellen Aufwand liefert.

Warum wir uns für ein lokal bereitgestelltes LLM entschieden haben

Cloudbasierte Übersetzungsdienste wurden aufgrund von Bedenken hinsichtlich der Datenvertraulichkeit und laufender Abonnementkosten nicht in Betracht gezogen. Stattdessen entschieden wir uns für die Bereitstellung eines selbst gehosteten LLM. Hier sind einige der wichtigsten Vorteile dieses Ansatzes.

Datensicherheit

Die gesamte Verarbeitung erfolgt auf interner Infrastruktur ohne Einbindung von Drittanbietern, wodurch das Risiko eines Abflusses sensibler Daten verhindert wird.

Datensicherheit

Geringere langfristige Kosten

Nach der anfänglichen On-Premises-Einrichtung fallen keine wiederkehrenden Lizenzgebühren oder API-Abonnementkosten an. Das Modell kann nach einer einmaligen Bereitstellung langfristig genutzt werden.

Geringere langfristige Kosten

Flexible Konfiguration

Jeder Aspekt des Systems kann an spezifische Anforderungen angepasst werden. Es unterstützt sowohl lokal bereitgestellte KI-Modelle als auch Integrationen mit externen Anbietern wie OpenAI, sodass Modelle je nach Aufgabe und Infrastruktur ausgewählt, kombiniert oder gewechselt werden können.

Flexible Konfiguration

Intranetbasierte Lösung

Das Modell läuft vollständig innerhalb des Unternehmens-Intranets und ermöglicht internen Teams schnellen und zuverlässigen Zugriff, ohne eine Internetverbindung zu benötigen. Dieses Setup entspricht strengen Netzwerkrichtlinien und unterstützt einen sicheren, unterbrechungsfreien Betrieb innerhalb interner Systeme.

Intranetbasierte Lösung

Vollständige Integration

Ein lokal bereitgestelltes KI-Modell kann durch die Entwicklung von Model Context Protocols (MCP) direkt mit den internen Anwendungen des Unternehmens verbunden werden und so die Integration verschiedener Workflows sicherstellen.

Vollständige Integration

Individuelle Anpassung

Das System ist vollständig konfigurierbar, um sich an sich verändernde Inhalts- und Sprachanforderungen anzupassen.

Individuelle Anpassung

Fine-Tuning

Durch die lokale Bereitstellung erhalten wir die volle Kontrolle über den Trainingsprozess und können das Sprachmodell gezielt mit unseren domänenspezifischen Daten feinabstimmen. Dadurch versteht die KI interne Terminologie, Schreibstil und kontextspezifische Formulierungen besser.

Fine-Tuning

Technische Umsetzung

Architektur

Wir entwickelten eine modulare und robuste Architektur, um KI-gestützte Übersetzungen nahtlos in unsere bestehende CMS-Infrastruktur zu integrieren. Das System identifiziert nicht übersetzte Dokumente, indem es die Umbraco-Metadaten nach Content-Typen wie News und Articles durchsucht. Jedem geeigneten Dokument wird ein eigener Übersetzungsjob zugewiesen, wodurch Nachverfolgbarkeit und eine isolierte Verarbeitung gewährleistet werden.

Es wurde ein bedingter Veröffentlichungsablauf eingerichtet:

  • News-Beiträge (sofern sie in der Originalsprache veröffentlicht sind) werden nach erfolgreicher Übersetzung automatisch veröffentlicht.
  • Artikel bleiben zunächst unveröffentlicht und werden zur manuellen Prüfung an zuständige Redakteure weitergeleitet. Der Grund dafür ist, dass Artikel in der Regel länger sind und häufig spezielle Terminologie enthalten (branchenspezifisch oder unternehmensspezifisch), wodurch eine höhere Übersetzungsgenauigkeit erforderlich ist. Dies ist besonders wichtig für Unternehmensrichtlinien, ISO-Dokumentation und andere sensible Materialien.

Dieser Ansatz schafft ein Gleichgewicht zwischen Automatisierung und Qualitätssicherung und ermöglicht eine schnelle Bereitstellung von Inhalten, während dort, wo es erforderlich ist, eine redaktionelle Kontrolle erhalten bleibt.

Key Tools

Wir entschieden uns für Hangfire, eine robuste Job-Scheduling-Bibliothek für .NET, um Übersetzungs-Workflows zu verwalten. Hangfire bietet:

  • Zuverlässige Ausführung von Hintergrundjobs,
  • Wiederholungslogik für fehlgeschlagene Aufgaben,
  • Ein integriertes UI-Dashboard zur Überwachung und Verwaltung des Jobstatus.

Um einen sicheren und komfortablen Zugriff zu gewährleisten, haben wir das Hangfire-Dashboard direkt in die Umbraco-CMS-Oberfläche eingebettet und mit internen Authentifizierungskontrollen konfiguriert.

Um Hangfire an unsere spezifischen Anforderungen anzupassen, führten wir mehrere wichtige Erweiterungen ein:

  • Erweiterte Logging-Funktionen:
    Wir integrierten eine Logging-Bibliothek eines Drittanbieters in Hangfire, um eine detaillierte Überwachung und ein einfacheres Debugging von Hintergrundaufgaben zu ermöglichen.
  • Erweiterung des Task-Managements:
    Wir entwickelten zusätzliche Funktionen, die es ermöglichen, bestimmte Aufgaben (z. B. Übersetzungsjobs) direkt in Hangfire manuell hinzuzufügen oder neu zu starten. Diese Steuerungen wurden nahtlos in das Hangfire-Dashboard integriert und geben uns mehr Kontrolle und Transparenz über unsere Job-Queue.

Übersetzungsjobs können so geplant werden, dass sie außerhalb der Hauptlastzeiten ausgeführt werden, um Ressourcenkonflikte zu minimieren und Störungen anderer interner Prozesse zu vermeiden. Dadurch können wir die Systemleistung aufrechterhalten und gleichzeitig große Inhaltsmengen effizient verarbeiten.

Überwindung von Herausforderungen

Während der Entwicklung und Testphase traten mehrere praktische Herausforderungen auf, die wir durch gezielte technische Entscheidungen angegangen sind.

Umgang mit langen Dokumenten

Lange Texte überschritten gelegentlich die optimale Eingabelänge des Modells. Um die Stabilität zu gewährleisten, implementierten wir einen Segmentierungsmechanismus, der Inhalte in Abschnitte unterteilt, die das ausgewählte Modell-Kontextfenster nicht überschreiten.

Customization

Umgang mit komplexem Format

Artikel mit aufwendigem Markup oder eingebetteten HTML-Tags führten manchmal zu fehlerhaften oder „halluzinierten“ Ausgaben. Obwohl solche Fälle selten waren, implementierten wir einen Post-Translation-Validierungsschritt, der die Formatintegrität überprüft und Konsistenz sicherstellt. Bei einem Validierungsfehler erstellt das System automatisch einen Log-Eintrag und markiert den Inhalt zur manuellen Prüfung.

Umgang mit komplexem Format

Erkennung von Abkürzungen

Bestimmte Inhalte bestanden aus kurzen Zeichenketten, wie Akronymen oder Produktcodes, die nicht übersetzt werden müssen. Ein Pre-Processing-Filter wurde hinzugefügt, um diese Fälle zu umgehen.

Erkennung von Abkürzungen

Prompt-Tuning

Da die Qualität des Prompts entscheidend für die Übersetzungsgenauigkeit ist, stellten wir fest, dass selbst gut optimierte Prompts unvorhersehbare Ergebnisse liefern können. Wir verfeinern die Prompts kontinuierlich anhand beobachteter Sonderfälle.

Prompt-Tuning

Retry-Logik

Wenn ein Übersetzungsversuch fehlschlägt oder unvollständigen Inhalt liefert, wird der Job automatisch bis zu dreimal wiederholt. Fehler werden für Diagnosezwecke protokolliert.

Retry-Logik

Post-Processing-Checks

Abgeschlossene Übersetzungen werden auf Fehlerindikatoren wie gemischte Sprachen oder nicht übersetzte Abschnitte geprüft. Diese werden zur manuellen Kontrolle markiert, um die Qualitätssicherung sicherzustellen.

Post-Processing-Checks

Leistungskennzahlen

Während der anfänglichen Einführung zeigte das System eine solide Leistung und konsistente Verarbeitung:

  • Verarbeitete Anfangsbatch: Mehr als 1.300 Dokumente erfolgreich übersetzt.
  • Durchschnittliche Übersetzungszeit pro Dokument (unter 1.000 Wörtern): ca. 30 Sekunden.
  • Lange Dokumente (über 1.000 Wörter): in der Regel in etwa 2 Minuten abgeschlossen.
  • Seltene Ausreißer: Spitzenzeiten zwischen 5 und 6 Minuten.
  • Betriebliche Effizienz: Die Übersetzungszeit für den gesamten Korpus wurde von geschätzten 2,5 Wochen manueller Arbeit auf wenige Stunden reduziert.

Dieses Leistungsniveau entsprach unseren Erwartungen und bestätigte die Machbarkeit einer kontinuierlichen, automatisierten Lokalisierung für interne Content-Workflows.

Ausblick

Um die Content-Lokalisierung weiter zu optimieren, planen wir die Entwicklung eines dedizierten Plugins für das Umbraco CMS. Dieses Plugin wird einen „Mit KI übersetzen“-Button direkt in der Redaktionsoberfläche einführen, sodass Benutzer Übersetzungsaufgaben mit einem Klick starten können.

Die Lösung wird sowohl lokal gehostete als auch externe LLMs unterstützen und den Redakteuren die Flexibilität geben, die jeweils am besten geeignete Engine auszuwählen. Nach Fertigstellung planen wir, das Plugin über den offiziellen Umbraco-Marktplatz der breiteren Community zur Verfügung zu stellen.

Fazit

Dieses Projekt zeigt, wie KI verantwortungsvoll und effektiv eingesetzt werden kann, um praktische geschäftliche Herausforderungen zu lösen. Durch die Kombination sorgfältiger Modellauswahl, robuster Systemarchitektur und durchdachter Integration in bestehende Workflows haben wir eine sichere und skalierbare Lösung geschaffen, die unsere internen Abläufe verbessert und uns auf zukünftige Anforderungen der Lokalisierung vorbereitet.

Consulting on LLM deployment project
Herausforderung bei Content-Lokalisierung?

Lokal gehostete KI-Modelle bieten die perfekte Lösung: schnell, sicher und vollständig unter Ihrer Kontrolle – für nahtlose Unternehmensübersetzungen.

Andrey Kopanev, Senior .NET Developer, AI-Enthusiast

Redaktionsrichtlinien
Einen Kommentar hinterlassen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

Sie können diese HTML-Tags und Attribute verwenden Noch keine Stimmen : <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>