ANNOTATION PERSONENBEZOGENER INFORMATIONEN IN 13 SPRACHEN

Services provided: Text Annotation

Published date: 26.02.2024

Read time: 4 min

Kundenprofil

Branche: Technologie Innovation

Land: USA

Unternehmensgröße: 50.000+ Mitarbeiter

Beschreibung des Kunden

Der Kunde ist ein Fortune-500 Enterprise mit Standorten in Nordamerika, Asien und Europa. Sie stellen strategische Technologie- und Transformationslösungen bereit, die es ihren Kunden ermöglichen, in Ihrem Geschäftsbereich federführend zu sein, indem sie schnell neue Technologien adoptieren, moderne Lieferkonzepte einführen und geschäftlichen Mehrwert aus IT ziehen können.

BEREITGESTELLTE DIENSTLEISTUNG

Beschreibung des Projekts

Um das KI-Tool des Kunden trainieren zu können, annotierte ein von Mindy Support bereitgestelltes Data Annotation Team höchst umsichtig personenbezogene Informationen (PII) in 13 Sprachen. Mit einer Genauigkeit von 99% ohne nacharbeiten zu müssen, stellten unsere Data Annotatoren von Anfang an sicher, dass alle erforderlichen Daten korrekt annotiert wurden. Dank diesem Fokus auf ausgezeichnete Qualität stellte der Kunde eine deutliche Verbesserung seiner Datenqualität fest, was sich in einer qualitativen Verbesserung seines KI-Produktes niederschlug.

Ausgangslage

Unser Kunde arbeitete an einer KI-Lösung, um personenbezogene Informationen (PII) aus verschiedenen Formularen, Bildern, SMS-Nachrichten und anderen Kommunikationsmitteln zu extrahieren, mit dem Ziel, die Identität seiner Kunden zu schützen. Um die neu entwickelte Lösung zu trainieren, besaß unser Kunde einen großen Datensatz aus 10.000 Dateien mit personenbezogenen Daten in 13 Sprachen. Der Kunde suchte einen Data Annotation Dienstleister, um alle personenbezogenen Daten in den verschiedenen Textdaten zu erkennen und zu kennzeichnen. Dabei handelte es sich um Daten aus den Sozialen Medien, Nachrichten, geteilten Bildern und anderen Kommunikationsmitteln. Die personenbezogenen Informationen mussten nach Typ kategorisiert werden, beispielsweise Addresse, Name, ID-Nummer. Eine wichtige Anforderung bestand darin, keine allgemein in der jeweiligen Sprachregion bekannten Informationen wie die Namen berühmter Personen zu annotieren.

Der gesamte Datensatz musste innerhalb von 7 Monaten mit einer Genauigkeit von über 98% annotiert werden.

Warum Mindy Support

Die Kooperation mit diesem Kunden begann bereits vor dem hier beschriebenen Projekt, durch unser Fachwissen in optischer Zeichenerkennung (OCR) in 13 Sprachen. Aufgrund unserer tiefgreifenden Erfahrung mit dieser Technologie konnten wir ein OCR Projekt für den Kunden unter Einhaltung knapper Fristen mit hoher Genauigkeit durchführen. Diese langjährige Kooperation hat das Vertrauen unseres Kunden in unsere Kompetenzen gestärkt, sodass unsere vorherige Erfolgsbilanz den Kunden überzeugte, uns auch die Annotation personenbezogenen Daten (PII) für sein KI-Tool anzuvertrauen.

Bereitgestellte Data Annotation Lösung

Mindy Support stellte ein Team aus 7 Data Annotatoren mit umfangreicher Erfahrung in Entitätenerkennung(NER) bereit, um die Text Annotation durchzuführen. Zunächst wurde das Team in der Verwendung der Plattform des Kunden geschult, die bei ihm für Data Annotation eingesetzt wird. Sowohl für die Annotation als auch für die Qualitätskontrolle waren MacOS Computer erforderlich. Dies konnten wir relativ einfach durch den Hinzukauf zusätzlicher MAC-OS Computer garantieren. Zusätzlich zur Schulung in der vom Kunden verwendeten Plattform haben wir Sprachexperten für jede Sprachregion hinzugezogen, mit deren Hilfe das Annotation Team alle personenbezogenen Informationen genauer identifizieren konnte.

Dank unserer gemeinsamen Anstrengungen und unserer Professionalität ist es uns gelungen, die Erwartungen unseres Kunden zu übertreffen und in allen Qualitätsberichten bereits nach der ersten Annotationsrunde eine Genauigkeit von über 99% zu erreichen. Erwähnenswert ist, dass wir dieses Ergebnis von Anfang an erreichen konnten, ohne in der Branche übliche Nachbearbeitungen oder Reworks. Unser Kunde war davon so beeindruckt, dass das Projekt um weitere sechs Monate verlängert wurde und wir den Auftrag für weitere Folgeprojekte bekamen.

Ergebnisse

  • 99%+ Genauigkeit ohne Rework
  • 10,000 annotierte Daten
  • Annotation in 13 Sprachen
  • Annotations team aus 7 Data Annotatoren

TABLE OF CONTENTS

    ✔︎ Well done! You're on the list now