Datensammlung
für maschinelles Lernen

Rohdaten sind ein wesentlicher Bestandteil eines jeden Machine Learning Projekts.

Wie aber kommen Sie an Rohdaten? Machen Sie es sich einfach und lassen Sie Mindy Support

die erforderlichen Trainingsdaten sammeln.

Wieso sollten Sie bei Trainingsdaten auf Qualität achten?

In der Machine Learning Community gibt es ein beliebtes Sprichwort: „Garbage in, Garbage out“. Wenn Sie bei der Modellentwicklung qualitativ minderwertige Trainingsdaten verwenden, können Fehlentscheidungen die Folge sein. Besonders in Branchen, in denen Fehlentscheidungen schwerwiegende Konsequenzen haben können, wie der Automobilindustrie oder dem Gesundheitswesen, muss ein besonderes Augenmerk auf die Qualität der Trainingsdaten gelegt werden.

Mindy Support als Partner bei der Datensammlung

Durch langjährige Data Annotation Erfahrung verfügt Mindy Support über tiefgreifendes Fachwissen darüber, wie Trainingsdaten für die verschiedensten Projekte aussehen, strukturiert werden müssen und welche Hürden bei der Beschaffung von Trainingsdaten auftreten. Während wir unter Ihrer Anleitung Daten sammeln, können Sie sicher sein, dass Sie sich in guten Händen befinden, Sie die Daten bereit zur Annotation bekommen und sich währenddessen voll und ganz auf die Entwicklung Ihres Produktes konzentrieren.

Typen häufig gesammelter Trainingsdaten

Bilddaten

Einen Datensatz zu finden, der genau die Bilder enthält, die Sie für Ihr ML/KI-Projekt benötigen, kann ein zeitaufwändiges Unterfangen sein. Anstatt das Internet selbst zu durchforsten oder für einen vorgefertigten Datensatz zu zahlen, der mehr schlecht als recht für das Modell geeignet ist, können wir einen passgenauen Datensatz für Sie erstellen. Unsere Date-Collection Dienstleistungen umfassen ein breites Spektrum verschiedener Bilder für alle Formen von Machine Learning und Deep Learning Anwendungen. Sagen Sie uns einfach, wonach Sie in den Bildern suchen und was das Modell lernen soll, und wir kümmern uns darum.

Audiodaten

Wir wissen nur zu gut, wie viele Audiodaten zum Trainieren eines NLP Modells, eines Voice-to-Text Modells oder andere ML-Modelle erforderlich sind, die menschliche Sprache verstehen können. Die Aufnahmen müssen ganz bestimmte Nuancen enthalten, die in echten Dialogen vorkommen, wie Ironie, Sarkasmus und viele andere Details. Wir können Trainingsdaten mit den nötigen Lexika sammeln, sowohl allgemein als auch domänenspezifisch (z. B. Namen, Orte, natürliche Zahlen). Die Audiodaten können zusätzlich als Textkorpora transkribiert und mit morphologischen Informationen und benannten Entitäten annotiert werden.

Textdaten

Heutzutage wird Maschinen beigebracht, Texte zu lesen, zu verstehen, zu analysieren und auf eine für die technologische Interaktion mit Menschen wertvolle Weise zu produzieren. Bevor Machine Learning Modelle natürliche Sprache verstehen können, müssen sie mit ausreichenden Mengen an qualitativ hochwertigen Textdaten trainiert werden. Bei der Sammlung von Textdaten können wir alle Arten von Stimmungen (positiv, negativ, neutral) oder Absichten, die dahinter stehen, wie Befehl, Frage oder Bestätigung, berücksichtigen.

Biometrische Daten

Da es sich bei biometrischen Daten um personenbezogene Daten handelt, die aus einer bestimmten technischen Verarbeitung resultieren und sich auf die physischen, physiologischen oder verhaltensbezogenen Merkmale einer natürlichen Person beziehen, ist die Zustimmung zur Erhebung und Verarbeitung notwendig. Außer, Sie haben bereits einen, müssen biometrische Datensätze fast immer neu generiert werden. Wir können Ihnen dabei helfen, erforderliche biometrische Trainingsdaten unter Einhaltung aller Gesetze und Vorschriften zu sammeln, beispielsweise Gesichtsbilder oder personenbezogene Geostandorte.

Weitere Datentypen

Wenn Sie einen Trainingsdatensatz benötigen, der nicht aufgeführt ist, können wir auf Anfrage die benötigten Daten für Sie sammeln. Es gibt sehr verschiedene Arten von Machine Learning Unterfangen, manche mit sehr speziellen Anforderungen an benötigte Daten. Mit über 2000 Mitarbeitern und jahrelanger Erfahrung in Datensammlung und Annotation unterstützen wir Sie gerne bei der Zusammenstellung Ihrer Trainingsdaten, im Rahmen dessen, was technisch und rechtlich möglich ist.

Fallbeispiele für Datensammlung

IT & Softwareentwicklung, Kanada

Ziel:

Sammlung von GPS-Koordinaten von Personen bei der Durchführung verschiedener Aktivitäten:

1) Nutzung verschiedener Transportarten (4 Arten)

2) Durchführung verschiedener Aktivitäten (sitzen, gehen, rennen, Kniebeugen)

Herausforderung:

1) Die Daten mussten innerhalb enger Fristen (7 Tage) mit der geforderten Vielfalt an Transportmitteln erfasst werden.

2) Es mussten ausschließlich Android Smartphones verwendet werden.

Lösung:

Es wurden 250 Teilnehmer ermittelt, die alle Kriterien erfüllen:

1) Nutzung verschiedener Transportarten (4 Arten)

2) Durchführung verschiedener Aktivitäten (Sitzen, Gehen, Rennen, Kniebeugen)

Projektumfang:

Standortdaten von 250 Personen.

IT & Softwareentwicklung, USA

Ziel:

Generieren von Dialogen, die Chats zwischen Kunden und Kundensupport Mitarbeitern in verschiedenen Branchen (Bankwesen, E-Commerce, Versicherungswesen) realistisch simulieren.

Herausforderung:

Die Dialoge mussten für jede Branche verschiedene Themen abdecken und amerikanisches Englisch enthalten. Jeder Dialog musste mit Labels annotiert werden, die das Thema des Dialogs und die Bedeutung eines jeden Satzes abbildeten.

Lösung:

Es wurde ein kundenindividueller Workflow erarbeitet, um Kosten und Produktivität zu optimieren. Für jede Branche wurde eigens eine Themenrecherche durchgeführt, sowie Checklisten und Entscheidungsbäume erstellt.

Projektumfang:

12 000 generierte Dialoge.

E-Commerce, USA

Ziel:

Generierung einer Bilddatenbank mit Fotos von Füßen mit und ohne Socken und von Händen mit und ohne Handschuhen.

Herausforderung:

Großer Projektumfang, enge Deadlines und eine gute Fotoqualität.

Lösung:

Vorauswahl anhand von Handykameras, die die Kriterien an Fotoqualität erfüllten.

Projektumfang:

15 000 gesammelte Bilder.

IT & Softwareentwicklung, Deutschland

Ziel:

Anhand von Bildern handgezeichnete Diagramme erstellen und Abfotografierung der Diagramme.

Herausforderung:

1) Für den Kunden war es wichtig, dass selbst kleinste Elemente der originalen Diagramme in den Freihandzeichnungen enthalten waren. Die Diagramme enthielten viele Figuren unterschiedlicher Art und zahlreiche Verknüpfungen zwischen ihnen.

2) Der Kunde hatte sehr strenge Anforderungen an die Zeit, die für die Zeichnung der Diagramme und deren Abfotografierung aufgewendet werden sollte.

Lösung:

Um keine Details zu übersehen und die geforderte Produktivität zu erzielen, wurde ein spezieller Workflow für das Projekt entwickelt.

Projektumfang:

22.000 generierte Bilder.

Automobilindustrie, USA

Ziel:

Erstellung einer Videodatenbank mit Videos, wie Augen auf Lichtreize reagieren, wenn Personen sich in einem Ermüdungszustand befinden.

Herausforderung:

Der Datensatz des Kunden musste mehrere Kriterien erfüllen:

1) Videos von Personen mit unterschiedlichen Augenfarben.

2) Bestehend aus 50 % Männern und 50 % Frauen.

Lösung:

1) Um den Anforderungen des Kunden und strengen Fristen gerecht zu werden, wurde ein spezielles Verfahren für die Aufnahme der Videos geschaffen.

2) Entwicklung und Implementierung technisch-organisatorischer Maßnahmen für die sichere Nutzung von Geräten und Austausch zwischen ihnen. Andere Dienstleister für Datensammlung lehnten diese strikten Anforderungen ab. Diese Verpflichtung war aber zentral für den Kunden.

Projektumfang:

Daten von 250 Teilnehmern.

E-Commerce, China

Ziel:

Audioaufzeichnungen von Antworten auf Fragen, die in Telefongesprächen mit einem Customer Support Manager vorkommen können.

Herausforderung:

Die Antworten mussten auf Deutsch, Französisch, Italienisch und Spanisch auf Muttersprachniveau erfolgen. Für jede Sprache wurden 150 Personen benötigt. Es war eine Herausforderung, innerhalb von sechs Wochen für alle Sprachen ausreichend viele Audioaufzeichnungen zu generieren.

Lösung:

Um die gesetzten Fristen einzuhalten und das Projekt erfolgreich durchzuführen, griffen wir auf Personalressourcen an verschiedenen Standorten in Europa zurück.

Projektumfang:

200 Stunden generierte Audioaufnahmen (50 Stunden pro Sprache).

IT & Softwareentwicklung, USA

Ziel:

Erstellung einer Videodatenbank mit Videos von Personen bei der Durchführung verschiedener Aktivitäten: Springen, Rennen, Laufen, Tanzen, beim Ballspiel und mehr.

Herausforderung:

Gleichmäßige Verteilung der verschiedenen Aktivitäten im Datensatz.

Lösung:

Einrichtung verschiedener Kanäle zur Generierung von Videos für die verschiedenen Aktivitäten. Es wurden intern Zielvorgaben für jede Aktivität festgelegt.

Projektumfang:

14.000 generierte Videos.

Gesundheitswesen, USA

Ziel:

Handschriftliches Ausfüllen amerikanischer Krankenversicherungs- und Krankenhausformulare unter Verwendung bereitgestellter JSON-Dateien. Generierung zusätzlicher Informationen, um manche Felder auszufüllen. Abfotografieren der ausgefüllten Formulare.

Herausforderung:

Große Vielfalt unterschiedlicher Formulare (ca. 50). Erforderlich waren zudem eine Vielfalt einzigartiger Handschriften und ein natürlicher Schreibstil.

Lösung:

Es wurden lediglich Mitarbeiter ausgewählt, die in der Lage waren Englisch auf hohem Niveau handschriftlich zu schreiben.

Projektumfang:

10.000 ausgefüllte Formulare (50 verschiedene Typen).

Datensammlung und Datenannotierung

Durch Annotation werden Rohdaten zu Trainingsdaten, anhand derer Maschinen lernen können. Ohne Annotation können KI/ML Modelle die Daten nicht verstehen. Mindy Support kann die für Sie gesammelten Daten auf Wunsch auch annotieren. Wir sind in der Lage, Bilddateien, Videodateien und Text mit allen gängigen Methoden zu annotieren, sodass Sie Ihre Trainingsdaten sofort verwenden können.

Arbeiten Sie mit führenden Spezialisten an Ihrem KI/ ML-Projekt

Unser kleinster Projektumfang liegt bei 735 produktiven Arbeitsstunden pro Monat. Das entspricht 5 Data Annotation Spezialisten, die jeden Monat an einem Projekt arbeiten.

Datensammlung für maschinelles Lernen

Wieso sollten Sie bei Trainingsdaten auf Qualität achten?

Mindy Support als Partner bei der Datensammlung

Typen häufig gesammelter Trainingsdaten

Fallbeispiele für Datensammlung

IT & Softwareentwicklung, Kanada

Ziel:

Herausforderung:

Lösung:

Projektumfang:

IT & Softwareentwicklung, USA

Ziel:

Herausforderung:

Lösung:

Projektumfang:

E-Commerce, USA

Ziel:

Herausforderung:

Lösung:

Projektumfang:

IT & Softwareentwicklung, Deutschland

Ziel:

Herausforderung:

Lösung:

Projektumfang:

Automobilindustrie, USA

Ziel:

Herausforderung:

Lösung:

Projektumfang:

E-Commerce, China

Ziel:

Herausforderung:

Lösung:

Projektumfang:

IT & Softwareentwicklung, USA

Ziel:

Herausforderung:

Lösung:

Projektumfang:

Gesundheitswesen, USA

Ziel:

Herausforderung:

Lösung:

Projektumfang:

Datensammlung und Datenannotierung

Arbeiten Sie mit führenden Spezialisten an Ihrem KI/ ML-Projekt

Datensammlung
für maschinelles Lernen