Video Annotation

Video Annotation ist eine wichtige Art von Datenannotation

bei der Vorbereitung von Trainingsdatensätzen für Deep-Learning und Machine-Learning Modellen

in der Automobilindustrie, der Games-Branche, bei der Entwicklung von AR/VR Anwendungen

und vielen anderen Bereichen.

Was ist Video Annotation?

Bei der Videoannotation für Machine Learning und Deep Learning Projekte werden Videos in Bilder (Frames) zerlegt und alle Bilder mit verschiedenen Techniken annotiert. Die genaue Anzahl der Bilder, die mit Annotationen versehen werden müssen, hängt von der Länge des Videos und der Bildfrequenz (frames per second) ab. Hat man beispielsweise ein 60 Sekunden langes Video mit einer Bildfrequenz von 60 fps, sind das bereits 3.600 statische Bilder, die annotiert werden müssen. Videoannotation ist schnell ein sehr zeitaufwändiger Prozess, weshalb Medien- und Technologieunternehmen sich oft für eine Kooperation mit Data Annotation Dienstleistern entscheiden.

Herausforderungen bei Video Annotation

Es gibt viele Gründe, warum die Annotation von Videodaten ein anspruchsvoller Prozess ist. Da es sich nicht um statische, sondern um Objekte von Interesse handelt, die sich bewegen, wird es schwieriger, sie korrekt zu annotieren, um präzise Ergebnisse beim Training der Modelle zu erhalten. Zudem sind sehr große Mengen an Annotationen erforderlich. Im oben genannten Beispiel haben wir bereits über die Anzahl der statischen Bilder gesprochen, die in einem 60 sekündigen Video mit 60 fps entstehen (3.600). Stellen Sie sich nun vor, Sie hätten lediglich ein Video, das mehrere Minuten lang ist...oder viele Videos. Der Arbeitsaufwand bei der Annotation vieler Videos steigt exponentiell, sodass anstatt die Video Annotation alleine zu stemmen, die Zusammenarbeit mit Experten sinnvoll ist, die über die erforderlichen Personalressourcen und das technisch-organisatorische Know-How verfügen, um sehr große Datensätze zu Annotieren. Hinzu kommt, dass sich viele Ereignisse, die im Video verfolgt werden müssen, überschneiden können. Dies präzise zu Annotieren stellt eine Herausforderung bei der Annotation dar, da eine Genauigkeit von bis zu Millisekunden erforderlich ist. Hierfür werden technisch spezialisierte Ansätze verwendet.

Video Annotation Dienstleistungen

2D-Begrenzungsbox

Bei dieser Art der Annotation wird in jedem Bild das Objekt von Interesse mit einem zweidimensionalen Rechteck markiert. Dies hilft KI/ML Systemen, dieselben Objekte in der realen Welt korrekt zu identifizieren. 2D-Begrenzungsboxen werden häufig in der Automobilindustrie, der Sicherheitsindustrie und der Medien- und Unterhaltungsbranche verwendet.

3D-Begrenzungsbox

3D-Begrenzungsboxen ermöglichen KI/ML Modellen mehr Einblicke in Objekte in Bildern, insbesondere in deren Länge, Breite und Höhe. Sie enthalten mehr Informationen und sind somit präziser als 2D-Begrenzungsboxen. In der Automobilindustrie werden sie verwendet, um ein Verständnis der Verkehrssituation zu bekommen. Bei der Entwicklung von Algorithmen für den Betrieb von Robotern und Drohnen sind sie ebenfalls wichtig, da diese nicht nur die Objekte und ihre Größe, sondern auch ihre Platzierung im dreidimensionalen Raum und den Abstand zwischen ihnen analysieren müssen.

Linien und Splines

Linien und Splines werden verwendet, um verschiedene Teile eines Bildes voneinander abzugrenzen. Beispiele wären die Abgrenzung von Fahrspuren, Gassen oder Förderbänder in Lagern zu identifizieren oder die Markierung von Nutzflächen in der Landwirtschaft.

Polygone

Polygone sind sehr nützlich, um unregelmäßig geformte Objekte in Bildern zu markieren, die schlecht in 2D-Begrenzungsboxen passen. Mit Polygonen lässt sich die genaue Form und Größe des Objekts abbilden und sie sorgen für eine genauere Lokalisierung. Diese Methode der Annotation wird in der Automobilindustrie verwendet, um alle Objekte auf Straßen zu kennzeichnen.

Landmarks

Bei dieser Methode werden zentrale Punkte über einem Bereich von Interesse platziert. Damit können Variationen in der Gestalt präzise abgebildet werden, um Bewegung zu verfolgen oder Emotionen oder Handgesten zu erkennen. Anwendung finden Landmarks bei der Gesichtserkennung oder in Videospielen.

Labeling / Tagging

Labels und Tags sind schriftliche Markierungen von Objekten in Bildern. Durch Training mit Labels und Tags versehener Bilder können Machine Learning Systeme solche Objekte in der realen Welt identifizieren. Sie helfen aber auch bei der Erkennung und Rekonstruktion von Ereignissen, indem alle Aktionen, die zu einem Ereignis gehören, mit Labels versehen werden.

Klassifizierung

Bei dieser Methode werden bestimmte Ereignisse in Videos klassifiziert oder kategorisiert. Diese Methode ist nützlich, wenn bestimmte Bewegungen oder Handlungen identifiziert werden sollen. Klassifikation kann aber auch auf das gesamte Video angewendet werden, beispielsweise um die Qualität oder Nützlichkeit mit einem Benchmark zu vergleichen oder den Grad der Übereinstimmung mit der Botschaft, die das Video vermitteln sollte, zu messen. Video Klassifizierung findet häufig Anwendung in der Games-Branche, der Sicherheitsindustrie oder Virtual Reality.

Ereignis Tracking

Beim Tracking von Ereignissen (Event Tracking) geht es nicht darum, die Bilder eines zerlegten Videos selbst mit Annotationen zu versehen, sondern darum, Ereignisse im Video selbst zu lokalisieren und zu kennzeichnen. Dadurch können trainierte KI/ML Modelle Ereignisse von Interesse zuverlässig erkennen. Wenn Gruppen von Labels sich mit mehreren Klassen überschneiden, können die Videos dupliziert werden, um sich überschneidende Ereignisse zu annotieren.

Fallbeispiele für Video Annotation

Unterstützung von Ärzten und Forschern bei der immunologischen Forschung

Unsere Annotatoren mussten die Bewegungen verschiedener Zellen verfolgen und den Bewegungsablauf jeder Zelle abbilden. Da die Annotationen für immunologische Forschung verwendet werden sollten, war höchste Präzision erforderlich.

Gelieferte Ergebnisse

98% Genauigkeit
Wöchentliche Annotierung von 5-6 Videos
Aufbau eines Annotation Teams in vier Tagen und Annotierung von 10.000+ Bildern

Video Annotation in der Informationstechnologie

Bauherren und andere Stakeholder müssen in der Lage sein, den Bauablauf zu überwachen und sicherzustellen, dass Sicherheitsvorkehrungen eingehalten werden. Wir haben einem Kunden geholfen, seine Kosten zu reduzieren und seinen Zeitplan einzuhalten, indem wir mehr als 300 Stunden Video mit Annotationen versehen haben.

Gelieferte Ergebnisse

98% Genauigkeit
Wöchentliche Annotierung von 5-6 Videos
Aufbau eines Annotation Teams in vier Tagen und Annotierung von 10.000+ Bildern

Bewegungstracking mittels Labeling / Tagging

Bei einem Großprojekt dieses Kunden ging es darum, die Bewegungen von Personen in Videos zu verfolgen. Dazu gehörten Rennen, Laufen, Radfahren und viele andere Bewegungen. Unsere Annotatoren mussten die Abfolge von Ereignisse annotieren, als diese Bewegungen stattfanden.

Gelieferte Ergebnisse

15 annotierte Klassen von Bewegungen
>95% Genauigkeit
Team aus 30 Data Annotatoren

Videoanalyse im Sport

Unser Kunde bietet eine Videoanalyse-Software für Sportereignisse an. Bei dieser Video Annotation ging es darum, Sportvideos mit Zeitstempel von Ereignissen, den Namen der Teams, die Ereignisse selbst, Kommentare und andere spezifische Attribute zu annotieren.

Gelieferte Ergebnisse

98% Genauigkeit
Wöchentliche Annotierung von 5-6 Videos
Aufbau eines Annotation Teams in vier Tagen und Annotierung von 10.000+ Bildern

Tagging verschiedener Automarken und Modelle

Unser Kunde arbeitete an einem Produkt, mit dem sich durch die Anwendung von Computer Vision alle verschiedenen Automarken und Automodelle unterscheiden lassen. Unsere Data Annotatoren annotierten alle Automarken und Automodelle in einem Datensatz aus 50.000 kurzen Videos, die auf verschiedenen Parkplätzen aufgenommen wurden.

Gelieferte Ergebnisse

50.000 annotierte Videos
Einteilung in 750 Fahrzeugklassen
Durchführung des Projektes in 15 Tagen
>95% Genauigkeit

Erkennung menschlicher Emotionen

Wir mussten die emotionalen Grundton eines gesamten Videos anhand der darin enthaltenen Dialoge einordnen. Bei diesem Projekt arbeiteten wir mit unseren deutschsprachigen Annotatoren, um Zeiträume mit bestimmten Dialogen auszuwählen und mit einem geeigneten Label zu versehen.

Gelieferte Ergebnisse

98% Genauigkeit
Wöchentliche Annotierung von 5-6 Videos
Aufbau eines Annotation Teams in vier Tagen

Arbeiten Sie mit führenden Spezialisten an Ihrem KI/ ML-Projekt

Unser kleinster Projektumfang liegt bei 735 produktiven Arbeitsstunden pro Monat. Das entspricht 5 Data Annotatoren, die jeden Monat an einem Projekt arbeiten.