Encord, ein Neuling in der KI-Datenkennzeichnung, will auf einer steigenden Flutwelle reiten – TechCrunch

Encord, ein Neuling in der KI-Datenkennzeichnung, will auf einer steigenden Flutwelle reiten – BesteFuhrer

Bevor Sie auch nur daran denken können, einen Algorithmus zu entwickeln, um ein Röntgenbild zu lesen oder einen Blutausstrich zu interpretieren, muss die Maschine wissen, was was auf einem Bild ist. Das ganze Versprechen der KI im Gesundheitswesen – einem Bereich, der im Jahr 2021 11,3 Milliarden US-Dollar an privaten Investitionen angezogen hat – kann nicht ohne sorgfältig gekennzeichnete Datensätze realisiert werden, die Maschinen sagen, wonach sie genau suchen.

Das Erstellen dieser beschrifteten Datensätze wird selbst zu einer Branche, in der sich Unternehmen rühmen, die weit nördlich des Einhornstatus liegen. Heute möchte Encord, ein kleines Startup aus Y Combinator, einen Teil der Aktion übernehmen. Mit dem Ziel, beschriftete Datensätze für Computer-Vision-Projekte zu generieren, hat Encord seine eigene Beta-Version eines KI-gestützten Beschriftungsprogramms namens CordVision auf den Markt gebracht. Der Start folgt Pilotprogrammen an der Stanford Medicine, Memorial Sloan Kettering und dem Kings College London. Es wurde auch von Kheiron Medical und Viz AI getestet.

Encord hat eine Reihe von Werkzeugen entwickelt, mit denen Radiologen in DICOM-Bilder hineinzoomen können, ein Format, das allgemein zur Übertragung medizinischer Bilder verwendet wird. Und anstatt einen Radiologen dazu zu bringen, sich hinzusetzen und ein ganzes Bild mit Anmerkungen zu versehen, ist die Software so konzipiert, dass sichergestellt wird, dass nur wichtige Teile des Bildes beschriftet werden.

Encord wurde 2020 von Eric Landau, der einen Hintergrund in angewandter Physik hat, und Ulrik Stig Hansen gegründet. Hansen arbeitete am Imperial College London an einem Masterarbeitsprojekt, bei dem es um die Visualisierung großer medizinischer Bilddatensätze ging. Hansen war es, der zunächst bemerkte, wie zeitaufwändig es war, beschriftete Datensätze zu kuratieren.

Diese beschrifteten Datensätze sind wichtig, weil sie „Grundwahrheiten“ liefern, von denen Algorithmen lernen können. Es gibt einige Möglichkeiten, KI zu entwickeln, die keine beschrifteten Datensätze erfordern, aber weitgehend hat sich die KI (insbesondere im Gesundheitswesen) auf überwachtes Lernen verlassen, was sie erfordert.

Um einen beschrifteten Datensatz zu erstellen, geht mehr als ein Arzt die Bilder buchstäblich einzeln durch und zeichnet Polygone um relevante Merkmale. In anderen Fällen kann dies mit Open-Source-Tools oder -Sensoren erfolgen. Wie auch immer, die wissenschaftliche Literatur deutet darauf hin, dass dieser Schritt einen großen Engpass in der Welt der KI im Gesundheitswesen darstellt, insbesondere in der Radiologie, einem Bereich, in dem der KI große Fortschritte prognostiziert wurden, der jedoch weitgehend keine großen Paradigmenwechsel bewirkt hat .

„Ich weiß, dass es eine Menge Skepsis gibt [of AI in the medical world]. Wir glauben, dass der Fortschritt sehr langsam ist“, sagte Landau gegenüber BesteFuhrer. „Wir glauben, dass der Übergang zu einem Ansatz, bei dem man sich in erster Linie wirklich Gedanken über die Trainingsdaten macht, dazu beitragen wird, die Weiterentwicklung dieser Modelle zu beschleunigen.“

Wie die Autoren eines Artikels aus dem Jahr 2021 in Frontiers in Radiology anmerken, brauchen menschliche Etikettierer 24 Jahre Arbeit, um einen Datensatz mit etwa 100.000 Bildern zu etikettieren. Eine weitere Stellungnahme der European Association of Nuclear Medicine (EANM) und der European Association of Cardiovascular Imaging (EACVI) aus dem Jahr 2021 stellt fest, dass „die Beschaffung gekennzeichneter Daten bei der medizinischen Bildanalyse zeitaufwändig und teuer sein kann“. Aber es weist auch darauf hin, dass neue Techniken entstehen, die die Dinge beschleunigen können.

Bildnachweis: Encord DICOM-Etikettierungsplattform

Ironischerweise sind diese neuen Techniken selbst Versionen künstlicher Intelligenz. Das Papier Frontiers in Radiology aus dem Jahr 2021 zeigte beispielsweise, dass der Prozess durch die Anwendung eines aktiven Lernansatzes um 87 % schneller sein könnte. Es würde nur 3,2 Arbeitsjahre dauern, im Gegensatz zu den 24 Jahren, um zum Beispiel mit 100.000 Bildern zurückzukehren.

CordVision ist im Grunde eine Version eines aktiven Lernprozesses namens Mikromodellierung. Diese Technik funktioniert im Großen und Ganzen, indem ein Team eine kleine, repräsentative Auswahl der Bilder beschriftet. Dann wird eine bestimmte KI auf diese Bilder trainiert und dann auf den breiteren Pool angewendet, den die KI beschriftet. Dann können menschliche Prüfer die Arbeit der KI überprüfen, anstatt die Kennzeichnung von Grund auf neu vorzunehmen.

Landu schlüsselt es in einem Blogbeitrag auf seiner Medium-Seite gut auf: Stellen Sie sich vor, Sie erstellen einen Algorithmus, der entwickelt wurde, um The Batman in Batman-Filmen zu erkennen. Ihr Mikromodell würde auf fünf Bildern trainiert, die den Batman von Christian Bale darstellen. Ein anderer könnte trainiert werden, Ben Afflecks Batman zu erkennen, und so weiter. Alles in allem bauen Sie den größeren Algorithmus aus jedem kleinen Teil auf und setzen ihn dann für die Serie als Ganzes frei.

„Wir haben festgestellt, dass das ziemlich gut funktioniert, weil man mit sehr, sehr wenigen Anmerkungen und Bootstrapping des Prozesses davonkommen könnte“, sagte er.

Encord hat Daten veröffentlicht, um Landaus Behauptungen zu untermauern. Beispielsweise verglich eine in Zusammenarbeit mit dem Kings College London durchgeführte Studie CordVision mit einem von Intel entwickelten Kennzeichnungsprogramm. Fünf Labeler adressierten 25.744 Endoskopie-Videoframes. Die Gastroenterologen, die CordVision verwendeten, bewegten sich 6,4-mal schneller.

Die Methode war auch wirksam, wenn sie auf einen Testsatz von 15.521 COVID-19-Röntgenstrahlen angewendet wurde. Nur 5 % aller Bilder wurden überprüft, und die endgültige Genauigkeit eines KI-Kennzeichnungsmodells betrug 93,7 %.

Allerdings ist Enord bei weitem nicht das einzige Unternehmen, das diesen Engpass erkannt und versucht hat, KI einzusetzen, um den Etikettierungsprozess zu vereinfachen. Bestehende Unternehmen in diesem Bereich melden bereits hohe Bewertungen. Beispielsweise erreichte Scale AI im Jahr 2021 eine Bewertung von 7,3 Milliarden US-Dollar und Snorkel hat den Status eines Einhorns erreicht.

Der größte Konkurrent des Unternehmens ist nach Landaus Eingeständnis wahrscheinlich Labelbox. Labelbox hatte ungefähr 50 Kunden, als BesteFuhrer sie in der Phase der Serie A behandelte. Im Januar schloss das Unternehmen eine Serie D im Wert von 110 Millionen US-Dollar ab und war damit in unmittelbarer Nähe der 1-Milliarden-Dollar-Marke.

CordVision ist immer noch ein sehr kleiner Fisch. Aber es ist in eine Datenkennzeichnungs-Flutwelle geraten. Landau sagt, dass das Unternehmen nach Orten sucht, die noch Open-Source- oder interne Tools verwenden, um ihre eigene Datenkennzeichnung vorzunehmen.

Bisher hat das Unternehmen seit seinem Abschluss bei Y Combinator 17,1 USD an Seed- und Series-A-Finanzierung aufgebracht. Das Unternehmen ist von seinen beiden Gründern auf ein Team von 20 Mitarbeitern angewachsen. Encord, sagt Landau, verbrenne kein Geld. Das Unternehmen sucht derzeit keine Mittelbeschaffung und glaubt, dass die aktuellen Spenden ausreichen werden, um dieses Tool durch den Kommerzialisierungsprozess zu bringen.

Leave a Comment

Your email address will not be published.