AssemblyAI schnappt sich 28 Millionen Dollar für eine All-in-One-API zum Transkriptieren, Zusammenfassen und Moderieren von Audio – TechCrunch

AssemblyAI schnappt sich 28 Millionen Dollar für eine All-in-One-API zum Transkriptieren, Zusammenfassen und Moderieren von Audio – BesteFuhrer

Die Explosion von Audio- und Videoinhalten und -schnittstellen in den letzten Jahren war deutlich zu sehen, aber die Möglichkeiten, mit all diesen Medien hinter den Kulissen umzugehen, haben noch nicht ganz aufgeholt. AssemblyAI, das durch neue Mittel in Höhe von 28 Millionen US-Dollar unterstützt wird, zielt darauf ab, die Lösung der Wahl für die Analyse von Sprache zu werden, indem es einen ultraeinfachen API-Zugriff zum Transkribieren, Zusammenfassen und anderweitigen Herausfinden dessen bietet, was in Tausenden von Audiostreams gleichzeitig vor sich geht.

Multimedia ist in unglaublich kurzer Zeit für so vieles zum Standard geworden: Telefonate und Meetings wurden zu Videoanrufen, Social-Media-Posts zu 10-Sekunden-Clips, Chatbots lernten zu sprechen und Sprache zu verstehen. Unzählige neue Anwendungen entstehen, und wie in jeder neuen und wachsenden Branche müssen die Menschen in der Lage sein, mit den Daten zu arbeiten, die diese Anwendungen produzieren, um sie gut auszuführen oder etwas Neues darauf aufzubauen.

Das Problem ist, dass es nicht einfach ist, mit Audio zu arbeiten. Wie „durchsucht“ man einen Audiostream? Sie könnten sich die Wellenform ansehen oder sie durchscrubben, aber wahrscheinlich möchten Sie sie zuerst transkribieren und dann den resultierenden Text durchsuchen. Hier kommt AssemblyAI ins Spiel: Obwohl es zahlreiche Transkriptionsdienste gibt, ist es oft nicht einfach, sie in Ihre eigene App oder Ihren Unternehmensprozess zu integrieren.

„Wenn Sie Inhalte moderieren, suchen oder Audiodaten zusammenfassen möchten, müssen Sie diese Daten in ein flexibleres Format umwandeln, auf dem Sie Funktionen und Geschäftsprozesse aufbauen können“, sagte der CEO und Co-Manager von AssemblyAI. Gründer Dylan Fox. „Also dachten wir uns, lasst uns eine supergenaue Sprachanalyse-API bauen, die jeder aufrufen kann, sogar bei einem Hackathon – wie eine Integration im Twilio- oder Stripe-Stil. Die Leute brauchen viel Hilfe, um diese Funktionen zu entwickeln, aber sie wollen nicht einen Haufen Anbieter zusammenkleben.“

AssemblyAI bietet eine Handvoll verschiedener APIs, die Sie sehr einfach aufrufen können (ein oder zwei Zeilen Code), um Aufgaben wie „Überprüfen Sie diesen Podcast auf verbotene Inhalte“ oder „Identifizieren Sie die Sprecher in diesem Gespräch“ oder „Zusammenfassen dieses Meetings“ auszuführen weniger als 100 Wörter.“

Beispiele für Code, der zum Aufrufen der API von Assembly AI verwendet wird.

Codieren, aufrufen, fertig. Bildnachweis: AssemblyAI

Sie können sehr wohl, wie ich es war, skeptisch sein, dass ein einziges kleines Unternehmen Arbeitswerkzeuge herstellen kann, um so viele Aufgaben so einfach zu erledigen, wenn man bedenkt, wie komplex sich diese Aufgaben herausstellen, wenn man sich erst einmal damit beschäftigt. Fox räumte ein, dass dies eine Herausforderung sei, sagte aber, dass die Technologie in kurzer Zeit einen langen Weg zurückgelegt habe.

„Die Genauigkeit dieser Modelle hat insbesondere in den letzten Jahren rapide zugenommen“, sagte er. „Zusammenfassung, Sentimenterkennung … jetzt sind sie alle wirklich gut. Und wir treiben tatsächlich den Stand der Technik voran – unsere Modelle sind besser als das, was da draußen ist, weil wir eines der wenigen Start-ups sind, die wirklich groß angelegte Deep-Learning-Forschung betreiben. Wir werden allein in den nächsten Monaten über eine Million Dollar für GPU und Computer für F&E und Training ausgeben.“

Es kann schwieriger sein, es intuitiv zu verstehen, weil es nicht so leicht zu demonstrieren ist, aber Sprachmodelle sind ebenso entstanden wie Dinge wie die Bilderzeugung (This ___ does not exist) und Computer Vision (Face ID, Überwachungskameras). Natürlich ist GPT-3 ein bekanntes Beispiel dafür, aber Fox wies darauf hin, dass das Verstehen und Generieren des geschriebenen Wortes praktisch ein völlig anderer Forschungsbereich ist als die Analyse von Gesprächen und beiläufiger Rede. Obwohl die gleichen Fortschritte bei maschinellen Lerntechniken (wie Transformatoren und neue, effizientere Trainingsframeworks) zu beiden beigetragen haben, sind sie in den meisten Fällen wie Äpfel und Birnen.

Das Ergebnis war jedenfalls, dass es möglich ist, effektive Moderations- oder Zusammenfassungsprozesse an einem wenige Sekunden oder einer Stunde langen Audioclip durchzuführen, indem einfach die API aufgerufen wird. Das ist immens nützlich, wenn Sie eine Funktion wie zum Beispiel Kurzvideos erstellen oder integrieren – wenn Sie davon ausgehen, dass jede Stunde hunderttausend Clips hochgeladen werden, wie gehen Sie vor, um im ersten Schritt sicherzustellen, dass es sich nicht um Pornos handelt? , oder Betrug oder Duplikate? Und wie lange wird sich der Start verzögern, während Sie diesen Prozess aufbauen?

Stattdessen, so hofft Fox, werden Unternehmen in dieser Position nach einem einfachen und effektiven Weg nach vorne suchen, so wie sie es tun würden, wenn sie vor der Aufgabe stehen würden, einen Zahlungsprozess hinzuzufügen. Natürlich könnten Sie einen von Grund auf neu erstellen – oder Sie könnten Stripe in etwa 15 Minuten hinzufügen. Dies ist nicht nur grundsätzlich wünschenswert, sondern unterscheidet sie auch deutlich von den komplexeren Multi-Service-Paketen, die Audioanalyseprodukte großer Anbieter wie Microsoft und Amazon definieren.

Der besagte Fuchs.

Der besagte Fuchs. Bildnachweis: Jens Panduro

Das Unternehmen hat bereits Hunderte von zahlenden Kunden, hat seinen Umsatz im letzten Jahr verdreifacht und verarbeitet jetzt täglich eine Million Audiostreams. „Wir sind zu 100 % live. Es gibt einen riesigen Markt und einen riesigen Bedarf, und die Ausgaben der Kunden sind da“, sagte Fox.

Die 28-Millionen-Dollar-A-Runde wurde „von Accel geleitet, unter Beteiligung von Y Combinator, John und Patrick Collison (Stripe), Nat Friedman (GitHub) und Daniel Gross (Pioneer).“ Der Plan ist, all diese Nullen auf die Rekrutierung, die F&E-Infrastruktur und den Aufbau der Produktpipeline zu verteilen. Wie Fox feststellte, gibt das Unternehmen in den nächsten Monaten eine Million für GPUs und Server aus, eine Reihe von Nvidia A100s, die die unglaublich rechenintensiven Forschungs- und Schulungsprozesse antreiben werden. Andernfalls müssen Sie für Cloud-Dienste bezahlen, also ist es besser, das Pflaster frühzeitig abzureißen.

Was die Rekrutierung betrifft, so habe ich angedeutet, dass es ihnen schwerfallen könnte, im direkten Wettbewerb mit Unternehmen wie Google und Facebook Personal einzustellen, die natürlich hart an ihren eigenen Audioanalyse-Pipelines arbeiten. Fox war jedoch optimistisch und hatte das Gefühl, dass die Kultur dort langsam und erstickend sein kann.

„Ich denke, wirklich gute KI-Forscher und -Ingenieure haben definitiv den Wunsch, am Puls der Zeit zu arbeiten – und am Puls der Zeit in Produktion,” er sagte. „Man denkt sich etwas Innovatives aus und hat es ein paar Wochen später in Produktion … ein Startup ist der einzige Ort, an dem man so etwas machen kann.“

Leave a Comment

Your email address will not be published.