Meta stellt Open Source Llama 3.2 vor: KI, die sieht und in Ihre Tasche passt

Es war eine gute Woche für Open-Source-KI.

Am Mittwoch kündigte Meta ein Upgrade seines hochmodernen großen Sprachmodells, Llama 3.2, an, und es kann nicht nur sprechen – es sieht.

Noch interessanter ist, dass sich einige Versionen ohne Qualitätsverlust auf Ihr Smartphone laden lassen. Das bedeutet, dass Sie möglicherweise private lokale KI-Interaktionen, Apps und Anpassungen nutzen können, ohne Ihre Daten an Server von Drittanbietern senden zu müssen.

Llama 3.2 wurde am Mittwoch während Meta Connect vorgestellt und ist in vier Varianten erhältlich, jede mit einer anderen Schlagkraft. Die Schwergewichte – 11B- und 90B-Parametermodelle – zeigen ihre Stärken sowohl bei der Text- als auch bei der Bildverarbeitung.

Sie können komplexe Aufgaben bewältigen, etwa das Analysieren von Diagrammen, das Beschriften von Bildern und sogar das Auffinden von Objekten in Bildern anhand von Beschreibungen in natürlicher Sprache.

Llama 3.2 erschien in derselben Woche wie Molmo des Allen Institute, das in synthetischen Benchmarks als das beste Open-Source-LLM für multimodale Vision gilt und in unseren Tests auf Augenhöhe mit GPT-4o, Claude 3.5 Sonnet und Reka Core abschnitt.

Zucks Unternehmen stellte außerdem zwei neue Champions im Fliegengewicht vor: ein Paar 1B- und 3B-Parametermodelle, die auf Effizienz, Geschwindigkeit und begrenzte, aber sich wiederholende Aufgaben ausgelegt sind, die nicht zu viele Rechenleistungen erfordern.

Diese kleinen Modelle sind mehrsprachige Textmeister mit einem Händchen für „Tool-Calling“, was bedeutet, dass sie sich besser in Programmiertools integrieren lassen. Trotz ihrer geringen Größe verfügen sie über ein beeindruckendes 128K-Token-Kontextfenster – das gleiche wie GPT4o und andere leistungsstarke Modelle – und sind damit ideal für die Zusammenfassung auf dem Gerät, das Befolgen von Anweisungen und das Umschreiben von Aufgaben.

Um dies zu erreichen, hat das Entwicklungsteam von Meta einiges an digitaler Gymnastik vollbracht. Zunächst haben sie durch strukturiertes Beschneiden die unnötigen Daten aus größeren Modellen entfernt, dann haben sie Wissensdestillation eingesetzt – also das Übertragen von Wissen aus großen Modellen auf kleinere –, um zusätzliche Intelligenz hineinzuquetschen.

Das Ergebnis war eine Reihe kompakter Modelle, die die Leistung der Konkurrenz in ihrer Gewichtsklasse übertrafen und bei verschiedenen Benchmarks Modelle wie Googles Gemma 2 2.6B und Microsofts Phi-2 2.7B übertrafen.

Meta arbeitet auch hart daran, die geräteinterne KI zu verbessern. Sie haben Allianzen mit den Hardware-Giganten Qualcomm, MediaTek und Arm geschlossen, um sicherzustellen, dass Llama 3.2 vom ersten Tag an gut mit mobilen Chips funktioniert. Auch die Giganten des Cloud-Computings kommen nicht zu kurz – AWS, Google Cloud, Microsoft Azure und viele andere bieten auf ihren Plattformen sofortigen Zugriff auf die neuen Modelle.

Unter der Haube verdanken Llama 3.2 seine Vision-Fähigkeiten cleveren architektonischen Optimierungen. Die Ingenieure von Meta haben Adaptergewichte in das vorhandene Sprachmodell integriert und so eine Brücke zwischen vorab trainierten Bildcodierern und dem Textverarbeitungskern geschaffen.

Mit anderen Worten: Die Bildverarbeitungsfähigkeiten des Modells gehen nicht auf Kosten seiner Textverarbeitungskompetenz, sodass Benutzer im Vergleich zu Llama 3.1 ähnliche oder bessere Textergebnisse erwarten können.

Die Version 3.2 von Llama ist Open Source – zumindest nach den Maßstäben von Meta. Meta stellt die Modelle auf Llama.com und Hugging Face sowie über sein umfangreiches Partner-Ökosystem zum Download bereit.

Wer es in der Cloud ausführen möchte, kann sein eigenes Google Collab Notebook verwenden oder Groq für textbasierte Interaktionen nutzen und so in weniger als 3 Sekunden fast 5000 Token generieren.

Auf dem Lama reiten
Wir haben Llama 3.2 auf Herz und Nieren geprüft und seine Fähigkeiten bei verschiedenen Aufgaben schnell getestet.

Bei textbasierten Interaktionen ist die Leistung des Modells mit seinen Vorgängern vergleichbar. Die Codierungsfähigkeiten führten jedoch zu gemischten Ergebnissen.

Beim Test auf der Plattform von Groq konnte Llama 3.2 erfolgreich Code für beliebte Spiele und einfache Programme generieren. Das kleinere Modell 70B stolperte jedoch, als es darum ging, funktionsfähigen Code für ein von uns entwickeltes Spiel zu erstellen. Das leistungsstärkere Modell 90B war jedoch viel effizienter und generierte beim ersten Versuch ein funktionsfähiges Spiel.

Sie können den vollständigen von Llama-3.2 und allen anderen von uns getesteten Modellen generierten Code sehen, indem Sie auf diesen Link klicken.

Stile und subjektive Elemente in Bildern erkennen
Llama 3.2 ist hervorragend darin, subjektive Elemente in Bildern zu identifizieren. Als man ein futuristisches Bild im Cyberpunk-Stil präsentierte und fragte, ob es zur Steampunk-Ästhetik passe, identifizierte das Modell den Stil und seine Elemente genau. Es lieferte eine zufriedenstellende Erklärung und stellte fest, dass das Bild nicht zu Steampunk passte, da wichtige Elemente fehlten, die mit diesem Genre assoziiert werden.

Chartanalyse (und SD-Bilderkennung)
Die Diagrammanalyse ist eine weitere Stärke von Llama 3.2, allerdings sind für eine optimale Leistung hochauflösende Bilder erforderlich. Als wir einen Screenshot mit einem Diagramm eingaben – eines, das andere Modelle wie Molmo oder Reka interpretieren konnten –, ließen Llamas Sehfähigkeiten nach. Das Modell entschuldigte sich und erklärte, dass es die Buchstaben aufgrund der Bildqualität nicht richtig lesen konnte.

Text in der Bildidentifikation
Während Llama 3.2 mit kleinem Text in unserem Diagramm Probleme hatte, funktionierte es beim Lesen von Text in größeren Bildern einwandfrei. Wir zeigten ihm eine Präsentationsfolie, in der eine Person vorgestellt wurde, und das Modell verstand den Kontext erfolgreich und unterschied fehlerfrei zwischen dem Namen und der Berufsrolle.

Urteil
Insgesamt stellt Llama 3.2 eine große Verbesserung gegenüber der vorherigen Generation dar und ist eine großartige Ergänzung für die Open-Source-KI-Branche. Seine Stärken liegen in der Bildinterpretation und der Erkennung großer Texte, wobei es in einigen Bereichen noch Verbesserungspotenzial gibt, insbesondere bei der Verarbeitung von Bildern geringerer Qualität und der Bewältigung komplexer, benutzerdefinierter Codierungsaufgaben.

Das Versprechen der On-Device-Kompatibilität ist auch gut für die Zukunft privater und lokaler KI-Aufgaben und stellt ein großartiges Gegengewicht zu geschlossenen Angeboten wie Gemini Nano und den proprietären Modellen von Apple dar.

Herausgegeben von Josh Quittner und Sebastian Sinclair
Weitere Inhalte des Erstellers entdecken

Aktuelle Nachrichten