Anthropic LLMs übertreffen OpenAI, Meta & Google in aktuellen Rankings

Transparenz
Highlights

  • Claude 3.5 Sonnet von Anthropic führt den Galileo Hallucination Index an und übertrifft damit die großen Tech-Unternehmen.
  • Open-Source-KI-Modelle verbessern sich rasch und stellen die Dominanz der Closed-Source-Alternativen in Frage.
  • Die ethische Datenerfassung bleibt eine große Herausforderung für die Branche.

Das Large Language Model (LLM) von Anthropic hat im aktuellen Ranking von Galileo den ersten Platz belegt und damit die Modelle von OpenAI, Meta und Google überholt.

Galileo, ein auf generative KI spezialisiertes Unternehmen, hat seinen zweiten Hallucination Index Report veröffentlicht. Der Bericht bewertet die besten LLMs anhand ihrer Fähigkeit, menschenähnlichen Text zu verarbeiten, zu verstehen und zu generieren. Die Modelle von Anthropic haben in allen Bereichen am besten abgeschnitten.

LLMs von Anthropic übertreffen Retrieval-erweiterte Generierung

Laut Pressemitteilung des Unternehmens wurden im Hallucination Index geschlossene und Open-Source-LLMs anhand von drei RAG-Aufgaben (Retrieval-Augmented Generation) getestet.

Die Forscher bewerteten die Modelle anhand verschiedener Datensätze mit drei unterschiedlichen Kontextlängen. Sie verwendeten auch eine Leistungsmetrik namens Context Adherence, um die Genauigkeit zu messen und Halluzinationen in geschlossenen Bereichen zu reduzieren, d.h. ein Szenario, in dem ein Modell Dinge sagt, die nicht in den Kontextdaten enthalten sind.

In der Pressemitteilung heißt es, dass in diesem Jahr 11 Modelle in den Index aufgenommen wurden, was das schnelle Wachstum sowohl der offenen als auch der geschlossenen LLMs in nur acht Monaten widerspiegelt. Während die Marken darum kämpfen, größere, schnellere und präzisere Modelle zu erstellen, bleiben Halluzinationen das größte Hindernis für den Einsatz serienreifer Gen-KI-Produkte.

Der Halluzinationsindex ergab, dass die Modelle Claude 3.5 Sonnet und Claude 3 Opus von Anthropic die beste Gesamtleistung erbringen. Die Anthropic LLMs schlugen den letztjährigen Gewinner OpenAI GPT-4o und andere Konkurrenten in kurzen, mittleren und langen Kontext-Szenarien.

Claude 3.5 Sonnet zeichnete sich durch seine mathematischen Fähigkeiten auf mittlerem und hohem Niveau aus, wie sein gutes Abschneiden bei den DROP-Benchmarks zeigt. Diese Benchmarks testen die Fähigkeit eines Modells, mathematische Probleme zu lösen, die ein numerisches Verständnis erfordern.

Das Modell Gemini 1.5 Flash von Google erwies sich als das kostengünstigste Modell und lieferte bei allen Aufgaben eine beeindruckende Leistung im Verhältnis zu seinen Kosten. Das Qwen2-72B-Instruct von Alibaba war führend in der RAG-Leistung im kurzen und mittleren Kontext und wurde als bestes Open-Source-Modell im Index gelobt.

Eine wichtige Erkenntnis des Berichts ist, dass Open-Source-Modelle wie Qwen1.5-32B und Llama-3-70b-Chat gegenüber Closed-Source-Modellen aufholen. Diese Open-Source-Modelle haben verbesserte Funktionen für Halluzinationen (falsche Ausgaben) und sind immer noch kostengünstig, was sie zu brauchbaren Alternativen zu Closed-Source-Modellen macht.

Die Ethik der LLM-Ausbildung

Trotz beeindruckender Leistungssteigerungen stehen viele LLMs immer noch vor der Herausforderung, ihre Modelle verantwortungsvoll zu trainieren. Dies wurde kürzlich deutlich, als Meta in Brasilien verboten wurde, Nutzerdaten von seinen Plattformen zu sammeln, um KI-Modelle zu trainieren. Brasilien ist mit über 102 Millionen Facebook-Nutzern einer der größten Märkte für Meta in Lateinamerika.

Auch Anthropics Claude 3.5 wurde des exzessiven Web-Scrapings beschuldigt, das Websites und Nutzern schade. Die CEOs des australischen Stellenmarktes Freelancer.com und der Reparatur-Community iFixit, Matt Barrie und Kyle Wiens, haben sich gegen das Vorgehen von Anthropic ausgesprochen. Sie argumentieren, dass der Webcrawler des Unternehmens ihre Websites verlangsamt und im Fall von iFixit gegen die Nutzungsbedingungen verstößt.

Um dies zu verhindern, mussten sie den Crawler explizit über eine robots.txt-Datei blockieren. Dieses Problem zeigt, dass KI-Unternehmen ihre Inhalte auf legale

Jimmy Aki
Krypto & Blockchain Redakteur
Jimmy Aki
Krypto & Blockchain Redakteur

Der Absolvent der University of Virginia, der jetzt in Großbritannien lebt, verfolgt die Entwicklung der Blockchain seit mehreren Jahren und ist optimistisch, dass sie das Finanzsystem demokratisieren kann. Jimmys frühere Veröffentlichungen finden sich auf BeInCrypto, Bitcoin Magazine, Decrypt, EconomyWatch, Forkast.news, Investing.com, Learnbonds.com, MoneyCheck.com, Buyshares.co.uk und einer Reihe anderer führender Medien. Jimmy investiert seit 2018 selbst in Bitcoin und seit ihrem Boom im Jahr 2021 in nicht-fungible Token (NFTs) und verfügt über Expertise in den Bereichen Handel, Krypto-Mining und persönliche Finanzen. Neben dem Schreiben für Techopedia ist Jimmy auch ein ausgebildeter Wirtschaftswissenschaftler, Buchhalter und Blockchain-Ausbilder mit praktischer Berufserfahrung im Finanzsektor, die…