Topp 10 pålitliga AI-modeller år 2024

Varför oss?

I dagens värld håller artificiell intelligens (AI) på att förändra viktiga områden som sjukvård, transport och finans. Med stora språkmodeller (LLM) i framkant är det mer kritiskt än någonsin att säkerställa deras säkerhet, begränsningar och risker.

För att hjälpa till att göra etiska val har trovärdigheten hos olika LLM:er utvärderats med hjälp av DecodingTrust-ramverket. Denna plattform, som vann ett pris vid NeurIPs’23, ger detaljerade bedömningar av LLM:s risker och pålitlighet.

Vi undersöker hur bedömningarna görs och, viktigast av allt, vilka AI-modeller du bör använda om förtroende är din högsta prioritet.

Viktiga slutsatser om de mest tillförlitliga AI-modellerna

  • Claude 2.0 rankas som den säkraste AI-modellen med en tillförlitlighetspoäng på 85.
  • GPT-4 är mer känslig för vilseledande uppmaningar jämfört med GPT-3.5.
  • Ingen enskild AI-modell utmärker sig på alla områden; alla har unika styrkor och sårbarheter.

Topp 10 mest pålitliga AI-modeller

Från och med 2024 rankade LLM Safety Leaderboard, värd av Hugging Face och baserat på DecodingTrust, Anthropics Claude 2.0 som den säkraste modellen, med en 85 pålitlighetspoäng.

Claude 2.0 följdes av Meta’s Llama-2-7b-chat-hf (75 pålitlighetspoäng) och OpenAI’s GPT-3.5-turbo-0301 (poäng på 72).

Några topplinjeslutsatser som kommer från testerna inkluderar:

  • GPT-4 är mer sårbar än GPT-3.5, särskilt när det gäller vilseledande uppmaningar.
  • Ingen enskild LLM är bäst inom alla tillförlitlighetsområden. Olika modeller utmärker sig i olika aspekter.
  • Förbättring av ett tillförlitlighetsområde kan leda till sämre prestanda inom ett annat.
  • LLM:er förstår sekretessbegrepp på olika sätt. GPT-4 kanske t.ex. inte läcker privat information när den tillfrågas med “i förtroende”, men kanske gör det när den tillfrågas med “konfidentiellt”.
  • LLM:er kan vilseledas av motsägelsefulla eller knepiga instruktioner.

Pålitliga AI-modeller: Vad menar vi med “pålitlig”?

LLM Safety Leaderboard använder DecodingTrust-ramverket, som tittar på åtta huvudsakliga trovärdighetsaspekter:

  • Toxicitet

DecodingTrust testar hur väl AI:n hanterar utmanande uppmaningar som kan leda till giftiga eller skadliga svar. Den använder verktyg för att skapa svåra scenarier och kontrollerar sedan AI:ns svar för att upptäcka eventuellt giftigt innehåll.

  • Stereotyper och fördomar

Utvärderingen tittar på hur partisk AI:n är mot olika demografiska grupper och stereotypa ämnen. AI:n testas flera gånger på olika uppmaningar för att se om den behandlar någon grupp orättvist.

    • Robusthet mot motspelare

    Här testas hur väl AI:n kan försvara sig mot knepiga, vilseledande indata som är utformade för att förvirra den. Det använder fem olika attackmetoder på flera öppna modeller för att se hur robust AI är.

    • Robusthet utanför distributionen

    Här kontrolleras hur AI:n hanterar ovanliga inmatningsstilar, t.ex. Shakespeares språk eller poetiska former, och om den kan svara på frågor när den kunskap som krävs inte ingick i dess utbildning.

    • Sekretess

    Integritetstester kontrollerar om AI:n läcker känslig information som e-postadresser eller kreditkortsnummer. Det utvärderas också hur väl AI:n förstår integritetsrelaterade termer och situationer.

      • Robusthet mot kontroversiella demonstrationer

      AI:n testas med demonstrationer som innehåller falsk eller vilseledande information för att avgöra dess förmåga att identifiera och hantera dessa knepiga scenarier.

      • Maskinens etik

      Här testas AI:ns förmåga att känna igen och undvika omoraliskt beteende. Särskilda dataset och uppmaningar används för att se om AI:n kan identifiera och reagera på etiska frågor på lämpligt sätt.

      • Rättvisa

      Rättvisetestet ser om AI:n behandlar alla individer lika, oavsett bakgrund. Modellen ställs inför utmanande frågor för att säkerställa att den inte visar partiskhet i sina svar.

      Varje aspekt poängsätts från 0-100, där högre poäng innebär bättre prestanda.

      För att AI-modeller ska vara ansvarsfulla måste de klara sig bra inom alla dessa områden. DecodingTrust ger en övergripande pålitlighetspoäng, där högre poäng visar mer pålitliga modeller.

      Slutsatsen om årets mest pålitliga AI-modeller

      Insatserna är höga. I takt med att AI-modellerna fortsätter att ta sig in på viktiga områden är tillförlitliga data inte ett tillval – de är helt avgörande.

      De senaste resultaten visar att ingen enskild modell är den bästa inom alla områden, utan att alla har sina styrkor och svagheter. Anthropics Claude 2.0 är för närvarande den säkraste modellen, men GPT-4:s högre sårbarhet för vilseledande uppmaningar visar att det finns ett akut behov av förbättringar.

      Vi efterlyser därför fortsatt forskning och innovation. Att skapa mer tillförlitliga och etiska AI-tekniker är inte bara en teknisk utmaning utan också en moralisk plikt. Framtiden beror på hur väl vi lyckas med denna utmaning.

      Relaterade nyheter

      Maria Webb
      Tech Journalist
      Maria Webb
      Teknikjournalist

      Maria Webb är en skicklig innehållsspecialist med 5+ års erfarenhet av journalistik och är för närvarande teknikjournalist för Business2Community och Techopedia, specialiserad på datadrivna artiklar. Hon har ett särskilt intresse för AI och posthumanism. Marias journalistiska resa inkluderar 2 år som statistikjournalist på Eurostat, där hon skapade övertygande datacentrerade nyhetsartiklar, och 3 år på Newsbook.com.mt som täckte lokala och internationella nyheter.