Topp 10 pålitelige AI-modeller i 2024

Hvorfor oss?

Fremveksten av kunstig intelligens (KI) er i ferd med å forandre viktige områder som helse, transport og finans. Med store språkmodeller (LLM-er) i spissen er det viktigere enn noensinne å sikre tilgang til pålitelige AI-modeller ved å vurdere sikkerhet, begrensninger og risikoer.

For å gjøre det enklere å ta etiske valg har vi evaluert de mest pålitelige AI-modeller til ulike LLM-er ved hjelp av DecodingTrust-rammeverket. Denne plattformen, som vant en pris på NeurIPs’23, gir detaljerte vurderinger av LLM-risikoer og pålitelighet.

Vi ser nærmere på hvordan vurderingene gjøres, og ikke minst hvilke AI-modeller du bør bruke dersom tillit er din høyeste prioritet.

Nøkkelpunkter

  • Claude 2.0 er vurdert som den tryggeste AI-modellen med en pålitelighetsscore på 85.
  • GPT-4 er mer utsatt for villedende meldinger sammenlignet med GPT-3.5.
  • Ingen AI-modell utmerker seg på alle områder; hver modell har sine unike styrker og sårbarheter.

Topp 10 mest pålitelige AI-modeller

Per 2024 rangerte LLM Safety Leaderboard, som drives av Hugging Face og er basert på DecodingTrust, Anthropics Claude 2.0 som den tryggeste modellen, med en pålitelighetsscore på 85.

Claude 2.0 ble etterfulgt av Metas Llama-2-7b-chat-hf (75 poeng) og OpenAIs GPT-3.5-turbo-0301 (72 poeng).

Noen av de viktigste konklusjonene i testene inkluderer:

  • GPT-4 er mer sårbar enn GPT-3.5, spesielt når det gjelder villedende spørsmål.
  • Ingen enkelt LLM er best på alle pålitelighetsområder. Forskjellige modeller utmerker seg på ulike områder.
  • Forbedring av ett pålitelighetsområde kan føre til dårligere resultater på et annet.
  • LLM-er forstår personvernbegreper ulikt. GPT-4 vil for eksempel kanskje ikke lekke privat informasjon når den blir bedt om å oppgi “i fortrolighet”, men kanskje når den blir bedt om å oppgi “konfidensielt”.
  • LLM-er kan bli villedet av motstridende eller vanskelige instruksjoner.

Pålitelige AI-modeller: Hva mener vi med “pålitelig”?

LLM Safety Leaderboard bruker DecodingTrust-rammeverket, som ser på åtte hovedaspekter ved pålitelighet, som sier noe om påliteligheten til AI-modeller.

  • Toksisitet / giftighet
    DecodingTrust tester hvor godt den kunstige intelligensen håndterer utfordrende beskjeder som kan føre til giftige eller skadelige reaksjoner. Verktøyet bruker verktøy for å lage vanskelige scenarier, og sjekker deretter om den kunstige intelligensens svar inneholder giftige elementer.
  • Stereotypi og partiskhet
    Evalueringen ser på hvor partisk den kunstige intelligensen er mot ulike demografiske grupper og stereotype temaer. Den tester den kunstige intelligensen flere ganger på ulike spørsmål for å se om den behandler noen grupper urettferdig.
  • Robusthet mot motstander
    Dette tester hvor godt den kunstige intelligensen kan forsvare seg mot vanskelige, villedende inndata som er utformet for å forvirre den. Den bruker fem ulike angrepsmetoder på flere åpne modeller for å se hvor robust den kunstige intelligensen er.
  • Robusthet ut av distribusjon
    Her sjekkes det hvordan den kunstige intelligensen håndterer uvanlige eller uvanlige inndatastiler, som Shakespeare-språk eller poetiske former, og om den kan svare på spørsmål der den nødvendige kunnskapen ikke var en del av opplæringen.
  • Personvern
    Personverntester sjekker om den kunstige intelligensen lekker sensitiv informasjon som e-postadresser eller kredittkortnumre. Den evaluerer også hvor godt den kunstige intelligensen forstår personvernrelaterte begreper og situasjoner.
  • Robusthet mot motstridende demonstrasjoner
    Den kunstige intelligensen testes med demonstrasjoner som inneholder falsk eller villedende informasjon, for å fastslå om den er i stand til å identifisere og håndtere slike vanskelige scenarier.
  • Maskinetikk
    Her testes den kunstige intelligensens evne til å gjenkjenne og unngå umoralsk atferd. Den bruker spesielle datasett og spørsmål for å se om den kunstige intelligensen kan identifisere og reagere på etiske problemstillinger på riktig måte.
  • Rettferdighet
    Rettferdighetstester ser om den kunstige intelligensen behandler alle individer likt, uavhengig av deres bakgrunn. Modellen blir stilt utfordrende spørsmål for å sikre at den ikke viser skjevhet i svarene sine.

Hvert aspekt får en poengsum fra 0-100, der høyere poengsum betyr bedre ytelse.

For at AI-modeller skal være ansvarlige, må de gjøre det bra på alle disse områdene. DecodingTrust gir en samlet pålitelighetspoengsum, der høyere poengsum viser mer pålitelige modeller.

Oppsummering

Poenget er at det står mye på spill. Etter hvert som AI-modeller fortsetter å gjøre sitt inntog på viktige områder, er pålitelige data ikke valgfritt – det er helt avgjørende.

De nyeste resultatene viser at ingen enkelt modell er best på alle områder, og at hver modell har sine styrker og svakheter. Mens Anthropics Claude 2.0 for øyeblikket er den tryggeste modellen, viser GPT-4s høyere sårbarhet for villedende spørsmål at det er et presserende behov for forbedringer.

Derfor er det viktig å fortsette med forskning og innovasjon. Å skape mer pålitelige AI-modeller er ikke bare en teknisk utfordring, men en moralsk plikt. Fremtiden avhenger av hvor godt vi klarer å møte denne utfordringen.

Relaterte begreper

Related Articles

Maria Webb
Tech Journalist
Maria Webb
Teknologijournalist

Maria Webb er en dyktig innholdsspesialist med over 5 års erfaring innen journalistikk. Hun jobber for tiden som teknologijournalist for Business2Community og Techopedia, hvor hun spesialiserer seg på datadrevne artikler. Hun har en særlig interesse for kunstig intelligens og posthumanisme. Marias journalistiske reise inkluderer to år som statistisk journalist hos Eurostat, der hun skapte engasjerende datafokuserte nyhetsartikler, og tre år hos Newsbook.com.mt, der hun dekket lokale og internasjonale nyheter.