Het debat over AI-veiligheid blijft een belangrijk onderwerp, maar de industrie heeft geen definitieve definitie van wat "veilige" AI is, of een benchmark om te vergelijken hoe veilig verschillende modellen zijn.
MLCommons heeft een reeks bedrijven opgenomen in zijn verschillende werkgroepen om de toonaangevende AI-benchmarkorganisatie te worden.
Wanneer we de GPU-inferentieprestaties van een fabrikant vergelijken met die van een andere fabrikant of een LLM leaderboard vullen, kunnen we dat doen omdat we benchmarks hebben. Benchmarks zoals MLPerf en gestandaardiseerde tests stellen ons in staat om te zeggen "Deze is beter dan die".
Maar als het aankomt op AI-veiligheid hebben we niet echt een industriestandaard waarmee we kunnen zeggen: "Deze LLM is veiliger dan die".
Met de oprichting van de AI Safety Working Group (AIS) wil MLCommons een set AI-veiligheidsbenchmarks ontwikkelen om dat mogelijk te maken.
Een paar bedrijven en organisaties hebben al wat werk verricht op dit gebied. De Google-guardrails voor generatieve AI en de RealToxicityPrompts van de Universiteit van Washington zijn goede voorbeelden.
Maar deze benchmarktests zijn gebaseerd op het invoeren van een specifieke lijst met prompts en vertellen je alleen hoe veilig het model is op basis van die set met testprompts.
Deze tests gebruiken meestal ook open datasets voor de prompts en antwoorden. Het is goed mogelijk dat de geteste LLM's ook op deze datasets zijn getraind, waardoor de testresultaten scheef kunnen zijn.
Het Stanford University's Center for Research on Foundation Models deed baanbrekend werk met de ontwikkeling van zijn Holistische evaluatie van taalmodellen (HELM). HELM gebruikt een breed scala aan meetmethoden en scenario's om de veiligheid van LLM op een meer holistische manier te testen.
AIS zal voortbouwen op het HELM raamwerk om zijn veiligheidsbenchmarks voor grote taalmodellen te ontwikkelen. Het nodigt ook een bredere deelname van de industrie uit.
In de aankondiging van MLCommons staat: "We verwachten dat verschillende bedrijven AI-veiligheidstests die ze intern voor eigen doeleinden hebben gebruikt, zullen uitbesteden en openlijk zullen delen met de MLCommons-gemeenschap, wat het innovatietempo zal helpen versnellen."
Tot de grote namen die deel uitmaken van de AIS werkgroep behoren Anthropic, Coactive AI, Google, Inflection, Intel, Meta, Microsoft, NVIDIA, OpenAI, Qualcomm Technologies en AI-academici.
Zodra de AI-industrie het eens kan worden over een veiligheidsbenchmark, zal het inspanningen zoals de AI-veiligheidstop productiever.
Regelgevende overheidsinstanties zouden er dan op kunnen aandringen dat AI-bedrijven een specifieke score behalen op een benchmark voordat hun modellen worden vrijgegeven.
Leaderboards zijn ook geweldige marketingtools, dus met een door de industrie geaccepteerde scorekaart voor veiligheid is de kans groter dat het engineeringbudget naar AI-veiligheid gaat.