Lo sviluppatore cinese di AI, SenseTime, ha presentato il suo modello multimodale aggiornato SenseNova 5.5 e sostiene che rappresenta lo stato dell'arte.
Il modello aggiornato arriva a pochi mesi dal rilascio di SenseNova 5, che secondo SenseTime era alla pari con GPT-4 Turbo.
Secondo quanto riferito, il parametro 600B aggiornato SenseNova 5.5 rappresenta un miglioramento delle prestazioni complessive di 30%.
I punteggi di benchmark rilasciati dall'azienda mostrano che il suo modello batte il GPT-4o e i modelli Claude Sonnet 3.5 di Anthropic.
I benchmark in cui SenseNova 5.5 eccelle sono quelli tipicamente utilizzati per i modelli cinesi. Se avessero usato i benchmark GPQA, Humaneval o Math, avremmo potuto fare un confronto più equo, ma anche così i dati sono impressionanti.
SenseTime ha anche presentato SenseNova 5o, il primo modello multimodale in tempo reale in Cina in grado di elaborare testo, immagini, audio e video.
La demo del SenseNova 5o che ha interagito sul palco ha mostrato prestazioni molto simili a quelle del GPT-4o, su cui stiamo ancora aspettando di mettere le mani.
SenseTime afferma che le interazioni di SenseNova 5o sono "alla pari con le capacità di interazione in streaming di GPT-4o".
Claude 3.5/GPT-4oを超える生成AI、SenseNova 5.5が発表されました。
また,マルチモーダルモデル、SenseNova 5oも同時に発表されたようです。SenseNova 5.0と比較してパフォーマンスが30%向上し、数学や英語を中心に多くのコア指標がGPT-4oの標準を上回っているとのこと。pic.twitter.com/H1u98SFVwX
- 江藤圭一|Radineer (@RadineerE10) 8 luglio 2024
L'azienda ha anche presentato una versione "Lite" di SenseNova 5.5, un modello cloud-to-edge a basso costo destinato a essere eseguito sul dispositivo.
SenseTime afferma che il suo modello edge-side costerà solo 9,90 RMB all'anno per dispositivo, ma non ha fornito dati sulle prestazioni.
Nell'ambito di SenseNova 5.5, SenseTime ha rilasciato anche Vimi, un generatore di video avatar AI controllabile.
Vimi è in grado di generare video della durata massima di un minuto utilizzando una singola foto come spunto. Permette inoltre di controllare con precisione le espressioni facciali e i movimenti della parte superiore del corpo di un avatar.
さらに
・音声
・テキスト
・画像
・動画
を処理できるリアルタイム・マルチモーダルモデル、SenseNova 5oも公開pic.twitter.com/CKs0JyaH1m- あるる ChatGPT × AIツール (@chatgptair) 9 luglio 2024
L'uscita di OpenAI dalla Cina
In linea con le sanzioni statunitensi sulle esportazioni di tecnologia in Cina, OpenAI bloccherà l'accesso API ai suoi strumenti e servizi per gli utenti cinesi.
Il governo cinese blocca già ChatGPT, ma gli utenti sono riusciti ad aggirare il firewall governativo utilizzando le VPN. OpenAI non ha spiegato completamente il motivo, ma da oggi bloccherà questo workaround.
Ciò ha provocato una folle corsa delle aziende cinesi alla ricerca di alternative ai modelli di OpenAI. SenseTime ha annunciato il lancio del "Progetto $0 Go" per attirare gli utenti sulla sua piattaforma.
Lo schema è un pacchetto di onboarding gratuito e completo per aiutare i nuovi utenti aziendali a migrare dalle piattaforme di OpenAI a SenseTime. Include un credito di 50 milioni di token e servizi di consulenza per la migrazione delle API.
Anche altri fornitori di modelli cinesi hanno cercato di trarre profitto dall'uscita di OpenAI. Baidu, Zhipu e Tencent hanno offerto tra i 50 e i 150 milioni di token come incentivo alla migrazione verso le loro piattaforme.
Ironia della sorte, l'inasprimento delle sanzioni statunitensi e l'uscita di OpenAI dalla Cina probabilmente favoriranno l'avanzamento dell'IA a livello nazionale, in quanto le aziende cinesi capitalizzeranno le entrate che, fino ad ora, sarebbero andate agli Stati Uniti.
I modelli SenseNova di SenseTime e Tongyi Qianwen di Alibaba stanno registrando un'impennata nei download e nel coinvolgimento dei clienti.
Man mano che gli sviluppatori cinesi rendono pubbliche le loro funzioni multimodali, c'è da chiedersi quanta pazienza avranno gli utenti americani.
Aspetteranno che OpenAI e Google passino dalla demo al prodotto o vedremo gli utenti americani adottare i modelli cinesi.