I ricercatori usano dati sintetici per addestrare il classificatore di immagini AI

27 novembre 2023

L'addestramento di un classificatore di immagini AI o di un sistema di computer vision richiede l'accesso a un ampio set di immagini. I ricercatori del MIT hanno trovato un modo per ridurre la nostra dipendenza dai dati reali per la classificazione delle immagini.

Quando si carica l'immagine di un gatto e si chiede a ChatGPT di spiegare cos'è l'immagine, è in grado di farlo perché è stato addestrato su migliaia di immagini di gatti a cui erano associate etichette di testo.

Le immagini di addestramento dovevano provenire da qualche parte. Uno dei set di dati utilizzati per l'addestramento Diffusione stabileLAION-5B è una raccolta di miliardi di immagini raccolte da Internet e abbinate a descrizioni testuali.

Ma cosa facciamo quando abbiamo bisogno di altri dati per addestrare un modello ma abbiamo esaurito il set di immagini reali a nostra disposizione?

Un team di ricercatori del MIT ha affrontato la sfida della scarsità di dati creando un proprio set di dati sintetici.

Il loro approccio, chiamato StableReputilizza una strategia chiamata "apprendimento contrastivo multipositivo". Sembra complicato, ma in realtà il concetto è piuttosto semplice.

Si richiede al generatore di immagini di Stable Diffusion una descrizione testuale e si fa in modo che generi più immagini. Supponendo che Stable Diffusion abbia fatto un buon lavoro, ora hanno una raccolta di immagini che corrispondono alla richiesta iniziale.

StableRep tratta queste immagini come positive l'una dell'altra e apprende i concetti di alto livello che spiegano perché queste immagini sono buone corrispondenze semantiche per il prompt iniziale.

Il team ha addestrato il proprio modello di classificatore di immagini sulle immagini generate dall'intelligenza artificiale e gli ha dato un piccolo incremento di prestazioni con la supervisione linguistica per arrivare infine a StableRep+.

Come se la cava StableRep+ nella classificazione delle immagini, visto che ha sempre e solo "visto" immagini generate dall'intelligenza artificiale?

Addestrato con 20 milioni di immagini sintetiche, StableRep+ è risultato più preciso ed efficiente dei modelli CLIP addestrati con 50 milioni di immagini reali. I ricercatori stanno ancora lavorando per capire il motivo di queste prestazioni superiori.

Ci sono ancora alcuni problemi, ma l'utilizzo di dati sintetici di addestramento come questo risolve molti problemi. problemi di raccolta dati come i costi, i diritti d'autore e i problemi di privacy legati alle immagini reali.

Le sfide di questo approccio includono il costo di calcolo e il tempo necessario per generare milioni di immagini per il set di dati. Inoltre, StableRep si basa ancora sull'utilizzo di un generatore di immagini originariamente addestrato su immagini reali per produrre i dati sintetici.

Qualsiasi distorsione nella richiesta di testo o nell'etichettatura dei dati nel dataset di immagini reali si trasferisce anche al nuovo modello addestrato sui dati sintetici.

Nonostante le sfide, i risultati ottenuti da StableRep sono promettenti. L'aumento della diversità che i dati sintetici possono offrire potrebbe ridurre la dipendenza dei data scientist dai dati reali, costosi e limitati, durante l'addestramento di nuovi modelli.

Partecipa al futuro


ISCRIVITI OGGI

Chiaro, conciso, completo. Per conoscere gli sviluppi dell'IA con DailyAI

Eugene van der Watt

Eugene proviene da un background di ingegneria elettronica e ama tutto ciò che è tecnologico. Quando si prende una pausa dal consumo di notizie sull'intelligenza artificiale, lo si può trovare al tavolo da biliardo.

×

PDF GRATUITO ESCLUSIVO
Rimanere all'avanguardia con DailyAI

Iscriviti alla nostra newsletter settimanale e ricevi l'accesso esclusivo all'ultimo eBook di DailyAI: 'Mastering AI Tools: La tua guida 2024 per una maggiore produttività".

*Iscrivendosi alla nostra newsletter si accetta la nostra Informativa sulla privacy e il nostro Termini e condizioni