Alla recente presentazione di GPT-4, una delle caratteristiche più salienti è stata la sua capacità di impegnarsi in conversazioni arricchite da immagini. Tuttavia, questa capacità deve ancora essere integrata nell'offerta di OpenAI. Mentre in precedenza avevamo evidenziato la competenza di Bing in questo aspetto, ora è emersa una soluzione open source sotto forma di "Large Language and Vision Assistant" (LLaVA).
Il potenziale multimodale di LLaVA
LLaVA è un'intelligenza artificiale multimodale open source che combina elaborazione del linguaggio e della visione. Una demo di LLaVA è accessibile qui.
La cosa strana di questa foto è che un uomo tiene in mano uno stendino con una camicia bianca mentre si sporge dal finestrino di un taxi giallo. Questa situazione è insolita perché è raro vedere persone sporgersi dai finestrini delle auto mentre tengono in mano vestiti o biancheria intima. L'uomo sta probabilmente tentando di asciugare la sua camicia in modo non sicuro e inefficiente mentre il taxi è in movimento.
Abbiamo condotto un semplice test inserendo un'immagine di Taxi e di un uomo, e LLaVA mi ha fornito un'analisi descrittiva. Tuttavia, i miei tentativi di sfidarlo con problemi matematici, simili a quelli affrontati da Bing, si sono rivelati vani. LLaVA sembra avere difficoltà con la matematica, nonostante la sua competenza nel riconoscimento delle immagini.
Sfide con i compiti matematici
Abbiamo presentato a LLaVA un problema matematico che coinvolge la trigonometria, simile a quelli risolti con successo da Bing. Sfortunatamente, LLaVA non è riuscita a fornire la soluzione corretta, restituendo una risposta errata per la radice quadrata di 169 come 13,2.
Risolviamo questa query
Il compito da svolgere consiste nel determinare la lunghezza della diagonale di un triangolo con lati di 5 cm e 12 cm. Per riuscirci, possiamo utilizzare il teorema di Pitagora, che afferma che in un triangolo rettangolo, il quadrato della lunghezza dell'ipotenusa (il lato opposto all'angolo retto) è uguale alla somma dei quadrati degli altri due lati.
In questo scenario, l'ipotenusa corrisponde alla diagonale del triangolo, cosa che possiamo verificare estraendo la radice quadrata della somma dei quadrati dei due lati dati.
Per iniziare, dobbiamo trovare la lunghezza della diagonale, che è il lato che collega i due vertici non adiacenti del triangolo. In questo caso, quei due vertici sono associati ai lati che misurano 5 cm e 12 cm.
Ora applichiamo il teorema di Pitagora:
(5 cm)^2 + (12 cm)^2 = diagonale^2
5^2 + 12^2 = diagonale^2
25 + 144 = diagonale^2
169 = diagonale^2
Infine, possiamo determinare la lunghezza della diagonale estraendo la radice quadrata di entrambi i lati:
√169 = diagonal
La lunghezza della diagonale è di circa 13,2 cm.
Una prospettiva insolita sulle immagini
LLaVA eccelle nella sua capacità di dialogare con le immagini, sebbene permangano delle sfide, in particolare nella risoluzione di problemi matematici. Ad esempio, quando gli è stata presentata l'immagine di un uomo che si sporge dal finestrino di un taxi giallo, tenendo uno stendino con una camicia bianca, LLaVA ha fornito una prospettiva insolita. Ha suggerito che una scena del genere è atipica, poiché non è comune vedere individui sporgersi dai finestrini delle auto tenendo in mano dei vestiti. L'analisi ha indicato che l'uomo potrebbe aver tentato un metodo non convenzionale e potenzialmente pericoloso per asciugare la sua camicia mentre il taxi è in movimento.
Sebbene LLaVA offra promettenti capacità multimodali, in particolare nel conversare con le immagini, si scontra con delle limitazioni nella risoluzione di problemi matematici. Vale la pena notare che le capacità di Google in questo senso superano quelle di LLaVA, come dimostrato da una soluzione più accurata a un problema matematico simile.
Lo sviluppo dell'IA con capacità multimodali è senza dubbio un progresso entusiasmante e LLaVA è un encomiabile sforzo open source in questa direzione. Tuttavia, sono necessari miglioramenti per potenziare le sue capacità di ragionamento matematico in modo che corrispondano alla sua competenza nell'analisi delle immagini.
Per una soluzione matematica più accurata, le capacità di Google sono attualmente superiori: Google’s Mathematical Problem Solver.
Per saperne di più sull'intelligenza artificiale:
Come guadagnare fino a $ 1000 ogni giorno usando ChatGPT: oltre 5 video
Google ha insegnato al modello AI Flamingo a scrivere descrizioni per i video di YouTube
OpenAI annuncia il plugin Canva per semplificare la creazione visiva con ChatGPT
Il post LLaVA contro GPT-4: uno scontro tra intelligenza artificiale open source che evidenzia il potenziale multimodale e i limiti matematici è apparso per la prima volta su Metaverse Post.
