DeepMind ha presentato oggi un nuovo sistema di intelligenza artificiale multimodale in grado di eseguire più di 600 attività diverse.
Soprannominato Gato, è probabilmente il kit di apprendimento automatico all-in-one più impressionante che si sia mai visto al mondo.
Secondo DeepMind post sul blog:
L’agente, che chiamiamo Gato, funziona come una politica generalista multimodale, multi-task e multi-incarnazione. La stessa rete con gli stessi pesi può riprodurre Atari, immagini didascalie, chat, impilare blocchi con un vero braccio robotico e molto altro, decidendo in base al suo contesto se emettere testo, coppie articolari, pressioni di pulsanti o altri token.
E mentre resta da vedere esattamente come funzionerà una volta che i ricercatori e gli utenti al di fuori dei laboratori DeepMind ci metteranno le mani sopra, Gato sembra essere tutto ciò che GPT-3 desidera che possa essere e altro ancora.
Ecco perché questo mi rende triste: GPT-3 è un modello di linguaggio di grandi dimensioni (LLM) prodotto da OpenAI, la società di intelligenza generale artificiale (AGI) più finanziata al mondo.
Prima di poter confrontare GPT-3 e Gato, tuttavia, dobbiamo capire da dove provengono sia OpenAI che DeepMind come aziende.
OpenAI è un’idea di Elon Musk, ha miliardi di supporto da parte di Microsoft e al governo degli Stati Uniti potrebbe importare meno di ciò che sta facendo quando si tratta di regolamentazione e supervisione.
Tenendo presente che OpenAI è unico scopo è sviluppare e controllare un AGI (che è un’IA in grado di fare e imparare qualsiasi cosa un essere umano potrebbe, dato lo stesso accesso), è un po’ spaventoso che tutto ciò che l’azienda è riuscita a produrre sia un LLM davvero stravagante.
Non fraintendetemi, GPT-3 è impressionante. In effetti, è senza dubbio impressionante quanto Gato di DeepMind, ma quella valutazione richiede alcune sfumature.
OpenAI ha intrapreso la strada LLM nel suo percorso verso AGI per un semplice motivo: nessuno sa come far funzionare AGI.
Proprio come è passato del tempo tra la scoperta del fuoco e l’invenzione del motore a combustione interna, capire come passare dal deep learning all’AGI non avverrà dall’oggi al domani.
GPT-3 è un esempio di un’IA che può almeno fare qualcosa che sembra umano: genera testo.
Quello che DeepMind ha fatto con Gato è, beh, più o meno la stessa cosa. Ha preso qualcosa che funziona molto come un LLM e lo ha trasformato in un illusionista capace di più di 600 forme di prestidigitazione.
Come Mike Cook, del collettivo di ricerca Knives and Paintbrushes, detto di recente Kyle Wiggers di TechCrunch:
Sembra eccitante che l’IA sia in grado di svolgere tutti questi compiti che suonano molto diversi, perché a noi sembra che scrivere del testo sia molto diverso dal controllare un robot.
Ma in realtà questo non è molto diverso da GPT-3 che comprende la differenza tra il normale testo inglese e il codice Python.
Questo non vuol dire che sia facile, ma per l’osservatore esterno questo potente suono come se l’IA possa anche fare una tazza di tè o imparare facilmente altri dieci o cinquanta altri compiti, e non può farlo.
Fondamentalmente, Gato e GPT-3 sono entrambi robusti sistemi di intelligenza artificiale, ma nessuno dei due è capace di intelligenza generale.
Ecco il mio problema: A meno che il tuo gioco d’azzardo su AGI non emerga come risultato di un atto casuale di fortuna: il film Corto circuito mi viene in mente: probabilmente è giunto il momento per tutti di rivalutare le proprie linee temporali su AGI.
Non direi “mai”, perché questa è una delle uniche parole maledette della scienza. Ma questo fa sembrare che l’AGI non accadrà nelle nostre vite.
DeepMind lavora su AGI da oltre un decennio e su OpenAI dal 2015. E nessuno dei due è stato in grado di affrontare il primo problema sulla strada per risolvere l’AGI: costruire un’IA in grado di imparare cose nuove senza formazione.
Credo che Gato potrebbe essere il sistema di intelligenza artificiale multimodale più avanzato al mondo. Ma penso anche che DeepMind abbia preso lo stesso concetto di vicolo cieco per AGI che OpenAI ha e semplicemente lo ha reso più commerciabile.
Pensieri finali: Quello che ha fatto DeepMind è straordinario e probabilmente farà guadagnare un sacco di soldi all’azienda.
Se sono l’amministratore delegato di Alphabet (la società madre di DeepMind), sto trasformando Gato come un prodotto puro o sto spingendo DeepMind verso lo sviluppo più che la ricerca.
Gato potrebbe avere il potenziale per funzionare in modo più redditizio sul mercato consumer rispetto ad Alexa, Siri o Google Assistant (con il giusto marketing e casi d’uso applicabili).
Ma Gato e GPT-3 non sono punti di ingresso più praticabili per AGI degli assistenti virtuali sopra menzionati.
La capacità di Gato di eseguire più attività è più simile a una console per videogiochi in grado di memorizzare 600 giochi diversi, che a un gioco che puoi giocare in 600 modi diversi. Non è un’IA generale, è un gruppo di modelli stretti e pre-addestrati raggruppati ordinatamente.
Non è una brutta cosa, se è quello che stai cercando. Ma semplicemente non c’è niente nell’accompagnamento di Gato documento di ricerca indicarlo è anche uno sguardo nella giusta direzione per AGI, tanto meno un trampolino di lancio.
Ad un certo punto, la buona volontà e il capitale che aziende come DeepMind e OpenAI hanno generato attraverso la loro insistente insistenza sul fatto che AGI fosse proprio dietro l’angolo dovranno mostrare anche il più piccolo dei dividendi.