Les Intelligences artificielles conversationnelles, comme ChatGPT, reposent sur des grands modèles de langage ou LLM (Large Language Model). Conçues pour traiter du texte, ces IA peuvent également être entraînées pour traiter d’autres types d’informations. C’est ainsi qu’est née PaLM-E, une IA qui peut piloter un robot en temps réel en tenant compte de son environnement.
Le système a été développé par des chercheurs de chez Google ainsi que de l’université technique de Berlin. Ils ont combiné le modèle de langage PaLM de Google, similaire au GPT de ChatGPT, avec ViT-22B qui est spécialisé dans les tâches visuelles. Le résultat est un modèle multimodal (texte et images) doté de 562 milliards de paramètres.