L’un des principaux points faibles de l’intelligence artificielle conversationnelle ChatGPT est qu’elle est limitée au texte uniquement. Pour résoudre ce problème, des chercheurs de chez Microsoft viennent de publier une nouvelle version de ChatGPT baptisée Visual ChatGPT. Dans l’article associé, ils expliquent comment ils ont réussi à intégrer la prise en charge des images dans ChatGPT sans toucher à l’IA elle-même.
Plutôt que de reconstruire complètement ChatGPT pour prendre en charge différentes modalités (audio, images, vidéos…), ils ont décidé de s’appuyer sur les modèles de fondation visuels (VFM) préexistants, comme Stable Diffusion, BLIP, Transformers, Maskformer et ControlNet. Autrement dit, des IA déjà capables de comprendre ou de générer des images.