**Modèles de langage de grande taille multimodaux** par **Anselmo Talotta** Cette présentation explore le domaine de l'apprentissage multimodal, qui vise à améliorer la perception des machines en intégrant divers types de données tels que le texte, les images, l'audio et la vidéo. La présentation couvre les principaux développements de l'IA multimodale, des premières techniques de fusion aux approches plus avancées comme CLIP (Contrastive Language-Image Pre-training) et les récents modèles de langage de grande taille multimodaux. Les principaux sujets incluent les défis de la combinaison des différentes modalités de données, l'application des architectures de transformateurs dans des contextes multimodaux, et les capacités émergentes en apprentissage zéro-shot. La présentation discute des applications pratiques telles que le questionnement visuel et la récupération d'images basées sur le texte, tout en abordant les limitations actuelles des systèmes multimodaux.
Où ça se passe ?
SnT - Luxembourg University
29 Av. John F. Kennedy
1855 Kirchberg Luxembourg
Et sinon... retrouve l'agenda

voir tous les trucs à faire
autour de toi
Hey, t'en vas pas...
Reçois le meilleur de ce qui
se passe autour de toi
Tous les bons plans
évènements
bonnes adresses