Google представив нові моделі міжзорового сприйняття PaliGemma
Google анонсував нові відкриті моделі міжзорового сприйняття PaliGemma, які обробляють зображення та текст одночасно. Модель використовує кодувальник з SigLip-So400m для обробки зображень і Gemma-2B для генерації тексту, але не підходить для діалогового використання.
Це AI-дайджест. Матеріали згенеровано автоматично на основі відкритих джерел. Перевіряйте критичні рішення з профільним спеціалістом.