谷歌发布开源视觉语言模型 PaliGemma，支持多种视觉语言任务

144 阅读 0 评论 0 点赞

谷歌推出了开源视觉语言模型 PaliGemma，结合图像处理和语言理解能力，支持多种视觉语言任务。该模型具有多任务支持、30 亿参数规模和 SigLiP 视觉编码器与 Gemma 语言模型结合的特点。谷歌的贡献推动了 AI 领域发展，为研究人员和开发者提供强大工具。PaliGemma 的开源特性意味着可以被广泛使用、改进和集成到各种产品和服务中。

上一篇 > OpenAI 回应“封嘴”离职条款：从未回收过任何员工股权
下一篇 > 淘宝抖音宣布合作：抖音种草，淘宝成交