
谷歌推出了开源视觉语言模型 PaliGemma,结合图像处理和语言理解能力,支持多种视觉语言任务。该模型具有多任务支持、30 亿参数规模和 SigLiP 视觉编码器与 Gemma 语言模型结合的特点。谷歌的贡献推动了 AI 领域发展,为研究人员和开发者提供强大工具。PaliGemma 的开源特性意味着可以被广泛使用、改进和集成到各种产品和服务中。
谷歌推出了开源视觉语言模型 PaliGemma,结合图像处理和语言理解能力,支持多种视觉语言任务。该模型具有多任务支持、30 亿参数规模和 SigLiP 视觉编码器与 Gemma 语言模型结合的特点。谷歌的贡献推动了 AI 领域发展,为研究人员和开发者提供强大工具。PaliGemma 的开源特性意味着可以被广泛使用、改进和集成到各种产品和服务中。