EVE: 编码器自由的视觉-语言模型，高效且数据驱动。

EVE

视觉-语言模型

编码器自由

国外精选

EVE是一个编码器自由的视觉-语言模型，由大连理工大学、北京人工智能研究院和北京大学的研究人员共同开发。它在不同图像宽高比下展现出卓越的能力，性能超越了Fuyu-8B，并且接近模块化编码器基础的LVLMs。EVE在数据效率、训练效率方面表现突出，使用33M公开数据进行预训练，并利用665K LLaVA SFT数据为EVE-7B模型训练，以及额外的1.2M SFT数据为EVE-7B (HD)模型训练。EVE的开发采用了高效、透明、实用的策略，为跨模态的纯解码器架构开辟了新途径。

需求人群：

"EVE模型主要面向人工智能领域的研究人员和开发者，特别是那些专注于视觉-语言任务和自然语言处理的专业人士。由于其高效的数据处理能力和训练效率，EVE非常适合需要处理大规模视觉数据和语言模型的场景，同时对于推动人工智能领域的发展具有重要意义。"

使用场景示例：

研究人员使用EVE模型进行图像描述生成任务。

开发者利用EVE进行视觉问答系统的研发。

教育机构采用EVE模型教授视觉-语言模型的构建和应用。

浏览量：5

打开站点

类似应用