EVE

EVE

视觉-语言模型
编码器自由
国外精选

EVE是一个编码器自由的视觉-语言模型,由大连理工大学、北京人工智能研究院和北京大学的研究人员共同开发。它在不同图像宽高比下展现出卓越的能力,性能超越了Fuyu-8B,并且接近模块化编码器基础的LVLMs。EVE在数据效率、训练效率方面表现突出,使用33M公开数据进行预训练,并利用665K LLaVA SFT数据为EVE-7B模型训练,以及额外的1.2M SFT数据为EVE-7B (HD)模型训练。EVE的开发采用了高效、透明、实用的策略,为跨模态的纯解码器架构开辟了新途径。

需求人群:

"EVE模型主要面向人工智能领域的研究人员和开发者,特别是那些专注于视觉-语言任务和自然语言处理的专业人士。由于其高效的数据处理能力和训练效率,EVE非常适合需要处理大规模视觉数据和语言模型的场景,同时对于推动人工智能领域的发展具有重要意义。"

使用场景示例:

研究人员使用EVE模型进行图像描述生成任务。

开发者利用EVE进行视觉问答系统的研发。

教育机构采用EVE模型教授视觉-语言模型的构建和应用。

浏览量:5

s1785318098921236

打开站点

类似应用