Mini-Gemini是一款多模态视觉语言模型,能够支持从2B到34B的系列密集和MoE大型语言模型,具备图像理解、推理和生成能力。它基于LLaVA构建,利用双视觉编码器提供低分辨率视觉嵌入和高分辨率候选区域,采用补丁信息挖掘在高分辨率区域和低分辨率视觉查询之间进行补丁级挖掘,将文本与图像融合用于理解和生成任务,同时支持包括COCO、GQA、OCR-VQA、VisualGenome等多个视觉理解基准测试。
1. 低分辨率/高分辨率双视觉编码器;2. 补丁级信息挖掘;3. 基于大型语言模型的图文融合;4. 支持视觉理解和生成任务。
Mini-Gemini具有支持多种规模的语言模型、图像理解能力和图文融合的优势。
Mini-Gemini可应用于视觉问答、图像描述生成、图像编辑等场景,例如根据给定的图像内容回答相关问题,生成图像的文字描述,对图像进行编辑以及生成新图像。
使用Mini-Gemini能够提高处理文本和图像的效率,同时具备较强的视觉理解和生成能力。
暂无