Florence-VL来了！使用生成式视觉编码器，从头界说多模态大讲话模子

2024-12-19 10:56

开首：机器之心Pro

AIxiv专栏是机器之心发布学术、技艺实验的栏目。夙昔数年，机器之心AIxiv专栏经受报说念了2000多篇实验，秘籍环球各大高校与企业的顶级实验室，有用促进了学术交流与传播。若是您有优秀的责任思要共享，接待投稿或者揣测报说念。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com

本文由马里兰大学，微软究诘院连系完成。作家包括马里兰大学博士生陈玖海，主要究诘标的为讲话模子，多模态模子。通信作家为 Bin Xiao，主要究诘标的为贪图机视觉，深度学习和多模态模子。其他作家包括马里兰大学助理讲授Tianyi Zhou , 微软究诘院究诘员 Jianwei Yang , Haiping Wu, Jianfeng Gao 。

论文：https://arxiv.org/pdf/2412.04424开源代码：https://github.com/JiuhaiChen/Florence-VL面貌主页：https://jiuhaichen.github.io/florence-vl.github.io/在线 Demo：https://huggingface.co/spaces/jiuhai/Florence-VL-8B模子下载：https://huggingface.co/jiuhai/florence-vl-8b-sft

Florence-VL 提议了使用生成式视觉编码器 Florence-2 当作多模态模子的视觉信息输入，克服了传统视觉编码器（如 CLIP）仅提供单一视觉表征而时常忽略图片中要津的局部信息。然而 Florence-2 通过生成式预查验，将多种视觉任务（如图像形貌、指标检测、翰墨识别和对象定位）搭伙为 sequence-to-sequence 结构，并通过 prompt 来完成万般化的视觉任务。在 Florence- VL 中，咱们仅使用一个视觉编码器 Florence-2，但选拔多个不同的 prompt，区别贯注 caption，OCR 和 grounding，来得到不同端倪的视觉表征。通过会通这些不同深度的特征，Florence-VL 终结了更全面的视觉理解。

前言

跟着大边界讲话模子（LLM）的快速发展，多模态大讲话模子（MLLMs）成为视觉与讲话任务的主流处理决策。然而，现存的视觉编码器（如 CLIP 和 SigLIP）固然在举座语义提真金不怕火方面发扬出色，但存在明白不及：

枯竭细粒度理解：仅拿获图像的举座语义，忽略像素级和局部区域的细节。任务泛化智商有限：难以适配 OCR、物体定位等需要特定视觉特征的任务。

Florence-VL 恰是针对这一问题提议的处理决策。通过引入生成式视觉基础模子 Florence-2，Florence-VL 在保执高效查验的同期，卤莽无邪适配不同任务，弥补传统视觉编码器的舛错。

在接下来的部分，咱们将闪耀先容 Florence-2 背后的技艺原，Florence-VL 如何诓骗多任务视觉特征，以及咱们提议的深度 - 广度会通政策如何终结视觉信息的高效整合。

配景先容：Florence-2

传统视觉编码器如 CLIP 和 SigLIP 主要依赖对比学习来预查验，固然能在跨模态任务中取得可以后果，但其输出的图像特征相通是单一的全局语义示意，难以拿获细粒度信息。这一舛错使得这些模子在 OCR 文本提真金不怕火、对象定位等任务上发扬欠安。

Florence-2 则选拔了生成式预查验的形式，将多种视觉任务搭伙到一个编码 - 解码框架中，卤莽凭据不同任务教唆生成万般化的视觉特征。

Florence-2 的主要过程包括：

视觉编码器 DaViT：将输入图像协调为基础视觉特征。任务教唆机制：通过不同的文本教唆协调生成指标，从而提真金不怕火任务特定的视觉信息。编码 - 解码框架：联接视觉和文本特征，输出满足不同任务需求的欺压。

通过这一架构，Florence-2 终结了全局语义到局部细节的视觉特征生成，为多模态任务提供了更全面的视觉示意。接下来咱们将先容如何使用 Florence-2 来构建 Florence-VL。

方法：深度与广度会通 (DBFusion)

Florence-VL 的中枢革命在于咱们提议的深度 - 广度会通（Depth-Breadth Fusion）政策，它充分挖掘 Florence-2 的生成式特质，将多任务教唆和多层级特征有用联接，造成更丰富的视觉表征。

1. 广度：通过任务教唆彭胀视觉表征

不同的视觉任务需要不同的视觉信息。举例：

Captioning：用于理解图像举座语义，生成形貌性文本。OCR：提真金不怕火图像中的文本实验，尤其适用于带有翰墨的图像。Grounding：用于定位物体，捕捉物体之间的关系。

Florence-2 通过不同的任务教唆，生成针对性强的视觉特征，从而终结视觉特征的 “广度” 彭胀。

2. 深度：整合多层级的视觉特征

Florence-2 的不同深度层卤莽拿获从 low- level 到 high-level 的视觉特征，这种多层级特征的联接，保证了视觉编码器既能存眷细节，又能拿获举座信息。

3. 会通政策：通说念拼接终结高效整合

为了将多任务和多层级的特征高效会通，咱们想象了通说念拼接（Channel Integration）政策。具体作念法是将不同特征按通说念维度拼接，并通过 MLP 映射到讲话模子的输入空间。这一政策的上风在于：幸免了加多查验与推理时的序列长度以及最猛进度保留了视觉特征的万般性与完好性。

分析：多种视觉编码器的对比

为探讨不同视觉编码器（如 CLIP、SigLIP、DINOv2 和 Florence-2）和大讲话模子的对都智商，咱们选拔了实验来定量评估不同视觉编码器与讲话模子的跨模态对都质地。具体方法如下：关于每组图文配对（image- caption pair），视觉编码器生成视觉特征，讲话模子生成文本特征，咱们通过可查验投影对视觉特征和文本特征进行维度对都，何况通过对都亏本函数来评估视觉编码器和讲话模子的对都智商。实验欺压标明，Florence-2 相较于其他视觉编码器显走漏更优的跨模态对都智商。

实验考证

为了全面评估 Florence-VL 的性能，咱们想象了一系列实验，涵盖通用视觉问答、OCR、常识理解等多模态任务。

1. 实验任务与数据

通用视觉问答：如 VQAv2、GQA 等。OCR 与图表任务：如 TextVQA 和 ChartQA，侧重文本提真金不怕火与图表分析。视觉主导任务：如 CV-bench 和 MMVP，侧深爱觉信息理解。常识密集型任务：如 AI2D、MathVista 等，测试模子对基本常识的理解智商。

咱们使用了经过筛选的 15M 图像形貌数据（detailed caption）与 10M 高质地指示微调数据进行查验，以确保数据的万般性和高质地。

2. 实验欺压

在实验欺压中，Florence-VL 在多个多模态基准任务上展现出不凡的性能上风。相等是在 TextVQA 和 OCR-Bench 等文本提真金不怕火任务上，成绩于 Florence-2 生成式视觉编码器提供的细粒度 OCR 特征。此外，在通用视觉问答任务，视觉主导任务，常识密集型任务中，Florence-VL 通过深度 - 广度会通政策有用联接了多层级、多任务视觉特征，使得举座准确率比较传统 CLIP-based 方法有所擢升。

3. 消融实验

为了讲授选拔 Florence-2 当作视觉编码器的优胜性，咱们使用 llava 1.5 的预查验和指示微调数据，何况选拔和 llava 1.5 探求的查验政策。咱们发现 florence-VL 显耀优于 llava 1.5, Florence-VL 在 TextVQA 和 OCR-Bench 等任务中发扬卓著，深切降生成式视觉特征在提真金不怕火图像翰墨信息中的上风。

回归

在本文中，咱们提议了 Florence-VL，一种基于生成式视觉编码器 Florence-2 的多模态大讲话模子。与传统依赖对比学习的视觉编码器（如 CLIP）比较，Florence-2 通过生成式预查验卤莽捕捉更丰富的视觉特征，提供多端倪、多角度的图像表征。咱们想象了革命的无边会通（Depth-Breadth Fusion）政策，通过整合不同深度端倪和任务教唆生成的视觉特征，将视觉信息全面映射到讲话模子输入空间。通过平方的实验，咱们考证了 Florence-VL 在多种任务中的不凡发扬，包括通用视觉问答、OCR、图表理解和常识密集型任务等。在畴昔，咱们将进一步探索：举例自合适会通政策：凭据任务动态协调深度与广度特征的均衡等。

[1]. https://arxiv.org/abs/2311.06242

让建站和SEO变得简单

Florence-VL来了！使用生成式视觉编码器，从头界说多模态大讲话模子