热点追踪|校服进入稚嫩h公车_社会新闻

首页 >新闻 >社会新闻

逾越CoT！微软剑桥中科院提出MVoT，直接可视化多模态推理历程

2025-02-14 11:01:59

来源：

猫眼影戏

作者：

庞克

手机检察

　　猫眼影戏记者拉图拉甘报道P6F9A2Y5R3B1T0V4X8W

新智元报道编辑：KingHZ 【新智元导读】近日，微软和剑桥大学宣布推理新要领：多模态思维可视化MVoT。新要领可以边推理，边「想象」，同时利用文本和图像信息学习，在实验中比CoT拥有更好的可解释性和稳健性，庞大情况下甚至比CoT强20%；箍梢杂隒oT组合，进一步提升模型性能。大模型也学会了「空间想象力」？还可以自己解释自己？在大语言模型（LLMs）和多模态大语言模型（MLLMs）中，思维链（CoT）在庞大推理方面很是有效。然而，关于庞大的空间推理，CoT体现不佳。但人类的认知能力不但限于语言，还能够同时用词语和图像推理。受这一机制的启发，来自微软研究院、剑桥大学和中科院的研究人员，在思维链提示的基础上，提出了空间推理（spatial reasoning）新范式：多模态思维可视化（MVoT）。论文地点：https://arxiv.org/pdf/2501.07542 将思维链（CoT）扩展到多模态模型，已有的要领尽管能够处理文本和图像，但或者严重依赖于独立的视觉？榛蛲獠抗ぞ，难以适应更庞大的空间推理任务；或者可视化太过简化，推理历程难以理解。论文作者Chengzu Li在X上解释MVoT的焦点设计理念：「MVoT逾越了思维链(CoT)，可以让AI利用生成的视觉图像去想象它的思考。通过融合语言和视觉推理，MVoT使庞大问题的解决变得越发直观、可更具解释性、越发强大。」具体而言，MVoT要微调自回归多模态大语言模型（MLLM）。为了提升推理历程的可视化质量，引入了token差别损失，弥补了划分训练的分词器（tokenizer）的差别。文章亮点：多模态思维可视化（MVoT）将文本与视觉统一在推理历程中，将自然生成视觉思维作为推理历程的一部分。在Chameleon-7B中实现了MVoT，并在自回归多模态大语言模型（MLLM）中引入了token差别损失（token discrepancy loss），以弥补划分训练的文天职词器和图像分词器之间的差别。实验结果标明，MVoT在庞大场景中比思维链（CoT）更优的适应性和稳健性。 MVoT和CoT组合可以进一步提高性能上限。架构给定一个多模态输入序列，模型需要生成交织的多模态思维，作为推理历程的组成部分，并最终生成最终谜底。设体现一个预训练的多模态大语言模型（MLLM），其参数为θ，x体现多模态输入序列，z和v划分体现语言思维序列和图像思维序列。在多跳（multi-hop）空间推理任务中，给定输入x，思维链（CoT）提示生成中间办法其中每个样本基于输入和之前生成的办法顺序采样。最终的输出基于所有先前的办法得出。 MVoT通过为每其中间办法添加图像v^i可视化来增强这一历程，然后凭据先前的办法和可视化采样后续办法，如图1所示。图1：多模态思维可视化（MVoT）推理历程与其他要领的比照多模态思维可视化（MVoT）让多模态大语言模型（MLLMs）能在差别模态之间生成交织的推理轨迹。古板的CoT仅依赖于语言思维，而MVoT则通过增进视觉思维来可视化推理轨迹。这个推理范式类似于人类的认知方法，能够无缝地在文字和图像之间进行思维。训练多模态序列建模如图3所示，使用Chameleon的架构，利用统一的Transformer来处理图像和文本token。该架构集成了两个tokenizer：图像tokenizer使用离散的码本（codebook）将输入图像编码为一系列图像token；文本tokenizer则将文本数据映射为相应的token序列。这些token序列被连接在一起并由因果Transformer模型处理。损失函数因果Transformer模型利用下一个token预测目标进行微调，同时两个tokenizer在整个历程中坚持冻结状态。训练的损失函数要同时考虑图像token差别损失，以及文本token和图像token的交叉熵损失，界说如下。其中token差别损失要对与真实标签显著偏离的token施加处分，弥合了语言建模与视觉嵌入空间之间的差别，同时确保梯度的连续性。实验结果有效性实验作者在三个动态空间推理任务中进行大宗实验，验证了MVoT的有效性。 MAZE和MINIBEHAVIOR聚焦于与空间结构的交互，而FROZENLAKE强调在动态情况中的细粒度模式识别。实验结果标明，MVoT在任务中的体现具有竞争力，在高难度的FROZENLAKE场景中，MVoT的体现比古板的思维链（CoT）横跨了20%多。差别系统变体在任务中的实验结果。三个模拟任务的实验结果标明，Direct保存过拟合问题，准确率约为70%。 GPT-4o的体现更差。相比之下，MVoT展现出不绝的革新。在MAZE和MINIBEHAVIOR上，MVoT的准确率凌驾90%，可与CoT相媲美。而在FROZENLAKE上，MVoT的准确率为85.60%，优于Direct和CoT。这标明MVoT比CoT拥有更好的稳定性和稳健性。别的，MVoT还提供了语言和视觉形式的中间推理状态，可以更清晰、更直观地舆解推理历程。定性剖析图4展示了FROZENLAKE中生成图像的正确与过失示例。可视化生成的过失分类如下： (1)过失可视化（Wrong Visualization）：生成的可视化内容禁绝确。 (2)多余图形（Redundant Patterns）：在预期修改区域外可视化了不须要或无关的图形。图4：定性剖析示意图。别的，与MAZE和MINIBEHAVIOR相比，在FROZENLAKE任务中，视察到随着模式庞漂后的增加，生成图像的细节经；岜涞媚：在重建的图像与原始图像之间也视察到类似的差别。这种变异性经常导致细粒度细节的丧失或扰动，反应了MLLM在表达能力上的局限性。定量剖析为了评估生成的视觉推理的质量，基于已识别的过失类型界说了自动化评估指标：可视化准确率（V-Acc.）：权衡在网格中对应于下一步操作的预期修改是否被准确可视化。可视化模式冗余度（V-Red.）：评估目标修改区域之外是否保存非预期的视觉模式。可视化正确办法（V-Steps）：操作序列中前k个连续正确可视化的平均长度。可视化正确比率（V-Ratio）：操作序列中前k个连续正确可视化的平均比例。作者报告了MAZE和MINIBEHAVIOR中可视化位置的定量结果，如下所示。表3：token差别损失对MVoT视觉思维定量指标的影响上图中，最佳结果以加粗形式标出。带有↑的指标体现值越高性能越好，反之亦然。 Token差别损失函数剖析 Token差别损失提高了可视化的准确性并减少了冗余。如表3所示，token差别损失增强的MVoT能够生成高度准确且模式冗余最小的可视化内容。纵然在递归生成场景中，在推理历程中依然实现了95%的平均正确和连续可视化。相比之下，缺少token差别损失会显著降低生成质量：没有的MVoT经；嵘啥嘤嗤夹，且未能准确捕获状态转换。这些结果与图像编辑场景中的发明一致，如图5所示，图中展示了MAZE在差别训练周期的定量指标。图5：MAZE在差别训练周期的定量指标 MVoT和CoT的组合 MVoT在推理中与CoT的能力可以相互增补。正如作者Chengzu Li所言：「MVoT不会取代CoT，而是提升了CoT。通过组合MVoT和CoT，多模态推理和语言推理的协同作用解锁了性能上限，证明两种推理范式可能比一种更好！」在两种要领的组合中，如果MVoT或CoT中的任一要领生成了正确的预测，则认为该数据点正确。如表4所示，在MAZE和MINIBEHAVIOR上，上限性能抵达了接近100%的准确率；在FROZENLAKE上，抵达了92%的准确率。表4：通过组合CoT和MVoT在三个任务中的预测所抵达的性能上限。文中也讨论了消融实验，并在附录中给出了更多的实验细节。虽然，这项研究也有局限性，作者建议借鉴扩散模型中的图像生成技术，作为未来革新的偏向。别的，在推理历程中，显式生成可视化会引入盘算开销。为了解决这一问题，作者提倡进一步研究使用更少token的紧凑的图像体现，以降低可视化生成的盘算本钱。作者介绍共一作者Chengzu Li在微软研究院实习时加入了全程事情。目前，他是剑桥大学语言技术实验室的盘算、认知与语言学博士生。在攻读博士学位之前，他在剑桥大学盘算机科学系获得了高级盘算机科学硕士学位。他本科就读于西安交通大学自动化专业。共一作者Wenshan Wu，目前是微软亚洲研究院（MSRA）的高级研究软件开发工程师。之前，曾在腾讯担当软件工程师。她从中国科学院获得了硕士学位。参考资料： https://arxiv.org/abs/2501.07542 https://x.com/li_chengzu/status/1879168974988173573

??时事1：草莓视频插管

??02月14日,探访“悟空”诞生地：颇具艺术气息的杭州艺创小镇,

　　同学们，XX年将是我们共和国历史上极其不平凡又极其伟大、庆幸的一年。迎世博，我们满怀激情；同学们，带着你们一次次心灵的震撼，带着你们自己的人生计划，带着你们对美好理想的追求，勇敢地去搏击中考、迈出你们人生新的程序吧。今天你们是“小荷才露尖尖角”，明天你们展现出的将是“映日荷花别样红。”祝你们乐成！

,精品高清国产小电影在线。

??02月14日,“江城”吉林木匠世家传承技艺：展浪木文化和“船厂”历史,　　虽然，泽连斯基绕飞半个地球去请小马科斯，也因为除了中国之外，另有一些新兴市场国家中的大国不去。这时候，他希望菲律宾前往，也无非是体现在欧美以外，有一些更多装点此次集会门面的国家出席。,两个添一个扇贝水蜜桃,图片小说之蝴蝶传煤,亚洲国产日韩精品偷产拍。

??时事2：国自产拍精品偷拍凹凸

??02月14日,贵州榕江：金秋乡村美如画,

　　这让人震惊，许多人都呆呆发愣。

,亚洲4k成人网,亚洲国产精品无码久久AR换脸,ai换脸造梦jennie喷水。

??02月14日,国际识局：政府被议会推翻，总理将辞职，法国怎么了？,

　　3、用电宁静

,伊人91综合,又粗又长是成语吗,18禁高清无码毛片AV网站免费观看。

??时事3：A片、Com

??02月14日,广交会观察：“老三样”企业的智能化、绿色化热潮,

　　石村的人倒吸了一口冷气，与巨狼配合，狈村人的实力那是相当恐怖了，这基础不是一个乡村能拥有的实力。

,吴梦梦果豆传媒在车上女中介,一级国产黄色网站,亚洲avav天堂av在线不卡。

??02月14日,2023年山西煤炭产量达13.78亿吨,

　　“凶狈就这样死了？！”

,在线日本视频,玉皇大帝怎么下载视频播放软件app,app福引导网站welcome辽宁。

??时事4：AV免费在线精品观看

??02月14日,电动自行车交通安全事故频发专家建议提供共享头盔,

　　就在这时，雷族、罗浮大泽、金狼部落等几部人马似乎接到了什么命令，朝着山林涌去，此后紫山一脉的人也动了。

,国自产拍在线,不会拒绝的妹妹巴比伦,丝瓜app类似。

??02月14日,广东梅大高速茶阳路段塌方灾害首位伤员出院系15岁男生,

　　1、增强村干部培训是提高班子实力，建设高素质农村下层干部的内在需要。在竞争日趋猛烈的今天，各人能否得心应手地事情，进一步生长农村经济，真正适应新形势，熟练自如地开展各项事情，要害是要看能否坚持不懈地学习种种知识和技术，不绝提高自身素质。从我县的情况来看，这次村委会换届，选出了群众公认的干部，这些干部的群众基础很好，可是有的同志才新进班子，对村里事情和种种情况还不熟悉，还不可很好地进入村干部角色;同时，在原已进入班子的干部中，有一部分人在事情作风、事情要领、事情效率等方面，仍然不可完全适应形势要求，具体来讲，体现在这部分同志的思想不敷解放，市场经济的竞争看法、效益看法、规模看法、科技看法、法制看法等还不强，仍未从关闭运行的圈子里走出来;领导治理水平还不敷高，事情仍停留在一种低条理、低要求和低水平上，事情要领仍然用土步伐、老经验，处理问题没程序，效劳不讲战略。如果我们不可正视以上问题，不可接纳有效步伐尽快解决和克服，那么建设高素质干步队伍，全面建设小康社会雄伟目标就是一句空话。解决素质不适应的问题，说究竟最基础的步伐照旧要靠学习。我们现在办培训班，对农村干部进行培训，就是为了逐步解决这些问题。同志们一定要认清形势，提高认识，务必以高度的紧迫感和责任感，加入培训，重视学习;不绝提高自身素质，努力成为自觉的、清醒的、群众信任的农村事情领导者。

,啊用力快一点,国产精品思思在线观看,又粗又爽又黄的吃奶视频。

【变废为宝山西朔州提高固废利用助推绿色低碳发展】

【（申城风景线）沪版骑楼风景“换装”：激活建筑延续记忆】

责编：赵义

审核：石文红

责编：罕·艾力

尊龙人生就是博

逾越CoT！微软剑桥中科院提出MVoT，直接可视化多模态推理历程

逾越CoT！微软剑桥中科院提出MVoT，直接可视化多模态推理历程