0

    助力LLMs提升外部工具应用能力

    1年前 | admin | 131次围观

    今日值得关注的人工智能新动态:

    多模态大型语言模型综述

    DragGAN 源代码发布

    ToolQA:助力 LLMs 提升外部工具应用能力

    DiversiGATE: 革新 LLMs 验证的统一框架

    研究揭示:大型视觉语言模型存在安全风险

    01

    多模态大型语言模型综述

    为追溯和总结多模态大型语言模型(MLLMs)的最新进展,中国科学技术大学与腾讯联合发布了 MLLMs 综述文章。

    他们首先介绍了 MLLMs 的表述并描述了其相关概念;然后讨论了多模态指令微调(M-IT)、多模态上下文学习(M-ICL)、多模态思维链(M-CoT)等关键技术和应用;最后,他们讨论了现有的挑战并指出了有希望的研究方向。

    ai大模型日报_焦作日报发布虚假信息_新闻源发布

    具体如下:

    MLLMs 感知能力不足,这导致获取的视觉信息不完整或不正确。一种解决方案是引入 SAM 这样的大型视觉基础模型,从而可以更高效地压缩视觉信息。

    MLLMs 的推理链不够强大。单模态 LLMs 的推理能力可能不等同于在接收到视觉信息后的 LLMs 的推理能力,需要加大对改进多模态推理的研究力度。

    MLLMs 的指令遵循能力需要升级。在进行 M-ITai大模型日报,一些 MLLMs 仍然无法生成预期的答案。因此,指令微调可能需要涵盖更多任务,从而提高泛化能力。

    幻觉问题普遍存在,很大程度上影响了 MLLMs 的可靠性。这可能归因于不足的对齐预训练。因此,一种可能的解决方案是在视觉和文本模态之间进行更细粒度的对齐。

    MLLMs 需要进行参数高效的训练。更高效的训练方法可能会在计算资源有限的情况下释放出 MLLMs 更强的能力。

    论文链接:

    02

    DragGAN 源代码发布

    DragGAN 是由来自马克斯·普朗克计算机科学研究所、MIT CSAIL 和谷歌的研究团队提出的一种控制 GAN 的新方法 ,能够让用户以交互的方式“拖动”图像的任何点精确到达目标点,可处理的图像类型包括动物、汽车、人类、风景等,涵盖大量物体姿态、形状、表情和布局,并且用户的操作方法简单通用。

    新闻源发布_ai大模型日报_焦作日报发布虚假信息

    参考链接:

    03

    ToolQA:

    助力 LLMs 提升外部工具应用能力

    近日,为提高大型语言模型(LLMs)使用外部工具回答问题的能力,佐治亚理工学院的研究团队推出了一个名为 ToolQA 的新数据集。该数据集涉及一个可扩展的自动化数据集管理流程,以及 13 个专门与外部知识交互来回答问题的工具。研究人员在研究该数据集时,最大限度地减少了基准数据与 LLMs 预训练数据之间的重叠,从而能够更精确地评估 LLMs 的工具使用推理能力。有关该数据集的数据和代码可以在 GitHub 上免费获取。

    ai大模型日报_新闻源发布_焦作日报发布虚假信息

    论文链接:

    04

    DiversiGATE:

    革新 LLMs 验证的统一框架

    微软研究院和 ModelFarm 整合了多种 LLM 验证方法,联合研发出了统一框架 DiversiGATE。该框架包括多样化和聚合两个主要组成部分,从而为 Self-Consistency、Math Prompter 和 WebGPT 等现有验证方法提供了整体视角。

    此外,他们还提出了 SelfLearner 模型,该模型可以从自身的输出中学习并提高其准确性。为了评估 SelfLearner 的有效性ai大模型日报,他们还对合成数据和算术推理基准(如 GSM8K )进行了测试,结果表明,该方法优于传统的 LLMs,在 GSM8K 基准上取得了很好的改进。

    焦作日报发布虚假信息_新闻源发布_ai大模型日报

    论文链接:

    05

    研究揭示:

    大型视觉语言模型存在安全风险

    近期,普林斯顿大学一项研究揭示,对抗性示例可以绕过安全机制,引发大型视觉语言模型(VLMs)的有害行为。即使针对特定社会群体的狭窄语料库进行优化,这些示例仍能普遍破解安全机制,产生有害内容。研究强调了对 VLMs 的全面风险评估、强大的防御策略和负责任实践的紧迫需求,以确保其安全使用。这一发现对保护用户和社会免受潜在威胁至关重要。

    论文链接:

    标签: 能力模型
    发表评论