魔搭中文开源模型社区：模型即服务-大模型驱动的自然语言开放生态（下）-阿里云开发者社区

魔搭中文开源模型社区：模型即服务-大模型驱动的自然语言开放生态（下）

2023-05-23 1467

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

模型在线服务 PAI-EAS，A10/V100等 500元 1个月

模型训练 PAI-DLC，100CU*H 3个月

交互式建模 PAI-DSW，每月250计算时 3个月

简介： 魔搭中文开源模型社区：模型即服务-

如上图所示，命名实体识别任务（NER）的目的是识别出文本中的核心短语，如新闻领域中的人名、地名、组织名等。在解决实体识别问题中，其核心问题是引入新的信息或知识。

阿里云通过获取文本相关的额外知识，来补齐文本中的缺失信息，以此来提升NER的性能。

从2021年开始，阿里云提出隐式增强技术，通过动态融合不同预训练模型的知识，NER在六大词法分析任务中，横跨了24个公开数据集，超过业界所有SOTA。

在此基础之上，阿里云进一步提出显式上下增强技术，通过检索搜索引擎、相关文本、去躁文本等操作，来进一步提升原始模型的能力。相关工作发表在ACL 2021。

在2022年，阿里云再此基础上进行推广，提出的“知识检索技术”在全球规模最大的语义评测SemEval 2022大赛多语言NER的13个赛道中，取得10个第一，并斩获唯一的最佳系统论文奖。

在文本分类方面，阿里云基于预训练模型，构建了多维感知器，进行文本分类。多维感知器能够无监督的学习文本中的关键信息，使分类结果更具有可解释性。

阿里云多维感知器不仅在中文的自然语言理解任务中，取得了三榜第一。而且把它应用在外呼意图识别、司法分类等环节。目前，ModelScope上相关模型有情感分类、外呼意图识别、零样本分类等等。

如上图所示，阿里云基于对话问答Space序列，上线了意图分类模型。大家可以通过数据扫描，进行意图分类、回复生成、任务推理，代码可复现等等。

在表格问答方面，阿里云预制了一些表格问答的预算模型，大家可以直接在ModelScope社区体验。

OCR是文字光学字符识别，文档理解非常重要的技术。阿里云将视觉和语言联合建模，通过视觉的二维信息和语言的上下文信息，更好的理解文档或表格中的文字边界，进一步识别文字。

与此同时，阿里云对表格结构进行检测与重建，上线了一些基础模型，包括文字检测识别、表格检测识别、中英文表格识别等等。

在机器翻译方面，阿里云最新自研的连续语义增强机器翻译模型。获得了自然语言处理顶ACL 2022的最佳论文奖。目前，该模型已开源部署在ModelScope社区。

目前，在ModelScope社区上线的机器翻译主要是中英、英中、英法、法英的双向模型。开源模型包含5.7亿参数，翻译质量达到业内第一梯队训练数据包括UN、WMT21、OPUS等，规模达到3亿以上。

自然语言理解是从感知智能进化到认知智能的重要阶段，也是形成决策智能的重要基石。阿里云在ModelScope上提供了structBert，PALM，mPLUG，中文基础模型等预训练模型底座，共计100+NLP应用模型。

这些模型涵盖了分词，词性，命名实体识别等基础技术，以及文本分类，情感分类，对话问答，OCR，机器翻译等应用技术。涵盖了通用，新闻，电商，医疗等多领域。支持中，英，法，西等10多种语言模型。阿里云达摩院为大量的应用场景，提供了丰富易用，性能领先的模型库。

魔搭中文开源模型社区：模型即服务-大模型驱动的自然语言开放生态（下）