算法自动“划重点”AI学会“抱佛脚”

来源：中国科学报2021-11-24 08:59

　　预训练模型的兴起给自然语言处理（NLP）带来了“新面貌”。

　　近年来，Google、Facebook、OpenAI、微软、百度等人工智能“头部玩家”推出多个颇具影响的预训练模型，并反复迭代出十多个版本。无论学术界还是业界，人们对大规模预训练模型“热情高涨”。

　　日前，来自清华大学的一支研究团队提出一种简单高效的NLP学习框架。不同于当下NLP社区主流的“大规模预训练+下游任务微调”的范式，这一框架无需进行大规模预训练，同时将训练效率提升两个数量级，并在多个NLP任务上，实现了比肩甚至超出预训练模型的性能。近日，相关研究以预印本形式，在arXiv上发表。

　　预训练模型的“内功”

　　预训练模型在自然语言处理领域蓬勃发展，近年来在多个子方向取得了颠覆性的成果。

　　“自然语言处理的‘预训练’过程，就像武侠小说中，练武之人的‘修炼内功’。”上海对外经贸大学副研究员邵浩说，“一个人要成为武林高手，需要有扎实的“内功”，内功修炼好之后，再去学各种招式就非常容易上手，并能发挥其最大效用。”

　　随着深度学习的发展，模型参数显著增长，从而需要越来越大的数据集，用于充分训练模型参数。然而，因大部分NLP任务的标注成本极为高昂，尤其是句法和语义相关的任务，构建大规模标注数据集尤为困难。

　　相比较而言，大规模无标注数据集相对易于构建。为更好地利用海量无标签文本数据，常规的做法是首先从这些数据中学到较好的文本表示，然后再将其用于其他任务。许多研究表明，在大规模无标注语料中训练的预训练语言模型，可以使多方面NLP任务获得显著的性能提升。

　　通过海量无标注语料来预训练神经网络模型，可以让人工智能更利于下游NLP任务的完成。预训练模型的作者已经设计出了基准模型，这样，使用者就可以在自己的NLP数据集上应用该模型，而无需从头开始构建模型来解决类似的问题。尽管后续过程需要进行一些微调，但这为人们节省了大量的时间和计算资源。

　　2018年，无监督的双向预训练语言模型ELMo被提出，这种上下文相关的文本表示方法在多个典型任务上表现惊艳，能有效处理一词多义问题。紧随其后，GPT，BERT等预训练语言模型相继被提出，预训练模型技术开始在NLP领域大放异彩，并在各种下游任务中遍地开花。

　　任务驱动模型出场

　　“预训练语言模型因其强大的性能被广泛关注，基于‘预训练—微调’的范式也成为许多NLP任务的标准方法。”清华大学交叉信息研究院助理教授、RecurrentAI联合创始人杨植麟对《中国科学报》说，“然而，当前通用语言模型的预训练成本极其高昂，这使得只有少数资源充足的研究机构或组织能够对其展开探索。”

　　为解决上述问题，杨植麟团队提出的一种完全不需要预训练语言模型的高效学习框架。这一框架从通用语料中筛选出与下游任务相关的子集，并将语言建模任务与下游任务进行联合训练。

　　该论文第一作者、清华大学计算机科学实验班（姚班）大四本科生姚星丞介绍说，提出任务驱动的语言模型的想法源于一个基本的观察：人类可以通过对关键信息的学习，在有限的时间和精力投入情况下，快速掌握某一任务技能。例如，在临近考试时，学生仅根据考纲复习浏览若干相关章节的要点即可应对考试，而不必学习所有可能的知识点。与之类似，预训练语言模型在某一下游任务上的优良表现，“很有可能因为来自于语料中与下游任务相关的数据”。

　　基于这一判断，该团队提出任务驱动的语言模型（TLM），它仅利用从大规模通用语料中提取的少量与下游任务相关的数据，就可以取得与全量数据类似的结果。

　　“相较于传统的预训练模型RoBERTa（基于BERT的改进模型，使用更大的批次和更多的数据对模型进行更长的训练），TLM仅需要约1%的训练时间与1%的语料，即可在众多NLP任务上，表现出比肩甚至超出预训练模型的性能。”姚星丞说，“我们目前也正在尝试将任务驱动的方法推广到更大规模的模型上，如GPT-3或T5。”

　　跳出预训练范式

　　为了从大规模通用语料中抽取关键数据，TLM以任务数据作为查询对象，用基于稀疏特征的BM25算法作为召回算法，对通用语料库进行相似数据的召回。

　　“除已有的下游任务数据以外，其余的语料均通过BM25算法进行相似性匹配而自动筛选，不需要人工做额外的选择与标记。”姚星丞说。“TLM基于任务数据和召回数据，同时优化任务目标和语言建模目标，从零开始进行联合训练。”

　　为了测试TLM的性能，研究人员在8项NLP分类任务上，从三个不同规模展开了对比实验。这8项任务涵盖了计算机科学、生物医药、新闻、评论等4个领域，包括了训练样本数量小于5000的低资源任务和训练样本数量大于20000的高资源任务，任务类型覆盖了话题分类，情感分类，实体关系抽取等。

　　测试结果显示，和对应“预训练—微调”基准相比，TLM实现了相当甚至更优的性能。平均而言，TLM减少了两个数量级规模的训练计算量以及训练语料的规模。整体来说，预训练模型以极高的成本学习尽可能多的，和任务无关的知识，而TLM以非常低的成本，针对每个任务学习相关知识。

　　“当我们有少数特定目标的任务需要解决的时候(例如希望对少量几个数据集进行研究)，TLM会是非常高效的。”姚星丞说，“而需要一次性解决大量任务时(例如工业界构建一个NLP平台为多方提供相似的服务)，预训练模型仍然具有优势。”

　　此外，TLM是任务驱动的，所以可以给研究人员更大的自由度，从而自定义策略进行标记、序列长度、数据表示、超参数的调整等等，从而达到提高性能和效率的目的。

　　“TLM的提出，让NLP研究跳脱出‘预训练—微调’范式成为可能，这有利于推动NLP研究公平化。”杨植麟解释说，预训练本身严重依赖大量的计算资源，这一限制使大多数NLP研究者只能专注于对微调算法的研究。然而微调算法的性能上限，很大程度上受预训练模型性能的约束。而TLM可以让大多数研究人员可以以较低的代价和较高的效率，基于最先进的解决方案对模型架构、损失函数、算法等方面进一步自由探索。

　　杨植麟认为，未来会有更多有趣的研究可以在TLM的基础上展开。例如，如何经济地达到更大规模预训练模型的表现效果；如何提升TLM的通用性与可迁移性；可否利用TLM进行小样本或零样本学习等。此外，还可以将预训练模型和TLM结合，从而在通用性和效率之间实现更好的权衡。（张双虎）

　　相关论文信息：https://arxiv.org/pdf/2111.04130.pdf

　　项目地址：https://github.com/yaoxingcheng/TLM

[ 责编：赵清建 ]

阅读剩余全文（）

您此时的心情

新闻表情排行日/周

开心

0
难过

0
点赞

0
飘过

0

视觉焦点

逐梦海天青春滚烫——记海军山东舰起降保障中队
创新潮涌链博会

最热文章

推荐阅读

周尧：以虫治虫护麦田学术正名扬国威

从意大利实验室到西北农学院，从抗战时期到和平年代，周尧用70年时光让中国昆虫学从5%的定名权走向自主。

2025-07-18 09:06

我国每万人口高价值发明专利拥有量15.3件

记者从会上获悉，截至今年6月，我国每万人口高价值发明专利拥有量已达到15.3件，提前实现“十四五”规划预期的12件目标。

2025-07-18 09:04

太阳系外“起点时刻”现象首次捕获

而在此次观测中，天文学家发现，在HOPS-315及其周围的原始星盘中，不仅存在固态的结晶矿物，还存在气态的一氧化硅。

2025-07-18 09:04

两部门发文攻关十大产业计量问题

旨在充分发挥计量支撑产业新质生产力发展的基础保障作用，推动“溯源链、创新链、产业链”融合发展，使计量成为促进产业新质生产力发展的催化器和引擎。

2025-07-18 09:04

水稻多器官单细胞多组学图谱问世

该所作物耐逆性调控与改良创新团队日前联合国内外研究机构，构建了首个水稻的多器官单细胞多组学图谱，

2025-07-18 04:30

科学家揭示太阳活动对我国夏季降水影响有望助力中长期气候预测

太阳是地球气候系统的主要能量来源，其活动通过总辐射、紫外辐射、高能粒子沉降等多种形式影响地球大气。近年来，我国夏季降水雨带呈现出持续北移的趋势。

2025-07-18 04:30

AI的“察言观色” 人机语言交互如何更有温度

人机语言交互的“温度”，其核心在于能否实现情感共鸣、文化适配与价值传递。语言不仅是信息符号，更是心灵沟通的桥梁。为冰冷的代码注入人文温度，需在技术突破与设计理念上双轨并进。

2025-07-17 04:30

人类何时开始大规模用火？

近日，中国科学院海洋研究所万世明团队，基于海洋沉积物中的黑碳记录，重建了过去30万年以来东亚北部的古火演化历史，结合欧洲、东亚、东南亚及澳大利亚区域的记录以及考古遗址大数据，发现现代人类大规模用火始于约5万年前。

2025-07-17 04:30

翼伞的前世今生与未来之光

在飞行器大家庭中，有一类特别的成员——翼伞。它们没有刚硬的机翼，却凭着一片巨大柔软的“翅膀”，借助风力优雅地翱翔于天际；它们结构看似简单，却蕴含着空气动力学的精妙智慧。翼伞是融合古老降落伞原理与现代智能科技的独特柔性无人飞行器，包含翼、控制系统、负载，如果加上推力系统，就可化身为伞翼无人机。

2025-07-17 04:30

工业和信息化部拟制定移动电源强制性国家标准

近年来，移动电源行业呈现出较为迅速的发展趋势。与此同时，移动电源安全事故频发，严重威胁消费者生命财产安全。通过制定强制性国家标准，

2025-07-17 03:55

首个枸杞属植物国际测试标准问世

由该院枸杞科学研究所联合中国林业科学院林业研究所编制的《枸杞属植物新品种特异性、一致性、稳定性测试指南》获得国际植物新品种保护联盟通过。

2025-07-17 04:00

我科学家发现拟南芥叶片衰老“开关”

武汉华大生命科学研究院联合南方科技大学等单位，在单细胞水平上成功解密了拟南芥叶片衰老的过程。

2025-07-16 10:44

中国最大海上气田这样建成

不只是产量最大，“深海一号”大气田还是我国迄今为止自主开发建设的作业水深最深、地层温压最高、勘探开发难度最大的深水气田。

2025-07-16 10:42

我国正研制《卓越工程师培养认证标准》

我国正研制《卓越工程师培养认证标准》，该标准是保障卓越工程师培养从“样板间”走向宏大队伍的基础。

2025-07-16 10:39

新技术+“老把式”，提升监测预警能力

七月下半月和八月上半月是我国主汛期的最重要阶段，应急管理部指导各地加强灾害风险隐患信息报送队伍建设，开展广泛培训，目前总人数已达115万人。

2025-07-16 10:25

暑期未成年人网络环境整治专项行动开展

为强化未成年人网络保护，营造良好网络环境，近日，中央网信办印发通知，在全国范围内部署开展为期2个月的“清朗·2025年暑期未成年人网络环境整治”专项行动。

2025-07-16 10:23

加快推动人工智能赋能新型工业化

新时代新征程，以中国式现代化全面推进强国建设、民族复兴伟业，实现新型工业化是关键任务。

2025-07-15 04:10

人工智能赋能新型工业化的作用机制

现阶段，人工智能赋能新型工业化已取得明显成效，但仍存在人工智能关键硬件与开源软件储备不足、人工智能在重点行业领域应用率偏低、人工智能领域人才短缺且结构不合理、缺乏适应人工智能发展的标准体系和法律法规等问题。

2025-07-15 04:10

人形机器人：在机遇与挑战中勇闯新路

2025年可谓人形机器人的“破圈”之年。从蛇年春晚舞台的机器人扭秧歌，到北京亦庄的机器人马拉松，再到浙江杭州的机器人格斗赛……人形机器人正从“实验室”迈向各类“应用场”。

2025-07-15 02:55

对话来自深海的“记忆”

科考船在狂风巨浪中剧烈摇摆，寻找渺小的目标如同大海捞针。回收沉睡海底半年的海底地震仪，是这次出海科研任务中最艰难的一环。“快看！在那儿！”随着一声疾呼划破沉寂，

2025-07-15 02:55

加载更多

全部导航

算法自动“划重点”AI学会“抱佛脚”

相关阅读

您此时的心情

视觉焦点

最热文章

独家策划