点击右上角微信好友

朋友圈

请使用浏览器分享功能进行分享

正在阅读:AI不会断句?中文分词新模型帮它进步
首页> 科普频道> 科普头条 > 正文

AI不会断句?中文分词新模型帮它进步

来源:科技日报2020-07-24 09:40

调查问题加载中,请稍候。
若长时间无响应,请刷新本页面

  参观者在上海举行的2019世界人工智能大会上与一个智能机器人进行交流。新华社记者 方喆摄

  本报记者 刘园园

  人工智能经常“看不懂”中文句子,让人哭笑不得。在日前举行的自然语言处理领域(NLP)顶级学术会议ACL 2020上,来自创新工场大湾区人工智能研究院的两篇论文入选。这两篇论文均聚焦自然语言处理中文分词领域。

  据研究人员介绍,分词及词性标注是中文自然语言处理的基本任务,但当前没有比较好的一体化解决方案,而且中文分词普遍存在歧义和未登录词的难题。

  基于此,两篇论文各自提出了键-值记忆神经网络的中文分词模型和基于双通道注意力机制的分词及词性标注模型,将外部知识(信息)融入分词及词性标注模型,剔除了分词“噪音”误导,提升了分词及词性标注效果。

  中文分词主要面临歧义和未登录词两大难点

  据介绍,中文分词的目的是在中文的字序列中插入分隔符,将其切分为词。例如,“我喜欢音乐”将被切分为“我/喜欢/音乐”。

  创新工场大湾区人工智能研究院执行院长宋彦分析,中文语言因其特殊性,在分词时面临着两个普遍的主要难点。

  一是歧义问题,由于中文存在大量歧义,一般的分词工具在切分句子时可能会出错。例如,“部分居民生活水平”,其正确的切分应为“部分/居民/生活/水平”,但存在“分居”“民生”等歧义词。

  二是未登录词问题。未登录词指的是不在词表,或者是模型在训练的过程中没有遇见过的词。这类问题在跨领域分词任务中尤其明显。宋彦介绍,这些未登录词,会非常影响分词和词性标注模型和系统的性能。

  利用记忆神经网络提升中文分词性能

  对此,其中一篇论文提出了基于键-值记忆神经网络的中文分词模型。

  宋彦介绍,该模型利用n元组(即一个由连续n个字组成的序列,比如“居民”是一个2元组,“生活水平”是一个4元组)提供的每个字的构词能力,通过加(降)权重实现特定语境下的歧义消解。并通过非监督方法构建词表,实现对特定领域的未标注文本的利用,进而提升对未登录词的识别。

  把可能成词的组合全部找到以后,加入到该分词模型中。然后通过神经网络,学习哪些词对于最后完整表达句意的帮助更大,进而分配不同的权重。例如,在“部分居民生活水平”这句话中,“部分”“居民”“生活”“水平”这些词会被突出,而“分居”“民生”会被降权处理,从而预测出正确的结果。

  据介绍,为了检验该模型的分词效果,论文进行了严格的标准实验和跨领域实验。“我们在5个经常使用的标准中文分词数据集(MSR、PKU、AS、CityU、CTB6)上面,都达到了最好的效果,在这五个数据集上的分数都刷到了历史新高。” 宋彦说。

  双通道注意力机制剔除“噪音”误导

  第二篇论文则提出了一种基于双通道注意力机制的分词及词性标注模型。

  据介绍,中文分词和词性标注是两个不同的任务。词性标注是在已经切分好的文本中,给每一个词标注其所属的词类,例如动词、名词、代词、形容词。词性标注对后续的句子理解有重要的作用。

  “‘他马上功夫很好’这句话,在使用外部的句法知识的时候,可能会存在‘马上’这个词被分错的情况。正确的结果应该是‘马’和‘上’分开,但是这儿如果被分成一个词,就会被识别为一个副词。” 宋彦举例说。

  研究人员介绍,针对这一问题,该论文提出的模型将中文分词和词性标注视作联合任务,可一体化完成。模型分别对自动获取的上下文特征和句法知识加权,预测每个字的分词和词性标签,不同的上下文特征和句法知识在各自所属的注意力通道内进行比较、加权,从而识别特定语境下不同上下文特征和句法知识的贡献。

  为了测试该模型的性能,论文在一般领域和跨领域分别进行了实验。宋彦介绍,一般领域实验结果显示,该模型在5个数据集(CTB5,CTB6,CTB7,CTB9,Universal Dependencies)的表现(F值)均超过前人的工作。

[ 责编:张梦凡 ]
阅读剩余全文(

相关阅读

您此时的心情

光明云投
新闻表情排行 /
  • 开心
     
    0
  • 难过
     
    0
  • 点赞
     
    0
  • 飘过
     
    0

视觉焦点

  • 河北武安:花椒铺就致富路

  • 塞罕坝云雾美如画

独家策划

推荐阅读
值得一提的是,这种3D打印肉并非素食人造肉,所用材料来源均来自动物细胞,因此也更像真正的肉类。《华盛顿邮报》进行过一项比较,一只猪崽从出生到出栏,养育100天能产90斤肉,而在实验室细胞培育,60天就能“长”出5000多吨人造肉。
2020-08-10 14:49
在春秋时期,鲁国有一个国君鲁宣公,他手下有一个大臣叫里革。除了在机构和官员设置、法律制度等方面做的尝试,在中国古代也有类似动物园、植物园、自然保护区的场所。
2020-08-10 09:56
观测和模拟工作已表明,由于地球磁层的保护,运行在月球轨道上的航天器和在月面上活动的航天员会在满月期间相对安全一些。
2020-08-10 09:55
研究人员承认,他们可能还没有绘制出完整的“南极墙”,因为这需要在一个更大的尺度上绘制出的宇宙地图。
2020-08-10 09:54
截至7月末,我国核酸日检测能力达到484万人份,具备核酸检测能力的医疗机构4946家,检测技术人员达到3.8万余人。“目前,我国核酸检测试剂和设备的生产能力能够满足当前常态化疫情防控的需要。
2020-08-10 09:48
一场阻击黄脊竹蝗的特殊“战役”在云南持续。对迁入的成虫,云南省要求各地总体上采取无人机喷洒化学药剂与地面施用烟剂,以及雾炮相结合的方式防治。
2020-08-10 09:46
此次项目的成功实施,也是对我国大容量、高参数超超临界电站的设计、制造、建设和运行能力迈上新台阶的综合检验。
2020-08-10 09:45
8月5日,《糖尿病患者胰岛素无针注射操作指引》发布会上,国家老年医学中心、北京医院郭立新表示,医学调查数据显示,我国糖尿病患者患病控制效果急需提升。
2020-08-10 09:44
MWO-3获取的观测资料,被第一时间发送到中央气象台台风与海洋气象预报中心,为台风预报、预警发挥了重要作用。
2020-08-10 09:42
研究团队利用全球气候变化计算机模型,来预测未来几十年两年期干旱的发生频率可能发生什么变化,以及温室气体排放是否会产生影响。
2020-08-10 09:40
目前,电动汽车或借助两根朝天“长辫”,或通过自带充电电池供电前行。伊兰表示,瑞典试验项目的结果首次证实了公司为行驶中卡车充电的能力,这让公司的解决方案为全球各地的人们所知晓。
2020-08-10 09:38
冰盖是覆盖着极厚冰层的广大陆地面积,冰盖的形成、消亡、融水量及其分布范围和成分的变化,直接影响局部地区乃至全球的地质和自然环境变化。
2020-08-10 09:37
新冠肺炎大流行期间,成年人的孤独感会因其生命阶段不同而感受不同,这是荷兰马斯特里赫特大学和南林堡公共卫生服务局的研究团队得出结论。
2020-08-10 09:35
近年来,随着反卫星、电磁干扰等技术的发展,美国军方越来越怀疑其严重依赖的全球卫星定位系统(GPS)在关键时刻是否有效,并一直希望找到一种替代方案。
2020-08-10 09:33
记者近日从中国科学院深圳先进技术研究院获悉,该材料界面研究中心喻学锋研究员团队成功开发一种基于微胶囊技术的长效抗微生物涂料,通过了国内外多家第三方权威机构的检测。
2020-08-10 09:31
为进一步提升精确制导武器的自动目标识别能力,他们将毫米波自动目标识别方向和红外自动目标识别方向融合,组建了新研究室,开展了新型智能目标识别技术研究,支撑精确制导武器探测识别能力提升。
2020-08-10 09:31
“高能氦离子束可以聚焦成为直径在0.5纳米左右的束斑,像一把超级小的刀,能够将材料在纳米尺度任意切割,但在硅材料衬底中注入高能氦离子束会形成隆起。
2020-08-10 09:29
火星是地球轨道以外的第一颗行星,颜色呈红色,由于亮度变化大,在我国古代被称为“荧惑”。
2020-08-07 20:30
或许你已经注意到了,当你在电影评分网站给刚看完的电影评完分后,网站后续给你推荐的影片风格会与你看完的电影类似。为进一步研究数据库存在偏见的程度,研究人员分别使用了三种算法对数据库的准确性和公平性进行评估。
2020-08-07 09:54
“创新基础设施将重点支撑科学研究、技术开发和产品研制,具有鲜明的科技特征和科技导向,势必将积极推动区块链技术本身的发展,进一步提升其赋能水平。区块链是构建数字社会的基础设施之一,也被视为新型基础设施,可以通过构建新的信任机制,大幅拓展信息技术的基础功能以及应用的深度和广度。
2020-08-07 09:53
加载更多