点击右上角微信好友

朋友圈

请使用浏览器分享功能进行分享

正在阅读:语言模型竟能追踪病毒
首页> 科普频道> 科普头条 > 正文

语言模型竟能追踪病毒

来源:《中国科学报》2021-01-20 09:24

调查问题加载中,请稍候。
若长时间无响应,请刷新本页面

  病毒可能比人们想象的更狡猾,它能不断伪装自己,逃避“疫苗猎人”的追捕。

  一直以来,研制流感、艾滋病疫苗之所以如此困难,原因之一便是这些病毒的变异非常迅速。这使得它们可以通过一种被称为病毒逃逸的过程,避开特定疫苗产生的抗体。

  美国麻省理工学院研究人员现在设计了一种计算病毒逃逸的新模型。该模型基于最初用来分析语言的模型,可以预测病毒表面蛋白的哪些部分更容易发生突变,从而使病毒能够逃逸,也可以识别出不太可能发生突变的部分,使它们成为新疫苗的靶标。

  “病毒逃逸是个大问题。”麻省理工学院计算机科学与人工智能实验室教授Bonnie Berger说,“流感病毒表面蛋白和HIV(艾滋病病毒)包膜表面蛋白引发的病毒逃逸是造成目前没有通用疫苗的主要原因。这两种疾病每年都会导致数十万人死亡。”

  在1月15日发表于《科学》的一项研究中,Berger及同事确定了流感、HIV和新冠病毒疫苗的可能目标。研究人员还将该模型用于研究最近在英国和南非出现的新冠病毒新变种。研究人员说,尚未经过同行评审的相关分析显示,这些病毒的基因序列应该被进一步调查,以确定它们是否有可能逃脱现有疫苗的影响。

  病毒也有语言

  不同类型的病毒以不同速度发生基因突变,HIV和流感是突变最快的病毒之一。

  “HIV和流感病毒突变得很快,这是它们生物学复制的结果。例如,HIV和流感遗传物质的复制机制很容易出错,从而导致突变。”该研究通讯作者、麻省理工学院生物工程助理教授Bryan Bryson接受《中国科学报》采访时表示。

  为了让这些突变促进病毒逃逸,病毒必须改变其表面蛋白质的形状,这样抗体就不能再与它们结合。然而,这种蛋白质不会发生使其失去功能的变化。

  Berger、Bryson以及研究生Brian Hie等人,决定使用一种被称为语言模型的计算模型进行建模。这种模型来自自然语言处理(NLP)领域,最初被设计用来分析语言模式,特别是某些单词同时出现的频率,以预测哪些单词可以用来完成一个句子,比如要补全“萨莉在()中吃了鸡蛋”,NLP模型可能预测“早餐”或“午餐”。

  “我们对NLP语言模型的最新进展感到兴奋,这些模型可以通过学习原始文本理解人类语言。于是,我们认为,由于病毒最丰富的数据是原始的病毒序列,我们也可以通过训练语言模型从病毒序列数据集中学习非常复杂的模式。”Bryson说。

  当这种模型应用于生物信息,如基因序列时,其语法类似于确定特定序列编码的蛋白质是否具有功能,语义类似于确定蛋白质是否能够呈现新的形状,帮助它逃避抗体。因此,使病毒能够逃脱的突变必须保持序列的语法性,但同时能以一种有用的方式改变蛋白质的结构。

  用序列训练模型

  “病毒想要逃离人类的免疫系统,又不想因突变而死亡或无法复制,换句话说,它既想保持健康,又想充分伪装自己,以防被人体免疫系统检测到。”Hie说。

  为模拟这一过程,研究人员训练了一个NLP模型分析基因序列中的模式,该模型可以预测具有新功能但仍遵循蛋白质结构生物学规则的新序列。这样建模的一个显著优点是它只需要序列信息,这比获得蛋白质结构容易得多。

  此外,该模型可以在相对少量的信息上进行训练——在这项研究中,研究人员使用了60000条HIV序列、45000条流感序列和4000条冠状病毒序列。

  “语言模型非常强大,因为它们可以学习这个复杂的分布结构,并从序列变化中获得一些对功能的洞见。”Hie告诉记者,“我们在每个氨基酸位置都有大量的病毒序列数据,模型通过训练数据学习氨基酸特性。”

  该模型一旦经过训练,研究人员便能使用它来预测冠状病毒刺突蛋白、HIV包膜蛋白和流感血凝素(HA)蛋白的序列变化,这些蛋白或多或少可能产生逃逸突变。

  “发现看似不相关的科学分支之间的联系,可能会发展出加速一个分支研究的新方法。该研究提供了一个此类联系的示例。作者发现了病毒与自然语言之间的相似之处,进而提出了一种识别突变的强大新方法,这种突变可以使病毒通过中和抗体逃脱识别。”未参与该研究的美国国家医学图书馆的Teresa M. Przytycka等人在相关评论文章中指出。

  知己知彼 阻断逃逸

  对于流感,该模型揭示了最不可能发生突变和产生病毒逃逸的序列是在HA蛋白的茎部。这与最近研究一致,表明针对HA茎部的抗体几乎可以提供全面的保护,以对抗任何流感毒株。

  在对HIV的研究中,研究人员发现,该蛋白的V1-V2高变区域有许多可能的逃逸突变,这与之前的研究结果一致,他们还发现了逃逸概率较低的序列。

  该模型对冠状病毒的分析表明,被称为S2亚基的刺突蛋白的一部分最不可能产生逃逸突变。但新冠病毒变异的速度仍是一个问题,因此目前部署的抗击新冠肺炎大流行的疫苗在多长时间内保持有效性尚不清楚。

  “目前,对于新冠病毒,我们认为该模型可以迅速标记出与以前看到的病毒序列有本质区别的新序列,以便在实验室进行下一步测试。” Berger告诉《中国科学报》,“你可以想象,模型能检查每一个新序列,而改变超过一定阈值的序列就需要在实验室中展开进一步研究。”

  初步证据表明,这种病毒的变异速度不像流感或HIV那么快。然而,研究人员最近发现了在新加坡、南非和马来西亚出现的新突变,他们认为应该对潜在的病毒逃逸进行调查。

  研究人员认为,目前面临的问题仍然是新冠病毒的变异速度有多快。

  “该病毒种类繁多,控制其复制的生物机制因人而异,所以尽管它们有共同的特征,但仍需要对每种病毒进行专门研究,以了解其突变率。”Bryson说,“我们最好的见解将来自于动物感染模型,其中完整的免疫反应是存在的,因此可以理解总的免疫压力是如何影响病毒突变率的。之后,我们需要对新冠病毒感染者的病毒进行测序,以识别这些病毒中存在的突变。”

  此外,研究人员现在正与其他人合作,利用他们的模型确定癌症疫苗的可能目标,从而刺激人体自身免疫系统摧毁肿瘤。他们说,该模型还可以用来设计小分子药物,这种药物可能不会引发结核病等疾病的耐药性。(唐凤)

[ 责编:张梦凡 ]
阅读剩余全文(

相关阅读

您此时的心情

光明云投
新闻表情排行 /
  • 开心
     
    0
  • 难过
     
    0
  • 点赞
     
    0
  • 飘过
     
    0

视觉焦点

  • 从田园到餐桌:链博会里看中外美食

  • 辉煌60载 魅力新西藏

独家策划

推荐阅读
从意大利实验室到西北农学院,从抗战时期到和平年代,周尧用70年时光让中国昆虫学从5%的定名权走向自主。
2025-07-18 09:06
记者从会上获悉,截至今年6月,我国每万人口高价值发明专利拥有量已达到15.3件,提前实现“十四五”规划预期的12件目标。
2025-07-18 09:04
而在此次观测中,天文学家发现,在HOPS-315及其周围的原始星盘中,不仅存在固态的结晶矿物,还存在气态的一氧化硅。
2025-07-18 09:04
旨在充分发挥计量支撑产业新质生产力发展的基础保障作用,推动“溯源链、创新链、产业链”融合发展,使计量成为促进产业新质生产力发展的催化器和引擎。
2025-07-18 09:04
该所作物耐逆性调控与改良创新团队日前联合国内外研究机构,构建了首个水稻的多器官单细胞多组学图谱,
2025-07-18 04:30
太阳是地球气候系统的主要能量来源,其活动通过总辐射、紫外辐射、高能粒子沉降等多种形式影响地球大气。近年来,我国夏季降水雨带呈现出持续北移的趋势。
2025-07-18 04:30
人机语言交互的“温度”,其核心在于能否实现情感共鸣、文化适配与价值传递。语言不仅是信息符号,更是心灵沟通的桥梁。为冰冷的代码注入人文温度,需在技术突破与设计理念上双轨并进。
2025-07-17 04:30
近日,中国科学院海洋研究所万世明团队,基于海洋沉积物中的黑碳记录,重建了过去30万年以来东亚北部的古火演化历史,结合欧洲、东亚、东南亚及澳大利亚区域的记录以及考古遗址大数据,发现现代人类大规模用火始于约5万年前。
2025-07-17 04:30
在飞行器大家庭中,有一类特别的成员——翼伞。它们没有刚硬的机翼,却凭着一片巨大柔软的“翅膀”,借助风力优雅地翱翔于天际;它们结构看似简单,却蕴含着空气动力学的精妙智慧。翼伞是融合古老降落伞原理与现代智能科技的独特柔性无人飞行器,包含翼、控制系统、负载,如果加上推力系统,就可化身为伞翼无人机。
2025-07-17 04:30
近年来,移动电源行业呈现出较为迅速的发展趋势。与此同时,移动电源安全事故频发,严重威胁消费者生命财产安全。通过制定强制性国家标准,
2025-07-17 03:55
由该院枸杞科学研究所联合中国林业科学院林业研究所编制的《枸杞属植物新品种特异性、一致性、稳定性测试指南》获得国际植物新品种保护联盟通过。
2025-07-17 04:00
武汉华大生命科学研究院联合南方科技大学等单位,在单细胞水平上成功解密了拟南芥叶片衰老的过程。
2025-07-16 10:44
不只是产量最大,“深海一号”大气田还是我国迄今为止自主开发建设的作业水深最深、地层温压最高、勘探开发难度最大的深水气田。
2025-07-16 10:42
我国正研制《卓越工程师培养认证标准》,该标准是保障卓越工程师培养从“样板间”走向宏大队伍的基础。
2025-07-16 10:39
七月下半月和八月上半月是我国主汛期的最重要阶段,应急管理部指导各地加强灾害风险隐患信息报送队伍建设,开展广泛培训,目前总人数已达115万人。
2025-07-16 10:25
为强化未成年人网络保护,营造良好网络环境,近日,中央网信办印发通知,在全国范围内部署开展为期2个月的“清朗·2025年暑期未成年人网络环境整治”专项行动。
2025-07-16 10:23
新时代新征程,以中国式现代化全面推进强国建设、民族复兴伟业,实现新型工业化是关键任务。
2025-07-15 04:10
现阶段,人工智能赋能新型工业化已取得明显成效,但仍存在人工智能关键硬件与开源软件储备不足、人工智能在重点行业领域应用率偏低、人工智能领域人才短缺且结构不合理、缺乏适应人工智能发展的标准体系和法律法规等问题。
2025-07-15 04:10
2025年可谓人形机器人的“破圈”之年。从蛇年春晚舞台的机器人扭秧歌,到北京亦庄的机器人马拉松,再到浙江杭州的机器人格斗赛……人形机器人正从“实验室”迈向各类“应用场”。
2025-07-15 02:55
科考船在狂风巨浪中剧烈摇摆,寻找渺小的目标如同大海捞针。回收沉睡海底半年的海底地震仪,是这次出海科研任务中最艰难的一环。“快看!在那儿!”随着一声疾呼划破沉寂,
2025-07-15 02:55
加载更多