点击右上角微信好友

朋友圈

请使用浏览器分享功能进行分享

正在阅读:天云数据CEO雷涛:大模型后训练时代,AI要生产数据训练自己
首页> 光明科普> 图文 > 正文

天云数据CEO雷涛:大模型后训练时代,AI要生产数据训练自己

来源:光明网2025-03-03 17:07

  今年1月,人工智能公司xAI创始人埃隆·马斯克在一场直播中表示,人工智能公司已经耗尽了用于训练模型的数据,并“耗尽”了人类的全部知识。

  数据是人工智能大模型的基础,模型通过对海量数据的分析提炼形成智能。现在,人类生产数据的速度,远远跟不上人工智能学习的步伐。没有优质数据的支撑,大模型该如何训练?

  服务于真实的数字生产资料

  “今天的数据已经供给不了明天的AI,今天的AI要生产明天需要的数据。”近日,在由北京市科协、北京科技记协组织的“首都科技人”宣传活动中,天云数据CEO、第九届吴文俊人工智能科学技术发明奖获得者雷涛分享了他对“合成数据”这一数字生产资料的看法。

 天云数据CEO雷涛:大模型后训练时代,AI要生产数据训练自己

  天云数据CEO、第九届吴文俊人工智能科学技术发明奖获得者雷涛。受访者供图

  雷涛表示,硬件的增长遵循摩尔定律,而数据的增长则呈现指数型态势。我们如今所处的时代,已然是机器生产数据的时代,合成数据则是未来算力的主要解决方案。

  但在实际应用中,合成数据是否会因为是“人造”的,而存在“假数据”的嫌疑,无法达到与真实数据同等的效用呢?

  雷涛介绍,合成数据不是假数据,它是在有限的真实数据的基础上,用真实的逻辑生成的结果数据。这些结果数据服务于真实的生产过程。

  他以完成能源行业的安全规范为例进行说明。过去编写安全规范需要专业人员,且要同时消化多种语言的操作手册;现在把所有操作手册给到计算机,计算机按照工艺流程的思维链学习并抽取内容,就能够生成安全规范。这个安全规范虽是“合成”的,却完全可以应用于实际的生产过程,这充分体现了合成数据在工业生产场景中的价值。

 由简“化”繁的生成逻辑

  那么,合成数据究竟如何生成?雷涛打了个比方,往一瓶水中滴一滴墨水,墨水会从相对简单的状态逐渐扩散,变得复杂、分散。通过逆扩散算法识别墨水扩散规律,就能模拟出不同的墨水扩散场景。合成数据也是利用类似原理,抓住核心规律,从简单数据出发,模拟数据的复杂变化过程,创造出丰富多样的数据。

  “人类的抽象逻辑留给我们的数据资产有限,都是信息化进程中沉淀下来的结构化概要信息。而要把这些概要信息,转变为能用于理解和处理复杂世界中复杂系统的内容,就需要大量合成数据。”雷涛说。

 天云数据CEO雷涛:大模型后训练时代,AI要生产数据训练自己

 受访者供图

  另外,在某些特定领域或场景下,获取真实数据存在困难。以自动驾驶领域为例,其需要百万级别的路况数据,涵盖模拟极端灾难天气、极端恶性交通事故(如波音747在高速公路上迎面迫降)、复杂路况(如路面破损、立交桥断桥)等情况的数据。这些数据难以从现实世界获取,而合成数据可按需生成,填补数据缺口,降低对有限真实数据的依赖。

 自我驱动的“数据飞轮”

  雷涛认为,人工智能已经从预训练时代走向了后训练时代。在后训练时代,大模型构建起从数据生成到模型强化的正向循环机制至关重要。就像移动互联网时代搜推系统的“数据飞轮”效应——通过应用数据优化算法,算法又反哺应用,人工智能大模型也应形成“数据飞轮”,借助AI生产训练数据实现自我训练。

  已经有数家活跃于人工智能领域的企业,正在使用合成数据训练大模型。Facebook和Instagram的所有者Meta已经使用合成数据来微调其最大的LlamaAI模型,而微软也将AI制作的内容用于其Phi-4模型。谷歌和ChatGPT背后的公司OpenAI也在其AI工作中使用了合成数据。

  最近如火如荼的Deepseek,也在训练中使用到了合成数据。根据DeepSeek-V3技术文档,对于数学、代码竞赛、逻辑谜题这类推理相关数据,DeepSeek-V3先借助已训练好的DeepSeek-R1模型生成数据,再用融合了特定优化方法(监督微调与强化学习)的专业模型。

  为应对数据“饥荒”,“自给自足”的合成数据正在成为人工智能的新燃料。雷涛以2月19日发布的斯坦福生物学模型Evo2为例,Evo2能解构生物数据,还能通过训练,重构数据维度,在人工智能与数据的深度融合中,形成“复利效应”:“现在,AI产业与数据已步入深度协同阶段,构成产业演进的底层逻辑:AI建设数据资产,数据飞轮加速AI产业发展,二者相互依存、共同发展,促使产业格局发生质变。”(记者 李欣哲)

[ 责编:蔡琳 ]
阅读剩余全文(

相关阅读

您此时的心情

光明云投
新闻表情排行 /
  • 开心
     
    0
  • 难过
     
    0
  • 点赞
     
    0
  • 飘过
     
    0

视觉焦点

  • 广西贺州“空心村”变身文旅打卡地

  • 山东临沂:民众畅游曹洼大集

独家策划

推荐阅读
一些不法商家钻监管漏洞,推出所谓“智驾神器”规避车辆安全监控,不仅严重威胁道路交通安全,更触碰了法律红线,扰乱了新能源汽车产业的健康发展秩序。
2025-12-09 10:11
一项新研究揭示了这些天体表面下可能发生的活动,为了解其多样地质特征的形成机制提供了线索。相关研究成果近日发表于《自然-天文学》。
2025-12-09 10:02
实验结果显示,将化合物注射给抑郁模型小鼠后,仅1小时便可观察到显著的抗抑郁效果,且无明显副作用。
2025-12-09 10:01
北京大学生命科学学院罗述金课题组与合作团队,通过古DNA研究发现,家猫直至唐代前后才通过丝绸之路商旅传入中国。
2025-12-09 09:58
7日,中国安全生产科学研究院与国家管网集团,在新疆哈密的国家管网集团管道断裂控制试验场,成功完成了我国首次全尺寸高压纯氢管道喷射火系列试验。
2025-12-09 09:57
基于这样的研究背景,柴秀娟团队近日研发出一种数字孪生驱动的智能温室采摘系统,能有效解决现代温室番茄生产密植环境下,机器人采摘效率低、易损伤植株的问题。团队成员郎一宁介绍:“首先,机器人搭载的滑轨式深度相机会沿温室逐行扫描,采集高精度的RGB-D数据。
2025-12-08 09:54
记者从国家数据局获悉,截至9月底,我国已建成高质量数据集总量超500PB(拍字节,计算机存储容量单位);7个数据标注基地引进和培育标注企业362家,标注从业人员达8.5万人,带动数据标注相关产值163亿元。
2025-12-08 09:53
“梦想”号大洋钻探船的母港在广州海洋地质调查局科考码头,出海执行作业任务时需要通过深中大桥。多年来,我们与150余家参研参建单位团结协作、集智创新,攻克了一个个技术难题,建成了这艘具有我国完全自主知识产权、全球领先的大洋钻探船。
2025-12-08 09:52
空中的昆虫堪称地球上最灵活的生物,能精准完成急转弯、急刹车和空中翻转。美国内华达大学里诺分校的航空航天工程师Hoang-Vu Phan指出,这款新设备标志着“微型机器人性能的巨大飞跃”。
2025-12-08 09:51
近日,中国科学院西安光学精密机械研究所超快光科学与技术全国重点实验室研究员姚保利团队在定量相位成像领域取得进展,提出了正交偏振复用剪切干涉技术,并研发出集成化定量相位相机Q-camera。
2025-12-08 09:50
这次经历让我开了窍:一个顶尖的技术工人,不能只满足于执行标准,更要具备在标准之外创造解决方案的能力。我带徒弟,始终坚持“手把手教技能,实打实查问题,面对面讲后果”。
2025-12-05 10:15
由此,研究团队模仿亚洲玉米螟幼虫头壳的结构特点,在实验室中成功“复刻”出具有类似仿生层状结构的水凝胶。为验证实际效果,研究团队将这种水凝胶安装在农业害虫侦查无人机的防撞支架上,并在模拟果园环境的复杂通道中进行测试。
2025-12-05 10:16
“十四五”时期,我国批准上市创新药达210个。为保证药品安全有效,药监部门对新药研发、生产、上市作出一系列严格规定,强化研发生产各环节质量管理。
2025-12-05 10:22
据中国载人航天工程办公室消息,根据计划安排,神舟二十一号航天员乘组将于近日择机实施第一次出舱活动。目前,空间站组合体运行稳定,神舟二十一号航天员乘组状态良好,已做好出舱活动各项准备工作。
2025-12-05 10:17
大国工匠的成长是一个长期、连续、贯通的过程,职业教育要为学生构建可持续发展的成长通道。在新时代的征程中,职业教育应不断探索符合技术技能人才成长规律的教学模式,为培养更多大国工匠、能工巧匠作出更多贡献。
2025-12-05 10:15
12月1日至4日,第十三届世界科学记者大会在南非比勒陀利亚举行。
2025-12-05 10:48
为何CCER可以抵消碳排放?这里不得不提到中国的碳市场。在这样一个市场里,碳减排量可以像日常商品一样被交易。
2025-12-04 10:13
近日,中国科学院院士、中国科学院分子植物科学卓越创新中心(以下简称分子植物卓越中心)研究员林鸿宣团队与上海交通大学研究员林尤舜团队、广州国家实验室研究员李亦学团队合作,种出了“不怕热”的水稻。
2025-12-04 10:03
科学家发现了一种可以在63摄氏度下存活的单细胞变形虫,创造了真核生物的耐热纪录。拉森火山国家公园以冒泡的酸性湖泊和炽热的地热池而闻名,但该变形虫却来自一条pH中性的“热溪流”。
2025-12-04 10:04
根据我国风电光伏基地规划布局方案,至2030年,这些新能源基地总装机规模将达4.55亿千瓦,大约相当于20个三峡水电站的总装机容量——“沙戈荒”生态环境脆弱,一旦遭到破坏,恢复难度大,大规模建设光伏风电发电基地可能会影响当地的植被、土壤和水资源等。
2025-12-04 10:01
加载更多