点击右上角微信好友
朋友圈
请使用浏览器分享功能进行分享
为了系统解析DeepSeek在技术、应用与伦理交织演进下的革新性探索,带领大家深入了解DeepSeek的“破圈”与“扎根”,浙江大学人工智能科研团队于2月17日起推出DeepSeek系列专题线上公开课。
第一期活动中,浙江大学信息技术中心主任、人工智能教育教学研究中心副主任陈文智教授带来题为《Chatting or Acting?——DeepSeek的突破边界与“浙大先生”的未来图景》的报告。
报告首先浅析了DeepSeek的技术突破,阐释强化学习对模型认知跃迁的推动作用。进而提出“大模型提供认知底座,智能体实现价值闭环”的双螺旋智能演进的观点,探索两者的协同进化对教育范式变革的推动作用。以精彩实例介绍“浙大先生+DeepSeek+CARSI”落地高校场景,向师生展示未来教育“处处用AI,人人会AI”的美好图景。(制作:肖春芳)
以下为陈文智教授报告的主要内容:
一、DeepSeek突破边界
DeepSeek的技术特征与创新
MOE架构:通过多个专家模型分工合作,降低训练成本,提高效率。
多头潜在注意力机制:优化注意力机制,减少不必要的计算,降低显存占用。
其他优化:包括工程优化、数据集优化、计算精度改进等,提高模型性能。
DeepSeek带来的启示:人工智能迎来发展拐点
战略拐点:人工智能正处于成长期和产业化之间的战略拐点,即将迎来新的发展机遇。
算力拐点:DeepSeek通过优化算法和架构,显著降低了训练大模型所需的算力,提高了算力效率。
数据拐点:大模型的参数量不断增加,但通过蒸馏技术可以将大模型压缩成小模型进行部署,提高了数据利用效率。
二、大模型与智能体协同发展
大模型的局限性:尽管大模型具有强大的自然语言处理能力,但在实际应用中仍存在成本高、回答专业问题不够准确、出现幻觉等问题。
智能体的必要性:智能体是将大模型应用于实际场景的关键,它能够将大模型的知识与特定领域的知识相结合,完成实际任务,实现价值闭环。
智能体的开发:介绍了智能体的开发过程,包括模型蒸馏、微调、检索增强生成等方法。模型蒸馏就像是给大模型开小灶,针对某一项技能进行专门辅导,使其在某种子集知识上更加精通;模型微调则像是自习室,让模型针对自身短板进行自我补充和完善,以适应特定环境;检索增强生成(RAG)则是在模型与用户交流时,先查找相关资料,再结合已有知识回答问题,不过这种方式虽然能回答问题,但不会提升模型本身的能力,当资料缺失时,模型仍可能无法回答。
随着大模型与智能体的协同发展,未来智能体开发的时代即将到来。通过多模态的能力,智能体的交互体验将更加丰富和自然,就像人们使用真正的APP和工具应用一样便捷。
三、浙江大学在人工智能教育与实践中的探索
“浙大先生”是浙江大学搭建的一个重要平台,其愿景是实现校园里处处用AI,师生人人会AI,并将这一理念扩展到社会。目前已接入DeepSeek,形成“浙大先生”+DeepSeek+Carsi的教育教学新形态,为师生提供智能化的教学和学习体验。
“浙大先生”有两个主要入口,一个是门户入口,用户可以与满血版的DeepSeek进行交流,获取问题的答案,同时还能浏览行业应用案例集等内容;另一个入口是开发平台,为用户提供了丰富的智能体和开发工具,包括智能体广场、智能体开发者中心等。在智能体广场,用户可以选择各种智能体进行交互,如 AI 校园智能体,输入问题即可得到回复。
在教学应用方面,“浙大先生”全面升级了教学平台“学在浙大”,用 AI 赋能教师和学生的教学全过程。
此外,结合“浙大先生”和 DeepSeek大模型,还可以进行AI创意制作,如短视频故事生成和制作等,为高校教学和科研带来了新的活力和可能性。