中国AI破解亲吻数问题,回答300多年前牛顿之问
北京大学的数学家们利用人工智能和强化学习技术探索亲吻数问题,在高维空间中突破了人类认知。
YY 杨耀东,北京大学人工智能研究院研究员(博雅学者),北大-灵初智能联合实验室首席科学家。国家人社部高层次留学人才、国家优秀青年科学基金(海外)获得者、中国科协青年托举计划入选者。
主要研究方向为智能体交互学习与对齐,致力于大模型的可信应用与安全落地,科研领域涵盖强化学习、AI 对齐与具身智能。在 Nature Machine Intelligence、Cell Matter、AIJ、TPAMI 等国际顶级期刊和会议发表论文二百余篇,谷歌学术引用逾 15,000+ 次。自 2022 年以来位列 CSRanking 北大 AI/ML 方向学者首位,入选 Scopus 全球 Top 2% 顶尖科学家。
曾获 ACL 2025 最佳论文奖、英国科研与创新局 UKRI 2026 年度最佳论文、ICCV 2023 最佳论文奖入围、CoRL 2020 最佳系统论文奖、AAMAS 2021 最佳前瞻性论文奖。入选麻省理工科技评论「AI 100 青年榜」、福布斯中国 2025 科创革新力人物、WAIC 2022「云帆奖·璀璨明星」及 ACM SIGAI China 新星奖。相关研究成果获中央电视台《焦点访谈》、新华网、国家自然科学基金委官网及《麻省理工科技评论》等多家媒体报道。
现任 ICML、ICLR、NeurIPS、AAAI、IJCAI、AAMAS、IROS 等国际会议领域主席,以及 Scientific Reports、Transactions on Machine Learning Research、Neural Networks 等期刊执行编委。主持国家自然科学基金、科技部、北京市科委及多项校企联合实验室科研项目五十余项。曾获气象服务协会技术发明一等奖、吴文俊人工智能科技进步二等奖。
曾任伦敦国王学院助理教授、华为英国研究所主任研究员、美国国际集团高级经理。本科毕业于中国科学技术大学,先后在伦敦帝国理工学院获硕士学位、伦敦大学学院获博士学位,并获校唯一提名角逐 ACM SIGAI 优秀博士论文奖。
头条新闻 · 最近消息
北京大学的数学家们利用人工智能和强化学习技术探索亲吻数问题,在高维空间中突破了人类认知。
北大-灵初联合实验室联合发布的通用世界动作模型,面向具身智能体,在空间推理基准上取得 SOTA。
论文揭示后训练对齐的大模型存在"抗改造"基因,现有对齐范式面临失灵预警,为 RLHF 与安全对齐提供新视角。
ICML 2025 线上特邀 3 小时 tutorial,系统讲解 RLHF、DPO、安全对齐、偏好学习与超级对齐,面向全球数千名听众。
跨学科工作——将大模型应用于碳纳米管的自主实验合成,发表于 Cell Press 旗舰材料期刊《Matter》。
华人首篇多智能体强化学习 Nature 子刊论文,算法可扩展至上千节点的网络化智能体,已在真实场景中部署。
七篇论文被 ACL 2026 接收
九篇论文被 AAAI 2026 / ICLR 2026 / AAMAS 2026 / ICRA 2026 接收
十一篇论文被 NeurIPS 2025 接收,2 篇为 Spotlight
六篇论文被 ACL 2025、两篇被 ICML 2025 接收
五篇论文被 ICLR 2025 接收
五篇论文被 AAAI 2025、两篇被 AAMAS 2025 接收
CNCC 2024 特邀报告《大模型能否对齐?》
五篇论文被 NeurIPS 2024 接收
两篇论文被 CoRL 2024 接收
登上央视《焦点访谈》——AI 安全与伦理国家级报道
五篇论文被 ICLR 2024 接收;一篇被 TPAMI 接收
三篇论文被 AAAI 2024 接收
发布《AI Alignment Survey》对齐综述
论文入围 ICCV 2023 最佳论文初选(17 / 8260)
六篇论文被 NeurIPS 2023 接收;另有 2 篇被 JMLR / TMLR 接收
TorchOpt 正式加入 PyTorch Ecosystem
四篇论文被 ICML 2023 接收
两篇论文被 ICRA 2023、一篇被 ICLR 2023 接收
一篇论文被 JAAMAS、一篇被 AAMAS 2023 接收
NeurIPS 2022 MyoChallenge 冠军(1 / 340)
National Science Review 论文:纳什均衡复杂度;三篇论文被 AAAI 2023 接收
七篇论文被 NeurIPS 2022 接收
一篇论文被 IJCAI 2022 接收
TorchOpt 与 Bi-DexHands 开源发布
两篇论文被 ICLR 2022 接收
SMARTS 平台发布;获 CoRL 2020 最佳系统论文奖
一篇论文被 ICML 2020 接收
一篇论文被 IJCAI 2020 接收
一篇论文被 AAMAS 2020 接收
五个研究方向 · 算法 / 基准 / 开源系统
强化学习人类反馈、偏好学习、安全对齐、红队与可解释性。建立方法与开源基准(BeaverTails、PKU-SafeRLHF、Stream Aligner、Libra-Leaderboard),让大模型更鲁棒、更有益、更无害。
灵巧操作、视觉-语言-动作模型、仿真到真实迁移。从 Bi-DexHands、ClutterDexGrasp 到 DexGraspVLA、Safe VLA,目标是让机器人达到人类水平的通用操作能力。
合作与竞争型多智能体学习、策略梯度理论、纳什均衡。HARL / MAT / MARLlib 等算法可扩展到数百智能体。
面向宏观经济建模、社会价值取向、谈判与共识的大模型智能体,以及统一物理-社会动力学的世界模型。
将强化学习与大模型应用到医学、物理、材料(碳纳米管合成)及运筹领域,成果发表于 Cell iScience、Matter、National Science Review 等。
央视 · 新华社 · 国自然 · 麻省理工科技评论
最佳论文 · 人才项目 · 学术荣誉 · 竞赛产业
Efficient and Scalable Reinforcement Learning for Large-Scale Network Control · Nature Machine Intelligence
Language Models Resist Alignment: Evidence From Data Compression
UniDexGrasp: Universal Robotic Dexterous Grasping via Learning Diverse Proposal Generation and Goal-Conditioned Policy
Diverse Auto-Curriculum is Critical for Successful Real-World Multiagent Learning Systems
SMARTS: An Open-Source Scalable Multi-Agent RL Training School for Autonomous Driving
国家优秀青年科学基金(海外)· NSFC
人力资源和社会保障部 · 全国仅 30 人
中国科学技术协会 · CAAI 仅 6 人
全球学术影响力前 2%
麻省理工科技评论「AI 100 青年先锋」
福布斯中国科创革新力人物
年度唯一获奖者
世界人工智能大会 · 年度 10 位
吴文俊人工智能科学技术奖 · 科技进步奖二等奖 — 知识增强的可信多模态交互关键技术及应用
中国气象服务协会 · 气象技术发明一等奖(项目:融合北斗与人工智能的极端大风气象应急救援导航路径规划技术研究)
生理灵巧操作竞赛 · 1 / 340 队伍夺冠
数字中国创新大赛人工智能赛道全国一等奖
北大最高学生荣誉 · Apple / 腾讯博士奖学金 · 国自然基金
获奖课程:《大语言模型基础与对齐》
2025 数字中国创新大赛 · 人工智能高校赛道全国一等奖
2025 年度 · 北京大学
元培学院 2022 级"通班"班主任 · 教学委员
连续三年获此称号(2023 · 2024 · 2025)
代表作 · 按主题筛选
领域主席 · 编委 · 大会主席
中科大 · 帝国理工 · 伦敦大学学院 · AIG · 伦敦国王学院 · 北大
高自由度灵巧操作的 Sim-to-Real 策略学习;面向物理世界的具身基础模型。与灵初智能科技联合实验室合作开展。
面向物理与社会动力学的世界模型;模拟器与真实世界的对齐用于下游策略训练。与逆矩阵科技联合实验室合作开展。
RLHF / DPO / Safe-RLHF · 奖励建模 · 可解释性 · 多模态 & 多语言安全。把对齐理论落到大规模实践。
PAIR-Lab 同时招收 硕士生、访问学生、本科科研实习生与博士后。若你对强化学习、大模型对齐、多智能体或具身智能感兴趣,并致力于构建安全可信的通用人工智能——欢迎在阅读上方入门材料后与我联系。