杨耀东 · Yaodong Yang

★ 头条新闻 · 2026 年 06 月

课题组论文 RoboSafe 荣获 ICLR 2026 高效空间推理研讨会最佳论文奖（Outstanding Paper）。

《RoboSafe：通过可执行安全逻辑保护具身智能体》提出一种神经符号框架——将自然语言安全规则编译为可执行逻辑，在运行时实时监控并约束具身智能体的行为。

论文 →研讨会 →

★ 头条新闻 · 2026 年 04 月

中国AI破解亲吻数问题，回答300多年前牛顿之问

北京大学的数学家们利用人工智能和强化学习技术探索亲吻数问题，在高维空间中突破了人类认知。

技术报告 →纪录片 →人民日报 →新华社 →

★ 头条新闻 · 2026 年 04 月

灵初智能发布最新 WAM 世界模型，登顶 MolmoSpace 全球第一

北大-灵初联合实验室联合发布的通用世界动作模型，面向具身智能体，在空间推理基准上取得 SOTA。

新华社 →技术博客 →灵初智能 →

★ 头条新闻 · 2025 年 07 月

课题组论文获 ACL 2025 最佳论文奖——《语言模型抵抗对齐》

论文揭示后训练对齐的大模型存在"抗改造"基因，现有对齐范式面临失灵预警，为 RLHF 与安全对齐提供新视角。

论文 →幻灯片 →新华社 →国自然 →

★ 头条新闻 · 2025 年 04 月

我在 ICML 2025 主讲 3 小时 tutorial：Alignment Methods for LLMs（线上）。

ICML 2025 线上特邀 3 小时 tutorial，系统讲解 RLHF、DPO、安全对齐、偏好学习与超级对齐。

Tutorial 网站 →

★ 头条新闻 · 2024 年 12 月

我们发布 Matter (Cell Press) 论文——应用大模型自动生成碳纳米管。

跨学科工作——将大模型应用于碳纳米管的自主实验合成，发表于 Cell Press 旗舰材料期刊《Matter》。

论文 →科睿唯安高被引论文 →

★ 头条新闻 · 2024 年 09 月

我们发布 Nature Machine Intelligence 论文——大规模多智能体网络化强化学习，应用于疫情、智能电网与交通控制。

华人首篇多智能体强化学习 Nature 子刊论文，算法可扩展至上千节点的网络化智能体，已在真实场景中部署。

论文 →新华社 →科技日报 →北大新闻网 →

欢迎一起钻研安全可信的通用人工智能。

博士 · 2027 博士名额（2027 招生）

北京大学

已满 · 本轮暂无名额

若干

中关村学院

开放申请中

三大研究方向

大模型后训练 · 对齐

RLHF / DPO / Safe-RLHF · 奖励建模 · 可解释性 · 多模态 & 多语言安全。把对齐理论落到大规模实践。

入门材料

具身智能 · 灵巧操作 · 机器人大模型

高自由度灵巧操作的 Sim-to-Real 策略学习；面向物理世界的具身基础模型。与灵初智能科技联合实验室合作开展。

入门材料

世界模型 · 物理基础模型 · 虚实对齐

面向物理与社会动力学的世界模型；模拟器与真实世界的对齐用于下游策略训练。与逆矩阵科技联合实验室合作开展。

入门材料

PAIR-Lab 同时招收 硕士生、访问学生、本科科研实习生与博士后。若你对强化学习、大模型对齐、多智能体或具身智能感兴趣，并致力于构建安全可信的通用人工智能——欢迎在阅读上方入门材料后与我联系。

新闻与媒体

课题组论文 RoboSafe 荣获 ICLR 2026 高效空间推理研讨会最佳论文奖（Outstanding Paper）。

中国AI破解亲吻数问题，回答300多年前牛顿之问

灵初智能发布最新 WAM 世界模型，登顶 MolmoSpace 全球第一

课题组论文获 ACL 2025 最佳论文奖——《语言模型抵抗对齐》

我在 ICML 2025 主讲 3 小时 tutorial：Alignment Methods for LLMs（线上）。

我们发布 Matter (Cell Press) 论文——应用大模型自动生成碳纳米管。

我们发布 Nature Machine Intelligence 论文——大规模多智能体网络化强化学习，应用于疫情、智能电网与交通控制。

研究方向

大模型强化学习对齐

具身强化学习

多智能体强化学习

智能体强化学习

强化学习赋能科学研究

获奖

UKRI Best Research Paper in AI

ACL 2025 Best Paper Award

ICCV 2023 Best Paper Finalist

AAMAS 2021 Blue-Sky Idea Award

CoRL 2020 Best System Paper Award

国家级青年人才

人社部高层次留学人才回国资助

中国科协青年人才托举工程

Elsevier / Stanford 世界前 2% 科学家

麻省理工科技评论 AI 100 青年先锋

福布斯中国科创革新力人物

ACM SIGAI China 新星奖

WAIC 云帆奖 · 璀璨明星

吴文俊人工智能科技奖 · 科技进步二等奖

中国气象服务协会科学技术奖 · 技术发明一等奖

NeurIPS 2022 MyoChallenge · 冠军

数字中国创新大赛 · 人工智能高校赛道全国一等奖

团队培养

北京大学五四奖章

北京大学年度人物

北京大学校长奖学金

北京市优秀毕业生

腾讯混元奖学金

商汤奖学金

北自然「启研」计划本科生基础研究项目

国自然青年学生基础研究项目（博士）

国自然青年学生基础研究项目（本科）

北京市优秀毕业生指导教师

北京大学教学成果二等奖

第三届全国计算机教学案例大赛 · 二等奖

数字中国创新大赛 · 人工智能高校赛道全国一等奖

北京大学工商银行奖教金

元培通用人工智能实验班班主任

北大本科生科研训练优秀指导教师

论文发表

学术服务

履历

欢迎一起钻研安全可信的通用人工智能。

大模型后训练 · 对齐

具身智能 · 灵巧操作 · 机器人大模型

世界模型 · 物理基础模型 · 虚实对齐

通用科研基础

北自然「启研」计划
本科生基础研究项目

国自然青年学生
基础研究项目（博士）

国自然青年学生
基础研究项目（本科）