北京大学 · 对齐小组 (PAIR-Lab)

Yaodong Yang 杨耀东 · 博雅青年学者

北大人工智能研究院 助理教授 北大-灵初实验室 首席科学家
Yaodong Yang YY

杨耀东,北京大学人工智能研究院研究员(博雅学者),北大-灵初智能联合实验室首席科学家。国家人社部高层次留学人才国家优秀青年科学基金(海外)获得者、中国科协青年托举计划入选者。

主要研究方向为智能体交互学习与对齐,致力于大模型的可信应用与安全落地,科研领域涵盖强化学习、AI 对齐与具身智能。在 Nature Machine IntelligenceCell MatterAIJTPAMI 等国际顶级期刊和会议发表论文二百余篇,谷歌学术引用逾 15,000+ 次。自 2022 年以来位列 CSRanking 北大 AI/ML 方向学者首位,入选 Scopus 全球 Top 2% 顶尖科学家

曾获 ACL 2025 最佳论文奖英国科研与创新局 UKRI 2026 年度最佳论文ICCV 2023 最佳论文奖入围CoRL 2020 最佳系统论文奖AAMAS 2021 最佳前瞻性论文奖。入选麻省理工科技评论「AI 100 青年榜」福布斯中国 2025 科创革新力人物WAIC 2022「云帆奖·璀璨明星」ACM SIGAI China 新星奖。相关研究成果获中央电视台《焦点访谈》、新华网、国家自然科学基金委官网及《麻省理工科技评论》等多家媒体报道。

现任 ICML、ICLR、NeurIPS、AAAI、IJCAI、AAMAS、IROS 等国际会议领域主席,以及 Scientific ReportsTransactions on Machine Learning ResearchNeural Networks 等期刊执行编委。主持国家自然科学基金、科技部、北京市科委及多项校企联合实验室科研项目五十余项。曾获气象服务协会技术发明一等奖吴文俊人工智能科技进步二等奖

曾任伦敦国王学院助理教授、华为英国研究所主任研究员、美国国际集团高级经理。本科毕业于中国科学技术大学,先后在伦敦帝国理工学院获硕士学位、伦敦大学学院获博士学位,并获校唯一提名角逐 ACM SIGAI 优秀博士论文奖。

CSRanking · 北大 AI+ML 第一 | Best Paper Award · 五次获得最佳论文奖 | Elsevier · 世界前 2% 顶尖科学家
200+
论文
Nature MI · Matter · JMLR · TPAMI · AIJ
15k+
引用
Google Scholar · h 指数持续上升
#1
北大 AI/ML 排名
自 2022 · CSRankings / AIRankings 第一
5+
最佳论文级奖项
ACL · UKRI · CoRL · ICCV · AAMAS
产业联合实验室 · 合作企业

近期动态

头条新闻 · 最近消息

展开全部最近消息 31 条
2026 · 04

七篇论文被 ACL 2026 接收

2026 · 02

九篇论文被 AAAI 2026 / ICLR 2026 / AAMAS 2026 / ICRA 2026 接收

2025 · 09

十一篇论文被 NeurIPS 2025 接收,2 篇为 Spotlight

2025 · 05

六篇论文被 ACL 2025、两篇被 ICML 2025 接收

2025 · 01

五篇论文被 ICLR 2025 接收

2024 · 12

五篇论文被 AAAI 2025、两篇被 AAMAS 2025 接收

2024 · 10

CNCC 2024 特邀报告《大模型能否对齐?》

2024 · 09

五篇论文被 NeurIPS 2024 接收

2024 · 08

两篇论文被 CoRL 2024 接收

2024 · 05

VALSE 2024 对齐年度进展报告;三篇论文被 ICML 2024 接收

2024 · 03

与多位顶级科学家共同签署北京人工智能安全宣言

2024 · 02

登上央视《焦点访谈》——AI 安全与伦理国家级报道

2024 · 01

五篇论文被 ICLR 2024 接收;一篇被 TPAMI 接收

2023 · 12

三篇论文被 AAAI 2024 接收

2023 · 11

发布《AI Alignment Survey》对齐综述

2023 · 10

论文入围 ICCV 2023 最佳论文初选(17 / 8260)

2023 · 09

六篇论文被 NeurIPS 2023 接收;另有 2 篇被 JMLR / TMLR 接收

2023 · 06

TorchOpt 正式加入 PyTorch Ecosystem

2023 · 05

四篇论文被 ICML 2023 接收

2023 · 02

两篇论文被 ICRA 2023、一篇被 ICLR 2023 接收

2023 · 01

一篇论文被 JAAMAS、一篇被 AAMAS 2023 接收

2022 · 12

NeurIPS 2022 MyoChallenge 冠军(1 / 340)

2022 · 11

National Science Review 论文:纳什均衡复杂度;三篇论文被 AAAI 2023 接收

2022 · 09

七篇论文被 NeurIPS 2022 接收

2022 · 05

一篇论文被 IJCAI 2022 接收

2022 · 04

TorchOptBi-DexHands 开源发布

2022 · 01

两篇论文被 ICLR 2022 接收

2020 · 10

SMARTS 平台发布;获 CoRL 2020 最佳系统论文奖

2020 · 06

一篇论文被 ICML 2020 接收

2020 · 05

一篇论文被 IJCAI 2020 接收

2020 · 02

一篇论文被 AAMAS 2020 接收

研究方向

五个研究方向 · 算法 / 基准 / 开源系统

01 / 对齐与安全

大模型对齐与安全

强化学习人类反馈、偏好学习、安全对齐、红队与可解释性。建立方法与开源基准(BeaverTails、PKU-SafeRLHF、Stream Aligner、Libra-Leaderboard),让大模型更鲁棒、更有益、更无害。

02 / 具身智能

具身智能与机器人学习

灵巧操作、视觉-语言-动作模型、仿真到真实迁移。从 Bi-DexHands、ClutterDexGrasp 到 DexGraspVLASafe VLA,目标是让机器人达到人类水平的通用操作能力。

03 / 多智能体强化学习

多智能体强化学习

合作与竞争型多智能体学习、策略梯度理论、纳什均衡。HARL / MAT / MARLlib 等算法可扩展到数百智能体。

04 / 智能体

智能体与社会仿真

面向宏观经济建模、社会价值取向、谈判与共识的大模型智能体,以及统一物理-社会动力学的世界模型。

05 / AI 赋能科学

AI 赋能科学

将强化学习与大模型应用到医学、物理、材料(碳纳米管合成)及运筹领域,成果发表于 Cell iScienceMatterNational Science Review 等。

媒体报道

央视 · 新华社 · 国自然 · 麻省理工科技评论

📺 CCTV · 中央广播电视总台 三场国家级电视报道

获奖

最佳论文 · 人才项目 · 学术荣誉 · 竞赛产业

I. 最佳论文奖 5 项
2026

UKRI Best Research Paper in AI

Efficient and Scalable Reinforcement Learning for Large-Scale Network Control · Nature Machine Intelligence

2025

ACL 2025 Best Paper Award

Language Models Resist Alignment: Evidence From Data Compression

2023

ICCV 2023 Best Paper Finalist

UniDexGrasp: Universal Robotic Dexterous Grasping via Learning Diverse Proposal Generation and Goal-Conditioned Policy

2021

AAMAS 2021 Blue-Sky Idea Award

Diverse Auto-Curriculum is Critical for Successful Real-World Multiagent Learning Systems

2020

CoRL 2020 Best System Paper Award

SMARTS: An Open-Source Scalable Multi-Agent RL Training School for Autonomous Driving

II. 人才项目 3 项
2024

国家级青年人才

国家优秀青年科学基金(海外)· NSFC

2022

人社部高层次留学人才回国资助

人力资源和社会保障部 · 全国仅 30 人

2023

中国科协青年人才托举工程

中国科学技术协会 · CAAI 仅 6 人

III. 学术荣誉 5 项
2025

Elsevier / Stanford 世界前 2% 科学家

全球学术影响力前 2%

2025

麻省理工科技评论 AI 100 青年先锋

麻省理工科技评论「AI 100 青年先锋」

2026

福布斯中国科创革新力人物

福布斯中国科创革新力人物

2022

ACM SIGAI China 新星奖

年度唯一获奖者

2022

WAIC 云帆奖璀璨明星

世界人工智能大会 · 年度 10 位

IV. 竞赛与产业 4 项
2026

吴文俊人工智能科技奖 · 科技进步二等奖 (2025)

吴文俊人工智能科学技术奖 · 科技进步奖二等奖 — 知识增强的可信多模态交互关键技术及应用

2025

中国气象服务协会科学技术奖 · 气象技术发明奖

中国气象服务协会 · 气象技术发明一等奖(项目:融合北斗与人工智能的极端大风气象应急救援导航路径规划技术研究

2022

NeurIPS 2022 MyoChallenge · Winner

生理灵巧操作竞赛 · 1 / 340 队伍夺冠

2025

数字中国创新大赛 · AI 赛道全国一等奖

数字中国创新大赛人工智能赛道全国一等奖

学生培养

北大最高学生荣誉 · Apple / 腾讯博士奖学金 · 国自然基金

2024 北大最高学生荣誉

北京大学五四奖章
PKU May-4th Medal

耿逸然
北大学生最高荣誉·理工本科唯一获奖者。
2024 北大年度评选

北京大学年度人物
PKU Annual Figures

吉嘉铭 陈博远
两位 PAIR-Lab 学生入选北大年度人物,是北大校级最高声誉的学生荣誉之一。
2025 Apple 博士奖学金

Apple 学者
Apple Scholars in AI / ML

吉嘉铭
Apple 博士奖学金(2025)· 全球仅 12 人入选。
2025 腾讯博士奖学金

腾讯混元学者
Tencent Hunyuan Scholar

吉嘉铭
腾讯面向国内顶尖 AI 博士生设立的旗舰奖学金。
2024 国自然 · 博士项目

国自然青年学生
基础研究项目(博士)

吉嘉铭
北大 AI 方向唯一博士获资助者
2024 国自然 · 本科项目

国自然青年学生
基础研究项目(本科)

邱天异
北大 AI 方向仅有的两位本科获资助者之一
本人教学获奖
2026

北京大学教学成果二等奖(2025 年度)

获奖课程:《大语言模型基础与对齐》

2025

数字中国创新大赛 · 人工智能高校赛道全国一等奖

2025 数字中国创新大赛 · 人工智能高校赛道全国一等奖

2025

北京大学工商银行奖教金

2025 年度 · 北京大学

2022–

元培通用人工智能实验班班主任

元培学院 2022 级"通班"班主任 · 教学委员

2023 – 2025

北大本科生科研训练优秀指导教师

连续三年获此称号(2023 · 2024 · 2025)

论文发表

代表作 · 按主题筛选

2025 2 篇
ALN
Language Models Resist Alignment: Evidence From Data Compression *
Jiaming Ji, Kaile Wang, Tianyi Alex Qiu, Boyuan Chen, Jiayi Zhou, Changye Li, Hantao Lou, Josef Dai, Yunhuai Liu, Yaodong Yang#
ACL 2025 ★ Best Paper
Alignment TheoryAlignmentLLM
ALN
Safe VLA: Towards Safety Alignment of Vision-Language-Action Model via Safe Reinforcement Learning *
Borong Zhang, Yuhao Zhang, Jiaming Ji, Yingshan Lei, Josef Dai, Yuanpei Chen, Yaodong Yang#
NeurIPS 2025 Spotlight
Safe VLAVLASafe RLSafetyAlignment
2024 7 篇
EMB
ASP: Learn a Universal Neural Solver *
Chenguang Wang, Zhouliang Yu, Stephen McAleer, Tianshu Yu, Yaodong Yang#
IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI)
Combinatorial Optimization
ALN
Aligner: Efficient Alignment by Learning to Correct *
Jiaming Ji, Boyuan Chen, Hantao Lou, Donghai Hong, Borong Zhang, Xuehai Pan, Juntao Dai, Yaodong Yang#
NeurIPS 2024 Oral
AlignerAlignment
EMB
Bi-DexHands: Towards Human-Level Bimanual Dexterous Manipulation *
Yuanpei Chen, Yiran Geng, Fangwei Zhong, Jiaming Ji, Jiechuang Jiang, Zongqing Lu, Hao Dong, Yaodong Yang#
IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI)
BimanualDexterous ManipulationRobotics
AI4
Efficient and scalable reinforcement learning for large-scale network control *
Chengdong Ma, Aming Li, Yali Du, Hao Dong, Yaodong Yang#
Nature Machine Intelligence ★ Best Paper
Network ControlReinforcement Learning
MRL
Heterogeneous-Agent Reinforcement Learning *
Yifan Zhong, Jakub Grudzien Kuba, Xidong Feng, Siyi Hu, Jiaming Ji, Yaodong Yang#
Journal of Machine Learning Research (JMLR)
HARLReinforcement Learning
ALN
Omnisafe: An infrastructure for accelerating safe reinforcement learning research *
Jiaming Ji, Jiayi Zhou, Borong Zhang, Juntao Dai, Xuehai Pan, Ruiyang Sun, Weidong Huang, Yiran Geng, Mickel Liu, Yaodong Yang#
Journal of Machine Learning Research (JMLR)
OmniSafeSafe RLReinforcement Learning
AI4
Transforming the synthesis of carbon nanotubes with machine learning models and automation *
Yue Li, Shurui Wang, Zhou Lv, Zhaoji Wang, Yunbiao Zhao, Ying Xie, Yang Xu, Liu Qian, Yaodong Yang#, Ziqiang Zhao#, Jin Zhang#
Matter (Cell Press)
Carbon NanotubesMaterials Synthesis
媒体报道 新华社 Xinhua
2023 4 篇
MRL
MARLlib: A Multi-agent Reinforcement Learning Library *
Siyi Hu, Yifan Zhong, Minquan Gao, Weixun Wang, Hao Dong, Xiaodan Liang, Zhihui Li, Xiaojun Chang, Yaodong Yang#
Journal of Machine Learning Research (JMLR)
MARLlibMulti-Agent RLReinforcement Learning
MRL
On the complexity of computing markov perfect equilibrium in general-sum stochastic games *
Xiaotie Deng, Ningyuan Li, David Mguni, Jun Wang, Yaodong Yang#
National Science Review
Nash EquilibriumStochastic Games
ALN
Safe multi-agent reinforcement learning for multi-robot control *
Shangding Gu, Jakub Grudzien Kuba, Yuanpei Chen, Yali Du, Long Yang, Alois C. Knoll, Yaodong Yang#
Artificial Intelligence Journal (AIJ)
Multi-Agent RLRoboticsReinforcement Learning
MRL
TorchOpt: An Efficient Library for Differentiable Optimization *
Jie Ren, Xidong Feng, Bo Liu, Xuehai Pan, Yao Fu, Luo Mai, Yaodong Yang#
Journal of Machine Learning Research (JMLR)
Differentiable Optimization
2021 1 篇
MRL
Diverse Auto-Curriculum is Critical for Successful Real-World Multiagent Learning Systems *
Yaodong Yang, Jun Luo, Ying Wen, Oliver Slumbers, Daniel Graves, Haitham Bou Ammar, Jun Wang, Matthew E. Taylor
AAMAS 2021 ★ Best Paper
Auto-CurriculumMulti-Agent RL
2020 1 篇
EMB
SMARTS: An Open-Source Scalable Multi-Agent RL Training School for Autonomous Driving
Ming Zhou, Jun Luo, Julian Villella, Yaodong Yang, David Rusu, Jiayu Miao, Weinan Zhang, Montgomery Alban, Iman Fadakar, Zheng Chen, Aurora Chongxi Huang, Ying Wen, Kimia Hassanzadeh, Daniel Graves, Dong Chen, Zhengbang Zhu, Nhat Nguyen, Mohamed Elsayed, Kun Shao, Sanjeevan Ahilan, Baokuan Zhang, Jiannan Wu, Zhengang Fu, Kasra Rezaee, Peyman Yadmellat, Mohsen Rohani, Nicolas Perez Nieves, Yihan Ni, Seyedershad Banijamali, Alexander Cowen Rivers, Zheng Tian, Daniel Palenicek, Haitham bou Ammar, Hongbo Zhang, Wulong Liu, Jianye Hao, Jun Wang
CoRL 2020 ★ Best Paper
SMARTSAutonomous DrivingMulti-Agent RL
查看全部 176 篇论文 →

学术服务

领域主席 · 编委 · 大会主席

领域主席 Area Chair
  • NeurIPS CCF-A
  • ICML CCF-A
  • ICLR CCF-A
  • AAAI CCF-A
  • IJCAI CCF-A
  • AAMAS · Senior AC CCF-B
  • IROS CCF-C
执行编委 Associate Editor
  • Neural Networks (Springer) CCF-B
  • Transactions on Machine Learning Research TMLR
  • Scientific Reports Nature
大会主席 / 宣传主席
  • 世界人工智能大会学术会议 (WAICA) 2026 · 上海 宣传主席
  • 分布式人工智能大会 (DAI) 2024 · 新加坡 大会主席

履历

中科大 · 帝国理工 · 伦敦大学学院 · AIG · 伦敦国王学院 · 北大

2022 – 至今
助理教授 · 博雅青年学者
北京大学 · 人工智能研究院
北大-灵初智能联合实验室首席科学家 · 对齐小组 PI
2021 – 2022
助理教授
伦敦国王学院 · 信息学院
2019 – 2021
主任研究员
华为英国有限公司 · 伦敦研究院
2020 年最佳技术突破奖(年度唯一)
2015 – 2019
高级研发经理
美国国际集团(AIG)· 科学部
2016 – 2021
博士 · 计算机科学
伦敦大学学院 UCL
论文:Many-Agent Reinforcement Learning · 导师:王军 / John Shawe-Taylor
2013 – 2014
硕士 · 生物统计
伦敦帝国理工学院
2009 – 2013
学士 · 电子工程与信息科学
中国科学技术大学 USTC
§ 招生招聘 · Join the Lab

欢迎与我一起钻研安全可信的通用人工智能

PhD · 2027 博士名额(2027 招生)
0
北京大学
已满 · 本轮暂无名额
若干
中关村学院
开放申请中
详细公告 ↗

下一招生周期 — 投递前请先确认

三大研究方向

具身智能 · 灵巧操作 · 机器人大模型

高自由度灵巧操作的 Sim-to-Real 策略学习;面向物理世界的具身基础模型。与灵初智能科技联合实验室合作开展。

世界模型 · 物理基础模型 · 虚实对齐

面向物理与社会动力学的世界模型;模拟器与真实世界的对齐用于下游策略训练。与逆矩阵科技联合实验室合作开展。

大模型后训练与对齐

RLHF / DPO / Safe-RLHF · 奖励建模 · 可解释性 · 多模态 & 多语言安全。把对齐理论落到大规模实践。

PAIR-Lab 同时招收 硕士生、访问学生、本科科研实习生与博士后。若你对强化学习、大模型对齐、多智能体或具身智能感兴趣,并致力于构建安全可信的通用人工智能——欢迎在阅读上方入门材料后与我联系。