耀东 Yaodong Yang · 博雅青年学者

北大人工智能研究院 研究员 北大-灵初实验室 首席科学家
Yaodong Yang YY

杨耀东,北京大学人工智能研究院研究员(博雅学者)、院长助理,北大-灵初智能联合实验室首席科学家。国家人社部高层次留学人才国家级优秀青年人才中国科协青年托举计划入选者。主要研究方向为智能体交互学习与对齐,科研领域涵盖强化学习、AI 对齐与具身智能。在 Nature Machine IntelligenceCell MatterAIJTPAMI 等国际顶级期刊和会议发表论文二百余篇,谷歌学术引用逾 17,000+ 次。自 2022 年以来位列 CSRanking 北大 AI/ML 方向学者首位,入选 Scopus 全球 Top 2% 顶尖科学家

五次获得最佳论文奖: ACL 2025 最佳论文奖英国科研与创新局 UKRI 2026 年度最佳论文ICCV 2023 最佳论文奖入围CoRL 2020 最佳系统论文奖AAMAS 2021 最佳前瞻性论文奖。入选麻省理工科技评论「AI 100 青年榜」福布斯中国 2025 科创革新力人物WAIC 2022「云帆奖·璀璨明星」ACM SIGAI China 新星奖

现任 ICML、ICLR、NeurIPS、AAAI、IJCAI、AAMAS、IROS 等国际会议领域主席,以及 Scientific ReportsTransactions on Machine Learning ResearchNeural Networks 等期刊执行编委。主持国家自然科学基金、科技部、北京市科委及多项校企联合实验室科研项目五十余项。曾获气象服务协会技术发明一等奖吴文俊人工智能科技进步二等奖。相关成果获中央电视台《焦点访谈》、人民日报、新华网、国家自然科学基金委官网及《麻省理工科技评论》等媒体报道。

曾任伦敦国王大学助理教授、华为英国研究所主任研究员、美国国际集团高级经理。本科毕业于中国科学技术大学,先后在伦敦帝国理工学院获硕士学位、伦敦大学学院获博士学位,并获校唯一提名角逐 ACM SIGAI 优秀博士论文奖。

| CSRanking · 北大 AI+ML 第一 | 最佳论文 · 五次获得最佳论文奖 | Elsevier · 世界前 2% 顶尖科学家
200+
论文发表
Nature MI · Matter · JMLR · TPAMI
17k+
引用
谷歌学术引用 · h-index 60
#1
北大 AI+ML 排名
CSRankings · AIRankings
5+
最佳论文级奖项
ACL · UKRI · CoRL · ICCV · AAMAS
产业联合实验室 · 合作企业

近期动态

头条新闻 · 最近消息

展开全部最近消息 ICML 2026 · NeurIPS 2025 · ACL 2025 最佳论文 · ICLR · CoRL 2020 … 37 条
2026 · 06
2026 · 05
2026 · 04
2026 · 02
2025 · 09
2025 · 05
2025 · 01
2024 · 12
2024 · 10

CNCC 2024 特邀报告《大模型能否对齐?》

2024 · 09
2024 · 08
2024 · 05
2024 · 03

与多位顶级科学家共同签署北京人工智能安全宣言

2024 · 01
2023 · 12
2023 · 11

发布《AI Alignment Survey》对齐综述

2023 · 10
2023 · 09
2023 · 06

TorchOpt 正式加入 PyTorch Ecosystem

2023 · 05
2023 · 02
2023 · 01
2022 · 12

NeurIPS 2022 MyoChallenge 冠军(1 / 340)

2022 · 11
National Science Review 论文:马尔可夫博弈复杂度;三篇论文被 AAAI 2023 接收

登上央视《焦点访谈》——《新征程上 科教兴国还需人才支撑》,报道自伦敦国王学院归国投身通用人工智能研究与交叉学科人才培养。

2022 · 09
2022 · 05
一篇论文被 IJCAI 2022 接收
2022 · 04

TorchOptBi-DexHands 开源发布

2022 · 01
2021 · 09
2021 · 05
2021 · 02
AAMAS 2021 Blue-Sky 最佳论文奖
2020 · 10
SMARTS 平台发布;获 CoRL 2020 最佳系统论文奖
2020 · 06
一篇论文被 ICML 2020 接收
2020 · 05
2020 · 02

研究方向

五个研究方向 · 算法 · 基准 · 代表性工作

01 / 强化学习与对齐

大模型强化学习对齐

围绕 RLHF、偏好学习、安全对齐、红队评估与可解释性,让大模型在能力提升的同时持续保持有益、无害与可信。

02 / 具身智能

具身强化学习

以强化学习驱动双手灵巧操作、视觉-语言-动作模型与仿真到真实迁移,构建能在真实物理世界达到人类水平灵巧度的通用具身智能体。

03 / 多智能体强化学习

多智能体强化学习

研究合作与竞争多智能体强化学习的博弈理论基础与可扩展算法,覆盖策略梯度、纳什均衡到种群级训练方法。

04 / 智能体强化学习

智能体强化学习

研究面向大模型智能体的策略学习与对齐,涵盖谈判、共识、宏观经济建模与统一物理-社会动力学的世界模型。

05 / 强化学习赋能科学

强化学习赋能科学研究

将强化学习与大模型用于数学、医学、物理与材料等科学问题,成果发表于 NatureCell 子刊等顶级期刊。

媒体报道

央视 · 新华社 · 国自然 · 麻省理工科技评论

CCTV · 新华网 · 人民日报 · 麻省科技评论

获奖

最佳论文 · 人才项目 · 学术荣誉 · 竞赛产业

I. 最佳论文奖 5 项
2026

UKRI Best Research Paper in AI

Efficient and Scalable Reinforcement Learning for Large-Scale Network Control · 发表于 Nature Machine Intelligence

2025

ACL 2025 Best Paper Award

Language Models Resist Alignment: Evidence From Data Compression

2023

ICCV 2023 Best Paper Finalist

UniDexGrasp: Universal Robotic Dexterous Grasping via Learning Diverse Proposal Generation and Goal-Conditioned Policy

2021

AAMAS 2021 Blue-Sky Idea Award

Diverse Auto-Curriculum is Critical for Successful Real-World Multiagent Learning Systems

2020

CoRL 2020 Best System Paper Award

SMARTS: An Open-Source Scalable Multi-Agent RL Training School for Autonomous Driving

II. 人才项目 3 项
2024

国家级青年人才

国家级青年人才· NSFC

2022

人社部高层次留学人才回国资助

人力资源和社会保障部 · 全国 30 人

2023

中国科协青年人才托举工程

中国科学技术协会

III. 学术荣誉 5 项
2025

Elsevier / Stanford 世界前 2% 科学家

全球学术影响力前 2%

2025

麻省理工科技评论 AI 100 青年先锋

麻省理工科技评论「AI 100 青年先锋」

2026

福布斯中国科创革新力人物

福布斯中国科创革新力人物

2022

ACM SIGAI China 新星奖

ACM SIGAI China · 年度 3 位

2022

WAIC 云帆奖 · 璀璨明星

世界人工智能大会 · 年度 10 位

IV. 竞赛与产业 4 项
2025

吴文俊人工智能科技奖 · 科技进步二等奖

吴文俊人工智能科学技术奖 · 科技进步奖二等奖 — 知识增强的可信多模态交互关键技术及应用

2025

中国气象服务协会科学技术奖 · 技术发明一等奖

中国气象服务协会 · 技术发明一等奖 — 融合北斗与人工智能的极端大风气象应急救援导航路径规划技术研究

2022

NeurIPS 2022 MyoChallenge · 冠军

机器人灵巧操作竞赛 · 1 / 340 队伍夺冠

2025

数字中国创新大赛 · 人工智能高校赛道全国一等奖

数字中国创新大赛人工智能赛道全国一等奖

团队培养

北大最高学生荣誉 · Apple / 腾讯博士奖学金 · 国自然基金

2024 北大最高学生荣誉

北京大学五四奖章

耿逸然 (2024) 陈博远 (2026)
北大学生最高荣誉(两年一次)
2024 北大年度评选

北京大学年度人物

吉嘉铭 (2025) 陈博远 (2025)
北京大学全校年度仅十位
2024 · 2026 北大研究生最高荣誉

北京大学校长奖学金

吉嘉铭 (2024) 马成栋 (2026)
北京大学学生最高奖学金。
2025 Apple 博士奖学金

Apple 学者 · AI / ML

吉嘉铭
全球 12 人,大陆仅 2 位入选。
2024 国自然 · 博士项目

国自然青年学生
基础研究项目(博士)

吉嘉铭
北大 AI 方向唯一博士获资助者
2024 国自然 · 本科项目

国自然青年学生
基础研究项目(本科)

邱天异
北大 AI 方向唯一本科获资助者
教学成果奖
2026

北京大学教学成果二等奖

获奖课程:《大语言模型基础与对齐》

2025

数字中国创新大赛 · 人工智能高校赛道全国一等奖

2025 数字中国创新大赛 · 人工智能高校赛道全国一等奖

2025

北京大学工商银行奖教金

2025 年度 · 北京大学

2022–

元培通用人工智能实验班班主任

元培学院 2022 级"通班"班主任 · 教学委员

2023 – 2025

北大本科生科研训练优秀指导教师

连续三年获此称号(2023 · 2024 · 2025)

指导的本科毕业论文 元培学院 · 信息科学技术学院 · 2022 → 2026 23 篇
  • 2026 刘明灏 信息与计算科学 基于人工智能搜索方法的 Ramsey 数构造探索研究
  • 2026 邱天异 计算机科学与技术 ★ 北大本科生十佳毕业论文 语言模型推理的收敛性和局部性:基于概率加权图的分析
  • 2026 吕嘉楠 智能科学与技术 具多任务泛化能力的灵巧手 VLA 训练和数据集构建
  • 2026 王敏齐 智能科学与技术 基于语义对应和轨迹优化的大规模人手至灵巧手高效迁移优化管道
  • 2026 徐灵昀 智能科学与技术 ResMerge:基于残差强化学习和策略融合的预训练机器人持续学习算法
  • 2026 李沐遥 元培·通班 基于预训练大模型的长程决策智能体学习方法研究
  • 2026 王恺乐 元培·通班 省身克己:基于自我监控缓解欺骗式对齐
  • 2026 陈博远 元培·通班 智能的阴影:大语言模型灾难性风险的缩放定律
  • 2026 黄叙川 数据科学与大数据技术 面向长程机器人操控的分层视觉-语言-动作框架
  • 2026 李长烨 元培·通班 面向视觉指代的测试时推理扩展
  • 2026 杨斯淇 元培·通班 面向推荐系统意图理解的隐式推理内化方法设计与实现
  • 2025 王驰原 元培·通班 基于 JAX 的可扩展多智能体宏观经济模拟框架
  • 2025 庞湫凡 信息与计算科学 通过文图交错思维链数据集提升文本到图像生成的安全性
  • 2025 孙海岳 智能科学与技术 基于大语言模型的桥牌 AI 求解
  • 2025 孙昇航 信息与计算科学 PREMIUM:结合个体偏好反馈的 LLM 个性化方法
  • 2025 陈奇之 信息与计算科学 LLM 中多任务线程级抽象的探索
  • 2025 杨子然 元培·通班 大语言模型智能体中策略多样性的建模与引导
  • 2025 叶杨轶 信息与计算科学 基于 ComboOpt Zero 的改进算法求解 Max-Cut 问题的研究
  • 2024 程凯 计算机科学与技术 基于感知的遮挡环境物体操作学习
  • 2023 张乐行 计算机科学与技术 供机器人任务与运动规划的部件级可交互场景重建
  • 2023 汪蔚涛 计算机科学与技术 多任务学习的实现与应用探索——以 UniMASK 展开
  • 2023 尹禹童 元培·通班 硬件加速计算纳什均衡
  • 2022 何卓远 计算机科学与技术 使用 GPU 加速的纳什均衡高效近似

论文发表

代表作 · 按主题筛选

学术服务

领域主席 · 编委 · 大会主席

领域主席 Area Chair
  • NeurIPS CCF-A
  • ICML CCF-A
  • ICLR CCF-A
  • AAAI CCF-A
  • IJCAI CCF-A
  • AAMAS · Senior AC CCF-B
  • IROS CCF-C
执行编委 Associate Editor
  • Neural Networks (Springer) CCF-B
  • Transactions on Machine Learning Research TMLR
  • Scientific Reports Nature
大会主席 / 宣传主席
  • 世界人工智能大会学术会议 (WAICA) 2026 · 上海 宣传主席
  • 分布式人工智能大会 (DAI) 2024 · 新加坡 大会主席

履历

中科大 · 帝国理工 · 伦敦大学学院 · AIG · 伦敦国王大学 · 北大

2022 – 至今
助理教授 · 博雅青年学者
北京大学 · 人工智能研究院
北大-灵初智能联合实验室首席科学家 · 对齐小组 PI
2021 – 2022
助理教授
伦敦国王大学 · 信息学院
2019 – 2021
主任研究员
华为英国有限公司 · 伦敦研究院
2020 年最佳技术突破奖(年度唯一)
2015 – 2019
高级研发经理
美国国际集团(AIG)· 科学部
2016 – 2021
博士 · 计算机科学
伦敦大学学院 UCL
论文:Many-Agent Reinforcement Learning · 导师:汪军 / John Shawe-Taylor
2013 – 2014
硕士 · 生物统计
伦敦帝国理工学院
2009 – 2013
学士 · 电子工程与信息科学
中国科学技术大学 USTC
§ 招生招聘

欢迎一起钻研安全可信的通用人工智能

博士 · 2027 博士名额(2027 招生)
0
北京大学
已满 · 本轮暂无名额
若干
中关村学院
开放申请中
三大研究方向

大模型后训练 · 对齐

RLHF / DPO / Safe-RLHF · 奖励建模 · 可解释性 · 多模态 & 多语言安全。把对齐理论落到大规模实践。

具身智能 · 灵巧操作 · 机器人大模型

高自由度灵巧操作的 Sim-to-Real 策略学习;面向物理世界的具身基础模型。与灵初智能科技联合实验室合作开展。

世界模型 · 物理基础模型 · 虚实对齐

面向物理与社会动力学的世界模型;模拟器与真实世界的对齐用于下游策略训练。与逆矩阵科技联合实验室合作开展。

PAIR-Lab 同时招收 硕士生、访问学生、本科科研实习生与博士后。若你对强化学习、大模型对齐、多智能体或具身智能感兴趣,并致力于构建安全可信的通用人工智能——欢迎在阅读上方入门材料后与我联系。