论文 · 杨耀东

论文发表

完整列表 · 288 篇 · 默认显示 18 篇代表作

Google Scholar ↗

★ 代表作 18 多智能体 RL 108对齐 RLHF 84具身 RL 52RL4Sci 34智能体 RL 33 预印本 79 全部 288

2026 55 篇

AGT

A Game-Theoretic Negotiation Framework for Cross-Cultural Consensus *

Guoxi Zhang, Jiawei Chen, Tianzhuo Yang, Jiaming Ji, Yaodong Yang, Juntao Dai

ACL 2026

Consensus Game Theory

检索

AGT

Are Your Agents Upward Deceivers?

Dadi Guo, Qingyu Liu, Dongrui Liu, Qihan Ren, Shuai Shao, Tianyi Alex Qiu, Haoran Li, Yi R. Fung, Zhongjie Ba, Juntao Dai, Jiaming Ji, Zhikai Chen, Jialing Tao, Yaodong Yang, Jing Shao, Xia Hu

ICML 2026

Deception LLM Agents Safety

检索

AGT

Beyond Self-Interest: Simulating Human-like Social Behavior via Modeling Social Value Orientation in Agent Motivation

Jingzhe Lin, Ceyao Zhang, Yaodong Yang, Yizhou Wang, Song-Chun Zhu, Fangwei Zhong

AAMAS 2026

SVO Social Simulation

检索

AGT

Communication-Efficient Desire Alignment for Proactive Embodied Human–Agent Interaction *

Yuanfei Wang, Xinju Huang, Fangwei Zhong, Yaodong Yang, Yizhou Wang, Yuanpei Chen, Hao Dong

ACL 2026

Embodied AI Alignment

检索

AGT

FormalJudge: A Neuro-Symbolic Paradigm for Agentic Oversight *

Jiayi Zhou, Yang Sheng, Hantao Lou, Yaodong Yang, Jie Fu

ICML 2026

Agent Eval Agentic AI Neuro-Symbolic Safety LLM Agents

arXiv PDF

AGT

PoliCon: Evaluating LLMs on Achieving Diverse Political Consensus Objectives *

Zhaowei Zhang, Xiaobo Wang, Minghua Yi, Mengmeng Wang, Fengshuo Bai, Zilong Zheng, Yipeng Kang, Yaodong Yang

ICLR 2026

Consensus Benchmark LLM Value Alignment

检索

AGT

SIV-Bench: A Video Benchmark for Social Interaction Understanding and Reasoning

Fanqi Kong, Weiqin Zu, Xinyu Chen, Yaodong Yang, Song-Chun Zhu, Xue Feng

ACL 2026

Social Simulation Benchmark Multimodal LLM

arXiv S2

AGT

Uncovering Strategic Egoism Behaviors in Large Language Models

Yaoyuan Zhang, Zonghao Ying, Aishan Liu, Jian Yang, Tianlin Li, Yaodong Yang, Xianglong Liu

ACL 2026 Findings

LLM Benchmark Value Alignment Safety

arXiv S2

AI4

Development and prospective shadow evaluation of a domain-specific large language model

Yibing Guo, Xiangbin Meng, Erlan Yu, Wanwan Zhang, Yaodong Yang, Hongrui Ma, Chunli Shao, Wenyao Wang, Rongjie Wang, Haofei Wang, Ran Meng, Wenbo Zhao, Zhen Song, Xunming Ji, Chuanjie Wu

npj 2026

Medical AI Medicine LLM Benchmark

检索

AI4

Post-Trade Order-Flow Decoding and Strategic Camouflage *

Zhigang Zhang, Qiang Zhang, Shancun Liu, Yaodong Yang#

SSRN 2026

Game Theory Quantitative Finance Theory

检索

ALN

A Blind Spot in Alignment: Quantifying Biosecurity Risks in Large Language Models *

Shu Quan, Tianfang Hao, Sitong Fang, He GENG, Jiayi Zhou, Boyuan Chen, Kaile Wang, Donghai Hong, Juntao Dai, Yaodong Yang#, Jiaming Ji

COLM 2026

AI Safety Biosecurity Safety Benchmark LLM Risk Assessment Protein Toxin Design

检索

ALN

Align Once, Benefit Multilingually: Enforcing Multilingual Consistency for LLM Safety Alignment *

Yuyan Bu, Xiaohao Liu, ZhaoXing Ren, Yaodong Yang, Juntao Dai

ICLR 2026

Multilingual Safety Alignment LLM

检索

ALN

Debate with Images: Detecting Deceptive Behaviors in Multimodal Large Language Models *

Sitong Fang, Shiyi Hou, Kaile Wang, Boyuan Chen, Donghai Hong, Jiayi Zhou, Juntao Dai, Yaodong Yang, Jiaming Ji

ICML 2026

Deception Multimodal LLM Safety

检索

ALN

Policy Improvement Reinforcement Learning

Huaiyang Wang, Xiaojie Li, Deqing Wang, Haoyi Zhou, Zixuan Huang, Yaodong Yang, Jianxin Li, Yikun Ban

arXiv 2026

RLHF Reward Modeling Policy Gradient LLM Math

arXiv PDF

ALN

Reading Between the Pixels: An Inscriptive Jailbreak Attack on Text-to-Image Models

Zonghao Ying, Haowen Dai, Lianyu Hu, Zonglei Jing, Quanchen Zou, Yaodong Yang, Aishan Liu, Xianglong Liu

ACM 2026

Jailbreak Adversarial Attack Text-to-Image AI Safety Multimodal

arXiv PDF

ALN

SafeMCP: Proactive Power Regulation for LLM Agents Defense via Environment-Grounded Look-Ahead Reasoning *

Lichao Wang, ZhaoXing Ren, Tianzhuo Yang, Jiaming Ji, Chi Harold Liu, Yaodong Yang, Juntao Dai

ACL 2026

LLM Agents Safety LLM

检索

ALN

SafeMT: Multi-turn Safety for Multimodal Language Models

Han Zhu, Juntao Dai, Jiaming Ji, Haoran Li, Chengkun Cai, Pengcheng Wen, Chi-Min Chan, Boyuan Chen, Yaodong Yang, Sirui Han, Yike Guo

ACL 2026 Findings

Multi-Turn Multimodal Safety LLM

检索

ALN

UniCode: Augmenting Evaluation for Code Reasoning

Xinyue Zheng, Haowei Lin, Shaofei Cai, Zilong Zheng, Yaodong Yang, Yitao Liang

ICML 2026

Code Reasoning LLM Benchmark

检索

ALN

When Slower Isn’t Truer: Inverse Scaling Law of Truthfulness in Multimodal Reasoning *

Jiaming Ji, Sitong Fang, Wenjing Cao, Jiahao Li, Xuyao Wang, Chi-Min Chan, Sirui Han, Juntao Dai, Yike Guo, Yaodong Yang

ACL 2026 Findings

Truthfulness Multimodal

检索

EMB

Accelerating Robotic Reinforcement Learning with Agent Guidance *

Haojun Chen, Zili Zou, Chengdong Ma, Yaoxiang Pu, Haotong Zhang, Yuanpei Chen, Yaodong Yang#

arXiv 2026

Dexterous Manipulation Reinforcement Learning World Model Robotics Skill Learning Sample Efficiency

arXiv PDF

EMB

CABTO: Context-Aware Behavior Tree Grounding for Robot Manipulation

Xinglin Chen, Yishuai Cai, Yuanpei Chen, Minglong Li, Wenjing Yang, Ji Wang, Yaodong Yang

AAAI 2026

Behavior Trees Robotics

检索

EMB

CDF-Glove: A Cable-Driven Force Feedback Glove for Dexterous Teleoperation

huayue Liang*, LI Ruochong, Yuanpei Chen, Yaodong Yang, Long Zeng, xueqian WANG (

ICRA 2026

Dexterous Manipulation Tactile Teleoperation

检索

EMB

DexGraspVLA: A Vision-Language-Action Framework Towards General Dexterous Grasping *

Yifan Zhong, Xuchuan Huang, Ruochong Li, Ceyao Zhang, Zhang Chen, Tianrui Guan, Fanlian Zeng, Ka Nam Lui, Yuyao Ye, Yitao Liang, Yaodong Yang#, Yuanpei Chen

AAAI 2026 Oral

DexGraspVLA VLA Dexterous Manipulation Grasping

检索

EMB

DexKnot: Generalizable Visuomotor Policy Learning for Dexterous Bag-Knotting Manipulation *

Jiayuan Zhang, Ruihai Wu, Haojun Chen, Yuran Wang, Yifan Zhong, Ceyao Zhang, Yaodong Yang, Yuanpei Chen*

ICRA 2026

DexKnot Dexterous Manipulation Visuomotor Robotics

检索

EMB

MVR: Multi-view Video Reward Shaping for Reinforcement Learning

Lirui Luo, Guoxi Zhang, Hongming Xu, Yaodong Yang, Cong Fang, Qing Li

ICLR 2026

Multi-View Video Reward Shaping Reinforcement Learning

检索

EMB

On Robustness of Vision-Language-Action Model against Multi-Modal Perturbations *

Jianing Guo, Zhenhong Wu, Chang Tu, Yiyao Ma, Xiangqi Kong, Zhiqian Liu, Jiaming Ji, Shuning Zhang, Yuanpei Chen, Kai Chen, Xianglong Liu, Qi Dou, Yaodong Yang, Huijie Zhao, Weifeng Lv, Simin Li

ICLR 2026

VLA Multimodal Adversarial Robustness Robotics

检索

EMB

One Demonstration Is Enough for Real-World Robotic Reinforcement Learning *

Yuwan Liu, Hongze Yu, Song Liu, Yuhan Wang, Junge Zhang, Yaodong Yang#, Yuanpei Chen, Ceyao Zhang

ECCV 2026

Robotics Reinforcement Learning Imitation Learning Sample Efficiency Dexterous Manipulation

检索

EMB

RMBench: Memory-Dependent Robotic Manipulation Benchmark with Insights into Policy Design

Tianxing Chen, Yuran Wang, Mingleyang Li, Yan Qin, Hao Shi, Zixuan Li, Yifan Hu, Yingsheng Zhang, Kaixuan Wang, Yue Chen, Hongcheng Wang, Renjing Xu, Ruihai Wu, Yao Mu, Yaodong Yang, Hao Dong, Ping Luo

arXiv 2026

Benchmark Robotics Dexterous Manipulation Bimanual

arXiv PDF

EMB

RetrDex: Efficient Object Retrieval in Cluttered Scenes with a Dexterous Hand *

Fengshuo Bai*, Yu Li, Jie Chu, Tawei Chou, Runchuan Zhu, Ying Wen, Yaodong Yang#, Yuanpei Chen

IROS 2026

Dexterous Manipulation Grasping Robotics Reinforcement Learning Sim-to-Real

arXiv PDF

EMB

RoboSafe: Safeguarding Embodied Agents via Executable Safety Logic

Le Wang, Zonghao Ying, Xiao Yang, Quanchen Zou, Zhenfei Yin, Tianlin Li, Jian Yang, Yaodong Yang, Lu Sheng, Aishan Liu, Xianglong Liu

ICLR 2026 WorkshopOutstanding Paper

Embodied AI Safety Robotics

arXiv PDF

EMB

SafeLab: An Interactive High-Fidelity Benchmark for Embodied Safety in Scientific Robotics *

Fengshuo Bai, Yufeng Li, Ruihai Wu, Peishuo Wang, Yuhan Wang, Bernie Hao Zhu, Yuanfei Wang, Tawei Chou, Jing Gao, Runchuan Zhu, Ying Wen, Yaodong Yang, Yuanpei Chen

ICML 2026

Benchmark Embodied AI Safety Robotics

检索

EMB

VLA-Arena: An Open-Source Framework for Benchmarking Vision-Language-Action Models *

Borong Zhang, Jiahao Li, Jiachen Shen, Yishuai Cai, Yuhao Zhang, Yuanpei Chen, Juntao Dai, Jiaming Ji, Yaodong Yang

ICML 2026

VLA Benchmark Safety Adversarial Robustness

arXiv PDF

ALN

Evolving Diverse Red-team Language Models in Multi-round Multi-agent Games *

Chengdong Ma, Ziran Yang, Hai Ci, Jun Gao, Minquan Gao, Xuehai Pan, Yaodong Yang#

IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI)

Red-teaming Multi-Agent RL LLM Nash Equilibrium Game Theory Diversity Self-Play

arXiv PDF

MRL

Fault Tolerant Multi-Agent Learning with Adversarial Budget Constraints

David Henry Mguni, Yaqi Sun, Haojun Chen, Wanrong Yang, Amir Darabi, Larry Olanrewaju Orimoloye, Yaodong Yang

ICML 2026

Adversarial Robustness Multi-Agent RL

检索

MRL

Vulnerable Agent Identification in Large-Scale Multi-Agent Reinforcement Learning *

Simin Li, Zihao Mao, Zheng Yuwei, Linhao Wang, Ruixiao Xu, Chengdong Ma, Zhiqian Liu, Xin Yu, Yuqing Ma, Xin Wang, Jie Luo, Bo An, Yaodong Yang, Weifeng Lv, Xianglong Liu

ICML 2026

Multi-Agent RL Reinforcement Learning Adversarial Robustness

检索

PRE

Adversarial Policy Transfer in Mixed Cooperative-Competitive Games

Ruixiao Xu, Zhiqian Liu, Zhixia Zhang, Simin Li, Qi Dou, Yaodong Yang, Xianglong Liu

arXiv 2026

Multi-Agent RL Mixed-Motive Adversarial Robustness Adversarial Attack Nash Equilibrium

检索

PRE

AgentVisor: Defending LLM Agents Against Prompt Injection via Semantic Virtualization

Zonghao Ying, Haozheng Wang, Jiangfan Liu, Quanchen Zou, Aishan Liu, Jian Yang, Yaodong Yang, Xianglong Liu

arXiv 2026

LLM Agents Safety Adversarial Robustness Jailbreak

arXiv PDF

PRE

Beyond Self-Interest: Modeling Social-Oriented Motivation for Human-like Multi-Agent Interaction

Jingzhe Lin, Ceyao Zhang, Yaodong Yang, Yizhou Wang, Song-Chun Zhu, Fangwei Zhong

arXiv 2026

LLM Agents Social Simulation Mixed-Motive Multi-Agent RL

arXiv PDF

PRE

Does LLM Alignment Really Need Diversity?

Zhaowei Zhang, Xiaohan Liu, Xuekai Zhu, Junchao Huang, Ceyao Zhang, Zhiyuan Feng, Yaodong Yang, Xiaoyuan Yi, Xing Xie

arXiv 2026

Alignment Diversity RLHF Preference Optimization

arXiv PDF

PRE

Enhance the Safety in Reinforcement Learning by ADRC Lagrangian Methods

Mingxu Zhang, Huicheng Zhang, Jiaming Ji, Yaodong Yang, Ying Sun

arXiv 2026

Safe RL Reinforcement Learning Safety

arXiv PDF

PRE

Epistemic Exploration Toward Artificial General Intelligence

Yikun Ban, Fengkai Yang, Fangzheng Chen, Yibo Wang, Zhijun Chen, Zhongyi Li, Zixuan Huang, Xiaoyuan Zhang, Gongxun Li, Zehao Chen, Huaiyang Wang, Xiaodong Lu, Yaocheng Yang, Pengcheng Wei, Wan Tian, Zherui Chen, Zhixia Zhang, Hongyan Xie, Lingyu Lv, Xiaohan Wang, Jiajun Chai, Guojun Yin, Wei Lin, Tianxiang Ai, Ruijie Wang, Haoyi Zhou, Chaochao Lu, Wanxiang Che, Fuzhen Zhuang, Ning Ding, Qianqian Xu, Deqing Wang, Yaodong Yang, Jianxin Li

arXiv 2026

Exploration Foundation Models Theory LLM

检索

PRE

Evolving Deception: When Agents Evolve, Deception Wins

Zonghao Ying, Haowen Dai, Tianyuan Zhang, Yisong Xiao, Quanchen Zou, Aishan Liu, Jian Yang, Yaodong Yang, Xianglong Liu

arXiv 2026

Deception LLM Agents Social Simulation Safety Game Theory Alignment

检索

PRE

GuardAD: Safeguarding Autonomous Driving MLLMs via Markovian Safety Logic

Tianyuan Zhang, Peng Yue, Zihao Peng, Jiangfan Liu, Zonghao Ying, Jiakai Wang, Tianlin Li, Jian Yang, Yaodong Yang, Aishan Liu, Xianglong Liu

arXiv 2026

Autonomous Driving Safety Multimodal Neuro-Symbolic

arXiv PDF

PRE

Learning Expressive Random Feature Models via Parametrized Activations *

Zailin Ma, Jiansheng Yang, Yaodong Yang#

UAI 2026

Random Features Theory Representation Learning

arXiv PDF

PRE

Mesa and Mask: A Benchmark for Detecting and Classifying Deceptive Behaviors in LLMs

Boren Zheng, Mengying Yuan, Kexin Chen, Baihui Zheng, Zhendong Liu, Boyuan Chen, Jiaming Ji, Yingshui Tan, Xiaoyong Zhu, Yaodong Yang, Bo Zheng

arXiv 2026

Deception Benchmark LLM Safety Alignment Truthfulness

检索

PRE

MiraBench: Evaluating Action-Conditioned Reliability in Robotic World Models *

Tianzhuo Yang, Zihan Shen, Zirui Mi, Zhaoyi Zhang, Jiayi Zhou, Jiaming Ji, Juntao Dai, Jiawei Chen, Boyuan Chen, Yaodong Yang#

arXiv 2026

World Model Benchmark Robotics Embodied AI

arXiv PDF

PRE

RedVLA: Physical Red Teaming for Vision-Language-Action Models

Yuhao Zhang, Borong Zhang, Jiaming Fan, Jiachen Shen, Yishuai Cai, Yaodong Yang, Jiaming Ji#

arXiv 2026

VLA Red-teaming Safe VLA Safety Adversarial Attack Benchmark

检索

PRE

SPADE-Bench: Evaluating Spontaneous Strategic Deception in Agents via Plan-Action Divergence

Yuyan Bu, Haowei Li, Qirui Zheng, Bowen Dong, Kaiyue Yang, Jiaming Ji, Yingshui Tan, Wenxin Li, Yaodong Yang, Juntao Dai

arXiv 2026

LLM Agents Deception Benchmark Safety

arXiv PDF

PRE

ScaleMoE: Mixture-of-Experts for Scalable Continuous Control in Actor-Critic Reinforcement Learning

Yi Ma, Chenjun Xiao, Hongyao Tang, Yaodong Yang, Jing Liang, Jiye Liang

arXiv 2026

Actor-Critic Reinforcement Learning Sample Efficiency

检索

PRE

ShuttleEnv: An Interactive Data-Driven RL Environment for Badminton Strategy Modeling

Ang Li, Xinyang Gong, Bozhou Chen, Yunlong Lu, Jiaming Ji, Yongyi Wang, Yaodong Yang, Wenxin Li

arXiv 2026

Reinforcement Learning Benchmark Self-Play Opponent Modeling

arXiv PDF

PRE

Stable Reasoning, Unstable Responses: Mitigating LLM Deception via Stability Asymmetry Regularization

Guoxi Zhang, Jiawei Chen, Tianzhuo Yang, Lang Qin, Juntao Dai, Yaodong Yang, Jingwei Yi

arXiv 2026

Deception Safety LLM Alignment

arXiv PDF

PRE

System Design for Maintaining Internal State Consistency in Long-Horizon Robotic Games

Guangyu Zhao, Ceyao Zhang, Chengdong Ma, Tao Wu, Yiyang Song, Haoxuan Ru, Yifan Zhong, Ruilin Yan, Lingfeng Li, Ruochong Li, Yu Li, Xuyuan Han, Yun Ding, Ruizhang Jiang, Xiaochuan Zhang, Yichao Li, Yuanpei Chen, Yaodong Yang, Yitao Liang

arXiv 2026

Robotics Embodied AI LLM Agents

arXiv PDF

PRE

TwinGate: Stateful Defense against Decompositional Jailbreaks

Bowen Sun, Chaozhuo Li, Yaodong Yang, Yiwei Wang, Chaowei Xiao

arXiv 2026

Jailbreak Safety LLM

arXiv PDF

PRE

VISA: Value Injection via Shielded Adaptation for Personalized LLM Alignment

Jiawei Chen, Tianzhuo Yang, Guoxi Zhang, Jiaming Ji, Yaodong Yang, Juntao Dai

arXiv 2026

Value Alignment Alignment Preference Optimization RLHF

arXiv PDF

PRE

Your Group-Relative Advantage Is Biased

Fengkai Yang, Zherui Chen, Xiaohan Wang, Xiaodong Lu, Jiajun Chai, Guojun Yin, Wei Lin, Shuai Ma, Fuzhen Zhuang, Deqing Wang, Yaodong Yang, Jianxin Li, Yikun Ban

arXiv 2026

RLHF Policy Gradient Reward Shaping LLM Math

arXiv PDF

2025 64 篇

AGT

Enhancing LLM-Based Social Bot via an Adversarial Learning Framework

Fanqi Kong, Xiaoyuan Zhang, Xinyu Chen, Yaodong Yang, Song-Chun Zhu, Xue Feng

EMNLP 2025

Social Simulation Adversarial Robustness LLM

检索

AGT

EuroCon: Benchmarking Parliament Deliberation for Political Consensus Finding *

Zhaowei Zhang, Minghua Yi, Mengmeng Wang, Fengshuo Bai, Zilong Zheng, Yipeng Kang, Yaodong Yang#

NeurIPS 2025 Workshop

Benchmark LLM Agents Social Simulation LLM

arXiv PDF

AGT

Hierarchical Multi-Agent Framework for Dynamic Macroeconomic Modelling Using Large Language Models

Zhixun Chen, Zijing Shi, Yaodong Yang, Meng Fang, Yali Du

AAMAS 2025 Extended

Macroeconomics Multi-Agent RL LLM

检索

AGT

Social World Model-Augmented Mechanism Design Policy Learning *

Xiaoyuan Zhang, Yizhe Huang, Chengdong Ma, Zhixun Chen, Long Ma, Yali Du, Song-Chun Zhu, Yaodong Yang, Xue Feng

NeurIPS 2025

Mechanism Design Social Simulation World Models

检索

AGT

World Models Should Prioritize the Unification of Physical and Social Dynamics *

Xiaoyuan Zhang, Chengdong Ma, Yizhe Huang, Weidong Huang, Siyuan Qi, Song-Chun Zhu, Xue Feng, Yaodong Yang

NeurIPS 2025 Position

Physics Social Simulation World Models

检索

AI4

PHYBench: Holistic Evaluation of Physical Perception and Reasoning in Large Language Models

Shi Qiu, Shaoyang Guo, Zhuo-Yang Song, Yunbo Sun, Zeyu Cai, Jiashen Wei, Tianyu Luo, Yixuan Yin, Haoxu Zhang, Yi Hu, Chenyang Wang, Chencheng Tang, Haoling Chang, Qi Liu, Ziheng Zhou, Tianyu Zhang, Jingtian Zhang, Zhangyi Liu, Minghao Li, Yuku Zhang, Boxuan Jing, Xianqi Yin, Yutong Ren, Zizhuo Fu, Jiaming Ji, Weike Wang, Xudong Tian, Anqi Lv, Laifu Man, Jianxiang Li, Feiyu Tao, Qihua Sun, Zhou Liang, Yushu Mu, Zhongxuan Li, Jing-Jun Zhang, Shutao Zhang, Xiaotian Li, Xingqi Xia, Jiawei Lin, Zheyu Shen, Jiahang Chen, Qiuhao Xiong, Binran Wang, Fengyuan Wang, Ziyang Ni, Bohan Zhang, Fan Cui, Changkun Shao, Qing-Hong Cao, Ming-xing Luo, Yaodong Yang, Muhan Zhang, Hua Xing Zhu

NeurIPS 2025 Dataset

Physics LLM Benchmark

arXiv S2

ALN

AI Deception: Risks, Dynamics, and Controls

Boyuan Chen, Sitong Fang, Jiaming Ji, Yanxu Zhu, Pengcheng Wen, Jinzhou Wu, Yingshui Tan, Boren Zheng, Mengying Yuan, Wenqi Chen, Donghai Hong, Alex Qiu, Xin Chen, Jiayi Zhou, Kaile Wang, Juntao Dai, Borong Zhang, Tianzhuo Yang, Saad Siddiqui, Isabella Duan, Yawen Duan, Brian Tse, Jen-Tse Huang, Kun Wang, Baihui Zheng, Jiaheng Liu, Jian Yang, Yiming Li, Wenting Chen, Dongrui Liu, Lukas Vierling, Zhiheng Xi, Haobo Fu, Wenxuan Wang, Jitao Sang, Zhengyan Shi, Chi-Min Chan, Eugenie Shi, Simin Li, Juncheng Li, Jian Yang, Wei Ji, Dong Li, Jinglin Yang, Jun Song, Yinpeng Dong, Jie Fu, Bo Zheng, Min Yang, Yike Guo, Philip Torr, Robert Trager, Yi Zeng, Zhongyuan Wang, Yaodong Yang, Tiejun Huang, Ya-Qin Zhang, Hongjiang Zhang, Andrew Yao

arXiv 2025

Deception Safety Survey Alignment

arXiv PDF

ALN

Amulet: ReAlignment During Test Time for Personalized Preference Adaptation of LLMs *

Zhaowei Zhang, Fengshuo Bai, Qizhi Chen, Chengdong Ma, Mingzhi Wang, Haoran Sun, Zilong Zheng, Yaodong Yang#

ICLR 2025

Amulet Persona Preference Learning Alignment

arXiv S2

ALN

Benchmarking Multi-National Value Alignment for Large Language Models

Chengyi Ju, Weijie Shi, Chengzhong LIU, Jiaming Ji, Jipeng Zhang, Ruiyuan Zhang, Jiajie Xu, Yaodong Yang, Sirui Han, Yike Guo

ACL 2025 Findings

Value Alignment Benchmark Alignment LLM

检索

ALN

Boosting Policy and Process Reward Models with Monte Carlo Tree Search in Open-Domain QA

Chi-Min Chan, Chunpu Xu, Junqi Zhu, Jiaming Ji, Donghai Hong, Pengcheng Wen, Chunyang Jiang, Zhen Ye, Yaodong Yang, Wei Xue, Sirui Han, Yike Guo

ACL 2025 Findings

Reward Modeling LLM

ALN

Emerging Safety Attack and Defense in Federated Instruction Tuning of Large Language Models

Rui Ye, Jingyi Chai, Xiangrui Liu, Yaodong Yang, Yanfeng Wang, Siheng Chen

ICLR 2025

Federated Learning Instruction Tuning Adversarial Attack Safety LLM

检索

ALN

In-Context Editing: Learning Knowledge from Self-Induced Distributions

Qi, Siyuan, Bangcheng Yang, Kailin Jiang, Xiaobo Wang, Jiaqi Li, Yifan Zhong, Yaodong Yang, and Zilong Zheng

ICLR 2025

Knowledge Editing

检索

ALN

InterMT: Multi-Turn Interleaved Preference Alignment with Human Feedback *

Boyuan Chen, Donghai Hong, Jiaming Ji, Jiacheng Zheng, Bowen Dong, Rui Pan, Xuyao Wang, Juntao Dai, Chi-Min Chan, Yaodong Yang#

NeurIPS 2025 SpotlightDataset

Multi-Turn Preference Learning Alignment

检索

ALN

J1: Exploring Simple Test-Time Scaling for LLM-as-a-Judge

Chi-Min Chan, Chunpu Xu, Jiaming Ji, Zhen Ye, Pengcheng Wen, Chunyang Jiang, Yaodong Yang, Wei Xue, Sirui Han, Yike Guo

arXiv 2025

LLM Reward Modeling Preference Learning Alignment

arXiv PDF

ALN

Learning Principles from Multi-modal Human Preference *

Jiayi Zhou, Jiaming Ji, Boyuan Chen, Jiapeng Sun, Wenqi Chen, Donghai Hong, Sirui Han, Yike Guo, Yaodong Yang

NeurIPS 2025

Preference Dataset Multimodal Preference Learning

检索

ALN

Libra-Leaderboard: Towards Responsible AI through a Balanced Leaderboard of Safety and Capability,

Li, Haonan, Xudong Han, Zenan Zhai, Honglin Mu, Hao Wang, Zhenxuan Zhang, Yilin Geng, Yaodong Yang et al

NAACL 2025

Libra Leaderboard Leaderboard Safety

检索

ALN

Magnetic Mirror Descent Self-play Preference Optimization *

Mingzhi Wang, Chengdong Ma, Qizhi Chen, Linjian Meng, Yang Han, Jiancong Xiao, Zhaowei Zhang, Jing Huo, Weijie J. Su, Yaodong Yang#

ICLR 2025

Preference Optimization Self-Play Preference Learning

检索

ALN

Mitigating Reward Over-Optimization in RLHF via Behavior-Supported Regularization *

Juntao Dai, Taiye Chen, Yaodong Yang#, Qian Zheng

ICLR 2025

RLHF Reward Hacking

检索

ALN

PKU-SafeRLHF: Towards Multi-Level Safety Alignment for LLMs with Human Preference *

Jiaming Ji, Donghai Hong, Borong Zhang, Boyuan Chen, Josef Dai, Boren Zheng, Tianyi Qiu, Boxun Li, Yaodong Yang#

ACL 2025

Safe RLHF PKU-SafeRLHF Preference Dataset Preference Learning Safety

arXiv S2

ALN

RAT: Adversarial Attacks on Deep Reinforcement Agents for Targeted Behaviors *

Fengshuo Bai, Runze Liu, Yali Du, Ying Wen, Yaodong Yang#

AAAI 2025 Oral

Adversarial Attack Adversarial Robustness Reinforcement Learning

检索

ALN

Redefining Superalignment: From Weak-to-Strong Alignment to Human-AI Co-Alignment to Sustainable Symbiotic Society

Feifei Zhao, Yuwei Wang, Enmeng Lu, Dongcheng Zhao, Bing Han, Haibo Tong, Yao Liang, Dongqi Liang, Kang Sun, Lei Wang, Yitao Liang, Chao Liu, Yaodong Yang, Yi Zeng

arXiv 2025

Weak-to-Strong Alignment Value Alignment Survey

arXiv PDF

ALN

Reward Generalization in RLHF: A Topological Perspective *

Tianyi Qiu, Fanzhi Zeng, Jiaming Ji, Dong Yan, Kaile Wang, Jiayi Zhou, Yang Han, Josef Dai, Xuehai Pan, Yaodong Yang

ACL 2025 Findings

RLHF Alignment Theory Reward Modeling

检索

ALN

Risk-aware Direct Preference Optimization under Nested Risk Measure

Lijun Zhang, Lin Li, Yajie Qi, Huizhong Song, Yaodong Yang, Jun Wang, Wei Wei

NeurIPS 2025

Preference Optimization Preference Learning DPO LLM

arXiv S2

ALN

SAE-V: Interpreting Multimodal Models for Enhanced Alignment *

Hantao Lou, Changye Li, Jiaming Ji, Yaodong Yang#

ICML 2025

Interpretability Multimodal Alignment

检索

ALN

STAR: Efficient Preference-based Reinforcement Learning via Dual Regularization *

Fengshuo Bai, Rui Zhao, Hongming Zhang, Sijia Cui, Shao Zhang, Ying Wen, Yaodong Yang, bo xu, Lei Han

NeurIPS 2025

Preference Learning Reinforcement Learning Reward Modeling Sample Efficiency Offline RL

arXiv S2

ALN

Safe RLHF-V: Safe Reinforcement Learning from Multi-modal Human Feedback *

Jiaming Ji, Xinyu Chen, Rui Pan, Han Zhu, Conghui Zhang, Jiahao Li, Donghai Hong, Boyuan Chen, Jiayi Zhou, Kaile Wang, Juntao Dai, Chi-Min Chan, Sirui Han, Yike Guo, Yaodong Yang#

NeurIPS 2025

Safe RLHF RLHF Safe RL Multimodal Reinforcement Learning

检索

ALN

SafeEditor: Unified MLLM for Efficient Post-hoc T2I Safety Editing

Ruiyang Zhang, Jiahao Luo, Xiaoru Feng, Qiufan Pang, Yaodong Yang, Juntao Dai#

arXiv 2025

Safety Multimodal LLM Alignment

arXiv PDF

ALN

SafeLawBench: Towards Safe Alignment of Large Language Models

Chuxue Cao, Han Zhu, Jiaming Ji, Qichao Sun, Zhenghao Zhu, WU YINYU, Josef Dai, Yaodong Yang, Sirui Han, Yike Guo

ACL 2025 Findings

SafeLawBench Alignment LLM

检索

ALN

Sequence to Sequence Reward Modeling: Improving RLHF by Language Feedback *

Jiayi Zhou, Jiaming Ji, Juntao Dai, Yaodong Yang#

AAAI 2025 Oral

RLHF Reward Modeling

检索

ALN

Stream Aligner: Efficient Sentence-Level Alignment via Distribution Induction *

Hantao Lou, Jiaming Ji, Kaile Wang, Yaodong Yang#

AAAI 2025

Aligner Stream Aligner Alignment

检索

EMB

A Unified Framework for Multi-Stage Decision Optimization with Deep Reinforcement Learning and Foundation Models *

Qinghao Wang, Jinyang Jiang, Xiaotian Liu, Tao Ren, Yi Zheng, Cheng Zhang, Yaodong Yang, Yijie Peng

2025 IEEE 21st International Conference on Automation Science and Engineering (CASE)

Reinforcement Learning Foundation Models

检索

EMB

Adaptive Visual-Tactile Fusion with Predictive Force Attention for Dexterous Manipulation

Jinzhou Li, Tianhao Wu*, Jiyao Zhang, Zeyuan Chen, Haotian Jin, Aaron Mingdong Wu, Yujun Shen, Yaodong Yang, Hao Dong

IROS 2025

Dexterous Manipulation Tactile Robotics

检索

EMB

ClutterDexGrasp: A Sim-to-Real System for General Dexterous Grasping in Cluttered Scenes

Zeyuan Chen, Qiyang Yan, Yuanpei Chen, Tianhao Wu, Jiyao Zhang, Zihan Ding, Jinzhou Li, Yaodong Yang, Hao Dong

CoRL 2025

ClutterDex Sim-to-Real Dexterous Manipulation Grasping

检索

EMB

DexFlyWheel: A Scalable and Self-improving Data Generation Framework for Dexterous Manipulation *

Kefei Zhu, Fengshuo Bai, YuanHao Xiang, Yishuai Cai, Xinglin Chen, Ruochong Li, Xingtao Wang, Hao Dong, Yaodong Yang#, Xiaopeng Fan, Yuanpei Chen

NeurIPS 2025 Spotlight

DexFlyWheel Dexterous Manipulation Robotics

检索

EMB

Dexterous Non-Prehensile Manipulation for Ungraspable Object via Extrinsic Dexterity

Yuhan Wang, Yu Li, Yaodong Yang, Yuanpei Chen#

arXiv 2025

Dexterous Manipulation Grasping Sim-to-Real Reinforcement Learning

arXiv PDF

EMB

Differentiable Information Enhanced Model-Based Reinforcement Learning *

Xiaoyuan Zhang, Xinyan Cai, Bo Liu, Weidong Huang, Song-Chun Zhu, Siyuan Qi, Yaodong Yang#

AAAI 2025 Oral

Model-Based RL Reinforcement Learning

检索

EMB

Falcon: Fast visuomotor policy via partial denoising *

Haojun Chen, Minghao Liu, Xiaojian Ma, Zailin Ma, Huimin Wu, Chengdong Ma, Yuanpei Chen, Yifan Zhong, Mingzhi Wang, Qing Li, Yaodong Yang

ICML 2025

Diffusion Policy Falcon Policy Visuomotor

检索

ALN

Language Models Resist Alignment: Evidence From Data Compression *

Jiaming Ji, Kaile Wang, Tianyi Alex Qiu, Boyuan Chen, Jiayi Zhou, Changye Li, Hantao Lou, Josef Dai, Yunhuai Liu, Yaodong Yang#

ACL 2025 ★ Best Paper

Alignment Theory Alignment LLM

媒体报道新华社↗国家自然科学基金委↗机器之心↗

arXiv S2

ALN

Safe VLA: Towards Safety Alignment of Vision-Language-Action Model via Safe Reinforcement Learning *

Borong Zhang, Yuhao Zhang, Jiaming Ji, Yingshan Lei, Josef Dai, Yuanpei Chen, Yaodong Yang#

NeurIPS 2025 Spotlight

Safe VLA VLA Safe RL Safety Alignment

检索

MRL

Distributed Policy Space Response Oracles in Two-Player Zero-Sum Games https://ieeexplore.ieee.org/document/10950104

Hongsong Tang,Yingzhuo Liu,Letian Ni,Liuyu Xiang,Yaodong Yang,Ke Bi,Zhaofeng He

IEEE Transactions on Neural Networks and Learning Systems (TNNLS)

PSRO Zero-Sum Games Distributed Systems

检索

MRL

Empirical Study on Robustness and Resilience in Cooperative Multi-Agent Reinforcement Learning *

Simin Li, Zihao Mao, Hanxiao Li, Zonglei Jing, Zhuohang bian, Jun Guo, Li Wang, Zhuoran Han, Ruixiao Xu, Xin Yu, Chengdong Ma, Yuqing Ma, Bo An, Yaodong Yang, Weifeng Lv, Xianglong Liu Hide authors

NeurIPS 2025

Cooperative MARL Multi-Agent RL Cooperation Reinforcement Learning Adversarial Robustness Benchmark

arXiv S2

MRL

Game-theoretic multiagent reinforcement learning

Yaodong Yang, Chengdong Ma, Zihan Ding, Stephen McAleer, Chi Jin, Jun Wang, Tuomas Sandholm

arXiv 2025

Multi-Agent RL Game Theory Survey Nash Equilibrium Stochastic Games Self-Play PSRO

检索

MRL

Mean Field Correlated Imitation Learning *

Zhiyu Chen, Muning Wen, Yali Du, Ying Wen, Yaodong Yang#

AAMAS 2025

Mean Field RL Imitation Learning

检索

MRL

Towards efficient collaboration via graph modeling in reinforcement learning *

Fan, Wenzhe, Zishun Yu, Chengdong Ma, Changye Li, Yaodong Yang, and Xinhua Zhang

AAAI 2025

Reinforcement Learning Multi-Agent RL Cooperation

检索

PRE

A Comprehensive Survey in LLM(-Agent) Full Stack Safety: Data, Training and Deployment

Kun Wang, Guibin Zhang, Zhenhong Zhou, Jiahao Wu, Miao Yu, Shiqian Zhao, Chenlong Yin, Jinhu Fu, Yibo Yan, Hanjun Luo, Liang Lin, Zhihao Xu, Haolang Lu, Xinye Cao, Xinyun Zhou, Weifei Jin, Fanci Meng, Junyuan Mao, Yu Wang, Hao Wu, Minghe Wang, Fan Zhang, Junfeng Fang, Wenjie Qu, Yue Liu, Chengwei Liu, Yifan Zhang, Qiankun Li, Chongye Guo, Yalan Qin, Zhaoxin Fan, Kai Wang, Yi Ding, Donghai Hong, Jiaming Ji, Yingxin Lai, Zitong Yu, Xinfeng Li, Yifan Jiang, Yanhui Li, Xinyu Deng, Junlin Wu, Dongxia Wang, Yihao Huang, Yufei Guo, Jen-tse Huang, Qiufeng Wang, Xiaolong Jin, Wenxuan Wang, Dongrui Liu, Yanwei Yue, Wenke Huang, Guancheng Wan, Heng Chang, Tianlin Li, Yi Yu, Chenghao Li, Jiawei Li, Lei Bai, Jie Zhang, Qing Guo, Jingyi Wang, Tianlong Chen, Joey Tianyi Zhou, Xiaojun Jia, Weisong Sun, Cong Wu, Jing Chen, Xuming Hu, Yiming Li, Xiao Wang, Ningyu Zhang, Luu Anh Tuan, Guowen Xu, Tianwei Zhang, Xingjun Ma, Xiang Wang, Bo An, Jun Sun, Mohit Bansal, Shirui Pan, Yuval Elovici, Bhavya Kailkhura, Bo Li, Yaodong Yang, Hongwei Li, Wenyuan Xu, Yizhou Sun, Wei Wang, Qing Li, Ke Tang, Yu-Gang Jiang, Felix Juefei-Xu, Hui Xiong, Xiaofeng Wang, Shuicheng Yan, Dacheng Tao, Philip S. Yu, Qingsong Wen, Yang Liu

arXiv 2025

Survey Safety LLM

arXiv PDF

PRE

A Survey on Vision-Language-Action Models: An Action Tokenization Perspective *

Yifan Zhong, Fengshuo Bai, Shaofei Cai, Xuchuan Huang, Zhang Chen, Xiaowei Zhang, Yuanfei Wang, Shaoyang Guo, Tianrui Guan, Ka Nam Lui, Zhiquan Qi, Yitao Liang, Yuanpei Chen, Yaodong Yang#

arXiv 2025

VLA Survey

arXiv PDF

PRE

Approximating N-Player Nash Equilibrium through Gradient Descent

Dongge Wang, Xiang Yan, Zehao Dou, Wenhan Huang, Yaodong Yang, Xiaotie Deng

arXiv 2025

Nash Equilibrium Game Theory

arXiv PDF

PRE

Constrained Language Model Policy Optimization via Risk-aware Stepwise Alignment

Lijun Zhang, Lin Li, Wei Wei, Yajie Qi, Huizhong Song, Jun Wang, Yaodong Yang, Jiye Liang

arXiv 2025

Safe RL Preference Optimization Alignment LLM

arXiv PDF

PRE

Finding Kissing Numbers with Game-theoretic Reinforcement Learning *

Chengdong Ma, Théo Tao Zhaowei, Pengyu Li, Minghao Liu, Haojun Chen, Zihao Mao, Bo Li, Yuan Cheng, Yuan Qi, Yaodong Yang#

arXiv 2025

Game Theory Math Self-Play Reinforcement Learning Cooperative MARL

检索

PRE

From Strangers to Assistants: Fast Desire Alignment for Embodied Agent-User Adaptation

Yuanfei Wang, Xinju Huang, Fangwei Zhong, Yaodong Yang, Yizhou Wang, Yuanpei Chen, Hao Dong

arXiv 2025

Embodied AI Alignment LLM Agents Value Alignment Cooperation

检索

PRE

Goal Discovery with Causal Capacity for Efficient Reinforcement Learning

Yan Yu, Yaodong Yang, Zhengbo Lu, Chengdong Ma, Wengang Zhou, Houqiang Li

arXiv 2025

Reinforcement Learning Exploration Hierarchical RL Sample Efficiency

arXiv PDF

PRE

Iterative Training of Language Models with Opponent Modeling for Red Teaming Data Generation *

Yiming Rong, Hang Deng, Xuehai Pan, Yang Han, Fengshuo Bai, Yaodong Yang#

ICLR 2025

Opponent Modeling Red-teaming LLM

检索

PRE

LLMs Know More Than Words: A Genre Study with Syntax, Metaphor & Phonetics *

Weiye Shi, Zhaowei Zhang, Shaoheng Yan, Yaodong Yang#

arXiv 2025

LLM Multilingual Interpretability Dataset

arXiv PDF

PRE

Mitigating Deceptive Alignment via Self-Monitoring *

Jiaming Ji, Wenqi Chen, Kaile Wang, Donghai Hong, Sitong Fang, Boyuan Chen, Jiayi Zhou, Juntao Dai, Sirui Han, Yike Guo, Yaodong Yang#

arXiv 2025

Deception Alignment Chain-of-Thought Safety Benchmark

arXiv PDF

PRE

Mixed Hierarchical Oracle and Multi-Agent Benchmark in Two-player Zero-sum Games

Hongsong Tang, Bo Chen, Yingzhuo Liu, Yaodong Yang, Junge Zhang, Liuyu Xiang, Jianchun Xu, Zhaofeng He

arXiv 2025

Zero-Sum Games Multi-Agent RL Benchmark

检索

PRE

Model Evolution Framework with Genetic Algorithm for Multi-Task Reinforcement Learning

Yan Yu, Wengang Zhou, Yaodong Yang, Wanxuan Lu, Yingyan Hou, Houqiang Li

arXiv 2025

Reinforcement Learning Meta-RL Robotics

arXiv PDF

PRE

Never Compromise to Vulnerabilities: A Comprehensive Survey on AI Governance

Yuchu Jiang, Jian Zhao, Yuchen Yuan, Tianle Zhang, Yao Huang, Yanghao Zhang, Yan Wang, Yanshu Li, Xizhong Guo, Yusheng Zhao, Jun Zhang, Zhi Zhang, Xiaojian Lin, Yixiu Zou, Haoxuan Ma, Yuhu Shang, Yuzhi Hu, Keshu Cai, Ruochen Zhang, Boyuan Chen, Yilan Gao, Ziheng Jiao, Yi Qin, Shuangjun Du, Xiao Tong, Zhekun Liu, Yu Chen, Xuankun Rong, Rui Wang, Yejie Zheng, Zhaoxin Fan, Murat Sensoy, Hongyuan Zhang, Pan Zhou, Lei Jin, Hao Zhao, Xu Yang, Jiaojiao Zhao, Jianshu Li, Joey Tianyi Zhou, Zhi-Qi Cheng, Longtao Huang, Zhiyi Liu, Zheng Zhu, Jianan Li, Gang Wang, Qi Li, Xu-Yao Zhang, Yaodong Yang, Mang Ye, Wenqi Ren, Zhaofeng He, Hang Su, Rongrong Ni, Liping Jing, Xingxing Wei, Junliang Xing, Massimo Alioto, Shengmei Shen, Petia Radeva, Dacheng Tao, Ya-Qin Zhang, Shuicheng Yan, Chi Zhang, Zhongjiang He, Xuelong Li

arXiv 2025

Survey Safety Value Alignment Alignment Adversarial Robustness

arXiv PDF

PRE

On the Generalization Properties of Learning the Random Feature Models with Learnable Activation Functions *

Zailin Ma, Jiansheng Yang, Yaodong Yang#

arXiv 2025

Theory Representation Learning

arXiv PDF

PRE

Prismatic World Model: Learning Compositional Dynamics for Planning in Hybrid Systems *

Mingwei Li, Xiaoyuan Zhang, Chengwei Yang, Zilong Zheng, Yaodong Yang#

arXiv 2025

World Model Reinforcement Learning

arXiv PDF

PRE

Re: Form--Reducing Human Priors in Scalable Formal Software Verification with RL in LLMs

Chuanhao Yan, Fengdi Che, Xuhan Huang, Xu Xu, Xin Li, Yizhi Li, Xingwei Qu, Jingzhe Shi, Chenghua Lin, Yaodong Yang, Binhang Yuan, Hang Zhao, Yu Qiao, Bowen Zhou, Jie Fu

arXiv 2025

Code Reasoning RLHF LLM Benchmark Math

arXiv PDF

PRE

RedStar: Does Scaling Long-CoT Data Unlock Better Slow-Reasoning Systems?

Haotian Xu, Xing Wu, Weinong Wang, Zhongzhi Li, Da Zheng, Boyuan Chen, Yi Hu, Shijia Kang, Jiaming Ji, Yingying Zhang, Zhijiang Guo, Yaodong Yang, Muhan Zhang, Debing Zhang

arXiv 2025

Chain-of-Thought LLM Math

arXiv PDF

PRE

Robocoin: An open-sourced bimanual robotic data collection for integrated manipulation

Shihan Wu, Xuecheng Liu, Shaoxuan Xie, Pengwei Wang, Xinghang Li, Bowen Yang, Zhe Li, Kai Zhu, Hongyu Wu, Yiheng Liu, Zhaoye Long, Runtian Xu, Yue Wang, Chong Liu, Dihan Wang, Ziqiang Ni, Xiang Yang, You Liu, Ruoxuan Feng, Lei Zhang, Denghang Huang, Chenghao Jin, Anlan Yin, Xinlong Wang, Zhenguo Sun, Junkai Zhao, Mengfei Du, Mingyu Cao, Xiansheng Chen, Hongyang Cheng, Xiaojie Zhang, Yankai Fu, Ning Chen, Cheng Chi, Sixiang Chen, Huaihai Lyu, Xiaoshuai Hao, Yequan Wang, Bo Lei, Dong Liu, Xi Yang, Yance Jiao, Tengfei Pan, Yunyan Zhang, Songjing Wang, Ziqian Zhang, Xu Liu, Ji Zhang, Caowei Meng, Zhizheng Zhang, Jiyang Gao, Song Wang, Xiaokun Leng, Zhiqiang Xie, Zhenzhen Zhou, Peng Huang, Wu Yang, Yandong Guo, Yichao Zhu, Suibing Zheng, Hao Cheng, Xinmin Ding, Yang Yue, Huanqian Wang, Chi Chen, Jingrui Pang, YuXi Qian, Haoran Geng, Lianli Gao, Haiyuan Li, Bin Fang, Gao Huang, Yaodong Yang, Hao Dong, He Wang, Hang Zhao, Yadong Mu, Di Hu, Hao Zhao, Tiejun Huang, Shanghang Zhang, Yonghua Lin, Zhongyuan Wang, Guocai Yao

arXiv 2025

Bimanual Dataset Robotics Teleoperation Dexterous Manipulation

arXiv PDF

PRE

The Mirage of Multimodality: Where Truth is Tested and Honesty Unravels

Sitong Fang, Wenjing Cao, Jiahao Li, Xuyao Wang, Juntao Dai, Chi-Min Chan, Sirui Han, Yike Guo, Yaodong Yang, Jiaming Ji

arXiv 2025

Multimodal Truthfulness Deception Safety Benchmark Chain-of-Thought Dataset

检索

PRE

Thinkpatterns-21k: A systematic study on the impact of thinking patterns in llms

Pengcheng Wen, Jiaming Ji, Chi-Min Chan, Juntao Dai, Donghai Hong, Yaodong Yang, Sirui Han, Yike Guo

arXiv 2025

Chain-of-Thought Instruction Tuning LLM Dataset Benchmark

arXiv PDF

2024 59 篇

AGT

Can large language models independently complete tasks? a dynamic evaluation framework for multi-turn task planning and completion

Jun Gao, Junlin Cui, Huijia Wu, Liuyu Xiang, Han Zhao，Xiangang Li, Meng Fang, Yaodong Yang, Zhaofeng He

Neurocomputing

Multi-Turn LLM LLM Agents Benchmark

检索

AGT

CivRealm: A Learning and Reasoning Odyssey for Decision-Making Agents

Qi, Siyuan, Shuo Chen, Yexin Li, Xiangyu Kong, Junqi Wang, Bangcheng Yang, Pring Wong, Yaodong Yang, et al

ICLR 2024 Spotlight

CivRealm Benchmark LLM Agents

检索

AGT

Efficient Adaptation in Mixed-Motive Environments via Hierarchical Opponent Modeling and Planning

Yizhe Huang, Anji Liu, Fanqi Kong, Yaodong Yang, Song-Chun Zhu, Xue Feng

ICML 2024

Mixed-Motive Opponent Modeling Multi-Agent RL

arXiv S2

AGT

JARVIS-1: Open-World Multi-task Agents with Memory-Augmented Multimodal Language Models

Zihao Wang, Shaofei Cai, Anji Liu, Yonggang Jin, Jinbing Hou, Bowei Zhang, Haowei Lin, Zhaofeng He, Zilong Zheng, Yaodong Yang, Xiaojian Ma, Yitao Liang

IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI)

JARVIS-1 Multimodal LLM LLM Agents World Model

检索

AGT

MT-dyna: A Framework for Evaluating Multi-Turn Capabilities of LLMs

Jun Gao, Junlin Cui, Anwen Yang , Yiqi Tong, Huijia Wu, Xiangzheng Zhang, Yaodong Yang, Zhaofeng He

Applied Soft Computing

Agent Eval Multi-Turn LLM Benchmark LLM Agents

AGT

ProAgent: Building Proactive Cooperative AI with Large Language Models *

Ceyao Zhang, Kaijie Yang, Siyi Hu, Zihao Wang, Guanghe Li, Yihang Sun, Cheng Zhang, Zhaowei Zhang, Anji Liu, Song-Chun Zhu, Xiaojun Chang, Junge Zhang, Feng Yin, Yitao Liang, Yaodong Yang#

AAAI 2024 Oral

ProAgent Cooperation LLM

检索

AI4

Large Language Models in Medicine: Applications, Challenges, and Future Directions

Erlan Yu, Xuehong Chu, Wanwan Zhang, Xiangbin Meng, Yaodong Yang, Xunming Ji, Chuanjie Wu

International Journal of Medical Sciences

Medical AI LLM

检索

AI4

Revolutionizing Healthcare: The Transformative Impact of LLMs in Medicine *

Yi-Da Tang, Jmir Preprints, Kuo Zhang, Xiangyu Yan, Dph, Xiangbin Meng, Jiaming Ji, Hua Xu, Jingqian Liu, Jingjia Wang, Xuliang Wang, Jun gao, Da Liu, Yuan-Geng-Shuo Wang, Chunli Shao, Wenyao Wang, Yaodong Yang

Journal of Medical Internet Research (JMIR)

Medical AI LLM Survey

检索

AI4

The application of large language models in medicine: A scoping review

Xiangbin Meng, Xiangyu Yan, Kuo Zhang, Da Liu, Xiaojuan Cui, Yaodong Yang, Muhan Zhang, Chunxia Cao, Jingjia Wang, Xuliang Wang, Jun Gao, Yuan-Geng-Shuo Wang, Jia-ming Ji, Zifeng Qiu, Muzi Li, Cheng Qian, Tianze Guo, Shuangquan Ma, Zeying Wang, Zexuan Guo, Youlan Lei, Chunli Shao, Wenyao Wang, Haojun Fan, Yi-Da Tang

iScience (Cell Press)

Medical AI Survey LLM

PDF S2

ALN

AI Alignment: A Contemporary Survey *

Yaodong Yang, Jiaming Ji,Tianyi Qiu,Boyuan Chen,Jiayi Zhou,Borong Zhang,Donghai Hong,Hantao Lou,Kaile Wang,Yawen Duan,Zhonghao He,Lukas Vierling,Zhaowei Zhang,Fanzhi Zeng,Juntao Dai,Xuehai Pan,Hua Xu,Aidan O’Gara,Kwan Yee Ng,Brian Tse,Jie Fu,Stephen McAleer,Yizhou Wang,Song-Chun Zhu,Yike Guo,Wen Gao

ACM Computing Surveys

Survey Alignment

ALN

Heterogeneous Value Alignment Evaluation for Large Language Models *

Zhaowei Zhang, Ceyao Zhang, Nian Liu, Siyuan Qi, Ziqi Rong, Song-Chun Zhu, Yaodong Yang

AGI 2024

Value Alignment Alignment LLM

检索

ALN

Med-Aligner Empowers LLM Medical Applications for complex medical scenarios *

Xiangbin Meng, Jiaming Ji, Xiangyu Yan, Jing Dai, Bishan Chen, Guan Wang, Hua Xu, Jingjia Wang, X G Wang, Da Liu, Ming-Qi Zheng, Ruidong Wu, Chujun Wu, Ying Wu, W Wang, Zhen Song, Yaodong Yang

The Innovation

Aligner Medical AI LLM

检索

ALN

Panacea: Pareto Alignment via Preference Adaptation for LLMs *

Yifan Zhong, Chengdong Ma, Xiaoyuan Zhang, Ziran Yang, Haojun Chen, Qingfu Zhang, Siyuan Qi, Yaodong Yang#

NeurIPS 2024

Panacea Preference Learning Alignment

检索

ALN

ProgressGym: Alignment with a Millennium of Moral Progress *

Tianyi Qiu, Yang Zhang, Xuchuan Huang, Jasmine Xinze Li, Jiaming Ji, Yaodong Yang

NeurIPS 2024 Spotlight

ProgressGym Value Alignment Alignment

检索

ALN

Roadmap on Incentive Compatibility for AI Alignment in Sociotechnical Systems *

Zhaowei Zhang, Fengshuo Bai, Mingzhi Wang, Haoyang Ye, Chengdong Ma and Yaodong Yang

AGI 2024 Oral

Survey Alignment Mechanism Design Game Theory

检索

ALN

Safe RLHF: Safe Reinforcement Learning from Human Feedback *

Josef Dai, Xuehai Pan, Ruiyang Sun, Jiaming Ji, Xinbo Xu, Mickel Liu, Yizhou Wang, Yaodong Yang#

ICLR 2024 Spotlight

Safe RLHF RLHF Safe RL Reinforcement Learning LLM Safety Value Alignment

arXiv S2

ALN

Safe Reinforcement Learning using Finite-Horizon Gradient-based Estimation

Dai, Juntao, Yaodong Yang, Qian Zheng, and Gang Pan

ICML 2024

Safe RL Reinforcement Learning

arXiv S2

ALN

SafeDreamer: Safe Reinforcement Learning with World Models *

Weidong Huang, Jiaming Ji, Chunhe Xia, Borong Zhang, Yaodong Yang#

ICLR 2024

SafeDreamer Safe RL World Models Reinforcement Learning

检索

ALN

SafeSora: Towards Safety Alignment of Text2Video Generation via a Human Preference Dataset *

Juntao Dai, Tianle Chen, Xuyao Wang, Ziran Yang, Taiye Chen, Jiaming Ji, Yaodong Yang

NeurIPS 2024

Video Generation Preference Dataset Dataset Preference Learning Safety

检索

ALN

Scalable Constrained Policy Optimization for Safe Multi-agent Reinforcement Learning

Lijun Zhang, Lin Li, Wei Wei, Huizhong Song, Yaodong Yang, Jiye Liang

NeurIPS 2024

Multi-Agent RL Reinforcement Learning Safe RL Safety Cooperative MARL

ALN

对齐的理论, 技术与评估 (Theories, Techniques, and Evaluation of AI Alignment) *

Jiaming Ji, Tianyi Qiu, Boyuan Chen, Yaodong Yang#

CCL 2024

Alignment Survey Value Alignment RLHF Interpretability Alignment Theory Safety

检索

EMB

Adaptive pessimism via target Q-value for offline reinforcement learning *

Liu, Jie, Yinmin Zhang, Chuming Li, Yaodong Yang, Yu Liu, and Wanli Ouyang

Neural Networks

Offline RL Q-Learning Reinforcement Learning

检索

EMB

AnySkill: Learning Open-Vocabulary Physical Skill for Interactive Agents

Cui, Jieming, Tengyu Liu, Nian Liu, Yaodong Yang, Yixin Zhu, and Siyuan Huang

CVPR 2024

AnySkill Physics Skill Learning

检索

EMB

ECO: Energy-Constrained Optimization with Reinforcement Learning for Humanoid Walking

Huang, Weidong; Zhang, Jingwen; Li, Jiongye; zhang, shibowen; Wu, Jiayang; Wang, Jiayi; Liu, Hangxin; Yang, Yaodong; SU, YAO

IEEE Transactions on Automation Science and Engineering

Humanoid Reinforcement Learning Locomotion Safe RL Sim-to-Real

arXiv S2

EMB

Grasp multiple objects with one hand

Li, Yuyang, Bo Liu, Yiran Geng, Puhao Li, Yaodong Yang, Yixin Zhu, Tengyu Liu, and Siyuan Huang

IEEE Robotics and Automation Letters (RA-L)

Grasping

检索

EMB

Learning Uniformly Distributed Embedding Clusters of Stylistic Skills for Physically Simulated Characters *

Nian Liu, Zilong Zhang, Zi Wang, Tengyu Liu, Hongzhao Xie, Xinyi Tong, Libin Liu, Yaodong Yang, Zhaofeng He

ACM 2024

Skill Learning Humanoid

检索

EMB

Neural Attention Field: Emerging Point Relevance in 3D Scenes for One-Shot Dexterous Grasping

Wang, Qianxu, Congyue Deng, Tyler Ga Wei Lum, Yuanpei Chen, Yaodong Yang, Jeannette Bohg, Yixin Zhu, and Leonidas Guibas

CoRL 2024

Dexterous Manipulation Grasping

检索

EMB

Reason to Behave: Achieving Human-Like Task Execution for Physics-Based Characters

Nian Liu, Yaodong Yang, Zilong Zhang, Zi Wang, Jiayi Zhou, Libin Liu, Song-Chun Zhu, Zhibo Yang, Zhaofeng He

ICLR 2024

Humanoid Skill Learning

检索

EMB

Object-Centric Dexterous Manipulation from Human Motion Data

Chen, Yuanpei, Chen Wang, Yaodong Yang, and C. Karen Liu

CoRL 2024

Dexterous Manipulation Robotics

检索

MRL

ASP: Learn a Universal Neural Solver *

Chenguang Wang, Zhouliang Yu, Stephen McAleer, Tianshu Yu, Yaodong Yang#

IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI)

Combinatorial Optimization PSRO Auto-Curriculum

arXiv PDF S2

ALN

Aligner: Efficient Alignment by Learning to Correct *

Jiaming Ji, Boyuan Chen, Hantao Lou, Donghai Hong, Borong Zhang, Xuehai Pan, Juntao Dai, Yaodong Yang#

NeurIPS 2024 Oral

Aligner Alignment LLM RLHF

检索

EMB

Bi-DexHands: Towards Human-Level Bimanual Dexterous Manipulation *

Yuanpei Chen, Yiran Geng, Fangwei Zhong, Jiaming Ji, Jiechuang Jiang, Zongqing Lu, Hao Dong, Yaodong Yang#

IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI)

Bimanual Dexterous Manipulation Robotics

媒体报道中国青年报↗

检索

AI4

Efficient and scalable reinforcement learning for large-scale network control *

Chengdong Ma, Aming Li, Yali Du, Hao Dong, Yaodong Yang#

Nature Machine Intelligence ★ UKRI Best Paper in AI & Robotics

Network Control Reinforcement Learning

媒体报道新华社↗科技日报↗北大新闻网↗

PDF S2

MRL

Heterogeneous-Agent Reinforcement Learning *

Yifan Zhong, Jakub Grudzien Kuba, Xidong Feng, Siyi Hu, Jiaming Ji, Yaodong Yang#

Journal of Machine Learning Research (JMLR)

HARL Reinforcement Learning Cooperative MARL Multi-Agent RL Nash Equilibrium

arXiv PDF S2

ALN

Omnisafe: An infrastructure for accelerating safe reinforcement learning research *

Jiaming Ji, Jiayi Zhou, Borong Zhang, Juntao Dai, Xuehai Pan, Ruiyang Sun, Weidong Huang, Yiran Geng, Mickel Liu, Yaodong Yang#

Journal of Machine Learning Research (JMLR)

OmniSafe Safe RL Reinforcement Learning

检索

AI4

Transforming the synthesis of carbon nanotubes with machine learning models and automation *

Yue Li, Shurui Wang, Zhou Lv, Zhaoji Wang, Yunbiao Zhao, Ying Xie, Yang Xu, Liu Qian, Yaodong Yang#, Ziqiang Zhao#, Jin Zhang#

Matter (Cell Press)

Carbon Nanotubes Materials Synthesis

媒体报道新华社↗

检索

MRL

A Perspective of Q-value Estimation on Offline-to-Online Reinforcement Learning *

Zhang, Yinmin, Jie Liu, Chuming Li, Yazhe Niu, Yaodong Yang, Yu Liu, and Wanli Ouyang

AAAI 2024

Q-Learning Reinforcement Learning Offline RL

检索

MRL

Byzantine Robust Cooperative Multi-Agent Reinforcement Learning as a Bayesian Game *

Li, Simin, Jun Guo, Jingqiao Xiu, Ruixiao Xu, Xin Yu, Jiakai Wang, Aishan Liu, Yaodong Yang, and Xianglong Liu

ICLR 2024

Byzantine Robust Cooperative MARL Bayesian Methods Multi-Agent RL Cooperation

检索

MRL

Computing Ex Ante Equilibrium in Heterogeneous Zero-Sum Team Game

Naming Liu, Mingzhi Wang, Xihuai Wang, Weinan Zhang, Yaodong Yang, Youzhi Zhang, Bo An, Ying Wen

Frontiers of Computer Science (FCS)

Nash Equilibrium Team Games Zero-Sum Games PSRO

arXiv S2

MRL

Deep Reinforcement Learning with Task-Adaptive Retrieval via Hypernetwork

Yonggang Jin, Chenxu Wang, Tianyu Zheng, Liuyu Xiang, Yaodong Yang, Junge Zhang, Jie Fu, Zhaofeng He

ICASSP 2024

Reinforcement Learning Meta-RL Sample Efficiency

arXiv PDF

MRL

End-to-End Neuro-Symbolic Reinforcement Learning with Textual Explanations

Luo, Lirui, Guoxi Zhang, Hongming Xu, Yaodong Yang, Cong Fang, and Qing Li

ICML 2024

Reinforcement Learning Neuro-Symbolic Explainability

检索

MRL

FPGA-Gym: An FPGA-Accelerated Reinforcement Learning Environment Simulation Framework

Jiayi Li, Hongxiao Zhao, Wenshuo Yue, Yihan Fu, Daijing Shi, Anjunyi Fan, Qinghao Wang, Yaodong Yang, Bonan Yan

NeurIPS 2024 Workshop

FPGA Acceleration Gym Environment Reinforcement Learning

检索

MRL

MaskMA: Towards Zero-Shot Multi-Agent Decision Making with Mask-Based Collaborative Learning *

Liu, Jie, Yinmin Zhang, Chuming Li, Chao Yang, Yaodong Yang, Yu Liu, and Wanli Ouyang

Transactions on Machine Learning Research (TMLR)

MaskMA Multi-Agent RL

检索

MRL

Maximum Entropy Heterogeneous-Agent Reinforcement Learning *

Jiarong Liu, Yifan Zhong, Siyi Hu, Haobo Fu, Qiang Fu, Xiaojun Chang, Yaodong Yang#

ICLR 2024 Spotlight

HARL Reinforcement Learning

检索

MRL

Multi-Agent Deep Reinforcement Learning for Multi-Echelon Inventory Management

Liu, Xiaotian, Ming Hu, Yijie Peng, and Yaodong Yang.

Production and Operations Management

Inventory Management Multi-Agent RL Reinforcement Learning

检索

MRL

Off-Agent Trust Region Policy Optimization *

Chen, Ruiqing, Xiaoyuan Zhang, Yali Du, Yifan Zhong, Zheng Tian, Fanglei Sun, and Yaodong Yang

IJCAI 2024

Trust Region Multi-Agent RL Policy Gradient

MRL

Open-Ended Learning in General-Sum Games: The Role of Diversity in Correlated Equilibrium *

Zeyuan Zhao, Muning Wen, Ying Wen, Yaodong Yang#

ICLR 2024

Nash Equilibrium Diversity Population-Based Auto-Curriculum

检索

MRL

Resilient Multi-agent Reinforcement Learning for Tiered Mixed Autonomy

Xin Gao,Xiaoqiang Meng,Chengdong Ma,Zhaoyang Ma,Yaodong Yang,Xueyuan Li,Lihua Xie

IEEE Transactions on Intelligent Transportation Systems

Multi-Agent RL Reinforcement Learning

检索

MRL

RoMAT: Role-based multi-agent transformerfor generalizable heterogeneous cooperation *

Wang, Dongzi, Fangwei Zhong, Minglong Li, Muning Wen, Yuanxi Peng, Teng Li, and Adam Yang

Neural Networks

Multi-Agent Transformer Multi-Agent RL

检索

MRL

STAS: Spatial-Temporal Return Decomposition for Multi-agent Reinforcement Learning *

Chen, Sirui, Zhaowei Zhang, Yaodong Yang, and Yali Du

AAAI 2024

Multi-Agent RL Reinforcement Learning Credit Assignment

检索

MRL

TIMAR: Transition-informed representation for sample-efficient multi-agent reinforcement learning *

Feng, Mingxiao, Yaodong Yang, Wengang Zhou, and Houqiang Li

Neural Networks

Multi-Agent RL Reinforcement Learning

检索

PRE

A Survey on Self-play Methods in Reinforcement Learning

Ruize Zhang, Zelai Xu, Chengdong Ma, Chao Yu, Wei-Wei Tu, Wenhao Tang, Shiyu Huang, Deheng Ye, Wenbo Ding, Yaodong Yang, Yu Wang

arXiv 2024

Self-Play Survey Reinforcement Learning

arXiv PDF

PRE

Align Anything: Training All-Modality Models to Follow Instructions with Language Feedback *

Jiaming Ji, Jiayi Zhou, Hantao Lou, Boyuan Chen, Donghai Hong, Xuyao Wang, Wenqi Chen, Kaile Wang, Rui Pan, Jiahao Li, Mohan Wang, Josef Dai, Tianyi Qiu, Hua Xu, Dong Li, Weipeng Chen, Jun Song, Bo Zheng, Yaodong Yang#

arXiv 2024

All-Modality Alignment RLHF Multimodal Preference Dataset Benchmark

arXiv PDF

PRE

Efficient Model-agnostic Alignment via Bayesian Persuasion *

Fengshuo Bai, Mingzhi Wang, Zhaowei Zhang, Boyuan Chen, Yinda Xu, Ying Wen, Yaodong Yang#

arXiv 2024

Bayesian Methods Alignment LLM Weak-to-Strong

arXiv PDF

PRE

Leveraging Team Correlation for Approximating Equilibrium in Two-Team Zero-Sum Games

Naming Liu, Mingzhi Wang, Youzhi Zhang, Yaodong Yang, Bo An, Ying Wen

arXiv 2024

Nash Equilibrium Zero-Sum Games Team Games

arXiv PDF

PRE

Random Feature Models with Learnable Activation Functions *

Zailin Ma, Jiansheng Yang, Yaodong Yang#

arXiv 2024

Theory Representation Learning Interpretability

检索

PRE

Real-World Performance of Large Language Models in Emergency Department Chest Pain Triage

Xiangbin Meng, Jia-ming Ji, Xiangyu Yan, Hua Xu, Jun Gao, Junhong Wang, Jingjia Wang, Xuliang Wang, Yuan-geng-shuo Wang, Wenyao Wang, Jing Chen, Kuo Zhang, Da Liu, Zifeng Qiu, Muzi Li, Chunli Shao, Yaodong Yang, Yi-Da Tang

medRxiv 2024

Medical AI LLM

检索

PRE

Sample-Efficient Regret-Minimizing Double Oracle in Extensive-Form Games *

Xiaohang Tang, Chiyuan Wang, Chengdong Ma, Ilija Bogunovic, Stephen McAleer, Yaodong Yang#

arXiv 2024

Double Oracle Extensive-Form Games Nash Equilibrium Sample Efficiency

arXiv PDF

PRE

UniDexFPM: Universal Dexterous Functional Pre-grasp Manipulation via Diffusion Policy

Tianhao Wu, Yunchong Gan, Mingdong Wu, Jingbo Cheng, Yaodong Yang, Yixin Zhu, Hao Dong

arXiv 2024

Dexterous Manipulation Diffusion Policy Grasping UniDexGrasp

arXiv PDF

2023 49 篇

AGT

Editorial Special Issue on Simulation and AI *

等 · 杨耀东*

JSSSE 2023

Social Simulation LLM Agents

检索

AGT

MultiReAct: Multimodal Tools Augmented Reasoning-Acting Traces for Embodied Agent Planning *

Zhouliang Yu, Jie Fu, Yao Mu, Chenguang Wang, Lin Shao, Yaodong Yang#

NeurIPS 2023 Workshop

LLM Agents Embodied AI Multimodal Chain-of-Thought Reward Modeling

检索

AI4

A Deep Reinforcement Learning-driven Vine Copula Method for Correlation Structure Analysis of Mortgage *

Qinghao Wang, Yanling PENG, Yijie Peng, Yaodong Yang

计量经济学报

Quantitative Finance Reinforcement Learning

检索

AI4

Carbon trading supply chain management based on constrained deep reinforcement learning *

Wang, Qinghao, and Yaodong Yang.

Journal of Autonomous Agents and Multi-Agent Systems (JAAMAS)

Quantitative Finance Supply Chain Reinforcement Learning Safe RL

检索

AI4

Discrete information acquisition in financial markets

Pan, Jingrui, Shancun Liu, Qiang Zhang, and Yaodong Yang

Mathematics (MDPI)

Quantitative Finance Finance

检索

AI4

Self-Supervised MAFENN for Classifying Low-labeled Distorted Images over Mobile Fading Channels

Li, Yang, Fanglei Sun, Jingchen Hu, Chang Liu, Fan Wu, Kai Li, Ying Wen, Yaodong Yang, et al

IEEE Transactions on Mobile Computing

Wireless ML Signal Processing

检索

ALN

BeaverTails: A Human-Preference Dataset for LLM Harmlessness Alignment *

Jiaming Ji, Mickel Liu, Juntao Dai, Xuehai Pan, Chi Zhang, Ce Bian, Chi Zhang, Ruiyang Sun, Yizhou Wang, Yaodong Yang#

NeurIPS 2023

BeaverTails Preference Dataset Dataset Preference Learning Safety

检索

ALN

ReDMan: Reliable Dexterous Manipulation with Safe Reinforcement Learning *

Yiran Geng, Jiaming Ji, Yuanpei Chen, Haoran Geng, Fangwei Zhong, and Yaodong Yang

Machine Learning Journal

ReDMan Dexterous Manipulation Safe RL Robotics Reinforcement Learning

检索

ALN

Safety Gymnasium: A Unified Safe Reinforcement Learning Benchmark *

Jiaming Ji, Borong Zhang, Jiayi Zhou, Xuehai Pan, Weidong Huang, Ruiyang Sun, Yiran Geng, Yifan Zhong, Juntao Dai, Yaodong Yang#

NeurIPS 2023

Safety Gymnasium Safe RL Benchmark Reinforcement Learning Multi-Agent RL

arXiv S2

EMB

A Massively Parallel Benchmark for Safe Dexterous Manipulation *

Yiran Geng, Jiaming Ji, Yuanpei Chen, Long Yang, Yaodong Yang#

arXiv 2023

Safe RL Dexterous Manipulation Benchmark Sim-to-Real Reinforcement Learning

检索

EMB

Dynamic Handover: Throw and Catch with Bimanual Hands

Huang, Binghao, Yuanpei Chen, Tianyu Wang, Yuzhe Qin, Yaodong Yang, Nikolay Atanasov, and Xiaolong Wang

CoRL 2023

Bimanual Dexterous Manipulation Robotics Sim-to-Real

检索

EMB

End-to-End Affordance Learning for Robotic Manipulation *

Geng, Yiran, Boshi An, Haoran Geng, Yuanpei Chen, Yaodong Yang, and Hao Dong

ICRA 2023

Affordance Robotics

检索

EMB

GenDexGrasp: Generalizable Dexterous Grasping

Li, Puhao, Tengyu Liu, Yuyang Li, Yiran Geng, Yixin Zhu, Yaodong Yang, and Siyuan Huang

ICRA 2023

GenDexGrasp Dexterous Manipulation Grasping

检索

MRL

MARLlib: A Multi-agent Reinforcement Learning Library *

Siyi Hu, Yifan Zhong, Minquan Gao, Weixun Wang, Hao Dong, Xiaodan Liang, Zhihui Li, Xiaojun Chang, Yaodong Yang#

Journal of Machine Learning Research (JMLR)

MARLlib Multi-Agent RL Reinforcement Learning

检索

MRL

On the complexity of computing markov perfect equilibrium in general-sum stochastic games *

Xiaotie Deng, Ningyuan Li, David Mguni, Jun Wang, Yaodong Yang#

National Science Review

Nash Equilibrium Stochastic Games Theory Multi-Agent RL

arXiv PDF S2

ALN

Safe multi-agent reinforcement learning for multi-robot control *

Shangding Gu, Jakub Grudzien Kuba, Yuanpei Chen, Yali Du, Long Yang, Alois C. Knoll, Yaodong Yang#

Artificial Intelligence Journal (AIJ)

Multi-Agent RL Robotics Reinforcement Learning Safe RL

PDF S2

MRL

TorchOpt: An Efficient Library for Differentiable Optimization *

Jie Ren, Xidong Feng, Bo Liu, Xuehai Pan, Yao Fu, Luo Mai, Yaodong Yang#

Journal of Machine Learning Research (JMLR)

Differentiable Optimization

arXiv PDF S2

EMB

UniDexGrasp++: Improving Dexterous Grasping Policy Learning via Geometry-aware Curriculum and Iterative Generalist-Specialist Learning

Wan, Weikang, Haoran Geng, Yun Liu, Zikang Shan, Yaodong Yang, Li Yi, and He Wang

ICCV 2023 ★ Best Paper Finalist

UniDexGrasp Dexterous Manipulation Grasping

检索

MRL

A Game-Theoretic Approach to Multi-Agent Trust Region Optimization

Wen, Ying, Hui Chen, Yaodong Yang, Minne Li, Zheng Tian, Xu Chen, and Jun Wang

DAI 2023

Trust Region Game Theory Multi-Agent RL Policy Gradient

检索

MRL

A Game-Theoretic Framework for Managing Risk in Multi-Agent Systems

Slumbers, Oliver, David Henry Mguni, Stefano B. Blumberg, Stephen Marcus Mcaleer, Yaodong Yang, and Jun Wang

ICML 2023

Game Theory Multi-Agent RL

检索

MRL

Attacking Cooperative Multi-Agent Reinforcement Learning by Adversarial Minority Influence

Simin Li, Jun Guo, Jingqiao Xiu, Yuwei Zheng, Pu Feng, Xin Yu, Jiakai Wang, Aishan Liu, Yaodong Yang#, Bo An, Wenjun Wu, Xianglong Liu

Neural Networks

Cooperative MARL Adversarial Attack Adversarial Robustness Multi-Agent RL Cooperation

检索

MRL

Cooperative Multi-agent Q-learning with Bidirectional Action-Dependency *

Li, Chuming, Jie Liu, Yinmin Zhang, Yuhong Wei, Yazhe Niu, Yaodong Yang, Yu Liu, and Wanli Ouyang

AAAI 2023

Cooperative MARL Multi-Agent RL Q-Learning Cooperation

arXiv PDF S2

MRL

Distributed Reinforcement Learning with Dataflow Fragments

Zhu, Huanzhou, Bo Zhao, Gang Chen, Weifeng Chen, Yijie Chen, Liang Shi, Yaodong Yang, Peter Pietzuch, and Lei Chen

USENIX 2023

Distributed Systems Reinforcement Learning

检索

MRL

GEAR: A GPU-Centric Experience Replay System for Large Reinforcement Learning Models

Wang, Hanjing, Man-Kit Sit, Congjie He, Ying Wen, Weinan Zhang, Jun Wang, Yaodong Yang, and Luo Mai

ICML 2023

Reinforcement Learning Distributed Systems Sequence Modeling

arXiv PDF S2

MRL

Hierarchical Multi-Agent Skill Discovery *

Yang, Mingyu, Yaodong Yang, Zhenbo Lu, Wengang Zhou, and Houqiang Li

NeurIPS 2023

Multi-Agent RL Skill Learning Hierarchical RL

检索

MRL

Is Nash Equilibrium Approximator Learnable ?

Duan, Zhijian, Wenhan Huang, Dinghuai Zhang, Yali Du, Jun Wang, Yaodong Yang, and Xiaotie Deng

AAMAS 2023

Nash Equilibrium

检索

MRL

JiangJun: Mastering Xiangqi by Tackling Non-Transitivity in Two-Player Zero-Sum Games *

Li, Yang, Kun Xiong, Yingping Zhang, Jiangcheng Zhu, Stephen Mcaleer, Wei Pan, Jun Wang, Zonghong Dai, and Yaodong Yang

Transactions on Machine Learning Research (TMLR)

Non-Transitivity Game AI Zero-Sum Games Self-Play Population-Based

检索

MRL

Joint-predictive representations for multi-agent reinforcement learning

Mingxiao Feng, Wengang Zhou, Yaodong Yang, Houqiang Li

arXiv 2023

Multi-Agent RL Representation Learning Cooperative MARL Sample Efficiency

检索

MRL

Large sequence models for sequential decision-making: a survey

Wen, Muning, Runji Lin, Hanjing Wang, Yaodong Yang, Ying Wen, Luo Mai, Jun Wang, Haifeng Zhang, and Weinan Zhang

Frontiers of Computer Science (FCS)

Survey Sequence Modeling Decision Transformer Reinforcement Learning Foundation Models

检索

MRL

Learning to Compute Approximate Nash Equilibrium for Normal-form Games

Zhijian Duan, Wenhan Huang, Dinghuai Zhang, Yali Du, Jun Wang, Yaodong Yang, Xiaotie Deng

AAMAS 2023

Nash Equilibrium Game Theory Meta-RL Normal-form

arXiv PDF

MRL

Learning to Shape Rewards using a Game of Two Partners *

Mguni, David, Taher Jafferjee, Jianhong Wang, Nicolas Perez-Nieves, Wenbin Song, Feifei Tong, Matthew Taylor, Yaodong Yang, et al

AAAI 2023

Reward Shaping Game Theory

检索

MRL

MALib: A Parallel Framework for Population-based Multi-agent Reinforcement Learning

Zhou, Ming, Ziyu Wan, Hanjing Wang, Muning Wen, Runzhe Wu, Ying Wen, Yaodong Yang, Yong Yu, Jun Wang, and Weinan Zhang

Journal of Machine Learning Research (JMLR)

MALib Population-Based Multi-Agent RL Reinforcement Learning PSRO

检索

MRL

MANSA: Learning Fast and Slow in Multi-Agent Systems *

Mguni, David Henry, Haojun Chen, Taher Jafferjee, Jianhong Wang, Longfei Yue, Xidong Feng, Stephen Marcus Mcaleer, Feifei Tong, Jun Wang, and Yaodong Yang.

ICML 2023

Multi-Agent RL

检索

MRL

Multi-Agent First Order Constrained Optimization in Policy Space *

Zhao, Youpeng, Yaodong Yang, Zhenbo Lu, Wengang Zhou, and Houqiang Li

NeurIPS 2023

Multi-Agent RL Safe RL Policy Gradient

MRL

Offline Pre-trained Multi-Agent Decision Transformer

Meng, Linghui and Wen, Muning and Le, Chenyang and Li, Xiyun and Xing, Dengpeng and Zhang, Weinan and Wen, Ying and Zhang, Haifeng and Wang, Jun and Yang, Yaodong and others

Machine Intelligence Research (MIR)

Multi-Agent RL Offline RL Decision Transformer Pre-training

PDF S2

MRL

Online Markov Decision Processes with Non-oblivious Strategic Adversary *

Le Dinh, Cong, David Henry Mguni, Long Tran-Thanh, Jun Wang, and Yaodong Yang

Journal of Autonomous Agents and Multi-Agent Systems (JAAMAS)

Adversarial Robustness MDP

检索

MRL

Policy Space Diversity for Non-Transitive Games

Yao, Jian, Weiming Liu, Haobo Fu, Yaodong Yang, Stephen McAleer, Qiang Fu, and Wei Yang

NeurIPS 2023

Non-Transitivity

检索

MRL

QUALITY-SIMILAR DIVERSITY VIA POPULATION BASED REINFORCEMENT LEARNING

Wu, Shuang, Jian Yao, Haobo Fu, Ye Tian, Chao Qian, Yaodong Yang, Qiang Fu, and Yang Wei

ICLR 2023

Reinforcement Learning Diversity Population-Based

检索

MRL

Regret-Minimizing Double Oracle for Extensive-Form Games *

Tang, Xiaohang, Stephen Marcus McAleer, and Yaodong Yang

ICML 2023

Extensive-Form Games PSRO

检索

MRL

Remember the Past for Better Future: Memory-Augmented Offline RL *

Zhang, Yue, Yaodong Yang, Zhenbo Lu, Wengang Zhou, and Houqiang Li

IJCNN 2023

Offline RL

MRL

Robust Multi-Agent Reinforcement Learning by Mutual Information Regularization

Simin Li,Ruixiao Xu,Jingqiao Xiu,Yuwei Zheng,Pu Feng,Yuqing Ma,Bo An,Yaodong Yang,Xianglong Liu

IEEE Transactions on Neural Networks and Learning Systems (TNNLS)

Multi-Agent RL Reinforcement Learning Adversarial Robustness

检索

MRL

Subspace-Aware Exploration for Sparse-Reward Multi-Agent Tasks

Xu, Pei, Junge Zhang, Qiyue Yin, Chao Yu, Yaodong Yang, and Kaiqi Huang

AAAI 2023

Multi-Agent RL Exploration

检索

MRL

Team-PSRO for Learning Approximate TMECor in Large Team Games via Cooperative Reinforcement Learning

McAleer, Stephen, Gabriele Farina, Gaoyue Zhou, Mingzhi Wang, Yaodong Yang, and Tuomas Sandholm

NeurIPS 2023

PSRO Team Games Cooperation Reinforcement Learning

检索

MRL

Theoretically Guaranteed Policy Improvement Distilled from Model-Based Planning

Li, Chuming, Ruonan Jia, Jie Liu, Yinmin Zhang, Yazhe Niu, Yaodong Yang, Yu Liu, and Wanli Ouyang.

ECAI 2023

Theory

PDF S2

PRE

A Human-Centered Safe Robot Reinforcement Learning Framework with Interactive Behaviors *

Shangding Gu, Alap Kshirsagar, Yali Du, Guang Chen, Jan Peters, Alois Knoll, Yaodong Yang#

arXiv 2023

Safe RL Robotics Reinforcement Learning Value Alignment Embodied AI

检索

PRE

Baichuan 2: Open Large-scale Language Models

Aiyuan Yang, Bin Xiao, Bingning Wang, Borong Zhang, Ce Bian, Chao Yin, Chenxu Lv, Da Pan, Dian Wang, Dong Yan, Fan Yang, Fei Deng, Feng Wang, Feng Liu, Guangwei Ai, Guosheng Dong, Haizhou Zhao, Hang Xu, Haoze Sun, Hongda Zhang, Hui Liu, Jiaming Ji, Jian Xie, JunTao Dai, Kun Fang, Lei Su, Liang Song, Lifeng Liu, Liyun Ru, Luyao Ma, Mang Wang, Mickel Liu, MingAn Lin, Nuolan Nie, Peidong Guo, Ruiyang Sun, Tao Zhang, Tianpeng Li, Tianyu Li, Wei Cheng, Weipeng Chen, Xiangrong Zeng, Xiaochuan Wang, Xiaoxi Chen, Xin Men, Xin Yu, Xuehai Pan, Yanjun Shen, Yiding Wang, Yiyu Li, Youxin Jiang, Yuchen Gao, Yupeng Zhang, Zenan Zhou, Zhiying Wu, Yaodong Yang

arXiv 2023

LLM Pre-training Multilingual Foundation Models

arXiv PDF

PRE

Convergence Rate of Primal-Dual Approach to Constrained Reinforcement Learning

Long Yang, Li Shen, Pengfei Li, Yaodong Yang, Zhouchen Lin, Gang Pan

arXiv 2023

Safe RL Theory Reinforcement Learning Policy Gradient

检索

PRE

Mixup-Augmented Meta-Learning for Sample-Efficient Fine-Tuning of Protein Simulators

Jingbang Chen, Yian Wang, Xingwei Qu, Shuangjia Zheng, Yaodong Yang, Hao Dong, Jie Fu

arXiv 2023

Protein Meta-Learning

arXiv PDF

PRE

ValueDCG: Measuring Comprehensive Human Value Understanding Ability of Language Models *

Zhaowei Zhang, Fengshuo Bai, Jun Gao, Yaodong Yang#

arXiv 2023

LLM Value Alignment Benchmark

arXiv PDF

2022 26 篇

AI4

Illiquidity comovement and market crisis *

Qingduo Zeng, Qiang Zhang, Shancun Liu, Yaodong Yang#

Journal of Systems Science and Complexity

Theory Quantitative Finance Game Theory

检索

AI4

Information Production, Information Acquisition and Price Informativeness *

Jingrui Pan, Shancun Liu, Qiang Zhang, Yaodong Yang#

SSRN 2022

Theory Quantitative Finance Mechanism Design

检索

AI4

Solving inventory management problems through deep reinforcement learning *

Wang, Qinghao, Yijie Peng, and Yaodong Yang

Journal of Systems Science and Complexity (JSSSC)

Reinforcement Learning

ALN

Constrained Update Projection Approach to Safe Policy Optimization

Yang, Long, Jiaming Ji, Juntao Dai, Linrui Zhang, Binbin Zhou, Pengfei Li, Yaodong Yang, and Gang Pan

NeurIPS 2022

Safe RL Policy Gradient Reinforcement Learning

arXiv PDF S2

ALN

Debias the Black-Box: A Fair Ranking Framework via Knowledge Distillation

Zhu, Zhitao, Shijing Si, Jianzong Wang, Yaodong Yang, and Jing Xiao

WISE 2022

Fairness

检索

ALN

Meta-Reward-Net: Implicitly Differentiable Reward Learning for Preference-based Reinforcement Learning *

Liu, Runze, Fengshuo Bai, Yali Du, and Yaodong Yang

NeurIPS 2022

Meta-RL Preference Learning Reinforcement Learning

检索

EMB

MyoChallenge 2022: Learning contact-rich manipulation using a musculoskeletal hand

Caggiano, Vittorio, Guillaume Durandau, Huwawei Wang, Alberto Chiappa, Alexander Mathis, Pablo Tano, Nisheet Patel, Yaodong Yang, et al

NeurIPS 2022 Dataset

Robotics Dexterous Manipulation Benchmark

检索

EMB

Towards Human-Level Bimanual Dexterous Manipulation with Reinforcement Learning *

Chen, Yuanpei, Tianhao Wu, Shengjie Wang, Xidong Feng, Jiechuan Jiang, Zongqing Lu, Stephen McAleer, Hao Dong, Song-Chun Zhu, and Yaodong Yang

NeurIPS 2022 Dataset

Bimanual Dexterous Manipulation Dataset Robotics Reinforcement Learning Benchmark

arXiv PDF S2

MRL

A Game-Theoretic Approach for Improving Generalization Ability of TSP Solvers

Chenguang Wang, Yaodong Yang, Oliver Slumbers, Congying Han, Tiande Guo, Haifeng Zhang, Jun Wang

ICLR 2022 Workshop

Game Theory PSRO Zero-Sum Games

arXiv PDF

MRL

A Review of Safe Reinforcement Learning: Methods, Theory and Applications

Shangding Gu, Long Yang, Yali Du, Guang Chen, Florian Walter, Jun Wang, Yaodong Yang, Alois Knoll

arXiv 2022

Safe RL Survey Reinforcement Learning

arXiv PDF

MRL

A Theoretical Understanding of Gradient Bias in Meta-Reinforcement Learning *

Liu, Bo, Xidong Feng, Jie Ren, Luo Mai, Rui Zhu, Haifeng Zhang, Jun Wang, and Yaodong Yang

NeurIPS 2022

Meta-RL Theory Reinforcement Learning Policy Gradient

检索

MRL

A Unified Diversity Measure for Multiagent Reinforcement Learning

Liu, Zongkai, Chao Yu, Yaodong Yang, Zifan Wu, and Yuan Li

NeurIPS 2022

Multi-Agent RL Reinforcement Learning Diversity

检索

MRL

LIGS: Learnable Intrinsic-Reward Generation Selection for Multi- Agent Learning

David Mguni1, Taher Jafferjee, Jianhong Wang, Oliver Slumbers, Nicolas Perez-Nieves, Feifei Tong, Li Yang, Jiangcheng Zhu, Yaodong Yang , Jun Wang

ICLR 2022

Multi-Agent RL Reward Shaping

检索

MRL

MATE: Benchmarking Multi-Agent Reinforcement Learning in Distributed Target Coverage Control *

Pan, Xuehai, Mickel Liu, Fangwei Zhong, Yaodong Yang, Song-Chun Zhu, and Yizhou Wang

NeurIPS 2022 Dataset

Multi-Agent RL Benchmark Dataset Reinforcement Learning

检索

MRL

Measuring the Non-Transitivity in Chess *

Sanjaya, Ricky, Jun Wang, and Yaodong Yang

Algorithms (MDPI)

Non-Transitivity Game Theory

检索

MRL

Multi-Agent Reinforcement Learning is a Sequence Modeling Problem *

Muning Wen, Jakub Grudzien Kuba, Runji Lin, Weinan Zhang, Ying Wen, Jun Wang, Yaodong Yang#

NeurIPS 2022

Multi-Agent RL Reinforcement Learning Decision Transformer

检索

MRL

Online double oracle *

Le Cong Dinh, Yaodong Yang, Stephen McAleer, Zheng Tian, Nicolas Perez Nieves, Oliver Slumbers, David Henry Mguni, Haitham Bou Ammar, Jun Wang

Transactions on Machine Learning Research (TMLR)

Double Oracle

检索

MRL

Scalable Model-based Policy Optimization for Decentralized Networked Systems *

Du, Yali, Chengdong Ma, Yuchen Liu, Runji Lin, Hao Dong, Jun Wang, and Yaodong Yang

IROS 2022

Multi-Agent RL

检索

MRL

Trust Region Policy Optimisation in Multi-Agent Reinforcement Learning *

Jakub Grudzien Kuba, Ruiqing Chen, Muning Wen, Ying Wen, Fanglei Sun, Jun Wang, Yaodong Yang#

ICLR 2022

Multi-Agent RL Reinforcement Learning HARL Policy Gradient

检索

MRL

Understanding Value Decomposition Algorithms in Deep Cooperative Multi-Agent Reinforcement Learning *

Zehao Dou, Jakub Grudzien Kuba, Yaodong Yang#

arXiv 2022

Cooperative MARL Multi-Agent RL Theory Credit Assignment

arXiv PDF

PRE

Contextual Transformer for Offline Meta Reinforcement Learning *

Runji Lin, Ye Li, Xidong Feng, Zhaowei Zhang, Xian Hong Wu Fung, Haifeng Zhang, Jun Wang, Yali Du, Yaodong Yang#

NeurIPS 2022 Workshop

Offline RL Meta-RL Decision Transformer Reinforcement Learning Pre-training Representation Learning

检索

PRE

Contextual Transformer for Offline Reinforcement Learning *

Runji Lin, Ye Li, Xidong Feng, Zhaowei Zhang, Xian Hong Wu Fung, Haifeng Zhang, Jun Wang, Yali Du, Yaodong Yang#

arXiv 2022

Offline RL Decision Transformer Meta-RL Pre-training Reinforcement Learning

检索

PRE

Efficient Policy Space Response Oracles

Ming Zhou, Jingxiao Chen, Ying Wen, Weinan Zhang, Yaodong Yang, Yong Yu, Jun Wang

arXiv 2022

PSRO Nash Equilibrium Zero-Sum Games

arXiv PDF

PRE

Heterogeneous-Agent Mirror Learning: A Continuum of Solutions to Cooperative MARL *

Jakub Grudzien Kuba, Xidong Feng, Shiyao Ding, Hao Dong, Jun Wang, Yaodong Yang#

arXiv 2022

HARL Multi-Agent RL Cooperation Cooperative MARL Nash Equilibrium

arXiv PDF

PRE

Learning to safely exploit a non-stationary opponent

Zheng Tian, Hang Ren, Yaodong Yang, Yuchen Sun, Ziqi Han, Ian Davies, Jun Wang

arXiv 2022

Opponent Modeling Safe RL Multi-Agent RL Zero-Sum Games Nash Equilibrium Self-Play

检索

PRE

Settling the Communication Complexity for Distributed Offline Reinforcement Learning *

Juliusz Krysztof Ziomek, Jun Wang, Yaodong Yang#

arXiv 2022

Offline RL Theory Federated Learning Sample Efficiency Reinforcement Learning

检索

2021 13 篇

MRL

Diverse Auto-Curriculum is Critical for Successful Real-World Multiagent Learning Systems *

Yaodong Yang, Jun Luo, Ying Wen, Oliver Slumbers, Daniel Graves, Haitham Bou Ammar, Jun Wang, Matthew E. Taylor

AAMAS 2021 ★ Best Blue-Sky Paper

Auto-Curriculum Multi-Agent RL Diversity

arXiv PDF

MRL

DESTA: A Framework for Safe Reinforcement Learning with Markov Games of Intervention *

David Mguni, Usman Islam, Yaqi Sun, Xiuling Zhang, Joel Jennings, Aivar Sootla, Changmin Yu, Ziyan Wang, Jun Wang, Yaodong Yang#

arXiv 2021

Safe RL Stochastic Games Multi-Agent RL Game Theory

arXiv PDF

MRL

Foresee then Evaluate: Decomposing Value Estimation with Latent Future Prediction

Hongyao Tang, Zhaopeng Meng, Guangyong Chen, Pengfei Chen, Chen Chen, Yaodong Yang, Luo Zhang, Wulong Liu, Jianye Hao

AAAI 2021

Reinforcement Learning Representation Learning Actor-Critic

arXiv PDF

MRL

Learning in Nonzero-Sum Stochastic Games with Potentials

David Mguni, Yutong Wu, Yali Du, Yaodong Yang, Ziyi Wang, Minne Li, Ying Wen, Joel Jennings, Jun Wang

ICML 2021

Stochastic Games Multi-Agent RL Game Theory Nash Equilibrium Policy Gradient

arXiv PDF

MRL

Many-agent Reinforcement Learning

等 · 杨耀东*

PhD Thesis, UCL

Multi-Agent RL Game Theory Mean Field RL Survey Cooperative MARL

PDF

MRL

Modelling Behavioural Diversity for Learning in Open-Ended Games

Nicolas Perez-Nieves, Yaodong Yang, Oliver Slumbers, David Henry Mguni, Ying Wen, Jun Wang

ICML 2021

Game Theory Diversity Population-Based Open-Ended Learning Nash Equilibrium

arXiv PDF

MRL

Neural Auto-Curricula *

Xidong Feng, Oliver Slumbers, Ziyu Wan, Bo Liu, Stephen McAleer, Ying Wen, Jun Wang, Yaodong Yang#

NeurIPS 2021

Auto-Curriculum

检索

MRL

On the Convergence of Fictitious Play: A Decomposition Approach

Mguni, D., Y. Chen, X. Deng, C. Li, Jun Wang, Xiang Yan, and Yaodong Yang

IJCAI 2021

Fictitious Play

检索

MRL

Robust multi-agent reinforcement learning driven by correlated equilibrium

Yizheng Hu, Kun Shao, Dong Li, Jianye Hao, Wulong Liu, Yaodong Yang, Jun Wang, Zhanxing Zhu

arXiv 2021

Multi-Agent RL Adversarial Robustness Cooperative MARL Nash Equilibrium Game Theory

检索

MRL

Settling the Variance of Multi-Agent Policy Gradients *

Jakub Grudzien Kuba, Muning Wen, Linghui Meng, Shangding Gu, Haifeng Zhang, David Henry Mguni, Jun Wang, Yaodong Yang#

NeurIPS 2021

Multi-Agent RL Policy Gradient Theory

检索

MRL

Unifying Behavioral and Response Diversity for Open-ended Learning in Zero-sum Games

Xiangyu Liu, Hangtian Jia, Ying Wen, Yujing Hu,Yingfeng Chen, Changjie Fan, Zhipeng Hu, Yaodong Yang

NeurIPS 2021

Zero-Sum Games

检索

PRE

Cooperative Multi-Agent Transfer Learning with Level-Adaptive Credit Assignment

Tianze Zhou, Fubiao Zhang, Kun Shao, Kai Li, Wenhan Huang, Jun Luo, Weixun Wang, Yaodong Yang, Hangyu Mao, Bin Wang, Dong Li, Wulong Liu, Jianye Hao

arXiv 2021

Cooperative MARL Multi-Agent RL Cooperation Credit Assignment

arXiv PDF

PRE

Revisiting the Characteristics of Stochastic Gradient Noise and Dynamics *

Yixin Wu, Rui Luo, Chen Zhang, Jun Wang, Yaodong Yang#

arXiv 2021

Theory Reinforcement Learning

arXiv PDF

2020 10 篇

AGT

Sequential Advertising Agent with Interpretable User Hidden Intents

Zhaoqing Peng, Junqi Jin, Lan Luo, Yaodong Yang, Rui Luo, Jun Wang, Weinan Zhang, Miao Xu, Chuan Yu, Tiejian Luo, Han Li, Jian Xu, Kun Gai

AAMAS 2020

Reinforcement Learning Interpretability Representation Learning

检索

AI4

Can Deep Learning Predict Risky Retail Investors? A Case Study in Financial Risk Behavior Forecasting

A. Kim, Y. Yang, S. Lessmann, T. Ma, M.-C. Sung, J. E. V. Johnson

European Journal of Operational Research (EJOR)

Finance

arXiv PDF

AI4

Learning to Infer User Hidden States for Online Sequential Advertising

Zhaoqing Peng, Junqi Jin, Lan Luo, Yaodong Yang, Rui Luo, Jun Wang, Weinan Zhang, Haiyang Xu, Miao Xu, Chuan Yu, Tiejian Luo, Han Li, Jian Xu, Kun Gai

CIKM 2020

Reinforcement Learning Representation Learning

arXiv PDF

AI4

Order Execution Probability and Order Queue in Limit Order Markets *

Qiang Zhang, Chao Wang, Shancun Liu, Yaodong Yang#

JSSC 2020

Theory Quantitative Finance

检索

AI4

Replica-exchange Nose-Hoover dynamics for Bayesian learning on large datasets

Rui Luo, Qiang Zhang, Yaodong Yang, Jun Wang

NeurIPS 2020

Theory Sample Efficiency Exploration

检索

EMB

SMARTS: An Open-Source Scalable Multi-Agent RL Training School for Autonomous Driving

Ming Zhou*, Jun Luo*, Julian Villella*, Yaodong Yang*, David Rusu, Jiayu Miao, Weinan Zhang, Montgomery Alban, Iman Fadakar, Zheng Chen, Aurora Chongxi Huang, Ying Wen, Kimia Hassanzadeh, Daniel Graves, Dong Chen, Zhengbang Zhu, Nhat Nguyen, Mohamed Elsayed, Kun Shao, Sanjeevan Ahilan, Baokuan Zhang, Jiannan Wu, Zhengang Fu, Kasra Rezaee, Peyman Yadmellat, Mohsen Rohani, Nicolas Perez Nieves, Yihan Ni, Seyedershad Banijamali, Alexander Cowen Rivers, Zheng Tian, Daniel Palenicek, Haitham bou Ammar, Hongbo Zhang, Wulong Liu, Jianye Hao, Jun Wang (* equal contribution)

CoRL 2020 ★ Best System Paper

SMARTS Autonomous Driving Multi-Agent RL

arXiv PDF

MRL

Bi-level Actor-Critic for Multi-agent Coordination

Haifeng Zhang, Weizhe Chen, Zeren Huang, Minne Li, Yaodong Yang, Weinan Zhang, Jun Wang

AAAI 2020

Multi-Agent RL Actor-Critic Game Theory

arXiv PDF

MRL

Modelling Bounded Rationality in Multi-Agent Interactions by Generalized Recursive Reasoning

Ying Wen, Yaodong Yang, Rui Luo, Jun Wang

IJCAI 2020

Multi-Agent RL Opponent Modeling Game Theory

arXiv PDF

MRL

αα-Rank: Practically Scaling α-Rank through Stochastic Optimisation

Yaodong Yang, Rasul Tutunov, Phu Sakulwongtana, Haitham Bou Ammar

AAMAS 2020

Alpha-Rank Game Theory Nash Equilibrium

arXiv PDF

PRE

An Overview of Multi-Agent Reinforcement Learning from Game Theoretical Perspective

等 · 杨耀东*

arXiv 2020

Multi-Agent RL Theory Reinforcement Learning Survey Game Theory

arXiv PDF

2019 4 篇

AI4

Adversarial Variational Bayes Methods for Tweedie Compound Poisson Mixed Models

Yaodong Yang, Rui Luo, Yuanyuan Liu

ICASSP 2019

Theory Quantitative Finance

检索

MRL

Efficient Ridesharing Order Dispatching with Mean Field Multi-Agent Reinforcement Learning

Minne Li, Zhiwei (Tony) Qin, Yan Jiao, Yaodong Yang, Zhichen Gong, Jun Wang, Chenxi Wang, Guobin Wu, Jieping Ye

WWW 2019

Mean Field RL Multi-Agent RL Reinforcement Learning

arXiv PDF

MRL

Factorized Q-learning for large-scale multi-agent systems

Ming Zhou, Yong Chen, Ying Wen, Yaodong Yang, Yufeng Su, Weinan Zhang, Dell Zhang, Jun Wang

DAI 2019

Multi-Agent RL Q-Learning

arXiv PDF

MRL

Probabilistic Recursive Reasoning for Multi-Agent Reinforcement Learning

Yaodong Yang, Ying Wen, Jun Wang, Liheng Chen, Kun Shao, Xinbing Mi, Wei Pan

ICLR 2019

Multi-Agent RL Reinforcement Learning Opponent Modeling Actor-Critic

arXiv PDF

2018 5 篇

AI4

Benchmarking Deep Sequential Models on Volatility Predictions for Financial Time Series

Qiang Zhang, Rui Luo, Yaodong Yang, Yuanyuan Liu

NeurIPS 2018 Workshop

Benchmark Theory

arXiv PDF

AI4

Information Acquisition: Fundamental and Non-Fundamental *

Qingduo Zeng, Shancun Liu, Qiang Zhang, Yaodong Yang#

China Journal of Econometrics

Game Theory Theory Quantitative Finance

检索

AI4

Thermostat-assisted continuously-tempered Hamiltonian Monte Carlo for Bayesian learning

Rui Luo, Jianhong Wang, Yaodong Yang, Jun Wang, Zhanxing Zhu

NeurIPS 2018

Bayesian Methods

arXiv PDF

MRL

Mean Field Multi-Agent Reinforcement Learning

Yaodong Yang, Rui Luo, Minne Li, Ming Zhou, Weinan Zhang, Jun Wang

ICML 2018 Long Oral

Mean Field RL Multi-Agent RL Reinforcement Learning Nash Equilibrium Q-Learning Actor-Critic

arXiv PDF

MRL

A Study of AI Population Dynamics with Million-agent Reinforcement Learning

Yaodong Yang, Lantao Yu, Yiwei Bai, Jun Wang, Weinan Zhang, Ying Wen, Yong Yu

AAMAS 2018

Reinforcement Learning Multi-Agent RL Social Simulation Biology

arXiv PDF

2017 2 篇

MRL

Multiagent Bidirectionally-Coordinated Nets: Emergence of Human-level Coordination in Learning to Play StarCraft Combat Games

Peng Peng, Quan Yuan, Ying Wen, Yaodong Yang, Zhenkun Tang, Haitao Long, Jun Wang

NeurIPS 2017 Workshop

Multi-Agent RL Cooperative MARL Cooperation Actor-Critic

arXiv PDF

PRE

Inferring tweedie compound poisson mixed models with adversarial variational methods

Yaodong Yang, Rui Luo, Reza Khorshidi, Yuanyuan Liu

NeurIPS 2017 Workshop

Theory Quantitative Finance

检索

2013 1 篇

AI4

miRNA target prediction based on gene ontology

Ning Wang, Y. Wang, Yaodong Yang, Yi Shen, Ao Li

IEEE Symp. Computational Intelligence in Bioinformatics & Computational Biology

Biology Theory

检索