Youhe Jiang

Distributed Systems · LLM Serving · Large-Scale Training

PhD student in Computer Science at the University of Cambridge, advised by Dr. Eiko Yoneki. I build systems that make modern AI workloads more efficient at scale — spanning LLM serving, heterogeneous and decentralized systems, distributed training, and communication-aware optimisation.

Email GitHub LinkedIn Scholar

News

May 2026
Three papers, HexGen-3, OServe, and AMPD, have been accepted to ICML 2026.
Mar 2026
OpenTela has been accepted to OSDI 2026.
Feb 2026
Hexgen-Flow has been accepted to ICDE 2026.
Jan 2026
BOute and HexiScale have been accepted to MLSys 2026.
Jan 2026
Cascadia and FSA have been accepted to ICLR 2026.

Publications

Conference Papers

ICML 2026

HexGen-3: A Fully Disaggregated LLM Serving Framework with Fine-Grained Heterogeneous Resource Autoscaling

Y. Jiang, W. Li, Y. Peng, J. Zhang, R. Yan, J. Chen, X. Han, F. Fu, B. Yuan
ICML 2026

OServe: Accelerating LLM Serving via Spatial-Temporal Workload Orchestration

Y. Jiang, F. Fu, T. Wang, G. He, E. Yoneki

Paper
ICML 2026

AMPD: Efficient Multi-round LLM Inference over Disaggregated Serving

W. He, Y. Jiang, P. Zhao, Q. Xu, E. Yoneki, B. Cui, F. Fu

Paper
OSDI 2026

OpenTela: Unifying Decentralized HPC Clusters for Heterogeneous LLM Serving

X. Yao, Y. Jiang, I. Badanin, Q. Hu, B. Yuan, I. Schlag, E. Yoneki, A. Klimovic
MLSys 2026

BOute: Cost-Efficient LLM Serving with Heterogeneous LLMs and GPUs via Multi-Objective Bayesian Optimization

Y. Jiang, F. Fu, E. Yoneki

Paper
ICLR 2026

Cascadia: A Cascade Serving System for Large Language Models

Y. Jiang, F. Fu, W. Zhao, S. Rabanser, J. Zhang, N.D. Lane, B. Yuan

Paper
ICDE 2026

Hexgen-Flow: Optimizing LLM Inference Request Scheduling for Agentic Text-to-SQL

Y. Peng*, Y. Jiang*, W. Jiang, C. Wang, B. Yuan

Paper
ICLR 2026

FSA: An Alternative Efficient Implementation of Native Sparse Attention Kernel

R. Yan*, Y. Jiang*, Z. Chen, H. Mai, B. Chen, B. Yuan

Paper
MLSys 2026

HexiScale: Accommodating Large Language Model Training over Heterogeneous Environment

R. Yan*, Y. Jiang*, X. Nie, F. Fu, B. Cui, B. Yuan

Paper
NeurIPS 2025

Efficient Pre-Training of LLMs via Topology-Aware Communication Alignment on 9600+ GPUs

G. He*, Y. Jiang*, W. Xiao, K. Jiang, S. Wang, J. Wang, Z. Du, Z. Jiang, X. Zhang, B. Yuan, E. Yoneki

Paper
ICML 2025

Demystifying Cost-Efficiency in LLM Serving over Heterogeneous GPUs

Y. Jiang, F. Fu, X. Yao, G. He, X. Miao, A. Klimovic, B. Cui, B. Yuan, E. Yoneki

Paper
MLSys 2025

ThunderServe: High-performance and Cost-efficient LLM Serving in Cloud Environments

Y. Jiang, F. Fu, X. Yao, T. Wang, A. Klimovic, E. Yoneki

Paper
ICLR 2025

HexGen-2: Disaggregated Generative Inference of LLMs in Heterogeneous Environment

Y. Jiang, R. Yan, B. Yuan

Paper
ICML 2024

HexGen: Generative Inference of Foundation Model over Heterogeneous Decentralized Environment

Y. Jiang, R. Yan, X. Yao, Y. Zhou, B. Chen, B. Yuan

Paper
TKDE 2024

Improving Automatic Parallel Training via Balanced Memory Workload Optimization

Y. Wang, Y. Jiang, X. Miao, F. Fu, S. Zhu, X. Nie, Y. Tu, B. Cui

Paper
VLDB 2023

Galvatron: Efficient Transformer Training over Multiple GPUs Using Automatic Parallelism

X. Miao*, Y. Wang*, Y. Jiang*, C. Shi, X. Nie, H. Zhang, B. Cui

Paper
IJCAI 2023

OSDP: Optimal Sharded Data Parallel for Distributed Deep Learning

Y. Jiang, F. Fu, X. Miao, X. Nie, B. Cui

Paper
IEEE Access 2020

2D-HRA: Two-Dimensional Hierarchical Ring-Based All-Reduce Algorithm in Large-Scale Distributed ML

Y. Jiang, H. Gu, Y. Lu, X. Yu

Paper

Preprints

arXiv 2026

Autopoiesis: A Self-Evolving System Paradigm for LLM Serving Under Runtime Dynamics

Y. Jiang, R. Yan, Y. Peng, W. Li, T. Wang, F. Fu, B. Yuan

Introduces a self-evolving LLM serving paradigm that adapts continuously to runtime dynamics, changing workloads, and shifting system conditions.

Paper
arXiv 2026

LMDeploy Accelerates Mixed-Precision LLM Inference with TurboMind

L. Zhang*, Y. Jiang*, G. He, X. Chen, H. Lv, Q. Yao, N. Ma, F. Fu, K. Chen

Presents TurboMind, the core inference engine of LMDeploy, a roughly 8k-star ⭐️ GitHub project for efficient LLM deployment and serving.

Paper
arXiv 2026

HexAGenT: Efficient Agentic LLM Serving via Workflow- and Heterogeneity-Aware Scheduling

Y. Peng*, Y. Jiang*, W. Li, X. Xu, K. Zhou, J. Jiang, C. Wang, B. Yuan

Paper
arXiv 2026

HexiSeq: Accommodating Long Context Training of LLMs over Heterogeneous Hardware

Y. Liang*, Y. Jiang*, R. Yan, B. Yuan, W. Wang, C. Wu

Paper
arXiv 2026

SLA2: Sparse-Linear Attention with Learnable Routing and QAT

J. Zhang, H. Wang, K. Jiang, K. Zheng, Y. Jiang, I. Stoica, J. Chen, J. Zhu, J.E. Gonzalez

Paper
arXiv 2025

Thinking Short and Right Over Thinking Long: Serving LLM Reasoning Efficiently and Accurately

Y. Wang, Y. Jiang, B. Cui, F. Fu

Paper
arXiv 2025

AReaL-Hex: Accommodating Asynchronous RL Training over Heterogeneous GPUs

R. Yan*, Y. Jiang*, T. Wu, J. Gao, Z. Mei, W. Fu, H. Mai, W. Wang, Y. Wu, B. Yuan

Paper
arXiv 2025

Parallax: Efficient LLM Inference Service over Decentralized Environment

C. Tong*, Y. Jiang*, G. Chen, T. Zhao, S. Lu, W. Qu, E. Yang, L. Ai, B. Yuan

Paper