Publications

CHAI: CacHe Attention Inference for text2video

Joel Mathew Cherian, Ashutosh Muralidhara Bharadwaj, Vima Gupta, Anand Iyer

arXiv 2026

Show Details PDF HTML Bibtex arXiv: 2602.16132

OMEGA: A Low-Latency GNN Serving System for Large Graphs

Geon-Woo Kim, Donghyun Kim, Jeongyoon Moon, Henry Liu, Tarannum Khan, Anand Iyer, Daehyeok Kim, Aditya Akella

IEEE IPDPS 2026

Show Details

SAFuzz: Semantic-Guided Adaptive Fuzzing for LLM-Generated Code

Ziyi Yang, Kalit Inani, Keshav Kabra, Vima Gupta, Anand Iyer

arXiv 2026

Show Details PDF HTML Bibtex arXiv: 2602.11209

VTC: DNN Compilation with Virtual Tensors for Data Movement Elimination

Muyan Hu, Ahan Gupta, Jiachen Yuan, Vima Gupta, Taeksang Kim, Xin Xu, Janardhan Kulkarni, Ofer Dekel, Vikram Adve, Charith Mendis

USENIX OSDI 2026

Show Details

Aragog: Just-in-Time Model Routing for Scalable Serving of Agentic Workflows

Yinwei Dai, Zhuofu Chen, Anand Iyer, Ravi Netravali

arXiv 2025

Show Details PDF HTML Bibtex arXiv: 2511.20975

FLEX: Fast, Accurate DNN Inference on Low-Cost Edges Using Heterogeneous Accelerator Execution

Tanmoy Sen, Haiying Shen, Anand Iyer

ACM EuroSys 2025

Show Details

Heterogeneous Graph Neural Network on Semantic Tree

Mingyu Guan, Jack W. Stokes, Qinlong Luo, Fuchen Liu, Purvanshi Mehta, Elnaz Nouri, Taesoo Kim

The 39th Annual AAAI Conference on Artificial Intelligence 2025

Show Details PDF HTML Bibtex arXiv: 2402.13496

ReInc: Scaling Training of Dynamic Graph Neural Networks

Mingyu Guan, Saumia Singhal, Taesoo Kim, Anand Iyer

arXiv 2025

Show Details PDF HTML Bibtex arXiv: 2501.15348

Principles and Methodologies for Serial Performance Optimization

Sujin Park, Mingyu Guan, Xiang Cheng, Taesoo Kim

USENIX OSDI 2025

Show Details PDF

Apparate: Rethinking Early Exits to Tame Latency-Throughput Tensions in ML Serving

Yinwei Dai, Rui Pan, Anand Iyer, Kai Li, Ravi Netravali

ACM SOSP 2024

Show Details PDF

Improving DNN Inference Throughput Using Practical, Per-Input Compute Adaptation

Anand Iyer, Mingyu Guan, Yinwei Dai, Rui Pan, Swapnil Gandhi, Ravi Netravali

ACM SOSP 2024

Show Details PDF

Lynx: Enabling Efficient MoE Inference through Dynamic Batch-Aware Expert Selection

Vima Gupta, Kartik Sinha, Ada Gavrilovska, Anand Iyer

arXiv 2024

Show Details PDF HTML Bibtex arXiv: 2411.08982

USHER: Holistic Interference Avoidance for Resource Optimized ML Inference

Sudipta Saha Shubha, Haiying Shen, Anand Iyer

USENIX OSDI 2024

Show Details PDF

Vulcan: Automatic Query Planning for Live ML Analytics

Yiwen Zhang, Xumiao Zhang, Ganesh Ananthanarayanan, Anand Iyer, Yuanchao Shu, Victor Bahl, Z. Morley Mao, Mosharaf Chowdhury

USENIX NSDI 2024

Show Details PDF

Gemel: Model Merging for Memory-Efficient, Real-Time Video Analytics at the Edge

Arthi Padmanabhan, Neil Agarwal, Anand Iyer, Ganesh Ananthanarayanan, Yuanchao Shu, Nikolaos Karianakis, Guoqing Harry Xu, Ravi Netravali

USENIX NSDI 2023

Show Details PDF