Discussion

LLM Request Batching API System Design

System DesignPhoneSoftware EngineerReported Nov, 2025

Problem Statement

Design an HTTP API that exposes a batch processing function for large language model inference. Individual users make single synchronous requests, but internally the system must batch these requests...