ML System Bottleneck Analyzer

Model Configuration

Model Preset Quantization

Total Parameters (B) Batch Size Sequence Length Hidden Size Number of Layers Number of Heads Parallelism Strategy

Devices

Resource Utilization

System Analysis (Token rates are approximations)

Real-world results are below for reference

Model	Quantization	Framework	Hardware	Batch Size	Sequence Length	Token Rate (Batch)	Token Rate (Single)	Source