Question 1

How does pay-per-compute pricing work?

Accepted Answer

You're billed for the actual GPU seconds your model uses during inference. When no requests are being processed, your deployment scales to zero — meaning zero cost. There are no charges for idle time, reserved capacity, or standby instances.

Question 2

Are there any hidden fees?

Accepted Answer

No. Cumulus pricing is transparent. You pay for GPU compute time only. There are no egress fees, storage surcharges, or platform fees.

Question 3

Can I set spending limits?

Accepted Answer

Yes. Cumulus supports configurable spending limits and alerts so you can control costs and avoid surprises.

Question 4

What GPUs are available?

Accepted Answer

Cumulus offers NVIDIA A100, H100, and other datacenter-grade GPUs. GPU availability scales dynamically based on demand.

Feature	Cumulus	Modal	AWS SageMaker	RunPod
Cold Start Time	12.5s	60s	Minutes	Seconds*
Scale to Zero	Yes	Yes	No (with cost)	No
Per-Second Billing	Yes	Yes	Yes	Yes
Serverless	Yes	Yes	Partial	No (reserved)
Setup Required	None	Minimal	Significant	Minimal
Minimum Commitment	None	None	Varies	Hourly

Pay Only for What You Use

Pay Per Compute Cycle

How Cumulus Compares

Frequently Asked Questions

Ready to get started?