Question

How does Pinecone serverless separate storage and compute?

Accepted Answer

Pinecone serverless stores vector data in object storage like S3, while compute nodes load data on demand to serve queries. When a query arrives for a namespace or shard not currently in memory, the compute layer fetches it from storage, pays a cold-start latency penalty, and caches it for subsequent queries. This architecture scales storage near-infinitely at object storage cost, avoids idle compute fees, and handles spiky workloads without overprovisioning. It trades some tail latency for dramatically lower total cost at rest.