How I Reduced Our Startup's LLM Costs by Almost 90%

@redeemed2000 How does the pricing work? Are you only paying for the API calls or do you also pay for deployment of your finetuned model (i.e. can you scale to zero)?

redeemed2000 · Jun 14, 2024

@asnyder Yeah just inference + training costs. No hosting costs

asnyder · Jun 15, 2024

@redeemed2000 I take it they don't keep your endpoints warm all the time then. Do you have any insights in the cold start times? You likely don't care about cold start times since I figure you do batch inference once a day, but i am trying to find out how viable this is for real time inference (lets say, is sub 5 seconds latency (startup+inference) for 1k tokens achievable?).

redeemed2000 · Jun 16, 2024

@asnyder Hmm I'm not sure. Once warm its super fast but I don't know what the cold start time is. It's not advertised (and I haven't measured)

faaraah · Jun 16, 2024

@redeemed2000 Yes, I always wondered about the running costs and OpenAI bills. Seems that you made the right decision in only sending API requests when necessary! Great job. I'd love to read more about that side of "AI startups"

redeemed2000 · Jun 17, 2024

@faaraah I'm on Twitter!

faaraah · Jun 17, 2024

@redeemed2000 What’s your handle?

isaac32 · Jun 18, 2024

@redeemed2000 Thanks for sharing. Was it expensive to fine-tune on OpenPipe?

redeemed2000 · Jun 18, 2024

@isaac32 No - cost about $100

jbron423 · Jun 19, 2024

@redeemed2000 Nice advice

How I Reduced Our Startup's LLM Costs by Almost 90%

New member

New member

New member

New member

New member

New member

New member

New member

New member

New member

New member

New member

New member

New member

New member

New member

New member

New member

New member

New member

Similar threads