Modelli open-source,
API OpenAI-compatible.
GPU NVIDIA in Italia, fatturazione a crediti, drop-in con l'SDK OpenAI. Registrati, ricarica, scegli la velocità e parti.
Nessuna carta di credito richiesta per la beta.
Come funziona
Quattro passaggi tra te e la prima chiamata API.
- 01
Registrati
Email + password e verifica via email. Niente carta di credito per la beta.
- 02
Ricarica crediti
Acquisti crediti che valgono token. Nessuna scadenza, nessun lock-in.
- 03
Scegli la velocità
Slow, medium o fast — paghi solo il moltiplicatore quando ti serve davvero.
- 04
Integra
OpenAI SDK, LangChain, LlamaIndex: cambia base_url e sei online.
Modelli
Iniziamo piccoli, poi accendiamo i grandi sui worker GPU dedicati.
qwen2.5:1.5bliveTest e validazione, latenza minima.
llama-3.3-70b-instructprestoGeneralista di alta qualità.
mistral-small-3prestoItaliano nativo, 24B parametri.
qwen2.5-coder-32bprestoSpecializzato in codice.
gpt-oss-120bprestoOpen weights di alta gamma.
embeddings-bge-m3prestoEmbeddings multilingua.
Tre velocità, un'unica API
Stesso modello, stessa qualità. Cambia solo quando arriva la risposta — e quanto la paghi.
Slow
1.0×Massimo risparmio
- Coda condivisa
- Latenza non garantita
- Ideale per batch
Medium
1.5×Equilibrio prezzo/velocità
- Bilanciato
- Latenza tipica < 1s
- Default consigliato
Fast
2.5×Bassa latenza prioritaria
- GPU dedicate
- Coda prioritaria
- Streaming reattivo
Il moltiplicatore si applica al costo per token. 1 credito ≈ 1.000 token. Il costo per token e' visibile in dashboard.
Drop-in con l'SDK OpenAI
Nessuna riga di logica da riscrivere: cambia base_url e api_key, mantieni tutto il resto.
- OpenAI SDK Python e JavaScript ufficiali.
- LangChain, LlamaIndex, ovunque accetti una base URL.
- Streaming SSE, function calling, JSON mode.
from openai import OpenAI
client = OpenAI(
base_url="https://gigia.ai/v1",
api_key="gigia_...", # creata nel dashboard
)
resp = client.chat.completions.create(
model="qwen2.5:1.5b",
messages=[{"role": "user", "content": "Ciao gigia!"}],
extra_headers={"gigia-tier": "fast"},
)
print(resp.choices[0].message.content)Domande frequenti
È davvero compatibile OpenAI?+
Sì: stesso schema di chat.completions, completions, embeddings e models. Funziona con OpenAI SDK Python e JS, LangChain, LlamaIndex senza modifiche al codice — solo base_url e api_key.
Dove girano i modelli?+
Su GPU NVIDIA di nostra proprietà, ospitate in Italia/Europa. Niente API di terzi, niente data center extra-UE.
Cosa cambia tra slow / medium / fast?+
La priorità in coda e la classe di GPU che esegue la tua chiamata. Lo stesso modello, lo stesso output: cambia solo quando arriva.
Loggate i miei prompt?+
No. Memorizziamo solo metadati di utilizzo (token, latenza, modello) per fatturazione e SLO. I contenuti delle richieste non vengono persistiti.
Posso fare batch enormi?+
Sì sul tier slow, dove il costo è minimo. Più avanti aggiungiamo un'API batch dedicata.
Quando arriva Stripe?+
Subito dopo la beta. Per ora le ricariche sono gestite manualmente — scrivici e ti accreditiamo i crediti.
Pronto a sostituire api.openai.com?
Crea l'account, ricevi la tua API key e fai la prima chiamata in meno di un minuto.