Beta privata · Italia

Modelli open-source,
API OpenAI-compatible.

GPU NVIDIA in Italia, fatturazione a crediti, drop-in con l'SDK OpenAI. Registrati, ricarica, scegli la velocità e parti.

Inizia gratis Leggi i docs

Nessuna carta di credito richiesta per la beta.

Come funziona

Quattro passaggi tra te e la prima chiamata API.

01
Registrati
Email + password e verifica via email. Niente carta di credito per la beta.
02
Ricarica crediti
Acquisti crediti che valgono token. Nessuna scadenza, nessun lock-in.
03
Scegli la velocità
Slow, medium o fast — paghi solo il moltiplicatore quando ti serve davvero.
04
Integra
OpenAI SDK, LangChain, LlamaIndex: cambia base_url e sei online.

Modelli

Iniziamo piccoli, poi accendiamo i grandi sui worker GPU dedicati.

Vedi catalogo completo →

qwen2.5:1.5blive
Test e validazione, latenza minima.
llama-3.3-70b-instructpresto
Generalista di alta qualità.
mistral-small-3presto
Italiano nativo, 24B parametri.
qwen2.5-coder-32bpresto
Specializzato in codice.
gpt-oss-120bpresto
Open weights di alta gamma.
embeddings-bge-m3presto
Embeddings multilingua.

Tre velocità, un'unica API

Stesso modello, stessa qualità. Cambia solo quando arriva la risposta — e quanto la paghi.

Slow

1.0×

Massimo risparmio

Coda condivisa
Latenza non garantita
Ideale per batch

Medium

1.5×

Equilibrio prezzo/velocità

Bilanciato
Latenza tipica < 1s
Default consigliato

Fast

2.5×

Bassa latenza prioritaria

GPU dedicate
Coda prioritaria
Streaming reattivo

Il moltiplicatore si applica al costo per token. 1 credito ≈ 1.000 token. Il costo per token e' visibile in dashboard.

Drop-in con l'SDK OpenAI

Nessuna riga di logica da riscrivere: cambia base_url e api_key, mantieni tutto il resto.

OpenAI SDK Python e JavaScript ufficiali.
LangChain, LlamaIndex, ovunque accetti una base URL.
Streaming SSE, function calling, JSON mode.

from openai import OpenAI

client = OpenAI(
    base_url="https://gigia.ai/v1",
    api_key="gigia_...",          # creata nel dashboard
)

resp = client.chat.completions.create(
    model="qwen2.5:1.5b",
    messages=[{"role": "user", "content": "Ciao gigia!"}],
    extra_headers={"gigia-tier": "fast"},
)
print(resp.choices[0].message.content)

Domande frequenti

È davvero compatibile OpenAI?+

Sì: stesso schema di chat.completions, completions, embeddings e models. Funziona con OpenAI SDK Python e JS, LangChain, LlamaIndex senza modifiche al codice — solo base_url e api_key.

Dove girano i modelli?+

Su GPU NVIDIA di nostra proprietà, ospitate in Italia/Europa. Niente API di terzi, niente data center extra-UE.

Cosa cambia tra slow / medium / fast?+

La priorità in coda e la classe di GPU che esegue la tua chiamata. Lo stesso modello, lo stesso output: cambia solo quando arriva.

Loggate i miei prompt?+

No. Memorizziamo solo metadati di utilizzo (token, latenza, modello) per fatturazione e SLO. I contenuti delle richieste non vengono persistiti.

Posso fare batch enormi?+

Sì sul tier slow, dove il costo è minimo. Più avanti aggiungiamo un'API batch dedicata.

Quando arriva Stripe?+

Subito dopo la beta. Per ora le ricariche sono gestite manualmente — scrivici e ti accreditiamo i crediti.

Pronto a sostituire api.openai.com?

Crea l'account, ricevi la tua API key e fai la prima chiamata in meno di un minuto.

Crea account gratis Accedi

Modelli open-source,API OpenAI-compatible.