Questa pagina illustra un modo per eseguire il gateway delle app Claude su Google Cloud. La configurazione è un esempio funzionante per l’infrastruttura gestita dal cliente piuttosto che una distribuzione di produzione supportata; utilizzatela per vedere come i componenti si incastrano insieme prima di adattarla al vostro ambiente. Per i requisiti indipendenti dalla piattaforma, consultate la guida alla distribuzione.
oidc cambia. Consultate Configurazione del provider di identità per i dettagli specifici per ogni IdP.
Cosa costruirete
- Servizio Cloud Run o Deployment GKE che esegue il contenitore del gateway
- Repository Artifact Registry per l’immagine del gateway
- Istanza Cloud SQL per PostgreSQL, solo IP privato, per lo store del gateway
- Segreti Secret Manager per
gateway.yaml, la chiave di firma JWT, il segreto client OIDC e l’URL Postgres - Account di servizio con
roles/aiplatform.user, allegato direttamente su Cloud Run o associato tramite Workload Identity su GKE - Internal Application Load Balancer su Cloud Run, o un GKE Ingress interno di classe
gce-internalsu GKE, per HTTPS
Prerequisiti
- Un progetto GCP con fatturazione abilitata e autorizzazione per creare le risorse di cui sopra
- La CLI
gcloud, autenticata congcloud auth login, e Docker installato localmente - Per il percorso GKE:
kubectle un cluster GKE sul VPC creato nella procedura dettagliata di seguito - Accesso ai modelli Claude di cui avete bisogno in Model Garden, in una regione che li pubblica
- Un client applicazione web OAuth 2.0 di Google Workspace con URI di reindirizzamento
https://<gateway-host>/oauth/callback; consultate Configurazione del provider di identità - Un nome host TLS per il gateway, in genere un nome DNS interno che punta al load balancer
Distribuire il gateway
I passaggi seguenti eseguono il provisioning della distribuzione completa con comandigcloud.
Abilitare le API
Abilitate le API di servizio utilizzate dalla procedura dettagliata:Le API di cui avete bisogno dipendono dal percorso di distribuzione:
computeeservicenetworking: necessarie per il percorso Cloud SQL con IP privatorun: solo Cloud Runcontainer: solo GKE
Creare l'account di servizio e concedere IAM
Il gateway viene eseguito come account di servizio dedicato con autorizzazione per chiamare Agent Platform. Raggiunge Cloud SQL sul VPC con un utente con password, quindi non è richiesto alcun ruolo IAM di Cloud SQL:Quindi abilitate i modelli Claude per il progetto in Model Garden; i modelli vengono pubblicati in regioni specifiche, quindi controllate ogni scheda del modello.
Compilare e inviare l'immagine ad Artifact Registry
Compilate l’immagine secondo i requisiti dell’immagine del contenitore, utilizzando il binario glibc
linux-x64, e inviatela:Eseguire il provisioning di Cloud SQL per PostgreSQL
Create l’istanza su un VPC tramite Private Services Access in modo che non abbia IP pubblico; questo soddisfa anche i progetti in cui Il runtime Cloud Run o GKE deve essere su, o instradato in, questo VPC.
constraints/sql.restrictPublicIp è applicato:Scrivere gateway.yaml
Il blocco
L’esempio seguente utilizza i valori del load balancer interno davanti a Cloud Run.
upstreams punta ad Agent Platform con auth: {}, quindi il gateway si autentica tramite Application Default Credentials dall’account di servizio del runtime. Consultate il riferimento di configurazione per ogni campo.Due campi listen dipendono da cosa si trova davanti al gateway:public_url: richiesto dietro Cloud Run o un GKE Ingress. Il gateway costruisce l’redirect_uridell’IdP e il suo documento di discovery solo da questo valore, mai da intestazioniX-Forwarded-*.trusted_proxies: gli intervalli di origine del front end. Il gateway onoraX-Forwarded-Forsolo quando il peer TCP è in questo elenco, quindi percorre la catena oltre i hop affidabili, in modo che i limiti di velocità di accesso per IP e gli eventi di audit registrino gli IP degli sviluppatori invece di quello del load balancer.
trusted_proxies in modo che corrisponda al vostro front end. Un GKE Ingress esterno di classe gce non è elencato: esegue il provisioning di un indirizzo di regola di inoltro pubblico, che il controllo rete privata di /login rifiuta.| Front end | trusted_proxies |
|---|---|
| Cloud Run raggiunto direttamente, nessun load balancer | [169.254.0.0/16] |
| Internal Application Load Balancer davanti a Cloud Run | 169.254.0.0/16 più il CIDR della subnet solo proxy |
GKE internal Ingress, classe gce-internal | Il CIDR della subnet solo proxy |
gateway.yaml
I token id di Google non contengono alcuna rivendicazione
groups. Per utilizzare le politiche basate su gruppi in managed.policies con Google Workspace come IdP, configurate oidc.google_groups, che cerca i gruppi di ogni utente tramite l’API Admin SDK Directory utilizzando un account di servizio con delega a livello di dominio. Senza di essa, abbinate invece su email_domain.Archiviare i segreti in Secret Manager
Create quattro segreti e concedete
Il modo in cui i segreti raggiungono il contenitore differisce per traccia:
roles/secretmanager.secretAccessor all’account di servizio claude-gateway:| Segreto | Fonte |
|---|---|
gateway-jwt-secret | openssl rand -base64 32 |
gateway-oidc-client-secret | Google Cloud Console → Client OAuth |
gateway-postgres-url | $GATEWAY_POSTGRES_URL dal passaggio Cloud SQL |
gateway-config | Il completo gateway.yaml dal passaggio precedente |
- Su GKE vengono montati come file tramite il driver CSI di Secret Manager e
gateway.yamlfa riferimento a${file:/secrets/...}. - Su Cloud Run, che non può montare più segreti in una directory,
gateway.yamlviene montato come file e gli altri tre si iniettano come variabili di ambiente, quindigateway.yamlfa riferimento a${GATEWAY_JWT_SECRET},${OIDC_CLIENT_SECRET}e${GATEWAY_POSTGRES_URL}invece.
Distribuire
- Cloud Run
- GKE
Il comando seguente distribuisce per la produzione dietro un load balancer interno.L’uscita VPC diretta, tramite
--network, --subnet e --vpc-egress=private-ranges-only, consente al servizio di raggiungere direttamente l’IP privato di Cloud SQL. L’uscita pubblica verso gli endpoint di Agent Platform e accounts.google.com va direttamente a Internet piuttosto che attraverso il VPC, quindi non è necessario Cloud NAT.Il controllo IAM dell’invoker deve essere aperto o disabilitato. Il gateway esegue il proprio OIDC e i suoi client non portano alcun token GCP, quindi il controllo dell’invoker di Cloud Run deve ammettere richieste non autenticate. Il gateway autentica la richiesta una volta che raggiunge il contenitore con OIDC, con allowed_email_domains che controlla quali domini possono accedere.Due flag ammettono richieste non autenticate:--no-invoker-iam-check: disabilita il controllo senza alcun bindingallUsersda gestire e funziona con Domain Restricted Sharing--allow-unauthenticated: concede al ruolorun.invokerallUsers; utilizzatelo se la vostra organizzazione non consente--no-invoker-iam-check
--ingress è un livello separato e indipendente dal controllo dell’invoker; mantenetelo impostato per limitare il servizio alla vostra rete aziendale.Per impostazione predefinita, l’URL *.run.app di Cloud Run si risolve in un indirizzo pubblico, che il controllo rete privata di /login rifiuta. Due topologie forniscono agli sviluppatori un nome host risolvibile privatamente e Cloud Run non ne esegue il provisioning per voi:- Internal Application Load Balancer, la topologia che il comando di distribuzione sopra presuppone: distribuire con
--ingress=internal-and-cloud-load-balancing, eseguire il provisioning di un Internal Application Load Balancer davanti al servizio con un nome DNS interno e un certificato, e impostarelisten.public_urlsu quel nome host. - Ingresso solo interno senza load balancer: distribuire con
--ingress=internale lasciarelisten.public_urlcome URL*.run.app, l’impostazione predefinita negli asset di riferimento di seguito. Affinché*.run.appsi risolva privatamente, il vostro team di rete deve già operare un endpoint Private Service Connect per le API di Google, una zona privata Cloud DNS che risolve*.run.appad esso e il routing on-premises a quell’endpoint.
<public_url>/oauth/callback prima del primo accesso. Ridistribuite dopo aver modificato public_url, perché il gateway costruisce la sua origine pubblica solo da quell’impostazione e ignora X-Forwarded-Host e X-Forwarded-Proto. X-Forwarded-For viene onorato per gli IP client solo quando listen.trusted_proxies è impostato.Inviare l'URL del gateway alle macchine degli sviluppatori
Il gateway è ora in esecuzione, ma gli sviluppatori non possono raggiungerlo da
/login fino a quando l’URL del gateway non è sulle loro macchine. Impostate forceLoginMethod e forceLoginGatewayUrl nel file di impostazioni gestite che distribuite a ogni dispositivo tramite MDM. Non c’è alcuna opzione di gateway nel selettore di accesso per uno sviluppatore da selezionare manualmente.Riferimento Terraform
Gli asset di distribuzione di riferimento automatizzano il percorso Cloud Run su questa pagina; gli asset di configurazione e immagine si applicano a entrambi i percorsi:setup.sh: un provisionergcloudidempotente che percorre il percorso completo di Cloud Run, dall’abilitazione delle API alla prima distribuzioneterraform/: la stessa distribuzione come infrastruttura come codice, per una distribuzione greenfield: un apply mirato per creare il repository Artifact Registry, quindi compilare e inviare l’immagine, quindi un apply completogateway.yaml.examplee unDockerfileper l’immagine di runtime distroless
internal, quindi non è richiesto alcun load balancer. Per corrispondere alla distribuzione di produzione dietro un ALB di questa pagina, eseguite setup.sh con INGRESS=internal-and-cloud-load-balancing, o impostate la variabile Terraform ingress su INGRESS_TRAFFIC_INTERNAL_LOAD_BALANCER. Gli artefatti impostano anche per impostazione predefinita il livello dell’invoker su una concessione run.invoker allUsers piuttosto che --no-invoker-iam-check, l’inverso della procedura dettagliata di questa pagina; entrambi funzionano e la scelta dipende dai vincoli di policy della vostra organizzazione.
Gli asset sono forniti come esempi funzionanti, non come artefatto di produzione supportato; esaminate e adattate al vostro ambiente.
Risoluzione dei problemi
Per gli errori di avvio del gateway e di accesso, consultate la tabella risoluzione dei problemi indipendente dalla piattaforma. Le voci seguenti sono specifiche per Google Cloud.| Sintomo | Causa | Soluzione |
|---|---|---|
Cloud Run restituisce 403 Forbidden prima di raggiungere il contenitore | Il controllo IAM dell’invoker è ancora abilitato | Distribuite con --no-invoker-iam-check, o concedete a allUsers il ruolo run.invoker con --allow-unauthenticated |
--no-invoker-iam-check rifiutato con invoker_iam_disabled is not currently available | Bloccato da constraints/run.managed.requireInvokerIam | Utilizzate --allow-unauthenticated. Se Domain Restricted Sharing tramite constraints/iam.allowedPolicyMemberDomains blocca anche quello, utilizzate il percorso GKE, che espone il gateway a livello di rete senza alcun binding allUsers. |
Container manifest type … must support amd64/linux al momento della distribuzione | L’immagine è stata compilata su un host non amd64, o buildx ha emesso un indice di immagine OCI | Compilate con --platform=linux/amd64 --provenance=false |
| L’avvio del gateway esce con un errore di timeout della connessione Postgres su Cloud Run | Il servizio non è allegato al VPC, o Cloud SQL non ha IP privato su quel VPC; lo store smette di aspettare dopo 5 secondi | Distribuite con --network e --subnet per l’uscita VPC diretta e create l’istanza Cloud SQL con --no-assign-ip e --network che punta allo stesso VPC |
Le richieste di Agent Platform restituiscono 403 PERMISSION_DENIED | Il runtime non utilizza l’account di servizio claude-gateway, o il modello non è abilitato in Model Garden per il progetto | Impostate --service-account su Cloud Run o associate Workload Identity su GKE e abilitate ogni modello Claude in Model Garden per la regione di destinazione |
| Le risposte di streaming si interrompono dopo una durata fissa | Timeout della richiesta del front end: il servizio backend del load balancer dietro GKE Ingress ha un timeout predefinito di 30 secondi e Cloud Run di 300 secondi | Allegate un BackendConfig con un timeoutSec elevato su GKE, o distribuite con --timeout=3600 su Cloud Run |
Passaggi successivi
- Riferimento di configurazione: ogni opzione di
gateway.yaml, inclusemanaged.policiesetelemetry - Distribuzione e operazioni: configurazione IdP, controlli di integrità, rotazione della chiave segreta JWT, aggiornamenti e il modello di sicurezza
- Panoramica del gateway delle app Claude: guida rapida e connessione degli sviluppatori