O Google Kubernetes Engine (GKE) é um serviço gerenciado do Kubernetes do Google Cloud que pode ser usado para implantar e operar aplicativos conteinerizados em escala usando a infraestrutura do Google. É possível exibir o Gemma usando unidades de processamento de tensor do Cloud (TPUs) e unidades de processamento gráfico (GPUs) no GKE com estes frameworks de exibição de LLM:
- Exibir o Gemma usando GPUs no GKE com vLLM
- Exibir o Gemma usando GPUs no GKE com TGI
- Disponibilizar o Gemma usando GPUs no GKE com o Triton e o TensorRT-LLM
- Exibir o Gemma usando TPUs no GKE com o JetStream
- Exibir o Gemma usando TPUs no GKE com Saxml
Ao disponibilizar o Gemma no GKE, é possível implementar uma solução de veiculação de inferência robusta e pronta para produção com todos os benefícios do Kubernetes gerenciado, incluindo escalonabilidade eficiente e maior disponibilidade.
Para saber mais, consulte as seguintes páginas:
- Visão geral do GKE: Primeiros passos com o Google Kubernetes Engine (GKE)
- Orquestração de IA/ML no GKE: execute cargas de trabalho de IA/ML otimizadas com o GKE