GCP Vertex AI 生产监控告警实战 — 从零到钉钉电话通知

Source

一、背景

Google Cloud 的 Vertex AI / Gemini API 是企业 AI 推理的重要平台。与 AWS CloudWatch、Azure Monitor 不同,GCP 的告警通知渠道不原生支持钉钉/飞书,需要通过 Cloud Function 做转发。

本文记录从零搭建 GCP AI 服务生产监控的完整流程:指标选型 → 告警规则 → Cloud Function 转钉钉 → 电话告警。


二、GCP 监控能力概览

2.1 Vertex AI 可用指标

GCP Cloud Monitoring 为 Vertex AI 提供 230+ 个指标,关键推理指标:

指标 全名 用途
调用次数 publisher/online_serving/model_invocation_count 流量监控
调用延迟 publisher/online_serving/model_invocation_latencies 性能