一、背景
Google Cloud 的 Vertex AI / Gemini API 是企业 AI 推理的重要平台。与 AWS CloudWatch、Azure Monitor 不同,GCP 的告警通知渠道不原生支持钉钉/飞书,需要通过 Cloud Function 做转发。
本文记录从零搭建 GCP AI 服务生产监控的完整流程:指标选型 → 告警规则 → Cloud Function 转钉钉 → 电话告警。
二、GCP 监控能力概览
2.1 Vertex AI 可用指标
GCP Cloud Monitoring 为 Vertex AI 提供 230+ 个指标,关键推理指标:
| 指标 | 全名 | 用途 |
|---|---|---|
| 调用次数 | publisher/online_serving/model_invocation_count |
流量监控 |
| 调用延迟 | publisher/online_serving/model_invocation_latencies |
性能 |
| 首 |