一旦您的 API 上線,您需要關注它。「在我的機器上可以運作」當客戶說 500 錯誤激增時並沒有幫助。監控類型#
1. 可用性 (Availability / Uptime)#
健康檢查 (Health Checks):一個 /health 端點,用於 檢查資料庫連線。
合成監控 (Synthetic Monitoring):自動化呼叫(像 Apidog 排程任務),每分鐘從全球不同地點執行,以驗證 API 是否正常。
P95 / P99 延遲:「99% 的請求快於 500ms。」這比平均值更重要,因為它顯示了您最慢的使用者(通常是「最重度」和最有價值的客戶)的體驗。
3. 使用量 (Usage / Business Metrics)#
頂級消費者:「使用者 A 佔了 30% 的流量。」
熱門端點:「/search 的使用量是 /profile 的 10 倍。」
可觀察性 (Observability):日誌、指標、追蹤#
日誌 (Logs):「發生了什麼?」(帶有時間戳記的錯誤訊息)。
指標 (Metrics):「現在正在發生什麼?」(CPU 使用率、每秒請求數)。
追蹤 (Traces):「在哪裡發生?」(跨微服務的分散式追蹤)。
關鍵收穫#
正常運作時間 != 健康:僅僅因為伺服器回應 ping 並不意味著資料庫已連線。使用深度健康檢查。
關注長尾:監控 P99 延遲以捕捉影響異常值的效能問題。
主動:設定警報,以便在您的客戶發推文之前就知道中斷。
Modified at 2025-12-29 09:35:19