通过谷歌云 Cloud Monitoring 中的监控数据更快地排除 GKE 应用故障

我们在 GKE 上排查应用程序故障时,往往所了解的越多,问题解决的就越快。pod 是否超过了内存分配?保留存储卷是否有权限错误?应用程序中是否有恶意 regex 占用了 CPU ?所有这些问题都需要开发人员构建大量的故障排除上下文。

Cloud Logging 中 GKE 的 Cloud Monitoring 数据

为了更方便 GKE 故障排除,,我们可以直接从 Cloud Logging 访问上下文监控数据。有了该功能,我们可以很容易地从日志行本身看到相关的 pod、节点和集群事件、指标、警报和 SLO)。此外,为特定日志条目加载的数据被限定为 Kubernetes 资源,这可以为我们检查应用程序错误时节省时间。

另外,近期Google Cloud 还在每个 GKE 资源的详细信息页面中添加了嵌套的日志选项卡,包括 Monitoring 中的 GKE Dashboard 中的组合指标和日志。之后我们开始故障排除时,可以在 Monitoring 、Logging(或 GKE )中轻松获取相关数据。

举个例子,如果我们正在排除 Cloud Logging 中的 GKE 应用错误,可以在不离开日志条目时查看容器重启、正常运行时间、内存、CPU 以及存储的图表。另外活动预警在警报选项卡中会高亮显示,这个选项卡可以为故障排除提供重要信息。

这项功能汇集了应用程序运行特定K8S资源时关键的数据指标及日志。


从日志行查看 GKE 的监控数据

在 k8s_container 、k8s_pod、k8s_node 或 k8s_cluster 日志中,选中标蓝资源名称,然后选择【View monitoring details 】,可以直接从日志资源管理器访问集成指标面板;选择【View in GKE 】则会在新选项卡中打开云控制台中 GKE 资源的详细视图。

注:指标面板会提供大量数据,包括警报、k8s事件以及其他与 GKE 资源相关的指标。


警报

由 GKE 资源触发的警报显示在 Alerts 选项卡下。颜色编码的警报状态提供了查看正在进行的、已确认的和已关闭的事件的简单直观方法。还可以选择【VIEW INCIDENT】在 Cloud Logging 中查看事件细节。此外,我们还可以根据需要自行设置新的警报策略。


k8s 集群事件、pod

我们可以在指标面板选择特定集群事件和 pod ,对于每个事件,将显示名称、关联资源以及可复制的日志消息链接。k8s 事件可以为确定故障根源提供重要信息,例如如果显示 FailedScheduling 事件,可以快速指导故障排除,以检查 k8s 中可用的资源。


容器、pod 和节点指标

指标选项卡包含了从 GKE 集群收集并在 Cloud Monitoring 中报告的容器(默认)、pod 和节点的指标数据包。每个包里都提供可选的预构建图表来查看 CPU、内存、存储和容器的重启情况

例如,通过查看 CPU 或内存,我们可以确定 k8s 资源的指标是否存在峰值。



WebEye 是中国大陆地区首家获得 Google Cloud MSP 资质的合作伙伴。点击了解:企业上云服务

WebEye 为全球企业提供⼀站式数字媒体营销解决方案、增长效率工具平台、云服务、安全合规、游戏发行服务。我们汇集全球优质的移动营销资源,用大数据精准决策,用AI管理创意素材,用智能化平台实现聚合广告投放。WebEye云计算服务与多云管理平台、安全合规服务助力企业全面数字化转型。子品牌ModooPlay为国内外游戏开发者提供全渠道、一站式的游戏发行服务。

返回全部