超简单！基于日志的 Darwinia 验证人节点监控预警

一般来说，监控 Substrate 框架开发的区块链节点，可以使用官方推荐的 Prometheus + Grafana 技术栈。在节点数量比较多的情况下，这套方案的优势比较容易体现出来，我给公司的官方节点也是这么配的。不过近期 Darwinia 主网上线，有不少同事想要跑自己的验证人（validator）节点。对于他们来说：

搭建一套 Prometheus 还要自己调面板和规则，成本实在太高；
只用 PM2、Supervisord、Systemd 之类的守护进程通常只能保证进程没挂，但节点是否正常出块是未知的（例如断网、0 Peer 的情况，节点进程还在，其实已经掉线了）。

为了解决以上这两个问题，我搞了一套非常简易的、基于日志的监控预警方法。

🚀 KUBE-VALI 是基于 Kubernetes 集群大规模部署的节点，稳定可靠，求大佬投票。

基本思路

基于 Darwinia 验证人产块，会有类似 🎁 Prepared block for proposing at ... 的日志输出，只要有个脚本不断检查节点日志，如果一段时间内没有类似的输出，说明节点可能已经出了问题，发送通知或重启节点均可。

最终效果

具体步骤

1) 实现检查日志

首先登录你的验证人节点，创建一个 Watchlog 脚本，例如 /usr/bin/darwinia-watchlog.sh：

#!/usr/bin/env bash

RETRIVE_LOG_COMMAND="journalctl -u darwinia-node.service -o cat --since -30m"
# RETRIVE_LOG_COMMAND="docker logs darwinia-node --since 30m"

echo "[INFO] Checking Darwinia logs..."

DARWINIA_LOGS="$($RETRIVE_LOG_COMMAND | grep 'Prepared block')"

if [ $? -eq 0 ]; then

  echo "[INFO] New blocks detected."

else

  echo "[WARN] No blocks deteched!"

fi

RETRIVE_LOG_COMMAND 是用来获取近期节点日志的命令。我列出了两个例子，前者适用于 Systemd 启动的节点，后者适用于 Docker 启动的节点，你可以任意修改它。
'Prepared block' 是在日志里查找的关键词，你也可以修改为 'Imported' 之类的值。

随后运行该脚本，会发现有 [INFO] New blocks detected. 或是 [WARN] No blocks deteched! 的输出，说明它已经能够正常检测节点日志了。

2) 持续检查节点日志

为了能够持续检查节点日志，我们使用 Cron job 每分钟 调用一次该脚本就可以了。执行以下脚本新增一个每分钟执行的 Cron job：

(crontab -l ; echo "* * * * * /usr/bin/darwinia-watchlog.sh | logger -t darwinia-watchlog") 2>&1 | grep -v "no crontab" | sort | uniq | crontab -

3) 预警通知和重启

自己写通知太麻烦，不如试试 https://healthchecks.io/ 吧。Healthchecks.io 是一款开源的定时任务监控、通知系统。它假设你的脚本在「某一时刻」运行，正常情况下，你的脚本运行成功并给它发送一个成功消息；如果你的脚本没有运行，或是执行出错，它能够按照指定的通知渠道，给你发送一条预警通知。

注册后首先在 Integrations 里添加通知渠道，例如我添加了我的 Telegram：

随后在 Checks 页面点击 Add Check 新增一个 Check，会跳到新创建的 Check 的信息页面：

Schedule 是肯定要改的，需要跟我们脚本的实际运行计划匹配，点击 Change Schedule...，把 Period 和 Grace Time 全部调成 1 minute：

最后点击 Usage Examples...，找到 Bash 的例子，复制这行命令：

回到我们的节点机器上，修改 /usr/bin/darwinia-watchlog.sh 脚本，在 echo "[INFO] New blocks detected." 之后添加这行命令就可以了：

# ...

if [ $? -eq 0 ]; then

  echo "[INFO] New blocks detected."
  curl -m 10 --retry 5 https://hc-ping.com/9a9ea2f6-1b6e-43c3-ba5a-000130ad0fd3 # 在这里

# ...

这样我们的脚本在每分钟定时执行时，如果有检查到新块产生，就会输出 [INFO] New blocks detected.，并调用 healthchecks.io。如果没有检查到，就不会调用 healthchecks.io，进而 healthchecks.io 会默认执行失败，从而发起通知。

最终改进后的完整脚本

你可以直接复制以下脚本，我还做了一些其它的小优化，修改 !!! HEALTH CHECK ID !!! 即可使用。

#!/usr/bin/env bash

RETRIVE_LOG_COMMAND="journalctl -u darwinia-node.service -o cat --since -30m"
# RETRIVE_LOG_COMMAND="docker logs darwinia-node --since 30m"

HEALTHCHECK_IO_URL="https://hc-ping.com/!!! HEALTH CHECK ID !!!" # 别忘记填入 Healthchecks.io 的 URL

echo "[INFO] Checking Darwinia logs..."

DARWINIA_LOGS="$($RETRIVE_LOG_COMMAND | grep 'Prepared block')"

if [ $? -eq 0 ]; then

  echo "[INFO] New blocks detected."
  echo -n "[INFO] Notifying healthchecks.io... "
  curl -fsS --max-time 10 --retry 3 --data-raw "$DARWINIA_LOGS" "$HEALTHCHECK_IO_URL"

else

  echo "[WARN] No blocks deteched!"
  echo -n "[INFO] Notifying healthchecks.io... "
  curl -fsS --max-time 10 --retry 3 "$HEALTHCHECK_IO_URL/fail"

fi

你可以执行 journalctl SYSLOG_IDENTIFIER=darwinia-watchlog -f 观察脚本运行日志：

Sep 29 10:49:01 darwinia-watchlog[19493]: [INFO] Checking Darwinia logs...
Sep 29 10:49:01 darwinia-watchlog[19493]: [INFO] New blocks detected.
Sep 29 10:49:01 darwinia-watchlog[19493]: [INFO] Notifying healthchecks.io... OK
Sep 29 10:50:01 darwinia-watchlog[19503]: [INFO] Checking Darwinia logs...
Sep 29 10:50:01 darwinia-watchlog[19503]: [INFO] New blocks detected.
Sep 29 10:50:02 darwinia-watchlog[19503]: [INFO] Notifying healthchecks.io... OK
...

写在最后

其实这个方案是受到 GCP Log-based metrics 启发而实现的，最早我的思路是用 ELK 分析日志，但某天突然灵光一现 — 根本不用这么麻烦，直接写个脚本 + CRON 定时执行 + 随便找个外部监控就好了。
其实也可以不用 CRON，改用脚本死循环也可以。不过这样就增加了脚本本身的复杂度，另外还得处理常驻进程等问题。
另外也可以不用 healthcheck.io，直接在脚本内发通知。但同样得考虑：万一脚本也崩了怎么办？如果验证人节点彻底断网，根本发不出来通知怎么办？单台机器无法解决，再开一台机器用作监控违背了这个方案的初心，而利用外部的、被动的（即使机器挂了发不出来通知也能被监控捕捉到）监控服务是我目前能想到成本最低廉的解决方案了。

基本思路#

最终效果#

具体步骤#

1) 实现检查日志#

2) 持续检查节点日志#

3) 预警通知和重启#

最终改进后的完整脚本#

写在最后#