计划用 python 实现一个运营监控系统

现在搜狐通行证项目在技术实现上已经差不多了,接下来要考虑的事情就是运营保障,以及数据统计分析。

关于运营监控这部分 CPC 已经有系统在做了,主要就是请求 URL,然后看返回结果;有问题就发 email 或短信。不过我觉得还不太好,比如如果要处理 HTTP POST 检查,或者是监控 MySQL 的话,扩展性就太差;而且出问题了话报告哪些人也不容易扩展;另外,还很希望实现 MSN 报警,这样比起 EMAIL/SMS,还能实现一些交互的能力。

我现在的计划是这样:对每一项需要监控的服务实例化一个特定的对象,包括执行怎么样的操作,操作返回结果怎样才算正常,连续出错 N 次后向哪些人去报警,系统恢复正常后再向哪些人去通知。基本上 EMAIL 报警可以考虑取消了,首先看报警接受人是否 MSN 在线,如果在线则发报警信息;报警信息包括一个流水号,接受人必须在 MSN 上响应这个流水号,否则不停的在 MSN 上发送报警信息,直至最后发送短信进行提醒。

Topic: 技术

评论

可以考虑用nagios框架。

简单看了看 nagios,的确很完善,但还是觉得 Python 好开发。

毕竟监控一个软件系统是否运行正常是需要不断根据其接口的变化而调整监控的内容。

刚才头脑风暴想到可以利用 SOHU 的 VoIP 系统打电话出去,最紧急的错误直接 call 到手机上,比 SMS 管用。用 python+voip、python+asterisk 搜索了一下,相关的开发资源还是挺多的嘛..

用voip这个想法很赞阿.

短信报警