由于奥运流量大涨,搜狐原来的pv统计程序有点力不从心,这两天用 python 重写了这部分的代码。
恶心的是每日汇总,本来信心满满,但很快发现数据量太大了,内存瓶颈很难绕过去。除了尽力在3G可用内存里辗转腾挪外,还顺便看了看 Python 的 dict 实现,把它的 dictionary load radio 上限从 2/3 改成了 32/33,可还是不够用。不用那么多内存,改用磁盘对换也成,但性能这样就会很糟。
低性能版本运行了几个小时后,实在受不了,就找人要了一台16G内存,64位的服务器。结果耗了10G内存,6分钟运算完毕(利用 marshal 保存的每小时统计结果)
Topic:
技术
评论
机器牛就是好啊..
机器牛就是好啊..