qyb的博客

解码 HTML 中的 unicode entity

中午 zzh 发来一个问题,如何对抓下来的网页中的 unicode 字符串,诸如北京市一二八中学
进行解码?

首先想到的是最熟的 libxml2/HTMLParser。简单试了试 xmllint,无解;又大致看了看源代码,貌似没有专门处理的部分。

再转到 Python 的 BeautifulSoup。看了看文档,也貌似无解。

最后只好 google 之,发现 php 的 html_entity_decode 是一个现成的函数。赶快推荐给 zzh,发现他已经自己动手写了一个解析函数了,汗....

最后要说的是,在 google 过程中,发现 Perl 似乎也有现成模块来做这个工作,不过偶不会 Perl,没有尝试。另外就是发现一个叫李卫公的 blogger 在 Python 上也写了一个简单的程序来解码,看起来是一个正则表达式牛人,推荐一下。

Topic: 技术

S60 导入地址本

已经入手 E61i !!!

地址本数据来自古老的 3650,格式见用 Python 备份 S60 的地址本

开发过程中碰到这么几个问题:

1. 第一次安装 1.3.x 高版本的 PyS60,一共需要两个 sis 包,分别是 PythonForS60_1_3_21_3rdEd_selfsigned.SIS 和 PythonScriptShell_1_3_21_3rdEd_selfsigned.SIS。一开始不知道还需要 PythonScriptShell,找了半天 python 图标,还以为自己弄错了。另外我一开始安装在卡上,程序无法执行,删除后安装到内存上就好了。

2. PyS60 的从 UTF-8 字符串 decode 成 unicode 有问题。单独的“张”这个字是无法 decode 的,但完整的名字或哪怕是“张\n”都可以正确 decode。还没有测试是不是单独的汉字都有这个 bug;反正是为了这个问题调试了半天。

3. 从文档所说,contacts.open(mode = 'n') 应该是创建一个全新的、空白的联系人数据库。实际上不是这样,效果和 mode = 'c' 是一致的。可能对于系统的联系人数据库的确是有这个限制。

  1. import contacts
  2. f = open("E:\contacts.txt")
  3. db = contacts.open(mode = 'c')
  4. n = 1
  5. count = 0
  6. for line in f:
  7.     count = count + 1
  8.     if n == 1:
  9.         n = 0
  10.         contact = db.add_contact()
  11.         title = line.split(", ")
  12.         #print title[0], title[1].decode('UTF-8')
  13.     else:
  14.         if line.strip() == "":
  15.             contact.commit()
  16.             n = 1
  17.         else:
  18.             info = line.split(", ", 1)
  19.             try:
  20.                 v = info[1].decode('UTF-8').strip()
  21.                 #print info[0], v
  22.                 contact.add_field(info[0], v)
  23.             except:
  24.                 print 'add_field', title[0]
  25.                 break
  26.  
  27. f.close()
Topic: 技术

Neutrogena

达达她妈妈睡前敷面膜,达达在旁边看了一会,发问:

你用的是露得清面膜吗?

让人十分 faint.. 她从哪个渠道知道面膜是什么牌子的呢?现在她对电视上美女代言的广告特别感兴趣,特别臭美

Topic: dada

少即是多

在搜狐招人和以前比起来,感触最深的就是其严格的HC限制,有时候愤愤不平的想,就这么点人,要做那么多事情,真是&((##WQ!@#d

但昨天或者是今天早上,在思考如下问题的时候对HC又有了新的认识:搜狐这么大一个公司,这么多业务和产品,怎样才能集中资源做好自己该做的事情呢?

答案很简单,在不重要的业务上减少资源,在核心的业务上增加资源..(好像是废话)

那对于搜狐来说资源是什么?立刻想到,最核心的资源是——人

HC 的意义就在于此。对于任何一个产品线来说,有搜狐这么好的平台支撑,很容易想,我可以做这个做那个做....反正肯定都会成功;如果所有的产品线都这么想并自由发挥,那搜狐就乱套了,必然是什么也做不好。有了 HC 这个死限制,想法再多也得忍痛割爱,仔细挑选最有优势,最可能脱颖而出的路径前行。

HC 确实有负面的地方,但却是控制公司方向的很好的举措。作为部门经理要正面的看待它,它迫使你更精细的配置资源和精力

而且 HC 还有另外一个好处——这样使得招聘更加谨慎,宁可职位空缺也不滥竽充数。

现在看来,对于 startup 来说,找钱、找人其实都是次要的,首先是要找对方向;如果对前途暂时看不清楚,宁可行动慢一点扩张慢一点,要知道,慢即是快

陈一舟总结的真好,我也是今天对其有了一个新的理解。。。每天进步多一点

Topic: 商业

D计划

其实在俺在blog上写"A计划"之前,就已经构想过如果独立做一个事情那么擅长的是什么,其中之一就是父母博客网站,或者说就是 babytree 那样的网站。

这一节说的是一个与之完全反过来的网站——既然已经有那么多面向新生的网站,为什么不做一个直面死亡的网站呢?

灵感来自FTchinese的一篇文章,立刻想到前不久 TW 上很有名的原晓娟/鼠尾草的病床博客,然后就想到如果能有专业的网站做相关服务——且不说商业回报——确实是件很有社会意义的事情。

主动贡献的内容来自:
1. 绝症病人
2. 老人

3. 亲朋好友主动把死者的资料搬迁过来

商业模式:
a. 广告1:医疗、家政、殡葬等服务业的
b. 广告2:申请宗教基金支持——这个阶段的人更加容易成为教徒。比如到沙特找个伊斯兰基金支持。
c. 广告3:法律和金融相关服务业、慈善捐赠

d. 出版。将逝者的文字,图像做成物理的纪念册。

所谓生老病死,俺的模式覆盖了三苦,babytree/yaolan/ci123 等只覆盖一苦,优劣立现,哈哈。

附录:
A计划
B计划

C计划

Topic: 商业

周末连吃了两个饭馆

一个是海淀桥西北的“新开元”,当年数学系的学生会主席结婚请客。菜可以说是相当的好吃,可对我的口味来就是 ★★★★★

饭后和两个同学去聊天,先后转战星巴克和肯德基,天昏地暗。一位是 mycaca 的 founder 之一;另一个是刚从 IBM 做 SAP 咨询跳槽的同学,似乎也有意在互联网行业寻觅机会。

还有一个是马甸桥西北的“表里如一”蒸菜馆,味道马马虎虎,看在还比较有特色的份上评 ★★★☆ 好了

Topic: 生活

新浪的新版 webmail 正式上线

一个很有意思的事是放弃了使用了 n 年的黄色色调,转向白灰蓝冷色。

js 加载速度很快,在北京使用比 163 快。

看源代码是嵌入了拖拽支持的js,但页面上好像并没有拖拽的效果。不知道怎么回事,反正我是觉得 ajax 不应该滥用。

虽然搜狐的webmail现在好像还很土,但陈一舟说了,“少即是多,慢即是快”。深以为然,其他人的底牌都出了,俺们就更不慌了。

Topic: 商业

2007/05/10 杂感二

今天和另外三个人协商解决一件私事,其间闹出一些小小不愉快,我还充当劝架方,把一个近200斤的胖子抱住,然后按在椅子上——上次干这种活好像还是十几年前在大学踢球的时候。

这个胖子想揍的是一个40多岁的人,虽说胖子嘴够脏,挑起冲突全赖他,但那个40多岁的哥们确实欠揍(我老婆语),言行挺让人鄙视。

本质是对规则(合同)的尊重与否。

我觉得我成长的环境正是商业规则逐步完善起来的时代,尤其是 IT 业由于外资的进入,政府没有对这个产业做太多干涉,总体大环境来说比别的产业干净很多。我们看着张朝阳、丁磊、陈天桥、李彦宏、江南春...从无到有,合法取得了巨大的成功(或者说巨大的财富),其中的规则和过程又是相当透明,所以我信任并尊重它。

虽然目前商业环境也并不是那么完美,俺也接触过不少“商业潜规则”,但好歹有一个统一的价值体系标准——所有的东西都可以用钱来衡量,换句话说,未来是可以预测的,这样至少能给心理上增加安全感。

另一方面,那位40多岁的哥哥就不愿意按合同办事——因为严格执行合同是他违约并承担责任,于是就想耍赖蒙混过关。要我来找原因,就是他从小社会就这个环境,个人的权利和义务不清不楚,各项规则是倾向于扩大“公利”,损害私利的,未来是混沌的不可预测的。久而久之浸染下来,个体的行为模式就是尽力逃避规则的限制,想方设法谋求私利。

突然想到王朔在《我的千岁寒》里面的一个访谈,说现在的贪官比文革时候的告密者道德上要好千百倍,一个是贪污,另一个是要害你全家!

困了,睡觉去也

Topic: 生活

2007/05/10 杂感一

路过一个程序员的桌前,瞄了一眼他的屏幕,其人正聚精会神的对着 vi 终端写代码。想想自己上一次也这个状态好像是几个月前写那个 apache module,然后就再也没有从编程活动中获得过快乐。

程序员的加班之所以会被称为“文化”,归根结底是因为这个工作本身是有相当的乐趣的,确实有不少人乐此不彼。

问问自己现在工作快乐吗?很难说,看目标是什么。。。努力工作,获得高层的认可,升到到6级或7级?冒出来的第一个念头,不过这样想想就乏味;仅仅是挑战自己,以苦作乐罢了。

目前的想法是(就是在这个 textarea 前想出来的):作为一个 leader,帮助团队让每个人能达到新的高度。相比较而言,产品的成功不过是一个副产物。

真心帮助别人最快乐。:)

Topic: 生活
订阅 RSS - qyb的博客