qyb的博客

解码 HTML 中的 unicode entity

中午 zzh 发来一个问题，如何对抓下来的网页中的 unicode 字符串，诸如北京市一二八中学
进行解码？

首先想到的是最熟的 libxml2/HTMLParser。简单试了试 xmllint，无解；又大致看了看源代码，貌似没有专门处理的部分。

再转到 Python 的 BeautifulSoup。看了看文档，也貌似无解。

最后只好 google 之，发现 php 的 html_entity_decode 是一个现成的函数。赶快推荐给 zzh，发现他已经自己动手写了一个解析函数了，汗....

最后要说的是，在 google 过程中，发现 Perl 似乎也有现成模块来做这个工作，不过偶不会 Perl，没有尝试。另外就是发现一个叫李卫公的 blogger 在 Python 上也写了一个简单的程序来解码，看起来是一个正则表达式牛人，推荐一下。

Topic: 技术

S60 导入地址本

已经入手 E61i !!!

地址本数据来自古老的 3650，格式见用 Python 备份 S60 的地址本。

开发过程中碰到这么几个问题：

1. 第一次安装 1.3.x 高版本的 PyS60，一共需要两个 sis 包，分别是 PythonForS60_1_3_21_3rdEd_selfsigned.SIS 和 PythonScriptShell_1_3_21_3rdEd_selfsigned.SIS。一开始不知道还需要 PythonScriptShell，找了半天 python 图标，还以为自己弄错了。另外我一开始安装在卡上，程序无法执行，删除后安装到内存上就好了。

2. PyS60 的从 UTF-8 字符串 decode 成 unicode 有问题。单独的“张”这个字是无法 decode 的，但完整的名字或哪怕是“张\n”都可以正确 decode。还没有测试是不是单独的汉字都有这个 bug；反正是为了这个问题调试了半天。

3. 从文档所说，contacts.open(mode = 'n') 应该是创建一个全新的、空白的联系人数据库。实际上不是这样，效果和 mode = 'c' 是一致的。可能对于系统的联系人数据库的确是有这个限制。

import contacts
f = open("E:\contacts.txt")
db = contacts.open(mode = 'c')
n = 1
count = 0
for line in f:
    count = count + 1
    if n == 1:
        n = 0
        contact = db.add_contact()
        title = line.split(", ")
        #print title[0], title[1].decode('UTF-8')
    else:
        if line.strip() == "":
            contact.commit()
            n = 1
        else:
            info = line.split(", ", 1)
            try:
                v = info[1].decode('UTF-8').strip()
                #print info[0], v
                contact.add_field(info[0], v)
            except:
                print 'add_field', title[0]
                break
 
f.close()

Topic: 技术

Neutrogena

达达她妈妈睡前敷面膜，达达在旁边看了一会，发问：

你用的是露得清面膜吗？

让人十分 faint.. 她从哪个渠道知道面膜是什么牌子的呢？现在她对电视上美女代言的广告特别感兴趣，特别臭美

Topic: dada

少即是多

在搜狐招人和以前比起来，感触最深的就是其严格的HC限制，有时候愤愤不平的想，就这么点人，要做那么多事情，真是&((##WQ!@#d

但昨天或者是今天早上，在思考如下问题的时候对HC又有了新的认识：搜狐这么大一个公司，这么多业务和产品，怎样才能集中资源做好自己该做的事情呢？

答案很简单，在不重要的业务上减少资源，在核心的业务上增加资源..(好像是废话)

那对于搜狐来说资源是什么？立刻想到，最核心的资源是——人

HC 的意义就在于此。对于任何一个产品线来说，有搜狐这么好的平台支撑，很容易想，我可以做这个做那个做....反正肯定都会成功；如果所有的产品线都这么想并自由发挥，那搜狐就乱套了，必然是什么也做不好。有了 HC 这个死限制，想法再多也得忍痛割爱，仔细挑选最有优势，最可能脱颖而出的路径前行。

HC 确实有负面的地方，但却是控制公司方向的很好的举措。作为部门经理要正面的看待它，它迫使你更精细的配置资源和精力。

而且 HC 还有另外一个好处——这样使得招聘更加谨慎，宁可职位空缺也不滥竽充数。

现在看来，对于 startup 来说，找钱、找人其实都是次要的，首先是要找对方向；如果对前途暂时看不清楚，宁可行动慢一点扩张慢一点，要知道，慢即是快

陈一舟总结的真好，我也是今天对其有了一个新的理解。。。每天进步多一点

Topic: 商业

D计划

其实在俺在blog上写"A计划"之前，就已经构想过如果独立做一个事情那么擅长的是什么，其中之一就是父母博客网站，或者说就是 babytree 那样的网站。

这一节说的是一个与之完全反过来的网站——既然已经有那么多面向新生的网站，为什么不做一个直面死亡的网站呢？

灵感来自FTchinese的一篇文章，立刻想到前不久 TW 上很有名的原晓娟/鼠尾草的病床博客，然后就想到如果能有专业的网站做相关服务——且不说商业回报——确实是件很有社会意义的事情。

主动贡献的内容来自：
1. 绝症病人
2. 老人

3. 亲朋好友主动把死者的资料搬迁过来

商业模式：
a. 广告1：医疗、家政、殡葬等服务业的
b. 广告2：申请宗教基金支持——这个阶段的人更加容易成为教徒。比如到沙特找个伊斯兰基金支持。
c. 广告3：法律和金融相关服务业、慈善捐赠

d. 出版。将逝者的文字，图像做成物理的纪念册。

所谓生老病死，俺的模式覆盖了三苦，babytree/yaolan/ci123 等只覆盖一苦，优劣立现，哈哈。

附录：
A计划
B计划

C计划

Topic: 商业

周末连吃了两个饭馆

一个是海淀桥西北的“新开元”，当年数学系的学生会主席结婚请客。菜可以说是相当的好吃，可对我的口味来就是 ★★★★★

饭后和两个同学去聊天，先后转战星巴克和肯德基，天昏地暗。一位是 mycaca 的 founder 之一；另一个是刚从 IBM 做 SAP 咨询跳槽的同学，似乎也有意在互联网行业寻觅机会。

还有一个是马甸桥西北的“表里如一”蒸菜馆，味道马马虎虎，看在还比较有特色的份上评 ★★★☆ 好了

Topic: 生活

新浪的新版 webmail 正式上线

一个很有意思的事是放弃了使用了 n 年的黄色色调，转向白灰蓝冷色。

js 加载速度很快，在北京使用比 163 快。

看源代码是嵌入了拖拽支持的js，但页面上好像并没有拖拽的效果。不知道怎么回事，反正我是觉得 ajax 不应该滥用。

虽然搜狐的webmail现在好像还很土，但陈一舟说了，“少即是多，慢即是快”。深以为然，其他人的底牌都出了，俺们就更不慌了。

Topic: 商业

2007/05/10 杂感二

今天和另外三个人协商解决一件私事，其间闹出一些小小不愉快，我还充当劝架方，把一个近200斤的胖子抱住，然后按在椅子上——上次干这种活好像还是十几年前在大学踢球的时候。

这个胖子想揍的是一个40多岁的人，虽说胖子嘴够脏，挑起冲突全赖他，但那个40多岁的哥们确实欠揍（我老婆语），言行挺让人鄙视。

本质是对规则（合同）的尊重与否。

我觉得我成长的环境正是商业规则逐步完善起来的时代，尤其是 IT 业由于外资的进入，政府没有对这个产业做太多干涉，总体大环境来说比别的产业干净很多。我们看着张朝阳、丁磊、陈天桥、李彦宏、江南春...从无到有，合法取得了巨大的成功（或者说巨大的财富），其中的规则和过程又是相当透明，所以我信任并尊重它。

虽然目前商业环境也并不是那么完美，俺也接触过不少“商业潜规则”，但好歹有一个统一的价值体系标准——所有的东西都可以用钱来衡量，换句话说，未来是可以预测的，这样至少能给心理上增加安全感。

另一方面，那位40多岁的哥哥就不愿意按合同办事——因为严格执行合同是他违约并承担责任，于是就想耍赖蒙混过关。要我来找原因，就是他从小社会就这个环境，个人的权利和义务不清不楚，各项规则是倾向于扩大“公利”，损害私利的，未来是混沌的不可预测的。久而久之浸染下来，个体的行为模式就是尽力逃避规则的限制，想方设法谋求私利。

突然想到王朔在《我的千岁寒》里面的一个访谈，说现在的贪官比文革时候的告密者道德上要好千百倍，一个是贪污，另一个是要害你全家！

困了，睡觉去也

Topic: 生活

2007/05/10 杂感一

路过一个程序员的桌前，瞄了一眼他的屏幕，其人正聚精会神的对着 vi 终端写代码。想想自己上一次也这个状态好像是几个月前写那个 apache module，然后就再也没有从编程活动中获得过快乐。

程序员的加班之所以会被称为“文化”，归根结底是因为这个工作本身是有相当的乐趣的，确实有不少人乐此不彼。

问问自己现在工作快乐吗？很难说，看目标是什么。。。努力工作，获得高层的认可，升到到6级或7级？冒出来的第一个念头，不过这样想想就乏味；仅仅是挑战自己，以苦作乐罢了。

目前的想法是（就是在这个 textarea 前想出来的）：作为一个 leader，帮助团队让每个人能达到新的高度。相比较而言，产品的成功不过是一个副产物。

真心帮助别人最快乐。:)

Topic: 生活

qyb的博客

解码 HTML 中的 unicode entity

测试从E61i上发BLOG

S60 导入地址本

Neutrogena

少即是多

D计划

周末连吃了两个饭馆

新浪的新版 webmail 正式上线

2007/05/10 杂感二

2007/05/10 杂感一

最新评论

最新日志

Topic

我们俩的联系方式

订阅地址