文本聚类研究

最近一直在研究文本分类。到今天，终于搞出一个收敛的单词聚类算法。

最主要的时间是在磨刀上——前前后后总共差不多有 1 周的时间在看 sogou 分词库的文档，以及给它开发一个 python-binding

然后是差不多花了半天的时间写爬虫，获得最初的文档库

利用"[PDF] WRM ：一种基于单词相关度的文档聚类新方法"里介绍的概念计算单词两两之间的相关度

最麻烦的就是利用相关度对单词聚类，论文里介绍的方法好像并不好用。从周二到周日，都在不停的找论文，试验新算法，运行测试，修正... 的循环里度过

失败无数次后，最后在 Fuzzy C-Means Clustering 的指导下，投机取巧的设计了一个方法以及判断收敛的机制，今天下午已经成功的跑完一次聚类到 250 个集合的过程，另一个聚类到 100 个集合的过程虽然比较慢，但在 2 个小时前也已经结束。Oh, my god, 看起来是可以正常工作了。

感谢分词库开发者，感谢搜狗新闻、关键字广告 TEAM 曾给的帮助

【尤其是 sogou 的开发包，能返回词的词性... 虽然还有瑕疵，但已经对我帮助很大了】

感谢python, 没有它不可能短时间内把算法体无完肤的改上10几次

感谢《鬼吹灯》，周末的晚上是它让我保持清醒，时不时的去看一眼后台跑的计算过程.

感谢家里人忍受我最近的加班

Topic: 技术

数据挖掘是这样的

永久连接超群.com (未验证) 在 Wed, 2008-10-22 23:23 提交

我现在也是白天整理数据，晚上笔记本通宵在跑。

想起来那句，谢谢cctv ，谢谢 mtv。。

永久连接某a (未验证) 在 Mon, 2008-10-27 10:49 提交

想起来那句，谢谢cctv ，谢谢 mtv。。

百度搜搜文本聚类，找到此文，然后搜搜python，感觉还不

永久连接 Anonymous (未验证) 在 Tue, 2008-12-16 15:34 提交

百度搜搜文本聚类，找到此文，然后搜搜python，感觉还不容易学呀，不过找到此文，很happy...

文本聚类研究

评论

数据挖掘是这样的

想起来那句，谢谢cctv ，谢谢 mtv。。

百度搜搜文本聚类，找到此文，然后搜搜python，感觉还不

最新评论

最新日志

Topic

我们俩的联系方式

订阅地址