最近一直在研究文本分类。到今天,终于搞出一个收敛的单词聚类算法。
最主要的时间是在磨刀上——前前后后总共差不多有 1 周的时间在看 sogou 分词库的文档,以及给它开发一个 python-binding
然后是差不多花了半天的时间写爬虫,获得最初的文档库
利用"[PDF] WRM :一种基于单词相关度的文档聚类新方法"里介绍的概念计算单词两两之间的相关度
最麻烦的就是利用相关度对单词聚类,论文里介绍的方法好像并不好用。从周二到周日,都在不停的找论文,试验新算法,运行测试,修正... 的循环里度过
失败无数次后,最后在 Fuzzy C-Means Clustering 的指导下,投机取巧的设计了一个方法以及判断收敛的机制,今天下午已经成功的跑完一次聚类到 250 个集合的过程,另一个聚类到 100 个集合的过程虽然比较慢,但在 2 个小时前也已经结束。Oh, my god, 看起来是可以正常工作了。
感谢分词库开发者,感谢搜狗新闻、关键字广告 TEAM 曾给的帮助【尤其是 sogou 的开发包,能返回词的词性... 虽然还有瑕疵,但已经对我帮助很大了】
感谢python, 没有它不可能短时间内把算法体无完肤的改上10几次
感谢《鬼吹灯》,周末的晚上是它让我保持清醒,时不时的去看一眼后台跑的计算过程.
感谢家里人忍受我最近的加班
Topic:
技术
评论
数据挖掘是这样的
我现在也是白天整理数据,晚上笔记本通宵在跑。
想起来那句,谢谢cctv ,谢谢 mtv。。
想起来那句,谢谢cctv ,谢谢 mtv。。
百度搜搜文本聚类,找到此文,然后搜搜python,感觉还不
百度搜搜文本聚类,找到此文,然后搜搜python,感觉还不容易学呀,不过找到此文,很happy...