切分前,需要做的:文本数据采集

通过爬虫可以爬取一些数据,但部分网站有反爬虫机制,可以使用网站开放的软件接口对接方式进行数据汇集

通过底层数据交换进行仿真数据采集,但是只有http协议的未经交换数据加密的网站可以如此,现在网站大多为https协议,从而使网络节点上的监听接口失效

二代爬虫:模拟浏览器采集信息

使用beautiful soup 采集网页内容

语料库:
- 国家语委现代汉语语料库
- anc

词库:
- http://thuocl.thunlp.org/
-