文本切分与关键词选择
切分前,需要做的:文本数据采集
通过爬虫可以爬取一些数据,但部分网站有反爬虫机制,可以使用网站开放的软件接口对接方式进行数据汇集
通过底层数据交换进行仿真数据采集,但是只有http协议的未经交换数据加密的网站可以如此,现在网站大多为https协议,从而使网络节点上的监听接口失效
二代爬虫:模拟浏览器采集信息
使用beautiful soup 采集网页内容
语料库:
- 国家语委现代汉语语料库
- anc
词库:
- http://thuocl.thunlp.org/
-
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 Flwty!
评论