文本切分与关键词选择

发表于2024-05-08|更新于2024-05-08|笔记

|总字数:167|阅读时长:1分钟|浏览量:

切分前，需要做的：文本数据采集

通过爬虫可以爬取一些数据，但部分网站有反爬虫机制，可以使用网站开放的软件接口对接方式进行数据汇集

通过底层数据交换进行仿真数据采集，但是只有http协议的未经交换数据加密的网站可以如此，现在网站大多为https协议，从而使网络节点上的监听接口失效

二代爬虫：模拟浏览器采集信息

使用beautiful soup 采集网页内容

语料库：
- 国家语委现代汉语语料库
- anc

文章作者: Flwty

赞助