新闻电讯爬虫。 http://mrdx.cn/

liuyuqi-dellpc fc64b0de08 优化项目结构 2 years ago
bin fc64b0de08 优化项目结构 2 years ago
conf fc64b0de08 优化项目结构 2 years ago
crawl_mrdx fc64b0de08 优化项目结构 2 years ago
data efdb552c5a init 4 years ago
screenshot fc64b0de08 优化项目结构 2 years ago
shell f55227ae78 开启打印 4 years ago
test 3d95ef6752 更改起步日期 4 years ago
utils 7d32cc1fea 修改 README.md 4 years ago
.gitignore fc64b0de08 优化项目结构 2 years ago
README.md fc64b0de08 优化项目结构 2 years ago
main.py fc64b0de08 优化项目结构 2 years ago
requirements.txt efdb552c5a init 4 years ago

README.md

新闻电讯爬虫

初步完成,单线程,文明爬虫(每次爬虫1-3s休息)。

cd my_project_dir
virtualenv -p /opt/python/bin/python3 venv
source venv/bin/activate
pip install -r requirements.txt
python main.py

截图

目前下载到 ./data/20130822/07.pdf ,2275天的资讯日报,总共16G。