新闻电讯爬虫。 http://mrdx.cn/

liuyuqi-dellpc 20788980df 0 1 year ago
bin fc64b0de08 优化项目结构 2 years ago
conf fc64b0de08 优化项目结构 2 years ago
crawl_mrdx 20788980df 0 1 year ago
data efdb552c5a init 5 years ago
screenshot fc64b0de08 优化项目结构 2 years ago
shell f55227ae78 开启打印 5 years ago
test 3d95ef6752 更改起步日期 5 years ago
utils 7d32cc1fea 修改 README.md 5 years ago
.gitignore fc64b0de08 优化项目结构 2 years ago
LICENSE 9bdfd1ceee add license 2 years ago
README.md 20788980df 0 1 year ago
main.py 20788980df 0 1 year ago
requirements.txt efdb552c5a init 5 years ago

README.md

新闻电讯爬虫

初步完成,单线程,文明爬虫(每次爬虫1-3s休息)。

cd my_project_dir
virtualenv -p /opt/python/bin/python3 venv
source venv/bin/activate
pip install -r requirements.txt
python main.py --start 20210525 --end 20210525

截图

目前下载到 ./data/20130822/07.pdf ,2275天的资讯日报,总共16G。

History