新闻电讯爬虫。 http://mrdx.cn/
初步完成,单线程,文明爬虫(每次爬虫1-3s休息)。
cd my_project_dir virtualenv -p /opt/python/bin/python3 venv source venv/bin/activate pip install -r requirements.txt python main.py
目前下载到 ./data/20130822/07.pdf ,2275天的资讯日报,总共16G。