## 新闻电讯爬虫 初步完成,单线程,文明爬虫(每次爬虫1-3s休息)。 ``` cd my_project_dir virtualenv -p /opt/python/3.8.5/bin/python3 .venv source .venv/bin/activate pip install -r requirements.txt # method 1 python main.py --start 20230822 --end 20230823 # method 2,先配置 conf/config.json python main.py ``` Ubuntu 打包: ``` pip install pyinstaller pyinstaller -F -c main.py ``` docker 打包: ``` docker run -it --rm -v /data/crawl_mrdx:/app jianboy/crawl_mrdx:v1.0.5 ``` ### 截图 ![](screenshot/1.jpg) 目前下载到 ./data/20130822/07.pdf ,2275天的资讯日报,总共16G。 ## History ``` python main.py --start 20220822 --end 20230823 ```