这几天在网上发现上图很多需要的书都被外借了,新建此scrapy抓取上海图书馆的指定分类的书籍项目,部署到云端,时时抓取可借书籍,邮件推送消息!
liuyuqi-dellpc 35c40e5a8c Automatic Commit By liuyuqi | 3 months ago | |
---|---|---|
shlib | 7 years ago | |
requirements.txt | 7 years ago | |
.gitignore | 7 years ago | |
LICENSE | 2 years ago | |
README.md | 3 months ago | |
scrapy.cfg | 7 years ago |
从下面链接检索所有书籍,分页,分页大于10就存10页。 http://ipac.library.sh.cn/ipac20/ipac.jsp?session=149732O9Q6656.580&menu=search&aspect=basic_search&npp=10&ipp=20&profile=sl&ri=&index=.TW&term=大数据&x=0&y=0&aspect=basic_search
第一步每页解析每本书url,存储书目,索书号,馆借记录: http://ipac.library.sh.cn/ipac20/ipac.jsp?session=1M973O24348D8.1202&profile=sl&uri=full=3100001@!4746825@!0&ri=1&aspect=basic_search&menu=search&source=172.16.103.188@!shcl&ipp=20&staffonly=&term=hadoop&index=.TW&uindex=&aspect=basic_search&menu=search&ri=1
所得结果,存储数据库。书目列表id,馆借记录(关联书目id)。
web搜索,email推送信息。
pip install Scrapy MysqlDB settings.py配置数据库
scrapy crawl docker
Licensed under the Apache 2.0 © liuyuqi.gov@msn.cn