第一步：

从下面链接检索所有书籍，分页，分页大于10就存10页。 http://ipac.library.sh.cn/ipac20/ipac.jsp?session=149732O9Q6656.580&menu=search&aspect=basic_search&npp=10&ipp=20&profile=sl&ri=&index=.TW&term=大数据&x=0&y=0&aspect=basic_search

第二步:

第一步每页解析每本书url，存储书目，索书号，馆借记录： http://ipac.library.sh.cn/ipac20/ipac.jsp?session=1M973O24348D8.1202&profile=sl&uri=full=3100001@!4746825@!0&ri=1&aspect=basic_search&menu=search&source=172.16.103.188@!shcl&ipp=20&staffonly=&term=hadoop&index=.TW&uindex=&aspect=basic_search&menu=search&ri=1

第三步：

所得结果，存储数据库。书目列表id，馆借记录（关联书目id）。

第四步：

web搜索，email推送信息。

跑

pip install Scrapy MysqlDB settings.py配置数据库

scrapy crawl docker

License

Licensed under the Apache 2.0 © liuyuqi.gov@msn.cn