8 years ago · c5612a9805
--- a/requirements.txt
+++ b/requirements.txt
@@ -0,0 +1 @@
 
				+Scrapy==1.3.3
			
--- a/README.md
+++ b/README.md
@@ -10,4 +10,8 @@ http://ipac.library.sh.cn/ipac20/ipac.jsp?session=1M973O24348D8.1202&profile=sl&
 
				 web搜索，email推送信息。
			
 
				 
			
 
				 # 跑
			
 
				-scrapy crawl docker
			
 
				+pip install Scrapy MysqlDB 
			
 
				+settings.py配置数据库
			
 
				+
			
 
				+scrapy crawl docker
			
 
				+
			
--- a/shlib/items.py
+++ b/shlib/items.py
@@ -13,18 +13,12 @@ class ShlibItem(scrapy.Item):
 
				     # define the fields for your item here like:
			
 
				     # name = scrapy.Field()
			
 
				     #书名
			
 
				-    book_name=Field()
			
 
				-    
			
 
				-    book_desc=Field()
			
 
				-    
			
 
				-    book_name=Field()
			
 
				-    
			
 
				-    book_name=Field()
			
 
				-    
			
 
				-    book_name=Field()
			
 
				-    
			
 
				-    book_name=Field()
			
 
				-    
			
 
				-    book_name=Field()
			
 
				-    
			
 
				-    book_name=Field()
			
 
				+    book_id=Field()
			
 
				+    bookname=Field()
			
 
				+    url=Field()
			
 
				+    desc=Field()
			
 
				+    address=Field()
			
 
				+    booknum=Field()
			
 
				+    status=Field()
			
 
				+    type=Field()
			
 
				+    barcode=Field()
			
--- a/shlib/pipelines.py
+++ b/shlib/pipelines.py
@@ -13,10 +13,9 @@ class ShlibPipeline(object):
 
				         DBKWARGS = spider.settings.get('DBKWARGS')
			
 
				         MySQLdb.connect(**DBKWARGS)
			
 
				         cur = con.cursor()
			
 
				-        sql = ("insert into proxy(IP,PORT,TYPE,POSITION,SPEED,LAST_CHECK_TIME) "
			
 
				-            "values(%s,%s,%s,%s,%s,%s)")
			
 
				-        lis = (item['IP'],item['PORT'],item['TYPE'],item['POSITION'],item['SPEED'],
			
 
				-            item['LAST_CHECK_TIME'])
			
 
				+        sql = ("insert into bookinfo(`bookid`, `bookname`, `url`, `desc`, `address`, `booknum`, `status`, `type`, `barcode`) VALUES (%s,%s,%s,%s,%s,%s,%s,%s,%s)")
			
 
				+        lis = (item['book_id'],item['bookname'],item['url'],item['desc'],item['address'],
			
 
				+               item['booknum'],item['status'],item['type'],item['barcode'])
			
 
				         try:
			
 
				             cur.execute(sql,lis)
			
 
				         except Exception,e:
			
--- a/shlib/spiders/docker.py
+++ b/shlib/spiders/docker.py
@@ -5,15 +5,24 @@ from boto.beanstalk.response import Response
 
				 
			
 
				 class DockerSpider(scrapy.Spider):
			
 
				     name = 'docker'
			
 
				+    keyword=['docker','hadoop','区块链','android','人工智能','python']
			
 
				     allowed_domains = ['http://ipac.library.sh.cn']
			
 
				-    start_urls = ['http://http://ipac.library.sh.cn/']
			
 
				+    start_urls = ['http://ipac.library.sh.cn/ipac20/ipac.jsp']
			
 
				 
			
 
				     def parse(self, response):
			
 
				         for href in response.css('.question'):
			
 
				             full_url=response.urljoin(href.extract())
			
 
				             yield scrapy.Request(full_url,callback=self.parse_question)
			
 
				+    
			
 
				     def start_request(self):
			
 
				         res=[]
			
 
				+        
			
 
				+        for i in range(1,10):
			
 
				+            req=scrapy.Request("http://ipac.library.sh.cn/ipac20/ipac.jsp?session=F4H74295589B7.106&menu=search&aspect=basic_search&npp=10&ipp=20&profile=sl&ri=1&source=172.16.103.188%40%21shcl&index=.TW&x=0&y=0&aspect=basic_search&term=%s"%i)
			
 
				+            reqs.append(req)
			
 
				+        
			
 
				+        return reqs
			
 
				+    
			
 
				     def parse_question(self,response):
			
 
				         yield{
			
 
				               'title':response.css('h1').extract()[0],
			
@@ -21,4 +30,6 @@ class DockerSpider(scrapy.Spider):
 
				               'title':response.css('h1').extract()[0],
			
 
				               'title':response.css('h1').extract()[0]
			
 
				               }
			
 
				-        
			
 
				+
			
 
				+
			
 
				+