2 years ago · 9597fda8c8
--- a/conf/config.json
+++ b/conf/config.json
@@ -1,5 +1,6 @@
 
															 {
														
 
															     "cookie": "",
														
 
															     "indexPage": "123650",
														
 
															-    "indexDuanziPage": "845"
														
 
															+    "indexDuanziPage": "845",
														
 
															+    "data_dir":"data"
														
 
															 }
														
--- a/crawl_xiaohua/__init__.py
+++ b/crawl_xiaohua/__init__.py
@@ -6,20 +6,26 @@
 
															 @License :   Copyright © 2017-2022 liuyuqi. All Rights Reserved.
														
 
															 @Desc    :   main function
														
 
															 '''
														
 
															-import time,sys,re,os
														
 
															+import time
														
 
															+import sys
														
 
															+import re
														
 
															+import os
														
 
															 from crawl_xiaohua.crawl_xiaohua import CrawlXiaohua
														
 
															+from crawl_xiaohua.extractor.xiaohuar import Xiaohuar
														
 
															 from flask import Flask
														
 
															-def server(config:str, argv=None):
														
 
															+
														
 
															+def server(config: str, argv=None):
														
 
															     ''' web server mode '''
														
 
															     if argv is None:
														
 
															         argv = sys.argv
														
 
															     else:
														
 
															         sys.argv.extend(argv)
														
 
															-    app=Flask(__name__)
														
 
															+    app = Flask(__name__)
														
 
															     app.run()
														
 
															-def run(extractor:str, cmd:str, argv=None):
														
 
															+
														
 
															+def run(extractor: str, cmd: str, argv=None):
														
 
															     ''' shell mode '''
														
 
															     if argv is None:
														
 
															         argv = sys.argv
														
@@ -29,5 +35,8 @@ def run(extractor:str, cmd:str, argv=None):
 
															             crawl.crawlDuanzi()
														
 
															         else:
														
 
															             crawl.crawl()
														
 
															+    elif extractor == 'xiaohuar':
														
 
															+        crawl = Xiaohuar()
														
 
															+        crawl.run()
														
 
															     else:
														
 
															-        print('unknown extractor: %s' % extractor)
														
 
															+        print('unknown extractor: %s' % extractor)
														
--- a/crawl_xiaohua/downloader/DownloadProgress.py
+++ b/crawl_xiaohua/downloader/DownloadProgress.py
--- a/crawl_xiaohua/extractor/base_extractor.py
+++ b/crawl_xiaohua/extractor/base_extractor.py
@@ -6,11 +6,13 @@
 
															 @License :   Copyright © 2017-2022 liuyuqi. All Rights Reserved.
														
 
															 @Desc    :   
														
 
															 '''
														
 
															+import requests
														
 
															+from bs4 import BeautifulSoup
														
 
															 class BaseExtractor(object):
														
 
															     def __init__(self):
														
 
															-        pass
														
 
															+        self.sess=requests.Session()
														
 
															     def download(self):
														
 
															         pass
														
--- a/crawl_xiaohua/extractor/xiaohuar.py
+++ b/crawl_xiaohua/extractor/xiaohuar.py
@@ -9,52 +9,49 @@ import os
 
															 from time import sleep
														
 
															 import random
														
 
															 from urllib import request
														
 
															-
														
 
															-project_dir = "C:/Users/dell/Desktop/xiaohua-crawl"
														
 
															-img_dir = project_dir+"/images"
														
 
															-data_dir = project_dir+"/data"
														
 
															-
														
 
															-
														
 
															-def downloadImg(imgUrl, fileName):
														
 
															-    try:
														
 
															-        headers = {
														
 
															-            'User-Agent': "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.115 Safari/537.36",
														
 
															-            'Referer': 'http://www.xiaohuar.com'
														
 
															-        }
														
 
															-        req = request.Request(url=imgUrl)
														
 
															-        for i in headers:
														
 
															-            req.add_header(i, headers[i])
														
 
															-        res = request.urlopen(req)
														
 
															-        with open(img_dir+"/"+fileName+imgUrl[-4:], "wb") as code:
														
 
															-            code.write(res.read())
														
 
															-#         sleep(random.randint(1,5))
														
 
															-    except Exception as err:
														
 
															-        print(err)
														
 
															-    finally:
														
 
															-        print("pic：" + fileName+".jpg")
														
 
															-
														
 
															-
														
 
															-def __init__():
														
 
															-    if(os.path.exists(img_dir) != True):
														
 
															-        os.mkdir(img_dir)
														
 
															-    if(os.path.exists(data_dir) != True):
														
 
															-        os.mkdir(data_dir)
														
 
															-
														
 
															-
														
 
															-def main():
														
 
															-    file = data_dir+"/result.csv"
														
 
															-    with open(file, 'r') as f:
														
 
															-        #         data=csv.reader(f, csv.excel_tab)
														
 
															-        data = csv.reader(f)
														
 
															-        for row in data:
														
 
															-            imgUrl = ""
														
 
															-            fileName = ""
														
 
															-            for i in range(len(row)):
														
 
															-                fileName = row[4]+"-"+row[3]
														
 
															-                imgUrl = "http://www.xiaohuar.com"+row[2]
														
 
															-
														
 
															-            downloadImg(imgUrl, fileName)
														
 
															-
														
 
															-
														
 
															-__init__()
														
 
															-main()
														
 
															+from crawl_xiaohua.extractor.base_extractor import BaseExtractor
														
 
															+
														
 
															+class Xiaohuar(BaseExtractor):
														
 
															+    ''' extract xiaohuar.com '''
														
 
															+    project_dir = "C:/Users/dell/Desktop/xiaohua-crawl"
														
 
															+    img_dir = project_dir+"/images"
														
 
															+    
														
 
															+    _headers = {
														
 
															+     'User-Agent': "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.115 Safari/537.36",
														
 
															+                'Referer': 'http://www.xiaohuar.com'
														
 
															+            }
														
 
															+    def __init__(self):
														
 
															+        if(os.path.exists(self.img_dir) != True):
														
 
															+            os.mkdir(self.img_dir)
														
 
															+        if(os.path.exists(self.data_dir) != True):
														
 
															+            os.mkdir(self.data_dir)
														
 
															+
														
 
															+    def downloadImg(self, imgUrl, fileName):
														
 
															+        ''' download image
														
 
															+            :param imgUrl: image url
														
 
															+            :param fileName: file name
														
 
															+        '''
														
 
															+        try:
														
 
															+            res = self.sess.get(imgUrl, headers=self._headers)
														
 
															+            with open(self.img_dir+"/"+fileName+imgUrl[-4:], "wb") as file:
														
 
															+                file.write(res.read())
														
 
															+    #         sleep(random.randint(1,5))
														
 
															+        except Exception as err:
														
 
															+            print(err)
														
 
															+        finally:
														
 
															+            print("pic：" + fileName+".jpg")
														
 
															+
														
 
															+    def run(self):
														
 
															+        ''' run '''
														
 
															+        file = self.img_dir+"/result_xiaohuar.csv"
														
 
															+        with open(file, 'r') as f:
														
 
															+            #         data=csv.reader(f, csv.excel_tab)
														
 
															+            data = csv.reader(f)
														
 
															+            for row in data:
														
 
															+                imgUrl = ""
														
 
															+                fileName = ""
														
 
															+                for i in range(len(row)):
														
 
															+                    fileName = row[4]+"-"+row[3]
														
 
															+                    imgUrl = "http://www.xiaohuar.com"+row[2]
														
 
															+
														
 
															+                self.downloadImg(imgUrl, fileName)
														
--- a/main.py
+++ b/main.py
@@ -16,18 +16,12 @@ parser.add_argument('--extractor', type=str, help='extractor name')
 
															 parser.add_argument('--cmd', type=str, help='shell command')
														
 
															 if __name__ == '__main__':
														
 
															-    try:
														
 
															-        args = parser.parse_args()
														
 
															-        if args.command == 'server':
														
 
															-            crawl_xiaohua.server(args.config)
														
 
															-            print('server')
														
 
															-        elif args.command == 'run':
														
 
															-            crawl_xiaohua.run(args.extractor, args.cmd)
														
 
															-        else:
														
 
															-            print('unknown command')
														
 
															-            parser.print_help()
														
 
															-    except Exception as e:
														
 
															-        print(e)
														
 
															+    args = parser.parse_args()
														
 
															+    if args.command == 'server':
														
 
															+        crawl_xiaohua.server(args.config)
														
 
															+        print('server')
														
 
															+    elif args.command == 'run':
														
 
															+        crawl_xiaohua.run(args.extractor, args.cmd)
														
 
															+    else:
														
 
															+        print('unknown command')
														
 
															         parser.print_help()
														
 
															-    finally:
														
 
															-        pass