Xlsx Controller

TauWu · TauWu · commit a4eb3b6a66f6 · 2018-07-31T17:37:35.000+08:00
diff --git a/.gitignore b/.gitignore
@@ -9,3 +9,5 @@ sys.cfg
 
 test/
 
+*.xlsx
+nohup.out
diff --git a/crawler_main.py b/crawler_main.py
@@ -17,4 +17,5 @@
     if len(argv) == 1: crawler_name = "sample"
     elif len(argv) == 2: crawler_name = argv[1]
     
-    crawler = Do(crawler_name)
+    crawler = Do(crawler_name)
+    crawler.rds_to_xlsx("{}.xlsx".format(crawler_name), crawler_name)
diff --git a/crawler_test.py b/crawler_test.py
@@ -0,0 +1,21 @@
+# -*- coding: utf-8 -*-
+from util.xlsx.reader import XlsxReader
+from util.xlsx.writer import write_xlsx
+import re, json
+
+if __name__ == "__main__":
+    keys = [
+        'lat', 'busi_area', 'payment', 'floor',
+        'house_id', 'price', 'house_type', 'area',
+        'lng', '月付', '季付', '半年付', '年付'        
+    ]
+    reader = XlsxReader("ziroom.xlsx")
+    v = reader.get_sheet_data("ziroom")
+
+    with write_xlsx("ziroom_clean.xlsx", "ziroom") as f:
+        for s in v:
+            for idx, sv in enumerate(s):
+                if idx == 1 and sv is not None:
+                    [s.append(x) for x in json.loads(sv.replace('\'','\"'))]
+            s.pop(1)
+            f.write_dict(dict(zip(keys, s)))
diff --git a/do/do.py b/do/do.py
@@ -4,6 +4,7 @@
 from module.request.http import HTTPListRequest, HTTPDetailRequest
 from module.parser.detail import ParserDetail
 from module.parser.list import ParserList
+from module.output.rds_to_xlsx import RdsToXlsx
 
 from util.redis import RedisController
 
@@ -33,7 +34,7 @@ def __init__(self, crawler_name):
         # init
         self.__load__
 
-        self.do()       # debug code
+        # self.do()       # debug code
 
     def do(self):
         '''do
@@ -93,4 +94,7 @@ def __parser_detail__(self):
         Parse the data from req of detail websites/APIs
         '''
         parser = ParserDetail(self.detail_res_iter, self.crawler_conf, self.rds)
-        parser.save
+        parser.save
+
+    def rds_to_xlsx(self, file_name, sheet_name):
+        RdsToXlsx.save(self.rds, file_name, sheet_name)
diff --git a/module/output/rds_to_xlsx.py b/module/output/rds_to_xlsx.py
@@ -0,0 +1,13 @@
+# -*- coding: utf-8 -*-
+
+from util.redis import RedisController
+from util.xlsx.writer import write_xlsx
+import json
+
+class RdsToXlsx():
+
+    @staticmethod
+    def save(rds, file_name, sheet_name):
+        with write_xlsx(file_name, sheet_name) as x:
+            for data in rds.rscan:
+                x.write_dict(json.loads(data[1]))
diff --git a/module/request/http.py b/module/request/http.py
@@ -57,7 +57,7 @@ def list_res_iter(self):
                         finally:                    
                             yield res
 
-                    if cursor > int(total):                   
+                    if cursor > int(total):
                         break
 
                     # break   # debug code
@@ -96,28 +96,22 @@ def __mutil_req__(method, mutil, crawler, **kwargs):
         req with different config.
         '''
         if 'cpath' in kwargs:
-            cpath       = kwargs['cpath']
+            cpath      = kwargs['cpath']
 
         if 'params' in crawler.keys():
-            params      = int(crawler['params'])
+            params     = int(crawler['params'])
 
         if 'list_url' in crawler.keys():
-            url_tpl     = crawler['list_url']
-
-        # if 'childpath' in crawler.keys():
-        #     childpath   = crawler['childpath'].split('.')
+            url_tpl    = crawler['list_url']
 
         if 'pageshow' in crawler.keys():
             pageshow   = int(crawler['pageshow'])
 
         if 'data' in crawler.keys():
-            data = json.loads(crawler['data'])
+            data       = json.loads(crawler['data'])
 
         if 'data_key' in crawler.keys():
-            data_key = json.loads(crawler['data_key'])
-
-        # if 'total'     in crawler.keys():
-        #     totaler     = crawler['total']
+            data_key   = json.loads(crawler['data_key'])
 
         if method == 1:
             yield from HTTPListRequest.__req_get_api__(mutil, url_tpl, params)
diff --git a/util/common/tools.py b/util/common/tools.py
@@ -19,6 +19,4 @@ def finder(result, find):
         return result
     except Exception as e:
         print("Err:{}********\n{}\n{}\n".format(e, result, find))
-        raise e
-
-# def lxmlfinder()
+        raise e
diff --git a/util/xlsx/reader.py b/util/xlsx/reader.py
@@ -0,0 +1,72 @@
+# -*- coding: utf-8 -*-
+
+from openpyxl import load_workbook
+
+class XlsxReader():
+
+    def __init__(self, filename):
+        self._wb = load_workbook(filename)
+
+    @property
+    def sheetnames(self):
+        return self._wb.sheetnames
+
+    def get_sheet_content(self, sheetname):
+        return self._wb[sheetname]
+
+    def get_titles(self, sheetname):
+        return [title.value for title in self.get_sheet_content(sheetname)["1"]]
+
+    @property
+    def titles(self):
+        '''迭代取'''
+        for sheetname in self.sheetnames:
+            yield {sheetname:self.get_titles(sheetname)}
+    
+    @property
+    def titles_dict(self):
+        '''全量字典'''
+        title_dict = dict()
+        for y in self.titles:
+            title_dict = dict(title_dict, **y)
+        return title_dict
+
+    def max_row(self, sheetname):
+        return self.get_sheet_content(sheetname).max_row
+
+    def max_column(self, sheetname):
+        return self.get_sheet_content(sheetname).max_column
+
+    def get_sheet_data(self, sheetname):
+        '''获取某一张表的所有内容'''
+        for idx in range(2, self.max_row(sheetname)+1):
+            yield [content.value for content in self.get_sheet_content(sheetname)[idx]]
+    
+    def get_sheet_contents(self, sheetname):
+        '''获取某一张表的所有内容'''
+        sheet_data = self.get_sheet_data(sheetname)
+        for data in sheet_data:
+            if data[0] is not None:
+                yield {str(data[0]):data[1:]}
+    
+    def get_sheet_content_dict(self, sheetname):
+        '''获取某一张表内容的全量字典'''
+        return [y for y in self.get_sheet_contents(sheetname)]
+
+    @property
+    def contents(self):
+        '''全文件data'''
+        for sheetname in self.sheetnames:
+            yield {sheetname:self.get_sheet_content_dict(sheetname)}
+    
+    @property
+    def contents_dict(self):
+        return [y for y in self.contents]
+
+if __name__ == "__main__":
+    x = XlsxReader("./test.xlsx")
+    print(x.sheetnames)
+    print(x.get_titles("1"))
+    print(x.titles_dict)
+    print(x.get_sheet_content_dict("1"))
+    print(x.contents_dict)
diff --git a/util/xlsx/writer.py b/util/xlsx/writer.py
@@ -0,0 +1,60 @@
+# -*- coding: utf-8 -*-
+
+from openpyxl import Workbook
+from .reader import XlsxReader
+import os
+
+class XlsxWriter(XlsxReader):
+
+    def __init__(self, filename, sheetname):
+        self.filename       = filename
+        self.sheetname      = sheetname
+        XlsxReader.__init__(self, filename)
+        self._sheet         = self._wb.active
+        self._title         = {t:chr(i+65) for i, t in enumerate(self.titles_dict[sheetname])}
+        self._title_cur     = len(self._title.keys())
+        self._cur           = len(self.get_sheet_content_dict(self.sheetname)) + 2
+
+    def __enter__(self):
+        print("*****")
+        return self
+
+    def __exit__(self, type, value, traceback):
+        self._wb.save(self.filename)
+
+    def write_dict(self, data):
+        self.write_title(data)
+        self.write_data(data)
+
+    def write_title(self, data):
+        for k in data.keys():
+            if k not in self._title.keys():
+                self._title[k] = chr(65+self._title_cur)
+                self._title_cur += 1
+        for k, v in zip(self._title.keys(), self._title.values()):
+            self._sheet["%s%d"%(v, 1)] = k
+    
+    def write_data(self, data):
+        for k, v in zip(data.keys(), data.values()):
+            self._sheet["%s%d"%(self._title[k], self._cur)] = str(v)
+        self._cur += 1
+        
+
+def write_xlsx(filename, sheetname):
+    if not os.path.exists(filename):
+        wb = Workbook()
+        st = wb.active
+        st.title = sheetname
+        wb.save(filename)
+        
+    return XlsxWriter(filename, sheetname)
+
+if __name__ == "__main__":
+    with write_xlsx("./test.xlsx", "test") as x:
+        x.write_dict(
+            {
+                "test1":'Test1',
+                "test2":'Test2',
+                "house_id":1230601
+            }
+        )

Original file line number	Diff line number	Diff line change
`@@ -9,3 +9,5 @@ sys.cfg`
`9`	`9`
`10`	`10`	`test/`
`11`	`11`
	`12`	`+*.xlsx`
	`13`	`+nohup.out`