robotIdentificationTopic/text_analysis/tools/seleniumTest.py

# -*- coding: utf-8 -*-
import time
import threading
from selenium import webdriver
import json
from urllib.parse import urljoin
from kakfa_util import KafkaConsume
from kakfa_util import kafkaProduce
from logUtil import get_logger
from Go_fastDfs import uploadFile
import traceback
import queue
import configparser
import os, sys
import re
logger = get_logger("./logs/crawlWebsrcCode.log")
#加载配置文件
configFile = './config.ini'
# 创建配置文件对象
con = configparser.ConfigParser()
# 读取文件
con.read(configFile, encoding='utf-8')
kafkaConfig = dict(con.items('kafka'))#kafka配置信息
goFastdfsConfig = dict(con.items('goFastdfs'))#goFastdfs配置信息
class Spider(object):
    def __init__(self,url):
        self.chromeOptions = self.get_profile()
        self.browser = self.get_browser()
        self.url = url
    def get_profile(self):
        chromeOptions = webdriver.ChromeOptions()
        chromeOptions.add_argument('--headless')         # 谷歌无头模式
        chromeOptions.add_argument('--disable-gpu')       # 禁用显卡
        # chromeOptions.add_argument('window-size=1280,800')  # 指定浏览器分辨率
        chromeOptions.add_argument("--no-sandbox")
        return chromeOptions

    def get_browser(self):
        browser = webdriver.Chrome("D:\\工作使用\\zhaoshang\\chromedriver.exe",chrome_options=self.chromeOptions)
        return browser

    def _get_page(self,path):
        '''
        获取页面原格式，写入文件并返回路径
        :param path:
        :return:
        '''
        self.browser.get(self.url)
        time.sleep(5)
        logger.info("休眠结束")
        # 向下偏移了10000个像素，到达底部。
        scrollTop = 10000
        for num in range(1,10):
            js = "var q=document.documentElement.scrollTop={}".format(scrollTop*num)
            logger.info("第{}次滚动".format(num))
            self.browser.execute_script(js)
            time.sleep(5)
            # 执行 Chome 开发工具命令，得到mhtml内容
        res = self.browser.execute_cdp_cmd('Page.captureSnapshot', {})
        #获取文章标题
        title = '无标题'
        try:
            title = self.browser.find_element_by_css_selector("title").get_attribute("textContent")
        except Exception as e:
            logger.error('获取标题异常----')
            traceback.print_exc()
        pathName = '{}{}.mhtml'.format(path,title)
        with open(pathName, 'w',newline='') as f:
            f.write(res['data'])
        return pathName,title
if __name__ == '__main__':
    #初始化任务队列
    task_queue = queue.Queue()
    #跟读kafka线程
    logger.info("开启读取kafka线程---")
    t = threading.Thread(target=KafkaConsume, name='LoopThread',args=(kafkaConfig['read_topic'], kafkaConfig['address'], kafkaConfig['group_id'], task_queue,logger))
    t.daemon = True
    t.start()
    #获取任务执行页面原格式保留


    while True:
        try:
            if task_queue.qsize() >0:
                taskStr = task_queue.get()
                logger.info('当前任务：{}'.format(taskStr))
                task = json.loads(taskStr)
                p1 = u'(https?|ftp|file)://[-A-Za-z0-9+&@#/%?=~_|!:,.;]+[-A-Za-z0-9+&@#/%=~_|]'
                pattern1 = re.compile(p1)
                matcher1 = re.search(p1, task['url'])
                if matcher1:
                    l = Spider(task['url'])
                    pathName,title = l._get_page(goFastdfsConfig['path'])
                    l.browser.quit()
                    #gofast 上传，写入kafka
                    if '404 Not Found' in title:
                        logger.error('页面404，无效')
                        resultData = {
                            'code': 500,
                            'id': task['id'],
                            'message': '页面404'
                        }
                        kafkaProduce(kafkaConfig['data_topics'],
                                     json.dumps(resultData).encode('utf-8').decode('unicode_escape').encode(),
                                     kafkaConfig['address'])
                        time.sleep(2)
                        continue
                    try:
                        uploadStr = uploadFile('{}upload'.format(goFastdfsConfig['uploadaddress']),pathName,logger)
                        uploadJson = json.loads(uploadStr)
                    except Exception as e:
                        logger.error('文件上传异常----')
                        traceback.print_exc()
                        resultData = {
                            'code': 500,
                            'id': task['id'],
                            'message': '文件上传失败'
                        }
                        kafkaProduce(kafkaConfig['data_topics'],
                                     json.dumps(resultData).encode('utf-8').decode('unicode_escape').encode(),
                                     kafkaConfig['address'])
                        time.sleep(2)
                        continue
                    resultData = {
                        'code':200,
                        'id':task['id'],
                        'url':goFastdfsConfig['downloadaddress']+uploadJson['path'],
                        'title':title,
                        'delMd5':uploadJson['md5'],
                        'uploadTime':uploadJson['mtime'],
                        'message':'成功'
                    }
                    kafkaProduce(kafkaConfig['data_topics'],json.dumps(resultData).encode('utf-8').decode('unicode_escape').encode(),kafkaConfig['address'])
                    logger.info('数据写入成功')
                    #删除文件
                    if (os.path.exists(pathName)):
                        os.remove(pathName)
                        logger.info('清除文件：{}'.format(pathName))
                    else:
                        logger.info('要删除的文件不存在：{}'.format(pathName))
                else:
                    logger.error('非正确url:'.format(task['url']))
                    resultData = {
                        'code': 500,
                        'id': task['id'],
                        'message': '非正确url'
                    }
                    kafkaProduce(kafkaConfig['data_topics'],
                                 json.dumps(resultData).encode('utf-8').decode('unicode_escape').encode(),
                                 kafkaConfig['address'])
                    time.sleep(2)
                    continue
            else:
                logger.info("暂无任务，进入休眠--")
                time.sleep(10)
        except Exception as e:
            logger.error('未知异常----')
            traceback.print_exc()
            resultData = {
                'code': 500,
                'id': task['id'],
                'message': '未知异常'
            }
            kafkaProduce(kafkaConfig['data_topics'],
                         json.dumps(resultData).encode('utf-8').decode('unicode_escape').encode(),
                         kafkaConfig['address'])
            time.sleep(2)