chromaDB/text_analysis/views.py


								# coding:utf8

								import os, sys

								import io

								from jsonpath_ng import jsonpath, parse

								import uuid

								sys.stdout = io.TextIOWrapper(sys.stdout.buffer, encoding='utf8')

								cur_dir = os.path.dirname(os.path.abspath(__file__)) or os.getcwd()

								par_dir = os.path.abspath(os.path.join(cur_dir, os.path.pardir))

								sys.path.append(cur_dir)

								sys.path.append(par_dir)

								import json

								from django.http import HttpResponse

								from text_analysis.tools import to_kafka

								from django.views.decorators.csrf import csrf_exempt

								from log_util.set_logger import set_logger


								logging = set_logger('logs/results.log')

								import traceback

								import queue

								import requests

								from text_analysis.tools.tool import parse_data

								from text_analysis.chroma1 import LangChainChroma

								import time

								from kazoo.client import KazooClient

								from kazoo.protocol.states import EventType

								import queue

								task_queue = queue.PriorityQueue()

								stop_dict={}

								from text_analysis.read_config import load_config

								config=load_config()


								@csrf_exempt

								def createChroma(request):

								    if request.method == 'POST':

								        try:

								            raw_data = json.loads(request.body)

								            if "trace" in raw_data.keys() and raw_data["trace"]==True:

								                task_queue.put((-1, time.time(),raw_data))

								            else:

								                task_queue.put((1, time.time(),raw_data))

								            return HttpResponse(json.dumps({"code": 1, "msg": "请求正常！"}, ensure_ascii=False))

								        except:

								            logging.error(traceback.format_exc())

								            return HttpResponse(json.dumps({"code": 0, "msg": "请求json格式不正确！"}, ensure_ascii=False))

								    else:

								        return HttpResponse(json.dumps({"code": 0, "msg": "请求方式错误，改为post请求"}, ensure_ascii=False))


								def upload():

								    while True:

								        try:

								            if task_queue.qsize()>0:

								                p,t,raw_data = task_queue.get(timeout=1)

								                logging.info("当前任务队列长度{}".format(task_queue.qsize()+1))

								                output=raw_data["output"]

								                res_tmp={key: "" for key in output}

								                if "id" in res_tmp.keys():

								                    res_tmp["id"]=str(uuid.uuid4())

								                res_tmp["isLast"]=1

								                task_id=raw_data["scenes_id"]

								                task_version=raw_data["version"]

								                logging.info("任务数据为：{}".format(raw_data))

								                logging.info("当前version信息为：{}".format(stop_dict))

								                if task_id in stop_dict.keys() and task_version!=stop_dict[task_id]["version"]:

								                    logging.info("已暂停任务，数据过滤掉")

								                    continue

								                # chunkSize=parse_data(raw_data,raw_data["input"]["chunkSize"])

								                if ':$[' not in raw_data["input"]["content"]:

								                    content=raw_data["input"]["content"]

								                else:

								                    content=parse_data(raw_data,raw_data["input"]["content"])

								                if ':$[' not in raw_data["input"]["fieldName"]:

								                    fieldName=raw_data["input"]["fieldName"]

								                else:

								                    fieldName=parse_data(raw_data,raw_data["input"]["fieldName"])

								                if ':$[' not in raw_data["input"]["dataId"]:

								                    dataId=raw_data["input"]["dataId"]

								                else:

								                    dataId=parse_data(raw_data,raw_data["input"]["dataId"])

								                # dataId=raw_data["dataId"]

								                if content and fieldName and dataId:

								                    vector_db=LangChainChroma(fieldName)

								                    docs=vector_db.text_splitter.split_text(content)

								                    res,db_count=vector_db.add_documents(docs,dataId)

								                    vector_db.db_close()

								                    logging.info('当前数据划分{}个块。数据库{}共有{}个块'.format(len(res), fieldName,db_count))

								                    # res=LC.addChroma(content,fieldName,logging,chunkSize)

								                    res_tmp['resultsID']=res

								                    raw_data["result"] = {"successCode": "", "errorLog": "", "results": ""}

								                    if res:

								                        res_tmp["status"]=1

								                        raw_data["result"]["successCode"] = "1"

								                        raw_data["result"]["status"] = 1

								                        raw_data["result"]["message"] = "成功"

								                    else:

								                        res_tmp["status"]=3

								                        raw_data["result"]["successCode"] = "0"

								                        raw_data["result"]["status"] = 2

								                        raw_data["result"]["message"] = "异常"

								                else:

								                    res_tmp["status"] = 3

								                    raw_data["result"]["successCode"] = "0"

								                    raw_data["result"]["errorLog"] = "请检查content/fieldName/dataId，要求非空"

								                    raw_data["result"]["status"] = 2

								                    raw_data["result"]["message"] = "请检查content/fieldName/dataId，要求非空"


								                res_tmp_json = json.dumps(res_tmp, ensure_ascii=False)

								                raw_data["result"]["results"]=res_tmp_json

								                logging.info("结果数据为：{}".format(raw_data))

								                to_kafka.send_kafka(raw_data, logging)

								            else:

								                # 暂无任务，进入休眠

								                time.sleep(10)

								        except:

								            raw_data["result"]={}

								            raw_data["result"]["successCode"] = "0"

								            raw_data["result"]["errorLog"] = traceback.format_exc()

								            res_tmp["status"] = 3

								            raw_data["result"]["status"] = 2

								            raw_data["result"]["message"] = "异常"

								            raw_data["result"]["results"] = json.dumps(res_tmp, ensure_ascii=False)

								            logging.error(traceback.format_exc())

								            to_kafka.send_kafka(raw_data, logging)


								def zk_monitoring():

								    try:

								        #线上环境

								        zk = KazooClient(hosts=config['zookeeper']['zkhost'])

								        #测试环境

								        # zk = KazooClient(hosts='172.16.12.55:2181,172.16.12.56:2181,172.16.12.57:2181')

								        zk.start()

								        # 设置监听器

								        @zk.DataWatch("/analyze")

								        def watch_node(data, stat, event):

								            if event is not None and event.type == EventType.CHANGED:

								                data, stat = zk.get("/analyze")

								                logging.info("执行删除操作：{}".format(data))

								                d = json.loads(data)

								                id = d["scenes_id"]

								                stop_dict[id] = {}

								                stop_dict[id]["version"] = d["version"]

								                stop_dict[id]["operation"] = d["operation"]

								        # 保持程序运行以监听节点变化

								        try:

								            while True:

								                time.sleep(1)

								        except:

								            logging.info("Stopping...")

								        # 关闭连接

								        zk.stop()

								        zk.close()

								    except:

								        logging.error(traceback.format_exc())