MTtranslateService/translate_handler.py

#coding:utf8
import queue_manager
import logging
from dataUtil import get_value
import uuid, json, traceback
import torch
from transformers import M2M100ForConditionalGeneration, M2M100Tokenizer
from langdetect import detect
import global_dict
import time
# 初始化日志
logger = logging.getLogger(__name__)


def translate_process():
    """独立线程处理队列中的 翻译 任务"""
    logger.info("翻译线程启动----")
    device = torch.device("cuda")

    try:
        # 加载模型和分词器
        logger.info("GPU 加载翻译模型")
        model = M2M100ForConditionalGeneration.from_pretrained("/opt/m2m100_1.2B/model").to(device)
        tokenizer = M2M100Tokenizer.from_pretrained("/opt/m2m100_1.2B/tokenizer")
    except Exception as e:
        logger.error(f"加载模型或分词器失败: {e}")
        return

    while global_dict.is_start:
        # 获取任务
        size = queue_manager.get_size()
        if size> 0 :
            task = queue_manager.get_task()
        else:
            logger.info('队列暂无任务-----')
            time.sleep(3)
            continue
        result, results = {}, {}
        try:
            logger.info('task size:{},task:{}'.format(queue_manager.get_size(),task))
            # 根据版本号判断
            scenes_id = str(task['scenes_id'])
            task_version = str(task['version'])
            cache_version = global_dict.global_scenes_manager[scenes_id]
            if not task_version == cache_version:
                logger.info('任务已暂停：{}'.format(task))
                continue

            preTrContent = get_value(task['data'], task['input']['content'])
            from_language = task['input']['fromLanguage']
            to_language = task['input']['toLanguage']

            # 1. 按句子切分
            text_chunks = split_text(preTrContent)

            # 2. 逐段翻译
            translated_chunks = []
            for chunk in text_chunks:
                translated_text = translate_text(model, tokenizer, chunk, from_language, to_language, device)
                translated_chunks.append(translated_text)

            # 3. 合并翻译结果
            translated_text = "".join(translated_chunks)
            results.update({
                'isLast': True,
                'content': translated_text,
                'srcContent': preTrContent,
                'id': str(uuid.uuid4())
            })
            result.update({
                'results': json.dumps(results),
                'status': 1,
                'message': '成功'
            })
            task['result'] = result
        except Exception as e:
            logger.error(f"翻译失败: {e}")
            traceback.print_exc()
            results.update({
                'isLast': True,
                'id': str(uuid.uuid4())
            })
            result.update({
                'results': json.dumps(results),
                'status': 2,
                'message': '翻译失败'
            })
        finally:
            # 标记任务完成并发送到 Kafka
            queue_manager.task_done(task)
            # 可选：清理缓存
            torch.cuda.empty_cache()


def split_text(text):
    return [s.strip() for s in text.replace(".", ".\n").replace("!", "!\n").replace("?", "?\n").splitlines() if
            s.strip()]


def translate_text(model, tokenizer, text_chunk, src_lang, tgt_lang, device):
    if 'auto' in src_lang:
        # 自动检测源语言
        src_lang = detect(text_chunk)
        logging.info('语种未知，模型自动识别语种为：{}'.format(src_lang))
    tokenizer.src_lang = src_lang
    try:
        with torch.no_grad():  # 禁用梯度计算
            encoded_input = tokenizer(text_chunk, return_tensors="pt", truncation=True, max_length=900)
            encoded_input = {k: v.to(device) for k, v in encoded_input.items()}
            generated_tokens = model.generate(**encoded_input, forced_bos_token_id=tokenizer.get_lang_id(tgt_lang))
            translated_text = tokenizer.decode(generated_tokens[0], skip_special_tokens=True)
        return translated_text
    except Exception as e:
        logger.error(f"翻译过程中出错: {e}")
        return ""