DroneMind/voice_drone/core/wake_word.py

"""
唤醒词检测模块 - 高性能实时唤醒词识别

支持：
- 精确匹配
- 模糊匹配（同音字、拼音）
- 部分匹配
- 配置化变体映射

性能优化：
- 预编译正则表达式
- LRU缓存匹配结果
- 优化字符串操作
"""

import re
from typing import Optional, List, Tuple
from functools import lru_cache
from voice_drone.logging_ import get_logger
from voice_drone.core.configuration import (
    WAKE_WORD_PRIMARY,
    WAKE_WORD_VARIANTS,
    WAKE_WORD_MATCHING_CONFIG
)

logger = get_logger("wake_word")

# 延迟加载可选依赖
try:
    from pypinyin import lazy_pinyin, Style
    PYPINYIN_AVAILABLE = True
except ImportError:
    PYPINYIN_AVAILABLE = False
    logger.warning("pypinyin 未安装,拼音匹配功能将受限")


class WakeWordDetector:
    """
    唤醒词检测器

    支持多种匹配模式：
    - 精确匹配：完全匹配唤醒词
    - 模糊匹配：同音字、拼音变体
    - 部分匹配：只匹配部分唤醒词
    """

    def __init__(self):
        """初始化唤醒词检测器"""
        logger.info("初始化唤醒词检测器...")

        # 从配置加载
        self.primary = WAKE_WORD_PRIMARY
        self.variants = WAKE_WORD_VARIANTS or []
        self.matching_config = WAKE_WORD_MATCHING_CONFIG or {}

        # 匹配配置
        self.enable_fuzzy = self.matching_config.get("enable_fuzzy", True)
        self.enable_partial = self.matching_config.get("enable_partial", True)
        self.ignore_case = self.matching_config.get("ignore_case", True)
        self.ignore_spaces = self.matching_config.get("ignore_spaces", True)
        self.min_match_length = self.matching_config.get("min_match_length", 2)
        self.similarity_threshold = self.matching_config.get("similarity_threshold", 0.7)

        # 构建匹配模式
        self._build_patterns()

        logger.info(f"唤醒词检测器初始化完成")
        logger.info(f"  主唤醒词: {self.primary}")
        logger.info(f"  变体数量: {len(self.variants)}")
        logger.info(f"  模糊匹配: {'启用' if self.enable_fuzzy else '禁用'}")
        logger.info(f"  部分匹配: {'启用' if self.enable_partial else '禁用'}")

    def _build_patterns(self):
        """构建匹配模式（预编译正则表达式）"""
        # 标准化所有变体（去除空格、转小写等）
        self.normalized_variants = []

        for variant in self.variants:
            normalized = self._normalize_text(variant)
            if normalized:
                self.normalized_variants.append(normalized)

        # 去重
        self.normalized_variants = list(set(self.normalized_variants))

        # 按长度降序排序（优先匹配长模式）
        self.normalized_variants.sort(key=len, reverse=True)

        # 构建正则表达式模式
        patterns = []
        for variant in self.normalized_variants:
            # 转义特殊字符
            escaped = re.escape(variant)
            patterns.append(escaped)

        # 编译单一正则表达式
        if patterns:
            self.pattern = re.compile('|'.join(patterns), re.IGNORECASE if self.ignore_case else 0)
        else:
            self.pattern = None

        logger.debug(f"构建了 {len(self.normalized_variants)} 个匹配模式")

    def _normalize_text(self, text: str) -> str:
        """
        标准化文本（用于匹配）

        Args:
            text: 原始文本

        Returns:
            标准化后的文本
        """
        if not text:
            return ""

        normalized = text

        # 忽略大小写
        if self.ignore_case:
            normalized = normalized.lower()

        # 忽略空格
        if self.ignore_spaces:
            normalized = normalized.replace(' ', '').replace('\t', '').replace('\n', '')

        return normalized.strip()

    def _get_pinyin(self, text: str) -> str:
        """
        获取文本的拼音（用于拼音匹配）

        Args:
            text: 中文文本

        Returns:
            拼音字符串（小写,无空格）
        """
        if not PYPINYIN_AVAILABLE:
            return ""

        try:
            pinyin_list = lazy_pinyin(text, style=Style.NORMAL)
            return ''.join(pinyin_list).lower()
        except Exception as e:
            logger.debug(f"拼音转换失败: {e}")
            return ""

    def _fuzzy_match(self, text: str, variant: str) -> bool:
        """
        模糊匹配（同音字、拼音）

        Args:
            text: 待匹配文本
            variant: 变体文本

        Returns:
            是否匹配
        """
        # 1. 精确匹配（已标准化）
        normalized_text = self._normalize_text(text)
        normalized_variant = self._normalize_text(variant)

        if normalized_text == normalized_variant:
            return True

        # 2. 拼音匹配
        if PYPINYIN_AVAILABLE:
            text_pinyin = self._get_pinyin(text)
            variant_pinyin = self._get_pinyin(variant)

            if text_pinyin and variant_pinyin:
                # 完全匹配拼音
                if text_pinyin == variant_pinyin:
                    return True

                # 部分匹配拼音（至少匹配一半）
                if len(variant_pinyin) >= 2:
                    # 检查是否包含变体的拼音
                    if variant_pinyin in text_pinyin or text_pinyin in variant_pinyin:
                        # 计算相似度
                        similarity = min(len(variant_pinyin), len(text_pinyin)) / max(len(variant_pinyin), len(text_pinyin))
                        if similarity >= self.similarity_threshold:
                            return True

        # 3. 字符级相似度匹配（简单实现）
        if len(normalized_text) >= self.min_match_length and len(normalized_variant) >= self.min_match_length:
            # 检查是否包含变体
            if normalized_variant in normalized_text or normalized_text in normalized_variant:
                return True

        return False

    def _partial_match(self, text: str) -> bool:
        """
        部分匹配(只匹配部分唤醒词,如主词较长时取前半段；短词请在配置 variants 中列出)

        Args:
            text: 待匹配文本

        Returns:
            是否匹配
        """
        if not self.enable_partial:
            return False

        normalized_text = self._normalize_text(text)

        # 检查是否包含主唤醒词的一部分
        if self.primary:
            # 提取主唤醒词的前半部分（如四字词可拆成前两字）
            primary_normalized = self._normalize_text(self.primary)
            if len(primary_normalized) >= self.min_match_length * 2:
                half_length = len(primary_normalized) // 2
                half_wake_word = primary_normalized[:half_length]

                if len(half_wake_word) >= self.min_match_length:
                    if half_wake_word in normalized_text:
                        return True

        return False

    @lru_cache(maxsize=256)
    def detect(self, text: str) -> Tuple[bool, Optional[str]]:
        """
        检测文本中是否包含唤醒词

        Args:
            text: 待检测文本

        Returns:
            (是否匹配, 匹配到的唤醒词)
        """
        if not text or not self.pattern:
            return False, None

        normalized_text = self._normalize_text(text)

        # 1. 精确匹配（使用正则表达式）
        if self.pattern:
            match = self.pattern.search(normalized_text)
            if match:
                matched_text = match.group(0)
                logger.debug(f"精确匹配到唤醒词: {matched_text}")
                return True, matched_text

        # 2. 模糊匹配（同音字、拼音）
        if self.enable_fuzzy:
            for variant in self.normalized_variants:
                if self._fuzzy_match(normalized_text, variant):
                    logger.debug(f"模糊匹配到唤醒词变体: {variant}")
                    return True, variant

        # 3. 部分匹配
        if self._partial_match(normalized_text):
            logger.debug(f"部分匹配到唤醒词")
            return True, self.primary[:len(self.primary)//2] if self.primary else None

        return False, None

    def extract_command_text(self, text: str) -> Optional[str]:
        """
        从文本中提取命令部分（移除唤醒词）

        Args:
            text: 包含唤醒词的完整文本

        Returns:
            提取的命令文本,如果未检测到唤醒词返回None
        """
        is_wake, matched_wake_word = self.detect(text)

        if not is_wake:
            return None

        # 标准化文本用于查找
        normalized_text = self._normalize_text(text)
        normalized_wake = self._normalize_text(matched_wake_word) if matched_wake_word else ""

        if not normalized_wake or normalized_wake not in normalized_text:
            return None

        # 找到唤醒词在标准化文本中的位置
        idx = normalized_text.find(normalized_wake)
        if idx < 0:
            return None

        # 方法1：尝试在原始文本中精确查找匹配的变体
        original_text = text
        text_lower = original_text.lower()

        # 查找所有可能的变体在原始文本中的位置
        best_match_idx = -1
        best_match_length = 0

        # 检查配置中的所有变体
        for variant in self.variants:
            variant_normalized = self._normalize_text(variant)
            if variant_normalized == normalized_wake:
                # 这个变体匹配到了,尝试在原始文本中找到它
                variant_lower = variant.lower()
                if variant_lower in text_lower:
                    variant_idx = text_lower.find(variant_lower)
                    if variant_idx >= 0:
                        # 选择最长的匹配（更准确）
                        if len(variant) > best_match_length:
                            best_match_idx = variant_idx
                            best_match_length = len(variant)

        # 如果找到了匹配的变体
        if best_match_idx >= 0:
            command_start = best_match_idx + best_match_length
            command_text = original_text[command_start:].strip()
            # 移除开头的标点符号
            command_text = command_text.lstrip(',。、,.').strip()
            return command_text if command_text else None

        # 方法2：回退方案 - 使用字符计数近似定位
        # 计算标准化文本中唤醒词结束位置对应的原始文本位置
        wake_end_in_normalized = idx + len(normalized_wake)

        # 计算原始文本中对应的字符位置
        char_count = 0
        for i, char in enumerate(original_text):
            normalized_char = self._normalize_text(char)
            if normalized_char:
                if char_count >= wake_end_in_normalized:
                    command_text = original_text[i:].strip()
                    command_text = command_text.lstrip(',。、,.').strip()
                    return command_text if command_text else None
                char_count += 1

        return None


# 全局单例
_global_detector: Optional[WakeWordDetector] = None


def get_wake_word_detector() -> WakeWordDetector:
    """获取全局唤醒词检测器实例（单例模式）"""
    global _global_detector
    if _global_detector is None:
        _global_detector = WakeWordDetector()
    return _global_detector


if __name__ == "__main__":
    # 测试代码
    detector = WakeWordDetector()

    test_cases = [
        ("无人机,现在起飞", True),
        ("wu ren ji 现在起飞", True),
        ("Wu Ren Ji 现在起飞", True),
        ("五人机,现在起飞", True),
        ("现在起飞", False),
        ("无人,现在起飞", True),  # 变体列表中的短说
        ("人机 前进", False),  # 已移除单独「人机」变体，避免子串误唤醒
        ("无人机 前进", True),
    ]

    print("=" * 60)
    print("唤醒词检测测试")
    print("=" * 60)

    for text, expected in test_cases:
        is_wake, matched = detector.detect(text)
        command_text = detector.extract_command_text(text)
        status = "OK" if is_wake == expected else "FAIL"
        print(f"{status} 文本: {text}")
        print(f"   匹配: {is_wake} (期望: {expected})")
        print(f"   匹配词: {matched}")
        print(f"   提取命令: {command_text}")
        print()