Spaces:
Running
on
Zero
Running
on
Zero
File size: 2,156 Bytes
37ced70 |
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 |
from fireredtts.modules.text_normalizer.regex_common import *
def contains_chinese(text):
return bool(chinese_regex.search(text))
def strip_kaomoji(text):
return kaomoji_regex.sub(" ", text)
def is_chinese(char):
return chinese_char_regex.match(char)
def is_eng_and_digit(char):
return eng_and_digit_char_regex.match(char)
def is_upper_eng_and_digit(text):
return upper_eng_and_digit_regex.match(text)
def is_valid_char(char):
return valid_char_regex.match(char)
def is_digit(text):
return digit_regex.match(text)
def contains_chinese(text):
return bool(chinese_regex.search(text))
def f2b(ustr, exemption="。,:"):
half = []
for u in ustr:
num = ord(u)
if num == 0x3000:
half.append(" ")
elif u in exemption: # exemption
half.append(u)
elif 0xFF01 <= num <= 0xFF5E:
num -= 0xFEE0
half.append(chr(num))
else:
half.append(u)
return "".join(half)
symbol_reduction = {
"「": '"',
"」": '"',
"`": '"',
"〝": '"',
"〞": '"',
"‟": '"',
"„": '"',
"{": "(",
"}": ")",
"【": "(",
"】": ")",
"〖": "(",
"〗": ")",
"〔": "(",
"〕": ")",
"〘": "(",
"〙": ")",
"《": "(",
"》": ")",
"⦅": "(",
"⦆": ")",
"〚": "(",
"〛": ")",
"『": '"',
"』": '"',
"「": '"',
"」": '"',
"{": "(",
"}": ")",
"〈": "(",
"〉": ")",
"•": "·",
"‧": "·",
"〰": "…",
"﹏": "…",
"〜": "~",
"~": "~",
"+": "+",
"、": "、",
"。": "。",
"︐": ",",
"﹐": ",",
"︑": "、",
"﹑": "、",
"︒": "。",
"︓": ":",
"﹕": ":",
"︔": ";",
"﹔": ";",
"︕": "!",
"﹗": "!",
"︖": "?",
"﹖": "?",
"﹙": "(",
"﹚": ")",
"﹪": "%",
"﹠": "&",
">": ">",
"|": "、",
"=": "=",
"‐": "-",
"‑": "-",
"‒": "-",
"–": "-",
"—": "-",
"―": "-",
"%": "%",
"μ": "u",
}
|