主要是通过中文编码范围匹配:
# -*- coding: utf-8 -*-
import re
import sys
reload(sys)
sys.setdefaultencoding("utf8")
def translate(str):
# 处理前进行相关的处理,包括转换成 Unicode 等
line = str.strip().decode('utf-8', 'ignore')
# 中文的编码范围是 \u4e00 到 \u9fa5
p2 = re.compile(ur'[^\u4e00-\u9fa5]')
zh = " ".join(p2.split(line)).strip()
zh = ",".join(zh.split())
# 经过相关处理后得到中文的文本
outStr = zh
return outStr