Python 提取文本中的中文


主要是通过中文编码范围匹配

# -*- coding: utf-8 -*-
import re
import sys

reload(sys)
sys.setdefaultencoding("utf8")

def translate(str):
    # 处理前进行相关的处理 包括转换成 Unicode 等
    line = str.strip().decode('utf-8', 'ignore')
    # 中文的编码范围是 \u4e00 到 \u9fa5
    p2 = re.compile(ur'[^\u4e00-\u9fa5]')
    zh = " ".join(p2.split(line)).strip()
    zh = ",".join(zh.split())
    # 经过相关处理后得到中文的文本
    outStr = zh
    return outStr
分享:

评论