Python通过标点符号断句
# 常见的断句标点
text = '小明说:"我将来想成为科学家."'
punc = """,.?!;: 、|,。?!;:《》「」【】/<>|\“ ”‘ ’"""
punc_re = '|'.join(re.escape(x) for x in punc)
tokens = re.sub(punc_re, lambda x: ' ' + x.group() + ' ', text)
tokens = tokens.split()
结果:
[‘小明说’, ‘:’, ‘"’, ‘我将来想成为科学家’, ‘.’, ‘"’]
版权声明:本文为weixin_43684570原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明。