自然语言处理中文本的token和tokenization
1.1 概念和工具的介绍
tokenization
就是通常所说的分词,分出的每一个词语我们把它称为token
。
常见的分词工具很多,比如:
jieba分词:https://github.com/fxsjy/jieba
清华大学的分词工具THULAC:
https://github.com/thunlp/THULAC-Python
1.2 中英文分词的方法
把句子转化为词语
比如:
我爱深度学习
可以分为[我,爱, 深度学习]
把句子转化为单个字
比如:
我爱深度学习
的token是[我,爱,深,度,学,习]
版权声明:本文为weixin_44799217原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明。