结巴分词添加自定义词典,有时候很有必要。比如下面这段话:
test_text = """
我们的健康码也是绿色的,
这凭什么就限制我们的就医!
"""如果使用默认的分词,那么,“健康码”这个词会分成“健康”和“码”

这里可以使用词典方式,添加自定义词典。
新建一个txt文件,在文件里输入“健康码”

以utf-8形式保存,这里使用pycharm,默认就是utf8.不用管。
然后使用
jieba.load_userdict(os.path.join(wk_dir, "jiebaDict.txt"))wk_dir是词典放置的目录,词典文件名默认为jiebaDict.txt.
再一次分词,就可以得到这个结果。

如果不想用这个词作为一整个词,下次分词时,还是想,健康, 和码分开,那么就使用
jieba.del_word("健康码")那么自定义词典的文件就没有这个词。下次分词还是会按照默认的方式,分成“健康”,“码”
如果还想添加其他的,那么可以打开jiebaDict.txt文件,一行一行添加想要添加的自定义词典。
或者使用
jieba.add_word("凭什么"):

自定义词典,应该是每次使用都需要手动加载,不然不会发挥作用。
版权声明:本文为weixin_40340586原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明。