【语言处理与Python】3.6规范化文本

词干提取器

porter=nltk.PorterStemmer()

lancaster=nltk.LancasterStemmer()

[porter.stem(t) for t in tokens]

[lancaster.stem(t) for t in tokens]

 

 

词形归并

#WordNet词形归并器删除词缀产生的词

wnl=nltk.WordNetLemmatizer()

[wnl.lemmatize(t) for t in tokens]

 

转载于:https://www.cnblogs.com/createMoMo/archive/2013/05/24/3097123.html