我将TFIDF应用于文本文档,其中我得到不同长度的n维向量,每个向量对应于一个文档。在texts = [[token for token in text if frequency[token] > 1] for text in texts]
dictionary = corpora.Dictionary(texts)
corpus = [dictionary.doc2bow(text) for text in texts]
lda = models.ldamodel.LdaModel(corpus, num_topics=100, id2word=dictionary)
tfidf = models.TfidfModel(corpus)
corpus_tfidf = tfidf[corpus]
lsi = models.LsiModel(corpus_tfidf, id2word=dictionary, num_topics=100)
corpus_lsi = lsi[corpus_tfidf]
corpus_lda=lda[corpus]
print "TFIDF:"
print corpus_tfidf[1]
print "__________________________________________"
print corpus_tfidf[2]
其输出为:
^{pr2}$
未表示的向量点为0。也就是说(18,…)在向量中不存在,那么它就是0。在
我想在这些向量上应用K均值聚类(Vec1和Vec2)
Scikit的K表示聚类需要等维矩阵形式的向量。对此该怎么办?在
版权声明:本文为weixin_39883433原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明。