python多维向量聚类_K表示n维向量上的聚类。

我将TFIDF应用于文本文档,其中我得到不同长度的n维向量,每个向量对应于一个文档。在texts = [[token for token in text if frequency[token] > 1] for text in texts]

dictionary = corpora.Dictionary(texts)

corpus = [dictionary.doc2bow(text) for text in texts]

lda = models.ldamodel.LdaModel(corpus, num_topics=100, id2word=dictionary)

tfidf = models.TfidfModel(corpus)

corpus_tfidf = tfidf[corpus]

lsi = models.LsiModel(corpus_tfidf, id2word=dictionary, num_topics=100)

corpus_lsi = lsi[corpus_tfidf]

corpus_lda=lda[corpus]

print "TFIDF:"

print corpus_tfidf[1]

print "__________________________________________"

print corpus_tfidf[2]

其输出为:

^{pr2}$

未表示的向量点为0。也就是说(18,…)在向量中不存在,那么它就是0。在

我想在这些向量上应用K均值聚类(Vec1和Vec2)

Scikit的K表示聚类需要等维矩阵形式的向量。对此该怎么办?在


版权声明:本文为weixin_39883433原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明。