Textrank

  大体流程:(无监督方法)

  1. 每个 Sentence 之间视为一个 Webpage 的关系图 ——》然后转化为向量的形式
  2. 为了计算句子间的关系,就先统一数据结构 -------》句子转向量

   EX : 欧式定理  and  余弦相似度 算句子间相似度

     句子向量间的相关性矩阵 ---->  Similarity Matrix

     3.Graph 造图  ---->  类似于 Link 和Matrix

     4.Sentence Rankings 按照 Pagerank 和句子间相似度,选句子

转换成向量:

  EX :

       Tf--Idf : 根据频次和重要性 转化向量

              Length = word number (但容易稀疏)   

       Word2vec:非稀疏,低维---》分布表示法

       Charcter—based(字符方式):最小单元为字符,而得单词

       或者借用LSTM和Bert 模型

计算两两间的相似度

(然后)

 

构建成 Matrix 的有向图

再通过 Pagerank 把每个图节点进行排序即可 如:p(s1)>p(s2)>p(s3)>p(s4)


版权声明:本文为mlm5678原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明。