segmentProject-summer – 源码巴士

依存分析、指代消解

http://licstar.net/archives/328
【必读】Deep Learning in NLP （一）词向量和语言模型

一文详解如何用 TensorFlow 实现基于 LSTM 的文本分类
https://www.leiphone.com/news/201704/5F6DpoQUpNk8Pbzs.html

利用lstm模型实现短文本主题相似——qjzcy的博客

某师兄的paper全是Sentiment相关
http://ir.hit.edu.cn/~dytang/

如何用深度学习更好的的解一个短文本相似度计算问题？
https://www.zhihu.com/question/49424474/answer/167182802

使用Python后台处理，用tcp与服务器通信，定时获取搜集的数据来进行
采用深度神经网络模型，预先训练的数据需要一定的量，如果数据太少会造成过拟合

(一) 文本相似度分析
1. 尝试利用lstm模型实现短文本主题相似
2. word2vec，分词之后计算词语的word2vec向量后，计算两条短文本之间的间距
3. 主题模型，例如LDA，将短文本词语投射到主题空间之后比较两句文本的主题相似性

(二) 文本主题分类（给出对应关键词最可能与什么有关联）
短文本分析任务中（例如微博），由于句子句长长度有限、结构紧凑、能够独立表达意思，优先考虑使用CNN进行分类

(三) 情感分析
1. 使用神经网络LSTM模型，无监督学习不需要人工标注
2. 依据最后数据量大小决定是否用GRU更替LSTM方法
3. 如果训练花费时间太久，或最后效果不如线性模型，则考虑更改为传统的人工标注数据的方法，基于分词Jieba使用TF-IDF等提取句子的关键词构建特征