文本分析技术

  • 文本分析技术介绍

  1. 文本分析目标

文本分析是指对文本的表示及其特征项的选取;文本分析是文本挖掘、信息检索的一个基本问题,它把从文本中抽取出的特征词进行量化来表示文本信息。

文本分析法是指从文本的表层深入到文本的深层,从而发现那些不能为普通阅读所把握的深层意义。

文本分析的目标是:1)原始文本数据化;2)量化后的文本知识化,利用文本数据进行因果推论。

    2、文本分析的步骤

完整文本分析的步骤包括:

  1. 读取数据
  2. 分词(中文必须有这一步,由于英文是空格间隔的语言,英文有时候不需要分词)
  3. 剔除符号和无意义的停止词
  4. 字母变小写,词干化
  5. 使用一定的编码方式构建文档词频矩阵

 

 

3、常见的文本分析技术

  1. 主题分析(Thematic analysis)
  2. 内容分析(content analysis)
  3. 基于词典的方法(dictionary analysis)
  4. 文本向量化(Bag-of-words)
  5. 监督学习如SVM、Bayes和Regression
  6. 无监督学习,如LDA话题模型
  7. 自然语言处理

上述文本分析技术,按照人与机器参与程度,绘制在下图。一般来说,越向右,文本分析技术的自动化程度越高,需要注意的是自动化越高,并不代表人的工作量就越少。

 不同技术对比:

 

 


版权声明:本文为baidu_41678374原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明。