文本分析技术介绍
文本分析目标
文本分析是指对文本的表示及其特征项的选取;文本分析是文本挖掘、信息检索的一个基本问题,它把从文本中抽取出的特征词进行量化来表示文本信息。
文本分析法是指从文本的表层深入到文本的深层,从而发现那些不能为普通阅读所把握的深层意义。
文本分析的目标是:1)原始文本数据化;2)量化后的文本知识化,利用文本数据进行因果推论。
2、文本分析的步骤

完整文本分析的步骤包括:
- 读取数据
- 分词(中文必须有这一步,由于英文是空格间隔的语言,英文有时候不需要分词)
- 剔除符号和无意义的停止词
- 字母变小写,词干化
- 使用一定的编码方式构建文档词频矩阵

3、常见的文本分析技术
- 主题分析(Thematic analysis)
- 内容分析(content analysis)
- 基于词典的方法(dictionary analysis)
- 文本向量化(Bag-of-words)
- 监督学习如SVM、Bayes和Regression
- 无监督学习,如LDA话题模型
- 自然语言处理
上述文本分析技术,按照人与机器参与程度,绘制在下图。一般来说,越向右,文本分析技术的自动化程度越高,需要注意的是自动化越高,并不代表人的工作量就越少。

不同技术对比:


版权声明:本文为baidu_41678374原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明。