Java-记录Ansj分词器的用法

例如我们有一个这样的字符串

str="小明同学毕业清华大学计算机专业,后来去蓝翔技校和新东方进行深造"+"擅长使用计算机控制挖掘机进行炒菜"; ```


如果想实现分词该如何操作呢?我们都知道对于英文来说分词是非常简单的,但是中华文化博大精深,很多语句是没那么好分开变成词的,比如:文言文,或者大家可以体会一下这句话(一把把把把住)哈哈哈,是不是很懵逼,其实他可以这么理解(一把/把/把/把住),对于我们来说分词是很好理解的,但是对于计算机来说可就没那么容易了

今天在做项目的时候就遇到这个问题,需要对文件进行分词,记录一下用了一个很好用的第三方工具(ansj)

    <dependencies>
        <!-- https://mvnrepository.com/artifact/org.ansj/ansj_seg -->
        <dependency>
            <groupId>org.ansj</groupId>
            <artifactId>ansj_seg</artifactId>
            <version>5.1.6</version>
        </dependency>

    </dependencies>

来看一下测试类

在这里插入图片描述

从控制台能看出来还是很厉害的,完美的实现了我需要的分词效果
在这里插入图片描述


版权声明:本文为m0_56642224原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接和本声明。