博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
中文分词工具thulac4j发布
阅读量:7200 次
发布时间:2019-06-29

本文共 748 字,大约阅读时间需要 2 分钟。

1. 介绍

是THULAC的Java 8工程化实现,具有分词速度快、准、强的特点;支持

  • 自定义词典
  • 繁体转简体
  • 停用词过滤

若想在项目中使用thulac4j,可添加依赖:

io.github.yizhiru
thulac4j
${thulac4j.version}

thulac4j支持中文分词与词性标注,使用示例如下:

String sentence = "滔滔的流水,向着波士顿湾无声逝去";List
words = Segmenter.segment(sentence);// [滔滔, 的, 流水, ,, 向着, 波士顿湾, 无声, 逝去]POSTagger pos = new POSTagger("models/model_c_model.bin", "models/model_c_dat.bin");List
words = pos.tagging(sentence);// [滔滔/a, 的/u, 流水/n, ,/w, 向着/p, 波士顿湾/ns, 无声/v, 逝去/v]

模型数据较大,没有放在jar包与源码。训练模型下载及更多使用说明,请参看.

2. 测评

测评主要从效果(准确率、召回率、F1值)、性能方面进行比较,测评结果见。从测评结果看出,thulac4j的兼顾效果与速率。

最后,欢迎大家使用并pull request;中文分词thulac4j的QQ交流群:373215255

转载于:https://www.cnblogs.com/en-heng/p/6526598.html

你可能感兴趣的文章
昨日我是谁,今日谁是我
查看>>
hadoop实例
查看>>
JAVA之Exchanger
查看>>
菜鸟--shell脚本编写之解决问题篇
查看>>
java 多线程学习
查看>>
LeetCode 404: Sum of Left Leaves
查看>>
Alpha冲刺Day9
查看>>
ARC085F(动态规划,线段树)
查看>>
HDU3127:WHUgirls(二维完全背包)
查看>>
npm常用命令
查看>>
HTML 表格
查看>>
Kotlin入门(22)适配器的简单优化
查看>>
代码外的任务很精彩 ---Software project survival guide 读书报告
查看>>
Java io流学习总结(二)
查看>>
PHP中的PDO函数库详解
查看>>
C++编程常见错误
查看>>
Converter of C#&VB.NET
查看>>
修改ASPCMS升级扩展功能
查看>>
模拟HTTP请求的返回&shell写cgi
查看>>
《跟任何人都聊得来》读书笔记
查看>>