分享一个免费的 Lucene中文分词组件V1.2.2

06-06-14 atlantis
1.2.2

完善了中英文噪声词典

1.2.1

修正中文数字成语无法识别的问题

1.2

增加中文数字的匹配(如:二零零六)

数量词采用“n”作为数字通配符

优化词典结构以便修改调整

1.1

增加扩展词典的静态读取方法

1.0.1

修正无法识别生僻字的问题

1.0

支持英文、数字、中文(简体)混合分词

常用的数量和人名的匹配

超过22万词的词库整理

实现正向最大匹配算法

下载地址:http://www.jesoft.cn/posts/list/5.page

猜你喜欢