Lucene中文分词器共享下载

07-08-27 linliangyi2006
    

全新版IKAnalyzer V2.0.2 Lucene中文分词器下载地址 : http://download.csdn.net/source/236243

来自“猎图网 www.richmap.cn ”基于IKAnalyzer分词算法的准商业化Lucene中文分词器。

1. 正向全切分算法,42万汉字字符/每秒的处理能力(IBM ThinkPad 酷睿I 1.6G 1G内存 WinXP)

2. 对数量词、地名、路名的优化处理

3. 对未知词汇采用自识别结合二元切分算法,确保搜索召回率

V 2.0.2 修订 Bata版对二元切分的缺陷

正向全切分分词器:org.mira.lucene.analysis.IK_CAnalyzer(适合建索引时使用)

正向最大全切分分词器:org.mira.lucene.analysis.MIK_CAnalyzer(适合用户输入检索时使用)