急急请教banq老师,关于lucene的问题

banq老师:您好!好久不见,最近过得还好吧!

     我是在上海培训的那个cxykl,和你一起去安捷伦听课的,我现在就在那个楼上班,

 我现在要做的手上的工作是做一个类似淘宝(http://www.taobao.com/, http://auction1.taobao.com/auction/ad_search.htm)的站内搜索,

我先请教一下流程:

读数据库->预处理->分词->建立索引, 包括定时全文索引和定时增量索引
和索引的优化(field的最大值、内存最大存document数,等),indexwrite.omptize

构建查询对象->对结果评分->排序、过滤和分页

建立索引和检索这两方面流程是否正确,有没有缺的和要注意的地方,

是建索引难还是检索难?

象taibao这样的网站中的搜索,三个人,要花多长的时间做出来 我们对搜索都不是太熟 , 我大致能能理解整个流程,如果可以的话,能大致帮我写个时间表,我知道我这个要求很过分,简单一点就行,不胜感激!

另象jive2.5中的检索是否和我们做的站内搜索一样,是否可以参考jive2.5

lucene2.0的中文分词用哪一个比较好,je、中科院的那个,还是 lucene-cn 或 stanrdAnylzer?

万分火急的cxykxl!
2007-06-12

听您说,博客中国的站内搜索是用lucene做的,这个源代码我什么找不到啊!

我来掺和两句。

用过一点Lucene,主要是站内搜索,也不懂,赶鸭子上架就做了。目前也还是非常的初级。API等还很不熟的。源码也没时间研究人家的。

Lucene本身比较简单,建立索引和检索都很容易。我觉得难点是合理优化(例如用FS,还是RAM)和规则合理(增量索引和重建索引)。

taibao不太清楚,看有多大的量了,Lucene本身的性能不是太理想。可能更好的缓存策略能够稍微改善一点吧。

分词那个,Lucene-cn是啥?Lucene自带的分词,我知道stanrdAnylzer是自带的。Lucene本身自带的并不好,不是合理的分词方案。中科院那个没试过(有Java版吗?),我用的je那个,不过je本身也有点问题(在大数据量的时候)。如果条件允许最好自己做分词模块。可控性也强一些。

至于3个人多少时间的问题,如果应用不太复杂的话,有1、2个星期OK了吧?我一个人用了一个月做完我们的站内搜索,主要是学Lucene了,走了不少弯路。

本人小菜,所知有限,不对之处,请海涵。^-^