急急请教banq老师，关于lucene的问题

banq老师：您好！好久不见，最近过得还好吧！

　　　　　我是在上海培训的那个cxykl,和你一起去安捷伦听课的，我现在就在那个楼上班，

　我现在要做的手上的工作是做一个类似淘宝（http://www.taobao.com/, http://auction1.taobao.com/auction/ad_search.htm）的站内搜索，

我先请教一下流程：

读数据库－>预处理->分词->建立索引，　包括定时全文索引和定时增量索引
和索引的优化（field的最大值、内存最大存document数，等）,indexwrite.omptize

构建查询对象－>对结果评分->排序、过滤和分页

建立索引和检索这两方面流程是否正确，有没有缺的和要注意的地方，

是建索引难还是检索难？

象taibao这样的网站中的搜索，三个人，要花多长的时间做出来我们对搜索都不是太熟，我大致能能理解整个流程，如果可以的话，能大致帮我写个时间表，我知道我这个要求很过分，简单一点就行，不胜感激！

另象jive2.5中的检索是否和我们做的站内搜索一样，是否可以参考jive2.5

lucene2.0的中文分词用哪一个比较好，je、中科院的那个，还是 lucene-cn 或 stanrdAnylzer?

万分火急的cxykxl!
2007-06-12

听您说，博客中国的站内搜索是用lucene做的，这个源代码我什么找不到啊！

我来掺和两句。

用过一点Lucene，主要是站内搜索，也不懂，赶鸭子上架就做了。目前也还是非常的初级。API等还很不熟的。源码也没时间研究人家的。

Lucene本身比较简单，建立索引和检索都很容易。我觉得难点是合理优化（例如用FS，还是RAM）和规则合理（增量索引和重建索引）。

taibao不太清楚，看有多大的量了，Lucene本身的性能不是太理想。可能更好的缓存策略能够稍微改善一点吧。

分词那个，Lucene-cn是啥？Lucene自带的分词，我知道stanrdAnylzer是自带的。Lucene本身自带的并不好，不是合理的分词方案。中科院那个没试过（有Java版吗？），我用的je那个，不过je本身也有点问题（在大数据量的时候）。如果条件允许最好自己做分词模块。可控性也强一些。

至于3个人多少时间的问题，如果应用不太复杂的话，有1、2个星期OK了吧？我一个人用了一个月做完我们的站内搜索，主要是学Lucene了，走了不少弯路。

本人小菜，所知有限，不对之处，请海涵。^-^