Lucene 2.0 对 html文件建立索引的bug

07-01-21 lyojbuilder
    

大家都谈论lucene的优点,但是对于一些关键性的问题,还是要提出来,如果解决不料,lucene就无法进入真正的企业级应用。

lucene2。0的demo中有个建立 text文件索引和 html文件索引的测试文件,但是 html文件在建立索引的时候,对于中文的网页,有 javascript的网页会报错,根本无法建立索引,而在现实的企业级应用中,我们大都是对 html建立索引,而不是简简单单的对 txt文件建立索引(因为都是定期生成网站的静态html页面,谁生成txt文件页面啊)。 但是lucene自带的 html解析器不完善,几乎无法使用,很少html页面没有js代码的,起码要有 include吧。 大家在用 lucene得时候详细也都遇到了,毕竟这是lucene自带的2个例子之一? 我换了一个 html解析器,是 htmlparser2.0,这个可以支持所有的html页面分析,但是无法像 lucene那样得到 html的摘要信息,就是 summary,导致也是无法使用,谁有什么好的解决方法? :(

    

banq
2007-01-22 14:51

Lucene 看来对站内搜索还是很强的