虔诚求教算法问题1个

如果有30万个文件（比如 1.txt , 2.xml , 3.jsp 等等）

(1)用怎样的算法来统计这些文件中共出现了多少个单词(如 abc , 123 等等)

(2)再就是每个单词共出现了多少次 (如 abc共出现了多少次)

实在想不出太优的算法

所以斗胆提问各位牛人兄了。

不甚感谢！！！

应该贴到数学论坛去，你大概敲错门了，这里是搞软件的，不是搞算法的，软件讲究软件的伸缩性扩展性，以及如何更灵活地实现功能，至于具体功能如何实现比如算法/管理/ERP/科学计算/图灵等等分支太多。每门都是一门博大精深的科学。
[该贴被admin于2009-05-04 20:36修改过]

用分布的方式？

这些单词是有穷的么？？还是任意组合？？

是有穷的

兄台给个提示

呵呵，我也没有想到什么太好的方法，我的想法是对于文件类型在匹配的时候进行过滤，二进制文件匹配文件名，文本文件则需要读入，匹配的方式进行可以参考正则表达式。然后对结果进行累加。

采用树来保存单词，单词的每个字母是树的一层，树的节点保存出现次数。顺序读取文件，根据树结构累计节点上的计数。完成后，遍历树。

这种问题你直接参考分词算法就得了，别再提问了，lucene的分词算法关于英文还是比较简单的，中文你找找别的。。。。