分页抓取新闻

13-04-18 javawebkaifa
我最近在学习,网页数据的抓取,用java来进行处理,我原始以为用httpClient连接,返回页面的内容,然后进行解析,但是我发现好麻烦,不知道是不是我理解有问题,我现在想分页抓取网易的新闻,没2分钟抓取一次,处理入库。一直这样,网上很多信息都说这样不行,所以请教下大家???

还有,我知道有些公司就是开抓取网页数据,然后分析成有用的数据,卖钱的,我不知道哪些大公司是怎么实现这个过程的。或者现在处理的主流模式???

猜你喜欢