关于抓取网页如何使用面向对象

虽然一直在用类写东西。但是对于有些应用不知道应该怎么用面向对象的思想来理解。

比如我要写一个网页抓取类,类名就叫Crawler吧。
我要抓取的地址是:http://example.com/index.html
要抓取的内容是index.html里的一个ID名为clock的img元素的src。
<img id="clock" src="/images/1.jpg" />
我应该怎么用面向对象的思想来理解这个抓取过程呢?

我是这样理解的,
把网页url,index.html的内容做为crawler的属性。
把取id为clock的img元素src的动作做为crawler的方法。从而得到结果。


[该贴被garfield0601于2007年06月16日 13:09修改过]

就我的理解,类,实例。就是一组责任的集合。
这也就是面向对象的本源,让每一个对象为自己的行为负责,从而达到彻底的解藕。
对象本身控制自己的行为,其他人,事务则通过接口间接控制对象本身的属性。


个人感觉:如果是为了页面内容析取的话,可以用自动机去做,用文法区解析。

你这不是oo的思维,你应该写一个page类,用clawlor类把page类抓回来。而src是page的属性