关于抓取网页如何使用面向对象

07-06-16 garfield0601
虽然一直在用类写东西。但是对于有些应用不知道应该怎么用面向对象的思想来理解。

比如我要写一个网页抓取类,类名就叫Crawler吧。

我要抓取的地址是:http://example.com/index.html

要抓取的内容是index.html里的一个ID名为clock的img元素的src。

<img id="clock" src="/images/1.jpg" />

我应该怎么用面向对象的思想来理解这个抓取过程呢?

我是这样理解的,

把网页url,index.html的内容做为crawler的属性。

把取id为clock的img元素src的动作做为crawler的方法。从而得到结果。

[该贴被garfield0601于2007年06月16日 13:09修改过]

    

rainerWJY
2007-06-16 16:13
就我的理解,类,实例。就是一组责任的集合。

这也就是面向对象的本源,让每一个对象为自己的行为负责,从而达到彻底的解藕。

对象本身控制自己的行为,其他人,事务则通过接口间接控制对象本身的属性。

abigsmile
2007-06-16 16:31
个人感觉:如果是为了页面内容析取的话,可以用自动机去做,用文法区解析。

watchplums
2011-12-28 16:28
你这不是oo的思维,你应该写一个page类,用clawlor类把page类抓回来。而src是page的属性

猜你喜欢