记录搜索引擎来源

08-07-15 guyue

大家好啊,在这里我问大家个问题哈,

就是怎么记录搜索引擎爬取过我的网站呢?
就想baidu样,当别人在baidu搜索信息的时候,(当然我的网站被他们录取了就是),怎么记录他们啊,
向时间啊,是什么搜索引擎啊,(baidu,google等等)

希望你们能好好帮我看看,最好能给出点代码来

guyue
2008-07-15 17:26

banq ,我可能要过一段时间来上网了,来躺不容易,
我真的希望你们能帮我看看,最好能写出思路,有代码也更好..嘿嘿

[该贴被guyue于2008-07-15 17:28修改过]

hlayy
2008-07-16 16:49

我认为爬取网站,跟浏览你的网站没有太大区别吧?

你要记录,首先你得知道爬取网站和浏览网站的区别?

或者是爬取网站的特点.


-------------------

其次,如果是想记录一些特定的网站是不是爬取过你的站点,有个变通的方法.

那就是记录访问你站点的IP.然后比较该IP和你收集的BAIDU,GOOGLE等具有爬取可能性网站的IP是不是一样.

我认为象百度这样的站点,应该不会来访问你的站点吧,它要是访问,应该就是抓取你的网站了?

hlayy
2008-07-16 16:52

另外,如果你的站点被BAIDU收入了,别人是从百度访问你的,那就很能辨别了.因为百度贴的是你网站的地址.别人访问的是你站点的地址,跟浏览你的网站有什么区别.

如果你有这样的要求,也许和百度联系联系,可能有用.

guyue
2008-07-17 09:48

恩,谢谢你的回答,
我想不仅要记录搜索引擎(哪个搜索引擎)的什么时候爬取过我的网站,还想知道通过什么关键字爬取过我的网站,
访问我的网站的链接是什么,它访问我服务器的哪个网页,等等,
我的网站假如被它们收入了,这是前提.

guyue
2008-07-26 13:53

帮帮忙啊~~~

guyue
2008-08-02 17:59

大家看看啊,提提建议也好啊,

banq
2008-08-04 10:21

可以通过apache的访问日志知道,一般爬虫都有名称 如baidu spider等等,分析日志,现在也有日志分析软件,google有此类工具。

guyue
2008-08-04 18:42

谢谢哈,我去看看

paradise7th
2008-08-06 18:06

如果是从 google百度来的链接,在HTTP请求头部可以取到reference_url,里面包含有具体点击的链接,HTTP头的信息可以自己去查文档