Dojo
最新
最佳
搜索
订阅
解道Jdon
架构设计
领域驱动
DDD介绍
DDD专辑
战略建模
领域语言UL
领域事件
商业分析
工作流BPM
规则引擎
架构师观点
数据工程
产品经理
系统思维
微服务
微服务介绍
微服务专辑
模块化设计
SOA
API设计
clean架构
SpringBoot
分布式事务
分布式架构
Kubernetes
DevOps
编程设计
GoF设计模式
模式专辑
面向对象
函数式编程
编程语言比较
编程工具比较
形式逻辑
前端编程
Reactive编程
Jdon框架
Rust语言
ChatGPT
Web3
模因梗
幽默梗
程序员吐槽
面试技巧
Java入门
数字化转型
认知偏差
道德经
GitHub工具
更多话题
记录搜索引擎来源
08-07-15
guyue
大家好啊,在这里我问大家个问题哈,
就是怎么记录搜索引擎爬取过我的网站呢?
就想baidu样,当别人在baidu搜索信息的时候,(当然我的网站被他们录取了就是),怎么记录他们啊,
向时间啊,是什么搜索引擎啊,(baidu,google等等)
希望你们能好好帮我看看,最好能给出点代码来
guyue
2008-07-15 17:26
banq ,我可能要过一段时间来上网了,来躺不容易,
我真的希望你们能帮我看看,最好能写出思路,有代码也更好..嘿嘿
[该贴被guyue于2008-07-15 17:28修改过]
hlayy
2008-07-16 16:49
我认为爬取网站,跟浏览你的网站没有太大区别吧?
你要记录,首先你得知道爬取网站和浏览网站的区别?
或者是爬取网站的特点.
-------------------
其次,如果是想记录一些特定的网站是不是爬取过你的站点,有个变通的方法.
那就是记录访问你站点的IP.然后比较该IP和你收集的BAIDU,GOOGLE等具有爬取可能性网站的IP是不是一样.
我认为象百度这样的站点,应该不会来访问你的站点吧,它要是访问,应该就是抓取你的网站了?
hlayy
2008-07-16 16:52
另外,如果你的站点被BAIDU收入了,别人是从百度访问你的,那就很能辨别了.因为百度贴的是你网站的地址.别人访问的是你站点的地址,跟浏览你的网站有什么区别.
如果你有这样的要求,也许和百度联系联系,可能有用.
guyue
2008-07-17 09:48
恩,谢谢你的回答,
我想不仅要记录搜索引擎(哪个搜索引擎)的什么时候爬取过我的网站,还想知道通过什么关键字爬取过我的网站,
访问我的网站的链接是什么,它访问我服务器的哪个网页,等等,
我的网站假如被它们收入了,这是前提.
guyue
2008-07-26 13:53
帮帮忙啊~~~
guyue
2008-08-02 17:59
大家看看啊,提提建议也好啊,
banq
2008-08-04 10:21
可以通过apache的访问日志知道,一般爬虫都有名称 如baidu spider等等,分析日志,现在也有日志分析软件,google有此类工具。
guyue
2008-08-04 18:42
谢谢哈,我去看看
paradise7th
2008-08-06 18:06
如果是从 google百度来的链接,在HTTP请求头部可以取到reference_url,里面包含有具体点击的链接,HTTP头的信息可以自己去查文档