万相loge.png 抖音推广抖音广告丨抖音代运营丨短视频制作丨短视频拍摄                                                   2000032.gif售前咨询:400-008-9395   售后服务:021-51600209   移动MP:13918011303

淘宝为什么禁止百度爬虫

 二维码 448
发表时间:2020-07-20 14:51作者:左都君来源:万相网网址:https://www.wxang.com/

查看淘宝的robots文件,在网址栏中输入“www.taobaocom/robotstxt”所有网站的 robots文件都是公开的,如果输入“网站域名/ robots.txt”打开了一个

404错误页面,则说明该网站没有做 robots文件。

万相seo学堂.jpg

robots文件是搜索引擎蜘蛛来一个网站首先要査看的,提前知道该网站哪些允许它抓取,哪些不允许,它会遵循规定来做。如果不做 robots文件,在该网站的空间日志里会出现一个404的错误代码,这不要紧,因为很多网站都不做,尤其对于小型网站并不重要。但大型网站讲究比较细致,基本上都会做。


淘宝的 robots文件表示禁止百度蜘蛛抓取网站的任何内容,有人会问“我搜索淘宝网,明明可以搜到,难道是淘宝写错,或百度没有遵守这个规则?”这里要说明两点:


(1)淘宝并没有写错。

(2)百度有时候的确会不遵守规则,包括其他搜索引擎也是如此。


搜索引擎并不会完全遵守 robots文件,但总体来说都是遵守的。有些文章已经被百度收录了,如果临时要用 robots文件屏蔽它们,那么在百度的数据库里大概需要几个星期到一两个月的时间才能慢慢删除这些文章。


为什么淘宝网一直在百度里呢?并不是百度不遵守规则,而是从用户体验的角度来讲,如果一个网民去百度搜索“淘宝网”,最后竞然搜索不到,他会认为百度这么大一个搜索引擎居然搜索不到这个知名的淘宝网,非常奇怪。所以像淘宝网这种非常知名的网站,百度对它比较特殊,或者说是从用户体验的角度出发,让网民能搜索到这类知名的网站,哪怕淘宝的 robots文件里禁止百度抓取。



Copyright2015 上海万相网络科技有限公司  版权所有  售前咨询:400-0089395 售后服务:021-51600209 开户专线:13918011303  业务本部:上海市金沙江西路1063号   公司总部:上海市沪宜公路1101号
企业统一信用代码:913101143326998746  公安部备案号:31011402001452   工信部备案号:沪ICP备15023651号
—————————————————————————————————————————————————