如何利用robots屏蔽低质量页面被搜索引擎抓取

抖音业务广告图

对于百度搜索引擎来说,蜘蛛黑洞特指网站通过极低的成本制造出大量参数过多,及内容雷同但具体参数不同的动态URL ,就像一个无限循环的“黑洞”将spider困住,Baiduspider浪费了大量资源抓取的却是无效网页。如何利用robots屏蔽低质量页面被搜索引擎抓取呢?

比如很多网站都有筛选功能,通过筛选功能产生的网页经常会被搜索引擎大量抓取,而这其中很大一部分检索价值不高,如“500-1000之间价格的租房”,首先网站(包括现实中)上基本没有相关资源,其次站内用户和搜索引擎用户都没有这种检索习惯。这种网页被搜索引擎大量抓取,只能是占用网站宝贵的抓取配额。如何利用robots屏蔽低质量页面被搜索引擎抓取呢?

robots屏蔽低质量网页被蜘蛛抓取

robots.txt的文件用法中有这样一条规则:Disallow: /*?* ,即禁止搜索引擎访问网站中所有的动态页面。通过这种方式,对Baiduspider优先展示高质量页面、屏蔽了低质量页面,为Baiduspider提供了更友好的网站结构,避免黑洞的形成。这样我们就利用robots屏蔽了低质量页面被搜索引擎抓取,让有限的抓取配额用在了最好的地方了。

About 狂明小妖

代明,网名“狂明小妖”,代明博客博主。

发表评论

电子邮件地址不会被公开。 必填项已用*标注