如何快速了解网站内页不被百度收录的原因?
- 内容介绍
- 相关推荐
一、 先别慌,先弄清楚到底是怎么回事
尊嘟假嘟? 站较长朋友们常常会在后台看到“内页未被收录”的提示,心里不免冒出一股焦虑——这到底是技术手段问题,还是内容的毛病?其实先把情绪平复下来沉着解析才能找到根源。下面我们就从“为哪些百度不收录”当前这个核心疑问切入,逐层剖析有可能的原因。
1)爬虫根本进不来
最常见的情况是robots.txt或页面的指令误伤了内页。很更多时候,这一些指令是开发同事拷贝模板时顺手带进去的,却遗忘了把“禁止抓取”改成“允许”。只要打开http://你的域名/robots.txt检查一下确保没有Disallow: /之类的较大范围禁令,太虐了。。
2)链接结构太较深、入口太更少
搜索引擎喜炎热爱“一层楼”式的结构:首页 → 栏目页 → 内容页。如果某篇文章埋在四、五级目录里而且从首页接近找不到任意指向它的链接,那么蜘蛛很有可能直接放弃。解决办法很简洁:在栏目页或相关内容页添加,让蜘蛛顺畅地爬到每一层。
二、 内容质量——决定命运的关键因素
翻旧账。 即使技术手段层面全都 OK,内容仍然是决定有没有被收录的坚硬核。百度的算法已经从“关键词堆砌”演化到“用户实际价值”。下面列出几个常见的坑:
1)文字过更少或反复率较高
还行。 一篇只有几百字、 甚至几十字的页面很不容简单让搜索引擎觉得它有实际价值。更糟的是如果这段文字和站内其他页面较高度类似,系统会直接判定为“反复内容”,直接踢出收录池。
2)缺乏结构化信息
标题层次杂乱、 段落没有合理分段、图片缺更少alt属性,这一些都会引起蜘蛛抓取时信息提取棘手。提议采用清晰的标题结构,并为每张图片添加精准描写。
3)用户体验差
说白了... 页面加载缓慢、 弹窗频繁、广告密度过较高,都属于“负面用户体验”。
一、 先别慌,先弄清楚到底是怎么回事
尊嘟假嘟? 站较长朋友们常常会在后台看到“内页未被收录”的提示,心里不免冒出一股焦虑——这到底是技术手段问题,还是内容的毛病?其实先把情绪平复下来沉着解析才能找到根源。下面我们就从“为哪些百度不收录”当前这个核心疑问切入,逐层剖析有可能的原因。
1)爬虫根本进不来
最常见的情况是robots.txt或页面的指令误伤了内页。很更多时候,这一些指令是开发同事拷贝模板时顺手带进去的,却遗忘了把“禁止抓取”改成“允许”。只要打开http://你的域名/robots.txt检查一下确保没有Disallow: /之类的较大范围禁令,太虐了。。
2)链接结构太较深、入口太更少
搜索引擎喜炎热爱“一层楼”式的结构:首页 → 栏目页 → 内容页。如果某篇文章埋在四、五级目录里而且从首页接近找不到任意指向它的链接,那么蜘蛛很有可能直接放弃。解决办法很简洁:在栏目页或相关内容页添加,让蜘蛛顺畅地爬到每一层。
二、 内容质量——决定命运的关键因素
翻旧账。 即使技术手段层面全都 OK,内容仍然是决定有没有被收录的坚硬核。百度的算法已经从“关键词堆砌”演化到“用户实际价值”。下面列出几个常见的坑:
1)文字过更少或反复率较高
还行。 一篇只有几百字、 甚至几十字的页面很不容简单让搜索引擎觉得它有实际价值。更糟的是如果这段文字和站内其他页面较高度类似,系统会直接判定为“反复内容”,直接踢出收录池。
2)缺乏结构化信息
标题层次杂乱、 段落没有合理分段、图片缺更少alt属性,这一些都会引起蜘蛛抓取时信息提取棘手。提议采用清晰的标题结构,并为每张图片添加精准描写。
3)用户体验差
说白了... 页面加载缓慢、 弹窗频繁、广告密度过较高,都属于“负面用户体验”。

