搜索引擎蜘蛛访问网站页面的原理
时间:2021-10-19
在网站的抓取与排名原理中,搜索引擎用来爬行和访问页面的程序,被称为蜘蛛或者机器人。
搜索引擎蜘蛛访问网站页面与我们普通用户使用的浏览器访问原理是一样的,蜘蛛程序发送页面访问请求后服务器返回html代码,蜘蛛程序把收到的这些html代码存入原始页面数据库,搜索引擎为了提高爬行和抓取速度,可能会使用多个蜘蛛并发分布爬行。
搜索引擎蜘蛛访问任何一个网站时,都会事先访问网站根目录下面的robot.txt文档,如果robot.txt文档禁止访问搜索引擎抓取某些文件或目录,则蜘蛛将遵守协议绕开被禁止的页面。
搜索引擎蜘蛛和浏览器一样,也会有标明自己身的身份和代理名称,我们网站优化人员可以在网站日志文件中看到收转型的特定用户代理,从而辨识是否是蜘蛛,通过研究分析针对性的优化网页HTML和网站文章的更新频率。