搜索引擎的地址仓库作用
时间:2012-3-11
为了避免搜索引擎收录页面时抓取到重复的地址,搜索引擎会建立一个地址仓库来存放记录,记录已经被发现还没有抓取的页面以及已经被抓取的页面.这也就是我们在百度统计里面看到有700条收录页,而实现只收录500条的原因.
地址仓库中的URL有如下几个来源:
1.人工录入的种子网址.
2.蜘蛛抓取页面后,从HTML中解析出新的链接URL,与地址仓库中的数据进行对比,如果是地址仓库中没有的,那么就存入等待访问地址仓库中.
3.站长通过搜索引擎网页提交的表格中抓取,像谷歌站长工具中有一个提交网站地图的功能,就是用来做这个的.