佛山高防服务器告诉你搜索引擎是怎么工作的?

搜索引擎本身的工作原理其实非常简单,首先我们常说的搜索引擎大致可以分成4个部分:

1、蜘蛛爬虫
2、数据分析系统
3、索引系统
4、查询系统
当然这只是搜索引擎的基本组成部分。

什么是搜索引擎蜘蛛,什么是爬虫程序?

搜索引擎,也就是我们说的蜘蛛其实就是一个应用程序,它的作用是在浩瀚的互联网中浏览信息,把这些信息都抓取到搜索引擎的服务器上,然后建立索引库等等!

蜘蛛是如何抓取网页的呢?

发现一个新的链接,至一个新的网页,下载,然后存数据库然后从数据库中提取这个网页的链接至一个新的网页,下载,再存,如此循环。首先蜘蛛要去发现新的链接,要怎么发现这个新的链接呢?简单了,就是通过刚才我说的循环,就是加粗的红字,看到了没有?链接链接再链接。蜘蛛在发现了这个链接后会把这个网页下载下来并且存入到库中,当然在同时,会提取这个页面所有的链接,然后就是循环。或许你看着会觉得,这样是不是太慢了,一个一个链接去找,然后存起来,然后再找。亲爱的,人家是电脑,不是你点鼠标的手,有点想像力好吗?

蜘蛛24小时不休息的(是的,没有周末,也没有年假。)那下载回来的网页怎么办呢?不要急,还有呢!搜索引擎的分析系统现在可以派上用场了。

或许你现在会问了,蛛蛛抓回来的东西那么多24小时不停的抓,这些东西有没有一个什么规律啊,这样问就表示你已经进步了),是有的!如果蜘蛛满网络去随便抓取网页,那就完了蛋了,你该知道互联网海量的信息吧?如果这样个抓法,互联网上的网页,每天都在以几何数增加,24小时工作,不上厕所,不喝水,不抽烟,蜘蛛也是没有办法抓取的。所以抓取网页也是有一定规律的!

深度优先

蜘蛛在一个页面发现一个连接然后顺着这个连接爬下去,然后在下一个页面又发现一个连接,然后就又爬下去并且全部抓取,这就是深度优先抓取策略。

宽度优先

宽度优先比较好理解,就是搜索引擎蜘蛛先把整个页面的链接全部抓取一次,然后在抓取下一个页面的全部链接。我一直在说扁平化强构,我们有时候或许会在某个大神发一篇文章,告诫大家网页的层级不能太多,如果太多会导致收录很难,这就是来对付搜索引擎蜘蛛的宽度优先策略。

权重优先

宽度优先和深度优只能说是各有各的好处,一般蜘蛛都是两种抓取策略一起用,也就是深度优先+宽度优先,并且在使用这两种策略抓取的时候,要参照这条链接的权重,如果说这条连接的权重还不错,那么就采用深度优先,如果说这条连接的权重很低,那么就采用宽度优先!

蜘蛛通过两个方面来判断这个链接的权重,1、层次的多与少;2、这个链接的外链多少与质量;

重访抓取

我想这个应该比较好理解了吧,就是说如果昨天蜘蛛来抓取了我们的网页,而今天我们在这个网页又加了新的内容或是做了更新,那么蜘蛛今天就又来抓取新的内容,这就是重访抓取!重访抓取也是分为两种,一个是蜘蛛上次抓取的链接,然后在这一个月的某一天,全部重新去访问抓取一次!还有一种是是针对某个页面更新的频率比较快比较稳定的页面,如果说我们有一个页面,上线了就不更新。蜘蛛第一天来了你是这样,第二天还是这样,第三天就不来了,你天天弄个旧的东西给我,我才不来了,多等段时间了看吧,看你改不改,你要不改,再也不来了。

数据分析系统

这个好像与我所说的优化没有太多的关系,其实多少还是有一点的,我简单说一下。

先把那些html代码全部删掉,提取出纯文本内容;留下网页的主题内容,删掉没用的内容,比如版权之类的;搜索引擎查找重复的网页与内容,如果有重复的页面则丢弃;提取出正文的内容,把我们的内容分成N个词语,然后排列出来,存入索引库,在这同时也会计算这一个词在这个页面出现了多少次。看明白了没有,没有就自罚吧。

链接分析就是我们平时所做的做烦躁的工作,搜索引擎会查询,这个页面的反向链接有多少,导出链接有多少,然后给这个页面多少的权重。

数据索引系统

在进行了上边那么多的步骤以后,搜索引擎就会把这些处理好的信息放到搜索引擎的索引库中。

了解了没有,说了这么多,最后总结一下:

发现链接,根据抓取策略抓取网页,提交到分析系统,分析,建库。

发表评论

电子邮件地址不会被公开。 必填项已用*标注