欢迎来到锦皓工作室
当前位置:首页 > 网站优化

SEO必须了解的知识:搜索引擎的工作原理

作者/整理:锦皓工作室 时间: 2015-08-20 浏览:

大家知道搜索引擎的工作原理吗?其实细分下来大约分为四个步骤:

1.抓取

2.过滤

3.收录

4.排名  

下面我就详细讲解一下搜索引擎的这四个步骤。

一:抓取

大家都知道在搜索引擎中搜索可以找寻到我们想要的网站,那么搜索引擎是通过什么来找到我们的网站呢?对,就是一种叫“蜘蛛”的软件。

1)概念:“蜘蛛”也叫爬虫机器人,就是一套信息抓取系统,互联网就像一张蜘蛛网,像“蜘蛛”一样在互联网上反复地爬来爬去,不知道累的,所以叫网络蜘蛛。这个蜘蛛喜欢的是原创且高质量的内容,这也是我们在写软文时遵守的原则。

2)怎样让蜘蛛来抓取:

1.外部链接  

我们可以在一些博客、贴吧等做一些外链,蜘蛛在抓取这些网站的时候,会顺着我们留下的地址来我们的网站抓取内容。

2.提交链接  

在网站完成后,我们可以在各大搜索引擎提交网站,告诉搜索引擎爬虫,我们的网站已经做好了,蜘蛛可以过来抓取了。

3.蜘蛛自己来

做好第一步、第二步以后,在网站有一定的高质量内容,且有一定的信用积累后,蜘蛛就会养成来我们网站抓取内容的习惯,它们就会自己来了。

3)怎样知道蜘蛛有没有来:

1.百度平台抓取频次

在百度站长工具中有抓取频次工具,我们可以查询爬虫抓取的次数,抓取的时间等信息。

2.服务器日志

服务器一般提供网站日志下载的功能,下载后如果看不懂的话可以借助一些工具来查看。

4)影响蜘蛛抓取因素:

1.路径长短  

虽然说搜索引擎可以识别1000长度的路径地址,但是如果我是搜索引擎,我也不喜欢那么繁琐的url啊!况且太长的URL不容易被记住,影响用户体验。

2.路径种类  

这个我分为三类:静态,伪静态和动态。

静态网页就是我们服务器里存在一个html文件对应着这个页面,这样做的好处有:第一、利于搜索引擎抓取,搜索引擎喜欢静态的URL,第二、这种路径不会涉及到数据库的查询,速度快,但是缺点是:占用服务器的空间大,页面多了之后不好管理。

动态:就是URL会传参数,然后连接数据库,然后反返回查询结果,呈现在我们的网页上,这样的方式虽然节省了服务器的空间,但是有查询数据库的过程,所以速度上说会比静态网页慢一些,而且搜索引擎不喜欢动态URL。

最好的就是伪静态了,它有静态和动态的优点,唯一的缺点就是依然要查询数据库,速度上会有一些影响。它有静态的URL且不会占用很多的服务器资源,搜索引擎还喜欢这样形式的链接,所以伪原创现在广泛应用到各大博客、CMS。

3.路径的层次

有些网站路径很深,达到6,7层,要点好多次才能达到最底层的页面,第一是不利于用户体验,第二,久而久之,搜索引擎都没有耐心去爬这个网站了,所以建议大家路径不要超过三层。

二:过滤

1)为什么要过滤:互联网上大量的、无价值的页面和死链接

互 联网上垃圾的,重复的,没有价值的页面太多了,如果全部放出来而不进行过滤,那互联网就是个垃圾场了。所以这就是我们在写软文的时候为什么尽量原创或者伪 原创的原因了。有人说百度为什么不收录我的页面,先看看自己的内容,是不是高质量的内容,不要怪搜索引擎不收录,先从自己身上找问题。

2)影响因素:1.识别因素(代码  图片)  2.页面质量

三、收录

查看有没有被收录的方法

1)site:首页地址,显示出来的页面都是百度收录的页面,但是看着比较麻烦,不好判断具体的一个页面有没有被收录。

2)站长工具后台

3)直接百度搜索链接,如果存在,则页面被收录,如果链接不存在,则页面没有被收录,这种方法只适用于你想查询某个页面有没有被收录。

四、排名

分析对比,基础得分

在网站的某个页面通过前三道关卡之后,这个页面就算被收录了,然后搜索引擎根据页面内容质量、用户体验等等因素进行排名,最后呈现在百度的搜索结果里。

在做SEO之前一定要链接搜索引擎是如何工作的,这有利于我们后期分析网站数据,在网站出问题的时候,容易找出问题出在了哪个环节。