深圳成人高考函授《网络营销》学习课程-搜索引擎的工作原理

院校:深圳成人高考 发布时间:2025-02-13 13:18:01


    搜索引擎的工作原理

    要想做好搜索引擎营销,就必须了解搜索引擎的工作原理。主要包括“蜘蛛”爬行、抓取建库、网页处理、检索服务和结果展现五个方面,下面分别进行介绍。

    (1)“蜘蛛”爬行。

    搜索引擎的数据抓取系统是整个搜索引肇最重要的组成系统之一,主要负责网络信息的搜集、保存和更新等环节。它就像“蜘蛛”一样在网络上爬行,所以通常被叫作网络“蜘蛛  (Spider) 或机器人(Robot)每个搜索引擎的“蜘蛛”都有各自的名称,如 BaiduSpide.Sogou Web Spider 和Bingbot等。

    搜索引擎在抓取网页时会同时运行多个“蜘蛛”程序,从一些重要的种子网址开始,通  过其网页上的超链接,不断发现新的网址并抓取,然后不断重复这个过程,尽最大可能抓取到更多网页。由于网络中每时每刻都存在网页被修改、删除或出现新的超链接的可能,所以对于百度这样的大型搜索引擎来说,还要不断地对已抓取的页面进行更新。网络“蜘蛛”爬行到某个网站时,会首先检查网站的根目录下是否存在 Robos文件(用于保护网站数据和敏感信息的文件),如果有,则会根据其中的约定不抓取禁止抓取的网页。

    进入允许抓取的网站后,网络“蜘蛛”会采用深度优先、宽度优先和最佳优先3种策略爬行网站中的所有网页、深度优先策略是指在一个网页文件中,当一个超链接被发现后,网络“蜘蛛”就会沿着这个超链接爬到下一个网页,然后在这个网页中又沿着新发现的超链接维续爬行,直到爬完所有超链接,再返回到第一个网页,沿着另一条超链接继续爬行。当不再有新的超链接可侠选择时,整个爬行过程结束。

    宽度优先策略是指网络“蜘蛛”来到一个网页后,先爬行该网页上所有的超链接,然后再爬行下一层网页的所有超链接。

    最佳优先策略是指当网络“蜘蛛”到达一个网页时,会将其中的所有超链接收集到地址库中,并对其进行分析,从中筛选出重要性较高的超链接进行爬行。影响超链接重要性的因素主要有PR值、网站规模和反应速度等,PR值越高、网站规模越大、反应速度越快的超链接,越会被优先抓取。PR(Page Rank)值是根据网站的外部链接和内部链接的数最和质量来衡量网站重要性的指标,其级别为0~10级;PR值越高说明该网页越受欢迎。

    (2)抓取建库。

    网络“蜘蛛”在经过一段较长时间的爬行后,就可以爬完网络上的所有网站,但这些网站资源极其庞大,而且其中还夹杂着大量的无用网站,再加上搜索引擎的资源有限,通常网络“蜘蛛”只会抓取其中的部分网页放到数据库中。

    网络“蜘蛛”到达一个网页后,会先对其内容进行检测,判断其中的信息是否为无用信息,如是否有大量的重复内容、乱码或是否与已收录的内容高度重复等。检测通过后,网络“蜘蛛”会对有价值的网页进行收录,并将网页信息存储到数据库中。

    (3)网页处理。

    网络“蜘蛛”抓取到的网页数据量过于庞大,是不能直接为用户进行索引服务的,这时要做大量的网页处理工作,如结构化网页、分词、降噪去重、建立索引数据库、链接分析和数据整合等。

    (4)检索服务。

    搜索引擎建好检索数据库后,就可以为用户提供检索服务了。用户输入一个关键词后,搜索引擎首先会处理该关键词,将其进行过滤和拆分,然后将索引库中与之匹配的页面提取出来,再对页面不同维度的得分进行综合排序,再通过收集用户搜索数据对结果进行优化,最后得到最终的搜索结果。

    (5)结果展现。

    一个页面在经历了层层筛选之后,最终展现在用户面前。目前,搜索引擎结果展现的形式是多种多样的,如摘要式、图片式、视频式、软件下载式、步骤式和新闻资讯式等。

    ①摘要式是最原始的展现形式,只显示一个标题、两行摘要、一个链接。一般企业网站、资讯类网站均为此展现方式。

    ②图片式表现为在摘要式的基础上显示一张图片。

    ③视频式用于显示包含视频的网页,在摘要式的基础上显示一张视频缩略图以及视频的时长等信息。

    ④软件下载式用于显示提供软件下载的页面,除了标题的链接外,还会显示软件的图标、版本、大小、更新时间、运行环境等信息以及“立即下教”按钮,单击该按钮可以直接开始下教软件。

    ⑤步骤式主要用于显示各种操作步骤的页面,会显示多张缩略图及简略的步骤文本。

    ⑥新闻资讯式会显示多条新闻的标题、发布网站及其发布时间,并显示第一条新闻的摘要。