搜索引擎工作原理及作用:如何帮助用户找到所需内容,地理网站建设总结模板
2024-11-16 00:00:00 浏览:
1.什么是搜索引擎?
搜索引擎是一种帮助用户搜索所需内容的计算机程序。换句话说,搜索引擎将计算机中存储的信息与用户的信息需求进行匹配,并显示匹配结果。
例如:如果您想购买并了解“”的配置或价格,则在浏览器搜索框中输入“”,然后单击搜索按钮。这里的关键字“”就是您的信息需求。在浏览器显示搜索结果的零点几秒内,其程序根据关键词在庞大的数据库中进行搜索,最终计算出所有关于“”的网页。
2. 搜索引擎如何工作
搜索引擎网站后台会有一个非常大的数据库,里面存储了大量的关键词,每个关键词对应着很多个URL。这些 URL 被称为“搜索引擎蜘蛛”或“网络爬虫”。这些程序是从浩瀚的互联网上一点一点下载和收集的。随着各种网站的出现,这些勤劳的“蜘蛛”每天都在互联网上爬行,从一个链接到另一个链接,下载内容,分析提炼,找到关键词。如果“蜘蛛”认为数据库中没有但对用户有用的关键词就存储在后台数据库中。相反,如果“蜘蛛”认为是垃圾邮件或重复信息,它就会丢弃它,继续爬行,寻找最新的、有用的信息并保存起来供用户搜索。当用户搜索时,可以检索与该关键字相关的URL并将其显示给访问者。
一个关键词匹配多个URL,因此存在排名问题。相应地,与关键字最匹配的URL将被排在第一位。在“蜘蛛”抓取网页内容、提炼关键词的过程中,存在一个问题:“蜘蛛”能否理解。如果网站的内容是flash、js等,那么就无法理解,会很混乱。即使关键词合适,也是没有用的。相应地,如果网站内容能够被搜索引擎认可,那么搜索引擎就会增加网站的权重,增加网站的友好度。我们称这个过程为SEO。
3.搜索引擎工作流程(三个阶段)
搜索引擎的工作过程大致可以分为三个阶段。
【阶段一】爬行和抓取:搜索引擎蜘蛛通过链接访问网页,获取网页的HTML代码并存储在数据库中。
1. 什么是()?
爬取网页数据时称为执行器。事实上,它是一个计算机程序。由于这个工作过程与现实中的蜘蛛非常相似,所以业界称其为搜索引擎蜘蛛!蜘蛛程序向网站页面发送访问请求,服务器将返回HTML代码,蜘蛛程序将接收到的代码存储到原始页面的数据库中。当蜘蛛访问任何网站时,都会首先访问该网站根目录下的.txt文件!如果.txt文件禁止搜索引擎抓取某些文件或目录,蜘蛛就会遵守这些禁止协议,不会抓取那些被禁止的URL。
2. 如何追踪链接?
为了在互联网上爬行尽可能多的页面,搜索引擎蜘蛛会沿着网站页面上的链接从一个页面爬行到下一个页面。这个过程就像蜘蛛在蜘蛛网上爬行一样,这就是搜索引擎蜘蛛这个名字的由来。整个互联网由相互链接的网站页面组成。理论上,只要给蜘蛛足够的时间,你总能爬行互联网上的所有页面链接。但实际情况并非如此。由于网站和链接结构极其复杂,蜘蛛需要采用一定的爬行策略来遍历互联网上的所有页面。
3. 爬取策略
根据网站链接结构的不同,我们可以将蜘蛛的爬行策略分为深度爬行和广度爬行两种。
深度爬行:蜘蛛沿着找到的页面链接向前爬行,直到前面没有其他链接,然后返回到第一页,沿着另一个链接向前爬行,然后再向前爬行!
广度爬行:当蜘蛛在一个页面上发现多个链接时,它不会沿着一个链接向前爬行。相反,它会抓取页面上的所有一级链接,然后继续沿着二级页面抓取。链接爬到第三级页面!继续这样下去
在实际工作中,蜘蛛的带宽资源和时间都是有限的,不可能爬取所有页面。深度优先和广度优先通常混合使用,这样可以照顾到尽可能多的网站(广度优先),也可以照顾到网站的一些内部页面(深度优先)。
4.吸引蜘蛛
从上面的介绍我们可以知道,蜘蛛不可能收录所有的页面,所以SEO就是利用各种手段来吸引蜘蛛爬行,收录你网站的更多页面。由于不能包含所有页面,因此蜘蛛必须尝试爬行重要页面。那么蜘蛛如何确定哪些页面更重要呢?影响因素有几个:
网站和页面权重:高质量、高级的网站权重高。
页面更新程度:更新频率高的网站权重高
导入链接:无论是外部链接还是内部链接,要被蜘蛛抓取,都必须有导入链接进入页面。高质量的传入链接通常也会使页面上的传出链接被抓取得更深入。
距首页的点击距离:一般来说,一个网站权重最高的是首页。大多数外部链接都指向主页。该主页也是蜘蛛访问最频繁的页面。因此,距离首页越近的页面权重相对越高,被蜘蛛抓取的机会就越大。
5.地址数据库
搜索引擎会建立一个地址数据库来存储页面。目的是防止搜索引擎蜘蛛重复抓取、抓取URL。这个地址数据库包含已经爬取过的页面,也有被发现后还没有爬取过的页面。这个地址数据库中的URL一定会被蜘蛛爬行吗?答案是否定的。有手动输入种子网站地址的,也有站长通过搜索引擎网页提交网址的(一般个人博客或网站都采用这种方式)。蜘蛛抓取页面后,会解析URL并与地址数据库进行比较。如果不存在则保存
6、文件存储
搜索引擎蜘蛛爬取的数据就存储在这个原始的页面数据库中,其中的页面数据与用户浏览器获取到的HTML一模一样。每个 URL 都有一个唯一的文件编号
7. 复制内容检测
蜘蛛在抓取文件时也会对文件进行一定程度的复制内容检测!当遇到权限较低、有大量抄袭、复制内容的网站时,蜘蛛很可能会停止爬行。这就是为什么一些网站管理员在日志文件中发现蜘蛛,但页面从未真正包含在内。
【第二阶段】预处理:索引程序对抓取到的网页数据进行文本提取、中文分词、索引等处理,为调用排序程序做准备。
由于搜索引擎数据库中的数据太多,用户在搜索框中输入关键词后不可能立即返回排名结果。然而,我们常常感觉它很快。事实上,预处理过程起着关键作用。和爬取抓取过程一样,也是在后台提前完成的。有人认为预处理就是索引,但事实并非如此。索引只是预处理的一个主要步骤。那么什么是索引呢?索引是一种对数据库列表中的一个或多个列的值进行排序的结构。建立索引之前需要完成五项任务:
1. 提取文本
搜索引擎要做的第一件事就是从HTML文件中去掉HTML格式标签,对其进行编程,提取出可用于排名处理的网站页面的文本内容。除了提取可见文本外,搜索引擎还可以提出以下不可见文本内容,例如:元标记中的文本内容、图像替代文本、Flash文件替代文本、链接锚文本等。
2. 中文分词
在汉语句子中,单词之间没有分隔符,句子中的单词都是连接在一起的。因此,这时候搜索引擎首先要区分哪些字符组成单词,哪些字符本身就是单词。例如:“波司登羽绒服”分为两个词:“波司登”和“羽绒服”。中文分词一般有两种方法:
词典匹配:将待分析的汉字与预先制作的词典中的词条进行匹配。如果在待分析的汉字字符串中扫描字典中已有的词条,则匹配成功,或者进行分词。
根据搜索统计:统计分词方法是指分析大量的文本样本,计算相邻词的统计概率。相邻单词出现的次数越多,它们构成单词的可能性就越大。基于统计的方法的优点是可以更快地响应新词,也有助于消除歧义。
友情链接: