搜索引擎相关度算法分析相关性,是搜索引擎优化中的重点但是对于相关性的搜索引擎工作原理,相信大部分 的 SEOER 对于都缺乏了解作为职业 SEO 对于搜索引擎算法的研究是必须的,虽然说, 我们不可能知道搜索引擎算法的全部但是只需要我们主流搜索引擎技术的方向,你就可以 知道搜索引擎时代的脉搏相关度排序技术的产生主要是由搜索引擎的特点决定的首先,现代搜索引擎能够访问的Web网页数量已经达到上十亿的规模,哪怕用Hu只是 搜索其中很少的一部分内容,基于全文搜索技术的搜索引擎也能返回成千上万的页面即便 这些结果网页都是用Hu所需要的,用Hu也没有可能对所有的网页浏览一遍,所以能够将 用Hu最感兴趣的结果网页放于前面,势必可以增强搜索引擎用Hu的满意度其次,搜索引擎用Hu自身的检索专业能力通常很有限,在最为普遍的关键词检索行为 中,用Hu 一般只是键人几个词语例如,Spink等曾对Excite等搜索引擎的近300位用Hu 做过实验调查,发现人均输入的检索词为3.34个国内部分学者也有相似的结论,发现90% 左右的用Hu输入的中文检索单字为2〜6个,而且2字词居多,约占58%,其次为4字词(约 占18%)和3字词(约占14%)。
过少的检索词事实上无法真正表达用Hu的检索需求,而且用 Hu通常也不去进行复杂的逻辑构造,只有相当少的用Hu进行布尔逻辑检索、限制性检索 和高级检索等方法,仅有 5.24%的检索式中包含有布尔逻辑算符国内的部分学者的研究结 果也表明,约40%的用Hu不能正确运用字段检索或二次检索,80%左右的用Hu不能正确 运用高级检索功能,甚至还发现用 Hu 缺乏动力去学习复杂的检索技能,多数用 Hu 都寄希 望于搜索引擎能够自动地为他们构造有效的检索式由于缺乏过去联机检索中常常具备的检 索人员,因此,用Hu实际的检索行为与用Hu理想的检索行为存在事实上的差距,检索结 果的不满意也是不奇怪的正是由于这个特点,搜索引擎就必须设法将用Hu最想要的网页 结果尽可能地放到网页结果的前面,这就是网页相关度排序算法在搜索引擎中为什么非常重 要的原因现阶段的相关度排序技术主要有以下几种:一是基于传统信息检索技术的方式,它主要 利用关键词本身在文档中的重要程度来对文档与用Hu查询要求的相关度做出测量,如利用 网页中关键词出现的频率和位置一般而言,检索出的网页文档中含有的查询关键词个数越 多,相关性越大,并且此关键词的区分度越高;同时,查询关键词如果出现在诸如标题字段 等重要位置上,则比出现在正文的相关度要大。
二是超连分析技术,使用此技术的代表性搜 索引擎有Google和Bai和前者相比,它以网页被认可的重要程度作为检索结果的相关度 排序依据从设计思想上看,它更注重第三方对该网页的认可,如具有较大连入网页数的网 页才是得到广泛认可的重要网页,而根据关键词位置和频率的传统方法只是一种网页自我认 可的形式,缺乏客观性最后还有一些其他方式,如由用Hu自由定义排序规则的自定义方 式北京大学的天网FTP搜索引擎就采用这种排序方式,它可以让用Hu选择诸如时间、大 小、稳定性和距离等具体排序指标来对结果网页进行相关度排序再如收费排名模式,它作 为搜索引擎的一种主要赢利手段,在具有网络门Hu特点的大型搜索引擎中广为使用,但于 担心影响搜索结果的客观性,这种方式不是它们的主流排序方式,而仅仅作为一个补充显示 在付费搜索栏目中相关度排序技术主要依赖于超连分析技术实现超连分析技术可以提供多种功能,其中 的主要功能就是解决结果网页的相关度排序问题它主要是利用网页间存在的各种超连指 向,对网页之间的引用关系进行分析,依据网页连人数的多少计算该网页的重要度权值一 般认为,如果A网页有超连指向B网页,相当于A网页投了B网页一票,即A认可了B 网页的重要性。
深入理解超连分析算法,可以根据连接结构把整个Web网页文档集看成一 个有向的拓扑图,其中每个网页都构成图中的一个结点,网页之间的连接就构成了结点间的 有向边,按照这个思想,可以根据每个结点的出度和入度来评价网页的重要性对于超连分析技术,有代表性的算法主要是Page等设计的PageRank算法和Kleinberg 创造的HITS算法其中,PageRank算法在实际使用中的效果要好于HITS算法,这主要是 由于以下原因:首先, PageRank 算法可以一次性、脱机且独立于查询的对网页进行预计算 以得到网页重要度的估计值,然后在具体的用Hu查询中,结合其他查询指标值,一起对查 询结果进行相关性排序,从而节省了系统查询时的运算开销;其次, PageRank 算法是利用 整个网页集合进行计算的,不像HITS算法易受到局部连接陷阱的影响而产生“主题漂移” 现象,所以现在这种技术广泛地应用在许多搜索引擎系统中, Google 搜索引擎的广获成功 也表明了以超连分析为特征的网页相关度排序算法日益成熟PageRank技术基于一种假设,即对于Web中的一个网页A,如果存在指向网页A的连 接,则可以将A看成是一个重要的网页。
PageRank认为网页的连入连接数可以反映网页的 重要程度,但是由于现实中的人们在设计网页的各种超连时往往并不严格,有很多网页的超 连纯粹是为了诸如网站导航、商业广告等目的而制作,显然这类网页对于它所指向网页的重 要程度贡献程度并不高但是,由于算法的复杂性, PageRank 没有过多考虑网页超连内容 对网页重要度的影响,只是使用了两个相对简单的方法:其一,如果一个网页的连出网页数 太多,则它对每个连出网页重要度的认可能力降低;其二,如果一个网页由于本身连入网页 数很低造成它的重要程度降低,则它对连出网页重要度的影响也相应降低所以,在实际计 算中,网页a的重要性权值正比于连入网页a的重要性权值,并且和连入网页a的连出网 页数量呈反比由于无法知道网页 A 自身的重要性权值,所以决定每个网页的重要权值需 要反复迭代地进行运算才能得到也就是说,一个网页的重要性决定着同时也依赖于其他网 页的重要性.【补充材料:搜索引擎的相关排序算法分析与优化】WWW是一个巨大的潜在的知识库,它所拥有的web页已经从最初的几千个发展到至今 的 20多亿个(已被编入索引).随着网络规模的爆炸性增长,搜索引擎已经成了帮助人们寻找相 关信息的重要工具.据纽约市场研究机构朱比特通信公司的调查分析,88%的网上用户使用搜 索工具,成为除Email之外使用最多的互联网应用之一•但是由于Web数据本身具有分布、异 质、动态、半结构或非结构等特征,这无疑给Web上的信息检索提出了挑战[1].目前的搜索引 擎普遍存在着查全率和查准率不高的现象,任何一个简单的查询都至少返回数以万计的检索 结果,而其中只有很少一部分与用户真正的检索要求有关.同时,由于搜索引擎数据量巨大,而 用户的接受能力有限,查全率对搜索引擎来说基本失去了评价的意义•而前X个检索结果的查 准率对于用户的检索目标更具意义[1].影响查准率的因素有很多,相关排序算法是其中的一 个关键点。
1、相关排序的概念和存在的问题传统上,人们将信息检索系统返回结果的排序称为“相关排序” (RelevanceRanking),隐含 其中各条目的顺序反映了结果和查询的相关程度.在搜索引擎中,其排序不是一个狭义的相关 序,而是一种反映多种因素的综合统计优先序.在排序方面,搜索引擎目前存在的问题:(1)对于 多数检索课题,要么输出的检索结果过载,记录数量达千条以上,给相关性判断带来困难;要么 是零输出或输出量太少,造成过分的漏检.(2)在相关度方面,搜索引擎对相关度参数的选择、计 量和算法各不相同.(3)由于搜索引擎是按照已定的相关度对检索结果进行排序 ,关键词检索 返回结果的相关度排序方式单一,用户不能根据需要选择输入的排序方法,用户对结果的排序 无能为力,因而用户基本上是在被动接受返回序列 ,这难免与用户的检索目标冲突,受到用户 接受能力的限制,无疑会影响到检全率与检准率2、现有的排序算法现有的搜索引擎排序技术主要有PageRank算法和HITS算法.PageRank算法以“随机冲 浪”模型为理论基础,而HITS算法使用Hub和Authority相互加强模型,二者都是利用了网页 和超链组成的有向图,根据相互连接的关系进行递归运算.2.1 PageRank 算法。
LawrencePage 和 SergeyBrin 描述了 PageRank 最初的算法,网页 A 页的 PageRank 值 PR(A)=(l-d)+d(PR(Tl)n C(Tl)+-+PR(Tn)n C(Tn)),其中 d 为阻尼系数,且 Ovdvl网页的 PageRank 值决定了随机访问到这个页面的概率.用户点击页面内的链接概率,完 全由页面上链接数量的多少决定的,这也是上面PR(Ti)n C(Ti)的原因•因此,一个页面通过随 机冲浪到达的概率就是链入它的页面上的链接被点击概率的和,且阻尼系数的减低了这个概 率.阻尼系数的引入,是因为用户不可能无限的点击链接,常常因无聊而随机跳入另一个页面.由此可见 ,PageRank 并不是将整个网站排等级 ,而是以单个页面计算的 .页面 A 的 PageRank值取决于那些连接到A页面的PageRank的递归值.PR(Ti)值并不是均等影响页面 PR(A)的.在PageRank的计算公式里,T对于A的影响还受T的出站链接数C(T)的影响.这就 是说,T的出站链接越多,A受T的这个连接的影响就越少.PR(A)是所有PR(Ti)之和•所以,对于 A来说,每多增加一个入站链接都会增加PR(A)•所有PR(Ti)之和乘以一个阻尼系数的,它的值 在 0 到 l 之间.因此,阻尼系数的使用 ,减少了其它页面对当前页面 A 的排序贡献.另 外,PageRank算法中对于向外链接的权值贡献是平均的,也就是不考虑不同链接的重要性•斯 坦福大学计算机科学系Arvin的Arasu等科学家经过试验表明,PageRank算法计算效率还可 以得到很大的提高2.2 HITS 算法。
HITS(Hyperlink-In 的 uce 的 TopicSearch)算法是利用 Hubn Authority 的搜索方法,具体算 法如下:将查询q提交给传统的基于关键字匹配的搜索引擎.搜索引擎返回很多网页,从中取前 n个网页作为根集(RootSet),用S表示.S满足如下3个条件:S中网页数量相对较小;S中网页 大多数是与查询q相关的网页;S中网页包含较多的权威网页.通过向S中加入被S引用的网 页和引用S的网页,将S扩展成一个更大的集合T.以T中的Hub网页为顶点集V1,以权威网 页为顶点集V2.V1中的网页到V2中的网页的超链接为边集E,形成一个二分有向图•对V1 中的任一个顶点v用h(v)表示网页v的Hub值,且h(v)收敛;对V2中的顶点u,用a(u)表示网 页的Authority值.开始时h(v)=a(u)=l,对u执行I操作,修改它的a(u),对v执行O操作,修改它 的h(v),然后规范化a(u)n h(v),如此不断的重复计算下面的I操作和O操作,直到a(u).其中I 操作:a(u)=Yh(v);O 操作:h(v)=Ya(u).每次迭代对 a(u)、h(v)进行规范化处理:a(u)=a(u)n 工[a(q)]2;h(v)=h(v)n 工[h(q)]2.HITS 算法可以获得比较好的查全率,输出一组具有较大 Hub 值的网页和具有较大权威值的网页. 但在实际应用中,HITS算法有以下几个问题:由S生成T的时间开销是很昂贵的,由T生成有 向图也很耗时,需要分别计算网页的An H值,计算量大;网页中广告等无关链接影响A、H值 的计算,降低HITS算法的精度;HITS算法只计算主特征向量,处理不好主题漂移问题;进行窄 主题查询时,可能产生主题泛化问题.相关分析算法大体可以分为4类:基于随机漫游模型的算法,比如PageRank,Repution算法; 基于 Hub 和 Authority 相互加强模型的算法,如 HITS 及其变种;基于概率模型的算法,如 SALSA,PHITS;基于贝叶斯模型的算法,如贝叶斯算法.所有的算法在实际应用中都结合传统 的内容分析技术进行优化[3].AllanBoro的in也指出没有一种算法是完美的,在某些查询下,结 果可能很好,在另外的查询下,结果可能很差。
3、排序算法的优化要提高现有算法的精度,首先,必须增强根集的质量,算法再好,也无法在低质量网页集找 出很多高质量的网页;其次,降低噪音链接;最后,选择合适的查询分类.为此,笔者提出了一个 考虑综合因素的相关排序实现方案.3.1 重组网页中特征项的权重考虑到 HTML 的标签的功能不同,将其分为功能类和附加类,对其分配不同的权重表,设 标签权重 WBT(T,P)=£WBT(i)XLG(SMAXn S(P))XLG(Nn T(t)),其中:SMAX 表示最大网 页可索引文本大小;S(P)代表网页P的可索引文本大小;N代表被索引网页的数量;T(t)代表包 含特征项的网页数量.可以看出该方案综合考虑了标签权重、网页大小和特征项的频度.3.2 利用改进的 PageRank 算法分配链接结构PageRank因子的优化可从下面3个方面着手:设置导入链接PageRank得分;最大回馈和 最小损耗的PageRank值的网页做导出链接;修正内部导航结构和内部页面的链接PageRank 值,实现PageRank在网站内部的良好分布.设链接值n kiR(u)=CER(v)n N(v){v£B(u)}.其 中:u表示一个网页;R(u)表示网页u的PageRank值;B(u)表示链接到网页u的网页集合,即网 页u的链入网页集合;N(v)表示从网页v向外的链接数量,即网页v的链出网页数;C为规范化 因子,用于保证所有网页的 PageRank 总和为常量.3.3 利用锚文本技术修正其权值。
锚文本就是链接文本,它既可以做为锚文本所在页面的内容评估,又能做为对所指向页面 的评估,锚文本有很高的精度,对链接和目标网页的描述比较精确 .可以利用相似度函数来计 算锚文本和特征项,链接的相似度函数表达式:Slinks=W的XS的es+WaXSanc+WsXSsql.其 中:W的、Wa、Ws是权值;S的es是公共子孙计算的相似度;Sanc是共同祖先计算的相似度;Ssql 是最短路径长度计算的相似度.3.4 收集用户的信息在搜索引擎中,若用户给出一个查询并得到一个返回结果列表之后 ,大多数的情况之下, 会点击前几个页面,可以判断其关心的主题范围,将主题和点击次数结合起来,就可以作为相 关排序的一个重要权值•若WUH(p,q)>m,则其为1,负责为0,所以WUH(p,q)=工Ki X WUHi(p,q).其中K为衰减系数;q为查询;p为网页的点击次数.3.5 综合计算页面文档综合权重公式:W(P,Q)=K1X WBT(T,P)+K2X R(u)+K3 X Slinks+K4 X WUH(p,q), 其中K1+K2+K3+K4=1.此方法的优点是它不需要象以往的算法一样模拟Web站点的拓扑结 构,使用聚类,计算Web页面的等级和Web页面之间的关联度,它只是采用了一些统计,性能有 所提高.此算法与用户检索信息相关联,具有更好的针对性和个性化.缺点是结果直接受样本 集的质量影响,并且样本分类的个数、模式提取的阈值等一些参数不能自动生成,需要指定4、结语。
随着WWW的不断发展以及Web页数量的级数级增长,网上检索信息变得越来越困难.如质 量不能精确的定义,链接是否包含重要的信息也没有有效的方法准确的判定,分析锚文本又涉 及到语义问题,查询的分类也没有明确界限.如果欲使算法要取得更好的效果 ,需要继续做深 入的研究勤劳的蜜蜂有糖吃。