宁波seoesball提款:Web文档集合中出现的每一个索引项

发布时间:2018-09-22 18:43

  是把检索词限定在某些字段中,如果记录的相应字段中含有输人的检索词则为命中记录,否则检索不中。
  例如查找微型机和个人计算机方面的文章。要求“微型机”一词出现在叙词字段、标题字段或文摘字段中,“个人计算机”一词出现在标题字段或文摘字段中,检索式可写为:
  microcomputer??/de,ti,abORpersonalcomputer/ti,ab又如査找zhangsan写的文章,可以输人检索式:au=zhangsan②使用限制符
  用表示语种、文献类型、出版国家、出版年代等的字段标识符来限制检索范围。例如要査找1999年出版的英文或法文的微型机或个人计算机方面的期刊,则检索式为:
  (microcomputer??/de,ti,abORpersonalcomputer/ti,ab)ANDPY=1999AND(LA=ENORFR)ANDDT=Serial
  ③使用范围符号
  如Lessthan、Greaterthan、Fromto等。如查我1999年的文献,可表示为:
  PY=1989:1999或者PY=1989toPY=1999又如查找2000年以来的计算机方面的文献,可表示为computer??AndGreaterthan1999查找在指定的文摘号范围内有关地震方面的文献,可表示为earthquake?/635000-800000④使用限制指令
  限制指令可以分为一般限制指令(Limit,它对事先生成的检索集合进行限制)、全限制指令(Limitall,它是在输人检索式之前向系统发出的,它把检索的全过程限制在某些指定的字段内)。
  例如:LimitS5/328OOO-56OOOO表示把先前生成的第5个检索集合限定在指定的文摘号内。又如:Limitall/de,ti表示将后续检索限定在叙词和题名字段。
  上述几种限制检索方法既可独立使用,也可以混合使用。
  目前,在不少联机检索系统中,都提供了图形界面的限制检索机制,让用户能够对关键词出现的字段进行限制,对文献信息出版的年份、语种、文献类型等做出相应的限制。
  全文检索效率的提高
  一个完整的全文检索策略的制定步骤包括数据库的选择、确定检索词、决定检索途径和进行布尔逻辑匹配。检索策略的好和坏对全文检索效率起着关键性的作用,成功的检索策略应导致髙的查全率和查准率,而且节省时间和费用。
  检索效率的好坏与检索式的建立、检索途径的选择、检索词的选用和检索词之间逻辑关系直接相关,还与检索人员对语言学的了解、对事物的认知能力、专业知识的髙低有密切关系。另外对检索系统的特性和功能的掌握,以及外语水平都会影响到课题捡索成功与否。一个好的检索策略,既可以esball提款检索过程,节省检索时间和费用,又可以获得最佳的查全率和查准率。
  提高查全率的方法
  ①选择上位词、同位词及下位词的检索词
  为了提髙文献查全率,除选择恰当主题词外,还应该选择比恰当主题词内容更广的上位主题词、同位主题词及更窄的下位主题词检索,否则有的文献就会漏掉。

Web文档集合中出现的每一个索引项的图片69

  例如:检索程序语言方面的文献,可选择主题词“程序语言”也可选择其上位主题词计算机软件。采用上下位主题词检索是提髙文献查全率的一个重要方法。
  ②检索概念要少,同类检索词要多的原则
  完整反映一个课题的概念可能有多个,但是为了达到查全的目的,选用的概念要尽量少,同时专指度要低,反映同一概念的检索词要多,这是保证查全的关键。一般反映一个课题的概念可以划分为主要概念和次要概念,基本概念和特殊概念。为了査全,应透彻分析所査课题,正确划分概念的主次并慎重选用概念。对于次要概念和特殊概念应尽量少用或不用,尽量多使用反映主要概念和基本概念的同类检索词。这里所讲的同类词是广义的,具体包括以下3个方面。
  同一概念的不同表达形式(包括同义词、近义词和相关词等)。如清华、清华大学。
  同一词的不同词尾变化,这里包含着截词符的使用技巧。如,生产一词有produce,product,production,producing,productive,produced等几种表达形式,上机用“producx”(或“prduc?”,不同的数据库所使用的截词不同)可以查全。
  概念的内涵和外延。对于某些课题不能只从表面看问题,应透过现象看本质,找出其隐含的概念。
  一般表达同一概念的检索词往往有多个,检索时必须把各种表达形式都考虑周全,以防漏检。
  提高查准率的方法
  ①应在多个主题概念中析出主要概念和基本概念,剔除重复概念有时用户提供的课题涉及的主题概念较多,根据检索经验,在用逻辑算符进行逻辑组合时,不能简单地认为逻辑组配面越广、越细致,检索出的结果针对性就越强。实际上,过严的组配会导致大量的漏捡,甚至使检索结果为零。这是因为在标引文献时,不同的工作人员受专业知识的限制,所选择的主题词会有差别。
  例如,对于概念较多的课题应分清主要概念和基本概念,剔除重复概念。
  ②尽量避免使用泛指的词作为主题概念进行检索对于一些泛指的词,例如生产、制备、工艺、合成等,由于其意义广泛,所以编辑数据库索引时,一般不作为主题词。因此选择主题概念时,应尽量避免使用这些词,除非检索结果非常多,需要进一歩缩小范围时才可以使用,但使用时一定要注意把同类词用OR逻辑组合z后,再用AND与主题概念进行组合,以避免漏掉相关结果。
  ③正确理解题义,规范专业用语
  对于一些科技信息数据库,一般需要用规范化术语进行检索。例如,检索课题“偏瘫治疗仪”,偏瘫也就是人们通常所说的半身不遂,如果用半身不遂作为检索词进行检索,往往结果为零或很少,但用偏瘫治疗仪进行检索,结果却较多。因此在检索大型商业数据库(如EI等数据库)时,应尽量使用规范化专业用语。
  超文本检索
  超文本检索是将文本、声音、图像等媒体数据的内容信息分隔为若干可独立利用的节点,节点间以链路相连接,构成网状层次结构,检索由指令激活某一节点,通过链路查询所有相关信息。
  超文本的功能及结构
  超文本的主要功能在于对信息的表示、信息的组织、信息的浏览以及信息的检索等。这些功能的实现主要取决于超文本的组织结构,超文本是在文本中定义了大量超链接使其变成了非线性结构。
  建立在超媒体基础之上的超文本,是由主题和它们之间的连接所组成的网络结构的文本。这里的网络結构文本的链接对象可能都是本机的信息资源,也可能是局域网或广域网中的信息资源。文本的结构是网状的、复杂的、灵活的、动态的。从信息表示的角度出发,超文本结构表现为层次结构和交叉链接结构。
  超文本的层次结构提供了自然、清晰的数据组织,信息的隶属关系明确,是实现文档组织和浏览导航的最佳结构。目前,许多组织机构的esball.net介绍、检索系统和各类软件的联机帮助文档几乎都采用层次型的超文本结构。超文本结构层次之间存在以下几种关系。
  并列关系
  各文本之间是平行的,没有层次之分。在超文本信息中,根据不同角度对材料进行归类,就同一主题进行多侧面展示,从文本的整体结构上来看,形成了多条消息的并列关系,它们相互链接,共同表达一个主题。
  时间关系
  按照时间发生、发展的先后顺序来安排文本层次。这样的层次结构容易使读者对事实的来龙去脉有一个鲜明、清晰的印象。
  层次关系
  根据调査研究的过程来组织材料,先写了什么,后写了什么,边采访边写作,发布的文本也就以此为顺序,流传下来。
  因果关累
  先安排事实材料,说明事实现状,然后分层交待相关背景,分析事实形成的原因,让读者尽可能充分地了解事件的来龙去脉。
  印证关系
  在重要理论、方针政策的实践问题方面,经常的处理手段是先讲清楚原理和重栗性,然后再选择事实材料,分别进行印证。
  超文本检索的优缺点
  超文本检索的优点
  ①检索界面生动、信息的表达和交互方式丰富
  超文本技木对信息的管理基于信息块,它不仅可以处理文本信息,还可以处理图形、图像、声音、动画、视频乃至它们的组合信息,使超文本检索界面更加生动,信息的表达和交互方式更加丰富,从而使超文本技术具有更广阔的潜力和魅力。
  ②展示文献多方位信息
  由于电子文献成为文献家族主角的趋势越来越明显,集图、文、声于一体的电子文献将是以往检索工具“爱莫能助”的。
  在超文本检索中,不仅能检索题名、著者、分类号、出版年等文字著录事项,还能向读者展示文献的外观封面、重要内容及声音表述等,从而让读者获得有关文献的多方位信息。
  ③提供动态阅读
  由于人类对信息的检索、存取、处理均是借助“联想”来明确信息内部的关键性,这种关键性使人们了解分散存储在不同信息块之间的连接关系和相似性,进而构成一个具有复杂因果关系、内容丰富的信息网络。超文本信息网络是一个有向图结构,它将信息内容按其内在联系划分为不同层次和不同关系的知识单元,并将这些知识单元依照其层次和关系组成一个网状结构;它类似于人类的联想记忆结构,使用户可依据信息链进行跳跃式阅读。这种方式弥补了全文检索系统存在的不足,符合人们联想式的阅读和思维习惯。
  ④检索内容多样、复杂、多变
  超文本节点中的信息可以是文字、数据、图形、图像、声音、动画、视频、计算机程序或它们的组合。在网络环境中,作为检索对象的信息既有传统的字符型和数据型,也有包括文本、图像、视频、音频等形式的多媒体信息,电子出版物及网络型电子期刊更是极大地丰富了网络环境中信息的内容,使信息的形式更加多样化和复杂化。同时,超文本是一种以非线性方式建立和表示离散信息间的关系,存储和管理信息的技术,其节点和链可以动态地改变,各节点中的信息既可以更新,也可将新的节点加人至超文本中,或者加人至新的链盛中反映新的关系,形成新的组织结构和从旧文献中产生新文献。因此,超文本检索中的信息具有动态性、多变性。
  ⑤跨库检索
  超文本检索,主要是为了解决顺序检索中信息定位和不同库之间转换的耗时问题。超文本信息的非线性组织特点,向用户提供一个独特的用户界面:“关联图”,当检索时,通过“关联图”用户既可根据不同需要,按不同思维,采用不同的方式进行检索,又可使原有信息的线索不致丢失,较好地解决了要检索的相关数据库及编写正确的布尔逻辑式,避免了检索语言的复杂性问题。另一方面,超文本系统还可以作为一个独特的用户界面,将不同数据库的检索语言一体化,方便用户进行跨库检索。
  ⑥批任务处理
  在超文本检索中,超文本可将几个不同途径的检索结果以列表或报告的形式进行集中,同时在屏幕上显示出来,供用户处理,如电子邮件的转发、打印、保存等。
  ⑦时效性强
  传统情报检索系统以文献为单位,采用准确匹配的检索方法,其检索结果是一组未经排列的文献,并且这些文献的重要性无法区分;而超文本是以知识单元为单位,以结构化形式建立起来的,用户可通过链路连接不同文献的相关部分(知识单元),并且可根据文献间的链路以及文献间的路径或相隔的节点数来确定检出文献的重要程度。这种非线性的连接使检索结果可深人到每一知识单元,从而大大增强了超文本检索的时效性。

Web文档集合中出现的每一个索引项的图片60

  超文本检索的缺点
  随着超文本检索技术的不断发展和广泛应用,超文本检索在极大地方便人类知识获取、信息交流的同时,其不足之处也逐渐呈现出来。
  ①用户检索中的“博物馆现象”
  检索中的“博物馆现象”,即迷航问题,是指用户在浏览超文本文档时,可能遇到许多的交叉连接链,沿哪个链“航行”,需要做出选择,稍有不慎,就会迷失方向。一方面,由于超文本检索系统的结构很灵活,用户浏览的自由度很大,浏览时在系统中任意跳转容易迷航;另一方面,在大型的超文本检索系统中,随着节点和链路的增多,超文本网络将变得异常庞大,用户在这种网络中航行,极易迷失方向,难以找到精确的位置。
  ②不提供直接检索
  浏览时,虽然用户不必了解检索语言和检索策略就可以进行检索,但只能靠浏览发现相关主题、扩大检索范围或调整检索主题,不能直接对所需信息(不局限于主题词,而且可以是任意的字、词等概念)进行直接査找,使得用户只能选择一个人口,靠浏览逐歩去找。此过程中会不断有新鲜的主题跳出来吸引检索者的注意力,用户很可能“误人歧途”,完全忘了原先的检索目标。国外一些学者称此为“艺术博物馆现象”,意指检索超文本可能与浏览艺术博物馆一样会出现以下现象:参观者花一整天时间观赏了博物馆中大量精品后,却发现自己什么印象都没有获得,根本无法向人描述’自己一天中所看到的内窖。面对错综复杂多方位联想,选择链路,査看节点内容及判断取舍,不仅花费大量的脑力,而且速度相当慢。
  ③无法支持动态链路
  节点间的链路是由系统设计者根据关键字之间的关系,决定并设计好固定在系统中的。链路键接是静态的,无法动态地按照用户的意愿,随时根据查找的结果和思路创建、修改和删除链路,不能实现真正的自由联想。
  虽然超文本检索技术还处于起步和发展阶段,其自身理论还不够完善,在很多方面还不够成熟,但它解决了顺序检索中信息定位和不同库之间转换的耗时问题,并且符合人脑思维模式对信息进行检索,能充分发挥人的潜力,利于人们进行思考和学习。
  Web信息稔索
  Web信息检索系统的设计思路和具体实现各不相同,不同的搜索引擎会涉及一些类似的关键技术:文档搜集、文档预处理、索引数据库的建立以及相似度计算和排序。其中,文档的搜集和预处理是Web信息检索的基础工作,索引数据库的建立以及相似度计算和排序则是信息检索系统的核心技术,其结构和组织方式直接决定了检索算法和检索效率。
  网页的搜集
  搜索引擎中的搜集器利用HTTP协议对Web进行遍历下载网页,将搜集来的网页文档保存在文档库中。对于搜索引擎来说,要搜集因特网上所有的网页几乎是不可能的,从目前公布的数据来看,容量最大的搜索引擎也不过是搜集了整个网页数量的40%左右。这其中的原因一方面是搜集技术的瓶颈,无法遍历所有的网页,有许多网页无法从其他网页的链接中找到;另一个原因是存储技术和处理技术的问题。同时,由于数据量太大,在提供搜索服务时也会有效率方面的影响。因此,许多搜索引擎的机器人只是搜集那些重要的网页,而网页重要性的主要依据是某个网页的链接深度,即“被引用的多的就是重要的”。
  Web的结构类似于有向图,采用广度优先或深度优先等算法进行遍历。广度优先是指机器人会先搜集起始网页中链接的所有网页,然后再选择其中的一个链接网页,继续搜集在此网页中链接的所有网页。这是最常用的方式,因为这个方法可以让机器人并行处理,提髙其搜集速度。深度优先是指机器人会从起始页开始,一个链接、一个链接地跟踪下去,处理完这条线路之后再转人下一个起始页,继续跟踪链接。这个方法有个优点是机器人在设计的时候比较窖易。在搜索中,队列(或堆栈)是文档搜集中使用的主要数据结构。从设置的URL出发,下载相应的页面,并从页面中抽取出新的超链接加入到队列(或堆栈),上述过程不断重复直到队列(或堆栈)为空。
  由于不可能搜集所有的网页,有些机器人对一些,不太重要的esball.net,设置了访问的层数。例如,对于起始网页,属于0层,以下的网页分别属于1层、第2层等。如果机器人设置的访问层数为2的话,属于第3层的网页是不会被访问到的。这也使有些esball.net上一部分网页能够在搜索引擎上搜索到,另外一部分不能被搜索到。对于esball.net设计者来说,扁平化的esball.net结构设计有助于搜索引擎抓取其更多的网页。
  由于有些Web页面本身并不存在于Web服务器上,而是由服务器根据用户提交的HTML表单动态生成,动态网页一直是机器人面临的难题。由于开发语言不断地增多,动态网页的类型也越来越多,如asp,jSp,php等。这些类型的网页对于机器人来说,可能还稍微容易一些。机器人则比较难于处理的是一些脚本语言(如VBScript和Javascript)生成的网页,如果要完善地处理好这些网页,机器人需要有自己的脚本解释程序。由于许多数据是放在数据库的esball.net,需要通过该esball.net的数据库搜索才能获得信息,这些给机器人的搜集带来很大的困难。对于这类esball.net,如果esball.net设计者希望这些数据能被搜索引擎搜索,则需要提供一种可以遍历整个数据库内窖的方法。
  关于访问权限的强制性的约束问题,有些网页是需要会员权限才能访问。当然,esball.net的所有者可以通过协议(Robots,txt)让机器人不去抓取,但对于一些出售报告的esball.net,他们希望搜索引擎能搜索到他们的报告,但又不能完全免费的让搜索者査看,这样就需要给机器人提供相应的用户名和密码。机器人可以通过所给的权限对这些网页进行抓取,从而提供搜索。而当搜索者点击查看该网页的时候,同样需要搜索者提供相应的权限验证。
  机器人需要搜集网页,不同于一般的访问,如果控制不好,则会引起esball.net服务器负担过重。每个机器人都有自己的名字,在搜集网页的时候,都会向esball.net标明自己的身份。机器人在搜集网页的时候会发送一个请求,这个请求中就有一个字段为user_agent,用于标识此机器人的身份。例如Google的机器人标识为GoogleBot,Baidu的机器人标识为BaiDuSpider,Yahoo!的机器人标i只为InktomiSlurp。如果在esball.net上有访问日志记录,esball.net管理员就能知道,哪些搜索引擎的机器人来过,什么时候过来的,以及读了多少数据等。如果esball.net管理员发现某个机器人有问题,就通过其标识来和其所有者联系。
  此外,由于esball.net的内容经常在变化,对于已经建立的网页文档数据库也有一个需要不断更新的问题。这就需要机器人按照一g的周期去扫描esball.net,查看哪些页面是需要更新的页面,哪些页面是新增页面,哪些页面是已经过期的死链接。
  搜索引擎的更新周期对搜索引擎搜索的查全率有很大影响。如果更新周期太长,则总会有一部分新生成的网页搜索不到;周期过短,技术实现会有一定难度,而且会对带宽、服务器的资源都有浪费。搜索引擎的机器人并不是所有的esball.net都采用同一个周期进行更新,对于一些重要的更新量大的esball.net,更新的周期短,如有些新闻esball.net,几个小时就更新一次;相反对于一些不重要的esball.net,更新的周期就长,可能一两个月才更新一次。一般来说,机器人在更新esball.net内窖的时候,不用把esball.net网页重新抓取一遍,对于大部分的网页,只需要判断网页的属性(主要是日期),把得到的属性和上次抓取的属性相比较,如果一样则不用更新。
  网页的预处理
  网页的预处理包括对搜集来的网页文档进行过滤、分词、转换等。机器人搜集来的网页包括各种格式,如html、图片、doc、pdf、多媒体、动态网页及其他格式等。这些文件搜集来后,需要把这些文件中的文本信息提取出来,建立索引。准确提取这些网页的信息,一方面对搜索引擎的搜索准确性有重要作用,另一方面对于机器人正确跟踪其他链接有一定影响。对于doc,pdf等文档,这种由专业厂商提供的软件生成的文档,厂商都会提供相应的文本提取接口。机器人只需要调用这些插件的接口,就可以轻松地提取网页中的文本信息和文件其他相关的信息。
  HTML文档与普通的文档不一样,HTML有一套自己的语法,通过不同的命令标识符来表示不同的字体、颜色、位置等版式,提取文本信息时需要把这些标识符都过滤掉。过滤标识符并非难事,因为这些标识符都有一定的规则,只要按照不同的标识符取得相应的信息即可。但在识别这些信息的时候,需要同步记录许多版式信息,例如文字的字体大小、是否是标题、是否是加粗显示、是否是页面的关键词等,这些信息有助于计算单词在网页中的重要程度。同时,对于HTML网页来说,除了标题和正文以外,会有许多广告链接以及公共的频道链接,这些链接和文本正文一点关系也没有,在提取网页内容的时候,也需要过滤这些无用的链接。例如某个esball.net有“产品介绍”频道,因为导航条在esball.net内每个网页都有,若不过滤导航条链接,在搜索“产品介绍”的时候,则esball.net内每个网页都会捜索到,无疑会带来大量垃圾信息。过滤这些无效链接需要统计大量的网页结构规律,抽取一些共性,统一过滤;对于一些重要而结果特殊的esball.net,还需要个别处理。这就需要机器人的设计有一定的扩展性。
  在对文档进行处理时,还需要提取链接信息。通过为每篇网页形成一个独立于查询词(也就和网页内容无关)的重要性指标,为网页评级提供依据(如PageRank方法)。系统计算相关度时,将此依据和查询过程中形成的相关性指标结合形成一个最终的排序。这也是目前搜索引擎给出查询结果排序的主要方法。
  此外,在提取摘要时,用户往往希望摘要中出现和他关心的文字相关的句子,即在响应査询的时候,根据査询词在文档中的位置,提取出周围的文字来,在显示时将查询词标亮。这是目前大多数搜索引擎采用的方式。为了保证查询的效率,需要在分词的时候记住每个关键词在文档中出现的位置。
  搜索引擎一般都保存网页搜集过程中得到的网页全文,并在返回结果列表中提供“网页快照”或“历史网页”链接,保证让用户能看到和摘要信息一致的内容。这是由于搜索引擎索引的网页不一定是当前因特网上最新的网页,因此存在已经消失的可能性。为保证用户能够继续访问相应信息,搜索引擎一般都提供网页快照功能。
  为了建立索引,大部分系统从全文中抽取特征项作为索引项,而有些系统仅从文档的某些部分抽取,如从HTML的TITLE,META等元素中抽取。抽取的索引项是用来描述Web文档的,因此会直接关系到检索的效果。索引项的类型有多种,基于单词的、基于N-gram的索引等。対文档的语义内容没有实质作用的词条需要用停用词表去除,还要进行词干处理。相对于英文而言,中文文档的分词是个难点,Web文档所具有的多领域和非规范化等特点,使得这项工作的难度更大。
  对于网页内窖的抽取,一直是Robot中重要的技术。整个系统一般采用插件的形式,通过一个插件管理服务程序,遇到不同格式的网页采用不同的插件处理。这种方式的好处在于扩充性好,宁波seoesball提款以后每发现一种新的类型,就可以把其处理方式做成一个插件补充到插件管理服务程序之中。
  网页索引的建立

Web文档集合中出现的每一个索引项的图片58

  经过网页预处理后,可以建立索引数据库。对于数目庞大的文档数据库使用简单匹配方法是不可行的,需要对文档的表示建立索引。搜索引擎面临大量的用户检索需求(几十到几千点击/秒),这就要求搜索引擎的检索算法要高效,尽可能地将大运算量的工作在索引建立时完成,尽量减少索引时的运算量。索引结构的质量关系到Web信息检索系统的性能。一个好的索引结构应该易于建立和维护,保证信息更新及时;检索速度快,满足快速响应;空间需求低,实现海量存储。由于倒排文件适于对大规模文档进行快速检索,因此,作为一种简单、髙效的文档数据索引方式,被普遍采用。在倒排文件中,Web文档集合中出现的每一个索引项(词条)均对应一个倒排列表项。倒排文件可以组织成多种形式,一般每个列表项记录了包含该索引项的文档的标识以及该索引项在文档中的相对位置、出现频率等附加信息。这样,通过查找用户查询中包含的索引项对应的倒排列表项可以检索到文档。
  例如,北京大学天网搜索引擎(httP://e.pku.edu.cn),采用了词表结构的索引数据库。这就需要对文档进行汉语分词。一般来讲,自动分词算法有两大类,普遍采用的方式是基于词典的分词方法,这一方法效率高,但分词精度受词典规模制约;另一种是基于统计语言模型的方法,可以发现一些新词。实际应用是两种方法的不同程度的组合。
  天网系统使用北京大学计算语言所的自动分词较件,该分词软件的基本词典规模为6万词。不过,对处理Web数据,分词基本词典的规模是远远不够的。一方面,网上大量的常用词、新出现词、专业词汇等没有被收录,从而会被分词程序切分成分的单字,每个单字被分别索引。这样的词在检索时会按短语査询执行,虽然可以检索出基¥相同的结果集合,但执行过程需要从倒排文件中读取多个索引项的倒排项数据,然后执行位置检查,这大大降低了系统的检索效率。另一方面,分词词典中的分词单位一般很短,常用的短语也会被分词程序切分开,同样这一方式在对短语的査询上效率很低。如果分词程序使用的词典中分词单位过长,切分出短语,又可能使得组成短语的词无法被检索,导致检索系统查全率下降。如何扩大分词词典的规模,使得分词程序能够切分出更多的词,甚至短语,同时又不降低分词程序的分词精度,以及不降低检索效果是中文搜索引擎检索系统面临的一个基本问题。
  天网检索系统采用混合索引技术解决上述问题。这一技术首先用统计方法对索引文档中的未登录词进行识别,把识别出的新词(不被基本词典收录的字串)放人一个扩展词典。这可以有效扩大词典规模,但由于统计方法识别未登录词存在相当高的错误率,扩展词典里面也存在不少被错误识别的词。系统目前控制扩展词典规模在50万词语左右。扩展词典在保存时,把识货j的新词词条使用基本词典进行分词,保存切分开的基本词序列。
  在索引创建过程中,天网检索系统对文档正文进行两趟分词。首先是采用分词软件进行基于基本分词词典的常规汉语分词。分词执行中包括复杂的歧义处理过程。第二趟再对基本分词结果使用基于扩展词典的分词,这一分词过程的最小单位是基本词典里的词条,采用正向最大匹配分词算法。两次分词的结果都被选择作为索引项,在倒排文件的创建中都被放人倒排索引词典,这一方法即混合索引。例如:基本词典有“国家”、“图书馆”两个基本词条,无“国家图书馆”;系统通过识别,发现“国家图书馆”极为可能是一个词语,于是把它加入到扩展词典。对文档中出现的“……国家图书馆……”字串,第一趟基本分词步骤把它切分为“国家”和“图书馆”两个基本词条,第二趟扩展分词再把它切分为“国家图书馆”,最终索引项包括“国家”、“图书馆”和“/2国家图书馆”这样3个单位。扩展分词结果使用转义符“/”标识,转义符后紧接扩展词包含的基本分词词条个数,用于查询时位置关系的计算。
  混合索引的检索过程对用户输人的查询串执行同样的两趟分词。首先是基本分词,第二趟再对基本分词結果使用扩展分词。根据扩展分词结果词条包含的基本分词词条个数,标记被扩展分词结果覆盖的基本词条,它们在查询执行过程中无须处理。如上例,当用户输人査询“国家图书馆”,经过两趟分词,被切分为:“国家”、“图书馆”和“/2国家图书馆”。其中前两个基本词条被第三个扩展词条覆盖,査询执行中只须直接读取索引项“/2国家图书馆”对应的倒排项数据,即可完成查询执行过程。相对于分别读取“国家”和“图书馆”的倒排项数据,然后按其中的位置数据验证短语关系的方法,使用混合索引大大提髙了检索效率。在混合索引条件下,当用户查询“图书馆”时,检索将按正常的查询过程执行,混合索引也不会降低系统的查全率。
  天网系统采用的混合索引使用统一的倒排索引词典,没有额外的二级索引词典访问开销;并且混合索引不限制扩展词条为两个基本词条长,可以索引更长的短语,更加灵活。此外,混合索引使用了未登录词的识别技术,可以有效控制倒排索引词典规模。可以说,混合索引也是索引结构的规模与检索效率间的一种折中。一方面,文档中的词被重复索引导致索引结构增大,占用更多的存储资源;另一方面,这些增加的索引,使得更多可能形成词语或短语的字串被索引,可以大大提高对它们的检索效率。实际环境中,系统存德开销相对于检索效率不是那么重要,所以混合索引也是一项可用的技术。
  总之,Web信息$索系统所处理的对象是大规模的海量数据,索引库的组织将直接影响到检索效率。因此^如何对索引进行高效组织,以实现用户的检索需求,还是一个尚需探讨的问题。
  相似度计算与排序方法
  搜索引擎的目的是快速响应用户检索需求,把满足用户需求的一组文档提供给用户。能否把与用户检索需求最相关的高质量文档纳人結果排序的前面是衡量搜索引擎性能的关键技术之一。Google最成功的地方在于利用PageRank对结果排序,令好的结果排在前面,从而提高了检索质量。
  目前,不同的搜索引擎使用了不同的相关度排序方法。比较流行的有两类:词频统计法,即网页文挡中出现査询词的频率越高,其排序就越靠前;超链接分析法,即一个网页被链接的次数越多而且链接的站点越权威就说明此网页的质量越高。此外,还有点击率法,即网页被点击的次数越多,相关度越高;付费竞价法,以esball.net命费的多少来决定排序前后。下面主要介绍词频统计法和超链分析法。
  词频统计法
  词频统计法也就是向量空间模型采用的相似度计算方法。许多搜索引擎都以索引项的词频和位置作为相关度的判定标准,采用前述的词频加权方法来计算相关度。一个词在网页文档中出现频率越高,它代表该文档主题的程度就越大,*其作为索引项的准确性也就越高,权值就越大。在与查询词匹配时,它所代表的文档与查询请求的相关度就越高。除词频外,一个词在文档中的位置也对索引器选词和计算词的权值产生影响。例如在网页Title标整、链点極整、Metakeyword标签、Metadescription極盤中选词并接词频计算权值时,或索引项出现在网页标题、文章前几段、段首等位置时,其权值会加大。虽然大多数搜索引擎都以词频和词的位置来计算相关度,但在细节上又各有不同。在计算网页的相关度时,其中各词的关系和词间相对位置也是影响因素。网页中各词相互距离越近则结果排序越靠前。以词频和词位置计算相关度的方法是较为客观准确的,它是应用最为广泛也最成熟的方法,各大搜索引擎迄今仍以它为计算相关度的基本方法。但它较易为人利用来实现不良竞争,轻易地把其网页设计修改成“含有关键词的网页”,从而在搜索引擎结果中排在前面。这使搜索引擎结果的客观性和准确性受到侵害,检索的査准率受到影响。各大搜索引擎于是实施了各种反操纵技术和惩罚措施,特别是在网页本身之外另辟溪径,寻找相关度的判定标准,其中最主要的就是下面所述的链接分析法。
  链接分析法
  面对网络这个新的环境,必须使用新的排序技术才能达到较好的检索效果。由此,基于超链分析的各种排序算法被搜索引擎界提出。绝大部分超链分析算法都有共同的出发点:更多地被其他页面链接的页面是质量更好的页面,并且从更重要的页面出发的链接有更大的权重。最著名的链接分析法是Brin.S和Page.L于1998年提出并应用到Google搜索引擎中的PageRank,以及IBM用于CLEVER搜索引擎的HITS。
  PageRank
  PageRank链接分析法是最早并且最成功地将链接分析技术应用到商业搜索引擎中的算法,它的基本出发点是试图为搜索引擎所涵盖的所有网页赋予一个量化的价值度。每个网页被量化的价值通过一种递归的方式来定义,由所有链接到该网页的价值程度决定。显然,一个被很多高价值网页所指向的网页也应该具有很髙的价值。这种规则可以用一种随机网上冲浪的模型来描述,具体来说,如果假设冲浪者跟随链接进行了若干步的浏览后转向一个随机的起点网页又重新跟随链接浏览,那么一个网页的价值程度值就由该网页被这个随机冲浪者所访问的频率所决定。
  PageRank是表示网页重要性的综合性指标,得到了高评价的重要网页会被给予较高的PageRank(网页等级权值);因此,在检索结果内的名次也会提高。PageRank具体的计算公式是:
  Pr-(l-d)+dX2
  其中,PKz)是网页z的页面权值,反映了网页z的重要程度。z,是指向网页z的其他网页,Pr(z,)是网页&的页面权值。CG,)是从网页——中向外链出的链接个数。z是网页总数,d是大于0小于1的衰减,系数一般取值为0.85,表明用户在zt继续浏览的平均概率。6/的引人,是因为用户不可能无限的点击链接,可能会随机跳人另一个页面。的值越高,继续点击链接的概率就越大。由此,所有页面的网页等级权值形成一个概率分布,所有页面的网页等级权值之和是1。由上式可见,链接指向z的网页越多,*的权值越髙;链接指向i的网页的权值越高,z的权值也越高;链接指向£的网页中,链出的个数越多的级别越低。
  对于公式来说,若网页较少时,可以通过解方程计算。但面对因特网海量的网页,只能采用一种选代的方法计算。也就是先给每个网页一个初始值,然后利用上面的公式,循环进行有限次迭代运算得到近似的网页权值。在送代的过程中,每个网页的网页权值的和收敛于整个网络的网页总数。PageRank给出每一页面的网页等级权值,作为搜索引擎结果排序的一个参考,权值越高的页面排序越靠前。Google就是利用PageRank和词频统计等因素相结合的方法对检索出的大量结果进行相关度排序,将等级值髙的网页尽量排在前面。

Web文档集合中出现的每一个索引项的图片59

  尽管PageRank充分利用了Web独有的链接结构特点且效率相当高,但在计算网页等级权值时,却未考虑用户提出的查询请求。因此Cornell大学的KleinBerg提出了一种HITS链接分析法来评定网页内窖的重要性。
  HITS
  KleinBerg认为网页的重要程度是与所查询的主题相关的。在HITS中,KleinBerg提出了权威性网页的概念。因特网上一个广义的主题包含大量显著的权威性网页,这些权威网页从链接结构的角度来看应该是被大量的超链接所指向的,也可以说是被大量的网页作者所认可的,然而仅通过这种计算链人数目的机制来描述因特网环境中网页的权威性在实际中仍会有很多问题。在很多情况下,同一主题下的权威网页之间并不存在相互的链接(相互间并不“认可”)。例如,“Microsoft”和“Netscape”虽然都是浏览器主题中的权威站点,但它们却并不存在相互的链接。然而,它们通常同时被一些不知名的网页所共同指向。KleinBerg称这种网页为中心性网页,它们指向多个主题相关的权威网页。通过这两种不同类型的网页(权威网页和中心网页),链接结构可以描述为它们之间的一种依赖关系:一个好的中心性网页应诙指向很多好的权威性网页,而一个好的权威性网页则应该被很多好的中心性网页所指向。
  基于以上这种链接结构描述的概念,可以定义一种区分网页价值程度的度量。具体来说,首先利用一个搜索引擎获取一个与主题相关的网页根集合,然后向根集合扩充那些指向根集合中网页的网页和根集合中网页所指向的网页,这样就获得了一个更大的基础集合。假设最终基础集合中包含N个网页,那么对于HITS来说,输人数据就是一个JVXN的相邻矩阵A,其中如果网页/存在一个链接到网页),则冯=1,否则冯=0。
  HITS为每个网页;分配两个度量值:中心度么和权威度七。设向量aN)代表所有基础集合中网页的权威度,而向量/1=(/^,/12,一,/^)则代表所有的中心度。最初,将这两个向量均置力《=(1,1,“、,/)。操作In使向量而操作Out(/r)使向量/i=Afl。反复迭代上述两个操作,每次迭代后对向量和士规范化,以保证其数值不会使计算溢出。KleinBerg证明经过足够的选代次数,向量<1和&将分别收敛于矩阵ATA和AAT的主特征向量。通过以上过程可以看出,基础集合中网页的中心度和权威度从根本上是由基础集合中的链接关系所决定的,更具体地说,是由矩阵ATA和AAt决定的。
  两种链接分析法的比较
  HITS和PageRank都是通过网页被链接的数量和质量来确定搜索结果的排序权重。PageRank实质上是一种通过离线对整个因特网结构图进行幂迭代的方法。PageRank所计算出的价值度的值实际上就是因特网结构图经过修改后的相邻矩阵的特征值。对这些值的计算有非常有效的方法(事实上,仅需要若干次的迭代计算即可以得到),因此能够很好地应用到整个因特网规模的实践中。这种方法的另一个主要优点是所有的处理过程都是离线进行的,因此不会为在线的查询过程付出额外的代价。但是,PageRank算法也同样存在一个显著的问题,即价值度的计算并不是针对查询的。
  HITS在概念的定义上比PageRank算法多提出了一个中心性网页的概念。通过中心网页和权威网页的相互作用,HITS更好地描述了因特网的一种重要组织特点:权威网页之间通常是通过中心网页而彼此发生关联的。HITS和PageRank相似,也是通过迭代的方法计算相邻矩阵的特征向量。但HITS所针对的不是整个因特网结构图,而是特定查询主题的因特网子图。这样可以使HITS算法的迭代收敛速度比PageRank要快得多。但因为与査询相关,所以查询过程需要考虑排序的代价。另外,除非为HITS中所考虑的链接赋予适当的权值,否则,相邻矩阵的主特征向量并不能反映最合理的网页价值度排列。并且,即便对子图中的边赋予了适当的权重,如果子图的相邻矩阵是一个可约减的矩阵(例如图中有多个不连通的部分),那么很多有价值的网页仍将无法在主特征向量中得到体现。更为严重的是,在対很多广义主题进行查询时,HITS会错误地将许多与主题无关的网页赋予很高的价值度。例如,当查询”电影奖“时,得到的结果却是许多电影公司的主页。这是因为和”电影奖“有关的网页通常会链接向电影公司的主页,由于电影公司主页的商业性,大量的链接会发生在这些公司主页之间,从而错误地诱导了HITS分析法。这种现象通常被称为主题漂移。最后,应该注意到HITS分析法所作用的查询子图是根据查询关键词在线构造的。通过常规的方法将无法满足在线查询响应时间的要求,但是,如果借助专用的连接服务器,査询子图的构建时间将是毫秒级的。此外,HITS分析法还避免了许多想通过增加许多无效链接来提髙网页PageRank值的作弊方法。
  PageRank分析法是对Web的整体分析,通过模拟用户在Web上的随机链接访问对每一个网页计算其PageRank值。因此该方法是独立于用户查询的,可以对用户要求产生快速的响应。HITS分析法是对Web的局部分析,是根据特定的査询产生不同的根集,然后计算网页的权威度和中心度值,因此,是依赖于用户查询的,实时性差。尽管实时性差,但实验数据表明,HITS分析法由于依赖于用户査询,HITS的排名准确性要比PageRank髙。
  检索系统的相关性排序由多种因素综合决定。其中,最基础的排序建立在布尔模型和向量空间模型基础上。系统实现时,首先执行布尔査询,得到的结果作为候选文档集合,然后按向量空间模型的相似度算法计算各个文档与查询的相似度,结果作为排序的基础。最后在综合其他排序的信息,进一步排序。典型的一种情况是,当查询词在链接标签或者Title标签中出现时,把全局属性里的PageRank值与文档的相似度权值通过线性组合方式相加得到最后的排序权值。排序可以采用一种分级算法,分为3个级别:査询词的邻近关累运算结果;査询词出现的位置,包括Title和链接标签;相似度权值与其他的枚值,如全局属性的PageRank权值。各种权值通过线性方式组合起来。
  目前大多数搜索引擎,如Google均采用以PageRank为基础的改进方法,结合词频统计得到的权值、超链接分析权值以及对用户行为分析等因素进行综合分析计算的权值,得到最终排序权值。
  小秸
  顺排文档检索
  顺排文档检索的主要思想是将文档中的每一条记录依次去匹配用户的检索提问集合,文档处理完毕后,将各提问的命中结果归并分发给有关用户。也就是用文档中记录一条一条去匹配提问的,是顺序对文档记录检索的方法,所以称为顺排文档检索。顺排文档的关键技末是采用列表处理方法将提问逻辑式(检索式)变换成等价的提问展开式,按提问展开表的内容对顺排文档的每篇文献进行检索。其优点是能够缩短每一个提问式的査找时间,并且对所存储情报的任何可检项目都能够进行相同的处理。目前,常用的顺排文档检索方法主要有表展开法、逻辑树法等。

Web文档集合中出现的每一个索引项的图片62

  倒排文档检索
  倒排文档是一种面向单词的索引机制,相对顺排文档而言,是将顺排文档中可检索字段的作者名、关键词、分类号等取出,按一定规则排序,归并相同词汇,并把在顺排文档中相关记录的记录号集合赋予其后,以保证通过某一特征词能够快速、方便地获取相关记录。
  由于倒排文档的组成特点,使得许多数学检索模型(如布尔模型、集合运算等)能够方便地用于信息检索中,它把两个检索词的逻辑运算转换成了两个检索词之间的记录号集合的运算。目前最常见的倒排文档检索为逆波兰展开法。
  布尔检索
  布尔检索是指利用布尔运算符连接各个检索词,然后由计算机进行相应逻辑运算,以找出所需信息的方法。它使用面最广、使用频率最髙。在具体检索时,是通过布尔运算符”与“、”或“、”非“来实现其功能的。
  后缀树和后缀数组
  后缀树和后缀数组是一种较新的建立全文索引的方法。它由某个文本的所有半无限串(起点在文本任意位置,终点在文本尾的字符串)字典排序而得,具有较高的检索效率并且更适合如范围查找、模糊查找等较复杂的査找方式。当前,在基因组分析、文本压缩、字符检索等应用领域,后缀数组都表现出了极大的潜力。
  加权检索
  加权检索也是一种基本检索手段,所不同的是,加权检索不重在判定检索词或字符串是否在数据库中存在,与别的检索词或字符串是什么关系,而在于判定检索词或字符串在满足检索逻辑后对该记录命中与否的影响程度。加权检索把量化思想引人定性检索之中,是改善和提高检索效果的一种重要手段。

Web文档集合中出现的每一个索引项的图片64

  全文检索
  全文捡索是指计算机索引程序通过扫描文章中的每一个词,对每一个词建立一个索引,指明该词在文章中出现的次数和位置,当用户查询时,检索程序就根据事先建立的索引进行查找,并将查我的结果反馈给用户的检索方式。这个过程类似于通过字典中的检索字表查字的过程。全文检索的方法主要分为按字检索和按词检索两种。
  全文检索的主要技术指标有查准率和查全率、索引膨胀系数。
  全文检索系统中常采取位置检索、截词检索和限制检索等方法。
  超文本检索
  超文本检索是将文本、声音、图像等媒体数据的内容信息分隔为若干可独立利用的节点,节点间以链路相连接,构成网状层次结构,检索由指令激活某一节点,通过链路査询所有相关信息。
  常用的超文本语言有SGML、HTML和XML。
  Web信息检索
  Web信息检索的关键技术有文档搜集、文档预处理、索引数据库的建立以及相似度计算和排序。其中,文档的搜集和预处理是Web信息检索的基础工作,索引数据库的建立以及相似度计算和排序则是信息检索系统的核心技术,其结构和组织方式直接决定了检索算法和检索效率。

Web文档集合中出现的每一个索引项的图片66

  思考教
  何为顺排文档检索?其主要特点是什么?
  倒排文档检索与顺排文档检索的主要区别是什么?
  布尔检索使用了哪些运算符?这些运算符各有什么作用?
  画出”science“字符串的后缀树。
  有哪些种类的加权检索?各有哪些特征?
  全文检索的主要技术指标有哪些?
  如何提高全文检索的效率?
  简述超文本检索的定义。
  写出超文本检索的优缺点。
  上网查询有关Web信息检索的关键技术,并撰写与其相关的论文。
  信息检索评价

Web文档集合中出现的每一个索引项的图片65

  对信息检索系统的评价就是解决为什么要对信息检索系统进行评价、评价什么和怎么评价的问题。通过对信息检索系统的合理评价可以知道该系统的优点和缺点,从而引导用户去选择合适的系统;对于提供信息检索服务的商家来说,也可以根据对系统的评价进一步提高自己的服务质量。本章主要讨论相关性和检索性能评价指标。
  相矣核
  相关性具有主观的概念。对于一个由给定的查询所得到的文档,不同的人对于这些文档的相关与否会做出不同的判断。因此通过实验判断文档的相关性时,必须抽取一些具有代表性的查询,而且用户也是那些具有同一信息需求的用户。由符合以上规则的一组专家共同给出相关性评估,这样可以保证对于某个查询,它所对应的结果的相关性都是确定的。这是对信息获取系统进行客观正确评价的前提。‘5.1.1相关性的特征
  在信息检索中,”相关性“主要是指检索系统针对用户的信息需求从文档集合中检出的文档与用户需求之间的一种匹配关系。当然,这是对”相关性“概念的一种十分粗泛’的描述。在研究过程中,为了弄清相关性概念的本质,人们曾尝试使用大量意义相近的词汇来描述、刻画相关性内涵的各个不同侧面。目前,”相关性“已拥有众多定义,但其中还没有出现一个能够被广泛接受的、公认的淮确定义。
  虽然难以给”相关性“下一个全面性的定义,但在研究过程中,人们还是对相关性概念的本质有了越来越多的认识和理解,并在一定程度上形成了某些共识。概括起来说,相关性概念具有以下本质特征。
  
  关系是”相关性“最核心的本质特性。虽然传统的观点认为”相关“是对系统与用户之间连接有效性的判断,但新的研究观点则认为,它是对信息与信息用户需求之间关系性质的判断。
  
  没有人能够向信息检索系统的用户解释相关性是什么,用户只是靠直觉来理解相关性。正如集合论中”集合“槪念的直觉性一样,信息检索中的”相关性“也具有直觉性。对任何学科来讲,要给某一直觉概念下精确定义都是很困难的,而且无论何种定义都会存在商榷的余地。

Web文档集合中出现的每一个索引项的图片67

  多维的
  ”相关性“是一个多维的认知概念。首先,相关性概念涉及多个不同维度的匹配要素,如匹配双方、匹配动因、匹配标准、匹配环境等;其次,相关性判断存在着一个由简单到复杂,不同层次的相关匹配水平,如形式相关、语义相关、语用相关等。事实上,相关性概念不是单一的,而是包含了多组各种各样的相关性。
  
  相关性的动态特性是非常明显的。受用户的知识水平、检索经验、信息需求的动机、情景及任务等众多因素的影响,对于同一批文档,不同用户基于同一检索提问,通常会做出不同的相关性判断;即使是同一用户,随时间、地点、自身知识状态的变化,对同一检索系统输出的有关同一提问的结果文档,其相关性判断结果也会有一定的差异;另外,文档之间的关联和相互依赖,也会影响到对它们的相关性判断,例如,对首先阅读文档的相关性判断可能会影响到对后面其他文献的相关性判断。如此种种情形,无不体现出相关性的动态性和不确定性。
  相关性类别
  相关性是一个相当复杂的概念,包含了丰富的研究内涵。为更清晰地描述其研究状况,米扎罗在对近40年内多达160篇的相关性研究文献进行总结、分析时,提出从7个不同方面来归纳相关性的研究成果与结论。这7个相关性的不同研究方面分别如下。
  基础
  相关性问题可以从不同的研究视角来探讨,基础研究主要涉及使用不同的数学工具和概念化方法来认识或定义相关性。
  目前,研究人员已从不同的理论基础,如概率论、数理逻辑、心理学、情景理论等,来寻求对相关性概念的认识和理解。
  
  相关性具有多种不同类型,不同的环境研究,关注不同类型的相关性,而每一种相关性也各有优劣和长短。

Web文档集合中出现的每一个索引项的图片61

  目前,对相关性类型的研究,已如同相关性的定义一样复杂多样。
  匹配替代物
  在进行相关性匹配时,考察使用信息与用户信息需求的各种替代物将会如何影响相关性判断效果,是进行匹配替代物研究的基本思路。
  目前,许多研究结论倾向于认为,增加替代物的长度,不会造成相关性判断效果的恶化。具体情况为:对于不同的替代物来说,题名最差,其次分别为关键词、文摘等。不过,也有研究人员认为,单纯的”长度假设“太过肤浅,例如,除关键词的数量外,也应该考虑其质量,即关键词能否表达文档的内容。
  准则或标准
  相关性匹配准则(或标准)研究主要致力于阐述除”主题“外,用户在表达其相关性判断时还会使用哪些标准。
  有关研究表明,除主题因素外,可以用作相关性判断的标准还有很多,例如,文档类型与结构、用户信息需求表达方式、判断者的特性、表达相关性判断的方式与语境等。对新型匹配标准的确立与深人认识,非常有助于新一代信息检索系统的研制与开发。
  j
  相关性是一种动态现象,动态性研究主要分析相关性判断随时间变化和文档出现顺序的不同而变化的情况。

Web文档集合中出现的每一个索引项的图片63

  虽然很早人们就认识到了相关性的动态特征,但具体的研究工作则开始于20世纪80年代,其中,研究较集中的问题有:文档出现次序对相关性判断的影响,用户信息需求及提问的动态特征,相关性测度的时间点选取等。动态性的研究使人们更加清醒地意识到,信息检索系统需要连续的、双向的信息交流与通信机制,通过不断地迭代与交互,才能实现更有效的人机沟通。
  表达方式
  人类的很多判断行为都是直觉的、非一致的,包括相关性判断。表达方式主要研究、发现一致性良好的相关性判断的表达方式、各种不同表达方式之间的对照与比较等问题。
  目前,研究人员运用一些心理学工具和方法,提出并在研究实验中使用了多种不同的表达相关性判断结果的方式,例如二好方式、分级度量方式、量值估计方式等。其中,二分方式就是yes/no方式,即判断的结果只有”相关“和”不相关“两种情形;分级度量方式使用包含有限个元素(以11个最为典型)的度量制,从中选用一个元素值对相关性判断加以表达;而量值估计方式则使用正的有理数来刻画相关性的判断结果,在具体应用中,又有数值估计、线长(line——length)和力量手柄等不同形式。对这些表达方式进行比较研究后发现,量值估计方式是一种有效而可靠的相关性判断表达方式,其性能优于二分方式和分级度量方式。
  主观性
  从”用户中心论“角度看,相关性是主观的,不同的判断者具有不同的相关性判断。不同的判断者(或小组)什么时候、在多大程度上会产生一致性的判断?用户的判断什么时候、在多大程度上会赞同非用户的判断?对于这类问题的关注,都是主观性研究需要考虑的,其研究结果与信息检索系统评价的关系也是非常密切和重要的。

Web文档集合中出现的每一个索引项的图片68

  年,里斯和舒尔茨曾对40种影响相关性判断的变量进行研究;同年,库娃卓和凯特也对5类共38种影响相关性判断的变量进行过分析;1996年,哈特通过大量的文献调查与分析,对”相关性判断的差异不会显著影响检索系统性能测度“的假设提出质疑,并提出一个新的评价试验方法。所有这些工作都属于主观性方面的研究。
  相关性模型
  在目前众多的相关性问题研究成果中,意大利学者米扎罗近年来提出的一个相关性理论框架颇为引人注目。它是一个四维的相关性概念模型,第一维是信息源、第二维是用户信息需求、第三维是时间、第四维是组件。模型本身主要基于集合论知识而构建,不仅具有很好的形式化表示,而且吸收、总结了很多研究人员对相关性问题的研究成果。
  信息源
  本文转载自
  宁波seoesball提款www.leseo.net
Seoesball.netesball提款相关拓展:
如何做好SEO搜索引擎esball提款?
seo高清视频在线观看
一篇读懂SEO、SEM区别与优劣势!
单页SEO站群技术用10个esball.netesball提款排名
为什么放弃了SEO这个标签,过时了吗?
seo是什么意思?
SEO是什么
SEO搜索esball提款软件
如何做好SEO的基本步骤
SEO工作职责及工作流程
搜索引擎esball提款(搜索esball提款)
关于esball世博
esball世博介绍
esball世博思维
人才招聘
使用条款
隐私保护
RSS订阅
esball.net地图
新闻动态
esball世博观点
行业动态
频道介绍
服务介绍
案例展示
品牌研究
品牌理论
品牌体系
联系我们
400-680-2900
社会媒体
微信公众平台
微信公众平台
<友情连结> 宁波斯博网络科技有限公司/ 宁波易企网络科技有限公司/ 宁波云网网络科技有限公司/ 围子里新闻/ 晋江市财经/