Skip to main content
ExLibris
  • Subscribe by RSS
  • Ex Libris Knowledge Center

    CDI中的检索和排序

    可译的

    返回到菜单

    本页讨论Ex Libris CDI中的一些检索(标准和多语言)和排序功能。 在部分内容中,其指代的是全文字段。 请注意,是否检索该字段取决于您的设置。 默认情况下,检索不会扩展到全文。 有关更多信息,见CDI中的全文索引。 有关合并记录的更多信息(例如哪些数据可检索以及如何显示),见CDI中的匹配和合并

     

    • 对于CDI,PNX的检索部分中的字段可检索,但是CDI不是只索引它们并用于检索和排序。 这意味着它们可能不会通过如同Primo Central中的方式被检索。

    • 检索部分中列出的DBID可能不会代表Alma/SFX中真实启用的资源库。 请使用您的启用工具检查哪些资源库用于Primo中的记录显示。

    标准检索功能

    Alma中有检索权限: 订阅的CDI资源库需要读者登录到Primo或在校内(有效IP范围内)才能获取检索结果。

    短语检索

    对多个检索词使用双引号进行短语匹配。 例如,检索"computational linguistics"(使用双引号)会返回computational linguistics的匹配,而不是linguistics and computational chemistry或computational chemistry and linguistics。 但是,短语检索会匹配短语中的词的其他变体。 例如,检索单数的"neural network"也会匹配复数的neural networks。 检索"street facade"会匹配"street facade"和"street façade"。 短语检索可用于词语间没有空格的语言,例如中文、日语和泰语。 例如,检索"東京の歴史"(使用双引号)会精确匹配東京の歴史,但不会匹配東京の文化と歴史。

    关于停用词的短语匹配有两个例外。 第一个是处理全文字段的停用词。 与元数据不一样,CDI不会索引全文字段中的停用词。 因此,无法保证全文字段中匹配含有停用词的短语。 例如,检索"research for motion"可以匹配"research in motion",因为"for"和"in"均为英语的停用词。 由于全文匹配的排序远低于元数据匹配,在元数据中含有精确短语的资料永远排名靠前。 但是,全文匹配在元数据中没有或只有很少的精确短语匹配时非常重要,可以返回其他相关结果。 问题在于,它们会产生很多与用户所需不太相关的结果。 另一个例外是位于短语结尾的停用词当前会从短语检索中除外。 例如,检索"there she was"会剔除was并匹配例如"there she is"的短语,因为"was"定义为英语中的停用词。

    短语检索也加强了逐字匹配提升功能的效果。 逐字匹配提升功能是CDI相关度排序算法的一部分,用于提升逐字匹配的相关分数,该匹配不通过字符规范化、词干提取或其他多语言检索功能完成。 例如,检索"heavy metals"(使用双引号)会比非短语检索heavy metals(不使用双引号)更强调检索短语heavy metal。

    通过该属性,双引号也可以用于检索单个词来强调逐字匹配。 例如,如果检索résumé(不使用双引号)会在靠前的结果中返回不需要的resume 的匹配,对检索词使用双引号(例如,"résumé")会进一步强调逐字匹配。

    有关“精确”匹配的说明

    检索查询和索引的文本之间有几个“精确”匹配层级。

    1. 短语匹配 - 在本文档中,短语匹配或精确匹配指的是检索查询和索引文本的短语中的词的顺序一致的匹配。 例如,以下为短语匹配: 查询 = computational linguistics,索引文本 = computational linguistics。 但是以下不是精确短语匹配: 查询 = "computational linguistics",索引文本 = linguistics and computational chemistry

    2. 逐字匹配提升 - 在本文档中,逐字匹配指的是词语层级的匹配,不通过词干提取、同义词映射和字符规范化或其他方式匹配词语。 例如,"English book" vs. "English books"为精确短语匹配,但不是逐字匹配。 

    3. 穷举匹配(或精确题名匹配,精确主题匹配等)- 此类匹配指的是完全匹配字段值的短语匹配。 例如,查询="American history"为题名"19th Century American History"的精确短语匹配,且不是穷举匹配。

    4. 精确字符串匹配 - 当所有上述情况允许大小写变化(例如,"Book" vs. "book"),词语间的空格数变化(例如, "computational linguistics" with one space vs. "computational  linguistics"),以及使用标点符号的变化(例如,"Paris, Texas" vs. "Paris Texas")时,精确字符串匹配会需要字符层级的精确匹配。 该类型的匹配通常用于标识符字段。

    CDI的短语检索对默认检索字段支持“精确短语匹配”,例如题名、著者和摘要字段。 

    布尔运算符

    CDI支持以下布尔运算符:ANDORNOT。 它们必须全部大写以确保系统会理解它们是布尔运算符。

    • AND运算符 - 当两个词之间没有明确的布尔运算符时,假定是AND运算符。  例如,如果检索earthquake fault,会得到与检索earthquake AND fault一样的结果集。 请注意,由于首个检索使用与短语匹配更高的相关分数,结果集的相关度排序可能有所不同。

    • OR运算符 - 该运算符在只需匹配多个检索词中的一个时使用。示例:cats OR felines

    • NOT运算符 - 该运算符始终应用于紧接运算符之后的词或布尔表达式。 NOT运算符通常用于排除特定词或表达式的匹配。 可按如下方式使用:

      dogs NOT cats

      dogs NOT (cats)

      dogs AND NOT cats

      dogs AND NOT (cats)

    • 定义布尔表达式的优先级 - 括号用于组合布尔表达式,也用于定义布尔表达式的优先级。 通常而言,当布尔表达式中有模糊表达时始终使用括号。例如:cats AND (dogs OR raccoons)(cats AND dogs) OR raccoons

    • 德语用户界面中的布尔检索 - 符合德语检索引擎的标准习惯,选择德语用户界面时,布尔运算符UNDODERNICHT等于ANDORNOT。 英语运算符也可以在德语用户界面中使用。

    • 布尔检索和CDI相关度排序算法 - 使用与其他查询相同的相关度排序算法处理布尔查询。 

    • 连字符 - 如果词语或短语后有连字符且连字符和下一个词之间没有空格,连字符会被视为AND NOT操作符,因此任何含有连字符之后内容的结果会被排除。 例如,如果检索查询“Outside the square”-midwifery consultancy,不会返回有相同名称的结果,因为在连字符和midwifery之间没有空格。 

    • 单个词语的检索通常会产生大量的结果(百万级),这可能会导致一些问题(例如执行问题和超时)。 要防止此类情况,单个单词的检索(例如,art、business、case、law、market、project、report、review和science)返回有限数量的结果且不会隐藏最高排序的记录。

    • 比较检索含有/不含布尔检索符不会如预期的方式作用于有限的单个单词检索结果。 例如,比较查询science可能找到会比检索查询science AND neurology更少的结果数,但是预期结果是第一个查询的结果数更多。 这是由于单个词语的检索通常会产生大量的结果(百万级),这可能会导致一些问题(例如执行问题和超时)。 要避免此类情况,系统识别这些检索并自动限制它们的结果数(例如,通过不检索全文以及减少元数据的检索量)。 这些单个单词的检索收集自检索日志并添加到一个时常更新的约500个单词的列表。 例如,以下单词包含在列表中: artbusinesscaselawmarket, projectreport, review, and science. 请注意,该行为只会影响检索结果集的尾端而不会移除最高排序的结果。

    通配符

    CDI中的检索可以通过使用两个通配符执行: 问号(?)和星号(*)。 通配符不可用于检索的首个字符,也不能用于双引号中(短语检索)。

    问号会匹配任何一个字符。 例如,检索Ols?n可用于查找OlsenOlson,但不会查找Olsson,因为sn之间有两个字符。

    问号在词尾不会起通配符的作用。 这是为了避免与问号作为标点符号的作用产生混淆。 例如,检索who's afraid of virginia woolf?的问号 (使用或不使用双引号)会被理解为标点符号,而不是通配符。 此时,最后一个词会匹配woolf

    星号会匹配单词中或词尾的零个或多个字符。 检索Ch*ter会匹配CharterCharacterChapter

    用于词尾时,星号允许包含所有可能的字符,因此Temp*会匹配TemptationTempleTemporary

    • 不支持在短语检索中使用通配符。

    • 通配符检索不一定会比不使用通配符的检索返回更多结果。 这是因为CDI的多语言检索功能(例如词干提取/词形还原、同义词映射和拼写规范化)不适用于通配符检索。 例如,关键词检索archaeology可能会比通配符检索archaeolog*返回更多结果,因为前一个检索使用CDI英语拼写规范化功能同时匹配archaeologyarcheology,后一个仅匹配archaeology而非archeology。 这在复合词检索时尤其明显(例如 firefighter、jellyfish和sweatshop),因为CDI会对复合词中的每个单独的词应用检索功能。

    • 通配符的使用不一定会提高相关度排序。 有些情况下,这可能会对相关度排序造成负面影响,因为有些相关因子,例如短语匹配提升和计算词的权重不适用于通配符检索。

    查询扩展(基于控制词表)

    CDI查询扩展功能通过添加来自控制词表的首选词到查询,帮助读者找到相关文献。 例如,如果读者查询heart attack,查询扩展功能会扩展检索查询为heart attack OR myocardial infarction,因为myocardial infarction在一些控制词表中是heart attack的首选词,例如LCSH (Library of Congress Subject Headings)和MeSH (Medical Subject Headings)。

    • 查询扩展功能不会扩展短语检索(使用双引号)。

    • 查询扩展功能不会扩展广泛使用的词。 例如,不会扩展AIDSacquired immunodeficiency syndrome,因为AIDS在各种文献中广泛使用。

    • 查询扩展功能不会扩展检索词为很长的查询。

    字段删减

    CDI对可能引起检索和显示问题的大型字段值提供保护。 此类大型字段值可能时由于偶发的糟糕元数据映射导致。 例如,如果记录的目录字段偶然映射到题名字段,这会导致缓慢的响应,显示问题和排序问题。 大型字段值会删减,基于字段本身要么根据实体数或字符数,或者两者一起考虑进行删减。 例如,题名和副标题字段的上限为500个字符。 含有学术出版物的参考文献列表的参考字段最多包含1,000个条目。 著者和编辑字段上限100个实体。 我们会周期性地复核上限设置并按需调整。

    多语言检索功能

    Ex Libris CDI使用Unicode标准,并允许检索Unicode标准支持的书写系统的多种语言。 此外,还对很多语言提供了增强的语言检索功能,如下:

    • 阿拉伯语
    • 中文(简体和繁体)
    • 丹麦语
    • 荷兰语
    • 英语
    • 法语
    • 德语
    • 希伯来语
    • 意大利语
    • 日语
    • 韩语
    • 马来语
    • 挪威语
    • 葡萄牙语
    • 罗马尼亚语
    • 西班牙语
    • 瑞典语
    • 泰语
    • 土耳其语

    CDI使用多种技术增强这些语言的检索性能。 下表列出一些重要的进程。 这些进程根据每个CDI记录的语言应用于检索结果。 例如,英语检索功能(标记化、词干提取等)应用于英语记录,德语检索功能应用于德语记录。

    • 标记化
    • 分解
    • 词干提取/词形还原
    • 字符规范化
    • 音译
    • 省略处理
    • 同义词匹配和拼写规范化
    • 停用词

    这些技术的详情在以下部分介绍。 此外,下文描述这些功能如何在CDI相关度排序算法中起作用。

    • 逐字匹配提升(所有语言)

    多语言检索结构

    CDI索引“分析”或“规范化”形式的词,而不是“表层”形式的词。 例如,books按照字典形式book索引,而不是表层形式books。 检索时,用于检索查询中的books也会规范化为book。 这使得bookbooks可以互相检索。 请注意,分析/规范化形式为内部的数据表现而不是用户会在界面中看到的内容。 用户仍会在界面中看到初始字段值 - 例如,books

    例如,book和books:

    1. 索引时: 

      1. books → book(根据记录的语言规范化)

      2. book → book(根据记录的语言规范化)

    2. 检索时: 

      1. books → book(根据记录的语言规范化)

      2. book → book(根据记录的语言规范化)

    该方法有几个优势:

    • 便于支持构词形态丰富的语言,例如法语、德语、日语、阿拉伯语和希伯来语,以及有多种书写系统的语言,例如中文、韩语和日期。 例如,每个中文字可能有多种变体,因此该方法可以更好地支持。 
    • 支持真正的多语言检索功能。 检索查询根据每个记录的语言规范化,使用特定语言的检索功能比较查询和所有记录。  例如,检索查询中的"kind"可以匹配英语文档中的"kinds"和德语文档中的"Kinder"。 这可以忽略主语言或图书馆位置实现多语言查询。 
    • 这可以扩展,且可以在不影响已由CDI支持的语言的记录相关度排序的情况下添加其他语言支持。

    CDI是一个动态索引(经常更新),使得Ex Libris开发团队可以对索引和检索时更新文本分析算法(规范化)以增强CDI的检索和排序功能。

    标记化

    标记化是将一系列字母或文本拆分为单词、短语或有意义的元素的进程。 标记化是CDI语言特定文本分析的一部分,这会在索引和检索时执行,并构成CDI中最小的可检索单元的。

    大多数语言中,单词由空格或标点符号分隔,因此对于这些语言,标记化是一个简单进程。 但是,在例如中文、日语和泰语中,单词之间没有空格分隔。 对于这些语言,CDI文本分析使用复杂的技术识别词语,并使用该信息执行标记化。

    标记化示例:

    • black cat => black + cat(英语)
    • 梵文基础读本 => 梵文+基础+读本(中文)
    • 東京タワー => 東京 + タワー(日语)

    “Black cat”分解为两个可检索的单元“black”和“cat”; “梵文基础读本”分解为三个可检索的单元 “梵文”、“基础”和“读本”;“東京タワー”分解为两个可检索的单元“東京”和“タワー”。

    分解

    复合词是由多个单词组成的词。 在例如德语、瑞典语和丹麦语中,复合词不含有空格,因此它们很长。

    分解时找到复合词的组成部分的进程。 CDI对德语、瑞典语、丹麦语和韩语执行该进程。 该进程使读者可检索这些组成部分并获取复合词的匹配。

    示例:

    检索德语词abwasser anlagen(英语为wastewater plant)返回匹配复合词abwasserbehandlungsanlage (英语为wastewater treatment plant)的结果。

    词干提取/词形还原

    词干提取是简化同义词(或变体)到词干或词根的进程。 词形还原是转换词语的多种形式为标准形式的进程。 尽管有些许不同,这些进程都有同一个目标,这些检索词通常可互换。 CDI执行语言特定的词干提取或词形还原允许读者检索词语的任何形式(不管是否有词形变化)而获取与该词多种形式匹配的结果。

    例如:

    • books vs. book(英语)
    • ponies vs. pony(英语)
    • theses vs. thesis(英语)
    • maisons vs. maison(法语)
    • grandes vs. grande(法语)
    • Kinder vs. Kind(德语)

    在第一个例子中,检索book会返回bookbooks的结果。 检索grande maison会返回grande maisongrandes maisons的法语记录。

    对于每种语言,CDI的词干化处理都有所不同。

    英语规则

    英语的词干化处理遵循以下规则:

    1. 如果词语以ies结尾,替换为y

    2. 除此之外,如果词语以es结尾且之前为chshssxzz,移除字母es

    3. 除此之外,如果词语以s结尾,移除字母s

    某些词语不满足以上规则不应被词干化。

    例子:

    • movies的单数形式为movie,不应按照第一条规则改为movy

    • 由于news已经为单数形式,不应按照第三条规则词干化为new

    以下词语不适用以上词干化规则:

    • analyses -> analysis
    • andes -> andes
    • angus -> angus
    • aries -> aries
    • arius -> arius
    • arkansas -> arkansas
    • athens -> athens
    • atlas -> atlas
    • aussies -> aussie
    • axes -> axis
    • bias -> bias
    • bonuses -> bonus
    • children -> child
    • cosmos -> cosmos
    • feet -> foot
    • geese -> goose
    • headaches -> headache
    • men -> man
    • movies -> movie
    • news -> news
    • oxen -> ox
    • teeth -> tooth
    • ties -> tie
    • viruses -> virus
    • women -> woman

    字符规范化

    字符规范化是规范字符的变体到基础形式的进程。 例如,含有变音符号的字符规范化为不含有变音符号的字符。 CDI也对多种中文字符提供字符规范化。

    字符规范化允许读者检索含有变音符号的词获取不含有变音符号的结果,反之亦然。 类似地,也允许读者使用繁体字符检索中文词获取简体字符结果,反之亦然。 字符规范化映射对所有语言通常一致,但是某些情况下,定义了语言特定的字符规范化映射。

    示例:

    • 大学 vs. 大學(中文)
    • México vs. Mexico(西班牙语)

    中文检索大學会返回大学的结果,西班牙语检索Mexico会返回México的结果。

    某些情况下,CDI允许多种方式表示含有变音符号的字符。 例如,德语元音变音ä、ö和ü可以无需含有变音符号写为ae、oe和ue,或a、o和u。 CDI允许这两种变体。 这使读者可以检索schoen schon 获取匹配schön的结果。 另一个示例为西班牙语的ñ,可以使用ñ、n或ni检索。 这使得检索词Espanol Espaniol 返回Español的匹配。

    音译

    音译是文本的转换。 该进程允许检索一种文本然后获取以另一种文本所写的相同内容。

    CDI当前提供中文(汉字-拼音)、日语(日本汉字/片假名-假名)和韩语(朝鲜汉字 - 谚文)题名和著者名的音译检索功能。 中文拼音音译可以在词语间使用括号(例如,beijing daxue),或在汉字之间使用括号(例如,bei jing da xue)。

    示例

    中文检索词beijingdaxue(“Peking University”的拼音形式)会返回包含字符串北京大学(“Peking University”的汉字形式)的结果

    相同的写为beijing daxuebei jing da xue(使用双引号获取更好的结果)的中文检索词也会返回含有字符串北京大学的结果。

    日语检索词なつめそうせき("Natsume Souseki"的平假名形式)会返回含有字符串夏目漱石("Natsume Souseki"的日本汉字形式)的结果。

    韩语检索词경제(“economy"的谚文形式)会返回含有字符串經濟(“economy"的朝鲜汉字形式)的结果。

    如果使用音译执行检索,则音译检索结果不一定会是显示的第一个结果。

    省略处理

    省略在此代表接续词以元音起始时的词尾元音省略,这在法语和意大利语中常见。

    例如,法语中,le + arbre变为l'arbre。 意大利语中,lo + amico变为l’amico

    CDI的省略处理使得读者可以检索amico获取l’amico的结果。

    同义词匹配和拼写规范化

    CDI提供语言特定的简单同义词映射和拼写规范化。 例如,英语中,theatertheatre 是同一个词的两种拼法。 这些在CDI英语文本分析时规范化,这样,读者可以使用其中一种拼写检索获取两种拼写的结果。 语言特定的同义词也对相同含义的词语定义。

    例如:

    • theater vs. theatre(英语)
    • accessorize vs. accessorise(英语)
    • analog vs. analogue(英语)
    • ordenador vs. computadora(西班牙语)

    此外,连字号(&)在每种语言中等于

    CDI的检索引擎有两种方式处理英语的同义词和拼法变化。 一种是基于控制词表的查询扩展功能,这会扩展检索查询以包含近义词的匹配(例如,heart attack会扩展为包含myocardial infarction的匹配)。 该方法适用于近似程度超过50%的匹配。 另一种方法主要处理相同单词的拼法变化,例如counseling/counsellingtheatre/theater。 使用该方法匹配的单词有90%的原始检索词的权重。

    但是,预测此类检索结果的相关度排序并不容易,因为有很多别的因素(例如出版日期、引文数和内容类型)会影响相关度排序。 如果检索结果有类似的相关度分数,这些权重可能会很大程度地改变结果的排序。 如果检索结果的相关度分数很不一样,这些权重可能不会影响结果的排序。

    本地检索引擎配置仅适用于Primo本地索引,它们对CDI没有影响。 
     

    处理&字符

    &字符代表andetund或CDI支持的语言中的其他同等词语。 例如,这允许在英语文档中交叉检索cats and dogscats & dogs

    根据每个记录的语言执行符号映射。 例如,在英语记录中&映射and,在法语记录中&映射et。 因此,检索查询cats and dogscats & dogs的检索结果数可能不同,因为cats and dogs可能出现在非英语记录中。 类似地, chats et chienschats & chiens的检索结果可能不同,因为chats et chiens可能出现在非法语记录中。

    当前,这些映射应用于除著者字段外的所有字段。 

    停用词

    停用词是发挥功能的词(例如,定/不定冠词、介词、代词、连词和助动词),在CDI中非常常见,且没有特别的意义。

    CDI维护语言特定的停用词列表,在执行检索时过滤,除非它们是短语检索的一部分,如下所示。 停用词根据以下基础规范选取。

    CDI当前的英语停用词包括aantheandbutoritofonwithinisare,但不包含will,因为该词可以作为有实义的名词使用。

    通常,CDI忽略检索词中的停用词以提高检索的准确性和效率。 但是,在短语检索中(使用双引号),所有的停用词成为必须的词,除了短语结尾的词。 例如,检索词man of the year包含两个英语停用词ofthe。 如果该检索词不使用双引号(man of the year),返回含有manyear的结果,CDI相关算法提升包含短语man of the year的结果的排序。

    如果检索词使用双引号执行短语检索(例如,"man of the year"),CDI返回含有精确短语的结果且不会排除停用词。 但是,全文字段和以停用词结尾的短语匹配有一些局限。 有关详情,见短语检索

    停用词根据记录的语言,而不是检索查询的语言对CDI应用。 例如,CDI对法语记录使用法语停用词,对英语记录使用英语停用词。 如果法语记录被错误地标记为英语记录,用户可能会得到意想不到的结果,因为在检索这些记录时会忽略法语停用词(例如la)。

    逐字匹配提升

    这是CDI本地语言检索支持中最重要的功能之一。  本文档中描述的很多功能使读者可以在检索词和索引词一致时获取结果,但并不需要逐字完全相同。  这些功能可以增加结果数量,或者说,增加检索反馈。  尽管这些功能提供了更好的用户体验,但也有可能会包含不太相关或无关的结果,并降低了检索准确性。

    逐字匹配提供功能通过逐字或几乎逐字地匹配检索词和索引词提升结果的相关分数来弥补这个缺陷。

    示例:

    对于英语检索词theatres,在其他因素一致的情况下,theatres的结果比起theaterstheatre的结果有更高的相关分数(排名更靠前)。

    逐字匹配提升功能应用于大部分本文提到的进程。 该功能的实际实施是通过降低非逐字匹配的权重完成,从而提升了逐字匹配。 对每个词计算降低的权重,并且对每种语言的每个进程定义降低量,例如主要区别,比如同义词,会比微小区别降低得更多,例如拼写区别和名词的单复数。

    有关更多信息,见同义词匹配和拼写规范化

    相关度排序

    当读者在Ex Libris CDI支持的Primo中检索时,检索在本地索引和CDI中进行。 每个索引的检索结果根据相关度排序算法排序,并混合在一起组成呈现给读者的检索结果。 本文档讨论CDI使用的相关度排序算法。

    CDI中的相关度排序根据一系列算法完成,并根据两个模块完成:动态排序静态排序。 动态排序是一系列代表检索词与记录的匹配度的相关度因素,静态排序是一系列代码每个记录的价值或重要性的相关度因素。 这两个模块都对决定排序结果有着重要的作业,排名靠前的结果需要在两个模块中都有高分。

    动态排序

    动态排序代表用户的检索与记录的匹配度。  动态排序因素包含以下内容:

    • 字段权重 - 当检索词/短语与记录的字段匹配时,根据字段的重要性生产的分数。 例如,题名、副题名和主题是权重最高的字段。 创建者和摘要字段的权重低于它们但是比其他的元数据字段高。 全文字段权重最低。

    • 词汇权重 - 不常用词汇的匹配权重高于常用词汇。 例如,如果检索yoruba books,不太常见的词"yoruba"的影响比常见词“book"要高。

    • 词频和字段长度 - 匹配词在一个字段中出现的次数。 例如,如果检索nanobiotechnology,该词出现了五次的摘要会比相同长度只出现一次的摘要的分数要高。 类似地,含有匹配的字段长短也用于决定匹配的权重。

    • 逐字匹配提升 - 检索词可以通过多语言检索功能,例如词干提取、同义词映射和字符规范化,匹配索引词。 检索词与索引词完全相同时非逐字匹配的权重会低于逐字匹配。 例如,如果检索clichécliché 的匹配分数会高于cliches的匹配 

    • 短语和近似匹配提升 - 如果检索含有多个词且未使用双引号,精确短语匹配(短语匹配)和近似短语匹配(近似匹配)的分数会有提升。 例如,如果检索American history(不使用双引号),精确短语匹配"American history"分数高于非精确短语匹配(近似匹配)"American automobile history”,"American automobile history”分数会高于其他字段的"American"和"history"匹配。

    • 精确题名和题名+副题名匹配提升 - 精确题名匹配提升功能提升题名或题名+副题名匹配的分数。 这有助于检索已知单册。

    • 已知单册检索提升 - 除了上述的精确题名匹配提升功能,已知单册检索提升功能强调对于含有多种已知单册常见元素的检索,例如题名、副题名、著者和出版题名。 例如,检索an inconvenient truth global warming al gore(不使用双引号)提升由Al Gore所著的书"An Inconvenient Truth: The Planetary Emergency of Global Warming and What We Can Do About It"和"An Inconvenient Truth: The Crisis of Global Warming"。

    静态排序

    静态排序代表每个单册的价值,与用户的检索词无关。  静态排序因素包含以下内容:

    • 资源类型 - 单册根据资源类型赋予权重。 例如,图书比书评的权重高;文章(期刊文章)比报纸文章的权重高,等等。

    • 出版日期 - 近期的单册比之前的单册权重高。 CDI使用仔细设计的运算功能处理每种内容类型以最大化该因素的有效性。 例如,较早出版的文章的权重降低量大于图书。

    • 学术/同行评审 - “学术”或“同行评审”的期刊文章得到提升。

    • 引文计数 - 引文计数用于提升引用次数多的出版物。

    • 期刊排名 - 学术期刊排名的期刊分数也会被纳入考量,在根据期刊分数提升顶级学术期刊中发表的文章。

    • 匿名著者 - 匿名著者单册会降级。 匿名单册可能会包含编者按、致编者信、讣告等其他期刊中的非主要文章。

    每个记录的静态排序分数根据这些因素计算而来。 例如,发表于5年前,有100次引用的期刊文章会比发表于6个月前没有引用的期刊文章的静态排序分数要高。 这种情况下,第一个记录的高被引加成会超出第二个记录日期更近的加成。

    动态排序和静态排序的分数会结合在一起决定每个记录在检索中的相关度分数。 检索结果集的排序由记录的最终相关度分数决定。

    CDI相关度排序算法用于对已知单册检索和其他类型检索(例如、主题检索、探索性检索、课题检索、存在检索、未知单册检索等)提供最好的检索体验。 此外,CDI相关度也可用于帮助含有新手研究人员、研究人员和所有用户类型等的用户社区。 例如,简短的常规课题检索(例如,linguisticsglobal warming)通常会在靠前的结果中返回更多的图书、电子书、参考资料和期刊,较长且详细的课题检索(例如,linguistics universal grammarglobal warming Kyoto protocol)通常会在靠前的结果中返回更多文章。

    CDI会公平地对待这些记录以确保相关度可靠并提升系统中的资料。 CDI的相关度排序系统由所有客户共享,且不能为单个机构定制。

    • Was this article helpful?