CDI中的检索和排序

Last updated
Save as PDF
Share
1. Share
2. Tweet
3. Share

本页讨论Ex Libris CDI中的一些检索（标准和多语言）和排序功能。在部分内容中，其指代的是全文字段。请注意，是否检索该字段取决于您的设置。默认情况下，检索不会扩展到全文。有关更多信息，见CDI中的全文索引。有关合并记录的更多信息（例如哪些数据可检索以及如何显示），见CDI中的匹配和合并。

对于CDI，PNX的检索部分中的字段可检索，但是CDI不是只索引它们并用于检索和排序。这意味着它们可能不会通过如同Primo Central中的方式被检索。
检索部分中列出的DBID可能不会代表Alma/SFX中真实启用的资源库。请使用您的启用工具检查哪些资源库用于Primo中的记录显示。

标准检索功能

Alma中有检索权限：订阅的CDI资源库需要读者登录到Primo或在校内（有效IP范围内）才能获取检索结果。

短语检索

对多个检索词使用双引号进行短语匹配。例如，检索"computational linguistics"（使用双引号）会返回computational linguistics的匹配，而不是linguistics and computational chemistry或computational chemistry and linguistics。但是，短语检索会匹配短语中的词的其他变体。例如，检索单数的"neural network"也会匹配复数的neural networks。检索"street facade"会匹配"street facade"和"street façade"。短语检索可用于词语间没有空格的语言，例如中文、日语和泰语。例如，检索"東京の歴史"（使用双引号）会精确匹配東京の歴史，但不会匹配東京の文化と歴史。

关于停用词的短语匹配有两个例外。第一个是处理全文字段的停用词。与元数据不一样，CDI不会索引全文字段中的停用词。因此，无法保证全文字段中匹配含有停用词的短语。例如，检索"research for motion"可以匹配"research in motion"，因为"for"和"in"均为英语的停用词。由于全文匹配的排序远低于元数据匹配，在元数据中含有精确短语的资料永远排名靠前。但是，全文匹配在元数据中没有或只有很少的精确短语匹配时非常重要，可以返回其他相关结果。问题在于，它们会产生很多与用户所需不太相关的结果。另一个例外是位于短语结尾的停用词当前会从短语检索中除外。例如，检索"there she was"会剔除was并匹配例如"there she is"的短语，因为"was"定义为英语中的停用词。

短语检索也加强了逐字匹配提升功能的效果。逐字匹配提升功能是CDI相关度排序算法的一部分，用于提升逐字匹配的相关分数，该匹配不通过字符规范化、词干提取或其他多语言检索功能完成。例如，检索"heavy metals"（使用双引号）会比非短语检索heavy metals（不使用双引号）更强调检索短语heavy metal。

通过该属性，双引号也可以用于检索单个词来强调逐字匹配。例如，如果检索résumé（不使用双引号）会在靠前的结果中返回不需要的resume 的匹配，对检索词使用双引号（例如，"résumé"）会进一步强调逐字匹配。

有关“精确”匹配的说明

检索查询和索引的文本之间有几个“精确”匹配层级。

短语匹配 - 在本文档中，短语匹配或精确匹配指的是检索查询和索引文本的短语中的词的顺序一致的匹配。例如，以下为短语匹配：查询 = computational linguistics，索引文本 = computational linguistics。但是以下不是精确短语匹配：查询 = "computational linguistics"，索引文本 = linguistics and computational chemistry。
逐字匹配提升 - 在本文档中，逐字匹配指的是词语层级的匹配，不通过词干提取、同义词映射和字符规范化或其他方式匹配词语。例如，"English book" vs. "English books"为精确短语匹配，但不是逐字匹配。
穷举匹配（或精确题名匹配，精确主题匹配等）- 此类匹配指的是完全匹配字段值的短语匹配。例如，查询="American history"为题名"19th Century American History"的精确短语匹配，且不是穷举匹配。
精确字符串匹配 - 当所有上述情况允许大小写变化（例如，"Book" vs. "book"），词语间的空格数变化（例如， "computational linguistics" with one space vs. "computational linguistics"），以及使用标点符号的变化（例如，"Paris, Texas" vs. "Paris Texas"）时，精确字符串匹配会需要字符层级的精确匹配。该类型的匹配通常用于标识符字段。

CDI的短语检索对默认检索字段支持“精确短语匹配”，例如题名、著者和摘要字段。

布尔运算符

CDI支持以下布尔运算符：AND、OR和NOT。它们必须全部大写以确保系统会理解它们是布尔运算符。

AND运算符 - 当两个词之间没有明确的布尔运算符时，假定是AND运算符。例如，如果检索earthquake fault，会得到与检索earthquake AND fault一样的结果集。请注意，由于首个检索使用与短语匹配更高的相关分数，结果集的相关度排序可能有所不同。
OR运算符 - 该运算符在只需匹配多个检索词中的一个时使用。示例：cats OR felines
NOT运算符 - 该运算符始终应用于紧接运算符之后的词或布尔表达式。 NOT运算符通常用于排除特定词或表达式的匹配。可按如下方式使用：

dogs NOT cats

dogs NOT (cats)

dogs AND NOT cats

dogs AND NOT (cats)
定义布尔表达式的优先级 - 括号用于组合布尔表达式，也用于定义布尔表达式的优先级。通常而言，当布尔表达式中有模糊表达时始终使用括号。例如：cats AND (dogs OR raccoons)、(cats AND dogs) OR raccoons。
德语用户界面中的布尔检索 - 符合德语检索引擎的标准习惯，选择德语用户界面时，布尔运算符UND、ODER和NICHT等于AND、OR和NOT。英语运算符也可以在德语用户界面中使用。
布尔检索和CDI相关度排序算法 - 使用与其他查询相同的相关度排序算法处理布尔查询。
连字符 - 如果词语或短语后有连字符且连字符和下一个词之间没有空格，连字符会被视为AND NOT操作符，因此任何含有连字符之后内容的结果会被排除。例如，如果检索查询“Outside the square”-midwifery consultancy，不会返回有相同名称的结果，因为在连字符和midwifery之间没有空格。
单个词语的检索通常会产生大量的结果（百万级），这可能会导致一些问题（例如执行问题和超时）。要防止此类情况，单个单词的检索（例如，art、business、case、law、market、project、report、review和science）返回有限数量的结果且不会隐藏最高排序的记录。
比较检索含有/不含布尔检索符不会如预期的方式作用于有限的单个单词检索结果。例如，比较查询science可能找到会比检索查询science AND neurology更少的结果数，但是预期结果是第一个查询的结果数更多。这是由于单个词语的检索通常会产生大量的结果（百万级），这可能会导致一些问题（例如执行问题和超时）。要避免此类情况，系统识别这些检索并自动限制它们的结果数（例如，通过不检索全文以及减少元数据的检索量）。这些单个单词的检索收集自检索日志并添加到一个时常更新的约500个单词的列表。例如，以下单词包含在列表中： art, business, case, law, market, project, report, review, and science. 请注意，该行为只会影响检索结果集的尾端而不会移除最高排序的结果。

通配符

CDI中的检索可以通过使用两个通配符执行：问号（?）和星号（*）。通配符不可用于检索的首个字符，也不能用于双引号中（短语检索）。

问号会匹配任何一个字符。例如，检索Ols?n可用于查找Olsen或Olson，但不会查找Olsson，因为sn之间有两个字符。

问号在词尾不会起通配符的作用。这是为了避免与问号作为标点符号的作用产生混淆。例如，检索who's afraid of virginia woolf?的问号（使用或不使用双引号）会被理解为标点符号，而不是通配符。此时，最后一个词会匹配woolf。

星号会匹配单词中或词尾的零个或多个字符。检索Ch*ter会匹配Charter、Character和Chapter。

用于词尾时，星号允许包含所有可能的字符，因此Temp*会匹配Temptation、Temple和Temporary。

不支持在短语检索中使用通配符。
通配符检索不一定会比不使用通配符的检索返回更多结果。这是因为CDI的多语言检索功能（例如词干提取/词形还原、同义词映射和拼写规范化）不适用于通配符检索。例如，关键词检索archaeology可能会比通配符检索archaeolog*返回更多结果，因为前一个检索使用CDI英语拼写规范化功能同时匹配archaeology和archeology，后一个仅匹配archaeology而非archeology。这在复合词检索时尤其明显（例如 firefighter、jellyfish和sweatshop），因为CDI会对复合词中的每个单独的词应用检索功能。
通配符的使用不一定会提高相关度排序。有些情况下，这可能会对相关度排序造成负面影响，因为有些相关因子，例如短语匹配提升和计算词的权重不适用于通配符检索。

查询扩展（基于控制词表）

CDI查询扩展功能通过添加来自控制词表的首选词到查询，帮助读者找到相关文献。例如，如果读者查询heart attack，查询扩展功能会扩展检索查询为heart attack OR myocardial infarction，因为myocardial infarction在一些控制词表中是heart attack的首选词，例如LCSH (Library of Congress Subject Headings)和MeSH (Medical Subject Headings)。

查询扩展功能不会扩展短语检索（使用双引号）。
查询扩展功能不会扩展广泛使用的词。例如，不会扩展AIDS到acquired immunodeficiency syndrome，因为AIDS在各种文献中广泛使用。
查询扩展功能不会扩展检索词为很长的查询。

字段删减

CDI对可能引起检索和显示问题的大型字段值提供保护。此类大型字段值可能时由于偶发的糟糕元数据映射导致。例如，如果记录的目录字段偶然映射到题名字段，这会导致缓慢的响应，显示问题和排序问题。大型字段值会删减，基于字段本身要么根据实体数或字符数，或者两者一起考虑进行删减。例如，题名和副标题字段的上限为500个字符。含有学术出版物的参考文献列表的参考字段最多包含1,000个条目。著者和编辑字段上限100个实体。我们会周期性地复核上限设置并按需调整。

多语言检索功能

Ex Libris CDI使用Unicode标准，并允许检索Unicode标准支持的书写系统的多种语言。此外，还对很多语言提供了增强的语言检索功能，如下：

阿拉伯语
中文（简体和繁体）
丹麦语
荷兰语
英语
法语
德语
希伯来语
意大利语
日语
韩语
马来语
挪威语
葡萄牙语
罗马尼亚语
西班牙语
瑞典语
泰语
土耳其语

CDI使用多种技术增强这些语言的检索性能。下表列出一些重要的进程。这些进程根据每个CDI记录的语言应用于检索结果。例如，英语检索功能（标记化、词干提取等）应用于英语记录，德语检索功能应用于德语记录。

标记化
分解
词干提取/词形还原
字符规范化
音译
省略处理
同义词匹配和拼写规范化
停用词

这些技术的详情在以下部分介绍。此外，下文描述这些功能如何在CDI相关度排序算法中起作用。

逐字匹配提升（所有语言）

多语言检索结构

CDI索引“分析”或“规范化”形式的词，而不是“表层”形式的词。例如，books按照字典形式book索引，而不是表层形式books。检索时，用于检索查询中的books也会规范化为book。这使得book和books可以互相检索。请注意，分析/规范化形式为内部的数据表现而不是用户会在界面中看到的内容。用户仍会在界面中看到初始字段值 - 例如，books。

例如，book和books：

索引时：
1. books → book（根据记录的语言规范化）
2. book → book（根据记录的语言规范化）
检索时：
1. books → book（根据记录的语言规范化）
2. book → book（根据记录的语言规范化）

该方法有几个优势：

便于支持构词形态丰富的语言，例如法语、德语、日语、阿拉伯语和希伯来语，以及有多种书写系统的语言，例如中文、韩语和日期。例如，每个中文字可能有多种变体，因此该方法可以更好地支持。
支持真正的多语言检索功能。检索查询根据每个记录的语言规范化，使用特定语言的检索功能比较查询和所有记录。例如，检索查询中的"kind"可以匹配英语文档中的"kinds"和德语文档中的"Kinder"。这可以忽略主语言或图书馆位置实现多语言查询。
这可以扩展，且可以在不影响已由CDI支持的语言的记录相关度排序的情况下添加其他语言支持。

CDI是一个动态索引（经常更新），使得Ex Libris开发团队可以对索引和检索时更新文本分析算法（规范化）以增强CDI的检索和排序功能。

标记化

标记化是将一系列字母或文本拆分为单词、短语或有意义的元素的进程。标记化是CDI语言特定文本分析的一部分，这会在索引和检索时执行，并构成CDI中最小的可检索单元的。

大多数语言中，单词由空格或标点符号分隔，因此对于这些语言，标记化是一个简单进程。但是，在例如中文、日语和泰语中，单词之间没有空格分隔。对于这些语言，CDI文本分析使用复杂的技术识别词语，并使用该信息执行标记化。

标记化示例：

black cat => black + cat（英语）
梵文基础读本 => 梵文+基础+读本（中文）
東京タワー => 東京 + タワー（日语）

“Black cat”分解为两个可检索的单元“black”和“cat”； “梵文基础读本”分解为三个可检索的单元 “梵文”、“基础”和“读本”；“東京タワー”分解为两个可检索的单元“東京”和“タワー”。

分解

复合词是由多个单词组成的词。在例如德语、瑞典语和丹麦语中，复合词不含有空格，因此它们很长。

分解时找到复合词的组成部分的进程。 CDI对德语、瑞典语、丹麦语和韩语执行该进程。该进程使读者可检索这些组成部分并获取复合词的匹配。

示例：

检索德语词abwasser anlagen（英语为wastewater plant）返回匹配复合词abwasserbehandlungsanlage （英语为wastewater treatment plant）的结果。

词干提取/词形还原

词干提取是简化同义词（或变体）到词干或词根的进程。词形还原是转换词语的多种形式为标准形式的进程。尽管有些许不同，这些进程都有同一个目标，这些检索词通常可互换。 CDI执行语言特定的词干提取或词形还原允许读者检索词语的任何形式（不管是否有词形变化）而获取与该词多种形式匹配的结果。

例如：

books vs. book（英语）
ponies vs. pony（英语）
theses vs. thesis（英语）
maisons vs. maison（法语）
grandes vs. grande（法语）
Kinder vs. Kind（德语）

在第一个例子中，检索book会返回book和books的结果。检索grande maison会返回grande maison和grandes maisons的法语记录。

对于每种语言，CDI的词干化处理都有所不同。

英语规则

英语的词干化处理遵循以下规则：

如果词语以ies结尾，替换为y。
除此之外，如果词语以es结尾且之前为ch、sh、ss、x或zz，移除字母es。
除此之外，如果词语以s结尾，移除字母s。

某些词语不满足以上规则不应被词干化。

例子：

movies的单数形式为movie，不应按照第一条规则改为movy 。
由于news已经为单数形式，不应按照第三条规则词干化为new。

以下词语不适用以上词干化规则：

analyses -> analysis
andes -> andes
angus -> angus
aries -> aries
arius -> arius
arkansas -> arkansas
athens -> athens
atlas -> atlas
aussies -> aussie
axes -> axis
bias -> bias
bonuses -> bonus
children -> child
cosmos -> cosmos
feet -> foot
geese -> goose
headaches -> headache
men -> man
movies -> movie
news -> news
oxen -> ox
teeth -> tooth
ties -> tie
viruses -> virus
women -> woman

字符规范化

字符规范化是规范字符的变体到基础形式的进程。例如，含有变音符号的字符规范化为不含有变音符号的字符。 CDI也对多种中文字符提供字符规范化。

字符规范化允许读者检索含有变音符号的词获取不含有变音符号的结果，反之亦然。类似地，也允许读者使用繁体字符检索中文词获取简体字符结果，反之亦然。字符规范化映射对所有语言通常一致，但是某些情况下，定义了语言特定的字符规范化映射。

示例：

大学 vs. 大學（中文）
México vs. Mexico（西班牙语）

中文检索大學会返回大学的结果，西班牙语检索Mexico会返回México的结果。

某些情况下，CDI允许多种方式表示含有变音符号的字符。例如，德语元音变音ä、ö和ü可以无需含有变音符号写为ae、oe和ue，或a、o和u。 CDI允许这两种变体。这使读者可以检索schoen 或schon 获取匹配schön的结果。另一个示例为西班牙语的ñ，可以使用ñ、n或ni检索。这使得检索词Espanol 和Espaniol 返回Español的匹配。

音译

音译是文本的转换。该进程允许检索一种文本然后获取以另一种文本所写的相同内容。

CDI当前提供中文（汉字-拼音）、日语（日本汉字/片假名-假名）和韩语（朝鲜汉字 - 谚文）题名和著者名的音译检索功能。中文拼音音译可以在词语间使用括号（例如，beijing daxue），或在汉字之间使用括号（例如，bei jing da xue）。

示例：

中文检索词beijingdaxue（“Peking University”的拼音形式）会返回包含字符串北京大学（“Peking University”的汉字形式）的结果

相同的写为beijing daxue或bei jing da xue（使用双引号获取更好的结果）的中文检索词也会返回含有字符串北京大学的结果。

日语检索词なつめそうせき（"Natsume Souseki"的平假名形式）会返回含有字符串夏目漱石（"Natsume Souseki"的日本汉字形式）的结果。

韩语检索词경제（“economy"的谚文形式）会返回含有字符串經濟（“economy"的朝鲜汉字形式）的结果。

如果使用音译执行检索，则音译检索结果不一定会是显示的第一个结果。

省略处理

省略在此代表接续词以元音起始时的词尾元音省略，这在法语和意大利语中常见。

例如，法语中，le + arbre变为l'arbre。意大利语中，lo + amico变为l’amico。

CDI的省略处理使得读者可以检索amico获取l’amico的结果。

同义词匹配和拼写规范化

CDI提供语言特定的简单同义词映射和拼写规范化。例如，英语中，theater和theatre 是同一个词的两种拼法。这些在CDI英语文本分析时规范化，这样，读者可以使用其中一种拼写检索获取两种拼写的结果。语言特定的同义词也对相同含义的词语定义。

例如：

theater vs. theatre（英语）
accessorize vs. accessorise（英语）
analog vs. analogue（英语）
ordenador vs. computadora（西班牙语）

此外，连字号（&）在每种语言中等于和。

CDI的检索引擎有两种方式处理英语的同义词和拼法变化。一种是基于控制词表的查询扩展功能，这会扩展检索查询以包含近义词的匹配（例如，heart attack会扩展为包含myocardial infarction的匹配）。该方法适用于近似程度超过50%的匹配。另一种方法主要处理相同单词的拼法变化，例如counseling/counselling和theatre/theater。使用该方法匹配的单词有90%的原始检索词的权重。

但是，预测此类检索结果的相关度排序并不容易，因为有很多别的因素（例如出版日期、引文数和内容类型）会影响相关度排序。如果检索结果有类似的相关度分数，这些权重可能会很大程度地改变结果的排序。如果检索结果的相关度分数很不一样，这些权重可能不会影响结果的排序。

本地检索引擎配置仅适用于Primo本地索引，它们对CDI没有影响。

处理&字符

&字符代表and、et、und或CDI支持的语言中的其他同等词语。例如，这允许在英语文档中交叉检索cats and dogs和cats & dogs。

根据每个记录的语言执行符号映射。例如，在英语记录中&映射and，在法语记录中&映射et。因此，检索查询cats and dogs和cats & dogs的检索结果数可能不同，因为cats and dogs可能出现在非英语记录中。类似地， chats et chiens和chats & chiens的检索结果可能不同，因为chats et chiens可能出现在非法语记录中。

当前，这些映射应用于除著者字段外的所有字段。

停用词

停用词是发挥功能的词（例如，定/不定冠词、介词、代词、连词和助动词），在CDI中非常常见，且没有特别的意义。

CDI维护语言特定的停用词列表，在执行检索时过滤，除非它们是短语检索的一部分，如下所示。停用词根据以下基础规范选取。

CDI当前的英语停用词包括a、an、the、and、but、or、it、of、on、with、in、is和are，但不包含will，因为该词可以作为有实义的名词使用。

通常，CDI忽略检索词中的停用词以提高检索的准确性和效率。但是，在短语检索中（使用双引号），所有的停用词成为必须的词，除了短语结尾的词。例如，检索词man of the year包含两个英语停用词of和the。如果该检索词不使用双引号（man of the year），返回含有man和year的结果，CDI相关算法提升包含短语man of the year的结果的排序。

如果检索词使用双引号执行短语检索（例如，"man of the year"），CDI返回含有精确短语的结果且不会排除停用词。但是，全文字段和以停用词结尾的短语匹配有一些局限。有关详情，见短语检索。

停用词根据记录的语言，而不是检索查询的语言对CDI应用。例如，CDI对法语记录使用法语停用词，对英语记录使用英语停用词。如果法语记录被错误地标记为英语记录，用户可能会得到意想不到的结果，因为在检索这些记录时会忽略法语停用词（例如la）。

逐字匹配提升

这是CDI本地语言检索支持中最重要的功能之一。本文档中描述的很多功能使读者可以在检索词和索引词一致时获取结果，但并不需要逐字完全相同。这些功能可以增加结果数量，或者说，增加检索反馈。尽管这些功能提供了更好的用户体验，但也有可能会包含不太相关或无关的结果，并降低了检索准确性。

逐字匹配提供功能通过逐字或几乎逐字地匹配检索词和索引词提升结果的相关分数来弥补这个缺陷。

示例：

对于英语检索词theatres，在其他因素一致的情况下，theatres的结果比起theaters或theatre的结果有更高的相关分数（排名更靠前）。

逐字匹配提升功能应用于大部分本文提到的进程。该功能的实际实施是通过降低非逐字匹配的权重完成，从而提升了逐字匹配。对每个词计算降低的权重，并且对每种语言的每个进程定义降低量，例如主要区别，比如同义词，会比微小区别降低得更多，例如拼写区别和名词的单复数。

有关更多信息，见同义词匹配和拼写规范化。

标准检索功能

短语检索

有关“精确”匹配的说明

布尔运算符

通配符

查询扩展（基于控制词表）

字段删减

多语言检索功能

多语言检索结构

标记化

分解

词干提取/词形还原

英语规则

字符规范化

音译

省略处理

同义词匹配和拼写规范化

处理&字符

停用词

逐字匹配提升

相关度排序

动态排序

静态排序