Comprender los procesos de Dedup y FRBR (Primo VE)
Si está trabajando en Primo y no en Primo VE, vea FRBRización y Proceso de Detección de Duplicados para obtener más detalles.
Este tema describe los procesos de Dedup y FRBR, que utiliza Primo VE para combinar o agrupar registros redundantes en los resultados breves.
La página Prueba de uso de Dedup y FRBR (Menú de configuración > Descubrimiento > Otros > Prueba de uso de Dedup y FRBR) le permite comparar y analizar registros, a fin de verificar si reúnen los criterios (descritos en las siguientes secciones) para que se consideren registros duplicados. Para más información, ver Herramienta de análisis de Dedup y FRBR para Primo VE.
Detección de duplicación (Dedup)
La detección de duplicaciones o el proceso de coincidencias se basa en crear un vector dedup por cada registro de Alma (y todos los registros importados desde fuentes externas). El vector incluye toda la información requerida por el algoritmo de detección de duplicación para determinar si dos registros son equivalentes. Los vectores incluyen una o más claves que identifican el registro. Las claves se basan en los campos de metadatos del registro fuente (registros MARC o DC).
En los resultados de búsqueda, los registros que están marcados como duplicados se muestran como un solo registro. Los metadatos se muestran desde el primer registro en el conjunto de resultados, y la información relacionada con la entrega se crea desde todos los registros del grupo.
FRBR
Los registros de Primo VE se agrupan utilizando los principios de los Requerimientos funcionales para los registros bibliográficos publicados por el Grupo de estudio de la IFLA en los Requerimientos funcionales para los registros bibliográficos. El proceso de agrupación crea un vector para cada registro de Alma (y todos los registros importados de fuentes externas). Este vector incluye una o más claves que identifican el grupo que representa. Las claves se basan en los campos de metadatos del registro fuente (registros MARC o DC).
Los registros que tienen una clave coincidente (Primo VE intenta hacer coincidir todas las claves en el registro) se añaden al grupo de FRBR, y a estos se les asigna un ID de FRBR. Como los registros pueden pertenecer a un grupo de FRBR solo, Primo VE completa el proceso de agrupamiento para un registro desde que coincide con un grupo.
Los ID de un grupo se clasifican y se utilizan durante las búsquedas para los resultados de búsqueda de grupo por el mismo ID de grupo. Un registro que pertenece a un grupo de FRBR muestra las Múltiples versiones existentes. El enlace Ver todas las versiones en los resultados breves permite a los usuarios ver todos los registros que se agruparon juntos. El registro que se muestra en los resultados breves se puede configurar para mostrar información para un registro preferido o información genérica que pertenezca a todos los registros del grupo. Después de realizar una búsqueda, los resultados se agrupan por ID de FRBR, así como después de seleccionar las Múltiples versiones existentes. Enlace Ver todas las versiones; los resultados se agrupan por ID de Dedup.
Cómo funcionan juntos Dedup y FRBR
Los procesos de coincidencia de Dedup y FRBR son muy similares, pero el contenido de las claves es diferente. El sistema primero busca registros duplicados y después grupos de FRBR. Dado que la ID de Dedup se utiliza como una clave para el proceso de FRBR, a un registro al que se le puede hacer la acción de Deduped, también se le puede hacer la acción de FRBR.
Calcular las claves
Las claves de Dedup y FRBR se utilizan para determinar si los registros coinciden y se generan a partir de elementos de información específica del registro bibliográfico y después combinadas en claves. Laa secciones siguientes describen primero cómo se mapea la información clave en los campos MARC21 en la base de datos en Primo VE, y después describen cómo se combinan los elementos para crear las claves de Dedup y FRBR.
Mapear campos de claves Dedup
Según los formatos de datos MARC21, UNIMARC y DC, la siguiente tabla muestra cómo se mapean y almacenan los campos de cada registro fuente en Primo VE para claves Dedup.
Para Dublin Core, las claves de los identificadores (como ISSN, ISBN y LCCN) deben incluir el tipo de identificador como se indica a continuación:
<dcterms:identificador xsi:type="dcterms:<Tipo_de_identificador>">
<Identificador>
</dcterms:identifier>
Clave | Contenido del campo | Tipo | Campo MARC 21 | DC Campo | Campo UNIMARC | Campo BIBFRAME |
---|---|---|---|---|---|---|
C5 |
Control n.º |
1+2 |
035 a,z |
ID de MMS (datos de Alma) No aplicable para datos externos. |
035 a,z |
bf:identifiedBy - bf:Local - rdf:value |
F1 |
LCCN |
1+2 |
010 a |
dcterms:identifier dcterms:LCCN |
N/D |
bf:AdminMetadata - bf:identifiedBy - bf:Lccn |
F3 |
ISBN (13 o 10 digitos) Si un registro tiene más de un ISBN, se genera una clave F3 para cada ISBN en vez de anexarlos todos juntos. |
1 |
020 a,e 776 z |
dcterms:identifier dcterms:ISSN |
010 a |
bf:identifiedBy - bf:Isbn |
F3 |
ISSN |
2 |
022 a,e 776 x |
dcterms:identifier dcterms:ISSN |
011 a |
bf:identifiedBy - bf:Issn |
F4 |
ISBN_invalid |
1 |
020 z |
N/D |
010 z |
bf:identifiedBy - bf:Isbn - rdf:value - bf:status- bf:Status with URI "http://id.loc.gov/vocabulary/mstatus/incorrect" |
F4 |
ISSN_invalid |
2 |
022 y |
N/D |
011 y |
bf:identifiedBy - bf:Issn - rdf:value - bf:status- bf:Status with URI "http://id.loc.gov/vocabulary/mstatus/cancinv" |
F5 |
Título breve |
1 |
245 a,b,n,p |
dc.title |
200 a |
bf:title - bf:Title |
F5 |
ISSN_cancelled |
2 |
022 z |
N/D |
011 z |
bf:identifiedBy - bf:Issn - rdf:value - bf:status- bf:Status with URI "http://id.loc.gov/vocabulary/mstatus/cancinv" |
F6 |
Comenzar año de publicación |
1+2 |
008 (posición 7-10) 260 c 264 c |
dc.date |
210 d |
bf:provisionActivity - bf:Publication - bf:date/ bflc:simpleDate with rdf:datatype="http://id.loc.gov/datatypes/edtf" |
F7 |
Título completo |
1+2 |
245 a,b,n,p |
dc.title |
200 a,e,d,h,i |
bf:title - bf:Title |
F8 |
País de publicación |
1 |
008 (posición 15-17) |
N/D |
LDR posición 7 = m o c |
bf:provisionActivity - bf:Publication - bf:place |
F8 |
Título breve |
2 |
245 a
|
dc.title |
LDR posición 7 = a (parte de componente) o i (recurso de integración) o s (serie) |
bf:title - bf:Title |
F9 |
Paginación |
1 |
300 a |
N/D |
LDR posición 7 = m o c |
N/D |
F9 |
País de publicación |
2 |
008 (posición 15-17) |
N/D |
LDR posición 7 = a (parte de componente) o i (recurso de integración) o s (serie) |
bf:provisionActivity - bf:Publication - bf:place |
F10 |
Editor |
1 |
260 b 264 b |
dcterms.publisher |
LDR position 7 = m or c |
bf:provisionActivity - bf:Publication - bflc:simpleAgent |
F10 |
Lugar de publicación |
2 |
260 a 264 a |
N/D |
LDR posición 7 = a (parte de componente) o i (recurso de integración) o s (serie) |
bf:provisionActivity - bf:Publication - bflc:simplePlace |
F11 |
Entrada principal (autor, cuerpo corporativo, congreso) |
1 |
100 a, b, c, d, q 111 a, c, d, e, n, q |
dc.creator |
LDR posición 7 = m o c |
bf:contribution - bf:PrimaryContribution |
F11 |
Entrada principal (autor, cuerpo corporativo, congreso) |
2 |
110 a, b, c, d, e, n 111 a, c, d, e, n, q 130 a,d,l,m,n,o,p,r,s,t |
dc.creator |
LDR posición 7 = a (parte de componente) o i (recurso de integración) o s (serie) |
bf:contribution - bf:PrimaryContribution |
F13 |
Número de control |
1+2 |
001 |
N/D |
001 |
MMSID (bf:adminMetadata - bf:AdminMetadata - bf:identifiedBy - bf:Local - rdf:value - bf:source "ALMA") |
F50* |
URI de trabajo |
1+2 |
N/D |
N/D |
N/D |
bf:Work - RDF:about |
* – Para activar este campo clave, abra un ticket de Soporte para activar Trabajo Bibframe de la Biblioteca del Congreso e Instancia Bibframe en el registro activo.
Mapear campos de claves FRBR
Según los formatos de datos MARC 21, UNIMARC y DC, la siguiente tabla muestra cómo se mapean y almacenan los campos de cada registro fuente en Primo VE para claves FRBR.
ID del campo | Contenido del campo | Campo MARC21 | DC Campo | Campo UNIMARC | Campo BIBFRAME |
---|---|---|---|---|---|
T |
Siempre 1 |
t=1 |
t=1 |
t=1 |
t=1 |
K1 |
Autor |
100 a, b, c, q O (en caso de que no exista 100, 110 y 111): |
dc.creator |
700 a-d,f,p |
bf:PrimaryContribution |
K2 |
Título uniforme |
130 a, d, m, n, p, r |
dcterms.alternative |
500 a,h-n,q-s |
bf:expressionOf |
K3 |
Título |
If 245 a, b, e, f, g, n, p existe, y hasta uno de los siguientes campos en función de la prioridad: 240 a, d, m, n, p, r |
dc.title |
200 a,c,e,h,i |
bf:title - bf:Title |
K4 |
Idioma |
En función de los subcampos provistos a partir de cada campo 041, los idiomas se ordenan, concatenan y delimitan con un guion de la siguiente manera:
De lo contrario, utilizar 008 posición 35-37. |
dc.language Si se especifican varios idiomas, utilizar solo el último valor tomado.
|
101 a Si se especifican varios idiomas, utilizar solo el último valor tomado. |
bf:language - bf:Language |
K5 |
Número de control |
001 |
N/D
|
001 |
001 |
K50* |
URI de trabajo |
N/D |
N/D |
N/D |
URI de trabajo |
K51* |
ExpressionOf URI |
N/D |
N/D |
N/D |
expresión de URI |
* – Para activar este campo clave, abra un ticket de Soporte para activar Trabajo Bibframe de la Biblioteca del Congreso e Instancia Bibframe en el registro activo.
Información general de creación de claves
Esta sección describe cómo se normalizan y combinan los campos de bases de datos para crear las claves de Dedup y FRBR.
La ruta para cada campo de Dedup y FRBR en Primo VE utiliza el siguiente formato:
Ejemplos:
-
Dedup: match/f1
-
FRBR: frbr/k1
Concatenar campos
Se puede crear una clave al concatenar varios campos, que se indica mediante la colocación de un signo de más (+) entre los campos. El sistema solo toma el primer campo MARC disponible para cada ID de campo. En caso de que haya múltiples entradas para el mismo campo, el sistema crea múltiples claves. Si la clave se genera a partir de más de un campo, el sistema crea todas las combinaciones posibles de las entradas del campo.
Ejemplo de concatenación Dedup (definición clave = match/f1 + match/f7):
-
f1: incluye las siguientes entradas: a, b
-
f7: incluye las siguientes entradas: c, d
-
Claves creadas: ac, ad, bc y bd
Métodos de normalización
A medida que se calculan las claves, cualquiera de los siguientes métodos de normalización se puede aplicar a los valores del campo utilizando el formato <método>(<nombre del campo>):
Método de normalización | Descripción |
---|---|
FUZZY_STRING |
Utiliza las primeras cinco palabras del valor del campo. |
ROUND_NUMBER |
Redondea el último dígito del valor del campo hasta 0. Ejemplos:
|
REMOVE_COMMON_WORDS |
Elimina las siguientes palabras comunes del valor del campo: anunciante, anuales, presupuesto anual, informe financiero anual, informe anual, informes anuales, informe anual para, informe anual para el año fiscal finalizado, informe bienal, boletín, presupuesto, boletín, calendario, catálogo, circular, informe financiero anual completo, !compilación de actos seleccionados, compilación de actos seleccionados dentro de la jurisdicción del comité en comercio, actos de congreso, registro de congreso, directorio, hoja de hechos, presupuesto final, informe financiero, catálogo general, jahresbericht, diario, ciencias del lenguaje, leyes etc, calendario legislativo, resumen legislativo, directorio de membresías, memorias, memoria, minutos, mitteilungen, monografía, boletín mensual, publicación de noticias, boletín informativo, periódico ocasional, periódicos ocasionales, actos, actos de la convención anual, informe de progreso, presupuesto propuesto, publicaciones, publicación, publicaciones, rapport, rapport annuel, informe, informe y cuentas, informe de investigación, revista, informe semianual para el congreso, informe semianual para el congreso, leyes de sesión, informe de estadísticas, boletín técnico, informe técnico, transacciones, travaux, trudy, actualización, veroeffentlichungen, veroffentlichungen, trabajos, anuario, anuario, agenda telefónica |
SEPARAR |
Cuando un registro posee múltiples identificadores (como ISSN/ISBN), este método crea claves separadas para cada identificador, de modo que el proceso de Dedup pueda hacer coincidir otros registros con uno o más de los mismos identificadores. De lo contrario, los registros duplicados tendrían que coincidir con todos los identificadores. |
Campos opcionales
Cuando se cree una clave desde varios campos, algunos campos no tienen que existir para crear la clave y se consideran opcionales. Los campos opcionales están encerrados en corchetes ([]). Por ejemplo: match/f1 + [match/f7]
Prioridad de clave
Cada clave tiene una prioridad, que puede ser una de las siguientes: alta, media, baja o ninguna (menos que baja). Consultar las definiciones de las claves más adelante para ver cómo afectan al algoritmo de coincidencia.
Tipo de clave
Cada clave tiene un tipo que indica al sistema qué definiciones de claves se utilizan para el registro.
Para Dedup, el tipo está definido en el campo match/t, que puede contener uno de los siguientes valores:
-
1 – Indica que el registro no es un registro en serie.
-
2 – Indica que el registro es un registro en serie.
Para FRBR, el tipo está definido en el campo de frbr/t, que puede contener uno de los siguientes valores:
-
99 – Indica que el registro se ha suprimido utilizando la tarea Impedir FRBR o Dedup en descubrimiento en la página Ejecutar una tarea (Admin > Gestionar tareas y conjuntos > Ejecutar una tarea).
-
1 – Indica que el registro no se ha suprimido y se le debería realizar la acción de FRBR.
Definiciones de claves de Dedup
La tabla siguiente muestra cómo cada campo en Primo VE se normaliza y concatena para formar cada clave de Dedup en base al tipo de registro.
Clave completa | Tipo | Descripción |
---|---|---|
match/c5 |
1 |
Número de sistema externo |
match/f1 + match/f5 + match/f6 |
1 |
LCCN + título breve + año |
match/f1 + FUZZY_STRING(match/f7) + match/f6 |
1 |
LCCN + título aproximado + año |
match/f1 + match/f7 + match/f6 |
1 |
LCCN + título completo + año |
match/f3 + match/f5 + match/f6 |
1 |
ISBN + título breve + fecha |
match/f3 + FUZZY_STRING(match/f7) + match/f6 |
1 |
ISBN + título aproximado + fecha |
match/f3 + match/f7 + match/f9 |
1 |
ISBN + título completo + paginación |
SEPARAR(match/f3) + match/f5 + match/f6 |
1 |
ISBN1 + título breve + fecha ISBN2 + titulo breve + fecha |
SEPARAR(match/f3) + FUZZY_STRING(match/f7) + match/f6 |
1 |
ISBN1 + título aproximado + fecha ISBN2 + título aproximado + fecha |
SEPARAR(match/f3) + match/f7 + match/f9 |
1 |
ISBN1 + título completo + paginación ISBN2 + título completo + paginación |
match/f4 + match/f7 + match/f6 |
1 |
ISBN incorrecto + título completo + fecha |
match/f4 + match/f7 + match/f9 |
1 |
ISBN incorrecto + título completo + paginación |
SEPARAR(match/f4) + match/f7 + match/f6 |
1 |
ISBN1 incorrecto + título completo + fecha ISBN2 incorrecto + título completo + fecha |
SEPARAR(match/f4) + match/f7 + match/f9 |
1 |
ISBN1 incorrecto + título completo + paginación ISBN2 incorrecto + título completo + paginación |
match/f7 + match/f11 + match/f6 + match/f9 |
1 |
título completo + entrada principal + fecha + paginación |
match/f7 + match/f11 + match/f6 + ROUND_NUMBER(match/f9) |
1 |
título completo + entrada principal + fecha + paginación aproximada |
match/f7 + match/f6 + match/f10 + match/f9 + [match/f11] |
1 |
Título completo + fecha + editor + paginación +[entrada principal] |
match/f7 + match/f6 + match/f10 + ROUND_NUMBER(match/f9) + [match/f11] |
1 |
título completo + fecha + editor + paginación aproximada + [entrada principal] |
match/f7 + match/f6 + match/f9 + [match/f11] |
1 |
título completo + fecha + paginación + [entrada principal] |
match/f7 + match/f6 + ROUND_NUMBER(match/f9) + [match/f11] |
1 |
título completo + fecha + paginación aproximada +[entrada principal] |
match/f7 + match/f6 + match/f10 + [match/f11] |
1 |
título completo + fecha + editor + [entrada principal] |
match/c5 |
2 |
MMS ID |
match/f1 + match/f8 |
2 |
LCCN + título breve |
match/f3 + match/f8 |
2 |
ISSN + título breve |
SEPARAR(match/f3) + match/f8 |
1 |
ISSN1 + título breve ISSN2 + título breve |
REMOVE_COMMON_WORDS(match/f7) + match/f10 + match/f9 + [match/f11] |
2 |
Título completo (no en listas de publicaciones seriadas comunes) + lugar de publicación + país de publicación + entrada principal condicional |
REMOVE_COMMON_WORDS(match/f7) + match/f10 + match/f9 + [match/f11] + [SPLIT(match/f3)] |
2 |
Título completo (no en listas de publicaciones seriadas comunes) + lugar de publicación + encabezado principal (condicional) + ISSN1 condicional Título completo (no en listas de publicaciones seriadas comunes) + lugar de publicación + encabezado principal (condicional) + ISSN2 condicional |
REMOVE_COMMON_WORDS(match/f7) + match/f6 + match/f11 |
2 |
Título completo (no en listas de publicaciones seriadas comunes)+ fecha + entrada principal |
match/f7 + match/f6 + match/f11 + match/f10 |
2 |
Título completo (puede estar en una lista de títulos comunes) + fecha + entrada principal + lugar de publicación |
REMOVE_COMMON_WORDS(match/f7) + match/f6 + match/f11 + match/f10 |
2 |
Título aproximado (no en la lista de títulos comunes) + fecha + entrada principal + lugar de publicación |
Definiciones de claves de FRBR
La tabla siguiente muestra cómo cada campo en Primo VE se normaliza y concatena para formar cada clave de FRBR. La clave de coincidencia/grupo no se genera desde ningún campo MARC21. En lugar de eso, se construye dinámicamente desde el resultado del cálculo de Dedup, que asegura que cada registro al que se le hace la acción de Dedup también se le haga la acción de FRBR (en particular, cualquier grupo de Dedup se concatena por completo dentro del grupo de FRBR).
Clave completa | Tipo | Descripción | Prioridad |
---|---|---|---|
coincidencia/grupo |
1 |
Clave de Dedup |
ALTO |
frbr/k2 |
1 |
Solo título uniforme |
MEDIO |
frbr/k1 + frbr/k3 |
1 |
Autor + título |
NINGUNO |
coincidencia/grupo |
99 |
Clave de Dedup |
ALTO |
Calcular el ID de grupo
El sistema convierte las claves en un número y después añade un coeficiente, que se basa en la prioridad de la clave, para garantizar que las claves con prioridades más altas tengan números más largos. Después de elegir la ID de grupo para un registro específico, todas las claves que se calcularon desde ese registro se guardan con la ID de grupo para garantizar que todas las claves apunten a él. Esto permite dar a los registros que tienen claves idénticas la misma ID de grupo.
Flujo de proceso de Dedup/FRBR
El sistema lleva a cabo los pasos siguientes tanto para los procesos de Dedup como para los de FRBR, comenzando con el proceso de Dedup:
-
Calcular todas las claves desde el registro fuente.
-
Buscar todas las claves que se calcularon en el paso 1 que ya existen en la base de datos (de cálculos previos). Si existen claves, el sistema selecciona el ID de grupo que se asocia con la clave que tiene el valor más alto (esto da prioridad a las claves con prioridad más alta). Si el registro coincide con más de un grupo y las claves tienen la misma prioridad, el sistema selecciona el ID de grupo de manera aleatoria. Si no existe una clave en la base de datos, el sistema selecciona la clave con el valor más alto y la utiliza como ID de grupo.
-
Para todas las claves calculadas en el paso 1, el sistema almacenará el ID de grupo seleccionado. Esto permite que otros registros se conecten con registros procesados recientemente.
El algoritmo no es totalmente transitivo, lo que significa que dos registros pueden tener un registro común coincidente, pero no se consideran coincidentes entre ellos. Por esto, el orden en el que los registros se procesan puede afectar a los agrupamientos. Para más información, ver Dedup y transitividad.
Dedup y transitividad
-
El registro B se añade a la base de datos y no se encuentra ninguna coincidencia.
-
El registro C se añade a la base de datos y ninguna de sus claves coincide con el registro B.
-
El registro A se añade a la base de datos y una de sus claves coincide con una clave en el registro B primero. Como se encontró una coincidencia, el sistema interrumpe el procesamiento del registro y regresa los siguientes grupos incluso si el registro A también coincide con el registro C: AB y C.
Suprimir grupos de FRBR/Dedup
Se pueden utilizar los siguientes métodos para impedir que a los registros se les realice la acción de Dedup o de FRBR:
-
Definir reglas de supresión que están basadas en tipos de registros (como imágenes) que se aplican durante la reclasificación, cuando se cargan nuevos registros o cuando los metadatos de un registro existente se modifican. Para más detallegs, ver Suprimir Grupos de registros desde Dedup y FRBR. Si se desea suprimir registros existentes, ver la opción siguiente.
-
Ejecutar la tarea Impedir FRBR o Dedup en descubrimiento en un conjunto de registros bibliográficos (Admin > Gestionar tareas y conjuntos > Ejecutar una tarea). Para más información, ver Ejecutar tareas manuales en conjuntos definidos.
Si se quiere impedir que se visualicen los grupos de FRBR y Dedup de todos los registros sin cambiar ninguna regla ni ejecutar ninguna tarea, se puede deshabilitar FRBR/Dedup al configurar los campos Habilitar Dedup y Habilitar FRBR en la pestaña Resultados breves en la página de Configuración de vista (Menú de configuración > Descubrimiento > Configuración de despliegue > Configurar vistas). Para más información, ver Etiqueta de Resultados breves.
Recalcular los grupos Dedup y FRBR
Es posible que las claves FRBR y Dedup, que se construyen inicialmente al crear o migrar un registro, deban recalcularse después de modificar un registro bibliográfico. Para obtener información sobre cómo volver a calcular las claves, consulte Recalcular grupos Dedup y FRBR.
Es posible que los grupos Dedup y FRBR no se vuelvan a calcular después de que ocurra lo siguiente:
-
Reindexación de una bibliografía mediante la tarea Recalcular tipos de recursos locales.
-
El proceso de reindexación semestral ha concluido.