Comprender los procesos de Dedup y FRBR (Primo VE)

Detección de duplicación (Dedup)

La detección de duplicaciones o el proceso de coincidencias se basa en crear un vector dedup por cada registro de Alma (y todos los registros importados desde fuentes externas). El vector incluye toda la información requerida por el algoritmo de detección de duplicación para determinar si dos registros son equivalentes. Los vectores incluyen una o más claves que identifican el registro. Las claves se basan en los campos de metadatos del registro fuente (registros MARC o DC).

En los resultados de búsqueda, los registros que están marcados como duplicados se muestran como un solo registro. Los metadatos se muestran desde el primer registro en el conjunto de resultados, y la información relacionada con la entrega se crea desde todos los registros del grupo.

FRBR

Los registros de Primo VE se agrupan utilizando los principios de los Requerimientos funcionales para los registros bibliográficos publicados por el Grupo de estudio de la IFLA en los Requerimientos funcionales para los registros bibliográficos. El proceso de agrupamiento crea un vector para cada registro. Este vector incluye una o más claves que identifican el grupo que representa. Las claves se basan en los campos de metadatos del registro fuente (registros MARC o DC).

Los registros que tienen una clave coincidente (Primo VE intenta hacer coincidir todas las claves en el registro) se añaden a un grupo de FRBR, y a estos se les asigna una ID de FRBR. Como los registros pueden pertenecer a un grupo de FRBR solo, Primo VE completa el proceso de agrupamiento para un registro desde que coincide con un grupo.

Los ID de un grupo se clasifican y se utilizan durante las búsquedas para los resultados de búsqueda de grupo por el mismo ID de grupo. Un registro que pertenece a un grupo de FRBR muestra las Múltiples versiones existentes. El enlace Ver todas las versiones en los resultados breves permite a los usuarios ver todos los registros que se agruparon juntos. El registro que se muestra en los resultados breves se puede configurar para mostrar información para un registro preferido o información genérica que pertenezca a todos los registros del grupo. Después de realizar una búsqueda, los resultados se agrupan por ID de FRBR, así como después de seleccionar las Múltiples versiones existentes. Enlace Ver todas las versiones; los resultados se agrupan por ID de Dedup.

Cómo funcionan juntos Dedup y FRBR

Los procesos de coincidencia de Dedup y FRBR son muy similares, pero el contenido de las claves es diferente. El sistema primero busca registros duplicados y después grupos de FRBR. Dado que la ID de Dedup se utiliza como una clave para el proceso de FRBR, a un registro al que se le puede hacer la acción de Deduped, también se le puede hacer la acción de FRBR.

Calcular las claves

Las claves de Dedup y FRBR se utilizan para determinar si los registros coinciden y se generan a partir de elementos de información específica del registro bibliográfico y después combinadas en claves. Laa secciones siguientes describen primero cómo se mapea la información clave en los campos MARC21 en la base de datos en Primo VE, y después describen cómo se combinan los elementos para crear las claves de Dedup y FRBR.

Mapear campos de claves Dedup

Según los formatos de datos MARC21, UNIMARC y DC, la siguiente tabla muestra cómo se mapean y almacenan los campos de cada registro fuente en Primo VE para claves Dedup.

Clave	Contenido del campo	Tipo	Campo MARC 21	DC Campo	Campo UNIMARC
C5	Control n.º	1+2	035 a,z	ID de MMS (datos de Alma) No aplicable para datos externos	035 a,z
F1	LCCN	1+2	010 a	dcterms:identifier dcterms:LCCN	N/D
F3	ISBN (13 o 10 digitos) Si un registro tiene más de un ISBN, se genera una clave F3 para cada ISBN en vez de anexarlos todos juntos.	1	020 a,e 776 z	dcterms:identifier dcterms:ISSN	010 a
F3	ISSN	2	022 a,e 776 x	dcterms:identifier dcterms:ISSN dcterms:identifier dc:ISSN	011 a
F4	ISBN_invalid	1	020 z	N/D	010 z
F4	ISSN_invalid	2	022 y	N/D	011 y
F5	Título breve	1	245 a,b,n,p	dc.title dcterms.title	200 a
F5	ISSN_cancelled	2	022 z	N/D	011 z
F6	Comenzar año de publicación	1+2	008 (posición 7-10) 260 c 264 c	dc.date dcterms .date dcterms.created	210 d 100 a (posición 9-16)
F7	Título completo	1+2	245 a,b,n,p	dc.title dcterms.title	200 a,e,d,h,i
F8	País de publicación	1	008 (posición 15-17)	N/D	LDR posición 7 = m o c Y MARC es "102"."a"
F8	Título breve	2	245 a	dc.title dcterms.title	LDR posición 7 = a (parte de componente) o i (recurso de integración) o s (serie) Y MARC es "200"."a"
F9	Paginación	1	300 a	N/D	LDR posición 7 = m o c Y MARC es "215"."a"
F9	País de publicación	2	008 (posición 15-17)	N/D	LDR posición 7 = a (parte de componente) o i (recurso de integración) o s (serie) Y MARC.control es "102" "a"
F10	Editor	1	260 b 264 b	dcterms.publisher dc.publisher	LDR position 7 = m or c AND MARC is "210"."c"
F10	Lugar de publicación	2	260 a 264 a	N/D	LDR posición 7 = a (parte de componente) o i (recurso de integración) o s (serie) Y MARC es "200"."a"
F11	Entrada principal (autor, cuerpo corporativo, congreso)	1	100 a, b, c, d, q 111 a, c, d, e, n, q	dc.creator dcterms.creator dcterms.contributor dc.contributor	LDR posición 7 = m o c Y 700 a,b,c,d,f 710 1er ind. = 1 a-h
F11	Entrada principal (autor, cuerpo corporativo, congreso)	2	110 a, b, c, d, e, n 111 a, c, d, e, n, q 130 a,d,l,m,n,o,p,r,s,t	dc.creator dcterms.creator dcterms.contributor dc.contributor	LDR posición 7 = a (parte de componente) o i (recurso de integración) o s (serie) Y 710 1er ind. = 0 a,b,c,g,h 710 1er ind. = 1 a-h 500 a,b,h,i,k,l,m
F13	Número de control	1+2	001	N/D	001

Mapear campos de claves FRBR

Según los formatos de datos MARC 21, UNIMARC y DC, la siguiente tabla muestra cómo se mapean y almacenan los campos de cada registro fuente en Primo VE para claves FRBR.

ID del campo	Contenido del campo	Campo MARC21	DC Campo	Campo UNIMARC
T	Siempre 1	t=1	t=1	t=1
K1	Autor	100 a, b, c, q 110 a, b, c, q 111 a, b, c, n, q O (en caso de que no exista 100, 110 y 111): 700 a, b, c, q 710 a, b, c, q 711 a, b, c, n, q	dc.creator dcterms.creator dcterms.contributor dc.contributor	700 a-d,f,p 701 a-d,f,p 710 a-h,p 711 a-h,p 720 a,f 721 a,f 702 a-d,f,g 712 a-h,p 722 a,f
K2	Título uniforme	130 a, d, m, n, p, r	dcterms.alternative	500 a,h-n,q-s
K3	Título	240 a, d, m, n, p, r 245 a, b, e, f, g, n, p 242 a, b, f, g, n, p 246 a, b, f, g, n, p 247 a, b, f, g, n, p 740 a, b, f, g, n, p	dc.title dcterms.title	200 a,c,e,h,i 510 a,e 512 a,e 513 a,e,h,i 514 a,e, 515 a,e 516 a,e 517 a,e 520 a,e,h,i 541 a,e,h,i
K4	Idioma	En función de los subcampos provistos a partir de cada campo 041, los idiomas se ordenan, concatenan y delimitan con un guion de la siguiente manera: Si se incluye en subcampo a, utilizar todos los subcampos a solamente. Si se incluye el subcampo d, utilizar todos los subcampos d solamente. Si se incluye el subcampo e, utiliza todos los subcampos e solamente. De lo contrario, utilizar 008 posición 35-37.	dc.language dcterms.language Si se especifican varios idiomas, utilizar solo el último valor tomado.	101 a Si se especifican varios idiomas, utilizar solo el último valor tomado.
K5	Número de control	001	N/D	001

Información general de creación de claves

Esta sección describe cómo se normalizan y combinan los campos de bases de datos para crear las claves de Dedup y FRBR.

La ruta para cada campo de Dedup y FRBR en Primo VE utiliza el siguiente formato:

<Sección de Primo VE >/<Nombre del campo de Primo VE>

Ejemplos:

Dedup: match/f1
FRBR: frbr/k1

Concatenar campos

Se puede crear una clave al concatenar varios campos, que se indica mediante la colocación de un signo de más (+) entre los campos.

Ejemplo para Dedup:

match/f1 + match/f7

El sistema solo toma el primer campo MARC disponible para cada ID de campo. Por ejemplo, en FRBR K3, si existe un campo MARC 240, solo se usa para crear FRBR K3 y no se consideran todos los demás campos (245, 242, etc). En caso de que haya múltiples entradas para el mismo campo, el sistema crea múltiples claves. Si la clave se genera a partir de más de un campo, el sistema crea todas las combinaciones posibles de las entradas del campo. Para el ejemplo de Dedup anterior:

f1: incluye las siguientes entradas: a, b
f7: incluye las siguientes entradas: c, d
Definición de clave: match/f1 + match/f7
Claves creadas: ac, ad, bc y bd

Métodos de normalización

A medida que se calculan las claves, cualquiera de los siguientes métodos de normalización se puede aplicar a los valores del campo utilizando el formato <método>(<nombre del campo>):

Método de normalización	Descripción
FUZZY_STRING	Utiliza las primeras cinco palabras del valor del campo.
ROUND_NUMBER	Redondea el último dígito del valor del campo hasta 0. Ejemplos: 11 se redondea a 10 199 se redondea a 190
REMOVE_COMMON_WORDS	Elimina las siguientes palabras comunes del valor del campo: anunciante, anuales, presupuesto anual, informe financiero anual, informe anual, informes anuales, informe anual para, informe anual para el año fiscal finalizado, informe bienal, boletín, presupuesto, boletín, calendario, catálogo, circular, informe financiero anual completo, !compilación de actos seleccionados, compilación de actos seleccionados dentro de la jurisdicción del comité en comercio, actos de congreso, registro de congreso, directorio, hoja de hechos, presupuesto final, informe financiero, catálogo general, jahresbericht, diario, ciencias del lenguaje, leyes etc, calendario legislativo, resumen legislativo, directorio de membresías, memorias, memoria, minutos, mitteilungen, monografía, boletín mensual, publicación de noticias, boletín informativo, periódico ocasional, periódicos ocasionales, actos, actos de la convención anual, informe de progreso, presupuesto propuesto, publicaciones, publicación, publicaciones, rapport, rapport annuel, informe, informe y cuentas, informe de investigación, revista, informe semianual para el congreso, informe semianual para el congreso, leyes de sesión, informe de estadísticas, boletín técnico, informe técnico, transacciones, travaux, trudy, actualización, veroeffentlichungen, veroffentlichungen, trabajos, anuario, anuario, agenda telefónica
SEPARAR	Cuando un registro posee múltiples identificadores (como ISSN/ISBN), este método crea claves separadas para cada identificador, de modo que el proceso de Dedup pueda hacer coincidir otros registros con uno o más de los mismos identificadores. De lo contrario, los registros duplicados tendrían que coincidir con todos los identificadores.

Campos opcionales

Cuando se cree una clave desde varios campos, algunos campos no tienen que existir para crear la clave y se consideran opcionales. Los campos opcionales están encerrados entre corchetes ([]). Por ejemplo: match/f1 + [match/f7]

Prioridad de clave

Cada clave tiene una prioridad, que puede ser una de las siguientes: alta, media, baja o ninguna (menos que baja). Consultar las definiciones de las claves más adelante para ver cómo afectan al algoritmo de coincidencia.

Tipo de clave

Cada clave tiene un tipo que indica al sistema qué definiciones de claves se utilizan para el registro.

Para Dedup, el tipo está definido en el campo match/t, que puede contener uno de los siguientes valores:

1 – Indica que el registro no es un registro en serie.
2 – Indica que el registro es un registro en serie.

Para FRBR, el tipo está definido en el campo de frbr/t, que puede contener uno de los siguientes valores:

99 – Indica que el registro se ha suprimido utilizando la tarea Impedir FRBR o Dedup en descubrimiento en la página Ejecutar una tarea (Admin > Gestionar tareas y conjuntos > Ejecutar una tarea).
1 – Indica que el registro no se ha suprimido y se le debería realizar la acción de FRBR.

Definiciones de claves de Dedup

La tabla siguiente muestra cómo cada campo en Primo VE se normaliza y concatena para formar cada clave de Dedup en base al tipo de registro.

Clave completa	Tipo	Descripción
match/c5	1	Número de sistema externo
match/f1 + match/f5 + match/f6	1	LCCN + título breve + año
match/f1 + FUZZY_STRING(match/f7) + match/f6	1	LCCN + título aproximado + año
match/f1 + match/f7 + match/f6	1	LCCN + título completo + año
match/f3 + match/f5 + match/f6	1	ISBN + título breve + fecha
match/f3 + FUZZY_STRING(match/f7) + match/f6	1	ISBN + título aproximado + fecha
match/f3 + match/f7 + match/f9	1	ISBN + título completo + paginación
SEPARAR(match/f3) + match/f5 + match/f6	1	ISBN1 + título breve + fecha ISBN2 + titulo breve + fecha
SEPARAR(match/f3) + FUZZY_STRING(match/f7) + match/f6	1	ISBN1 + título aproximado + fecha ISBN2 + título aproximado + fecha
SEPARAR(match/f3) + match/f7 + match/f9	1	ISBN1 + título completo + paginación ISBN2 + título completo + paginación
match/f4 + match/f7 + match/f6	1	ISBN incorrecto + título completo + fecha
match/f4 + match/f7 + match/f9	1	ISBN incorrecto + título completo + paginación
SEPARAR(match/f4) + match/f7 + match/f6	1	ISBN1 incorrecto + título completo + fecha ISBN2 incorrecto + título completo + fecha
SEPARAR(match/f4) + match/f7 + match/f9	1	ISBN1 incorrecto + título completo + paginación ISBN2 incorrecto + título completo + paginación
match/f7 + match/f11 + match/f6 + match/f9	1	título completo + entrada principal + fecha + paginación
match/f7 + match/f11 + match/f6 + ROUND_NUMBER(match/f9)	1	título completo + entrada principal + fecha + paginación aproximada
match/f7 + match/f6 + match/f10 + match/f9 + [match/f11]	1	Título completo + fecha + editor + paginación +[entrada principal]
match/f7 + match/f6 + match/f10 + ROUND_NUMBER(match/f9) + [match/f11]	1	título completo + fecha + editor + paginación aproximada + [entrada principal]
match/f7 + match/f6 + match/f9 + [match/f11]	1	título completo + fecha + paginación + [entrada principal]
match/f7 + match/f6 + ROUND_NUMBER(match/f9) + [match/f11]	1	título completo + fecha + paginación aproximada +[entrada principal]
match/f7 + match/f6 + match/f10 + [match/f11]	1	título completo + fecha + editor + [entrada principal]
match/c5	2	MMS ID
match/f1 + match/f8	2	LCCN + título breve
match/f3 + match/f8	2	ISSN + título breve
SEPARAR(match/f3) + match/f8	1	ISSN1 + título breve ISSN2 + título breve
REMOVE_COMMON_WORDS(match/f7) + match/f10 + match/f9 + [match/f11]	2	Título completo (no en listas de publicaciones seriadas comunes) + lugar de publicación + país de publicación + entrada principal condicional
REMOVE_COMMON_WORDS(match/f7) + match/f10 + match/f9 + [match/f11] + [SPLIT(match/f3)]	2	Título completo (no en listas de publicaciones seriadas comunes) + lugar de publicación + encabezado principal (condicional) + ISSN1 condicional Título completo (no en listas de publicaciones seriadas comunes) + lugar de publicación + encabezado principal (condicional) + ISSN2 condicional
REMOVE_COMMON_WORDS(match/f7) + match/f6 + match/f11	2	Título completo (no en listas de publicaciones seriadas comunes)+ fecha + entrada principal
match/f7 + match/f6 + match/f11 + match/f10	2	Título completo (puede estar en una lista de títulos comunes) + fecha + entrada principal + lugar de publicación
REMOVE_COMMON_WORDS(match/f7) + match/f6 + match/f11 + match/f10	2	Título aproximado (no en la lista de títulos comunes) + fecha + entrada principal + lugar de publicación

Definiciones de claves de FRBR

La tabla siguiente muestra cómo cada campo en Primo VE se normaliza y concatena para formar cada clave de FRBR. La clave de coincidencia/grupo no se genera desde ningún campo MARC21. En lugar de eso, se construye dinámicamente desde el resultado del cálculo de Dedup, que asegura que cada registro al que se le hace la acción de Dedup también se le haga la acción de FRBR (en particular, cualquier grupo de Dedup se concatena por completo dentro del grupo de FRBR).

Clave completa	Tipo	Descripción	Prioridad
coincidencia/grupo	1	Clave de Dedup	ALTO
frbr/k2	1	Solo título uniforme	MEDIO
frbr/k1 + frbr/k3	1	Autor + título	NINGUNO
coincidencia/grupo	99	Clave de Dedup	ALTO

Calcular el ID de grupo

El sistema convierte las claves en un número y después añade un coeficiente, que se basa en la prioridad de la clave, para garantizar que las claves con prioridades más altas tengan números más largos. Después de elegir la ID de grupo para un registro específico, todas las claves que se calcularon desde ese registro se guardan con la ID de grupo para garantizar que todas las claves apunten a él. Esto permite dar a los registros que tienen claves idénticas la misma ID de grupo.

Flujo de proceso de Dedup/FRBR

El sistema lleva a cabo los pasos siguientes tanto para los procesos de Dedup como para los de FRBR, comenzando con el proceso de Dedup:

Calcular todas las claves desde el registro fuente.
Buscar todas las claves que se calcularon en el paso 1 que ya existen en la base de datos (de cálculos previos). Si existen claves, el sistema selecciona el ID de grupo que se asocia con la clave que tiene el valor más alto (esto da prioridad a las claves con prioridad más alta). Si el registro coincide con más de un grupo y las claves tienen la misma prioridad, el sistema selecciona el ID de grupo de manera aleatoria. Si no existe una clave en la base de datos, el sistema selecciona la clave con el valor más alto y la utiliza como ID de grupo.
Para todas las claves calculadas en el paso 1, el sistema almacenará el ID de grupo seleccionado. Esto permite que otros registros se conecten con registros procesados recientemente.

El algoritmo no es totalmente transitivo, lo que significa que dos registros pueden tener un registro común coincidente, pero no se consideran coincidentes entre ellos. Por esto, el orden en el que los registros se procesan puede afectar a los agrupamientos. Para más información, ver Dedup y transitividad.

Dedup y transitividad

Como el algoritmo de Dedup tiene en cuenta muchos elementos de información en la coincidencia de registros, no es totalmente transitivo (si A es igual a B y B es igual a C, entonces A debe ser igual a C), y puede que no cree un grupo para los registros A, B, y C incluso si la regla transitiva de igualdad se aplica a los registros. Por ejemplo, no se permite la transitividad en la siguiente situación:

El registro B se añade a la base de datos y no se encuentra ninguna coincidencia.
El registro C se añade a la base de datos y ninguna de sus claves coincide con el registro B.
El registro A se añade a la base de datos y una de sus claves coincide con una clave en el registro B primero. Como se encontró una coincidencia, el sistema interrumpe el procesamiento del registro y regresa los siguientes grupos incluso si el registro A también coincide con el registro C: AB y C.

La herramienta de análisis de Dedup verifica si dos registros coinciden en base al registro, no lo que ha coincidido en realidad ni a lo que se le ha realizado la acción de Dedup en la base de datos. En la situación anterior, se muestra que el registro A es igual al registro B, que el registro A es igual al registro C, y que el registro B no es igual al registro C.

Suprimir grupos de FRBR/Dedup

Se pueden utilizar los siguientes métodos para impedir que a los registros se les realice la acción de Dedup o de FRBR:

Definir reglas de supresión que están basadas en tipos de registros (como imágenes) que se aplican durante la reclasificación, cuando se cargan nuevos registros o cuando los metadatos de un registro existente se modifican. Para más detallegs, ver Suprimir Grupos de registros desde Dedup y FRBR. Si se desea suprimir registros existentes, ver la opción siguiente.
Ejecutar la tarea Impedir FRBR o Dedup en descubrimiento en un conjunto de registros bibliográficos (Admin > Gestionar tareas y conjuntos > Ejecutar una tarea). Para más información, ver Ejecutar tareas manuales en conjuntos definidos.

Si se quiere impedir que se visualicen los grupos de FRBR y Dedup de todos los registros sin cambiar ninguna regla ni ejecutar ninguna tarea, se puede deshabilitar FRBR/Dedup al configurar los campos Habilitar Dedup y Habilitar FRBR en la pestaña Resultados breves en la página de Configuración de vista (Menú de configuración > Descubrimiento > Configuración de despliegue > Configurar vistas). Para más información, ver Etiqueta de Resultados breves.

Recalcular los grupos Dedup y FRBR

Es posible que las claves FRBR y Dedup, que se construyen inicialmente al crear o migrar un registro, deban recalcularse después de modificar un registro bibliográfico. Para obtener información sobre cómo volver a calcular las claves, consulte Recalcular grupos Dedup y FRBR.

Es posible que los grupos Dedup y FRBR no se vuelvan a calcular después de que ocurra lo siguiente:

Reindexación de una bibliografía mediante la tarea Recalcular tipos de recursos locales.
El proceso de reindexación semestral ha concluido.