Skip to main content
ExLibris
  • Subscribe by RSS
  • Ex Libris Knowledge Center

    Comprender los procesos de Dedup y FRBR (Primo VE)

    Si está trabajando en Primo y no en Primo VE, vea FRBRización y Proceso de Detección de Duplicados para obtener más detalles.

    Volver al menú

    Este tema describe los procesos de Dedup y FRBR, que utiliza Primo VE para combinar o agrupar registros redundantes en los resultados breves.

    La página Herramienta de prueba de Dedup y FRBR (Menú de configuración > Descubrimiento > Otros > Herramienta de prueba de Dedup y FRBR) le permite comparar y analizar registros, a fin de verificar si reúnen los criterios (descritos en las siguientes secciones) para que se consideren registros duplicados. Para más información, ver Herramienta de análisis de Dedup y FRBR para Primo VE.

    Detección de duplicación (Dedup)

    La detección de duplicaciones o el proceso de coincidencias se basa en crear un vector dedup por cada registro de Alma (y todos los registros importados desde fuentes externas). El vector incluye toda la información requerida por el algoritmo de detección de duplicación para determinar si dos registros son equivalentes. Los vectores incluyen una o más claves que identifican el registro. Las claves se basan en los campos de metadatos del registro fuente (registros MARC o DC).

    En los resultados de búsqueda, los registros que están marcados como duplicados se muestran como un solo registro. Los metadatos se muestran desde el primer registro en el conjunto de resultados, y la información relacionada con la entrega se crea desde todos los registros del grupo.

    FRBR

    Los registros de Primo VE se agrupan utilizando los principios de los Requerimientos funcionales para los registros bibliográficos publicados por el Grupo de estudio de la IFLA en los Requerimientos funcionales para los registros bibliográficos. El proceso de agrupamiento crea un vector para cada registro. Este vector incluye una o más claves que identifican el grupo que representa. Las claves se basan en los campos de metadatos del registro fuente (registros MARC o DC).

    Los registros que tienen una clave coincidente (Primo VE intenta hacer coincidir todas las claves en el registro) se añaden a un grupo de FRBR, y a estos se les asigna una ID de FRBR. Como los registros pueden pertenecer a un grupo de FRBR solo, Primo VE completa el proceso de agrupamiento para un registro desde que coincide con un grupo.

    Los ID de un grupo se clasifican y se utilizan durante las búsquedas para los resultados de búsqueda de grupo por el mismo ID de grupo. Un registro que pertenece a un grupo de FRBR muestra las Múltiples versiones existentes. El enlace Ver todas las versiones en los resultados breves permite a los usuarios ver todos los registros que se agruparon juntos. El registro que se muestra en los resultados breves se puede configurar para mostrar información para un registro preferido o información genérica que pertenezca a todos los registros del grupo. Después de realizar una búsqueda, los resultados se agrupan por ID de FRBR, así como después de seleccionar las Múltiples versiones existentes. Enlace Ver todas las versiones; los resultados se agrupan por ID de Dedup.

    Cómo funcionan juntos Dedup y FRBR

    Los procesos de coincidencia de Dedup y FRBR son muy similares, pero el contenido de las claves es diferente. El sistema primero busca registros duplicados y después grupos de FRBR. Dado que la ID de Dedup se utiliza como una clave para el proceso de FRBR, a un registro al que se le puede hacer la acción de Deduped, también se le puede hacer la acción de FRBR.

    Calcular las claves

    Las claves de Dedup y FRBR se utilizan para determinar si los registros coinciden y se generan a partir de elementos de información específica del registro bibliográfico y después combinadas en claves. Laa secciones siguientes describen primero cómo se mapea la información clave en los campos MARC21 en la base de datos en Primo VE, y después describen cómo se combinan los elementos para crear las claves de Dedup y FRBR.

    Mapear campos de claves Dedup

    Según los formatos de datos MARC21, UNIMARC y DC, la siguiente tabla muestra cómo se mapean y almacenan los campos de cada registro fuente en Primo VE para claves Dedup.

    Clave Contenido del campo Tipo Campo MARC 21 DC Campo Campo UNIMARC

    C5

    Control n.º

    1+2

    035 a,z

    ID de MMS (datos de Alma)

    No aplicable para datos externos

    035 a,z

    F1

    LCCN

    1+2

    010 a

    dcterms:identifier dcterms:LCCN

    N/D

    F3

    ISBN (13 o 10 digitos)

    Si un registro tiene más de un ISBN, se genera una clave F3 para cada ISBN en vez de anexarlos todos juntos.

    1

    020 a,e

    776 z

    dcterms:identifier dcterms:ISSN

    010 a

    F3

    ISSN

    2

    022 a,e

    776 x

    dcterms:identifier dcterms:ISSN
    dcterms:identifier dc:ISSN

    011 a

    F4

    ISBN_invalid

    1

    020 z

    N/D

    010 z

    F4

    ISSN_invalid

    2

    022 y

    N/D

    011 y

    F5

    Título breve

    1

    245 a,b,n,p

    dc.title
    dcterms.title

    200 a

    F5

    ISSN_cancelled

    2

    022 z

    N/D

    011 z

    F6

    Comenzar año de publicación

    1+2

    008 (posición 7-10)

    260 c

    264 c

    dc.date
    dcterms
    .date dcterms.created

    210 d
    100 a (posición 9-16)

    F7

    Título completo

    1+2

    245 a,b,n,p

    dc.title
    dcterms.title

    200 a,e,d,h,i

    F8

    País de publicación

    1

    008 (posición 15-17)

    N/D

    LDR posición 7 = m o c
    Y MARC es "102"."a"

    F8

    Título breve

    2

    245 a

     

    dc.title
    dcterms.title

    LDR posición 7 = a (parte de componente) o i (recurso de integración) o s (serie)
    Y MARC es "200"."a"

    F9

    Paginación

    1

    300 a

    N/D

    LDR posición 7 = m o c
    Y MARC es "215"."a"

    F9

    País de publicación

    2

    008 (posición 15-17)

    N/D

    LDR posición 7 = a (parte de componente) o i (recurso de integración) o s (serie)
    Y MARC.control es "102" "a"

    F10

    Editor

    1

    260 b

    264 b

    dcterms.publisher
    dc.publisher

    LDR position 7 = m or c
    AND MARC is "210"."c"

    F10

    Lugar de publicación

    2

    260 a

    264 a

    N/D

    LDR posición 7 = a (parte de componente) o i (recurso de integración) o s (serie)
    Y MARC es "200"."a"

    F11

    Entrada principal (autor, cuerpo corporativo, congreso)

    1

    100 a, b, c, d, q  

    111 a, c, d, e, n, q 

    dc.creator
    dcterms.creator
    dcterms.contributor
    dc.contributor

    LDR posición 7 = m o c
    Y 700 a,b,c,d,f
    710 1er ind. = 1 a-h

    F11

    Entrada principal (autor, cuerpo corporativo, congreso)

    2

    110 a, b, c, d, e, n 

    111 a, c, d, e, n, q  

    130 a,d,l,m,n,o,p,r,s,t

    dc.creator
    dcterms.creator
    dcterms.contributor
    dc.contributor

    LDR posición 7 = a (parte de componente) o i (recurso de integración) o s (serie)
    Y 710 1er ind. = 0 a,b,c,g,h 710 1er ind. = 1 a-h
    500 a,b,h,i,k,l,m

    Mapear campos de claves FRBR

    Según los formatos de datos MARC 21, UNIMARC y DC, la siguiente tabla muestra cómo se mapean y almacenan los campos de cada registro fuente en Primo VE para claves FRBR.

    ID del campo Contenido del campo Campo MARC21 DC Campo Campo UNIMARC

    T

    Siempre 1

    t=1

    t=1

    t=1

    K1

    Autor

    100 a, b, c, q
    110 a, b, c, q
    111 a, b, c, n, q

    O (en caso de que no exista 100, 110 y 111):
    700 a, b, c, q
    710 a, b, c, q
    711 a, b, c, n, q

    dc.creator
    dcterms.creator
    dcterms.contributor
    dc.contributor

    700 a-d,f,p
    701 a-d,f,p
    710 a-h,p
    711 a-h,p
    720 a,f
    721 a,f
    702 a-d,f,g
    712 a-h,p
    722 a,f

    K2

    Título uniforme

    130 a, d, m, n, p, r

    dcterms.alternative

    500 a,h-n,q-s

    K3

    Título

    240 a, d, m, n, p, r
    245 a, b, e, f, g, n, p
    242 a, b, f, g, n, p
    246 a, b, f, g, n, p
    247 a, b, f, g, n, p
    740 a, b, f, g, n, p

    dc.title
    dcterms.title

    200 a,c,e,h,i
    510 a,e
    512 a,e
    513 a,e,h,i
    514 a,e,
    515 a,e
    516 a,e
    517 a,e
    520 a,e,h,i
    541 a,e,h,i

    K4

    Idioma

    En función de los subcampos provistos a partir de cada campo 041, los idiomas se ordenan, concatenan y delimitan con un guion de la siguiente manera:

    1. Si se incluye en subcampo a, utilizar todos los subcampos a solamente.

    2. Si se incluye el subcampo d, utilizar todos los subcampos d solamente.

    3. Si se incluye el subcampo e, utiliza todos los subcampos e solamente.

    De lo contrario, utilizar 008 posición 35-37.

    dc.language
    dcterms.language

    Si se especifican varios idiomas, utilizar solo el último valor tomado.

     

    101 a

    Si se especifican varios idiomas, utilizar solo el último valor tomado.

    Información general de creación de claves

    Esta sección describe cómo se normalizan y combinan los campos de bases de datos para crear las claves de Dedup y FRBR.

    La ruta para cada campo de Dedup y FRBR en Primo VE utiliza el siguiente formato:

    <Sección de Primo VE >/<Nombre del campo de Primo VE>

    Ejemplos: 

    • Dedup: match/f1

    • FRBR: frbr/k1

    Concatenar campos

    Se puede crear una clave al concatenar varios campos, que se indica mediante la colocación de un signo de más (+) entre los campos.

    Ejemplo para Dedup: 

    match/f1 + match/f7

    El sistema solo toma el primer campo MARC disponible para cada ID de campo. Por ejemplo, en FRBR K3, si existe un campo MARC 240, solo se usa para crear FRBR K3 y no se consideran todos los demás campos (245, 242, etc). En caso de que haya múltiples entradas para el mismo campo, el sistema crea múltiples claves. Si la clave se genera a partir de más de un campo, el sistema crea todas las combinaciones posibles de las entradas del campo. Para el ejemplo de Dedup anterior:

    • f1: incluye las siguientes entradas: a, b

    • f7: incluye las siguientes entradas: c, d

    • Definición de clave: match/f1 + match/f7

    • Claves creadas: ac, ad, bc y bd

    Métodos de normalización

    A medida que se calculan las claves, cualquiera de los siguientes métodos de normalización se puede aplicar a los valores del campo utilizando el formato <método>(<nombre del campo>):

    Método de normalización Descripción

    FUZZY_STRING

    Utiliza las primeras cinco palabras del valor del campo.

    ROUND_NUMBER

    Redondea el último dígito del valor del campo hasta 0.

    Ejemplos:

    • 11 se redondea a 10
    • 199 se redondea a 190

    REMOVE_COMMON_WORDS

    Elimina las siguientes palabras comunes del valor del campo:

    anunciante, anuales, presupuesto anual, informe financiero anual, informe anual, informes anuales, informe anual para, informe anual para el año fiscal finalizado, informe bienal, boletín, presupuesto, boletín, calendario, catálogo, circular, informe financiero anual completo, !compilación de actos seleccionados, compilación de actos seleccionados dentro de la jurisdicción del comité en comercio, actos de congreso, registro de congreso, directorio, hoja de hechos, presupuesto final, informe financiero, catálogo general, jahresbericht, diario, ciencias del lenguaje, leyes etc, calendario legislativo, resumen legislativo, directorio de membresías, memorias, memoria, minutos,            mitteilungen, monografía, boletín mensual, publicación de noticias, boletín informativo, periódico ocasional, periódicos ocasionales, actos, actos de la convención anual, informe de progreso, presupuesto propuesto, publicaciones, publicación, publicaciones, rapport, rapport annuel, informe, informe y cuentas, informe de investigación, revista, informe semianual para el congreso, informe semianual para el congreso, leyes de sesión, informe de estadísticas, boletín técnico, informe técnico, transacciones, travaux, trudy, actualización, veroeffentlichungen, veroffentlichungen, trabajos, anuario, anuario, agenda telefónica

    SEPARAR

    Cuando un registro posee múltiples identificadores (como ISSN/ISBN), este método crea claves separadas para cada identificador, de modo que el proceso de Dedup pueda hacer coincidir otros registros con uno o más de los mismos identificadores. De lo contrario, los registros duplicados tendrían que coincidir con todos los identificadores.

    Campos opcionales

    Cuando se cree una clave desde varios campos, algunos campos no tienen que existir para crear la clave y se consideran opcionales. Los campos opcionales están encerrados entre corchetes ([]). Por ejemplo: match/f1 + [match/f7]

    Prioridad de clave

    Cada clave tiene una prioridad, que puede ser una de las siguientes: alta, media, baja o ninguna (menos que baja). Consultar las definiciones de las claves más adelante para ver cómo afectan al algoritmo de coincidencia.

    Tipo de clave

    Cada clave tiene un tipo que indica al sistema qué definiciones de claves se utilizan para el registro.
     
    Para Dedup, el tipo está definido en el campo match/t, que puede contener uno de los siguientes valores:

    • 1 – Indica que el registro no es un registro en serie.

    • 2 – Indica que el registro es un registro en serie.

    Para FRBR, el tipo está definido en el campo de frbr/t, que puede contener uno de los siguientes valores:

    • 99 – Indica que el registro se ha suprimido utilizando la tarea Impedir FRBR o Dedup en descubrimiento en la página Ejecutar una tarea (Admin > Gestionar tareas y conjuntos > Ejecutar una tarea).

    • 1 – Indica que el registro no se ha suprimido y se le debería realizar la acción de FRBR.

    Definiciones de claves de Dedup

    La tabla siguiente muestra cómo cada campo en Primo VE se normaliza y concatena para formar cada clave de Dedup en base al tipo de registro.

    Clave completa Tipo Descripción

    match/c5

    1

    Número de sistema externo

    match/f1 + match/f5 + match/f6

    1

    LCCN + título breve + año

    match/f1 + FUZZY_STRING(match/f7) + match/f6

    1

    LCCN + título aproximado + año

    match/f1 + match/f7 + match/f6

    1

    LCCN + título completo + año

    match/f3 + match/f5 + match/f6

    1

    ISBN + título breve + fecha

    match/f3 + FUZZY_STRING(match/f7) + match/f6

    1

    ISBN + título aproximado + fecha

    match/f3 + match/f7 + match/f9

    1

    ISBN + título completo + paginación

    SEPARAR(match/f3) + match/f5 + match/f6

    1

    ISBN1 + título breve + fecha

    ISBN2 + titulo breve + fecha

    SEPARAR(match/f3) + FUZZY_STRING(match/f7) + match/f6

    1

    ISBN1 + título aproximado + fecha

    ISBN2 + título aproximado + fecha

    SEPARAR(match/f3) + match/f7 + match/f9

    1

    ISBN1 + título completo + paginación

    ISBN2 + título completo + paginación

    match/f4 + match/f7 + match/f6

    1

    ISBN incorrecto + título completo + fecha

    match/f4 + match/f7 + match/f9

    1

    ISBN incorrecto + título completo + paginación

    SEPARAR(match/f4) + match/f7 + match/f6

    1

    ISBN1 incorrecto + título completo + fecha

    ISBN2 incorrecto + título completo + fecha

    SEPARAR(match/f4) + match/f7 + match/f9

    1

    ISBN1 incorrecto + título completo + paginación

    ISBN2 incorrecto + título completo + paginación

    match/f7 + match/f11 + match/f6 + match/f9

    1

    título completo + entrada principal + fecha + paginación

    match/f7 + match/f11 + match/f6 + ROUND_NUMBER(match/f9)

    1

    título completo + entrada principal + fecha + paginación aproximada

    match/f7 + match/f6 + match/f10 + match/f9 + [match/f11]

    1

    Título completo + fecha + editor + paginación +[entrada principal]

    match/f7 + match/f6 + match/f10 + ROUND_NUMBER(match/f9) + [match/f11]

    1

    título completo + fecha + editor + paginación aproximada +  [entrada principal]

    match/f7 + match/f6 + match/f9 + [match/f11]

    1

    título completo + fecha + paginación + [entrada principal]

    match/f7 + match/f6 + ROUND_NUMBER(match/f9) + [match/f11]

    1

    título completo + fecha + paginación aproximada +[entrada principal]

    match/f7 + match/f6 + match/f10 + [match/f11]

    1

    título completo + fecha + editor + [entrada principal]

    match/c5

    2

    MMS ID

    match/f1 + match/f8

    2

    LCCN + título breve

    match/f3 + match/f8

    2

    ISSN + título breve

    SEPARAR(match/f3) + match/f8

    1

    ISSN1 + título breve

    ISSN2 + título breve

    REMOVE_COMMON_WORDS(match/f7) + match/f10 + match/f9 + [match/f11]

    2

    Título completo (no en listas de publicaciones seriadas comunes) + lugar de publicación + país de publicación + entrada principal condicional

    REMOVE_COMMON_WORDS(match/f7) + match/f10 + match/f9 + [match/f11] + [SPLIT(match/f3)]

    2

    Título completo (no en listas de publicaciones seriadas comunes) + lugar de publicación + encabezado principal (condicional) + ISSN1 condicional

    Título completo (no en listas de publicaciones seriadas comunes) + lugar de publicación + encabezado principal (condicional) + ISSN2 condicional

    REMOVE_COMMON_WORDS(match/f7) + match/f6 + match/f11

    2

    Título completo (no en listas de publicaciones seriadas comunes)+ fecha + entrada principal

    match/f7 + match/f6 + match/f11 + match/f10

    2

    Título completo (puede estar en una lista de títulos comunes) + fecha + entrada principal + lugar de publicación

    REMOVE_COMMON_WORDS(match/f7) + match/f6 + match/f11 + match/f10

    2

    Título aproximado (no en la lista de títulos comunes) + fecha + entrada principal + lugar de publicación

    Definiciones de claves de FRBR

    La tabla siguiente muestra cómo cada campo en Primo VE se normaliza y concatena para formar cada clave de FRBR. La clave de coincidencia/grupo no se genera desde ningún campo MARC21. En lugar de eso, se construye dinámicamente desde el resultado del cálculo de Dedup, que asegura que cada registro al que se le hace la acción de Dedup también se le haga la acción de FRBR (en particular, cualquier grupo de Dedup se concatena por completo dentro del grupo de FRBR).

    Clave completa Tipo Descripción Prioridad

    coincidencia/grupo

    1

    Clave de Dedup

    ALTO

    frbr/k2

    1

    Solo título uniforme

    MEDIO

    frbr/k1 + frbr/k3

    1

    Autor + título

    NINGUNO

    coincidencia/grupo

    99

    Clave de Dedup

    ALTO

    Calcular el ID de grupo

    El sistema convierte las claves en un número y después añade un coeficiente, que se basa en la prioridad de la clave, para garantizar que las claves con prioridades más altas tengan números más largos. Después de elegir la ID de grupo para un registro específico, todas las claves que se calcularon desde ese registro se guardan con la ID de grupo para garantizar que todas las claves apunten a él. Esto permite dar a los registros que tienen claves idénticas la misma ID de grupo.

    Flujo de proceso de Dedup/FRBR

    El sistema lleva a cabo los pasos siguientes tanto para los procesos de Dedup como para los de FRBR, comenzando con el proceso de Dedup:

    1. Calcular todas las claves desde el registro fuente.

    2. Buscar todas las claves que se calcularon en el paso 1 que ya existen en la base de datos (de cálculos previos). Si existen claves, el sistema selecciona el ID de grupo que se asocia con la clave que tiene el valor más alto (esto da prioridad a las claves con prioridad más alta). Si el registro coincide con más de un grupo y las claves tienen la misma prioridad, el sistema selecciona el ID de grupo de manera aleatoria. Si no existe una clave en la base de datos, el sistema selecciona la clave con el valor más alto y la utiliza como ID de grupo.

    3. Para todas las claves calculadas en el paso 1, el sistema almacenará el ID de grupo seleccionado. Esto permite que otros registros se conecten con registros procesados recientemente.

    El algoritmo no es totalmente transitivo, lo que significa que dos registros pueden tener un registro común coincidente, pero no se consideran coincidentes entre ellos. Por esto, el orden en el que los registros se procesan puede afectar a los agrupamientos. Para más información, ver Dedup y transitividad.

    Dedup y transitividad

    Como el algoritmo de Dedup tiene en cuenta muchos elementos de información en la coincidencia de registros, no es totalmente transitivo (si A es igual a B y B es igual a C, entonces A debe ser igual a C), y puede que no cree un grupo para los registros A, B, y C incluso si la regla transitiva de igualdad se aplica a los registros. Por ejemplo, no se permite la transitividad en la siguiente situación:
    1. El registro B se añade a la base de datos y no se encuentra ninguna coincidencia.
    2. El registro C se añade a la base de datos y ninguna de sus claves coincide con el registro B.
    3. El registro A se añade a la base de datos y una de sus claves coincide con una clave en el registro B primero. Como se encontró una coincidencia, el sistema interrumpe el procesamiento del registro y regresa los siguientes grupos incluso si el registro A también coincide con el registro C: AB y C.
    La herramienta de análisis de Dedup verifica si dos registros coinciden en base al registro, no lo que ha coincidido en realidad ni a lo que se le ha realizado la acción de Dedup en la base de datos. En la situación anterior, se muestra que el registro A es igual al registro B, que el registro A es igual al registro C, y que el registro B no es igual al registro C.

    Suprimir grupos de FRBR/Dedup

    Se pueden utilizar los siguientes métodos para impedir que a los registros se les realice la acción de Dedup o de FRBR:

    • Definir reglas de supresión que están basadas en tipos de registros (como imágenes) que se aplican durante la reclasificación, cuando se cargan nuevos registros o cuando los metadatos de un registro existente se modifican. Para más detallegs, ver Suprimir Grupos de registros desde Dedup y FRBR. Si se desea suprimir registros existentes, ver la opción siguiente.

    • Ejecutar la tarea Impedir FRBR o Dedup en descubrimiento en un conjunto de registros bibliográficos (Admin > Gestionar tareas y conjuntos > Ejecutar una tarea). Para más información, ver Ejecutar tareas manuales en conjuntos definidos.

    Si se quiere impedir que se visualicen los grupos de FRBR y Dedup de todos los registros sin cambiar ninguna regla ni ejecutar ninguna tarea, se puede deshabilitar FRBR/Dedup al configurar los campos Habilitar Dedup y Habilitar FRBR en la pestaña Resultados breves en la página de Configuración de vista (Menú de configuración > Descubrimiento > Configuración de despliegue > Configurar vistas). Para más información, ver Etiqueta de Resultados breves.

    Recalcular los grupos Dedup y FRBR

    Es posible que las claves FRBR y Dedup, que se construyen inicialmente al crear o migrar un registro, deban recalcularse después de modificar un registro bibliográfico. Para obtener información sobre cómo volver a calcular las claves, consulte Recalcular grupos Dedup y FRBR.

    Es posible que los grupos Dedup y FRBR no se vuelvan a calcular después de que ocurra lo siguiente:

    • Reindexación de una bibliografía mediante la tarea Recalcular tipos de recursos locales.

    • El proceso de reindexación semestral ha concluido.

    • Was this article helpful?