Skip to main content
ExLibris
  • Subscribe by RSS
  • Ex Libris Knowledge Center

    Comprender los procesos de Dedup y FRBR (Primo VE)

    Volver al menú

    Este tema describe los procesos de Dedup y FRBR, que utiliza Primo VE para combinar o agrupar registros redundantes en los resultados breves.

    La página de Prueba de uso de Dedup y FRBR (Menú de Configuración > Descubrimiento > Otros > Prueba de uso de Dedup y FRBR) permite comparar y analizar registros, para ver si reúnen los criterios (descritos en las siguientes secciones) que se consideran registros duplicados. Para más información, ver Herramienta de análisis de Dedup y FRBR para Primo VE.

    Detección de duplicación (Dedup)

    La detección de duplicación o proceso de coincidencia se basa en crear un vector dedup para cada registro de Alma. El vector incluye toda la información requerida por el algoritmo de detección de duplicación para determinar si dos registros son equivalentes.  Los vectores incluyen una o más claves que identifican el registro. Las claves están basadas en los campos de metadatos del registro fuente (registro MARC).

    En los resultados de búsqueda, los registros que están marcados como duplicados se muestran como un solo registro. Los metadatos se muestran desde el primer registro en el conjunto de resultados, y la información relacionada con la entrega se crea desde todos los registros del grupo.

    FRBR

    Los registros de Primo VE se agrupan utilizando los principios de los Requerimientos funcionales para los registros bibliográficos publicados por el Grupo de estudio de la IFLA en los Requerimientos funcionales para los registros bibliográficos. El proceso de agrupamiento crea un vector para cada registro. Este vector incluye una o más claves que identifican el grupo que representa. Las claves están basadas en los campos de metadatos del registro fuente (registro MARC).

    Los registros que tienen una clave coincidente (Primo VE intenta hacer coincidir todas las claves en el registro) se añaden al grupo de FRBR, y a estos se les asigna una ID de FRBR. Como los registros pueden pertenecer a un grupo de FRBR solo, Primo VE completa el proceso de agrupamiento para un registro desde que coincide con un grupo.

    Los ID de un grupo se clasifican y se utilizan durante las búsquedas para los resultados de búsqueda de grupo por el mismo ID de grupo. Un registro que pertenece a un grupo de FRBR mostrará las Múltiples versiones existentes. Ver el enlace de todas las versiones en los resultados breves, que permiten a los usuarios ver todos los registros que se agruparon juntos. El registro que se muestra en los resultados breves se puede configurar para mostrar información para un registro preferido o información genérica que pertenezca a todos los registros del grupo. Después de realizar una búsqueda, los resultados se agrupan por ID de FRBR y después de clicar en las Múltiples versiones existentes. Ver el enlace de todas las versiones, los resultados se agrupan por ID de Dedup.

    Cómo funcionan juntos Dedup y FRBR

    Los procesos de coincidencia de Dedup y FRBR son muy similares, pero el contenido de las claves es diferente. El sistema primero busca registros duplicados y después grupos de FRBR. Como la ID de Dedup se utiliza como una clave para el proceso de FRBR, a un registro al que se le pueda hacer la acción de FRBR también se le puede hacer la acción de Dedup.

    Calcular las claves

    Las claves de Dedup y FRBR se utilizan para determinar si los registros coinciden y se generan a partir de elementos de información específica del registro bibliográfico y después combinadas en claves.  Laa secciones siguientes describen primero cómo se mapea la información clave en los campos MARC21 en la base de datos en Primo VE, y después describen cómo se combinan los elementos para crear las claves de Dedup y FRBR.

    Mapear campos de claves Dedup

    La siguienta tabla muestra cómo se mapean y almacenan los campos de cada registro fuente MARC21 en Primo VE para claves Dedup.

    Clave Contenido del campo Tipo Campo MARC 21 DC Campo Campo UNIMARC

    C1

    LCCN

     

    010 a,z

    dcterms:identifier dcterms:LCCN

     

    C2

    ISBN

    1

    020 a,e,z

    dcterms:identifier dcterms:ISSN

    010 a,z

    C2

    ISSN

    2

    022 a,e,y,z

    dcterms:identifier dcterms:ISSN
    dcterms:identifier dc:ISSN

    011 a,y,z

    C3

    Título

     

    245 a,b,n,p

    dc.title
    dcterms.title

    200 a,e,h,i

    C4

    Fecha

    1

    "LDR".MaterialType no es igual a "CR" Y MARC.control es "008"

     

    dc.date
    dcterms
    .date dcterms.created

    LDR posición 7 = m o c Y MARC.control es "100" a posición 9-12

    C4

    Lugar de publicación

    2

    MARC.control."LDR".MaterialType es igual a "CR" Y MARC es "260"["0"]."a"["0"]

    N/D

    LDR posición 7 = a (parte de componente) o i (recurso de integración) o s (serie) Y MARC es "210"."a"

    C5

    MMS ID

    1+2

    035 a,z

    ID de MMS (datos de Alma)

    No aplicable para datos externos

    035 a,z

    F1

    LCCN

    1+2

    010 a

    dcterms:identifier dcterms:LCCN

    N/D

    F2

    LCCN_invalid

    1+2

    010 z

     

    N/D

    F3

    ISBN (13 o 10 digitos)

    En aquellos casos en los que un registro tiene más de un ISBN, se generará una clave F3 para cada ISBN en vez de anexarlos todos juntos.

    1

    020 a,e

    dcterms:identifier dcterms:ISSN

    010 a

    F3

    ISSN

    2

    022 a,e

    776 x

    dcterms:identifier dcterms:ISSN
    dcterms:identifier dc:ISSN

    011 a

    F4

    ISBN_invalid

    1

    020 z

    N/D

    010 z

    F4

    ISSN_invalid

    2

    022 y

    N/D

    011 y

    F5

    Título breve

    1

    245 a,b,n,p

    dc.title
    dcterms.title

    200 a

    F5

    ISSN_cancelled

    2

    022 z

    N/D

    011 z

    F6

    Comenzar año de publicación

    1+2

    260 c
    008 (posición 7-10)

    dc.date
    dcterms
    .date dcterms.created

    210 d
    100 a (posición 9-16)

    F7

    Título completo

    1+2

    245 a,b,n,p

    dc.title
    dcterms.title

    200 a,e,d,h,i

    F8

    País de publicación

    1

    008 (posición 15-17)

    N/D

    LDR posición 7 = m o c
    Y MARC es "102"."a"

    F8

    Título breve

    2

    245 a

     

    dc.title
    dcterms.title

    LDR posición 7 = a (parte de componente) o i (recurso de integración) o s (serie)
    Y MARC es "200"."a"

    F9

    Paginación

    1

    300 a

    N/D

    LDR posición 7 = m o c
    Y MARC es "215"."a"

    F9

    País de publicación

    2

    008 (posición 15-17)

    N/D

    LDR posición 7 = a (parte de componente) o i (recurso de integración) o s (serie)
    Y MARC.control es "102" "a"

    F10

    Editor

    1

    260 b

    dcterms.publisher
    dc.publisher

    LDR posición 7 = m o c
    Y MARC es "210"."c"

    F10

    Lugar de publicación

    2

    260 a

    N/D

    LDR posición 7 = a (parte de componente) o i (recurso de integración) o s (serie)
    Y MARC es "200"."a"

    F11

    Entrada principal (autor, cuerpo corporativo, congreso)

    1

    100 a,b,c,d,q  

    111 a,c,d,e,n,q 

    dc.creator
    dcterms.creator
    dcterms.contributor
    dc.contributor

    LDR posición 7 = m o c
    Y 700 a,b,c,d,f
    710 1er ind. = 1 a-h

    F11

    Entrada principal (autor, cuerpo corporativo, congreso)

    2

    110a ,b,c,d,e,n 

    111 a,c,d,e,n,q  

    130 a,d,l,m,n,o,p,r,s,t

    dc.creator
    dcterms.creator
    dcterms.contributor
    dc.contributor

    LDR posición 7 = a (parte de componente) o i (recurso de integración) o s (serie)
    Y 710 1er ind. = 0 a,b,c,g,h 710 1er ind. = 1 a-h
    500 a,b,h,i,k,l,m

    F12

    Control n.º

     

    035 a,z

    dcterms:identifier
    dcterms:URI donde URI comienza con: http://hdl.handle.net/

    Para obtener más información sobre los números de control en DC, consulte http://www.ukoln.ac.uk/metadata/dcmi-ieee/identifiers/

    035 a,z

    F13

     

     

    MARC.control es "001"

    N/D

    MARC.control es "001"

    F14

    Otro estándar

     

    024 a

    N/D

    013 a
    015 a
    016 a
    017 a

    F15

    Otro estándar

     

    024 z

    N/D

    013 z
    015 z
    016 z
    017 z

    Mapear campos de claves FRBR

    La siguienta tabla muestra cómo se mapean y almacenan los campos de cada registro fuente MARC21 en Primo VE para claves FRBR.

    ID del campo Contenido del campo Campo MARC21 DC Campo Campo UNIMARC

    T

    Siempre 1

    t=1

    t=1

    t=1

    K1

    Autor

    100 a, b, c, q
    110 a, b, c, q
    111 a, b, c, n, q

    O (en caso de que no exista 100, 110 y 111):
    700 a, b, c, q
    710 a, b, c, q
    711 a, b, c, n, q

    dc.creator
    dcterms.creator
    dcterms.contributor
    dc.contributor

    700 a-d,f,p
    701 a-d,f,p
    710 a-h,p
    711 a-h,p
    720 a,f
    721 a,f
    702 a-d,f,g
    712 a-h,p
    722 a,f

    K2

    Título uniforme

    130 a, d, m, n, p, r

    dcterms.alternative

    500 a,h-n,q-s

    K3

    Título

    240 a, d, m, n, p, r
    245 a, b, e, f, g, n, p
    242 a, b, f, g, n, p
    246 a, b, f, g, n, p
    247 a, b, f, g, n, p
    740 a, b, f, g, n, p

    dc.title
    dcterms.title

    200 a,c,e,h,i
    510 a,e
    512 a,e
    513 a,e,h,i
    514 a,e,
    515 a,e
    516 a,e
    517 a,e
    520 a,e,h,i
    541 a,e,h,i

    Información general de creación de claves

    Esta sección describe cómo se normalizan y combinan los campos de bases de datos para crear las claves de Dedup y FRBR.

    La ruta para cada campo de Dedup y FRBR en Primo VE utiliza el siguiente formato:

    <Sección de Primo VE >/<Nombre del campo de Primo VE>

    Por ejemplo: match/f1

    Concatenar campos

    Se puede crear una clave concatenando varios campos, que se indica mediante la colocación de un signo más (+) entre los campos. Por ejemplo: match/f1 + match/f7

    En caso de que hayan múltiples entradas para el mismo campo, el sistema creará múltiples claves. Si la clave se genera a partir de más de un campo, el sistema creará todas las combinaciones posibles de las entradas del campo. Por ejemplo:

    • k1: Incluye las entradas siguientes: a, b

    • k2: Incluye las entradas siguientes: c, d

    • Definición de clave: match/k1 + match/k2

    • Claves creadas: ac, ad, bc, y bd

    Métodos de normalización

    A medida que se calculan las claves, cualquiera de los siguientes métodos de normalización se puede aplicar a los valores del campo utilizando el formato <método>(<nombre del campo>):

    Método de normalización Descripción

    FUZZY_STRING

    Utiliza las primeras cinco palabras del valor del campo.

    ROUND_NUMBER

    Redondea el último dígito del valor del campo hasta 0.

    Ejemplos:

    • 11 se redondea a 10
    • 199 se redondea a 190

    REMOVE_COMMON_WORDS

    Elimina las siguientes palabras comunes del valor del campo:

    anunciante, anuales, presupuesto anual, informe financiero anual, informe anual, informes anuales, informe anual para, informe anual para el año fiscal finalizado, informe bienal, boletín, presupuesto, boletín, calendario, catálogo, circular, informe financiero anual completo, !compilación de actos seleccionados, compilación de actos seleccionados dentro de la jurisdicción del comité en comercio, actos de congreso, registro de congreso, directorio, hoja de hechos, presupuesto final, informe financiero, catálogo general, jahresbericht, diario, ciencias del lenguaje, leyes etc, calendario legislativo, resumen legislativo, directorio de membresías, memorias, memoria, minutos,            mitteilungen, monografía, boletín mensual, publicación de noticias, boletín informativo, periódico ocasional, periódicos ocasionales, actos, actos de la convención anual, informe de progreso, presupuesto propuesto, publicaciones, publicación, publicaciones, rapport, rapport annuel, informe, informe y cuentas, informe de investigación, revista, informe semi anual para el congreso, informe semianual para el congreso, leyes de sesión, informe de estadísticas, boletín técnico, informe técnico, transacciones, travaux, trudy, actualización, veroeffentlichungen, veroffentlichungen, trabajos, anuario, anuario, agenda telefónica

    Campos opcionales

    Cuando se cree una clave desde varios campos, algunos campos no tienen que existir para crear la clave y se consideran opcionales. Los campos opcionales están encerrados entre corchetes ([]). Por ejemplo: match/f1 + [match/f7]

    Prioridad de clave

    Cada clave tiene una prioridad, que puede ser una de las siguientes: alta, media o baja. Consultar las definiciones de las claves más adelante para ver cómo afectan al algoritmo de coincidencia.

    Tipo de clave

    Cada clave tiene un tipo que indica al sistema qué definiciones de claves se utilizan para el registro.
     
    Para Dedup, el tipo está definido en el campo de match/t, que puede contener uno de los siguientes valores:

    • 1 – Indica que el registro no es un registro en serie.

    • 2 – Indica que el registro es un registro en serie.

    Para FRBR, el tipo está definido en el campo de frbr/t, que puede contener uno de los siguientes valores:

    • 99 – Indica que el registro se ha suprimido utilizando la tarea de Impedir FRBR y/o Dedup en descubrimiento en la página de Ejecutar una tarea (Admin > Gestionar tareas y conjuntos > Ejecutar una tarea).

    • 1 – Indica que el registro no se ha suprimido y se le debería realizar la acción de FRBR.

    Definiciones de claves de Dedup

    La tabla siguiente muestra cómo cada campo en Primo VE se normaliza y concatena para formar cada clave de Dedup en base al tipo de registro.

    Clave completa Tipo Descripción

    match/c5

    1

    Número de sistema externo

    match/f1 + match/f5 + match/f6

    1

    LCCN + título  breve + año

    match/f1 + FUZZY_STRING(match/f7) +  match/f6

    1

    LCCN + título aproximado + año

    match/f1 + match/f7 + match/f6

    1

    LCCN + título completo  + año

    search/ocolc_unique_normalize_number + match/f5 + match/f6

    1

    OCLC + título breve + año

    search/ocolc_unique_normalize_number + FUZZY_STRING(match/f7) + match/f6

    1

    OCLC + título aproximado + año

    search/ocolc_unique_normalize_number + match/f7 + match/f9

    1

    OCLC + título completo + paginación

    match/f3 + match/f5 + match/f6

    1

    ISBN + título breve + fecha

    match/f3 + FUZZY_STRING(match/f7) + match/f6

    1

    ISBN + título aproximado  + fecha

    match/f3 + match/f7 + match/f9

    1

    ISBN + título completo + paginación

    match/f4 + match/f7 + match/f6

    1

    ISBN incorrecto + título completo + fecha

    match/f4 + match/f7 + match/f9

    1

    ISBN incorrecto + título completo + paginación

    match/f7 + match/f11 + match/f6 + match/f9

    1

    título completo + entrada principal + fecha + paginación

    match/f7 + match/f11 + match/f6 + ROUND_NUMBER(match/f9)

    1

    título completo + entrada principal + fecha + paginación aproximada

    match/f7 + match/f6 + match/f10 + match/f9 + [match/f11]

    1

    título completo + fecha + editor + paginación +  [entrada principal]

    match/f7 + match/f6 + match/f10 + ROUND_NUMBER(match/f9) + [match/f11]

    1

    título completo + fecha + editor + paginación aproximada +  [entrada principal]

    match/f7 + match/f6 + match/f9 + [match/f11]

    1

    título completo + fecha + paginación + [entrada principal]

    match/f7 + match/f6 + ROUND_NUMBER(match/f9) + [match/f11]

    1

    título completo + fecha + paginación aproximada +[entrada principal]

    match/f7 + match/f6 + match/f10 + [match/f11]

    1

    título completo + fecha + editor + [entrada principal]

    match/c5

    2

    MMS ID

    match/f1 + match/f8

    2

    LCCN + título breve

    search/ocolc_unique_normalize_number + match/f8

    2

    OCLC + título breve

    match/f3 + match/f8

    2

    ISSN + título breve

    REMOVE_COMMON_WORDS(match/f7) + match/f10 + match/f9 + [match/f3]

    2

    Título completo (no en listas de publicaciones seriadas comunes) +  lugar de publicación + país de publicación + ISSN condicional

    REMOVE_COMMON_WORDS(match/f7) + match/f10 + match/f9 + [match/f11]

    2

    Título completo (no en listas de publicaciones seriadas comunes) +  lugar de publicación + país de publicación + Entrada principal condicional

    REMOVE_COMMON_WORDS(match/f7) + match/f10 + match/f9 + [match/f11] + [match/f3]

    2

    Título completo (no en listas de publicaciones seriadas comunes) + fecha + lugar de publicación + encabezado principal (condicional) + ISSN condicional

    REMOVE_COMMON_WORDS(match/f7) + match/f6 + match/f11

    2

    Título completo (no en listas de publicaciones seriadas comunes)+ fecha + entrada principal

    match/f7 + match/f6 + match/f11 + match/f10

    2

    Título completo (puede estar en una lista de títulos comunes) + fecha + entrada principal + lugar de publicación

    REMOVE_COMMON_WORDS(match/f7) + match/f6 + match/f11 + match/f10

    2

    Título aproximado (no en la lista de títulos comunes) + fecha + entrada principal + lugar de publicación

    Definiciones de claves de FRBR

    La tabla siguiente muestra cómo cada campo en Primo VE se normaliza y concatena para formar cada clave de FRBR. La clave de coincidencia/grupo no se genera desde ningún campo MARC21. En lugar de eso, se construye dinámicamente desde el resultado del cálculo de Dedup, que asegura que cada registro al que se le hace la acción de Dedup también se le haga la acción de FRBR (en particular, cualquier grupo de Dedup se concatena por completo dentro del grupo de FRBR).

    Clave completa Tipo Descripción Prioridad

    coincidencia/grupo

    1

    Clave de Dedup

    ALTO

    frbr/k2

    1

    Solo título uniforme

    MEDIO

    frbr/k1 + frbr/k3

    1

    Autor + título

    NINGUNO

    coincidencia/grupo

    99

    Clave de Dedup

    ALTO

    Calcular el ID de grupo

    El sistema convierte las claves en un número y después añade un coeficiente, que se basa en la prioridad de la clave, para garantizar que las claves con prioridades más altas tengan números más largos. Después de elegir la ID de grupo para un registro específico, todas las claves que se calcularon desde ese registro se guardan con la ID de grupo para garantizar que todas las claves apunten a él. Esto permite dar a los registros que tienen claves idénticas la misma ID de grupo.

    Flujo de proceso de Dedup/FRBR

    El sistema lleva a cabo los pasos siguientes tanto para los procesos de Dedup como para los de FRBR, comenzando con el proceso de Dedup:

    1. Calcular todas las claves desde el registro fuente.

    2. Buscar todas las claves que se calcularon en el paso 1 que ya existen en la base de datos (de cálculos previos). Si existen claves, el sistema selecciona el ID de grupo que se asocia con la clave que tiene el valor más alto (esto da prioridad a las claves con prioridad más alta). Si el registro coincide con más de un grupo y las claves tienen la misma prioridad, el sistema seleccionará el ID de grupo de manera aleatoria. Si no existe una clave en la base de datos, el sistema selecciona la clave con el valor más alto y la utiliza como ID de grupo.

    3. Para todas las claves calculadas en el paso 1, el sistema almacenará el ID de grupo seleccionado. Esto permite que otros registros se conecten con registros procesados recientemente.

    El algoritmo no es totalmente transitivo, lo que significa que dos registros pueden tener un registro común coincidente, pero no se consideran coincidentes entre ellos. Por esto, el orden en el que los registros se procesan puede afectar a los agrupamientos. Para más información, ver Dedup y transitividad.

    Dedup y transitividad

    Como el algoritmo de Dedup tiene en cuenta muchos elementos de información en la coincidencia de registros, no es totalmente transitivo (si A es igual a B y B es igual a C, entonces A debe ser igual a C), y puede que no cree un grupo para los registros A, B, y C incluso si la regla transitiva de igualdad se aplica a los registros. Por ejemplo, no se permite la transitividad en la siguiente situación:
    1. El registro B se añade a la base de datos y no se encuentra ninguna coincidencia.
    2. El registro C se añade a la base de datos y ninguna de sus claves coincide con el registro B.
    3. El registro A se añade a la base de datos y una de sus claves coincide con una clave en el registro B primero. Como se encontró una coincidencia, el sistema para de procesar el registro y regresa los siguientes grupos incluso si el registro A también coincide con el registro C: AB y C.
    La herramienta de análisis de Dedup verifica si dos registros coinciden en base al registro, no lo que ha coincidido en realidad ni a lo que se le ha realizado la acción de Dedup en la base de datos. En la situación anterior, se mostrará que el registro A es igual al registro B, que el registro A es igual al registro C, y que el registro B no es igual al registro C.

    Suprimir grupos de FRBR/Dedup

    Se pueden utilizar los siguientes métodos para impedir que a los registros se les realice la acción de Dedup o de FRBR:

    • Definir reglas de supresión que están basadas en tipos de registros (como imágenes) que se aplican durante la reclasificación, cuando se cargan nuevos registros o cuando los metadatos de un registro existente se modifican. Para más detallegs, ver Suprimir Grupos de registros desde Dedup y FRBR. Si se desea suprimir registros existentes, ver la opción siguiente.

    • Ejecutar la tarea de Impedir FRBR y/o Dedup en descubrimiento en un conjunto de registros bibliográficos (Admin > Gestionar tareas y conjuntos > Ejecutar una tarea). Para más información, ver Ejecutar tareas manuales en conjuntos definidos.

    Si se quiere impedir que se visualicen los grupos de FRBR y Dedup de todos los registros sin cambiar ninguna regla o ejecutar ninguna tarea, se puede deshabilitar FRBR/Dedup configurando los campos de Habilitar Dedup y Habilitar FRBR en la etiqueta de Resultados breves en la página de Configuración de vista (Menú de Configuración > Descubrimiento > Mostrar configuración > Configurar vistas). Para más información, ver Etiqueta de Resultados breves.

    • Was this article helpful?
    //Feedback