Enriquiment semàntic dels registres d'autoritat CÀNTIC
Un dels reptes que ha afrontat la Biblioteca de Catalunya (BC) durant l’any 2022 ha estat portar a terme una prova pilot per enriquir per mitjà de processos automàtics els registres del Catàleg d’Autoritats de Noms i Títols de Catalunya (CÀNTIC) amb dades procedents de fonts semàntiques.
La decisió es va prendre en el marc de la Comissió Assessora de Catalogació de la BC per valorar el potencial dels processos d’enriquiment amb dades externes que no són proporcionades pels catalogadors però que poden ser claus per a un futur entorn de dades enllaçades.
La prova pilot s’ha realitzat sota la coordinació i supervisió del Servei de Normalització Bibliogràfica de la BC amb els objectius següents:
- Enriquir els registres d'autoritat amb identificadors i els seus corresponents URIs per ajudar a la futura transició de les dades a un model RDF i preparar el catàleg per a les dades enllaçades.
- Obrir vies de navegació.
- Incloure més dades per a la descripció de l'autoritat.
- Millorar la consulta i fer-la més amigable per als usuaris no catalogadors.
Per realitzar la prova s’han triat cinc mil registres d’autoritat de nom personal d’àmbit català. El fet que els registres CÀNTIC estiguin integrats en el VIAF (Virtual International Authority File) ha permès obtenir identificadors d’ampli abast internacional i els seus corresponents URIs.
VIAF (Virtual International Authority File)
Els identificadors seleccionats per a aquesta prova han estat:
- ISNI (International Standard Name Identifier). És un estàndard ISO, utilitzat per nombroses biblioteques, editors, bases de dades i organitzacions de gestió de drets d'arreu del món. S'utilitza per identificar de manera única persones i organitzacions que participen en activitats creatives, així com personatges públics, com pseudònims, noms artístics, etc. Com a estàndard obert, és un component clau en les aplicacions de dades enllaçades i en la web semàntica.
- LCCN (Library of Congress Control Number). És l’identificador dels registres del catàleg d’autoritats LC/NAF, un dels catàlegs amb més prestigi internacional en l’àmbit bibliotecari. El LC Linked Data Service, servei de dades enllaçades de la Library of Congress, publica les dades d'autoritat com a dades enllaçades mitjançant l'assignació d'URIs.
- Wikidata. És una base de coneixement lliure i oberta que pot ser llegida i editada tant per humans com per màquines. Wikidata fa ús d'identificadors tant per a l'organització interna de la base de coneixement com per a la seva connexió amb altres bases de dades. Hi ha hagut un interès creixent per part de les biblioteques i d’altres organitzacions del patrimoni cultural perquè ha esdevingut una eina clau per als identificadors institucionals.
Existeix un ampli ventall de projectes relacionats sota el paraigua de Wikimedia que formen una poderosa xarxa d'informació.
Font: PiRSquared17 Creative Commons 3.0
En aquesta prova, i a partir de l’identificador de Wikidata, s’ha intentat obtenir per a moltes de les autoritats seleccionades una breu biografia en català i una imatge representativa de l’autoritat a través de dos projectes concrets de Wikimedia:
- Viquipèdia. És la versió catalana de la Wikipedia, l’enciclopèdia lliure amb més de 48 milions d'articles (dels quals 716.816 en català), un dels recursos més consultats del món.
- Wikimedia Commons. És un dipòsit de fitxers multimèdia amb llicència oberta d’imatges, vídeos i àudios. Els arxius es poden fer servir arreu, sempre que es compleixin les llicències corresponents.
El procés pròpiament d’obtenció de la informació mitjançant processos automàtics ha estat realitzat per l’empresa NUBILUM. A partir dels registres d'autoritat seleccionats en format MARC21 i el fitxer disponible a la pàgina de descàrregues de VIAF amb les correspondències entre els diferents identificadors, l’empresa ha programat un script per consultar VIAF via API i obtenir els identificadors i URIs de moltes de les autoritats. Un segon script ha estat necessari per a la consulta de Wikimedia per obtenir la informació biogràfica i la imatge representativa de l’autoritat.
El personal tècnic del CSUC s’ha encarregat de fer efectiva la càrrega de les dades obtingudes als registres d’autoritat en camps MARC21 concrets:
Camp 024
- Indicadors: 7#
- Subcamp $a [número normalitzat]
- Subcamp $2 [font]
- Subcamp $0 [URI del número de control d’un registre d'autoritat]
- Subcamp $1[URI]
Camp 678
- Indicadors: ##
- $a [breu biografia]
- $u [adreça de la Viquipèdia]
Camp 856
- Indicadors: 4#
- $u [adreça de la imatge]
- $y Imatge Wikimedia Commons
L’Àrea de Tecnologia de la BC ha adequat la interfície web del CÀNTIC per tal de mostrar correctament la nova informació, assegurant la navegació de cada identificador, la perfecta visualització de la imatge i acomplir alhora els termes legals sobre autoria i llicència d’ús de la imatge.
El resultat final ha estat l’enriquiment d’un total de 2.095 registres d’autoritat CÀNTIC, amb totes o alguna de les dades que es pretenien obtenir, xifra que ha suposat aproximadament un 42% dels registres seleccionats inicialment.
Exemple d’un registre CÀNTIC enriquit
Per finalitzar només voldria fer palès que el procés no ha tingut incidències destacables i que les dades incorporades no han entrat en conflicte amb les proporcionades pels catalogadors ni han suposat cap destorb en el treball diari.
La prova pilot ha estat prou satisfactòria i ha demostrat el potencial extraordinari que pot tenir l’enriquiment dels registres d’autoritat a partir de fonts semàntiques.
Imma Ferran
Servei de Normalització Bibliogràfica
Comentaris
signatura autògrafa
Imma Ferran
16/01/2023 10:29
signatura autògrafa
Rosa Montalt
16/01/2023 09:30