Il progetto Archivio Storico della Gazzetta di Parma
Il progetto.
Un Portale IIIF con ricerca a testo pieno
Il progetto “Archivio Storico della Gazzetta di Parma” è stato realizzato dal Comune di Parma anche grazie al contributo della Regione Emilia-Romagna nell'ambito del piano bibliotecario 2020 (L.R. 18/2000) e alla collaborazione di Gazzetta di Parma srl, Università degli Studi di Parma, Complesso Monumentale della Pilotta.
Il progetto di digitalizzazione, produzione della versione OCR, metadatazione, progettazione e messa in produzione di un Portale idoneo per la particolare tipologia dei documenti ha comportato varie fasi
La fase di ripresa e metadazione
Gli originali per le riprese sono i volumi delle due collezioni di proprietà della Biblioteca Civica del Comune di Parma e della Gazzetta d Parma Editrice s.r.l. È stato necessario, in corso d’opera, e durante tutto l’arco della produzione eseguire un continuo lavoro di collazione fra le due collezioni per selezionare gli esemplari migliori da avviare alla digitalizzazione
Le riprese sono state eseguite dalla ditta Made Word snc di Firenze, con scanner a planetario formato massimo A1+, illuminazione a LED, bookcradle motorizzato con pressione controllata elettronicamente e vetro mobile motorizzato, capace di una risoluzione fino a 600 ppi (non interpolati)
Le immagini sono state prodotte in 5 formati: jpeg a 150 DPI, jpeg 300, PDF, PDF master e TIFF. Quest’ultimo formato è ad altissima risoluzione
Successivamente si è concordato con ICCU lo schema di metadatazione e sono stati generati i file XML contenenti i metadati che rispettano lo standard MAG Schema 2.0.1 e successivo
Sono state prodotte 43.855 immagini corrispondenti alle singole pagine dei fascicoli delle annate dal 1920 al 1945. I fascicoli realtivi a questo periodo sono complessivamente 9.833, riferibili alle varie testate. Successivamente sono stati digitalizzati e caricati sul Portale altri 6457 fascicoli realtivi al paeriodo 1902-1919. Così, ad oggi, l'Archivio digitale della Gazzetta copre il periodo 1902-1947 ed è composto da 16.290 fascicoli digitali. Questo ingente numero di immagini rappresenta un periodo storico importante per la Gazzetta (che cambia nome due volte in questo periodo) e del Corriere emiliano, che ha una sua vita autonoma, prima di assorbire la Gazzetta, dal 10 gennaio 1925 al 30 giugno 1928.
La realizzazione del Portale
Successivamente è stato allestita l’infrastruttura del Portale che è basata su un server di back-end che funge da piattaforma di gestione dei metadati (Arianna4Work di Hyperborea s.r.l.) e che interfaccia la piattaforma di front-end MLOL (di Horizons SPA).
Le immagini sono poi immagazzinate e pubblicate su un server IIIF e dunque ciò che maggiormente possiamo apprezzare nella consultazione delle immagini sul portale MLOL è la restituzione all’interno del framework IIIF.
Lo standard IIIF è in rapidissima espansione, come strumento di pubblicazione e fruizione di oggetti digitali di beni culturali, ma in questo caso si tratta dell’unica realizzazione italiana di una piattaforma IIIF con ricerca sul testo ricavata tramite OCR e una delle pochissime al mondo.
Questa caratteristica lo rende un prototipo unico e interessantissimo nella sua applicazione a questa particolare categoria di oggetti: i fascicoli di periodici.
Di seguito daremo qualche informazione più dettagliata su cosa sia il framework IIIF, ma già dopo i primi test possiamo dire che anche l’attività di consultazione dei giornali storici acquista la caratteristica di una esperienza immersiva: è questa la forza dello standard: la consultazione e la manipolazione di un oggetto digitale che diventa nelle nostre mani particolarmente accattivante e denso di possibilità: l’amichevolezza estrema del viewer che dischiude sotto i nostri occhi ogni dettaglio del documento, la possibilità di manipolare le immagini ad esempio annotandole (funzionalità questa che aspettiamo a breve); la possibilità di costruire videate in cui i documenti vengono affiancati per favorirne il confronto. E ancora: la possibilità di inquadrare i singoli articoli e salvarli in uno slideshow corredando ciascuna immagine di una apparato testuale. Infine l’interoperabilità: immaginiamo altri server IIIF, ovunque siano nel mondo, che propongano immagini della città, mappe, manoscritti, ecc. di questo stesso periodo. Saremo in grado allora facilmente di agganciare questi documenti (manifest nella terminologia di IIIF) per portarli dentro il nostro portale a completamento della documentazione di Gazzetta. Oppure immaginiamo un Server IIIF con i disegni di Giovannino Guareschi. Questo server sarà in grado di dialogare con il Portale della Gazzetta, a completamento dell’ingente numero di schizzi e vignette già presenti, come in un unico ambiente di lavoro.
Si aprono scenari meravigliosi e proficui. E lo standard è in continua evoluzione.
Interfaccia di ricerca
E' stata infine studiata, testata, perfezionata e implementata una interfaccia di ricerca che coniuga al massimo grado semplicità di presentazione, funzionalità auto-esplicative, intuitività ed elevatissima efficacia nella composizione delle stringhe di ricerca. La ricerca avanzata compone la stringa associando la ricerca sui termini (che sottendono un operatore AND basato sulla prossimità) al filtro temporale e a quello per titolazione. Alla massima semplicità nell'impostazione della ricerca corrisponde poi una velocità di esecuzione della ricerca e di prospettazione dell'output con tempi generalmente inferiori a 1 ms. Il livello di riconoscimento deli termini tramite OCR è molto elevato. L'indicazione sulla pagina dell'occorenza è preciso e ben evidente. Non è richiesto altro.
Cenni su IIIF
IIIF è un protocollo interoperabile per la condivisione delle immagini. È open source e possiede diversi livelli di API (authentication, annotation, search, presentation) per poter costruire e implementare diversi servizi. Viene utilizzato da biblioteche quali la Biblioteca Apostolica Vaticana, la Bodleian Library di Oxford, e sta per essere implementato anche sul portale Europeana.
Le caratteristiche di IIIF lo rendono perfetto per la pubblicazione di immagini in alta qualità sul web. Di fatto, con IIIF un’immagine diventa un oggetto digitale portabile. Questo significa:
- possibilità di vedere immagini presenti in altre biblioteche digitali
- altissima definizione, con possibilità di zoom
- comparazione di immagini
- annotazioni
- strumenti di photoediting (colori, contrasto, ecc.)
Una delle funzionalità più utilizzate di IIIF è la possibilità di visualizzare, in uno stesso viewer, immagini diverse, anche provenienti da diversi istituzioni.
Vi rimandiamo, per approfondire, al video di Andrea Zanni di MLOL