Transkribus - riconoscimento dei manoscritti

Transkribus per trascrivere e condividere manoscritti di ogni epoca

A volte il mio lavoro di consulente informatico mi porta a contatto con realtà meravigliose, anche in ambito accademico.
Per chi non lo sapesse, mi occupo di digitalizzazione di processi di business in aziende di medio-grandi dimensioni, sviluppando sia soluzioni di workflow per le diverse aree sia applicazioni per acquisire, conservare e distribuire varie tipologie di documenti.
Insomma, ironia della sorte per me che adoro “il profumo della carta”, il mio compito è salvare la carta all’interno del mondo elettronico e aiutare le aziende ad usarne sempre meno. Così ce ne sarà di più per i libri, no? 😉

Quando iniziai a lavorare nell’archiviazione documentale, più di quindici anni fa, uno scanner documentale professionale rotativo costava come la Fiat Seicento che guidavo all’epoca. Lo guardavo con assoluta deferenza, non solo per il costo, quanto perché era straordinario vederlo “mangiare” plichi e plichi di fogli in pochi minuti, riconoscendo barcode e testi con un lievissimo margine d’errore.

La tecnologia che sta dietro a questa sua funzione è l’OCR, Optical Character Recognition, il riconoscimento ottico dei caratteri.
Che è esattamente quello che fa l’essere umano, quando impara a leggere e scrivere: osserviamo la maestra mostrarci le grandi lettere colorate sui fogli appesi in aula, associate ad un animale o un oggetto il cui nome inizia con quel carattere, poi via via impariamo ad associare le lettere, costruire le parole e alla fine quando leggiamo stiamo semplicemente “riconoscendo” quel carattere e quella parola.
Allo stesso modo, l’OCR è istruito per convertire l’immagine nel carattere che più gli assomiglia e ovviamente più l’immagine è nitida, migliore sarà il risultato.
La differenza è che l’OCR non sa “leggere” un testo, non riesce a dargli un senso compiuto, capirne l’argomento e completare quindi da solo un eventuale carattere mancante o sfocato. Di quello se ne occuperà in futuro l’Intelligenza Artificiale.

Questo sistema funziona però con i testi stampati o battuti ad una vecchia macchina da scrivere, quindi da Johannes Gutenberg in poi. Tutti i manoscritti di epoca precedente devono essere letti e trascritti manualmente.
Fino ad ora.

Proprio per preservare l’immenso patrimonio culturale e digitalizzare i manoscritti di ogni epoca, rendendoli accessibili al pubblico, è nato nel gennaio 2016 il progetto europeo READ (Recognition and Enrichment of Archival Documents) e lo sviluppo della piattaforma Transkribus. Austria, Svizzera, Germania, Grecia, Spagna, Finlandia, Francia e Regno Unito collaborano unite alla realizzazione di un software che, opportunamente istruito, può riconoscere la grafia di un manoscritto e proseguire automaticamente al riconoscimento dei caratteri. Ad oggi con un margine d’errore fino al 3,5% circa.

Non solo. Siamo tutti chiamati a dare un contributo, partecipando attivamente alle trascrizioni.
Il motore che sta dietro a questa tecnologia viene continuamente affinato, imparando anche dai propri errori. Quindi, più manoscritti vengono inseriti ed elaborati nel sistema, maggiore sarà la capacità di elaborazione e la percentuale di riconoscimento corretto.
Potreste voler salvare dal tempo delle antiche lettere dei vostri avi, anche le vecchie cartoline del bisnonno!
E chissà non riconosca anche l’incomprensibile prescrizione del medico…

Soprattutto, se scrivete romanzi storici, l’accesso a Transkribus e alle sue collezioni è una preziosa fonte di informazioni e di storie d’altri tempi. L’Europa è ricchissima di testi antichi, ma per garantire la loro conservazione, non è semplice accedervi e consultarli. In futuro basterà solo un click, ma potete iniziare già oggi.

 

READ e Transkribus, un progetto europeo

Il progetto READ, Recognition and Enrichment of Archival Documents (ma adoro che l’acronimo sia “read”, il verbo inglese leggere), è una collaborazione internazionale tra 14 partner provenienti dai settori dell’informatica, degli archivi e della ricerca umanistica:

  • University of Innsbruck (co-ordinator / Austria)
  • Universitat Politecnica de Valencia (Spain)
  • University College London (United Kingdom)
  • National Center for Scientific Research “Demokritos” (Greece)
  • Democritus University of Thrace (Greece)
  • University of London Computer Centre (United Kingdom)
  • Technical University Vienna (Austria)
  • University of Rostock (Germany)
  • Leipzig University (Germany)
  • NAVER LABS Europe (France)
  • Ecole Polytechnique Federale de Lausanne (Switzerland)
  • National Archives Finland (Finland)
  • Zurich State Archives (Switzerland)
  • Passau Diocesan Archives (Germany)

Partecipano poi altre istituzioni e laboratori di Australia, Canada, Israele, Sud Africa, Svizzera e Stati Uniti.
Questo consorzio è stato finanziato dal programma di ricerca e innovazione Horizon 2020 dell’Unione Europea con un investimento iniziale di circa 8 milioni di euro.

L’attività del READ si concentra sul rendere il materiale archivistico più accessibile, attraverso lo sviluppo di tecnologie all’avanguardia, compreso l’HTR, Handwritten Text Recognition, il riconoscimento del testo scritto a mano, l’individuazione di parole chiave, l’analisi del layout, l’identificazione automatica dell’autore e dei campi correlati.
I servizi del READ e del software Transkribus sono forniti gratuitamente a diversi gruppi:

  • archivi, biblioteche e proprietari di contenuti
  • studiosi di scienze umane
  • utenti pubblici e volontari
  • scienziati informatici

Le pubblicazioni del READ sono accessibili a tutti gli utenti: READ Publications
I dati di ricerca che costituiscono la base per le pubblicazioni scientifiche sono resi disponibili tramite il repository di ricerca di Zenodo: ScriptNet – READ
Lo stesso software Transkribus è disponibile con licenza Open Source tramite GitHub.

Dal 1 luglio 2019 il READ si trasformerà in READ-COOP, una società cooperativa europea di base all’Università di Innsbruck, per sostenere e sviluppare ulteriormente la piattaforma Transkribus e i relativi servizi anche tramite finanziamento privato.
Gli utenti potranno continuare ad utilizzare Transkribus e fornire il loro prezioso aiuto al miglioramento del sistema.

 

Come funziona Transkribus
in poche mosse

Potete utilizzare la piattaforma di Transkribus in due modalità:

  • software da installare sul vostro computer, disponibile per Windows e Mac
  • interfaccia web, in versione beta:  http://transkribus.eu

Entrambe depositano i documenti caricati dagli utenti nell’archivio cloud del sistema per l’elaborazione dei testi. E qui è importante specificare subito che i vostri documenti sono e restano privati, come è specificato nella licenza d’uso: Terms of Use TRANSKRIBUS  Solo i dati delle lavorazioni dell’HTR vengono trattati dai ricercatori del progetto in forma anonima, per migliorarne appunto le prestazioni.
La condivisione dei documenti è possibile a scelta dell’utente dal proprio account Transkribus.

Qui vedremo brevemente come installare e usare il software client sul proprio computer. Già dal video sopra potete vedere che è piuttosto semplice, richiede solo un po’ di tempo e pazienza per le prime trascrizioni manuali.
Per qualsiasi dubbio, si può fare riferimento alla ricca guida online, in inglese: Transkribus Wiki
In italiano trovate un piccolo manuale di istruzioni, corredato di immagini che vi seguono passo passo, in formato pdf: Come usare Transkribus – in 10 passi (o anche meno) 
Ci sono anche altri video che vi illustrano le specifiche funzioni di Transkribus, dalla segmentazione, al training del modello HTR, all’individuazione delle parole chiave: Transkribus video tutorials

Prima mossa: registrarsi sul sito di Transkribus e scaricare il pacchetto del software (121 Mb la versione 1.7 per Windows).
Dovete avete installato il componente Java 8 sul vostro computer, ed è così per la maggioranza dei sistemi operativi.
Se non c’è, l’installazione ve lo notifica e vi porta automaticamente al sito Oracle da dove scaricare e installare anche la Java Virtual Machine corretta.

L’installazione di Transkribus registra alcuni componenti. Per avviare in seguito il programma, basta cliccare sempre sullo stesso eseguibile presente nella cartella dell’installazione. Potete anche inserire la spunta perché effettui il login in automatico la volta successiva.

Transkribus - login

Nel vostro nuovo account, vengono caricati alcuni documenti di test già elaborati nella vostra “collection” di default. Premendo il bottone sotto Collections, potete definire delle altre cartelle dove caricare e salvare i vostri documenti personali, così da poterli organizzare per argomento.
La piattaforma può processare file in formato PDF, JPEG (non però il formato JPEG 2000), PNG e file TIFF. Se caricate un file PDF, si arrangia Transkribus ad estrarne le pagine come singole immagini.

Apriamo il documento d’esempio in inglese, English Handwriting 0.1, una lettera scritta a mano datata “Edinburg, 25th Nov. 1807” (immaginatevi la mia faccia, quando mi ritrovo proprio la mia amata Edimburgo sotto il naso… un caso eh!)

Transkribus - documento in inglese d'esempio

Questo è il risultato di una lavorazione di Transkribus: sono state separate le righe del manoscritto (i rettangoli blu che vedete nell’editor) e la grafia riconosciuta dal motore HTR, che ha trascritto sotto le parole. Ovviamente il modello scelto è stato dapprima istruito per riconoscere un certo stile di scrittura, inserendo un certo numero di immagini e la loro trascrizione accurata. In genere sono richieste tra le 5.000 e le 15.000 parole inserite dall’essere umano (circa 25-75 pagine) prima che il modello HTR possa proseguire da solo la lavorazione. Se si lavora con testo stampato antico anziché un manoscritto, è richiesta una quantità minore di dati per il training del modello.

Per quanto riguarda la lingua italiana, un buon modello di riconoscimento è stato creato partendo dall’Archivio Storico Ricordi, una delle collezioni musicali private più grandi al mondo, comprese le lettere scritte a mano da Giulio Ricordi nel 1889: Handwritten Text Recognition – Example from Archivio Ricordi Storico 
Ho utilizzato proprio questo modello per riconoscere il testo dei volantini lasciati nel mare di Buccari da Gabriele D’Annunzio durante la missione del 10-11 febbraio 1918 (l’immagine del manoscritto è di pubblico dominio e potete scaricarla da Wikipedia: VolantinoD’AnnunzioBeffaBuccari.jpg)

Transkribus - caricamento di un documento

Transkribus - caricamento di un documento terminato

Ho scelto di caricare il file del manoscritto nella stessa collection di default, ma potevo anche crearne una nuova per l’occasione.
Al termine del caricamento, premete nuovamente sul bottone Collections per aggiornare il suo contenuto: vedrete comparire nell’elenco il documento appena inserito. Cliccate due volte per visualizzarlo nell’editor a fianco.

Transkribus - manoscritto di D'Annunzio

Procediamo ora al riconoscimento: prima di tutto occorre segmentare l’immagine e dividere le righe del testo scritto a mano. Ci si sposta nella scheda Tools in alto a sinistra, e si procede alla Layout Analysis, tramite il suo tasto Run. Transkribus vi chiederà conferma dell’attività e poi vi dirà che è iniziato il job di lavorazione. Alla fine vi chiederà di ricaricare il documento: compariranno gli stessi rettangoli blu attorno ad ogni riga, come abbiamo visto per la lettera in inglese.

Transkribus - manoscritto di D'Annunzio con righe riconosciute

Nella stessa scheda Tools, configuriamo il modello HTR per il riconoscimento del testo: sotto Text Recognition premete il bottone Models e scegliete il modello Comb_Gothic_Script in caratteri latini.

Dopo aver confermato, tornate alla scheda Tools e premete il bottone Run del Text Recognition: nella finestra che si apre, premete sul bottone Configure…
Qui selezionate nuovamente il modello Comb_Gothic_Script e associategli a destra il Dictionary Archivio_Ricordi_M1.dict.

E ora avviamo il riconoscimento con OK: verrà richiesta conferma e notificato il nuovo job in corso. Al termine dell’elaborazione, viene chiesto di ricaricare il documento aggiornato, insieme al testo che l’HTR ha trascritto per noi.
In questo caso il risultato non è apprezzabile come singole parole, e questo è normale dato che abbiamo una porzione di testo limitata e stiamo utilizzando il modello di un’altra grafia. Ma se considerate i caratteri, alcuni sono stati riconosciuti correttamente ed altri scambiati con lettere che, al di là del senso logico della frase, erano plausibili graficamente. Nessun normale OCR sarebbe riuscito in questo!

 

Transkribus, una comunità attiva

Da marzo 2019 ci sono oltre 20.000 utenti registrati nella piattaforma Transkribus per il riconoscimento del testo scritto a mano. Le persone lavorano con Transkribus in tutto il mondo, utilizzandolo per addestrare centinaia di modelli per riconoscere testi di date, lingue e stili diversi.
Per capire davvero la portata della rivoluzione di questo strumento basta guardare l’elenco delle trascrizioni eseguite su archivi storici di rilievo, i cosiddetti casi di successo: Transkribus Success stories

Ad esempio la ricerca di oltre 100 anni di storia dell’alpinismo, realizzato dal New Zealand Alpine Club e dall’Università di Innsbruck. Il flusso di lavoro completo è stato effettuato all’interno di Transkribus: oltre al caricamento di file e all’esecuzione del riconoscimento del testo, i volontari hanno utilizzato l’interfaccia web di Transkribus per correggere accuratamente tutte le 17.500 pagine del New Zealand Alpine Journal. Potete ammirarne il risultato qui: New Zealand Alpine Journal Archive

Oppure il sopraccitato Archivio Storico Ricordi, una delle collezioni musicali private più importanti al mondo che ha iniziato a lavorare con l’HTR per elaborare alcuni dei suoi tesori. Fondata a Milano nel 1808, la casa editrice Casa Ricordi contiene numerose lettere e spartiti di noti compositori come Verdi e Puccini.
Potete visualizzare le immagini in alta definizione dei manoscritti e leggere le trascrizioni direttamente online: Le Collezioni di Casa Ricordi 

Transkribus - Archivio Storico Ricordi

Interessante per gli appassionati di storia, e per gli scrittori di romanzi storici alla ricerca di materiale, anche questi ulteriori archivi resi disponibili dallo stesso Transkribus:

  • Transkribus e-Learning Client, fornisce centinaia di esercizi tratti dai manoscritti originali per imparare a leggere la scrittura storica: Transkribus LEARN
  • Famous Hands, per leggere ed esplorare i manoscritti trascritti di personaggi famosi di tutti i tempi e paesi, cercandoli anche geograficamente o cronologicamente: Famous Hands 

Del resto il progetto Transkribus è in continua evoluzione e sono in sviluppo altre piattaforme di consultazione degli archivi digitali che man mano si stanno acquisendo dai manoscritti di tutto il mondo. Come potete vedere dalla road map siamo solo all’inizio.

Transkribus - mappa delle interfacce

 

E per il futuro?

C’è vero progresso solo quando i vantaggi di una nuova tecnologia diventano per tutti.
Henry Ford

Per questo spero che Transkribus possa rimanere aperto anche al contributo dei privati cittadini. Dobbiamo salvare il passato per migliorare il nostro futuro, anche quei documenti che non sono così famosi da essere depositati in un archivio museale.
Voi lettori cosa ne pensate?

Comments (18)

Nadia

Giu 23, 2019 at 7:43 AM

Se ne impara sempre una qui da te, ora ho capito finalmente che lavoro fai. Interessante direi e anche inesauribile, vista la mole di documenti cartacei da digitalizzare, e altrettanto importante. Una sorta di biblioteca digitale, che un domani i nostri pronipoti sfoglieranno in un click e a cui non sapranno a chi dire grazie. Insomma una novella amanuense moderna!

Reply

Barbara Businaro

Giu 24, 2019 at 10:39 PM

Spero che i nostri pronipoti avranno di meglio da sfogliare che gli archivi di fatture, bolle e ddt che di solito amministro io! 😀 😀 😀
Io mi occupo di archiviazione documentale per le aziende, quindi specifiche, schede prodotti, cataloghi, fatturazione elettronica e conservazione digitale. Niente di così romantico rispetto ai sacri testi che gli amanuensi hanno salvato dall’oblio durante gli anni bui del Medioevo!
Di buono c’è che aziende ed università collaborano su ricerca e sviluppo anche in questo settore. 😉

Reply

Sandra

Giu 23, 2019 at 11:31 AM

I tuoi post, cara Barbara, sono sempre degni di una testata giornalistica! Che gran cosa questo READ.
Personalmente in ufficio sono molto indietro con l’archiviazione digitale, di sicuro il mio essere dinosaurica non aiuta, ma soprattutto certe procedure e un inesistente aiuto da parte di chi dovrebbe provvedere a formare e dare gli strumenti.
Se ti mando una foto dei miei archivi/mucchi di carta ordinati ma sempre tantissimi, inorridisci.

Reply

Barbara Businaro

Giu 24, 2019 at 10:50 PM

Ti dirò Sandra, c’è un articolo de Il Fatto Quotidiano su READ e Transkribus (l’unico giornale italiano che ne ha scritto, eccolo: I manoscritti antichi diventano digitali grazie al progetto READ della Commissione Europea), che a me sembra poco più del comunicato stampa.
No, non potrebbero permettersi un post approfondito come il mio! 😀 😀 😀
Sull’archiviazione documentale, ma in generale tutta l’evoluzione digitale, l’Italia tutta è indietro perché mancano investimenti, sia dei privati ma soprattutto delle istituzioni. Poi purtroppo si commissionano le applicazioni ma si lasciano sempre da parte la formazione e l’assistenza, non c’è mai budget per quelli…

Reply

Giulia Mancini

Giu 23, 2019 at 4:09 PM

Credo che digitalizzare i documenti sia di fondamentale importante, la massa di carta che si accumula negli uffici è davvero enorme, noi siamo abbastanza indietro ma c’è un ufficio apposito che si chiama proprio “archivio storico” che sta lentamente provvedendo, non so a che anno sono arrivati. Chissà che piattaforma utilizzano, se capita mi informo. Come afferma Nadia, adesso ho capito meglio che lavoro fai!

Reply

Barbara Businaro

Giu 24, 2019 at 10:54 PM

Non è solo questione di ingombro fisico (pure le bollette di casa vanno tenute per 10 anni e mi occupano svariati contenitori), ma anche di velocità di ricerca: immagina, per motivi fiscali, di dover rintracciare tutti i movimenti bancari di nove anni fa. Se l’archivio è digitale e magari anche indicizzato, ci vuole davvero un click. Se è cartaceo, vai in magazzino, cerca gli scatoloni e armati di piumino per la polvere! 😉

Reply

newwhitebear

Giu 23, 2019 at 5:48 PM

La gestione documentale è un mondo affascinante. Però 15 anni fa le aziende nicchiavano per i costi. Adesso credo un po’ meno. Io in azienda me ne sono occupato sul versante sicurezza. Ovvero come proteggere i documenti digitalizzati da intrusioni o copie non autorizzate.

Reply

Barbara Businaro

Giu 24, 2019 at 11:01 PM

I costi adesso sono scesi, come tutte le tecnologie che diventano di massa. Come dicevo, all’epoca uno scanner professionale costava come una Fiat Seicento (circa 8.500 euro per capirci). Oggi ne porti a casa un modello addirittura più performante con 1.700 euro. Sulla mia scrivania ne ho uno rotativo della Fujitsu che mi è costato quattro anni fa circa 400 euro. Però ci metto solo 5 minuti a inviare tutte le scansioni fronte-retro di tutti i documenti del modello 730 al commercialista. (No beh, non l’ho preso solo per quello 😀 )
Sul fronte sicurezza, adesso la questione è quanto mai prioritaria, dato che si vive e si lavora continuamente connessi alla rete. E determinati archivi sono direttamente nel cloud.

Reply

Marco

Giu 24, 2019 at 7:20 AM

Interessantissimo progetto! Ma… nell’elenco delle università, nemmeno una italiana?

Reply

Barbara Businaro

Giu 24, 2019 at 11:06 PM

No, l’Italia non è tra i membri fondatori di questo progetto. Partecipano però come collaboratori le seguenti istituzioni:
Archivo Storico Ricordi;
BOhisto – The Civic Archives of Bozen-Bolzano;
Fondazione ilCartastorie;
Marciana National Library;
Progetto Mambrino, Università di Verona.

Reply

SILVIA

Giu 24, 2019 at 10:02 AM

Non conoscevo questo progetto, che trovo interessantissimo. Quando studiavo all’università (ehm… più di vent’anni fa), si iniziava a parlare di digitalizzazione dei testi e c’erano i primi esperimenti. Incredibile come da un lato in questi vent’anni ci sia stata un’evoluzione rapidissima, mentre in altri settori (vedi pubblica amministrazione etc.) sia stata molto più lenta.
Personalmente non credo sia solo una questione di interesse economico, come si potrebbe pensare, ma più di resistenza a certe innovazioni per timore (e scarsa conoscenza) dei mezzi tecnologico. Ma forse ora sono OT.
Comunque, penso che proverò questo sistema, ci hai ovviamente stuzzicati. Grazie 😉

Reply

Barbara Businaro

Giu 24, 2019 at 11:13 PM

Credo che una certa resistenza sia voluta per mantenere lo status quo di certi poteri e certi intrallazzi. Prova a immaginare cosa succederebbe se digitalizzassimo tutti gli archivi catastali del nostro paese e li collegassimo all’Agenzia delle Entrate e ai Pubblici Registri Immobiliari. E magari, già che ci siamo, gli colleghiamo anche il PRA, Pubblico Registro Automobilistico. Penso ne uscirebbero delle storie affascinanti… 😉

Reply

Darius Tred

Giu 24, 2019 at 11:36 AM

Forte questo transkribbius! 😀
Mi sono creato l’account per curiosare.

Reply

Barbara Businaro

Giu 24, 2019 at 11:17 PM

Oh mamma! Non fare danni, mi raccomando! 😀
E fu così che un antico papiro egiziano di dubbie origini apparve dal nulla tra le nuvole del cloud…

Reply

Darius Tred

Giu 25, 2019 at 9:28 AM

😀 😀 😀

Paura, eh? 😉

Reply

Rebecca Eriksson

Giu 24, 2019 at 5:51 PM

Ciao, molto interessante questo progetto e questo programma, grazie per avermelo fatto scoprire.
Anni fa avevo collaborato anch’io a progetti di digitalizzazione, ma non erano manoscritti (quelli erano fatti semplicemente come scansione).
All’epoca mi ero molto incurosita sui processi OCR e avevo voluto provare con alcune pagine di testi antichi: ne ero uscita pazza solo per quella s scritta come f.

Reply

Barbara Businaro

Giu 24, 2019 at 11:21 PM

Benvenuta nel blog Rebecca! E che tu ci creda o no, il tuo oggi era il 5000esimo commento! Perciò grazie due volte, anzi 5000!! 😀
Io ricordo i tempi in cui si impazziva per far riconoscere un barcode, non dico i numeri sotto al barcode ma proprio le linee del barcode, il cui spessore rappresenta quei numeri. Giornate intere a litigare con i driver e le interfacce degli scanner. Ora già vedere uno scanner casalingo riconoscere il testo stampato è qualcosa che mi stupisce ancora. Ma vedere il riconoscimento della grafia è… un miracolo! 😀

Reply

Leave a comment