Transkribus - riconoscimento dei manoscritti

Transkribus per trascrivere e condividere manoscritti di ogni epoca

A volte il mio lavoro di consulente informatico mi porta a contatto con realtà meravigliose, anche in ambito accademico.
Per chi non lo sapesse, mi occupo di digitalizzazione di processi di business in aziende di medio-grandi dimensioni, sviluppando sia soluzioni di workflow per le diverse aree sia applicazioni per acquisire, conservare e distribuire varie tipologie di documenti.
Insomma, ironia della sorte per me che adoro “il profumo della carta”, il mio compito è salvare la carta all’interno del mondo elettronico e aiutare le aziende ad usarne sempre meno. Così ce ne sarà di più per i libri, no? 😉

Quando iniziai a lavorare nell’archiviazione documentale, più di quindici anni fa, uno scanner documentale professionale rotativo costava come la Fiat Seicento che guidavo all’epoca. Lo guardavo con assoluta deferenza, non solo per il costo, quanto perché era straordinario vederlo “mangiare” plichi e plichi di fogli in pochi minuti, riconoscendo barcode e testi con un lievissimo margine d’errore.

La tecnologia che sta dietro a questa sua funzione è l’OCR, Optical Character Recognition, il riconoscimento ottico dei caratteri.
Che è esattamente quello che fa l’essere umano, quando impara a leggere e scrivere: osserviamo la maestra mostrarci le grandi lettere colorate sui fogli appesi in aula, associate ad un animale o un oggetto il cui nome inizia con quel carattere, poi via via impariamo ad associare le lettere, costruire le parole e alla fine quando leggiamo stiamo semplicemente “riconoscendo” quel carattere e quella parola.
Allo stesso modo, l’OCR è istruito per convertire l’immagine nel carattere che più gli assomiglia e ovviamente più l’immagine è nitida, migliore sarà il risultato.
La differenza è che l’OCR non sa “leggere” un testo, non riesce a dargli un senso compiuto, capirne l’argomento e completare quindi da solo un eventuale carattere mancante o sfocato. Di quello se ne occuperà in futuro l’Intelligenza Artificiale.

Questo sistema funziona però con i testi stampati o battuti ad una vecchia macchina da scrivere, quindi da Johannes Gutenberg in poi. Tutti i manoscritti di epoca precedente devono essere letti e trascritti manualmente.
Fino ad ora.

Proprio per preservare l’immenso patrimonio culturale e digitalizzare i manoscritti di ogni epoca, rendendoli accessibili al pubblico, è nato nel gennaio 2016 il progetto europeo READ (Recognition and Enrichment of Archival Documents) e lo sviluppo della piattaforma Transkribus. Austria, Svizzera, Germania, Grecia, Spagna, Finlandia, Francia e Regno Unito collaborano unite alla realizzazione di un software che, opportunamente istruito, può riconoscere la grafia di un manoscritto e proseguire automaticamente al riconoscimento dei caratteri. Ad oggi con un margine d’errore fino al 3,5% circa.

Non solo. Siamo tutti chiamati a dare un contributo, partecipando attivamente alle trascrizioni.
Il motore che sta dietro a questa tecnologia viene continuamente affinato, imparando anche dai propri errori. Quindi, più manoscritti vengono inseriti ed elaborati nel sistema, maggiore sarà la capacità di elaborazione e la percentuale di riconoscimento corretto.
Potreste voler salvare dal tempo delle antiche lettere dei vostri avi, anche le vecchie cartoline del bisnonno!
E chissà non riconosca anche l’incomprensibile prescrizione del medico…

Soprattutto, se scrivete romanzi storici, l’accesso a Transkribus e alle sue collezioni è una preziosa fonte di informazioni e di storie d’altri tempi. L’Europa è ricchissima di testi antichi, ma per garantire la loro conservazione, non è semplice accedervi e consultarli. In futuro basterà solo un click, ma potete iniziare già oggi.

 

READ e Transkribus, un progetto europeo

Il progetto READ, Recognition and Enrichment of Archival Documents (ma adoro che l’acronimo sia “read”, il verbo inglese leggere), è una collaborazione internazionale tra 14 partner provenienti dai settori dell’informatica, degli archivi e della ricerca umanistica:

  • University of Innsbruck (co-ordinator / Austria)
  • Universitat Politecnica de Valencia (Spain)
  • University College London (United Kingdom)
  • National Center for Scientific Research “Demokritos” (Greece)
  • Democritus University of Thrace (Greece)
  • University of London Computer Centre (United Kingdom)
  • Technical University Vienna (Austria)
  • University of Rostock (Germany)
  • Leipzig University (Germany)
  • NAVER LABS Europe (France)
  • Ecole Polytechnique Federale de Lausanne (Switzerland)
  • National Archives Finland (Finland)
  • Zurich State Archives (Switzerland)
  • Passau Diocesan Archives (Germany)

Partecipano poi altre istituzioni e laboratori di Australia, Canada, Israele, Sud Africa, Svizzera e Stati Uniti.
Questo consorzio è stato finanziato dal programma di ricerca e innovazione Horizon 2020 dell’Unione Europea con un investimento iniziale di circa 8 milioni di euro.

L’attività del READ si concentra sul rendere il materiale archivistico più accessibile, attraverso lo sviluppo di tecnologie all’avanguardia, compreso l’HTR, Handwritten Text Recognition, il riconoscimento del testo scritto a mano, l’individuazione di parole chiave, l’analisi del layout, l’identificazione automatica dell’autore e dei campi correlati.
I servizi del READ e del software Transkribus sono forniti gratuitamente a diversi gruppi:

  • archivi, biblioteche e proprietari di contenuti
  • studiosi di scienze umane
  • utenti pubblici e volontari
  • scienziati informatici

Le pubblicazioni del READ sono accessibili a tutti gli utenti: READ Publications
I dati di ricerca che costituiscono la base per le pubblicazioni scientifiche sono resi disponibili tramite il repository di ricerca di Zenodo: ScriptNet – READ
Lo stesso software Transkribus è disponibile con licenza Open Source tramite GitHub.

Dal 1 luglio 2019 il READ si trasformerà in READ-COOP, una società cooperativa europea di base all’Università di Innsbruck, per sostenere e sviluppare ulteriormente la piattaforma Transkribus e i relativi servizi anche tramite finanziamento privato.
Gli utenti potranno continuare ad utilizzare Transkribus e fornire il loro prezioso aiuto al miglioramento del sistema.

 

Come funziona Transkribus
in poche mosse

Potete utilizzare la piattaforma di Transkribus in due modalità:

  • software da installare sul vostro computer, disponibile per Windows e Mac
  • interfaccia web, chiamata Transkribus Lite:  https://transkribus.eu/lite/it

Entrambe depositano i documenti caricati dagli utenti nell’archivio cloud del sistema per l’elaborazione dei testi. E qui è importante specificare subito che i vostri documenti sono e restano privati, come è specificato nella licenza d’uso:  TRANSKRIBUS General Terms and Conditions  Solo i dati delle lavorazioni dell’HTR vengono trattati dai ricercatori del progetto in forma anonima, per migliorarne appunto le prestazioni.
La condivisione dei documenti è possibile a scelta dell’utente dal proprio account Transkribus.

Qui vedremo brevemente come installare e usare il software client sul proprio computer. Già dal video sopra potete vedere che è piuttosto semplice, richiede solo un po’ di tempo e pazienza per le prime trascrizioni manuali.
Per qualsiasi dubbio, si può fare riferimento alla ricca guida online, in inglese: Transkribus Centro Risorse
In italiano trovate un piccolo manuale di istruzioni, corredato di immagini che vi seguono passo passo, in formato pdf: Come usare Transkribus in 10 passi
Ci sono anche altri video che vi illustrano le specifiche funzioni di Transkribus, dalla segmentazione, al training del modello HTR, all’individuazione delle parole chiave: Transkribus video tutorials

Prima mossa: registrarsi sul sito di Transkribus e scaricare il pacchetto del software (121 Mb la versione 1.7 per Windows).
Dovete avete installato il componente Java 8 sul vostro computer, ed è così per la maggioranza dei sistemi operativi.
Se non c’è, l’installazione ve lo notifica e vi porta automaticamente al sito Oracle da dove scaricare e installare anche la Java Virtual Machine corretta.

L’installazione di Transkribus registra alcuni componenti. Per avviare in seguito il programma, basta cliccare sempre sullo stesso eseguibile presente nella cartella dell’installazione. Potete anche inserire la spunta perché effettui il login in automatico la volta successiva.

Transkribus - login

Nel vostro nuovo account, vengono caricati alcuni documenti di test già elaborati nella vostra “collection” di default. Premendo il bottone sotto Collections, potete definire delle altre cartelle dove caricare e salvare i vostri documenti personali, così da poterli organizzare per argomento.
La piattaforma può processare file in formato PDF, JPEG (non però il formato JPEG 2000), PNG e file TIFF. Se caricate un file PDF, si arrangia Transkribus ad estrarne le pagine come singole immagini.

Apriamo il documento d’esempio in inglese, English Handwriting 0.1, una lettera scritta a mano datata “Edinburg, 25th Nov. 1807” (immaginatevi la mia faccia, quando mi ritrovo proprio la mia amata Edimburgo sotto il naso… un caso eh!)

Transkribus - documento in inglese d'esempio

Questo è il risultato di una lavorazione di Transkribus: sono state separate le righe del manoscritto (i rettangoli blu che vedete nell’editor) e la grafia riconosciuta dal motore HTR, che ha trascritto sotto le parole. Ovviamente il modello scelto è stato dapprima istruito per riconoscere un certo stile di scrittura, inserendo un certo numero di immagini e la loro trascrizione accurata. In genere sono richieste tra le 5.000 e le 15.000 parole inserite dall’essere umano (circa 25-75 pagine) prima che il modello HTR possa proseguire da solo la lavorazione. Se si lavora con testo stampato antico anziché un manoscritto, è richiesta una quantità minore di dati per il training del modello.

Per quanto riguarda la lingua italiana, un buon modello di riconoscimento è stato creato partendo dall’Archivio Storico Ricordi, una delle collezioni musicali private più grandi al mondo, comprese le lettere scritte a mano da Giulio Ricordi nel 1889: Handwritten Text Recognition – Example from Archivio Ricordi Storico 
Ho utilizzato proprio questo modello per riconoscere il testo dei volantini lasciati nel mare di Buccari da Gabriele D’Annunzio durante la missione del 10-11 febbraio 1918 (l’immagine del manoscritto è di pubblico dominio e potete scaricarla da Wikipedia: VolantinoD’AnnunzioBeffaBuccari.jpg)

Transkribus - caricamento di un documento

Transkribus - caricamento di un documento terminato

Ho scelto di caricare il file del manoscritto nella stessa collection di default, ma potevo anche crearne una nuova per l’occasione.
Al termine del caricamento, premete nuovamente sul bottone Collections per aggiornare il suo contenuto: vedrete comparire nell’elenco il documento appena inserito. Cliccate due volte per visualizzarlo nell’editor a fianco.

Transkribus - manoscritto di D'Annunzio

Procediamo ora al riconoscimento: prima di tutto occorre segmentare l’immagine e dividere le righe del testo scritto a mano. Ci si sposta nella scheda Tools in alto a sinistra, e si procede alla Layout Analysis, tramite il suo tasto Run. Transkribus vi chiederà conferma dell’attività e poi vi dirà che è iniziato il job di lavorazione. Alla fine vi chiederà di ricaricare il documento: compariranno gli stessi rettangoli blu attorno ad ogni riga, come abbiamo visto per la lettera in inglese.

Transkribus - manoscritto di D'Annunzio con righe riconosciute

Nella stessa scheda Tools, configuriamo il modello HTR per il riconoscimento del testo: sotto Text Recognition premete il bottone Models e scegliete il modello Comb_Gothic_Script in caratteri latini.

Dopo aver confermato, tornate alla scheda Tools e premete il bottone Run del Text Recognition: nella finestra che si apre, premete sul bottone Configure…
Qui selezionate nuovamente il modello Comb_Gothic_Script e associategli a destra il Dictionary Archivio_Ricordi_M1.dict.

E ora avviamo il riconoscimento con OK: verrà richiesta conferma e notificato il nuovo job in corso. Al termine dell’elaborazione, viene chiesto di ricaricare il documento aggiornato, insieme al testo che l’HTR ha trascritto per noi.
In questo caso il risultato non è apprezzabile come singole parole, e questo è normale dato che abbiamo una porzione di testo limitata e stiamo utilizzando il modello di un’altra grafia. Ma se considerate i caratteri, alcuni sono stati riconosciuti correttamente ed altri scambiati con lettere che, al di là del senso logico della frase, erano plausibili graficamente. Nessun normale OCR sarebbe riuscito in questo!

 

Transkribus, una comunità attiva

Da marzo 2019 ci sono oltre 20.000 utenti registrati nella piattaforma Transkribus per il riconoscimento del testo scritto a mano. Le persone lavorano con Transkribus in tutto il mondo, utilizzandolo per addestrare centinaia di modelli per riconoscere testi di date, lingue e stili diversi.
Per capire davvero la portata della rivoluzione di questo strumento basta guardare l’elenco delle trascrizioni eseguite su archivi storici di rilievo, i cosiddetti casi di successo: Transkribus Storie di successo

Ad esempio la ricerca di oltre 100 anni di storia dell’alpinismo, realizzato dal New Zealand Alpine Club e dall’Università di Innsbruck. Il flusso di lavoro completo è stato effettuato all’interno di Transkribus: oltre al caricamento di file e all’esecuzione del riconoscimento del testo, i volontari hanno utilizzato l’interfaccia web di Transkribus per correggere accuratamente tutte le 17.500 pagine del New Zealand Alpine Journal. Potete ammirarne il risultato qui: New Zealand Alpine Journal Archive

Oppure il sopraccitato Archivio Storico Ricordi, una delle collezioni musicali private più importanti al mondo che ha iniziato a lavorare con l’HTR per elaborare alcuni dei suoi tesori. Fondata a Milano nel 1808, la casa editrice Casa Ricordi contiene numerose lettere e spartiti di noti compositori come Verdi e Puccini.
Potete visualizzare le immagini in alta definizione dei manoscritti e leggere le trascrizioni direttamente online: Le Collezioni di Casa Ricordi 

Transkribus - Archivio Storico Ricordi

Interessante per gli appassionati di storia, e per gli scrittori di romanzi storici alla ricerca di materiale, anche questi ulteriori archivi resi disponibili dallo stesso Transkribus:

  • Transkribus e-Learning Client, fornisce centinaia di esercizi tratti dai manoscritti originali per imparare a leggere la scrittura storica: Transkribus LEARN
  • Famous Hands, per leggere ed esplorare i manoscritti trascritti di personaggi famosi di tutti i tempi e paesi, cercandoli anche geograficamente o cronologicamente

Del resto il progetto Transkribus è in continua evoluzione e sono in sviluppo altre piattaforme di consultazione degli archivi digitali che man mano si stanno acquisendo dai manoscritti di tutto il mondo. Come potete vedere dalla road map siamo solo all’inizio.

Transkribus - mappa delle interfacce

 

E per il futuro?

C’è vero progresso solo quando i vantaggi di una nuova tecnologia diventano per tutti.
Henry Ford

Per questo spero che Transkribus possa rimanere aperto anche al contributo dei privati cittadini. Dobbiamo salvare il passato per migliorare il nostro futuro, anche quei documenti che non sono così famosi da essere depositati in un archivio museale.
Voi lettori cosa ne pensate?

Sharing is caring! Condividi questo post:

Comments (27)

Nadia

Giu 23, 2019 at 7:43 AM Reply

Se ne impara sempre una qui da te, ora ho capito finalmente che lavoro fai. Interessante direi e anche inesauribile, vista la mole di documenti cartacei da digitalizzare, e altrettanto importante. Una sorta di biblioteca digitale, che un domani i nostri pronipoti sfoglieranno in un click e a cui non sapranno a chi dire grazie. Insomma una novella amanuense moderna!

Barbara Businaro

Giu 24, 2019 at 10:39 PM Reply

Spero che i nostri pronipoti avranno di meglio da sfogliare che gli archivi di fatture, bolle e ddt che di solito amministro io! 😀 😀 😀
Io mi occupo di archiviazione documentale per le aziende, quindi specifiche, schede prodotti, cataloghi, fatturazione elettronica e conservazione digitale. Niente di così romantico rispetto ai sacri testi che gli amanuensi hanno salvato dall’oblio durante gli anni bui del Medioevo!
Di buono c’è che aziende ed università collaborano su ricerca e sviluppo anche in questo settore. 😉

Sandra

Giu 23, 2019 at 11:31 AM Reply

I tuoi post, cara Barbara, sono sempre degni di una testata giornalistica! Che gran cosa questo READ.
Personalmente in ufficio sono molto indietro con l’archiviazione digitale, di sicuro il mio essere dinosaurica non aiuta, ma soprattutto certe procedure e un inesistente aiuto da parte di chi dovrebbe provvedere a formare e dare gli strumenti.
Se ti mando una foto dei miei archivi/mucchi di carta ordinati ma sempre tantissimi, inorridisci.

Barbara Businaro

Giu 24, 2019 at 10:50 PM Reply

Ti dirò Sandra, c’è un articolo de Il Fatto Quotidiano su READ e Transkribus (l’unico giornale italiano che ne ha scritto, eccolo: I manoscritti antichi diventano digitali grazie al progetto READ della Commissione Europea), che a me sembra poco più del comunicato stampa.
No, non potrebbero permettersi un post approfondito come il mio! 😀 😀 😀
Sull’archiviazione documentale, ma in generale tutta l’evoluzione digitale, l’Italia tutta è indietro perché mancano investimenti, sia dei privati ma soprattutto delle istituzioni. Poi purtroppo si commissionano le applicazioni ma si lasciano sempre da parte la formazione e l’assistenza, non c’è mai budget per quelli…

Giulia Mancini

Giu 23, 2019 at 4:09 PM Reply

Credo che digitalizzare i documenti sia di fondamentale importante, la massa di carta che si accumula negli uffici è davvero enorme, noi siamo abbastanza indietro ma c’è un ufficio apposito che si chiama proprio “archivio storico” che sta lentamente provvedendo, non so a che anno sono arrivati. Chissà che piattaforma utilizzano, se capita mi informo. Come afferma Nadia, adesso ho capito meglio che lavoro fai!

Barbara Businaro

Giu 24, 2019 at 10:54 PM Reply

Non è solo questione di ingombro fisico (pure le bollette di casa vanno tenute per 10 anni e mi occupano svariati contenitori), ma anche di velocità di ricerca: immagina, per motivi fiscali, di dover rintracciare tutti i movimenti bancari di nove anni fa. Se l’archivio è digitale e magari anche indicizzato, ci vuole davvero un click. Se è cartaceo, vai in magazzino, cerca gli scatoloni e armati di piumino per la polvere! 😉

newwhitebear

Giu 23, 2019 at 5:48 PM Reply

La gestione documentale è un mondo affascinante. Però 15 anni fa le aziende nicchiavano per i costi. Adesso credo un po’ meno. Io in azienda me ne sono occupato sul versante sicurezza. Ovvero come proteggere i documenti digitalizzati da intrusioni o copie non autorizzate.

Barbara Businaro

Giu 24, 2019 at 11:01 PM Reply

I costi adesso sono scesi, come tutte le tecnologie che diventano di massa. Come dicevo, all’epoca uno scanner professionale costava come una Fiat Seicento (circa 8.500 euro per capirci). Oggi ne porti a casa un modello addirittura più performante con 1.700 euro. Sulla mia scrivania ne ho uno rotativo della Fujitsu che mi è costato quattro anni fa circa 400 euro. Però ci metto solo 5 minuti a inviare tutte le scansioni fronte-retro di tutti i documenti del modello 730 al commercialista. (No beh, non l’ho preso solo per quello 😀 )
Sul fronte sicurezza, adesso la questione è quanto mai prioritaria, dato che si vive e si lavora continuamente connessi alla rete. E determinati archivi sono direttamente nel cloud.

Marco

Giu 24, 2019 at 7:20 AM Reply

Interessantissimo progetto! Ma… nell’elenco delle università, nemmeno una italiana?

Barbara Businaro

Giu 24, 2019 at 11:06 PM Reply

No, l’Italia non è tra i membri fondatori di questo progetto. Partecipano però come collaboratori le seguenti istituzioni:
Archivo Storico Ricordi;
BOhisto – The Civic Archives of Bozen-Bolzano;
Fondazione ilCartastorie;
Marciana National Library;
Progetto Mambrino, Università di Verona.

SILVIA

Giu 24, 2019 at 10:02 AM Reply

Non conoscevo questo progetto, che trovo interessantissimo. Quando studiavo all’università (ehm… più di vent’anni fa), si iniziava a parlare di digitalizzazione dei testi e c’erano i primi esperimenti. Incredibile come da un lato in questi vent’anni ci sia stata un’evoluzione rapidissima, mentre in altri settori (vedi pubblica amministrazione etc.) sia stata molto più lenta.
Personalmente non credo sia solo una questione di interesse economico, come si potrebbe pensare, ma più di resistenza a certe innovazioni per timore (e scarsa conoscenza) dei mezzi tecnologico. Ma forse ora sono OT.
Comunque, penso che proverò questo sistema, ci hai ovviamente stuzzicati. Grazie 😉

Barbara Businaro

Giu 24, 2019 at 11:13 PM Reply

Credo che una certa resistenza sia voluta per mantenere lo status quo di certi poteri e certi intrallazzi. Prova a immaginare cosa succederebbe se digitalizzassimo tutti gli archivi catastali del nostro paese e li collegassimo all’Agenzia delle Entrate e ai Pubblici Registri Immobiliari. E magari, già che ci siamo, gli colleghiamo anche il PRA, Pubblico Registro Automobilistico. Penso ne uscirebbero delle storie affascinanti… 😉

Darius Tred

Giu 24, 2019 at 11:36 AM Reply

Forte questo transkribbius! 😀
Mi sono creato l’account per curiosare.

Barbara Businaro

Giu 24, 2019 at 11:17 PM Reply

Oh mamma! Non fare danni, mi raccomando! 😀
E fu così che un antico papiro egiziano di dubbie origini apparve dal nulla tra le nuvole del cloud…

Darius Tred

Giu 25, 2019 at 9:28 AM Reply

😀 😀 😀

Paura, eh? 😉

Rebecca Eriksson

Giu 24, 2019 at 5:51 PM Reply

Ciao, molto interessante questo progetto e questo programma, grazie per avermelo fatto scoprire.
Anni fa avevo collaborato anch’io a progetti di digitalizzazione, ma non erano manoscritti (quelli erano fatti semplicemente come scansione).
All’epoca mi ero molto incurosita sui processi OCR e avevo voluto provare con alcune pagine di testi antichi: ne ero uscita pazza solo per quella s scritta come f.

Barbara Businaro

Giu 24, 2019 at 11:21 PM Reply

Benvenuta nel blog Rebecca! E che tu ci creda o no, il tuo oggi era il 5000esimo commento! Perciò grazie due volte, anzi 5000!! 😀
Io ricordo i tempi in cui si impazziva per far riconoscere un barcode, non dico i numeri sotto al barcode ma proprio le linee del barcode, il cui spessore rappresenta quei numeri. Giornate intere a litigare con i driver e le interfacce degli scanner. Ora già vedere uno scanner casalingo riconoscere il testo stampato è qualcosa che mi stupisce ancora. Ma vedere il riconoscimento della grafia è… un miracolo! 😀

Werter Bondanelli

Set 03, 2020 at 8:58 PM Reply

Ciao Barbara, qualche giorno fa ho battuto su Google, ma con atteggiamento utopico, ‘software per riconoscimento documenti antichi’ e incredibilmente invece ho trovato una pagina del Fatto che mi smentiva. Vado sul sito, mi iscrivo e inizio il download. Una tragedia, si interrompeva continuamente, ma dopo una notte ce l’ha fatta. ‘Unzippo’, cerco un setup, ma c’è solo un exe, vado con quello e vedo il mitico Transkribus, per niente friendly. Volendo provarlo, tento di caricare un documento antico ( jpg), ma non lo ricinosce, provo con un Pdf e non lo riconosce e nemmeno i Tiff. Niente. Provo su google a caccia di soluzioni ed è qui che trovo la tua pagina, molto interessante e chiara, ma che non risolve il mio problema. Ragion per cui ti scrivo, chissà, non si sa mai…..un grazie sin da ora, comunque vada.

Barbara Businaro

Set 04, 2020 at 12:24 PM Reply

Benvenuto nel blog Werter. 
Mi spiace che tu non riesca a usare Transkribus, ma è anche difficile che un semplice articolo di presentazione come questo possa diventare un manuale completo di assistenza, no? 😉 
Non comprendo appieno il tuo problema: non riconosce il documento come file da caricare e lavorare oppure non riconosce il testo contenuto in quel file? Come hai sicuramente letto poco sopra: “In genere sono richieste tra le 5.000 e le 15.000 parole inserite dall’essere umano (circa 25-75 pagine) prima che il modello HTR possa proseguire da solo la lavorazione. Se si lavora con testo stampato antico anziché un manoscritto, è richiesta una quantità minore di dati per il training del modello.”
Quindi se il problema è il riconoscimento del testo, dipende dalla scrittura/testo del documento e dal modello che stai tentando di utilizzare con il motore HTR. I modelli disponibili con la prima installazione sono solo quattro e funzionano con il processo in locale. Per un risultato migliore, occorre richiedere il processo di riconoscimento direttamente sui server cloud di Transkribus, più veloci di un computer casalingo, e con i modelli ottimizzati continuamente dal team di sviluppo.
Come risorse, l’unica guida in Italiano è questa: Come usare Transkribus – in 10 passi (o anche meno)  
In inglese c’è una ricca guida Wiki: Transkribus Wiki 
Ma se vuoi interfacciarti con altri utilizzatori e chiedere aiuto, c’è un gruppo Facebook internazionale apposito, in lingua inglese: Transkribus users
Aperto da pochissimo c’è poi un gruppo Facebook che tenta di raccogliere gli utenti italiani per fornire un minimo di supporto nella nostra lingua: Utenti Italiani Transkribus 
Mi sarebbe piaciuto approfondire ancora il software Transkribus, ma nel frattempo i miei progetti professionali sono cambiati. Chissà che in futuro non ritorni a studiarlo. 🙂

Werter Bondanelli

Set 06, 2020 at 10:13 AM Reply

Ciao Barbara, ti ringrazio molto per la cortesia della tua risposta e mi scuso, si dà sempre per scontato che l’interlocutore comprenda quello che si ha chiaro nella propria testa. Intendevo (non ti voglio rubare altro tempo, già molto me ne hai riservato, rispondi se lo ritieni opportuno) che il programma proprio non carica nessun documento, nè jpg, nè pdf e nemmeno tiff. Quando gli indico la cartella e il file da caricare compare il messaggio ‘nessun documento corrisponde ecc ecc). Quindi non riesco nemmeno ad iniziare. Peccato, ho antichi documenti della parrocchia (fotocopiati) a partire dal XVII secolo e volevo provare a leggibili. Grazie di nuovo, continuerò la ricerca per risolvere.

Barbara Businaro

Set 06, 2020 at 3:46 PM Reply

Uhm, forse ho capito. “Quando gli indico la cartella e il file da caricare…” Attenzione: per i file pdf devi scegliere la voce apposita, lui se li apre e estrae le pagine come immagini; per gli altri documenti (jpg e tiff) non devi indicare il file, ma la cartella che lo contiene, da lì Transkribus carica tutti i documenti che trova in quella cartella. Probabile che se indichi un file e lui si aspetta invece una cartella, ti dia il messaggio di errore.
Se ancora non riesci, chiedi l’ingresso nel gruppo Utenti Italiani Transkribus. Lì c’è chi ti può seguire meglio di me, che Transkribus lo usa tutti i giorni per lavoro. 🙂

Werter Bondanelli

Set 08, 2020 at 12:48 AM

Ecco, vedi che a qualcosa è servito il chiederti consiglio!! Adesso provo e riprovo. Vuoi mò dire che solo il mio programma non funziona!? Un grazie,,,e grande.

Barbara Businaro

Set 08, 2020 at 9:57 PM

Figurati! Più utenti utilizzano Transkribus e più si riuscirà ad affinare il riconoscimento HTR! 🙂

Barbara Businaro

Lug 13, 2022 at 9:22 PM Reply

Aggiungo questa importante risorsa: un webinar di introduzione a Transkribus completamente in italiano, a cura di Sara Mansutti, education manager presso READ COOP. Una panoramica della nuova piattaforma Transkribus e delle sue potenzialità sia in ambito di ricerca sia in ambito archivistico. Nel video di 1 ora viene spiegato come caricare i documenti su Transkribus, eseguire l’analisi del layout, trascrivere in maniera automatica i documenti utilizzando modelli già esistenti, allenare un modello specifico per i propri documenti, ricercare parole e frasi utilizzando strumenti di ricerca avanzati, ed esportare le trascrizioni in vari formati.

Paolo Zanolini

Mag 25, 2023 at 11:43 AM Reply

Il sistema consente di interpretare anche l’italiano arcaico (del secolo XVI in poi) e il latino? Lo chiedo perché Comuni e Parrocchie hanno montagne di documenti sulla nostra storia che rimangono di difficile accesso. Con un sistema di interpretazione automatica sarebbe tutto molto più semplice.
Grazie.
Paolo Zanolini

Barbara Businaro

Mag 25, 2023 at 8:12 PM Reply

Benvenuto sul blog Paolo. Per quello che ho visto io all’epoca (i miei test risalgono al 2019), Transkribus ha diversi modelli non solo per lingua, ma anche per “età” della stessa lingua. In ogni caso, ogni modello può essere perfezionato sulla base dei propri documenti, aggiustando i primi riconoscimenti fatti dal sistema. In questo ultimo periodo si è aggiunta la potenza di calcolo e di autocorrezione dell’errore dell’Intelligenza Artificiale, da non sottovalutare. Purtroppo però sono aumentati i costi della piattaforma ed utilizzare Transkribus con la funzionalità completa ha un costo in termini di “crediti”. Alla prima iscrizione, vengono forniti 500 crediti gratuiti (più o meno 500 pagine di riconoscimento handwriting), poi si possono attivare altri crediti a pagamento: Transkribus Packages & Plans
Intanto si può provare con la nuova versione Transkribus.ai direttamente dal proprio browser, senza iscrizioni: Transkribus.ai
Consente di caricare una singola immagine del documento ed effettuare un primo riconoscimento secondo i modelli pubblici. Si può salvare il risultato in formato PDF o DOC. Ovviamente non è la potenza del Transkribus completo, che consente di lavorare documenti complessi, con più pagine, ma una versione gratuita di prova. 🙂

Leave a comment

Rispondi a Barbara Businaro Annulla risposta