Yandex ha insegnato alle reti neurali a decifrare i record d'archivio con un'ortografia complessa
Miscellanea / / April 03, 2023
I manoscritti storici, difficili da analizzare per una persona, vengono convertiti quasi istantaneamente dall'intelligenza artificiale in testo stampato.
Yandex ha lanciato un nuovo servizio chiamato Archive Search, che utilizza le reti neurali per decifrare i documenti d'archivio con una complessa ortografia pre-rivoluzionaria.
Il servizio fornisce l'accesso a più di 2,5 milioni di pagine di documenti storici con trascrizioni di testo. Il suo algoritmo, costruito sulla base di un sistema di riconoscimento ottico dei caratteri, tiene conto delle peculiarità della scrittura a mano, riconosce le lettere che hanno perso la loro rilevanza e comprende la particolare struttura dei documenti d'archivio.
Gli specialisti dell'azienda hanno addestrato la rete neurale su una matrice di dati di centinaia di migliaia di righe scritte a mano da testi reali dei secoli XVIII-XIX e decine di milioni di esempi generati.
Manoscritti difficili da analizzare per una persona impreparata, la tecnologia Yandex si trasforma quasi istantaneamente in testo stampato. Grazie a ciò, nel database del servizio, puoi trovare rapidamente documenti con menzione del cognome, località o qualsiasi altra parola.
La "ricerca negli archivi" aumenterà l'efficienza del lavoro di storici, sociologi, demografi, genealogisti e aiuterà coloro che cercano informazioni sulla propria famiglia.
Il primo fondo presentato nel servizio è stato l'Archivio principale di Mosca: è stato sui suoi materiali che gli sviluppatori hanno addestrato la rete neurale. Il database contiene anche documenti provenienti dagli archivi delle regioni di Orenburg e Novgorod. Nel tempo, il numero di archivi e file scansionati disponibili aumenterà.
Puoi cercare materiali dal XVIII all'inizio del XX secolo, che sono i più popolari tra gli utenti. Si tratta di registri parrocchiali, fogli di confessione e racconti di revisione con i risultati del censimento della popolazione. I documenti possono essere trovati nel catalogo o attraverso la barra di ricerca. Sono presenti filtri per anni, archivi, fondi e inventari.
Accanto alla scansione di ogni pagina, viene visualizzata una decodifica riga per riga effettuata dalle reti neurali. Se passi con il mouse sopra il frammento desiderato, verrà immediatamente evidenziato sulla copia digitale.