Primer Encuentro · Digitalización de Patrimonio Documental
Agustín Nieto – INHUS-CONICET/UNMdP
PRIMER ENCUENTRO SOBRE DIGITALIZACIÓN DE PATRIMONIO DOCUMENTAL · ARGENTINA

Experiencias, hitos y desafíos

En busca de una síntesis sobre la problemática de la digitalización de patrimonio documental en la Argentina.

El análisis de layout pre-OCR en prensa histórica: el layout no es decoración, es lo que vuelve legible un diario histórico.

02 / 12
Punto de partida

El layout es la estructura invisible de la página

Cuando un historiador mira un diario histórico impreso, ve columnas, titulares, imágenes y avisos. Ve contenido. Lo que damos por sentado es la organización: dónde empieza y termina cada bloque, qué función tiene, en qué orden se lee. Eso, en sentido técnico, es el layout. Sin esa estructura reconocida por una máquina, no hay forma de convertir la página en un artículo consultable.

Página del diario 'La Prensa' de Buenos Aires.

Página del diario 'La Prensa' de Buenos Aires.

  • Bloque de texto. Columnas, titulares, bajadas, pies de foto. La máquina debe decidir dónde está cada uno.
  • Bloque visual. Grabados, fotografías, ornamentos, publicidades gráficas. Funciones distintas al texto.
  • Relaciones entre bloques. Qué texto continúa en la página siguiente, qué aviso pertenece a qué artículo, qué columna sigue a cuál otra. Ahí se juega la legibilidad real del diario.
03 / 12
Por qué importa

La prensa histórica no perdona al OCR de página completa

Un formulario moderno o un artículo científico admite un OCR casi directo: una columna, tipografía estable, fondo limpio. Un diario de 1870 no. Combina densidad textual extrema, maquetación multicolumna, cambios tipográficos, ruido de escaneo, degradación material y fuertes variaciones entre cabeceras y épocas. Lo que funciona en un artículo fracasa sin adaptación en la prensa.

  • Continuidad no lineal. Un artículo puede atravesar columnas, saltar a otra página, volver con un recuadro lateral. Sin separar antes los bloques, el OCR devuelve letras sueltas que no pueden reagruparse en artículos.
  • Lo que el OCR de página completa hace. Mezcla columnas, confunde titulares con cuerpo, mezcla avisos con texto editorial. El texto resultante existe, pero no se puede buscar ni citar.
  • Lo que cambia con layout. La página deja de ser una imagen y pasa a ser un conjunto de bloques etiquetados y ordenados. Eso es lo que vuelve consultable una hemeroteca digitalizada.
Máscaras de segmentación producidas por un detector YOLO sobre una página de prensa histórica

Salida típica de un detector moderno: cada color es una región con clase asignada.

04 / 12
El pipeline

De imagen a texto estructurado: seis pasos, una decisión

El análisis de layout no es una etapa aislada: está inserto en un pipeline. La segmentación condiciona todo lo que viene después. Si los bloques están mal recortados, ni el mejor OCR posterior puede reconstruir un artículo. Por eso, en prensa histórica, el layout no “acompaña” al OCR: lo condiciona materialmente.

Sin layout, el OCR reconoce caracteres. Con layout, reconoce documentos.

05 / 12
Familia 1 de 4 · Anotación humana y reglas

Antes del modelo, alguien tiene que mirar la página

Cualquier pipeline de análisis de layout — tanto las reglas clásicas como los detectores modernos — necesita un primer paso que no hace la máquina: mirar páginas reales y decidir qué es cada bloque. Ese trabajo de anotación humana se hace en entornos como Label Studio, donde una persona recorta cada bloque sobre el escaneo y lo etiqueta con una clase: título, columna, imagen, aviso, pie.

  • Lo que hace el anotador. Recorta cada región con un rectángulo y la asigna a una clase predefinida, resolviendo ambigüedades que la máquina no puede decidir por sí sola.
  • Para las reglas. Esos ejemplos sirven para descubrir regularidades geométricas: ancho de columna, separaciones, alineaciones, jerarquías tipográficas. Esas regularidades se traducen después en reglas explícitas: proyecciones horizontales y verticales, X-Y cut, Run-Length Smoothing. Las reglas son la versión compactada de lo que el anotador vio.
  • Para los modelos. Los mismos ejemplos etiquetados entrenan detectores automáticos (YOLO, DocLayout-YOLO). La diferencia con las reglas es quién generaliza a partir del ejemplo: el anotador, en el caso de las reglas; la red neuronal, en el caso del modelo.
  • El costo. Anotar páginas de prensa histórica es lento y exige criterio de dominio: PereStruct requirió 1.426 páginas anotadas para prensa soviética; Chronicling Germany reporta más de 1.500 horas de trabajo experto.
Entorno de anotación Label Studio donde una persona dibuja cajas y etiqueta regiones sobre una página de prensa

Label Studio: la persona recorta regiones y las etiqueta. De aquí salen tanto las reglas como los datos de entrenamiento de los modelos.

06 / 12
Familia 2 de 4 · Visión clásica y detectores

Del documento como geometría al documento como objeto aprendido

La segunda familia reúne métodos de visión por computador anteriores al aprendizaje profundo (análisis de contornos, morfología matemática, agrupación de píxeles) y, sobre todo, los detectores modernos basados en redes neuronales convolucionales (CNN): Faster R-CNN, Mask R-CNN, YOLO y DocLayout-YOLO. Estos detectores aprenden a partir de ejemplos: en lugar de programar reglas, se les muestran muchas páginas ya etiquetadas y la red ajusta sus parámetros internos hasta reconocer los patrones por sí sola.

  • Qué es una bounding box. Un rectángulo que la máquina dibuja alrededor de cada bloque y etiqueta con una clase: título, columna, imagen, aviso. Es la unidad básica que devuelve un detector.
  • YOLO y DocLayout-YOLO. Detectores que procesan páginas en décimas de segundo, basados en YOLOv10 y entrenados con cientos de miles de páginas sintéticas. DocLayout-YOLO reporta 79,7 de mAP en DocLayNet y 70,3 en D4LA.
  • La condición crítica. Sobre prensa histórica casi nunca funcionan solos: PereStruct muestra que DocLayout-YOLO aplicado sin ajuste a prensa soviética cae a 0,746 de mAP, y sube a 0,981 con ajuste sobre 1.426 páginas anotadas.
  • El salto conceptual. Pasamos de describir la página con reglas a aprenderla a partir de ejemplos. Lo que el modelo reconoce no está escrito en código: está implícito en los parámetros ajustados durante el entrenamiento.
Overlay de segmentación sobre una página de prensa, donde cada región queda marcada con su clase

Overlay de segmentación: las bounding boxes se dibujan sobre la página original con etiquetas.

07 / 12
Familia 3 de 4 · Transformers multimodales

Cuando al detector se le suma el texto OCR

Un transformer es un tipo de arquitectura de red neuronal que procesa la información por atención: en lugar de mirar la página bloque por bloque, compara todas las partes entre sí y decide cuáles se relacionan. Los transformers multimodales llevan esa lógica al documento: combinan una representación visual de la página con el texto OCR, incluso ruidoso, para decidir qué función tiene cada bloque y qué bloques pertenecen al mismo artículo.

  • Qué aportan. Donde un detector visual dice “esta es una columna”, un transformer multimodal puede decir “esta columna continúa en la página 3 y su titular está arriba a la derecha”. Reconstruye relaciones, no solo bloques.
  • La evidencia. Sobre periódicos suizos y luxemburgueses, combinar la imagen con el texto OCR mejora la segmentación frente a usar solo la imagen. Ar-Q-former aplica esa lógica para decidir qué bloques conectar. NewsEye (Horizon 2020) lo llevó a producción sobre prensa europea histórica, combinando embeddings tipo BERT con DBSCAN y redes sobre grafos para reconstruir artículos completos.
  • El costo. Anotaciones más ricas, un OCR inicial decente, entrenamiento más complejo, infraestructura más pesada. No es una solución plug-and-play: es una inversión seria en capacidad técnica.
Objetos individuales segmentados sobre una página de prensa, con cada bloque aislado y etiquetado

Salida de objetos segmentados: cada bloque es una unidad candidata a ser clasificada y relacionada con otras.

08 / 12
Familia 4 de 4 · VLMs y LLMs multimodales

Modelos de lenguaje visual: útiles como capa, no como reemplazo

Un VLM (Vision-Language Model) y un LLM multimodal son modelos de lenguaje entrenados también para ver imágenes. Pueden recibir una página entera y describirla, transcribir regiones, razonar sobre la estructura. La pregunta crítica es cuánto se les puede confiar sin un esqueleto de layout explícito debajo.

09 / 12
Herramientas · Vertiente institucional

Arcanum y Transkribus: producción, no investigación

Para una hemeroteca que necesita poner en producción un corpus consultable, la pregunta no es cuál es el modelo más elegante sino cuál entrega artículos segmentados, con OCR y orden de lectura, en un flujo mantenible. Ahí entran Arcanum y Transkribus.

Captura de la plataforma Arcanum mostrando la segmentación de un artículo de periódico en cuerpo, título y pie

Arcanum segmenta páginas en artículos y sub-secciones, con salida en METS/ALTO.

  • Arcanum. La opción comercial más claramente newspaper-first: segmenta artículos y, dentro del artículo, cuerpo, título, pie y anuncio. Devuelve OCR, orden de lectura y formatos de biblioteca. Su límite, desde la investigación reproducible, es que no se conoce cómo está hecho por dentro: no publica arquitectura, datos ni métricas comparables.
  • Transkribus. Plataforma con peso operativo real en digitalización histórica europea: usa modelos entrenables por campo (Field Models) para segmentar primero, después OCR y edición visual. En el caso NewsEye reporta una mejora media de diez puntos porcentuales sobre OCR heredado para prensa finlandesa histórica. Su costo es dependencia de la plataforma y de créditos de uso.
  • Para quién. Instituciones que priorizan velocidad de puesta en producción y no necesitan auditabilidad completa. Si el objetivo es tener un corpus consultable mañana, son las opciones más alineadas.
10 / 12
Herramientas · Vertiente abierta

Eynollah y DocLayout-YOLO: auditable, ajustable, trabajoso

Para un grupo de investigación o una biblioteca con capacidad técnica, la prioridad cambia: trazabilidad, formatos estándar, posibilidad de auditar el pipeline dentro de cinco años. La salida académica abierta responde a esa prioridad.

  • Eynollah. Software abierto compatible con PAGE-XML y OCR-D. Combina segmentación fina con reglas para bordes, regiones, líneas y orden de lectura. Su valor no está en la velocidad sino en la trazabilidad: deja un resultado estándar, documentado y reauditable.
  • DocLayout-YOLO. Software abierto, rápido y fácil de reentrenar sobre una colección propia. No viene listo para hemerotecas, pero ofrece una base reproducible para armar un pipeline a medida.
  • Para quién. Equipos con capacidad técnica que priorizan control y trazabilidad por encima de la simplicidad operativa.
Captura de la herramienta Eynollah mostrando la segmentación de una página histórica con regiones etiquetadas

Eynollah: integración de bordes, regiones y líneas en una sola pasada, con salida en PAGE-XML.

11 / 12
Proyectos de referencia

NewsEye y PereStruct: dos modos de hacer campo

Lo que estas piezas técnicas se vuelven en la práctica se ve en proyectos que articulan bibliotecas nacionales, informáticos y humanistas en torno a una misión común. Dos casos paradigmáticos.

Captura del proyecto PereStruct mostrando un ejemplo de segmentación y ensamblaje semántico de artículos sobre prensa soviética histórica

PereStruct: pipeline modular con detector ajustado, OCR, poscorrección y ensamblaje semántico.

  • NewsEye (Horizon 2020, 2018–2022). Desplazó el foco desde “leer páginas” hacia “reconstruir artículos”. Combinó separadores, agrupación de líneas, geometría computacional y similitud textual tipo BERT para decidir qué bloques pertenecen juntos.
  • PereStruct. La evidencia cuantitativa más fuerte y reciente de que la adaptación al dominio sigue siendo indispensable. Sobre prensa soviética histórica logra resultados muy altos en detección y reconstrucción artículo-bloque, y publica un corpus abierto de 599 páginas anotadas y un benchmark experto de 93.
  • El común denominador. Ambos muestran que convertir páginas escaneadas en objetos estructurados, navegables y citables ya no es promesa: es práctica consolidada con código, datos y métricas abiertas.
12 / 12
Cierre

El layout no es decoración: es lo que vuelve legible un diario histórico

Si el layout falla, el OCR devuelve caracteres sueltos que no pueden reagruparse en artículos. Si funciona, una hemeroteca deja de ser una colección de PDFs y pasa a ser una base de artículos consultables, comparables y citables. Lo que cambió en la última década no es el reconocimiento de letras, sino la capacidad de enseñarle a una máquina qué es un artículo en una página de 1870. Esa capacidad es, en definitiva, una decisión de investigación.