Document Intelligence para actas electorales E14
Alternativa open-source y autoentrenable a Azure Document Intelligence, AWS Textract y Google OCR
Sistema distribuido que reemplaza servicios de OCR costosos entrenando modelos propios. Orquesta el ciclo completo de extracción documental: etiquetado, fine-tuning automático, despliegue de modelos por departamento y extracción estructurada de tablas y cifras de las actas E14, con cobertura del escaneo en tiempo real. Es el proyecto más complejo que he diseñado, y planeo liberarlo como open source.
- Pipeline de fine-tuning automático: al etiquetar datos, un nodo dedicado entrena/finetunea el modelo y lo publica en Hugging Face.
- Modelos especializados por departamento: las actas E14 de Cámara varían por región, así que el sistema selecciona y despliega el modelo correcto leyendo la estructura de carpetas en S3.
- Arquitectura event-driven: cuando un modelo queda listo o un acta se procesa, el resto del sistema reacciona y actualiza la cobertura de escaneo por departamento.
- Salida estructurada en JSON persistida en base de datos, con notificación a servicios de monitoreo del porcentaje de actas escaneadas.





