come lavora kextract

Modelli AI

Il processo di analisi dei documenti è progettato per ottimizzare testo e tabelle contenuti in PDF e immagini complesse in dati strutturati con massima affidabilità.

La pipeline si articola in due fasi principali:

preprocessing visivo e strutturale eseguito da modelli custom (addestrati da Kedos Srl) e estrazione semantica affidata a un modello LLM opportunamente istruito. Questo approccio ibrido minimizza errori di parsing e riduce drasticamente il rischio di allucinazioni.

FASE 1

Analisi del layout e parsing visivo (modello custom)

  • Obiettivo: comprendere la struttura visiva del documento prima di inviare testo a un LLM.
  • Cosa fa il modello custom: identifica principalmente blocchi testuali e tabelle, isolando questi elementi da eventuali artefatti visivi.
  • Vantaggi: l’LLM non riceve il documento originale, ma una versione ricostruita contenente solo le regioni testuali rilevanti. Questo riduce il consumo di token, focalizza l'attenzione del modello sui contenuti pertinenti e abbatte drasticamente il rischio di allucinazioni.

FASE 2

Invio selettivo al LLM e prompt engineering

  • Prompting contestuale: il LLM riceve un prompt costruito ad hoc che include: istruzioni operative (es. “estrai i campi definiti nello schema X”), esempi di output desiderato, vincoli di formato (date ISO, numeri come number) e regole di validazione.
  • Schema-driven output: il LLM è istruito a produrre esclusivamente JSON conforme allo schema fornito.

Conformità e sicurezza dei modelli visual

  • Conformità UE e AI Act: i modelli visual impiegati sono progettati e valutati per l’uso nell’Unione Europea e rispettano i requisisti di sicurezza e trasparenza previsti dall’AI Act. Ciò include valutazioni di rischio, misure di mitigazione per scenari sensibili e documentazione tecnica per audit.
  • Privacy by design: il pre-processing e la pipeline rispettano la politica di riservatezza delle elaborazioni: i documenti sono trattati in storage temporaneo, i riferimenti sono rimossi entro le tempistiche garantite e l’output restituito è limitato ai dati necessari.

Inizia a lavorare con Kextract

Benefici concreti per l’azienda: