I risultati dell'AI Trust Gap Report di Denodo aprono una riflessione con il fondatore e CEO Angel Viña sul paradosso dell'Agentic AI: per muoversi in autonomia, gli algoritmi hanno bisogno di dati in tempo reale, sicuri e accessibili. Ma quasi nessuna azienda è davvero pronta
Oggi il mercato è costantemente concentrato sulla potenza dell'ultimo algoritmo o sulla nascita di modelli generativi sempre più evoluti. Tuttavia, la realtà operativa restituisce un verdetto ben diverso: un'intelligenza artificiale è efficace solo quanto i dati di cui si nutre. Con il passaggio epocale dai chatbot passivi alla cosiddetta Agentic AI, capace di assumere decisioni autonome e avviare flussi di lavoro nei sistemi aziendali, la qualità, la sicurezza e la trasparenza del patrimonio informativo non sono più semplici dettagli tecnici, ma variabili critiche per la sopravvivenza stessa dei progetti.
A fare luce su questo scenario è l'AI Trust Gap Report, una ricerca globale condotta da Denodo su 850 executive, che fotografa un profondo divario tra le ambizioni di innovazione e la reale prontezza delle infrastrutture aziendali. In questa intervista esclusiva ad Adnkronos Tech&Games, Angel Viña, fondatore e CEO di Denodo, analizza i colli di bottiglia e gli errori metodologici più comuni che bloccano le imprese in una fase pilota permanente. Dalla necessità imprescindibile di dati in tempo reale per il 66% dei manager, fino alle sfide cruciali della cybersecurity e della tracciabilità delle fonti, Viña traccia la rotta architetturale per costruire una data foundation logica, sostenibile e orientata al valore economico di lungo periodo.
Spesso i riflettori sono puntati sulla potenza degli algoritmi o sull'ultimo modello di AI generativa lanciato sul mercato, ma la realtà è che un'intelligenza artificiale è efficace solo quanto i dati di cui si nutre. Dal suo osservatorio privilegiato, in che modo la qualità e la governance del patrimonio informativo sono diventate il vero spartiacque tra un progetto di AI che fallisce e uno che trasforma radicalmente il business?
"Di solito ci si concentra sul modello, ma sono i dati a determinare se l’AI crei valore oppure generi rischio. Questo è ancora più vero quando le aziende passano dalla generative AI, che si limita a produrre risposte, alla agentic AI, che può raccomandare azioni, attivare workflow o interagire con i sistemi aziendali.
In questo contesto, una scarsa qualità dei dati non è solo un inconveniente. Può portare a raccomandazioni errate, customer experience incoerenti, rischi a livello di compliance o decisioni di business basate su informazioni obsolete. Se un chatbot tradizionale può fornire una risposta sbagliata, gli agenti AI collegati ai sistemi aziendali possono agire proprio su quella risposta sbagliata.
Per questo motivo qualità e governance dei dati sono diventate così centrali. Le organizzazioni devono sapere da dove provengono i dati, se questi sono aggiornati, cosa significano in termini di business, chi è autorizzato a utilizzarli e se le informazioni sensibili sono protette prima che raggiungano il modello. L’AI Trust Gap Report lo dimostra chiaramente: il 63% delle aziende fatica a identificare dati affidabili o a prepararli e integrarli per iniziative di AI. Questo indica che il problema non è la mancanza di dati, ma la mancanza di dati affidabili, governati e utilizzabili.
Le organizzazioni che avranno successo non saranno quelle che adotteranno per prime il modello più recente: saranno quelle che sapranno connettere l’AI a un contesto di business affidabile, a dati operativi aggiornati, a definizioni coerenti e a una governance solida. Questo significa collegare l’AI non solo a determinati dati analitici, ma anche ai sistemi operativi in cui risiede lo stato corrente delle attività. È lì che l’AI passa dalla sperimentazione alla trasformazione del business."
Angel Viña, fondatore e CEO di Denodo
Il vostro recente AI Trust Gap Report evidenzia un paradosso interessante: l'Agentic AI promette massima autonomia, ma sta affrontando una profonda crisi di fiducia da parte delle aziende. Quali sono i fattori scatenanti di questo scetticismo e perché la percezione del rischio è così alta proprio ora che la tecnologia sembra più matura?
"Il paradosso è reale ed è comprensibile. Più l’AI diventa autonoma, più richiede fiducia.
Quando l’AI veniva utilizzata principalmente per riassumere informazioni o generare contenuti, il rischio era minore. Le persone potevano verificare l’output prima di agire, ma l’agentic AI è diversa: può ragionare su un task, recuperare informazioni, utilizzare tool e potenzialmente avviare azioni. Questo crea opportunità enormi, ma aumenta anche la posta in gioco.
Lo scetticismo nasce da tre fattori. Primo, molte organizzazioni non sono sicure che l’AI abbia effettivamente accesso alle informazioni più aggiornate. Secondo il report, il 66% delle aziende afferma che i dati usati dall’AI devono essere in real-time o non più vecchi di un minuto per essere considerati affidabili: si tratta di uno standard molto elevato per architetture originariamente progettate per una reportistica tradizionale.
Secondo, le aziende si interrogano sul fatto che l’AI utilizzi i dati corretti o meno. Un modello può essere potente, ma se non comprende quale fonte sia autorevole, o se le definizioni variano tra i sistemi, può produrre una risposta sicura ma errata.
Terzo, la governance diventa più complessa quando l’AI agisce per conto degli utenti su molteplici sistemi. Il report rileva che il 67% delle organizzazioni ha difficoltà a gestire la sicurezza dei dati AI e il controllo degli accessi. Questo è uno dei principali motivi per cui le aziende restano caute: non sono necessariamente scettiche nei confronti dell’AI in sé, sono scettiche riguardo la preparazione dei loro dati attuali per supportare un’AI autonoma."
I numeri della vostra ricerca dicono che il 63% delle organizzazioni si scontra con la difficoltà di trovare, preparare e considerare rilevanti i dati per l'AI. Questo significa che molte aziende possiedono le informazioni ma non sanno di averle o non riescono a renderle digeribili per le macchine: qual è l'errore metodologico più comune che si commette in questa fase di preparazione?
"L’errore più comune è trattare la preparazione dei dati per l’AI come un problema puramente tecnico di integrazione.
Molti team iniziano chiedendosi: “Come possiamo portare più dati nelle piattaforme AI?” È comprensibile, ma spesso è il punto di partenza sbagliato. La domanda giusta da porsi è: “Quali dati sono affidabili per questa specifica decisione, cosa significano, chi li governa e in quali condizioni l’AI dovrebbe poterli utilizzare?”
In molte aziende, lo stesso concetto di business può avere significati diversi tra sistemi differenti. Un “cliente” nel sistema CRM potrebbe non corrispondere esattamente a un “cliente” nei sistemi di fatturazione, supporto o risk management. Se queste definizioni non sono armonizzate, l’AI può trarre conclusioni errate anche quando i dati di base sono tecnicamente corretti.
Esiste anche una dimensione economica di questo problema. Quando i sistemi AI sono costretti a lavorare con dati disordinati, poco documentati o mal distribuiti, il modello deve sforzarsi nell’interpretare le relazioni, risolvere ambiguità e compensare la mancanza di contesto. Questo spesso si traduce in più passaggi per recuperare le informazioni, più token, maggiore latenza e costi operativi più elevati. In altre parole, una scarsa preparazione dei dati non rende solo l’AI meno accurata; la rende anche più costosa da gestire.
Per questo motivo la semantica di business è così importante. L’AI non ha bisogno solo di accesso a tabelle, file e API. Ha bisogno di significato di business. Deve comprendere quali fonti sono autorevoli, come i dati si collegano tra sistemi e quali policy devono essere applicate.
L’obiettivo non dovrebbe essere quello di mettere l’AI in condizione di riscoprire il modello di dati dell’azienda ogni volta che risponde a una domanda o avvia un workflow. Le relazioni tra sistemi, le regole di business, le fonti affidabili e le policy applicabili dovrebbero essere definite innanzitutto nel data layer. Diversamente, ogni applicazione AI è costretta a inferire queste relazioni autonomamente, aumentando irregolarità, costi, latenza e rischio.
Un altro errore comune è preparare i dati una sola volta per un uso specifico e poi ripetere lo stesso lavoro per ogni nuovo progetto AI. Questo genera duplicazioni, incoerenza e costi aggiuntivi. Un approccio più scalabile consiste nel creare prodotti di dati riutilizzabili e governati, con una ownership chiara, definizioni di business, aspettative di qualità e controllo degli accessi. In questo modo, i team AI possono muoversi più rapidamente, senza dover ricostruire ogni volta la fiducia.
Tale approccio favorisce anche una separazione più sana delle responsabilità. Chi sviluppa soluzioni AI non dovrebbe spendere tempo a capire quale fonte sia autorevole, come unire i dati tra sistemi o come applicare le policy di governance. Questi task dovrebbero essere gestiti a livello di data foundation, così che i team AI possano usare prodotti di dati affidabili e concentrarsi sulla logica di business delle applicazioni che stanno sviluppando.
Quando questo confine non esiste, ogni progetto AI diventa di fatto un progetto di data engineering personalizzato. Questo rallenta l’innovazione, aumenta il rischio e rende molto più difficile utilizzare l’AI in modo coerente all’interno dell’azienda."
Ben il 66% degli intervistati dichiara che i dati per l'AI devono essere accessibili in tempo reale per essere considerati affidabili, eppure i sistemi tradizionali basati sull'analisi storica non reggono latenze inferiori al minuto. Come si supera questo limite strutturale senza dover affrontare costi insostenibili o migrazioni bibliche che rischierebbero di far perdere alle aziende il treno dell'innovazione?
"La risposta non è spostare tutto in una nuova piattaforma. Questo approccio è troppo lento, troppo costoso e, in molti casi, non realistico.
La maggior parte delle aziende continuerà ad avere dati distribuiti tra piattaforme cloud, sistemi on-premises, applicazioni SaaS, database operativi, data warehouse, lakehouse e fonti esterne. Il report evidenzia che le iniziative di AI nelle aziende si basano mediamente su oltre 400 fonti di dati, e quasi un’organizzazione su cinque accede a più di 1.000. Questo rende la centralizzazione completa poco praticabile.
Si tratta di un aspetto ancora più rilevante per la agentic AI, perché i dati di cui ha bisogno si estendono sia ai sistemi analitici che a quelli operativi. Le piattaforme analitiche come data warehouse e lakehouse sono fondamentali per ottenere insight storici, analisi dei trend, sviluppo di modelli e reporting. Tuttavia, gli agenti che operano all’interno dei workflow aziendali hanno anche bisogno di accedere allo stato corrente del business, che spesso risiede in applicazioni operative come CRM, ERP, supply chain, customer service, finance o sistemi specifici di settore. Gli approcci tradizionali di data management non sono stati progettati per unificare questi due mondi in tempo reale.
L’approccio migliore è invece fornire un accesso governato e in tempo reale ai dati nel luogo in cui questi risiedono già. Questo non significa che ogni richiesta AI debba interrogare ogni fonte in real time, ma significa che le organizzazioni devono dotarsi di un’architettura flessibile in grado di combinare accesso live, caching, ottimizzazione delle query e policy enforcement in base alle esigenze di business.
Alcuni usi richiedono consapevolezza operativa in real time, altri possono utilizzare dati in cache o precomputati. La chiave è prendere questa decisione in modo consapevole, sulla base dei requisiti di business, e non perché l’architettura supporta un unico approccio.
È qui che il logical data management gioca un ruolo fondamentale. Consente alle aziende di connettere applicazioni e agenti AI ai dati aziendali distribuiti senza dover forzare ogni dataset attraverso una nuova migrazione fisica. In termini pratici, permette di unire dati operativi e analitici
attraverso un data layer governato, in modo che l’AI possa ragionare sia su informazioni storiche, sia sul contesto live del business. Questo aiuta le aziende a modernizzarsi in modo incrementale, a preservare gli investimenti esistenti e a fornire comunque i dati live e governati di cui l’AI ha bisogno."
Quasi il 60% dei manager segnala forti difficoltà nell'ottimizzare le prestazioni per i carichi di lavoro massivi richiesti dall'AI su larga scala. Quando si passa dalla fase di sperimentazione nei laboratori all'adozione aziendale diffusa, quali sono i colli di bottiglia infrastrutturali che rischiano di paralizzare i sistemi?
"I colli di bottiglia emergono solitamente quando l’AI passa da un progetto pilota controllato a un utilizzo reale in ambito enterprise.
In fase sperimentale, un’applicazione AI può servire un numero limitato di utenti, connettersi a pochi dataset e operare in condizioni relativamente prevedibili. In produzione, lo scenario cambia. I sistemi AI possono dover effettuare retrieval ripetuti, chiamate a più tool, interagire con i sistemi operativi, applicare policy di sicurezza, registrare attività e supportare molti utenti contemporaneamente.
Questo può creare numerosi colli di bottiglia. Uno riguarda il movimento dei dati: se ogni utilizzo dell'AI richiede nuove pipeline, nuove copie dei dati e nuove trasformazioni, l’architettura diventa lenta e costosa da mantenere.
Un altro è il recupero dei dati frammentato: se ogni team AI costruisce il proprio modo di connettersi ai dati aziendali, le organizzazioni si ritrovano con integrazioni duplicate, governance incoerente e performance non uniformi.
Esiste anche un costo nascosto nel modello stesso. Quando i dati sono disordinati, poco documentati o distribuiti su molti sistemi senza relazioni e definizioni chiare, il sistema AI deve fare più lavoro per comprendere ciò che sta analizzando. Può richiedere prompt più lunghi, più chiamate di retrieval, più passaggi di reasoning e più interazioni tra tool. Tutto questo aumenta il consumo di token, la latenza e i costi infrastrutturali e, su larga scala, questo diventa un ostacolo significativo all’ROI.
Un terzo collo di bottiglia è il costo. La agentic AI può essere molto più intensiva in termini di dati e computazione rispetto all’analisi tradizionale, perché gli agenti AI possono iterare, recuperare dati, ragionare e agire più volte all’interno di un singolo workflow. Il report evidenzia che, anche tra le organizzazioni che utilizzano data catalog e ambienti lakehouse, quasi il 60% segnala ancora difficoltà nell’ottimizzare le performance per i workload AI.
Per scalare l’AI in modo sostenibile dal punto di vista economico, le aziende devono ottimizzare anche il data layer, non solo il model layer. Questo significa lavorare sull’ottimizzazione delle query, sulla gestione dei workload, sul caching laddove appropriato, sull’elaborazione pushdown, su servizi dati governati e riutilizzabili, e sulla capacità di evitare repliche non necessarie. In caso contrario, progetti pilota promettenti possono diventare troppo costosi o troppo complessi da scalare."
Un altro dato cruciale del report parla di un 67% di organizzazioni che fatica a mantenere livelli coerenti di sicurezza e controllo degli accessi tra i diversi sistemi. Con l'avvento di agenti autonomi che interrogano i dati al posto degli umani, come cambia il concetto di data governance e come si evita che l'AI acceda a informazioni confidenziali o non autorizzate?
"L’AI cambia la governance poiché l’utente non è più sempre la persona che interroga direttamente i dati. Sempre più spesso, è un agente AI ad agire per conto di un utente, recuperando informazioni, utilizzando tool e prendendo decisioni attraverso i sistemi.
Questo significa che la governance non può essere trattata come un esercizio statico di documentazione, ma deve essere applicata in tempo reale. L’organizzazione deve sapere chi ha avviato la richiesta, cosa l’agente sta cercando di fare, a quali dati accede, se questi dati siano sensibili e se l’utente o l’agente siano autorizzati a utilizzarli in quel contesto.
La soluzione non è fornire all’AI un accesso ampio sperando che il modello si comporti in modo responsabile, ma consiste nell’applicare gli stessi controlli, o controlli ancora più rigorosi, di quelli previsti per un utente umano. Questo include accessi basati sull’identità, sicurezza row-level, mascheramento delle colonne, controlli degli accessi basati sugli attributi e applicazione delle policy prima che i dati sensibili raggiungano il modello.
Questo è particolarmente importante perché la governance tende a deteriorarsi negli ambienti distribuiti. Un’azienda può avere livelli di controlli solidi in una piattaforma, ma più deboli o incoerenti in un’altra. Quando gli agenti AI operano su più sistemi, tali incoerenze diventano un rischio concreto.
L’obiettivo dovrebbe essere creare un livello di accesso ai dati governato per l’AI, in cui le policy siano gestite centralmente e applicate in modo coerente tra sistemi operativi, applicazioni SaaS, piattaforme cloud, data warehouse e lakehouse. In questo modo, l’AI può accedere solo ai dati per cui ha autorizzazione, nelle condizioni definite dall’azienda."
Dati incompleti o non governati creano modelli opachi, le cosiddette 'scatole nere', che generano allucinazioni o decisioni poco trasparenti. Dal punto di vista di Denodo, qual è l'approccio architetturale corretto per garantire la tracciabilità del dato, offrendo alle aziende la certezza che l'output dell'AI sia spiegabile e verificabile?
"La spiegabilità inizia prima ancora che il modello generi una risposta. Inizia con la capacità di sapere quali dati ha utilizzato l’AI, da dove provengono, come sono stati trasformati, quali definizioni sono state applicate e quali policy ne hanno governato l’accesso.
Se un’organizzazione non è in grado di tracciare i dati alla base di un output AI, diventa difficile fidarsi di quel risultato, spiegarlo a un regolatore o migliorarlo quando qualcosa va storto. Per questo, lineage e provenance stanno diventando elementi fondamentali per l’AI in ambito enterprise.
L’architettura corretta dovrebbe fornire un percorso chiaro dall’output dell’AI alle fonti dati sottostanti. Dovrebbe mostrare quali prodotti di dati, viste, sistemi e trasformazioni sono stati utilizzati. Dovrebbe inoltre preservare il significato di business applicato ai dati, non solo il movimento tecnico dei campi da un sistema all’altro.
Questo è importante perché le allucinazioni non sono solo un problema di modello, possono anche essere un problema di contesto dei dati. Se l’AI recupera dati incompleti, obsoleti o poco definiti, il modello può produrre una risposta che appare plausibile, ma che non è ancorata alla realtà aziendale.
Le organizzazioni hanno bisogno di un’architettura che combini consistenza semantica, accesso governato, lineage e osservabilità. In termini pratici, significa che l’AI dovrebbe recuperare informazioni attraverso servizi di dati governati e riutilizzabili, piuttosto che tramite una rete
frammentata di connessioni dirette e integrazioni ad hoc. Questo crea una catena più spiegabile, che va dalla fonte dei dati fino alla risposta dell’AI.
Più l’AI diventa autonoma, più questa tracciabilità diventa critica. Un’AI affidabile non riguarda solo il fatto che la risposta sembri corretta, ma che l’azienda sia in grado di verificare perché quella risposta è stata generata."
Molte imprese sono rimaste bloccate in una sorta di 'fase pilota' permanente con l'AI, senza riuscire a generare un valore economico misurabile. Per concludere, quale consiglio si sente di dare ai leader aziendali per costruire una base dati che sia non solo pronta per l'AI, ma anche sostenibile nel lungo periodo?
"Il mio primo consiglio è smettere di considerare la preparazione all’AI come un esercizio di selezione del modello. Il modello è importante, ma il valore nel lungo periodo dipende dalla data foundation su cui si basa.
Si dovrebbe invece partire da un risultato di business concreto, non da un generico programma tecnologico, scegliendo un caso d’uso in cui decisioni migliori, più rapide o più automatizzate possano creare valore misurabile, per poi indagare quali dati siano necessari, quanto debbano essere aggiornati, chi ne sia responsabile, quali definizioni contino e quali guardrail debbano essere applicati.
In secondo luogo, è importante evitare di costruire pipeline di dati ad hoc per ogni esperimento AI. Questo approccio può funzionare nella fase pilota, ma non su scala. È invece preferibile investire in prodotti di dati riutilizzabili e governati, che possano supportare più casi d’uso di AI, analytics e applicazioni.
Altrettanto importante è definire una chiara separazione di responsabilità tra i team che gestiscono i dati aziendali e quelli che sviluppano applicazioni AI. Chi costruisce soluzioni AI non dovrebbe dover diventare esperto di data engineering per creare applicazioni efficaci: il suo compito è progettare la logica di business, la user experience e i workflow dell’applicazione AI. La data foundation dovrebbe fornire dati di alta qualità, ben integrati e governati, che possano essere utilizzati con fiducia.
Questa separazione netta genera due benefici. Migliora la sicurezza, perché integrazione, controllo degli accessi, qualità dei dati e governance sono gestiti in modo coerente dalla data platform e dai team dati. Inoltre, accelera l’innovazione, perché chi sviluppa AI può concentrarsi sui problemi di business invece di navigare la complessità del patrimonio dati aziendale.
In terzo luogo, è fondamentale progettare per una realtà distribuita. La maggior parte delle aziende non avrà tutti i dati in un unico luogo. Una data foundation sostenibile per l’AI deve funzionare in ambienti ibridi, multi-cloud, SaaS, operativi e analitici. Deve connettersi ai dati dove risiedono, applicare una governance coerente e fornire ai sistemi AI dati affidabili, senza duplicazioni non necessarie. Deve anche colmare un divario che molte architetture dati tradizionali non riescono a risolvere: la separazione tra sistemi analitici e sistemi operativi. L’AI ha bisogno di entrambi: i sistemi analitici forniscono storia, pattern, trend e insight curati; i sistemi operativi forniscono lo stato attuale del business (l’ultima interazione con il cliente, il livello di inventario, una transazione, una richiesta, un ordine, un segnale di rischio o un caso di assistenza). Se l’AI vede solo la vista analitica, può essere informata, ma non aggiornata; se vede solo la vista operativa, può essere aggiornata ma priva del contesto più ampio.
L’obiettivo è mettere insieme queste dimensioni senza forzare tutti i dati in un’unica piattaforma fisica. Questo consente agli sviluppatori AI di lavorare con prodotti di dati affidabili e integrati, che riflettono sia l’intelligenza storica, sia la realtà operativa in tempo reale.
Man mano che le organizzazioni distribuiscono più applicazioni AI, copilot e agenti AI, devono anche evitare di creare nuove “isole” di contesto di business. Ogni sistema AI non dovrebbe avere
la propria versione in termini di customer, revenue, rischio, prodotto, policy o stato operativo. Al contrario, una data foundation sostenibile dovrebbe fornire un contesto di business condiviso tra gli strumenti AI, in modo che agenti e applicazioni diversi ragionino sulla stessa base governata.
In quarto luogo, la governance deve essere integrata nell’architettura fin dall’inizio. Sicurezza, privacy, controllo degli accessi, lineage e auditability non devono essere aggiunti dopo il pilota, poiché sono ciò che permette all’AI di entrare in produzione in modo sicuro.
Infine, è importante misurare presto l’economia dell’AI. Molti progetti pilota falliscono non perché siano tecnicamente impossibili, ma perché diventano troppo costosi, complessi o rischiosi da gestire su larga scala. Dati disordinati o frammentati amplificano questo problema, perché i modelli devono consumare più token, effettuare più retrieval e utilizzare più risorse computazionali per risolvere ambiguità che dovrebbero essere gestite nell’architettura dati. Un’AI sostenibile richiede dati affidabili, una governance solida, accesso in tempo reale quando necessario e controlli sulle performance che mantengano i costi sotto controllo.
Le aziende che avranno successo saranno quelle che costruiranno l’AI su una data foundation progettata per garantire fiducia, velocità, governance, riutilizzo e scalabilità economica. È questo che trasforma l’AI da esperimento a capacità di business di lungo termine."