La qualità di un assistente AI dipende più dalla knowledge base che dal modello. Documenti disordinati, duplicati o non aggiornati producono risposte sbagliate per quanto buono sia l'LLM. Progettare la knowledge base è progettare le risposte.
Garbage in, garbage out
Il RAG recupera ciò che gli dai. Se la fonte è obsoleta, contraddittoria o piena di rumore (intestazioni, boilerplate, versioni vecchie), il modello risponderà di conseguenza, con sicurezza. Pulire e strutturare le fonti è il lavoro che paga di più.
Progettare documenti per il retrieval
I documenti pensati per gli umani non sono ottimali per il retrieval. Conviene strutturarli in unità autocontenute, con titoli chiari e senza dipendenze implicite dal contesto del documento intero.
- Una sezione = un'idea autocontenuta
- Titoli espliciti e coerenti (ottimi per il chunking)
- Rimuovi boilerplate, intestazioni ripetute, contenuti scaduti
- Versiona: una sola fonte di verità per ogni informazione
Aggiornamento e permessi
Una knowledge base è viva: cambia, e con essa devono cambiare gli indici. Serve un processo di reindicizzazione quando i documenti si aggiornano, e metadata di permesso per garantire che il retrieval rispetti chi può vedere cosa.
fonti → pulizia → chunking → embedding → indice vettoriale↑ versioning ↑ metadata (fonte, data, permessi)query utente → retrieval filtrato → contesto → risposta citata
In sintesi
- La knowledge base conta più del modello: garbage in, garbage out.
- Struttura i documenti in unità autocontenute con titoli chiari.
- Una sola fonte di verità per informazione, versionata.
- Reindicizza agli aggiornamenti e applica permessi tramite metadata.
FAQ tecniche
Posso buttare dentro tutti i documenti aziendali?
È il modo più rapido per ottenere un RAG mediocre. Selezionare fonti autorevoli, rimuovere duplicati e versioni vecchie e strutturare i contenuti dà risultati molto migliori di un mucchio indistinto.
Ogni quanto va aggiornata?
Quando cambiano le informazioni di riferimento. L'ideale è una reindicizzazione automatica collegata agli aggiornamenti delle fonti, così le risposte non restano indietro.