NotebookLlama per generare i podcast

NotebookLlama, un’implementazione “aperta” realizzata da Meta, della popolare funzione di generazione di podcast di NotebookLM di Google. Questo progetto sfrutta i modelli Llama di Meta per la maggior parte dell’elaborazione, consentendo agli utenti di generare sintesi in formato podcast a partire da file di testo caricati, in modo simile a quanto offerto, appunto, da NotebookLM.

Il funzionamento di NotebookLlama prevede diversi passaggi. In primo luogo, il sistema crea una trascrizione del file di input, che può essere un PDF di un articolo di giornale o un post di un blog. Successivamente, aggiunge elementi di “drammatizzazione” e pause strategiche prima di inviare la trascrizione a modelli text-to-speech di tipo open-source per la generazione dell’audio finale.

Attualmente, i risultati ottenuti con NotebookLlama non raggiungono la qualità di quelli prodotti da NotebookLM di Google. Nei campioni ascoltati, le voci generate presentano una marcata caratteristica robotica e tendono a sovrapporsi in punti inaspettati. Tuttavia, i ricercatori di Meta che stanno sviluppando il progetto ritengono che la qualità possa essere migliorata utilizzando modelli più robusti.

Sulla pagina GitHub di NotebookLlama, hanno evidenziato come il modello text-to-speech rappresenti il principale limite per la naturalezza del suono. Inoltre, hanno suggerito un approccio alternativo per la scrittura del podcast, che prevederebbe l’utilizzo di due agenti in grado di discutere l’argomento di interesse e generare la scaletta del podcast in modo collaborativo, anziché affidarsi a un singolo modello.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *