Il contributo si propone di illustrare alcune delle risorse sviluppate all’interno del progetto TrAVaSI (Trattamento Automatico di Varietà Storiche di Italiano). Ci si concentrerà sulla creazione di corpora annotati e lessici morfologici per il miglioramento dell’accuratezza del processo di lemmatizzazione. I risultati sono ottenuti attraverso l’estensione dei dizionari morfologici e l’addestramento del modulo di lemmatizzazione con corpora rappresentativi delle varietà storiche della lingua trattate. Sono presentati i risultati di uno studio preliminare sulle tipologie di errore di lemmatizzazione riscontrate nei diversi approcci.

Trattamento automatico del linguaggio e varietà storiche di italiano: la sfida della lemmatizzazione

Manuel Favaro;
2022-01-01

Abstract

Il contributo si propone di illustrare alcune delle risorse sviluppate all’interno del progetto TrAVaSI (Trattamento Automatico di Varietà Storiche di Italiano). Ci si concentrerà sulla creazione di corpora annotati e lessici morfologici per il miglioramento dell’accuratezza del processo di lemmatizzazione. I risultati sono ottenuti attraverso l’estensione dei dizionari morfologici e l’addestramento del modulo di lemmatizzazione con corpora rappresentativi delle varietà storiche della lingua trattate. Sono presentati i risultati di uno studio preliminare sulle tipologie di errore di lemmatizzazione riscontrate nei diversi approcci.
2022
979-12-80153-30-2
TAL
corpora
lessici morfologici
varietà storiche della lingua
File in questo prodotto:
Non ci sono file associati a questo prodotto.

I documenti in IRIS sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.14085/63116
 Attenzione

Attenzione! I dati visualizzati non sono stati sottoposti a validazione da parte dell'ateneo

Citazioni
  • ???jsp.display-item.citation.pmc??? ND
  • Scopus ND
  • ???jsp.display-item.citation.isi??? ND
social impact