Ibm ha assegnato un Faculty Award, riconoscimento in denaro per
favorire ricerche di rilievo e per promuovere la collaborazione tra
Ibm e università, al gruppo di ricerca Art della Professoressa
Maria Teresa Pazienza dell’Università di Roma Tor Vergata. Il
progetto premiato riguarda le tecnologie del linguaggio naturale,
ed in particolare lo sviluppo di un analizzatore robusto e
scalabile per la lingua italiana. Infatti la professoressa
Pazienza, con il suo gruppo di ricerca, da anni si è dedicata allo
sviluppo di metodologie e tecnologie per l’elaborazione del
linguaggio naturale e per il Semantic Web.
Il progetto premiato mira a sviluppare sulla piattaforma Uima
(Unstructured Information Management Architecture) Chaos, un parser
sintattico precedentemente realizzato dal gruppo Art. Uima è stata
sviluppata da Ibm e successivamente donata alla Apache Foundation,
e consente a vari sistemi di elaborazione del linguaggio naturale
di interagire in modo coordinato. Uima è alla base del sistema di
question-answering Ibm Watson che sfiderà gli esseri umani al
gioco a quiz Jeopardy! nel febbraio del prossimo anno. Chaos
comprende attualmente diversi moduli di elaborazione: un tokenizer,
che abbina parole provenienti da flussi di caratteri, un modulo di
look-up che abbina entità esistenti in cataloghi, un analizzatore
morfologico che collega categorie sintattiche (eventualmente
ambigue) e interpretazioni morfologiche a ciascuna parola, e un
chunker che identifica nella superficie del testo segmenti
significativi.
Il progetto premiato è di particolare rilievo perché si propone
di costituire un asset basato su standard aperti per il trattamento
della lingua italiana. Benché l’uso del Web in Italia sia ancora
inferiore alla media europea, l’italiano è il linguaggio nativo
di circa 30 milioni di utenti, particolarmente attivi nelle reti
sociali. Questo colloca le tecnologie della lingua italiana, oltre
che nel contesto di rilevanti interessi sociali a livello
nazionale, in un mercato interessante e in crescita. Ciò
nonostante, le risorse linguistico-computazionali aperte per
l’italiano sono ancora limitate e Ibm Italia è impegnata a
colmare questa lacuna. Col sostegno all’Associazione Senso Comune
(www.sensocomune.org), che include la Prof. Pazienza tra i
referenti scientifici, si intende costituire una risorsa lessicale
aperta per la lingua italiana. Il progetto Chaos, dal canto suo, ha
proprio l’obiettivo di sviluppare tecnologie di parsing robuste e
scalabili per la nostra lingua.
La disponibilità degli asset sviluppati presso l’Università di
Tor Vergata e l’esperienza scientifica derivante dal progetto
promossa dalla Prof. Pazienza saranno una leva per la realizzazione
di applicazioni informatiche più intelligenti, nella linea delle
strategie industriali e sociali di Ibm e della ricerca scientifica
dell’Università di Tor Vergata.