È la biblioteca d’Alessandria della ricerca sul coronavirus: più di 24mila articoli scientifici raccolti nel Covid Open Research Dataset, che include anche altre fonti come bioRxiv e medRxiv, dove gli scienziati pubblicano gli articoli scientifici ancora in bozza non rivisti dai colleghi. I lavori coprono tutto quello che riguarda il Covid-19 (il nome scientifico della malattia), SARS-CoV-2 (il nome scientifico del coronavirus) e tutti gli altri membri della famiglia dei coronavirus.
Il database è stato creato su richiesta dell’Ufficio per le politiche scientifiche e tecnologiche della Casa Bianca grazie alla collaborazione di tre diverse istituzioni statunitensi. La National Library per la medicina, presso l’Istituto nazionale per la Sanità Usa; Microsoft che ha fornito i suoi algoritmi per curare le raccolte di letteratura scientifica e trovare gli articoli rilevanti; e infine la organizzazione non profit Allen Institute per l’Intelligenza Artificiale (AI2), chiamato così in onore del cofondatore di Microsoft, Paul Allen, scomparso alcuni anni fa. Il lavoro di AI2 è stato quello di convertire da pagine web e pdf in un formato strutturato che potesse essere processato dagli algoritmi di Microsoft. Adesso il database è disponibile sul sito web Semantic Scholar di AI2.
Inoltre, sino a questo momento il lavoro è stato portato avanti anche dalla stessa AI2 che ha utilizzato lo stesso servizio di Semantic Scholar applicato attraverso tutta la letteratura scientifica e accademica, che permette cioè di processare l’insieme degli articoli utilizzando le stesse tecniche di estrazione e analisi delle informazioni che vengono utilizzate per trovare le informazioni più rilevanti ai fini dell’organizzazione della ricerca: autori, metodi di ricerca, data della pubblicazione e citazioni. Questo permette ai ricercatori di valutare rapidamente la relativa novità e importanza di ciascun documento e la sua originalità, ricollegandoli agli altri e accelerando fortemente il tempo di ricerca.
Semantic Scholar utilizza anche due sistemi di ultimissima generazione per la modellazione del linguaggio naturale: Elmo e Bert, in maniera tale che possano essere mappate le similarità tra i differenti articoli di ricerca e riorganizzati più velocemente. Questa mappatura permette adesso di creare dei flussi di ricerca personalizzati sugli interessi specifici di ciascun ricercatore.
L’aspetto più importante di questo lavoro portato avanti da AI2 con Microsoft e l’Istituto nazionale per la salute americano è la possibilità di far lavorare gli scienziati in maniera più veloce per riuscire a trovare un vaccino o dei farmaci antivirali capaci di contrastare l’effetto della pandemia di coronavirus. Il database permette non solo di consolidare la ricerca esistente su questo tema in un unico posto ma permette anche di avere un accesso più immediato e diretto, utilizzando richieste formate in linguaggio naturale, sull’intero corpus scientifico.
L’Ufficio per le politiche scientifiche e tecnologiche della Casa Bianca ha fatto una richiesta pubblica rivolta a tutti i ricercatori di sistemi di intelligenza artificiale affinché realizzino nuovi sistemi che permettano di fare ricerche di testo e dati in maniera più efficiente ed efficace per poter aiutare la comunità medica a esplorare la letteratura scientifica più rapidamente.