Guida a GattoWeb

glossario

stampa
Introduzione a GattoWeb

Vai all'indice



Scopo di GattoWeb

Dal 1985, col nome Centro Studi Opera del Vocabolario Italiano, l'attuale Istituto Opera del Vocabolario Italiano (OVI) del CNR ha ereditato dall'Accademia della Crusca il compito di realizzare il Vocabolario Storico della Lingua Italiana. Il progetto iniziale era quello di un vocabolario che andasse dalle origini ai giorni nostri. In seguito apparve evidente che, data la limitatezza delle risorse disponibili, era opportuno procedere concentrandosi inizialmente sulla sezione cronologica antica, ovvero il Tesoro della Lingua Italiana delle Origini, limitando per il momento le risorse destinate alle fasi successive. Sulla base di queste premesse, il lavoro svolto all'OVI prende le mosse da ciò che è edito in modo ragionevolmente affidabile e che interessi la lingua dei primi secoli, valutabile in circa 22 milioni di occorrenze. Si tratta di tradurre in formato elettronico questa vasta documentazione, previo un lavoro filologico sui testi che va dalla verifica dei criteri editoriali (necessaria per alcune indispensabili regolarizzazioni, ad esempio delle parentesi) fino talvolta ad una vera e propria verifica testuale. Nel contempo i testi vengono corredati delle necessarie codifiche. A quel punto è possibile inserirli nel corpus testuale dell'OVI. La successiva operazione da effettuare è quella della lemmatizzazione. In assenza della possibilità di interrogare il corpus per lemmi il redattore è costretto a reperire il materiale cercandolo tra tutte le varianti grafiche che una forma può assumere; questa strada comporta elevate perdite di tempo e incertezza sulla completezza del risultato. L'inserimento della lemmatizzazione è in grado per contro di imprimere una drastica accelerazione al lavoro. Il corpus, una volta corredato della lemmatizzazione, diviene la fonte di informazioni utilizzata dai redattori per redigere le voci del vocabolario storico.

L'esigenza di disporre di uno strumento in grado di gestire in maniera integrata le diverse fasi del lavoro e appositamente progettato in funzione della sua peculiarità ha portato alla nascita di GATTO, il cui nome è per l'appunto un acronimo che sta per Gestione degli Archivi Testuali del Tesoro delle Origini.

GATTO è in sostanza un programma che consente la costruzione di corpora testuali, la loro successiva gestione, lemmatizzazione (ed eventuale iperlemmatizzazione) e interrogazione.

GattoWeb è la versione on-line di GATTO, nata con l'iniziale obiettivo di rendere consultabile tramite diversi tipi di interrogazione il corpus testuale che costituisce la banca dati dell'Italiano antico realizzata e gestita dall'OVI.

I tipi di ricerche effettuabili includono quelle per forme, per lemmi, per categorie grammaticali, per disambiguatori (tra lemmi omografi), per iperlemmi. I risultati ottenibili consistono nella visualizzazione delle parole localizzate nei testi con i relativi contesti, in cooccorrenze di più parole in sequenza o in prossimità, in formari, lemmari, iperlemmari o incipitari, in informazioni statistiche e bibliografiche sui testi.

Tutte le ricerche possono essere effettuate sull'intero corpus o si possono limitare a parti di esso (sottocorpora) definite dinamicamente sulla base dei dati bibliografici dei testi.

Attualmente GattoWeb gestisce vari corpora testuali e consente di navigare da un corpus all'altro, con ciò estendendo notevolmente le possibilità offerte agli utenti.

In funzione delle caratteristiche dei corpora (non lemmatizzati, lemmatizzati, iperlemmatizzati) il programma rende automaticamente disponibili le funzioni di interrogazioni adeguate.

Poiché gli scopi del programma sono di natura primariamente (ma non esclusivamente) lessicografica, non è previsto lo scaricamento totale o parziale dei testi, l'accesso ai quali si realizza tramite le finestre costituite dai contesti, limitati ad un numero ristretto di parole o periodi.


Il nome GattoWeb deriva dalla combinazione dell'acronimo GATTO con il termine WEB; come detto, il programma costituisce la versione Web, limitata alla funzione di interrogazione dei testi, del programma GATTO sviluppato all'OVI e operante su rete locale.



Relazione col programma GATTO

GATTO (Gestione degli Archivi Testuali del Tesoro delle Origini) costituisce uno strumento software che consente di costruire corpora testuali informatizzati, a condizione di disporre dei testi in formato elettronico. GATTO richiede che ai testi venga aggiunta una marcatura, peraltro molto leggera, necessaria per evidenziarne gli elementi strutturali, distinguere i contenuti da rendere interrogabili e fissare alcuni altri parametri richiesti dal programma.

I testi così preparati completi dei dati bibliografici vengono fatti acquisire dal programma, che li analizza e ne genera un corpus testuale direttamente interrogabile per forme, senza operazioni aggiuntive.

GATTO consente di effettuare ricerche non solo per forme ma anche per lemmi: a tale scopo è previsto l'utilizzo di testi lemmatizzati. La lemmatizzazione viene effettuata mediante i moduli di lemmatizzazione inclusi in GATTO.

Con gli stessi moduli è possibile procedere a una lemmatizzazione a più livelli (iperlemmatizzazione). A questo punto il corpus testuale può essere interrogato per forme, lemmi, categorie grammaticali o lessicali, iperlemmi o in altri modi.

L'accesso alla base di dati così ottenuta è possibile da singolo computer o tramite una rete locale; volendo renderlo possibile anche on-line il corpus testuale può essere trasformato in un altro del tutto equivalente, interrogabile tramite il programma GattoWeb.

Le funzioni fornite dai due programmi, a parte il diverso ambito operativo, sono pressoché identiche.

La trasformazione del corpus dal formato GATTO a quello GattWeb è quasi completamente automatica e si realizza tramite un software di supporto diverso dai due programmi suddetti.




Vai all'indice
Vai alla pagina precedente Vai a inizio capitolo Vai alla pagina successiva