Guida a GattoWeb

glossario

stampa
Testi, corpora, sottocorpora, archivi bibliografici


Testi

Un testo per GattoWeb consiste nel contenuto di un file. All'interno di GattoWeb un testo è individuato univocamente da una sigla formata da uno a tre caratteri alfanumerici.

Normalmente un testo coincide con un documento letterario completo. Niente impedisce però di ripartire in più file, e quindi in più testi per GattoWeb, un'unica opera: si potrebbe ad esempio avere interesse a ripartire in tre file la Commedia di Dante Alighieri, assegnando ad ognuna delle tre cantiche una diversa sigla. Al contrario, si potrebbe inserire in uno stesso file, trattandola quindi come un unico documento, una raccolta di novelle di uno stesso autore.

Va comunque tenuto presente che ad ogni file testo è associato un record di bibliografia, quindi un unico autore, un unico titolo e via dicendo.

Ad ogni testo (testo primario) ne può essere eventualmente associato un altro (testo secondario), contenente una diversa edizione o una traduzione in altra lingua del testo di partenza: in tal caso ai contesti appartenenti al testo primario mostrati come risultato di una ricerca verranno affiancati i brani corrispondenti appartenenti al testo secondario.


corpora e sottocorpora

Un corpus è l'ambito testuale entro il quale si svolgono le operazioni effettuate con GattoWeb.

Gli elementi di un corpus sono i testi via via introdotti al suo interno. Un corpus può contenere oltre 16.000 testi e 2 miliardi di occorrenze.

È possibile raggruppare i testi di un corpus in sottocorpora definiti dinamicamente sulla base dei loro dati bibliografici. Si possono definire contemporaneamente fino a 6 sottocorpora. Uno stesso testo può appartenere a più sottocorpora.

Scopo dei sottocorpora è di restringere le operazioni di ricerca ad uno o più di essi; la selezione dei testi costituenti un sottocorpus può essere fatta combinando più dati bibliografici; una volta definito un sottocorpus questo può essere in seguito modificato operando su di esso ulteriori selezioni, aggiuntive o riduttive.

corpora e sottocorpora possono essere formati anche da un solo testo.

Le ricerche possono essere effettuate all'interno del corpus, di un sottocorpus o di una combinazione di più sottocorpora; eventuali duplicati nei risultati verranno rimossi automaticamente.

È importante avere chiaro che esiste una differenza operativa basilare tra corpus e sottocorpus: un corpus è costruito e gestito, col programma GATTO, da coloro che si sono occupati di dar vita a tale risorsa; i sottocorpora sono invece definiti dinamicamente dagli utenti, con GattoWeb, durante le fasi di interrogazione del corpus.


Statistiche di un corpus o di un sottocorpus

Si tratta di informazioni ottenibili tramite il menu Altre funzioni.. + statistiche e impostazioni del corpus nella pagina di selezione del tipo di operazione. I dati disponibili sono:


Numero di testi numero dei testi costituenti il corpus o il sottocorpus
Numero di occorrenze occorrenze (ovvero parole) complessivamente presenti nel corpus o nel sottocorpus
Numero di forme diverse forme diverse complessivamente presenti nel corpus o nel sottocorpus: il loro insieme ne costituisce il formario
Numero di lemmi impiegati lemmi diversi utilizzati per lemmatizzare il corpus o il sottocorpus: il loro insieme ne costituisce il lemmario
Numero di occorrenze lemmatizzate occorrenze complessivamente lemmatizzate nel corpus o nel sottocorpus
Numero di iperlemmi impiegati iperlemmi diversi utilizzati per iperlemmatizzare il corpus: il loro insieme ne costituisce l'iperlemmario . Poiché gli iperlemmi sono definiti globalmente a livello di corpus, questo dato non compare nelle statistiche dei sottocorpora.
Livello massimo degli iperlemmi poiché gli iperlemmi sono definiti globalmente a livello di corpus, questo dato non compare nelle statistiche dei sottocorpora.

Impostazioni iniziali del corpus

Anche queste informazioni si ottengono tramite il menu Altre funzioni.. + statistiche e impostazioni del corpus nella pagina di selezione del tipo di operazione. Si tratta di impostazioni effettuate all'atto della costruzione del corpus e non più modificabili in seguito


? e ! questi due segni di interpunzione possono essere considerati punteggiatura forte o punteggiatura debole. Solo nel primo caso operano come separatori tra periodi.
puntini di sospensione [...] anche questo segno di interpunzione può essere considerato punteggiatura forte o punteggiatura debole e solo nel primo caso opera come separatore tra periodi.
cifre arabe in forme e lemmi questa impostazione indica se gli elementi indicizzabili possono o meno essere costituiti anche dalle cifre arabe
numeri di pagina e riga in relazione a questi dati sono possibili 3 impostazioni diverse: visualizzarli sempre, non visualizzarli mai, visualizzarli solo in relazione ad alcune parti dei testi

Archivi bibliografici

Ad ogni testo incluso in un corpus è associato un pacchetto di informazioni bibliografiche (titolo, autore, edizione, sigla, ecc.), che verranno associate ad ognuno dei contesti estratti da quel testo a seguito di una ricerca.

Usando questi dati come base per selezionare singoli testi o gruppi di testi, si possono definire dinamicamente dei sottocorpora all'interno del corpus completo e restringere a uno o più di essi le operazioni di ricerca.

Numero e natura delle informazioni fornite possono variare da un corpus ad un altro.




Vai all'indice
Vai alla pagina precedente Vai a inizio capitolo Vai alla pagina successiva