Guida a GattoWeb

glossario

stampa
Concetti base

Vai all'indice



"Occorrenza", "forma", "lemma"

Per forma si intende ogni singola parola, distinta dalle altre esclusivamente in base all'assetto grafico, che può occorrere un qualsiasi numero di volte in un corpus o in un testo.

Il concetto di forma non deve essere confuso con quello di occorrenza, che rappresenta un evento, ovvero una singola comparsa di una forma in un testo.

Perciò, ad esempio, il brano "suona alla porta e porta alla famiglia due pacchi" è costituito complessivamente da 9 occorrenze di 7 forme in totale:

una occorrenza della forma suona,

due occorrenze della forma alla,

due occorrenze della forma porta,

una occorrenza della forma e,

una occorrenza della forma famiglia,

una occorrenza della forma due,

una occorrenza della forma pacchi.

L'elenco delle forme diverse presenti in un corpus è racchiuso in un archivio detto formario. In esso non viene fatta differenza tra lettere maiuscole e minuscole, per cui ad esempio le stringhe Paolo, paolo e PAOLO sono riferite alla stessa forma, registrata nel formario come paolo.

Le forme possono essere monorematiche o polirematiche. Normalmente tutte le parole prelevate dai testi sono considerate forme monorematiche; appositi codici permettono di raccogliere più parole di testo in forme polirematiche, trattate e lemmatizzabili come un tutt'uno. Ad esempio la stringa "Nicola di Bonaccorso" genera normalmente nel formario le 3 forme "nicola", "di" e "bonaccorso", lemmatizzabili e ricercabili separatamente; se la stringa era stata invece racchiusa tra i codici che definiscono una forma polirematica, GATTO memorizzerà nel formario l'unica forma "nicola di bonaccorso".

Una forma può essere costituita da una qualunque sequenza di lettere, con o senza diacritici. In fase di creazione di un nuovo corpus è possibile specificare se si vuole che le forme possano o meno contenere anche le cifre arabe; nel primo caso tutti i numeri presenti nei testi del corpus, così come le eventuali sequenze miste di lettere e cifre, verranno indicizzati.

Il lemma è l'elemento cui viene riportato un insieme di forme che si distinguono fra loro soltanto per l'entrata lessicale (varianti grafiche, con o senza valore di varianti fonetiche) e/o perché sono forme della flessione dello stesso verbo o sostantivo o aggettivo. Corrisponde di regola, ma non necessariamente, ad un'entrata di vocabolario.

L'insieme dei lemmi utilizzati nel corpus ne costituisce il lemmario. All'interno del lemmario tutti i lemmi vengono memorizzati in caratteri minuscoli, quindi non si fa distinzione fra lettere maiuscole e minuscole mentre è possibile tenere distinti lemmi omografi precisandone le categorie grammaticali (vedi nota); ad ogni lemma è poi associabile una stringa disambiguatrice, detta appunto disambiguatore, da usare in presenza di lemmi omografi aventi anche uguale categoria grammaticale; infine, ad ogni lemma è associabile un breve commento, il quale è un attributo il cui contenuto è regolarmente visualizzato, ma che non contribuisce a definire il lemma o a distinguerlo dagli altri. In sostanza, affinché in GATTO e GattoWeb due lemmi siano riconosciuti come distinti essi devono differire per l'entrata lessicale e/o per la categoria grammaticale: nel caso di due lemmi diversi ma caratterizzati da uguaglianza di entrambi questi elementi è possibile introdurre nel campo disambiguatore di uno di essi o di entrambi stringhe arbitrarie finalizzate a distinguerli. Mentre nel definire un nuovo lemma entrata lessicale e categoria grammaticale vanno obbligatoriamente assegnati, disambiguatore e commento sono attributi facoltativi.

Quando in fase di lemmatizzazione si associa un lemma ad una specifica occorrenza di una forma, viene creata un'associazione lemma-forma valida in tutto il corpus, che permetterà di risalire alla forma partendo da una ricerca per lemmi, e viceversa. Effettuando una ricerca a partire da un lemma si potranno localizzare le occorrenze di tutte (o alcune delle) forme collegate ad esso; sarà inoltre possibile, volendolo, restringere o meno la ricerca alle occorrenze specificamente lemmatizzate col lemma in questione, a quelle non lemmatizzate o a quelle lemmatizzate con altri lemmi.

L'insieme dei lemmi associati ad una forma nell'ambito di un corpus ne costituisce il dizionario di macchina.

Un lemma può essere costituito da una qualunque sequenza di lettere, con o senza diacritici.


nota

Il campo categoria grammaticale può essere riempito con dati di natura diversa, a scelta di chi costruisce il corpus; non può invece essere lasciato vuoto. In alcuni corpora anche il nome del campo è stato modificato, ad esempio in categoria lessicale.





Vai all'indice
Vai alla pagina precedente Vai a inizio capitolo Vai alla pagina successiva