Guida a GattoWeb

glossario

stampa
Cooccorrenze


Tipi di ricerche di cooccorrenze previsti in GattoWeb


Ricerche di prossimità

Vengono cercati tutti i brani in cui due o più parole si trovano a distanza ravvicinata tra di loro. Le parole possono essere disposte in qualunque ordine, salvo rispettare i vincoli imposti dalle opzioni; in particolare dovranno essere tutte comprese entro un intervallo massimo di N parole (incluse le parole estreme). N vale in partenza 10 ma può essere ridotto agendo sull'opzione entro parole di testo.

Ad esempio, la ricerca di casa madre cercherà tutti i brani nei quali una occorrenza della parola casa compare a distanza non maggiore di N parole (nel senso spiegato prima) da una occorrenza della parola madre.


Ricerche di stringhe

In questo caso si cerca una sequenza di parole, che devono comparire consecutivamente, nell'ordine in cui sono riportate.

Ad esempio, la ricerca di "casa madre" cercherà tutti i brani nei quali compare l'esatta sequenza ...casa madre....


Ricerche combinate di prossimità e stringhe

Si tratta di ricerche di prossimità nelle quali gli elementi cercati anziché singole parole possono essere delle stringhe (nel senso definito nel caso precedente). Gli elementi devono ancora rientrare complessivamente in un'area di testo non maggiore dell'intervallo di ricerca e possono trovarsi disposti in ordine qualunque, ma le parole costituenti le stringhe sono mutuamente vincolate.

Ad esempio, una ricerca di questo tipo potrebbe essere chiesa "casa madre" "ordine religioso": in questo caso la ricerca ha successo se localizza la stringa casa madre in prossimità dell'altra stringa ordine religioso e della parola chiesa; le due stringhe e la parola possono susseguirsi in un ordine qualunque ma devono essere comprese complessivamente entro 10 (o meno) parole di testo.



Criteri adottati per definire le cooccorrenze da estrarre dai testi


Questo paragrafo contiene una discussione di natura essenzialmente teorica su quali combinazioni di occorrenze si debbano effettivamente considerare cooccorrenze valide a partire da quanto richiesto dall'utente. La sua lettura non è necessaria al fine di imparare ad effettuare ricerche di cooccorrenze con GattoWeb.

L'argomento trattato può sembrare abbastanza scontato e di scarso interesse poiché dal punto di vista intuitivo è piuttosto facile stabilire un legame preciso tra la ricerca pensata e le combinazioni di parole da assumersi come cooccorrenze accettabili rispetto ad essa.

In realtà la ricerca pensata va poi tradotta concretamente in una stringa digitata, da fornire al calcolatore; questo deve poi basarsi (solo) sul comando così introdotto per analizzare le combinazioni di parole effettivamente presenti nei testi, combinazioni che possono presentare intrecci non sempre previsti dall'utente. Un esempio per tutti: partendo dalla richiesta c* *i chi, che indica la ricerca di cooccorrenze formate da 3 parole, una iniziante per c, una terminante per i e una coincidente con la forma chi, la frase ...chi vi crede... costituisce o no cooccorrenza? No, se si considerano le parole nell'ordine con cui compaiono, perché chi è in accordo con c*, vi è in accordo con *i, ma crede non lo è con chi; sì se si associa la prima parola (chi) con la terza parte della stringa (chi), la seconda parola (vi) con la seconda parte (*i) e la terza (crede) con la prima (c*): in questo caso il programma dovrebbe analizzare 27 possibili combinazioni per vedere se almeno una di esse è in accordo con la richiesta.

Sempre riflettendo sul caso precedente è anche possibile che più combinazioni delle stesse parole presenti in uno stesso intervallo di ricerca siano in accordo con la richiesta: a quel punto, quali e quante di queste combinazioni vanno assunte come cooccorrenze distinte, da mostrare come eventi diversi?

La questione acquista particolare rilievo nel caso di cooccorrenze includenti forme ad alta frequenza per le quali è facile che si possano trovare più occorrenze poste a distanza ravvicinata. In questo caso da un lato bisogna evitare la mancata segnalazione di eventi che si intendono comunemente come cooccorrenze, dall'altro va quanto meno minimizzata la ripresentazione delle stesse associazioni di parole in prossimità tra di loro, all'interno di più cooccorrenze considerate dal programma come distinte. Ad esempio, nella ricerca di cooccorrenze tra due forme, la presenza nello stesso intervallo di ricerca di 2 occorrenze della prima forma e di 3 della seconda potrebbe dare origine, in linea teorica, a 6 cooccorrenze, la cui visualizzazione separata si tradurrebbe nella ripresentazione, per ben 6 volte, dello stesso brano di testo: appare ragionevole in questo caso evidenziare simultaneamente tutte le 5 parole nell'ambito di un'unica visualizzazione, lasciando all'utente il compito di selezionare ciò che ritiene di effettivo interesse; naturalmente in questo caso l'evento complessivo che viene mostrato corrisponde al senso generale di ciò che si stava cercando, ma non soddisfa in senso stretto i vincoli fissati nella stringa di ricerca impostata (che di per sé richiedeva la presenza di 2 sole parole rilevanti e non di 5), e alcune delle combinazioni che si possono ottenere con le parole evidenziate potrebbero non avere nulla a che vedere con le cooccorrenze cui si sta pensando. Problemi più complessi si possono avere nel caso di presentazione ripetuta delle diverse forme cooccorrenti in un ambito di lunghezza complessiva di poco superiore all'intervallo di ricerca (es. nell'arco di 15-16 parole, per cooccorrenze definite entro il limite di 10 parole).

Per garantire l'estrazione di tutta l'informazione, eliminando nel contempo il rumore, sono stati adottati i seguenti criteri:

1. tutte le occorrenze di parole incluse tra quelle cercate, che rientrino nell'intervallo di ricerca della cooccorrenza e che soddisfino i vincoli posti, sono evidenziate come appartenenti alla cooccorrenza (ad esempio, la ricerca della cooccorrenza di che e la potrà fornire tra le cooccorrenze trovate la cooccorrenza …che…che…la…);

2. due cooccorrenze diverse devono differire per almeno una parola evidenziata;

3. nessuna cooccorrenza può risultare inclusa in un'altra, ciò significa che alcune ma non tutte le occorrenze componenti possono comparire simultaneamente in un'altra cooccorrenza.




Vai all'indice
Vai alla pagina precedente Vai a inizio capitolo Vai alla pagina successiva