[versione ridotta:]     casa  ·  deiSSi  ·  SMS  ·  iLex  ·  ENTER · corpora  ·  PhD  ·  man bar   · . . .

Engine for Textual Researchers

Usa ENTER! Cos'è ENTER?

La prima parola deve avere queste caratteristiche:
non questa non questa non questo
forma:   POS:   lemma:
La seconda rispetto alla prima deve essere
a parole di distanza e/o
in una frase diversa
E La seconda parola deve avere queste caratteristiche:
non questa non questa non questo
forma:   POS:   lemma:
La terza rispetto alla seconda deve essere
a parole di distanza e/o
in una frase diversa
E La terza parola deve avere queste caratteristiche:
non questa non questa non questo
forma:   POS:   lemma:

estrai solo una lista di frequenza

...E ora qualcosa di completamente diverso...
Selezionate uno o più caratteristiche dell'autore dei testi (tali caratteristiche possono cambiare a seconda dei corpora, queste sono quelle disponibili per il corpus VALICO)
Al momento si sconsigliano selezioni per parametri testuali: sono troppo sporche le etichette!
sesso:
tipo-forma:
scolarizzazione:
lingua-madre:
anni:




(attualmente ENTER è alla versione 0.099)

ENTER è un motore per ricerche di linguistica testuale (forse il suo primo nome, ancora usato in contesti informali, può rivelare qualcosa su come è stato costruito: Lento e Autarchico MOtore per Ricerche Testuali Elettroniche).
Cosa significa?

Semplicemente che, nato in seno ad un progetto che si propone di indagare le varietà testuali, ad ogni livello -- di genere testuale, mediale, stilistico --, è stato pensato per lavorare con testi brevi corredati da molte informazioni, molte headers.
Ma non è la sua unica specificità: è stato infatti pensato per:
  • poter essere modificato da utenti non esperti di programmazione (è comunque necessaria una minima competenza di Perl e CGI ed una certa propensione all'elaborazione di macchine Rube Goldberg);
  • presentare i risultati -- e permettere le ricerche -- in modo da agevolare il più possibile quanti si occupano in primo luogo di testualità: vengono presentati come risultati solo i testi interi, sono possibili ricerche intrafrasali o extrafrasali (da ritestare dopo il passaggio alla versione 0,096);
  • lavorare su un testo senza renderlo irriconoscibile: un testo indicizzato con ENTER rimane accessibile anche con vie tradizionali (il vantaggio? Se avete bisogno di "toccare con mano" l'origine dei risultati potete farlo, nello stesso posto nel quale lo fa il programma);
  • estrarre comodamente liste di frequenza con più termini.
Il punto di partenza di ENTER rimane comunque il lavoro svolto con CQP e tutti gli altri software sviluppati a Stoccarda (il treetagger di Helmut Schmidt, che ancora pos-tagga i testi lavorati successivamente da ENTER) o a Torino (i vari tokenizer e listati di pulizia del testo, nonché le DTD con i tag testuali).

Inoltre ENTER è un prodotto ancora giovane e per alcuni versi immaturo, per questo ha numerosi difetti (riscontrati dallo scrivente al momento della stesura di questo documento, ma senza alcuna pretesa di esaustività). Rimangono da fare/migliorare:
  • va reso più efficiente, perché è ancora piuttosto lento ("il bradipo dei motori di ricerca");
  • bisogna generalizzare i listati, per ora ancora molto legati al corpus di partenza VALICO;
  • deve essere possibile il merging tra ricerche diverse e devono essere possibili ricerche su più corpora in parallelo;
  • sarebbe utile salvare e riutilizzare (anche solo per una più rapida consultazione) le ricerche;
  • il dispositivo che sceglie automaticamente la dimensione delle pagine con i risultati non dovrebbe basarsi solo sulla quantità di risultati ma anche sulla velocità della rete al momento della richiesta;
  • in generale l'output va ripulito (questo è in realt&agave; un problema dell'input, ma faremo finta che si tratti di output);
  • sarebbe davvero molto bello permettere agli utenti di correggere le etichettature per parti del discorso o, almeno, sviluppare dei listati che permettono di aggiungere anche solo uno o due testi per volta, dalla rete e no;
  • migliorare ancora il motore di ricerca, permettendo di escludere correzioni, aggiunte e quant'altro.
Si potrà obiettare che, a fronte del lavoro che ancora rimane, forse sarebbe stato più opportuno investire la stessa quantità di tempo per imparare a conoscere bene ed eventualmente adattare altri software (l'esempio più lampante rimane Lucine, sviluppato in Java).
L'obiezione forse è fondata, ma non tiene conto del fatto che ENTER è stato creato con l'idea di un programma che non richiedesse degli informatici per successive eventuali modifiche: la sua logica rimane ancora trasparente ei suoi listati ancora piuttosto leggibili.

E poi, con cosa avremmo alimentato la nostra gioiosa tracontanza da linguisti computazionali?




Allora "alladr" Adriano, Torino, 10/02/2006, ore 22:15 ENTER è stato inventato da Adriano "alladr" Allora, che lo dedica a Silvio e Giuditta.
Sapere che c'è una strada da cercare è stato l'insegnamento più importante.