Risposte all'esercitazione Altiero Spinelli

Clicca qui per leggere le domande dell'esercitazione.

Il treebanking è l'analisi sintattica di un testo effettuata con metodi computazionali, ovvero la creazione di alberi chomskiani di dipendenze sintattiche.
Per PoS tagging (Part of Speech tagging) si intende oggi analisi morfologica di un testo effettuata con metodi computazionali.
Informazioni aggiuntive: Originariamente, per PoS tagging si intendeva il significato letterale dell'espressione ("etichettatura della parte del discorso"), cioè l'indicazione della parte del discorso di ogni parola (verbo, sostantivo, avverbio etc.). Col tempo, i PoS tagger si sono evoluti, ed oggi sono in grado di darci l'intera analisi morfologica di una parola (ad es.: "ducat" congiuntivo presente attivo 3. singolare). I programmi che effettuano il PoS tagging sono detti Pos tagger. Quasi sempre effettuano anche la lemmatizzazione, per cui sono detti lemmatizzatori/PoS tagger.
La lemmatizzazione è la procedura computazionale consistente nel ricondurre ogni parola di un testo al suo lemma.
Il codice <w ana="12C---O3---" lemma="doctor">doctoribus</w> marca in formato TEI XML la lemmatizzazione (attributo ana="12C---O3---") e il PoS tagging (attributo lemma="doctor") della parola flessa doctoribus.
Informazioni aggiuntive: l'elemento w serve per marcare una parola (word) in TEI XML.
È l'ouput (il risultato) di un lemmatizzatore/PoS tagger La prima colonna riporta la parola flessa, la seconda il lemma, la terza l'analisi morfologica.
Un charset è una tabella che collega una serie di caratteri ad una serie di numeri, che li identificheranno. Noi abbiamo studiato ASCII e Unicode.
Il charset Unicode contiene tutti i caratteri del greco politonico (antico), incluse le combinazioni coi diacritici.
Effettuare la tokenization su un testo significa distinguerlo in parole con metodi computazionali.
No, non è un algoritmo perché non è formalizzato.
XML, TEI XML, HTML, LateX, (RTF). Vedi le micro-dispense per i dettagli.
Vedi questa tabella.
Vedi questa tabella.
Un indice di frequenza è un indice, cioè una lista dei token (parole) di un testo riportate ciascuna una sola volta, in cui accanto ad ogni parola è indicato il numero di volte in cui ricorre nel testo, oppure la percentuale delle sue occorrenze rispetto al totale delle parole.
La ricerca testuale "parola1" AND "parola2" restituirà solo i passaggi testuali in cui siano presenti entrambe le parole.
La ricerca "parola1" OR "parola2" restituirà tutti i passaggi in cui sia presente anche solo una delle due parole (dunque i passi in cui si trovi solo "parola1", più tutti i passi in cui si trovi solo "parola2", oltre, naturalmente, ai passi in cui siano presenti entrambe le parole).
La ricerca "parola1" NOTE "parola2" riporterà ogni passaggio in cui sia presente "parola1", purché in tale passaggio non sia presente "parola2". In altre parole, tutti i passaggi in cui sia presente "parola2" sono esclusi dai risultati, anche se vi si trova "parola1".
Vedi le micro-dispense.

Quest'opera è distribuita con Licenza Creative Commons Attribuzione - Condividi allo stesso modo 4.0 Internazionale.