Risposte all'esercitazione Altiero Spinelli
Clicca qui per leggere le domande dell'esercitazione.
- Il treebanking è l'analisi sintattica di un testo
effettuata con metodi computazionali,
ovvero la creazione di alberi chomskiani di dipendenze sintattiche.
- Per PoS tagging (Part of Speech tagging)
si intende oggi analisi morfologica di un testo effettuata con metodi computazionali.
Informazioni aggiuntive: Originariamente, per PoS tagging si intendeva
il significato letterale
dell'espressione ("etichettatura della parte del discorso"), cioè l'indicazione
della parte del discorso di ogni parola (verbo, sostantivo, avverbio etc.). Col
tempo, i PoS tagger si sono evoluti, ed oggi sono in grado di darci l'intera analisi
morfologica di una parola (ad es.: "ducat" congiuntivo presente attivo 3. singolare).
I programmi che effettuano il PoS tagging sono detti Pos tagger. Quasi sempre
effettuano anche la lemmatizzazione, per cui sono detti lemmatizzatori/PoS tagger.
-
La lemmatizzazione è la procedura
computazionale consistente nel ricondurre ogni parola di un testo al suo lemma.
-
Il codice
<w ana="12C---O3---" lemma="doctor">doctoribus</w>
marca in formato TEI XML la lemmatizzazione (attributo ana="12C---O3---"
)
e il PoS tagging
(attributo lemma="doctor"
)
della parola flessa doctoribus.
Informazioni aggiuntive:
l'elemento w
serve per marcare una parola (w
ord) in TEI XML.
-
È l'ouput (il risultato) di un lemmatizzatore/PoS tagger
La prima colonna riporta la parola flessa,
la seconda il lemma,
la terza l'analisi morfologica.
-
Un charset
è una tabella che collega una serie di caratteri ad una serie di numeri, che li
identificheranno.
Noi abbiamo studiato ASCII e Unicode.
-
Il charset Unicode contiene tutti
i caratteri del greco politonico (antico), incluse le combinazioni coi
diacritici.
-
Effettuare la
tokenization
su un testo significa distinguerlo in parole con metodi computazionali.
-
No, non è un algoritmo perché non è formalizzato.
-
XML, TEI XML, HTML, LateX, (RTF). Vedi le micro-dispense per i dettagli.
-
Vedi questa tabella.
-
Vedi questa tabella.
-
Un indice di frequenza è un indice, cioè una lista
dei token (parole) di un testo riportate ciascuna una sola volta, in cui
accanto ad ogni parola è indicato il numero di volte in cui ricorre nel testo, oppure
la percentuale delle sue occorrenze rispetto al totale delle parole.
-
La ricerca testuale "parola1" AND "parola2"
restituirà solo i passaggi testuali
in cui siano presenti entrambe le parole.
La ricerca "parola1" OR "parola2"
restituirà tutti i passaggi in cui sia presente
anche solo una delle due parole (dunque i passi in cui si trovi solo "parola1",
più tutti i passi in cui si trovi solo "parola2", oltre, naturalmente,
ai passi in cui siano presenti entrambe le parole).
La ricerca "parola1" NOTE "parola2"
riporterà ogni passaggio in cui sia presente "parola1", purché in tale
passaggio non sia presente "parola2".
In altre parole, tutti i passaggi in cui sia presente "parola2"
sono esclusi dai risultati, anche se vi si trova "parola1".
-
Vedi le micro-dispense.
Quest'opera è distribuita con Licenza Creative Commons Attribuzione - Condividi allo stesso modo 4.0 Internazionale.