Paolo Monella Post-doc bourse Accademia dei Lincei, Rome 2012

Working notes

For the talk In the Tower of Babel: modelling primary sources of multi-testimonial textual transmissions (see more materials on this talk here).


Table of contents:
 1. Random notes
 2. Some bibliography
 3. Random thoughts on modelling
 4. TEI stuff (in English)


 *******************
 * 1. RANDOM NOTES *
 *******************

sgn

A minimally distinctive unit of writing in the context of a particular writing system.

http://www.tandfonline.com/doi/abs/10.1080/00379818209514199
http://www2.fcsh.unl.pt/docentes/aemiliano/CV/ficheiros/pub-03.pdf

5-7
9-12
vail
vase
vaum
vaut
veil
vein
veir
veire
ven
ver (2 lemmas)
veu(e
vice
vie (2 lemmas)
vien
villes
vine (2 lemmas) *
vire (2 lemmas) *
vis (many lemmas) *
(cerca anche vo e vu)


loue

1
(a) A hill or mountain


2
(a) Fire, flames; also, a flame; 
(a) A fire; a conflagration;
Light, flash of light;

3
(a) A low place; a valley
(a) A person, or persons, of low degree;
A lowly state or condition, abjectness
(a) A soft (not loud) sound;

love

1 (short o)
(a) Love
2 (long o)
(a) Remainder, rest; 
3 (long o)
(a) The palm of the hand;

lone

(a) That which is lent or owing;
A spiritual or material gift of God, God's help or grace
A contribution to public finances
Concealment, shelter;
(adj.) Single, isolated, unaccompanied, by oneself.



vine (1)	(a) Any plant of the genus Vitis
		(b) a vineyard
vine (2)	A siege engine of some kind, prob. a movable shelter [plural: wines]

wine (1) (a) A comrade in arms; a friend; also, a blood relation, kinsma
wine (2) (a) An alcoholic drink

Benskin, Michael. “The Letters þ and y in Later Middle English, and some Related Matters.” Journal of the Society of Archivists 7 (1982): 13-30.

Scripto-Linguistic Change
Emiliano, A. “Latin or Romance? Graphemic Variation and Scripto-Linguistic Change in Medieval Spain.” In Latin and the Romance Languages in the Early
Middle Ages, ed. R. Wright, 233-47. London: Routledge, 1991. 233-47.


semi-automatic procedure

Omographs
Context: caro est (caro est
intepretive act

How did we realise we were in the tower?
Print edition
Human intuition
Digital edition
Formalisation

Meulen and Tanselle (1999) have used
the word transcription in opposition to critical text
as possible parts of an edition (p. 203).

Gabler (2007) seems to imply that transcriptions
and diplomatic editions are the same thing,
speaking as he does of ‘diplomatic transcription’
 (p. 204). 

transizione dell'ediz diplomatica da print a digitale

(Vanhoutte,
 2000;
McLouglin, 2010; Rehbein, 2010)


 2 - 4
 L E
 K IC

Outshadowed/greyed out text
	grigio (non grigio chiaro)
Outshadowed graphemes
	giallo 6

Formatting for text in slides (font size: 40)
	giallo: graphemes
	verde 8: letters (alphabetical units)
	ciano chiaro: words (lingusitic level)
	arancione 3: code (in basso a destra)
	magenta chiaro: higher than words (lemmas etc.)
Text samples
	background: nero
	border: grigio
Special commentary areas
	background: grigio chiaro
	text: nero

Right/wrong
	rosso chiaro: right
	verde 8: wrong


A751 ꝑ LATIN SMALL LETTER P WITH STROKE
THROUGH DESCENDER


→ Robinson (one slide)
→ Orlandi? (one slide)

- links
	Call for papers
		http://www.digitalclassicist.org/wip/wip2012.html
	Programme
		http://www.stoa.org/archives/1528
	http://www.mufi.info/
	http://en.wikipedia.org/wiki/Scribal_abbreviations ('examples' list at the end)
	http://www.canterburytalesproject.org/pubs/transguide-MI.pdf

→ non dimenticare di guardare:
	- TEI SIG
	→ vd.  in  nelle guidelines
- espansioni possibili:
	- vd. come essere 'consistent' nella distinzione tra livelli testuali
	  a livello di markup effettivo TEI. Tenere d'occhio elementi TEI interessanti.
	  vd sezione "TEI elements" sotto

- metti in biblio l'articolo (che è in google/review) di M. Terras
	- su come codificare i segni manoscritti al livello degli strokes

Erano aperti:
→ http://www.tei-c.org/About/Archive_new/ETE/Preview/huitfeldt.xml
→ pierazzo 2011
→ http://etjanst.hb.se/bhs/ith//1-99/ev.htm
→ http://www.tei-c.org/About/Archive_new/ETE/Preview/driscoll.xml
→ http://www.tei-c.org/About/Archive_new/ETE/Preview/wittern.xml
→ http://www.tei-c.org/About/Archive_new/ETE/Preview/durusau.xml
→ http://www.tei-c.org/About/Archive_new/ETE/Preview/lavagnino.xml
→ http://www.tei-c.org/About/Archive_new/ETE/Preview/kiernan.xml
→ http://www.tei-c.org/About/Archive_new/ETE/Preview/rosenberg.xml
→ http://www.tei-c.org/About/Archive_new/ETE/Preview/mcgann.xml

→ vd. biblio interessante da Pierazzo 2011, tra cui:
	x mcgann?
	x... sperberg mcqueen 2008 (teach how to swim risposta a robinson-solopova 2003)?
→ vd. e metti in jabref biblio interessante da TEI/MLA 2006 che sto spulciando
	→ Driscoll e Robinson è già in per jabref
	→ sto leggendo Huitfeld

- transcripteur
	- http://tei-eclipse.gforge.inria.fr/transcripteur/
	- fonte citazione: Pierazzo-Stokes 2011 ('Putting')
	- metterlo in JabRef

- poi ricomincia a spulciare la francese nel pdf grosso prima di p. 250
	- iniziato 10.24 (non più di mezz'ora max, meglio 15 min.) - fatto pausa alle 10.29 dopo l'intro.
	 conviene leggere Robinson-Solopova 1993 prima (la francese fa rifermento ad esso)
→ robinson-solopova 2003
→ poi leggi o almeno segnati saggio pierazzo stokes

→ vd. un po' http://epierazzo.blogspot.it/2011/10/role-of-technology-in-scholarly-editing.html


 ************************
 * 2. SOME BIBLIOGRAPHY *
 ************************

- Importanti:
	→ Orlandi 120-144
	→ Bodard-Garces
	→ driscoll (levels)
- Newly found:
	- stutzmann2011paleographie
	→ robinson1993guidelines
	→ pierazzo-stokes nella miscellanea tedesca 2011? (no) o solo pierazzo2011rationale (sì)
- Velocemente
	→ Robinson 2005 (ma già letto allora e riassunto in Orlandi) [...]
	x Robinson in MLA (i 5 punti etc.): velocemente
	x insomma, spulciare i vari Robinson (soprattutto Robinson 1993 sulla codifica dei grafemi)
	- Haugen (abstract: do we need...?; già letto allora)
- Da non leggere
	- vd. se c'è altra biblio nell'email di Chiara Salvagni
	- I due paleografi citati da Mordenti
- TEI
	- Manuscripts SIG e  
		- dal blog di E. Pierazzo
				→ blog post At the TEI Technical Council: Genetic Criticism Encoding
					http://epierazzo.blogspot.it/2011/11/at-tei-technical-council-genetic.html
					che rimanda al draft di un nuovo modulo sull'edizione genetica in
					http://www.tei-c.org/Activities/Council/Working/tcw21.html
					(l'elemento )
				→ saggio Pierazzo/Stokes (citato con dettagli bibliografici nel post di cui sopra) in
					http://kups.ub.uni-koeln.de/4337/
				- blog post genetic criticism at work (Proust)
					http://epierazzo.blogspot.it/2012/05/genetic-encoding-at-work.html
		- dal sito TEI
			- http://www.tei-c.org/SIG/Manuscripts/
			- http://www.tei-c.org/SIG/Manuscripts/genetic.html
			- occhio a questo trhead sul cap. 11 nella mailing list:
				- http://lists.village.virginia.edu/pipermail/tei-council/2011/014292.html
	- gruppo d'interesse MSS (Malte Rehbein)
	→ modulo trascrizione fonti primarie
	x modulo app crit
	→ la parte sulla resa dei 'caratteri particolari'
		→ vd.  in  nelle guidelines


 ***********************************
 * 3. RANDOM THOUGHTS ON MODELLING *
 ***********************************

Algoritmi di compressione: "15 volte 'x'" equivale a "xxxxxxxxxxxxxxx" ma è più breve. Quindi si potrebbe anche usare il markup tipo  invece di ripetere il testo di due livelli orlandiani su due colonne (come in Machiavelli). 
A questo punto bisogna (TEI) affidare la conversione testo diplomatico → normalizzato al software ben istruito (in linea di principio non è un problema). Huitfeld (Nachlass) ha scelto di avere un source unico. Anche Google toglie la punteggiatura (e non so come gestisce normalization/normalisation).
Ma:
	- si sposta semplicemente la codifica della distinzione tra i due livelli dal markup al software
	- cmq Lou Burnard dice che questo non è possibile (che il software passi dal diplomatico al normalizzato)
	- questo presuppone che gli algoritmi riproducano esattamente le due colonne orlandiane
	  Siamo sicuri che succeda, alla luce delle problematiche [che ho appuntato nei fogli a Roma mentre
	  preparavo Where]?
	  Spesso per questo si usa XSLT (che è software). Ma esso è pensato soprattutto per
	  operare sugli elementi testuali, non sui caratteri/entità (grafemi/alphabetical units)


Punteggiatura e divisioni tra parole.
Un buon esempio per mostrare il punto Babel: un punto e virgola medievale (o Secentesco) non è un nostro punto e virgola, anche se ci assomiglia (rischio analogico/Unicode).
Coi testi classici la cosa è ancora più evidente, dato che originariamente non avevano punteggiatura e spesso neanche divisione tra parole (o versi). Coi testi classici si svela l'inganno celato dietro quelli medievali (e ancor più quelli moderni): la punteggiatura *va* ricreata (Babel), così come anche l'alfabeto.
Orlandi: fanno parte del testo.
Espen Ore: sono markup.
Sir Greg: sono accidentals (rifarsi all'uso del copy-text).
Nei testi medievali (ma già bizantini) c'è, quindi in quel caso autore e copista usavano punteggiatura. Ma è diversa dalla nostra, incompatibile. Può però dare l'illusione (dato che ci somiglia) di poter essere riprodotta con Unicode sia al livello diplomatico (grafematico) sia a quello normalizzato (linguistico).
Nei testi classici antichi non c'era, mentre c'era nei loro manoscritti medievali. Che fare?
1. livello diplomatico/grafematico: riprodurre (ma solo analogicamente/Unicode?) quella dei MSS medievali (ma sarebbe meglio fare la TS di Orlandi);
2. livello normalizzato/linguistico: ricrearla da capo.

Dal glossario Unicode:
Letter:  An element of an alphabet (molto simile a Character)
Grapheme: A minimally distinctive unit of writing (per Stokes sta sopra Character, perché Character, almeno nel senso 3, distingue tra maiuscolo e minuscolo)
Character: The smallest component of written language that has semantic value; refers to the abstract meaning and/or shape, rather than a specific shape (see also glyph)
Glyph: in Unicode è comunque un glifo ben preciso (Stokes parla di 'graphs')
Logograph: primarily represents a word (or morpheme) in contrast to a sound or pronunciation (mentre 'ideograph': concetto)

Orlandi 2010, 50: tante TS quanti sono i sottosistemi

1. Sign Table of linguistic sub-system [NO TABLE: IMPOSSIBLE TO ESTABLISH RIGHT COLUMN].
Input - right column -: [thoughts?]
	encoded as: [not encoded (better); or lemmas for words (worse; it only covers lexicon)]
Output - left column -: sentences (Orlandi) / linguistic units (I: see below) / already divided in alphab. units?
	Already constituted by alphabetical units (as in Orlandi 2010, 9, last row)?
		Only in a literacy culture: not in Homer's time, where phonè was not
		divided into discrete elements like alphabetic letters
	Also: linguistic units may not be 'letters'
		but syllables (as in Mycenean culture), so a sort of alphabet
		or ideograms (as in Chinese) - so, no alphabet at all

2. Sign Table of abstract graphic sub-system (that's the machine dictionary/concordance of the document).
Input - right column -: linguistic units
	i. e. inflected words with a syntactic role
		(e. g.: lemma 'populus1' in gen. sing. masc. as modifier).
		In fact, there are further sub-systems here:
			syntax → morphology
			(e. g.: modifier → genitive)
			This should not be encoded as it belongs to the rules of the language
	encoded as:
		lemma ID + morphological code + syntactical code. For example:
		e. g. : lemma=populus1; syntax=modifier; morphology=gen,pl,m
Output - left column -: sequence of graphemes (in the MS writing/graphemic system)
	Remember that grapheme 'a' represents the alphabetic unit 'a',
		just like the corresponding sign in Sign Language does
		or like 'short followed by long' in Morse Code does
	encoded as:
		popul&ô; (a sequence of Unicode characters/XML entities)

However, Sign Table 2 might have three entries for the same linguistic unit (inflected word with syntactic role):

Input - right column -: linguistic units
		lemma=populus1; syntax=modifier; morphology=gen,pl,m (same as above)
Output - left column -: sequence graphemes
		popul&ô; (as above)

Input - right column -: linguistic units
		lemma=populus1; syntax=modifier; morphology=gen,pl,m (same as above)
Output - left column -: sequence of graphemes
		populor&û; (another way of encoding the same word in the MS)

Input - right column -: linguistic units
		lemma=populus1; syntax=modifier; morphology=gen,pl,m (same as above)
Output - left column -: sequence of graphemes
		populorum; (yet another way of encoding the same word in the MS)

3. Sign Table of material graphic sub-system

Input - right column -: graphemes
		lemma=populus1; syntax=modifier; morphology=gen,pl,m (same as above)
Output - left column -: 
		popul&ô; (as above)

Mia nota a Robinson-Solopova 1993, 1.3, dove rifiuta la trascrizione 'graphetic', degli allografi, dicendo che ci sono allografi con forma identica che rappresentano grafemi diversi:
SEMIOTICA: Qui non sono d'accordo: non bisogna livellarli (cioè considerarli lo stesso allografo, riferentesi a due grafemi diversi). Una forma di 's lunga' che istanzia un grafema 's' e una forma pur identica di 's lunga' che istanzia un grafema 'f' *non* sono un unico graphete/allografo. Sono due allografi diversi in quanto il loro contenuto/significato è diverso, così come 'o minuscola latina' e 'omicron minusc. greca' hanno spesso la stessa forma, ma sono addirittura due *grafemi* diversi perché istanziano due *unità alfabetiche* diverse (di due alfabeti diversi). Un allografo è un segno, e due segni sono uguali se hanno uguali sia il significante, sia il significato. L'uguaglianza grafica tra le due forme va codificata in altro modo.
BABEL: In più, ho una curiosità: nella stessa *mano scrittoria* ci può essere un allografo che indica due grafemi diversi? Penso che accada solo tra MSS diversi o comunque tra mani scrittorie diverse all'interno dello stesso MS. Per questo Orlandi giustamente dice che la TS (tabella dei segni) va fatta per ogni singolo manoscritto. Però ad Orlandi si potrebbe aggiungere che va fatta per ogni *mano scrittoria*. Quanto a Babel London 2012, ecco la difficoltà da cui nasce la metafora della "Tower of Babel": non solo i grafemi, ma persino gli allografi non sono confrontabili tra diversi manoscritti. L'unico livello confrontabile è quello linguistico, assumendo che i MSS condividano la stessa lingua (e addirittura lo stesso testo, partendo dalla semplificazione che un sistema linguistico rimane coerente almeno all'interno dello stesso testo).

Mia nota a Robinson-Solopova 1993, 1.4 (immagine con p-fectioû), e "UA-IDEA":
Questa 'p con trattino sotto' è interessante: non è un'abbreviazione, ma un grafema! È così che funziona la scrittura in quest'epoca: non è del tutto 'alfabetica', in un certo senso. Eppure l'alfabeto ('p_con_trattino' = 'per') doveva essere presente alla competenza dello scriba... bel problema. Ma ho pensato ad una possibile soluzione! Creiamo un'ulteriore tabella dei segni ancora più in alto dei grafemi, che unisce grafemi (ad es. 'p con trattino sotto') non ad altri grafemi (grafema 'p', grafema 'e', grafema 'r'), ma ad unità alfabetiche (u.a. 'p', u.a. 'e', u.a. 'r'). [Ma poi Orlandi mi ha spiegato che le tabelle non uniscono livelli diversi]

Altra mia nota nello stesso punto:
Avrebbero potuto identificare tre grafemi (o come li vogliono chiamare): 'r with flourish', 'u with flourish', 'n with flourish', il cui significato nella tabella dei segni non è specificato. Occhio comunque al discorso, sotto, sui macrons. In effetti anche un flourish da solo può essere un segno a sé, se così si decide e si dichiara. È il problema del trasformare il continuum della scrittura analogica nel discreto di un sistema di segni digitale. Orlandi il 16.07.2012 al telefono mi ha spiegato che il lato destro della tabella dei segni non è che una descrizione del segno, mentre il 

Mia nota a Robinson-Solopova 1993, 1.4:
Qui è chiaro che il problema è la volontà di usare un'unica tabella dei segni per tutti i MSS, mentre ognuno ha il suo 'semiotic system', come loro stessi dicevano all'inizio.

UA-IDEA:
Robinson-Solopova 1993, 1.4: loro codificano qualcosa come
&bar;fecciou¯ (dove l'ultimo è identificato come 'a mark', non come un grafema).
Io direi piuttosto:
&per;feccio&u_flourish;
Loro non lo fanno perché gli scribi non sono 'consistent' tra di loro (vd. 1.5), nel senso che questo 'flourish' ha aspetto identico su 'u' e su 'r' in MSS come Fi, mentre hanno aspetto diverso in Ellesmere. Ma se il flourish si fonde con la lettera (&u_flourish; vs. &r_flourish;), l'aspetto del solo flourish non conta. L'unità ignificativa a livello grafematico (quindi, direi, il grafema) è proprio il gruppo lettera-flourish. Il che chiarisce che non si tratta di abbreviazioni, ma di modi diversi di concepire i grafemi (senza corrispondenza biunivoca lettera-grafema).
Ma non ne sono sicuro: problema aperto.

Idea: arabo vs. latino
Anche l'arabo (moderno) ha 'flourishes', apostrofi, macrons etc. per indicare vocalizzazioni ed altro. Così anche la scrittura manoscritta medievale latina e greca (e i manoscritti a penna di ciascuno di noi). Probabilmente il punto è che la scrittura greco-latina è passata attraverso la stampa, quella araba solo più tardi (infatti ora ci sono segni distinti, 'characters' nel senso tipografico, discreti-digitali, per singoli suoni).

Problema per il modello-Orlandi (le TS):
Se un brevigrafo è un grafema (ad es. 'p' con la gambetta verso il basso tagliata da un trattino), e può indicare nella stessa mano scrittoria sia 'per' sia 'pro', allora abbiamo un grafema che può indicare diversi (gruppi di) unità alfabetiche. Come si deve comportare la TS orlandiana al proposito, a partire dalla quale si dovrebbe automaticamente risolvere un segno di livello 'inferiore' (il grafema) in uno e uno solo di livello 'superiore' (la lettera)? Ovviamente i segni inferiori rappresentano uno e uno solo segno superiore solo al livello grafico mentale [edit: non è sempre così: vd. le abbreviazioni 'dubbie' e il caso 'u-n-flourish' nei Canterbury Tales]; non al livello linguistico (vd. gli omografi: due sequenze di lettere indicano la stessa parola, come 'volo' → sostantivo o verbo). Qui la soluzione migliore per i brevigrafi diventa quella TEI, che indica volta per volta nel markup lo scioglimento: &p_dash;pro. Ma questo 'sovrascriverebbe' la TS orlandiana. O nella TS bisognerebbe indicare i due possibili 'contenuti' del grafema &p_dash;?
Ma in ogni caso questa TS sarebbe problematica comunque (forse in Orlandi non c'è), perché dovrebbe mettere a sinistra tutti i grafemi (inclusi i brevigrafi come &p_dash; e a destra le corrispondenti unità alfabetiche, e mi pare che questo non sia previsto da Orlandi). Vd. nota successiva.
Soluzione:
Orlandi al telefono il 16.07.2012 mi ha spiegato che le TS sono pure identificazioni dei segni. Hanno a sx un codice, sequenza di byte, identificativo, e a dx una descrizione del segno. Il *contenuto* di quel segno va identificato al momento della codifica, non al momento della definizione della TS.

Quali TS fare?
Forse solo:
- allografi/descrizione_aspetto_grafico_allografi
- allografi/grafemi
- gruppi_di_grafemi/'parole'_livello_linguistico (praticamente un dizionario macchina lemmatizzato del singolo manoscritto).
Probabilmente non:
- grafemi(inclusi brevigrafi)/unità alfabetiche (che sarebbe utile per il _contenuto_ dei brevigrafi; ma come fare con brevigrafi che hanno vari scioglimenti? vd. Robinson-Solopova 2003.
Orlandi al telefono il 16.07.2012 mi ha detto che le TS sarebbero virtualmente infinite, ma a un certo punto se uno fa un progetto specifico decide dove fermarsi, e dichiara cosa si lascia indietro. Il problema della TEI è che loro pretendono di avere la TS pronta prima di avere davanti il MS.

Un macron che si estende su più di un carattere non va nella tabella dei segni orlandiana con un 'codice' unico. Va codificato con un tag di apertura e uno di chisura, probabilmente. Come indicarlo nella tabella dei segni? Se comunque un macron si può indicare come segno a sé, anche un flourish potrebbe esserlo (appunto come ha fatto Robinson con il flourish finale dopo 'u', 'r' o 'n').

L'indebolimento del sistema delle desinenze in Middle English trasforma, tra i copisti, i flourish finali con valore grafematico in decorazioni.
Interessante caso di mutazione della morfologia che interferisce con il sistema grafico (mentale e materiale). È un caso ancora più complesso del genitivo -ae scritto come -e (mediev. Rome = nostro Romae) o del genitivo interpretato come locativo.

Le TS orlandiane 'post-telefonata' 16.07.2012
L'intera discussione su macrons e flourishes in Robinson-Solopova 2003 è interessante.
Spesso loro trascrivono comunque l'allografo/glifo &r_con_flourish; anche se non sanno se in quel punto preciso il flourish sia puramente decorativo o un'abbreviazione per 'e'. Quindi in pratica il segno &r_con_flourish; nella loro TS (e nelle loro trascrizioni) cos'è?
1) un grafema? (Ma ha significati grafematici solo in alcuni casi, eppure è trascritto in tutti);
2) una forma di glifo? Ma è possibile idenitificare una forma di glifo al di là di cosa rappresenta/significa? Qui la TS orlandiana sembrerebbe quasi essere d'accordo nel fare così (vd. l'esempio che gli ho fatto al telefono di &p_dash;, che può significare 'per' o 'pro'). Ma a questo punto noi diamo un codice unico (Orlandi dice: 3450) a questo 'p con trattino'. Ma questo codice 3450 *cosa* identifica? A che strato testuale siamo?
È un glifo? Ma i glifi sono infiniti.
O è un grafema? Ma un grafema è costituito da una coppia significante/significato. Il significante è uno o più allografi (una o più forme ideali). Il significato è una o più lettere alfabetiche (per i brevigrafi, più lettere).
Esempi da Robinson-Solopova 1993 (RS93 qui di seguito):
- Due minime di seguito (RS93, 3.2). Hanno un codice unico nella TS dei grafemi? Direi di no, dato che hanno chiaramente due contenuti (lettere) diversi: 'u' o 'n'. Due codici diversi nella TS, e distinti nella trascrizione.
- "The downward stroke after final consonants, represented as [segno a forma di 7]" (RS93, 4.4). Può essere un ornamento, un'abbreviazione (ad es. per 'e', ma ha vari significati grafematici, cioè indica varie lettere abbreviate) oppure un segno di punteggiatura. Se è un ornamento, *non* viene trascritto. Se ha valore di abbreviazione, viene trascritto con un suo codice nella lista dei caratteri usati. Se è un segno di punteggiatura, viene trascritto con il codice corrispondente del segno di punteggiatura ('virgule', cioè '/', che separa o frasi o versi).
- Flourishes and macrons: distinti. Nella sezione 2. di RS93 non capisco se i macron e i flourish siano caratteri a sé nel testo elettronico (quindi _accostati_ ad atri caratteri come 'p' o 'r'), o se esista un carattere come 'p con macron' (quindi, come assumo sopra, &p_with_macron;). Dalla sezione 2. mi pare di capire che i macron sono caratteri a sé che si accostano al precedente. Eppure in paragrafi come 4.7.4 sembra che si tratti di un unico carattere (Unicode? Ascii?). Provando a copiare/incollare quel carattere da 4.7.4 in gedit/LibreOffice, spunta "p!", quindi il mistero rimane.
- Se macron e flourish *non* sono caratteri autonomi, quindi esistono caratteri come "p con macron", allora non va bene perché non sono dichiarati nella tabella di segni di RS93, par. 2;
- Se macron e flourish *sono* caratteri autonomi, allora sono dichiarati nella TS di RS93, par. 2, però non hanno un valore grafemico fisso. Però, sono trascritti in quanto macron o in quanto flourish solo quando hanno un qualche valore grafemico (cioè rappresentano qualche lettera o abbreviazione); non sono trascritti (giustamente) quando non hanno valore grafemico ma puramente ornamentale.
In ogni caso, è chiaro che ci sono casi in cui va bene per Robinson (macron, flourish, segno a forma di 7 etc.) e anche per Orlandi (il brevigramma &p_con_trattino; di cui gli ho parlato al telefono) che un grafema (Orlandi dice infatti 'glifi') sia identificato (e gi sia dato in Robinson un identificativo Unicode e in Orlandi un codice) anche se ha vari contenuti. Io pensavo invece che un grafema è tale se ha una serie di allografi (realizzazioni materiali), ma un solo contenuto. A questo punto, infatti, questi 'grafemi' sarebbero molto difficili da 'ancorare', in quanto:
1) hanno vari significanti (allografi),
2) hanno vari significati (una lettera o una sequenza di lettere; ad es., &per_con_trattino; può rappresentare 'per' o 'pro').
Orlandi sembra volere una tabella di 'glifi', ma attenzione: i glifi sono infiniti. O vuole allografi? Ma la tabella degli allografi va comunque collegata alla tabella dei grafemi.

Porzioni delle edizioni di Robinson su CD-Rom disponibili online:
http://www.sd-editions.com/AnaAdditional/HengwrtEx/images/hgopen.html
http://www.sd-editions.com/AnaAdditional/millerEx/images/millerhome.html
http://www.sd-editions.com/AnaAdditional/NPEx/index.html

Problema in Robinson Miller's Tale:
Spelling database (la TS del sistema linguistico immaginata da Orlandi, ovvero dizionario macchina lemmatizzato):
http://www.sd-editions.com/AnaServer?millerEx+0+start.anv+stype=sbase
cerca 'age': 'age' con strikeout conta come uno spelling a sé in Ht(1)
http://sd-editions.com/AnaServer?millerEx+2345474+witrefs.anv
e anche Age maiuscolo conta come spelling a sé in Ry
http://sd-editions.com/AnaServer?millerEx+2345391+witrefs.anv
Qui il problema è banale: gli 'spelling' sono le varianti al livello grafemico. Semplicemente, maiuscole e minuscole, ma anche formattazione come strikeout, cambiano (ingiustamente) il grafema.

Cosa 'orlandiana' in Robinson Miller's Tale:
Spelling database (la TS del sistema linguistico immaginata da Orlandi, ovvero dizionario macchina lemmatizzato):
http://www.sd-editions.com/AnaServer?millerEx+0+start.anv+stype=sbase
allone adj.	54 occurrences, in 10 spellings
allone adv.	56 occurrences, in 13 spellings
Giustamente sono considerati lemmi diversi. Qui è intervenuta giustamente la competenza del filologo.
Orlandi dice che la collatio va fatta a questo livello (linguistico, lemmatizzato), non al livello dei grafemi (MSS spellings) né a quello dei regularised spellings.

Collation system di Robinson:
Molto interessante il confronto tra Miller's Tale, Hengwrt e Nun's Priest's Tale, che fanno collazioni a livelli diversi.
Nel Miller's Tale la collazione è fatta al livello linguistico ('orlandiana'), per cui ad es. al v. 7 'couþe'/'koude' sono diversi, ma sono considerate uguali: certein/certeyn; of₇/of; conclusions/conclusioūs, ma anche al v. 2 gnoffe/gnof:
http://www.sd-editions.com/AnaServer?millerEx+0+start.anv+stype=coll
Nel Nun's Priest's Tale, idem come il Miller's Tale.
Nello Hengwrt facsimile, la collazione è fatta al livello dei grafemi, per cui al v. 1 sono considerati diversi his/hise; (addirittura) Whan/WHan; al v. 2 &pbar;ced/perced.
http://www.sd-editions.com/AnaServer?HengwrtEx+0+start.anv → vai a Collection.
L'utente (o meglio, il ricercatore del loro gruppo di lavoro) può, in tutte queste le edizioni, scegliere a che livello fare la collazione (vd. articolo di Robinson sul rationale della loro collation).

Capitalisation
RS93 (=Robinson-Solopova 1993), 4.8 talk of emphatic/non emphatic forms in the MSS. In their TS (they don't say that explicitly, but I saw it in the online free access SGML) they distinguish betweeen electronic signs 'a' and 'A'. Are those different graphemes? Do they have distinctive value? "I" is different than "i" in an English MS, while 'cicero' is different than 'Cicero' in a Latin medieval MS, but the latter does not hold true for an ancient Roman epigraphe, so once again one needs a TS for each MS.


 ***************
 * 4.TEI STUFF *
 ***************

TEI P5 WD module ("5 Representation of Non-standard Characters and Glyphs")
http://www.tei-c.org/release/doc/tei-p5-doc/en/html/WD.html
"The glyph element is used to annotate a character that has already been defined somewhere (either in the document character set, or through a char element) by providing a specific glyph that shows how a character appeared in the original document".
Il problema sta nella parola 'show', che mostra un procedimento di imitazione analogica a schermo. In Unicode, 'glyph' è la forma astratta di uno specifico allografo (in Unicode abstract_character:glyph = per me alphabetical_unit:allograph). In realtà per Orlandi il glyph (allograph code point, per me) dovrebbe solo *identificare* (con un code point - codice di bit) un allografo, non *mostrarlo*, mentre il suo aspetto dovrebbe essere *descritto/mostrato*, a parole e/o con immagini digitali, nella parte destra della TS relativa agli allografi. Oppure, se non si codificano gli allografi ma solo i grafemi, allora tutti i possibili allografi di un MS dovrebbero essere descritti/mostrati insieme nella parte destra della TS relativa ai grafemi. Ciò non toglie che si possa usare, for transcribers' convenience, per un allografo con una certa forma un code point Unicode corrispondente ad un carattere Unicode con quella forma. Ma la definizione formale, l'identificazione precisa di quell'allografo dev'essere *dichiarata* MS per MS quando si digitalizza (cioé quando da continuo si rende discreto) il *suo* sistema grafico.

TEI WD
" (character name) contains the name of a character, expressed following Unicode conventions".
Il problema qui è che tutta l'identificazione dei caratteri in TEI è 'esternalizzata', cioè affidata alle tabelle Unicode. Come dice Orlandi, il lato sx della tabella dei grafemi (nella terminologia Unicode, 'abstract characters') viene dunque dato 'a priori', senza un'analisi del sistema grafico del MS. Il che potrebbe funzionare benissimo, se non fosse per la 'questione-Saussure' (u/v).

TEI elements
Elementi TEI importanti per distinguere (direttamente o tramite processing a partire da un sorgente unico) i livelli testuali (allografi, grafemi, livello linguistico etc.).
Vd. magari anche gli altri 'base' come riportati alla fine di Robinson-Solopova 1993.
I like the terminology used in http://www.tei-c.org/release/doc/tei-p5-doc/en/html/PH.html#PHAB (it talks of 'letters' when letters are supplied and of 'letters or signs' where graphemes are actually present in the text).
I'm using [] here instead of < >, otherwise they won't show up in the HTML file (or I should have used the &lt; and &gt; entities).
	⁊ 
		Unicode U+204A: tyrionian note. A *grapheme.
	[g]
		[code]eu[g ref="#b-er"]er[/g]y[/code]: 
		great option. "euy" are graphemes. [g/] is a *grapheme.
		the content of the element "er" is *letters: the grapheme's "sense",
		as the guidelies rightly say in
		http://www.tei-c.org/release/doc/tei-p5-doc/en/html/PH.html#PHAB
		Also, in the same section: "Note that in each case the g element may contain a
		suggested replacement for the referenced brevigraph; this is purely advisory however,
		and may not be appropriate in all cases". I like that! To sum up:
		Element 'g' = *grapheme
		Content 'g' = *letters
	[abbr]
		[abbr]eu[g ref="#b-er"]er[/g]y[/abbr]
		"The content of the abbr element should usually include the whole of the abbreviated word,
		while the expan element should include the whole of its expansion".
		Content of abbr: *graphemes (except for the content of child 'g' or 'ex'
	[expan] (used alone)
		"Alternatively, the transcriber may choose silently to expand these abbreviations,
		using the expan element: [expan]euery[/expan].
		I don't like this.
		"The content of the abbr element should usually include the whole of the abbreviated word,
		while the expan element should include the whole of its expansion".
		From this it seems that
		Content of 'expan' = *letters (except for the content of child 'am')?
		However, there are inconsistencies, like:
		[expan]eu[ex]er[/ex]y[/expan]
		where only 'ex' includes *letters, while "eu" and "y" are *graphemes. So:
		Content of 'expan' = ?!?
	[choice]
		[choice]
			[abbr]eu[g ref="#b-er"]er[/g]y[/abbr]
			[expan]euery[/expan]
		[/choice]
		Same as above for [abbr] and for [expan]. Providing both abbr and expand, though, is better,
		because 'abbr' is OK (and expan is pleonastic)
		OK
	[am]
		[abbr]eu[am]
		  [g ref="#b-er"/]
		 [/am]y[/abbr]
		[abbr]
		Content of 'am' = *graphemes
	[ex]
		[expan]eu[ex]er[/ex]y[/expan]
		[expan]
		Again: how does one understand that "eu" and "y" are *graphemes and not *letters?
		(i. e. that they are in the document and not supplied?) - But this issue regards
		'expan', not 'ex'
		Content of [ex] = *letters.
	[sic]
		[sic]goo[abbr]ɗ[/abbr][/sic]
		Content of 'sic' = *graphemes
	[corr]
		[corr]one[/corr]
		Content = ?
	[supplied]
		[supplied]we[/supplied]
		Content = ?
		
	[add], [addSpan/], [del], [delSpan/], [handNote]
		Content = *graphemes
	[listPerson]
		Content = ?
	[subst]
		See its children, 'add' and 'del'
	 [rdg]
		Problem: it can include *graphemes (if the reading comes from the MSS)
		or *letters (if it's a conjecture or a correction not in the MSS).
		Content = ?
	 [app]
		In general, I don't like the 'app crit' module, as it mixes
		*graphemes _from different sources_ with *letters coming from conjectures
	[gap],
		OK
	[surplus]
		Content = *graphemes
	[damage]
		Content = *letters
	[unclear]
		Content = *graphemes
	[mod]
		Content = *graphemes
	[metamark]
		Content = *graphemes
	[retrace]
		Content = *graphemes
	[fw]
		Content = *graphemes
	[change]
		Content = transcriber's note-like