Abstract

François Rastier, Arti e scienze del testo. Per una semiotica delle culture

Capitolo 3, "Filologia digitale", pp. 115-148. Mio riassunto (selettivo). Varie: Busa e l'Index Thomisticus (115-116). Linguistica di corpus (digitali, 115 ss.). Svolte testuali e normalizzazione informatica: Alessandria, filologia e linguistica, biblioteca, 116: linguistica e filologia devono andare insieme (è la tesi un po' di tutto il capitolo, e a quanto mipare di capire dell'intero libro). Digitale "terza tappa nella storia dei supporti" (p. 116; cita Rastier 1991, Sémantique et recherches cognitives, Paris, Puf). Auroux dice che la grammatizzazione avviene con la stampa (Rastier non è d'accordo). "Occorre distinguere in modo più netto fra la storia dei supporti e quella delle forme di elaborazione del linguaggio: ogni nuovo supporto consente nuove forme di elaborazione, ma non le determina" (117). R.: la grammatizzazione "resa possibile dalla scrittura e sviluppatasi con la stampa, essa continua oggi con le elaborazioni automatiche del linguaggio e le linguisithce del corpus" (p. 117). Prima, sempre a p. 117, aveva definito la grammatizzazione come "l'elaborazione di grammatiche". "L'attuale avvento della digitalizzazione sempra continuare la grammatizzazione perché esige uno sfonrzo di normalizzazione senza precedenti, ma non ha alcun rapporto privilegiato con una problematica logico-grammaticale". Come l'informatica trasforma la linguistica: Pp. 118 ss., par. 3.1.2 "L'evoluzione delle problematiche linguistiche") spiega come l'informatica sta rinnovando la linguistica, "offrendole una nuova possibilità di accedere ai suoi oggetti" (i testi, i corpora), tramite quattro movimenti convergenti: par. 3.1.2.1. l'uso di Chomsky del TAL (118-120): "enumerare l'insieme delle frasi grammaticali di una lingua"; par. 3.1.2.2. sviluppo della linguistica del corpus (120-121): scanner, creaz. di corpora (lentamente), molti corpora "costruiti senza principi definiti", ma anche alcuni a forma di albero (treebanks); par. 3.1.2.3. cresce la "domanda sociale" (121-123): aziende private e agenzie governative vogliono il TAL per motivi pratici; par. 3.1.2.4. (123-125) nascono "comunità di ricerca" come WordNet, TEI. Par. 3.2 "I campi di ricerca della filologia digitale" (125 ss.). Il digitale permette di registrare testi orali: cade la falsa distinz. tra testi scritti e orali, che già Derrida voleva demolire (p. 126); registrazioni, annotazioni scritte di testi orali registrati; testi multimediali. Importante (p. 127-129): - l'autonomia della scrittura dall'orale (punto i) - i segni paragrafematici come markup grafico (punto iii) - ciò che varia nella trascodifica è importante: trasposizione dell'espressione (orale/scritto etc.) e del significato (commento) - (punto vi). Riporto brani da pp. 127-129 (corsivi dell'autore): «[P. 127] A costo di far soffrire gli spiriti più "positivi", la filologia ricorda sempre che i testi non sono dati ma costruzioni problematiche risultanti da differenti procedure. (i) L'\_iscrizione\_ mette il testo a disposizione dei lettori su un supporto permanente, e rende in tal modo possibile la critica. Dal papiro all'hard disk, ogni supporto impone le proprie caratteristiche e crea vincoli alle modalità di segmentazione fisica - come le pagine o gli schedari. Anche se la tradizionale concezione dello scritto è sin troppo spesso tributaria del ricordo scolatico del dettato, lo scritto per natura non è una trascrizione dell'orale (e del resto esistono scritture non fonetiche d'ogni genere): esso si impone come un ordine autonomo del linguaggio". Se da un punto di vista storico l'oralità è stata forse primaria, senza dubbio non è primordiale. Che il supporto cambi o no, a ogni iscrizione il testo ne risulta modificato: se dalla trasposizione può guadagnare o perdere qualcosa, è comunque impossibile riprodurlo in modo identico. (ii) La \_costituzione\_ del tsto è il risultato di un'interpretazione [...] La costituzione può in tal modo esser considerata come un esito dell'interpretazione; o [p. 128] quantomeno, ogni versione di un testo è il risultato di un'interpretazione e ne consente di ulteriori: siamo dinanzi a una forma di circolo filologico. (iii) Un testo dipende da un sistema grafico che utilizza molteplici semiotiche: oltre alle lettere, infatti, ne fanno parte gli spazi, l'interpunzione, le articolazioni che suddividono il testo in capoversi ecc. Quella di \_tagging\_ o inserzione di contrassegni è una nozione recente, ma rispecchia una pratica antica: i caratteri rubricati e le letterine medievali erano già in un certo senso segnali - e in effetti lettere e segnali di articolazione sono due elementi complementari dei nostri sistemi grafici. (iv) [...] un testo isolato non è affatto intepretabile, ed è necessaria la \_raccolta critica\_ dei testi. [...] testualità e intertestualità sono interdipendenti: ogni testo [...] si lascia comprendere solo nell'ambito dei molteplici testi dello stesso genere e dello stesso dicorso [...]. (v) La \_caratterizzazione\_ è un esito della critica. Nella concezione documentaria a un testo viene assegnato un titolo e viene classificato, associato a descrittori [...]. [p. 129] (vi) Mentre il positivismo definiva il senso come l'invriante in una serie di transcodifiche, la semantica differenziale ritiene invece che il senso dipenda in modo altrettanto essenziale da ciò che varia nella transcodifica. Poiché, tuttavia, la nozione di codice continua ad essere troppo forte per i miei scopi, mi limiterò a definire \_trasposizione\_ il passaggio fra due semiotiche, due lingue o due discorsi. Vi sono due forme di trasposizione, che corrispondono ai due piani del linguaggio. Fra le trasposizione dell'espressione troviamo per esempio la lettura orale di un testo scritto, la scrittura di un testo orale o, semplicemente, la copia di uno scritto; la trasposizione può "perdere" informazioni, ma anche "aggiungerne" altre: proprio per questo la lettura di un testo ad alta voce è in ogni caso un'interpretazione, nel senso estetico del termine. Sul piano del significato l'interepretazione assume la forma del commento, che traspone il senso del testo commentato accrescendolo in tal modo con l'aggiunta di un nuovo intertesto. In entrambi i casi, comunque, la trasposizione di un piano del testo ha ovviamente effetti anche sull'altro piano". Altro: P. 129 ss. risorse lingustiche o corpus? I testi di un corpus da usare in linguistica devono ess. di buona qualità e di orig. documentata (p. 129). La concez. "logico-grammaticale" (pp. 130-131) che prevale oggi nel TAL "si accontenta di campioni, dal momento che considera il corpus stesso come un campionie" (niente testi completi, ad es., nel British National Corpu e nel Brown Corpus); Rastier non è d'accordo. Nella concez. "retorico-ermeneutica" (pp. 131 ss.) prevede "un insieme di testi completi, raccolti e codificati in base a principi comuni ed espliciti" (p. 131): questo permette di catturare fenomeni oltre il periodo, inclusi "l'influsso reciproco fra parti di uno stesso tsto" e "fra testi di uno stesso corpus". Poi parla di come dev'ess. fatto un buon corpus (pp. 132 ss.). Importante: - codifica - classificazione dei codici (inclusi i tipi di grafemi). Par. 3.2.3. "La codifica" (tutto a p. 134): «Nessun corpus è davvero "nudo", dal momento che differenzia sempre testi e parti di testi. Del resto, qualunque segno grafico può esser considerato come una codifica: nei sistemi di scrittura consonantici, una lettera può assumere il valore di una sillaba. [...] la codifica dei testi è un'estensione della scrittura, i cui sistemi non hanno mai smesso di arricchirsi e aumentare di complessità [...]. In genere i sistemi di codifica sono polisemiotici. Proprio come una carta geografica giustappone, senza che neppure ce ne accorgiamo, semiotiche del tutto differenti tra loro - metriche e no - così un tsto scritto giustappone molti tipi di notazione: a livello grafemico (lettere e segni diacritici), al livello prosodico (tipi interpuntivi e spazi bianchi) al livello sequenziale (sezioni: capoversi, capitoli, libri)», p. 134. Importante: Par. "3.2.4. Per una tipologia dei codici" (pp. 135-136). Riassumo: «Se ogni segno è un supporto per l'interpretazione, allora le lettere sono supporti locali mentre i \_segnali\_ sono punti necessari del percorso interpretativo nella sua globalità. È possibile distinguere quttro tipi di segnali". Ma io dico, caro Rastier: perché distingui le lettere dai segnali, mentre nel paragrafo precedente avevi fatto una riflessione giustam. più complessa? Ecco i suoi 4 tipi di segnali: 1. "articolazione": "addizione a una stringa di caratteri di un segno supplementare che indica una posiz. di una sez. del significante: inizio di capoverso, salti di pagina, capitoli ecc."; 2. "etichetta", "glossa minima normalizzata, locale", per fonetica, prosodia, morfosintassi, semantica. La nota 12 qui dice: "ogni tipo di etichettatura manifesta concretamente un punto di vista diverso" (e poi si riferisce alle atichette più comuni in TAL e CompLit); 3. "un \_indice\_ designa un punto locale eterogeneo grazie a una \_messa in rilievo\_ qualitativa: rubricazione, sottolineatura, evidenziaz. (ul web), modalizzaz. (come il corsivo)" etc.; 4. "ancora": "rinvio ad altre parti del testo (richiamo di nota), ad altri testi (rinvii) o a semiotiche eterogenee (con inserimento di immagini [...])". Li classifica così: "punti regolari" (lettere); due forme di "punti singolari", cioè singolarità locali (indice) e "singolarità globalizzate a differenti livelli (articolazioni)".; "biforcazioni [...] dei percorsi intepretativi verso altre forme testuali" (ancore). La TEI ha assegnato all'insieme dei segnali "un formato unificato che può renderli interoperabili". Per Rastier i corpora devono essere codificati per essere utili per la ricerca, cioè devono comprendere non solo "punti regolari" (lettere) ma anche "punti singolari" perché "una forma si riconosce in primo luogo grazie ai propri punti singolari". Pentagramma (ma in un altro senso): Dal par. "3.2.5. Per una codifica plurilineare" (p. 136-137): [p. 137] "Nei sistemi alfabetici prevalenti, la success. dei segni grafici costituisce un criteri rigido - anche se alcuni diacritici, come i punti-vocale nelle scritture semitiche, si sovrappongono alla linea del testo come su un pentagramma musicale. Oggi, con la digitalizzazione, l'immagine del \_pentagramma\_ diviene realtà ed è possibile etichettare i testi a tre livelli principali: a livello fonetico [...]. A livello sintattico [...] analizzatori o \_parsers\_ [...]. Infine,e a livello semantico [...] ancora a uno stadio embrionale". [p. 138]. «[...] si ottengono testi "tabellari" in cui ciascuna unità, qualunque dimens. abbia, corrisponde a un alista aperta di annotazioni [...] l'antica pratica delle glosse». Ontologie: Dal par. "3.2.6. er un'epistemologia della codifica", pp. 137-138. La concez. "logico-grammaticale" (pp. 1237-138) privilegia marcatura [che oggi chiamiamo] semantica, come "entità", nomi propri, e "relazioni fra entità mediante il ricorso a relazioni ontologiche (relazioni d'appartenenza, relazioni parte-tutto)". Ma poi parla di WordNet come strumento, e giustamente (p. 138) dice che questo approccio ha dei limiti perché la stessa entità può avere nomi diversi. Altro (pp. 139 ss.): Par. 3.3.1 (pp. 139) caratterizzaz. (classificaz.) di testi assistita cal computer; par. 3.3.2 (pp. 140-141) rapporti tra i testi e creaz. di significato dal loro accostamento. Par. "3.3.3. La lettura non lineare": prima sembrava si fosse tornati alla linearità ininterrotta del rotolo (nastro magnetico), ora no; estrarre tutte le occorrenze di una parola, stringa o lemma; spazio multimensionale del testo letterario; connessioni intertestuali; rotta la monade chiusa (risalente al Romanticismo) del libro. Par. "3.3.4. L'accesso immediato al corpus"; discussi questi concetti: autenticità (il Web stesso immenso corpus, niente autenticità filologica); disponibilità (senza autenticità); testualità (pre-stampa: florilegi; stampa: opere integrali; digitale: corpus e [distant reading]); uguaglianza (tutti i testi di un corpus sono allo stesso livello; rotta concez. monumentale della letteratura). Contro l'oggettività del "dato": Par. "3.3.45. Le metodologie" pp. 144 ss. (seleziono quel che mi interessa): "la deontologia che presiede alla costituzione del corpus indebolisce l'oggettivismo ingenuo, perché i soli dati con cui ha a che fare sono quelli che essa stessa sceglie come tali". E a nota 24 dice: «La nozione di dato, tuttavia, de'vessere usata con prudenza [...] Il fatto stesso che la raccolta di un dato è stata guidata da un'ipotesi soggiacente fa sì che quest'ultimo sia "dato" non all'osservatore, ma \_dall\_'osservatore. Per esempio, ogni accez. di una parola è legata a un genere e a un discorso [...]», quindi le ricerche cross-corpus di una parola vanno prese con le pinze. Fa poi l'esempio di un archeologo che mescoli insieme tutti "i reperti di un unico campo di scavi".

Paolo Monella Curriculum
DH bibliography
Paolo Monella home page