Note per la costituzione e trascrizione del
corpus di apprendenti VALICO.

Guidelines v. 73 (17.06.03-08.12.04).

di Manuel Barbera (manuel.barbera@bmanuel.org) ed Elisa Corino (elisa.corino@tin.it).



2. Criteri di trascrizione.


Il trascrittore produrrà pertanto una prima versione, praticamente diplomatica [TD], e poi, a partire da quella, una seconda versione [TTM] in cui la trascrizione sarà sottoposta ad una appropriata tokenizzazione e corredata da un markup testuale comprendente anche alcune categorie di pretagging. Entrambe saranno inserite, immediatamente dopo la <HEAD>, nel tag <BODY>_</BODY>.
I generali requisiti dei files così prodotti sono già stati indicati, ma li ricapitoliamo brevemente (§
0) prima di scendere più nel dettaglio delle norme per la trascrizione vere e proprie (§ 1-6):


2.0
Costruzione dei files.

Uno per ogni trascrizione (e quindi due per testo).

2.0.1
Il formato deve essere esclusivamente .txt e deve essere prodotto da un editor di testo semplice come NotePad / BloccoNote di Windows , EditPro, VEdit ecc,. - mai comunque, con Word, Write / Wordpad, o qualsiasi altro programma che rischi di sporcare il puro testo con codici di formattazione.

2.0.2
I nomi dei files .txt dovranno essere costruiti secondo il sistema

nometrascrittore###_TTM~TD.txt


quindi si avrà, ad esempio, stefania001_TTM.txt o valeria002_TD.txt.


Si badi che la numerazione procede in un'unica serie continua per ogni trascrittore, indipendentemente dagli eventuali gruppi cui il documento appartenga.

2.0.2.1
I files di Header prodotti dai fornitori dovranno essere analogamente strutturati:

nomefornitore###_HD.txt


quindi si avrà, ad esempio, tanya001_HD.txt. Il fornitore dovrà altresì apporre il medesimo contrassegno (proprio nome + numero sequenziale di documento) sulle copie cartacee o sui dischetti (cfr. sopra la discussione del tag della Header <qualita>, § 1.2.5.5) che produrrà.

2.0.2.2
Files passati attraverso una trafila completa (in cui, ossia, fornitore e trascrittore non coincidono) avranno pertanto la struttura:

nomefornitore_nometrascrittore-###_TTM~TD.txt

2.0.3
Il character set di base sarà quello ANSI base di Windows (praticamente coincidente con l' ASCII ISO 8859-1 Latin 1 universalmente corrente anche in Unix, e diverso dal vecchio set ASCII di DOS, che era l' ISO 646-RV a 7 bit), i cui codici fuori tastiera ("over-122") si ottengono digitando alt+0+#cod sul tastierino numerico (una comoda e opportunamente stampabile lista dei codici carattere è facilmente accessibile in rete alla pagina http://www.netstrider.com/tutorials/HTMLRef/ASCII/).

2.0.3.1
C'è possibilità di ricorso all'Unicode per caratteri non latini eventualmente presenti nei testi.

2.0.3.2
Non devono mai essere usati i caratteri doppi, tipo (e') per i semplici (è), in quanto creerebbero incoerenze e problemi di riconoscimento da parte del software.


2.1
Layout.

È rispettato il più possibile l'originario.

2.1.1
Le righe dell'originale sono mantenute con le stesse andate a capo; ossia si andrà a capo, senza ulteriori contrassegni, quando e solo quando anche l'originale vada a capo. [TD+TTM].

2.1.1.1
Le parole divise nell'accapo sono riportate alla riga iniziale (compresi gli eventuali segni di interpunzione attaccativi); il punto di divisione è segnato con il diacritico | [ANSI 0124]. [TD+TTM]. Esempi.

ac|capo [TD+TTM]
tranqui|lla). [TD]
tranqui|lla ) . [TTM]

2.1.1.2
Le eventuali righe bianche vengono mantenute come tali; bisogna, ossia, porre tante righe bianche nella trascrizione quante ve ne erano nell'originale. [TD+TTM].

2.1.1.3
Nei testi degli e-mails, qualora le originali fine-linea non fossero state conservate nel trasferimento dal formato iniziale (.eml, di solito) a quello di archiviazione (.txt), si impone arbitrariamente l'accapo entro la 60a battuta (che è il valore medio più diffuso nei mail reader). Cfr. anche § 1.2.5.6.1. [TD+TTM].

2.1.2
Eventuali spazi bianchi a sinistra (indentature) od al centro della riga vanno riprodotti in TD con altrettanti spazi bianchi, mentre in TTM vanno indicati con il tag <blank> e per valore il numero approssimativo di parole che lo spazio occupa. Ad esempio l'inizio di una lettera sarà risolto così:

Cara Amalasunta,
grazie del pacco di brigidini
che mi hai mandato. [TD]

Cara Amalasunta ,
<blank_2> grazie del pacco di brigidini . </blank>
che mi hai <blank_2></blank>mandato . [TTM]

2.1.2.1
Si noti che il tag se aperto ad inizio riga (e chiuso non all'interno della riga medesima, ma alla fine della stessa o di più righe) si riferisce a tutte le righe che vi sono incluse, per cui, nel caso di indentature continuate (come talvolta in dialoghi e questionari) basta aprirlo e chiuderlo all'inizio di ogni blocco indentato), come nell'esempio seguente (dove si prescinde dalla marca per turno, che sarebbe necessaria, per chiarezza, in quanto viene spiegata in séguito, cfr. 5.4):

Commesso : Buongiorno Signor , cosa potrei fare
per lei?
Io : Oggi è il compleanno di mia amica.
Ho preparato una torta buona ma il
mio cane la ha mangiata e devo
procurarla da qualche mezzi. [TD]

Commesso : Buongiorno Signor , cosa potrei fare
<blank_2> per lei ? </blank>
Io : Oggi è il compleanno di mia amica .
<blank_1> Ho preparato una torta buona ma il
mio cane la ha mangiata e devo
procurarla da qualche mezzi . </blank> [TTM]

2.1.2.2
Nel caso in cui il margine sinistro sia irregolare, ma non presenti evidenti indentature o spazi bianchi intenzionali, non è necessario riprodurre il layout originale. [TD+TTM]

2.1.3
Le pagine vengono marcate con un $001$ ecc. all'inizio di ogni pagina. [TD+TTM]

2.1.4
Eventuali capitoli o paragrafi vanno numerati al loro inizio con %001% ecc. per i capitoli, e #001# ecc. per i paragrafi. [TD+TTM].

2.1.4.1
La definizione di "capitolo" e "paragrafo" è delicata in quanto il "livello" deve potere essere confrontabile con quello di testi "normali" (pena la inconfrontabilità a livello testuale con altri corpora), nonostante la diversa specificità della maggior parte dei testi del Learner Corpus. Se la maggior parte degli elaborati che saranno raccolti di norma non conterrà veri e propri "capitoli" (che potrebbero essere presenti solo in tesine), l'identificazione del livello inferiore (paragrafo) sarà invece spesso necessaria anche se delicata; il punto a capo, comunque, nella nostra prospettiva, rappresenta un livello di organizzazione del testo ancora più basso di quello del paragrafo, e non deve normalmente esser fatto con esso coincidere. Per identificare un paragrafo proponiamo due regole pratiche (senza alcuna pretesa teorica) che si applicano a catena:
+ formalmente saranno paragrafi distinti solo blocchi di testo di una certa estensione chiaramente individuati oltre che da un punto a capo anche da linee bianche od altri espliciti segnali grafici demarcativi (tratti di penna, indentature, ecc.).
+ testualmente possono essere considerati paragrafi distinti blocchi testuali formalmente delimitati da un mero punto a capo se e solo se sono di considerevole estensione e semanticamente presentano un notevole e indiscutibile e consistente cambio di argomento.

2.1.5
Gli elenchi puntati saranno contrassegnati col tag <el>, il cui uso è indipendente da (ed a sua volta combinabile con) i tags di capitolo (cfr. § 2.1.4), paragrafo (cfr. § 2.1.4) e titolo (cfr. § 2.5.1.1). [TTM]
Avremo quindi

La lista della spesa:
<el>1.</el> pane
<el>2.</el> latte
<el>3.</el> giornale


2.2
Ortografia e processi correttori.


Si conserva sempre l'ortografia dell'autore (ma con le precisazioni di cui oltre).

2.2.1
L'uso delle maiuscole e minuscole va mantenuto come è. [TD+TTM].

2.2.1.1
Si badi che altra cosa sono le maiuscole ("capitals": MAIUSCOLO) dal maiuscoletto ("small caps": maiuscoletto), che viene qui trattato con uno dei tags di <emph> (cfr. § 2.4.7.1)

2.2.2
L'accento, di solito non distinguibile nella scrittura manuale, è riportato di default all'uso standard. Eventuali casi di autori che distinguono sistematicamente tra acuto e grave saranno risolti se e quando compariranno. [TD+TTM].

2.2.3
Quanto alla stratigrafia delle correzioni, così come alle inserzioni correttive, intendendosi con queste gli interventi dello scrivente sul proprio testo, il testo trascritto rispecchia sempre l'ultima correzione introdotta. [TD+TTM].

2.2.3.1
Le correzioni, ossia le lezioni scartate, possono tuttavia essere interessanti linguisticamente, e vanno pertanto riportate con due diversi sistemi, uno basato sulle parentesi graffe { (ANSI 0123) e (ANSI 0125) } in TD, ed uno basato sul tag <CORR> in TTM. In entrambi i casi le lezioni scartate devono sempre seguire l'ultima versione introdotta dallo scrivente.

2.2.3.1.1
Nella trascrizione diplomatica per un "allora le ho detto" con gli cassato sul rigo, una lezione non recuperabile cancellata sopra il rigo a sinistra (resa con {x}) ed un li cassato sopra il rigo a destra, avremo:

allora le {gli,x,li} ho detto [TD].

2.2.3.1.2
Nella trascrizione tokenizzata e markuppata, avremo invece:

allora le <CORR>gli,x,li</CORR> ho detto [TTM].

2.2.3.2
Le inserzioni saranno rese in modo analogo in entrambe le trascrizioni, in TD ricorrendo allo zero, ed in TTM al tag <INS>. Immaginiamo "allora le ho detto" e "allora a lei ho detto" con "le" ed "a lei" inseriti nell'interlinea; avremo risp.

2.2.3.2.1

allora le {0} ho detto [TD].
allora a lei {00} ho detto [TD].

2.2.3.2.2

allora le <INS>le</INS> ho detto [TTM].
allora a lei <INS>a lei</INS> ho detto [TTM].

Si badi alla diversa strategia (numero di zeri in TD) per indicare l'estensione dell'inserzione in TD e TTM.

La posizione dell'elemento inserito, sopra, sotto o a lato della riga, non è rilevante.

2.2.3.3
Si noti inoltre che i tags di markup testuale per interlinee e marginalia (§ 2.5.1) non sono invocabili per specificare la distribuzione materiale delle varianti nella pagina. Entrambe le notazioni prescindono, infatti, dalla corretta resa della specificità paleografica delle correzioni (cfr. anche quanto specificato sul trattamento delle indentature, § 2.1.2.2): esse sono intese alla creazione di un mero Learner Corpus (corpus di apprendenti), non all'allestimento di una vera edizione critica XML di un testo, in cui la accuratezza nella rappresentazione della natura anche materiale del testo manoscritto è invece fondamentale.

2.2.3.4
Per un esempio di inserzione e correzione combinate (correzione innestata in inserzione) cfr. § 2.7.2.

2.2.4
Nota bene: gli interventi correttivi del docente non devono essere considerati.

2.2.5
La varianti, ovvero più di una proposta per uno stesso termine (si noti che non si tratta di una correzione, né di un'inserzione, le due lezioni coesistono sullo stesso piano), in TD saranno semplicemente separate dal diacritico ¦ (ANSI 0166) e in TTM saranno racchiuse nel tag <VAR>. Avremo quindi:

C'era una volta un bambino di nome Gigi.
Un giorno il bambino ¦ ragazzo, mentre portava a spasso
il suo cane si imbattè in un orco. [TD].

C'era una volta un bambino di nome Gigi .
Un giorno il <VAR>bambino ¦ ragazzo</VAR> , mentre portava a spasso
il suo cane si imbattè in un orco . [TTM].

2.2.6
Le lacune, cioè le zone del testo non leggibili per difetto (e.g. fotocopia malfatta) o guasto meccanico della copia (e.g. bruciatura di tabacco, macchia di caffè, incrostazione di brioscina, ecc.), devono essere adeguatamente segnalate. [TD+TTM].

2.2.6.1
In TD vanno notate con le parentesi quadre al cui interno si pongono tante x quanti grossomodo sono i caratteri che potrebbero starvi; se si riesce a leggere o indovinare con ragionevole sicurezza qualcuno dei segni contenuti nella lacuna, queste congetture vanno ugualmente inserite nelle quadre, con o senza altre x. L'esempio seguente è tratto da una lista numerata di temini, di cui costituiva l'ultimo; la fotocopia risultava leggermente tagliata sul margine sinistro e fortemente annerita al fondo della pagina: [TD]

Ti ricordi di quando avevi due anni ? Scrivi della cosa
che ti piaceva di più e quella che odiavi di più.

- Quando ero bambino mi piaceva mangiare i cioccolati.
Tutto il tempo io mangiavo i cioccolati perché era molto
buoni . Il sapore era molto buono . Potevo fare tutto
per i cioccolati . Ogni giorno pensavo che abbia mangiato
4 O cinque (5) cioccolati.
Ma non mi piaceva gioc [xxxxxxxx]
qualcuno perché volevo giocare solo {0} con mia mad[xxxxxxxx]
mia madre . Tutto il tempo volevo [xxxtxxxxxxxxxxx]
madre [xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx]
[xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx] [TD]

2.2.6.2
In TTM il trattamento è identico, solo che le x e le letture congetturali invece che essere racchiuse tra quadre sono inserite nel tag <LAC>xxx</LAC>. La riga 8 dell'esempio precedente in TTM sarebbe: [TTM]

<blank_3></blank> Ma non mi piaceva gioc <LAC>xxxxxxxx</LAC>

2.2.7
Dal guasto meccanico va in linea di principio distinta la difficoltà paleografica: può infatti capitare che, nonostante ogni ragionevole sforzo, non si riesca a decifrare alcune parole (o parti di parole) semplicemente perché illeggibili di per sé.
Nella maggior parte dei casi ciò avviene nel corso di un processo correttorio o variantistico, ed in questi casi si è già suggerito come comportarsi: basta inserire tante x quante sono le (ragionevolmente supponibili) lettere illeggibili ed inserire poi queste nei tags volta per volta appropriati.
Può raramente capitare che l'impossibilità di lettura si verifichi in una zona neutra del testo: in questo caso, onde non generare "parole fittizie", le x vanno inserite tra doppie parentesi quadre [[xxx]] (in TD; le parentesi sono doppie per distinguere la lezione semplicemente illeggibile dalla danneggiata, notata dalle parentesi semplici, cfr. supra) o nel tag <illegg>xxx</illegg> (in TTM).
Superfluo mi sembra naturalmente avvertire che la rinuncia interpretativa vada contenuta al minimo possibile.


2.3
Divisione delle parole.


Deve sempre essere ricostruibile l'originaria.

2.3.1
Nella trascrizione diplomatica iniziale la divisione delle parole originaria viene mantenuta come è, giusta o sbagliata che sia. Avremo pertanto

odeto al lamico dell'ele fante [TD].

2.3.2
Nella versione tokenizzata ogni token deve essere separato da spazio, e bisognerà pertanto ricomporre i token corretti senza perdere l'informazione sulla divisione dell'originale, grazie all'introduzione del diacritico ¬ (logicalnot, ANSI 0172: spazio inserito) e + (plus, ANSI 043: spazio eliminato). L'esempio precedente diventerà pertanto:

o¬ deto al+l¬ amico dell' ele+fante [TTM].

2.3.2.1
Si badi in particolare che le parole con apostrofo nella tokenizzazione andranno sempre separate con uno spazio (più eventualmente il logicalnot) dalla parola seguente, cfr. § 2.4.5 [TTM].

2.3.2.2
Nei testi originariamente elettronici (emails ecc.) può capitare che le parole siano divise da più di uno spazio (doppi spazi, tripli, ecc.):
+ nella trascrizione diplomatica tale caratteristica deve essere essere conservata [TD]
+ nella trascrizione tokenizzata (in cui le "parole" sono ridotte a "tokens") diventa invece indispensabile eliminare l'anomalia (è sufficiente un "search" di doppio blank, di solito) in quanto ogni token deve essere preceduto/seguito da uno ed un solo spazio (o fine/inizio riga). [TTM]

2.3.3
Al momento si rinuncia ad introdurre una divisione di token per le preposizioni articolate (che richiederanno così una POS supplementare) e le catene clitiche. Il problema sarà tuttavia riesaminato durante il POS-tagging. [TD+TTM].


2.4
Interpuntemi, diacritici e caratteri grafici.


Si mantiene di norma il sistema dell'originale.

2.4.1
Tutti i segni di punteggiatura ordinaria (punto, due punti, ecc. ecc.), come che siano posizionati nell'originale e nella trascrizione diplomatica [TD], nella tokenizzazione vanno separati da spazio [TTM]:

virgola, punto. [originale]
virgola , punto . [TTM]

2.4.1.1
Si badi, però, che le serie di interpuntemi, tipo !!! ?!? ... ecc., sono trattate come interpuntemi compatti e quindi non sono spaziate al loro interno. [TTM].

2.4.1.2
In TD si riproduce entro ragionevoli limiti la situazione degli originali. La formula cautelativa è dovuta al fatto che non sempre nella grafia manuale degli apprendenti è facile distinguere quando un interpuntema sia attaccato alla parola che precede o sia separato da essa con uno spazio. La raccomandazione è pertanto di trascrivere come separati da spazio in TD solo quei casi dove la spaziatura sia con buona certezza voluta dallo scrivente, in base alla evidenza paleografica (l'interpuntema è sensibilmente staccato) e/o all'uso relativamente sistematico (l'apprendente si comporta regolarmente così). Tutti gli altri casi dove non vi sia una sufficiente certezza vanno ricondotti all'uso normale (interpuntema attaccato alla parola che precede). [TD]

2.4.2
Accanto alla punteggiatura ordinaria è introdotto anche un carattere speciale usato da solo (#) od in combinazione con altri, specie il punto (.#) per l'andata a capo [TTM]. L'uso del marcatore # non deve intendersi come una semplice marca di fine riga (l'andare a capo meccanico nella trascrizione è già sufficiente allo scopo) ma come specificazione introdotta per un segno di interpunzione (solitamente punto fermo, esclamativo, interrogativo, puntini di sospensione, lineetta) usato come finale.

2.4.3
Particolare attenzione va posta al punto. Il punto come segno di interpunzione (sia esso a capo o di seguito) va infatti regolarmente tokenizzato in TTM (es. punto . ), ma il punto come segno abbreviativo no (es. i.e. ). [TTM]

Quindi avremo, ad es.

Sono stufo . Vado a dormire .#
Dammi gli attrezzi : martello , pinza , ecc. , e viti normali e parker , i.e. autofilettanti .#

2.4.4
Le virgolette, semplici o doppie, non sono di solito ulteriormente specificate nella scrittura manuale, ed anche nella videoscrittura la scelta tra le "diritte" ("_" in Courier e in Times) e le curve od "inglesi" (“_”" e “_” in Times) è attuata automaticamente da Word e simili programmi. Le coppie curve od inglesi ‘_’ ( ANSI 0145 e ANSI 0146; in Times ‘_’) o “_” ( ANSI 0147 e ANSI 0148; in Times “_”) sono usate come i rappresentanti convenzionali di queste virgolette generiche. Ogni qual volta l'autore distinguerà esplicitamente differenti tipi di virgolette, quali perlopiù i caporali (« ANSI 0171 e » ANSI 0187), queste verranno riprodotte e mantenute come tali. [TD+TTM].

2.4.5
L'apostrofo sarà sempre rappresentato con la forma diritta (' ANSI 039), per l'utilità di averlo rappresentato da un codice diverso da quelli della virgoletta semplice (resa con l'apice inglese, ‘_’ ANSI 0145-6, in Times ‘_’) già fin dalla trascrizione raw. [TD+TTM].

Si badi che in TTM i gruppi con apostrofo vanno sempre tokenizzati introducendo uno spazio di norma a destra (e non a sinistra), quindi si avrà

l' amaca
un po' di birra
ciao , 'notte !

2.4.5.1
Per quanto riguarda la separazione o meno dell'apostrofo, in TD si riproduce solo entro ragionevoli limiti la situazione degli originali: ogni caso dubbio va infatti ricondotto automaticamente all'uso standard secondo quanto detto per le interpunzioni al § 2.4.2 [TD]

2.4.6
Simboli quali asterischi, trattini e freccette vengono trattati come normali caratteri del testo.
Nella fattispecie per gli asterischi (e segni di richiamo a stella in genere) si userà il carattere "*" (ANSI alt-042), per lineette e trattini in genere si userà il carattere "-" (ANSI alt-045), per le freccette si useranno le combinazioni, rispettivamente con verso a destra ed a sinistra, "-›" (ANSI alt-045 + alt-0155) e "‹-" (ANSI alt-0139 + alt-045), e per i segni ondulati di 'circa' 'alternanza' e simili si userà la semplice tilde "~" (ANSI alt-0126). [TD+TTM]

mia madre è casa+linga * . [TTM]
- In India l'istituzione del matrimonio è molto forte, [TD]
-› Bologna è una città antica. [TD]

2.4.6.1
Un particolare insieme di simboli è quello degli emoticons. Questi vanno tokenizzati e riprodotti come sono, quindi con spazi all'esterno ma non all'interno; ad esempio:

:-( ^__^ ;-) [TD+TTM]

2.4.7
Per le marche di evidenziazione o enfasi, quali le sottolineature (più frequenti nella scrittura manuale), i corsivi, grassetti maiuscoletti ed espansi (più frequenti nella videoscrittura) si ricorre all'attributo <emph_valore>__</emph>, nella maniera seguente (la notazione - "label" - dei valori dei tag assume qui la base inglese - underlined, dotted, bold, italics, ecc. - per via della pressoché universale conoscenza e diffusione di tale terminologia grazie ai software di videoscrittura):

2.4.7.1
+ Il sottolineato è rappresentato con <emph_u1;u2;u3>__</emph>.
I valori previsti sono singolo "u1", doppio "u2" e triplo "u3". [TD+TTM].
+ Il tratteggiato è rappresentato con <emph_h1;h2;h3>__</emph>.
I valori previsti sono singolo "h1", doppio "h2" e triplo "h3". [TD+TTM].
+ Il puntinato è rappresentato con <emph_d1;d2;d3>__</emph>.
I valori previsti sono singolo "d1", doppio "d2" e triplo "d3". [TD+TTM].
+ Il corsivo è rappresentato con <emph_i;bi>__</emph>.
I valori previsti sono corsivo normale "i" e grassetto corsivo "bi". [TD+TTM].
+ Il grassetto è rappresentato con <emph_b;bb>__</emph>.
I valori previsti sono corsivo normale "b" ed extrabold "bb". [TD+TTM].
+ Il maiuscoletto è rappresentato con <emph_sc>__</emph>.
Il valore previsto è solo "sc" (small capitals). [TD+TTM].
+ L' espanso è rappresentato con <emph_xp>__</emph>.
Il valore previsto è solo "xp" (expanded). [TD+TTM].
+ Il cerchiato è rappresentato con <cerc>__</cerc>. [TD+TTM].

2.4.7.2
Per evidenziazioni complesse si possono liberamente combinare i valori semplici, così ad esempio un maiuscoletto grassetto con doppia sottolineatura sarà marcato: <emph_sc,b,u2>__</emph>. [TD+TTM].

2.4.8
L'uso intenzionale di colori diversi nel testo può essere rappresentato con il tag <col_red;green,...>__</col>. [TD+TTM].

2.4.9
La presenza di disegni può essere resa da un set limitato di sigle convenzionali; quelle per ora proposte (ma altre potrebbero venire aggiunte in base ad esigenze specifiche) sono: SG "segno grafico" generico (per ogni altro disegno-carattere, tipo faccine, fulmini, ecc.), DN (per disegni naturalistici estesi anche su più righe), DT (per disegni tecnici, come un pezzo di circuito elettrico), DS (per diagrammi schematici, tipo schema a blocchi, ecc.). Se i disegni non sono rilevanti per la comprensione del testo è sufficiente sostituirli con le rispettive sigle, senza acquisirli otticamente (cfr. § 2.4.9.3).

2.4.9.1
In TD le sigle di disegni vanno poste in parentesi uncinate, per cui ad esempio avremo:

Oggi <SG> è una bella giornata [TD].

in cui <SG> sta, ad esempio, per un sole che ride (non è necessario esplicitare ulteriormente la natura del disegno perché, come detto sopra, le sigle sono usate appunto solo per disegni non rilevanti per la comprensione del testo).

2.4.9.2
In TTM le sigle vanno invece chiuse nel tag <imgint>, per cui lo stesso esempio precedente sarà reso al modo seguente:

Oggi <imgint>SG</imgint> è una bella giornata [TTM].

2.4.9.3
Se il disegno è rilevante per la comprensione del testo o per il profilo psicologico dell'autore (cosa frequente soprattutto negli elaborati infantili), questo può essere acquisito otticamente (scannato e digitalizzato) (cfr. § 1.2.6 dove si trova l'elenco di tutti i riferimenti ipertestuali istituiti dal documento e § 1.2.6.4, che si riferisce specificamente al trattamento delle immagini). In questo caso nella trascrizione TTM si aggiungerà un link HTML-like al file esterno, <imgint src="nomefile.jpg">, che precisa dove l'immagine vada effettivamente inserita; nel caso dell'es. precedente avremo:

Oggi <imgint src="solecheride.jpg">SG</imgint> è una bella giornata [TTM].

2.4.10
La presenza di allegati di natura testuale, quali ritagli di giornale, ecc., sarà invece rappresentata con la sigla TX che analogamente agli elementi grafici saranno poste in parentesi uncinate in TD (cfr. § 2.4.9.1) ed invece chiuse nel tag <txtint> nella trascrizione TTM (cfr. § 2.4.9.2). Nel caso in cui il testo in questione venga trascritto in file a parte, secondo le modalità specificate nel § 1.2.6.5 (cui cfr.), nella trascrizione TTM si aggiungerà un link HTML-like al file esterno, <txtint src="nomefile.jpg">, che precisa dove il testo vada effettivamente inserito; ad es. per il caso riferito nel § 1.2.6.5 avremo:

Ho visto l' anuncio <txtint src="annuncioVecchia.txt">TX</txtint> sulla Notte [TTM].


2.5
Markup testuale.


Contrassegna nella TTM le strutture principali del testo.

2.5.1
Si marcano, in primo luogo, zone speciali del testo, come

2.5.1.1
<titolo> il titolo del brano, del paragrafo o del capitolo </titolo> [TTM]

2.5.1.2
<pcoll> le formule iniziali (protocollo) nelle lettere, es. Dear, Ciao! </pcoll> [TTM]

2.5.1.3
<ecoll> le formule di congedo (escatocollo) nelle lettere, es. Bye, Ugo </ecoll>; [TTM]

2.5.1.4
<versi> eventuali parti versificate </versi> [TTM]

2.5.1.5
<nota> testo della nota </nota> [TTM]

2.5.1.6
<marginale> interpolazione nel margine B></marginale> [TTM]

2.5.1.7
<interlinea> interpolazione nell'interlinea </interlinea> [TTM]

2.5.1.8
<calce> interpolazione nell'interlinea </calce> [TTM]

2.5.1.9
Avvertenze per l'uso dei tag <marginale>, <interlinea> e <calce>.

2.5.1.9.1
Questi tag sono di natura testuale più che paleografica e devono essere usati per indicare porzioni di testo di relativa autonomia ed estensione, non semplici parole singole portate fuori dal rigo in un processo correttorio, come specificato anche in 2.2.3.3. [TTM]

2.5.1.9.2
Marginalia ed interlinea così definiti sono markuppati propriamente solo in TTM, in TD vengono trascritti tra quadre, nella riga dopo il punto in cui l'inserzione è stata esplicitamente richiesta o comunque chiaramente intesa dall'autore, od altrimenti in calce al testo.

Immaginiamo, ad esempio, che nel seguente testo, completo e di due sole righe, vi siano due marginalia, di cui il marginale 1 sia introdotto con un asterisco nel margine superiore ed il marginale 2 sia posto nel margine sinistro senza riferimenti nel testo. In TD avremmo semplicemente:

Il tram è uscito da rotaie e caduto sul fianco . Nessuno morto .
[Sopra una macchina di polizia e tre carretta di angurie .]
Io ho divertito molto .
[Nonna non daccordo, ma me troppo ridere .] [TD].

2.5.1.9.3
In TTM il sistema è il medesimo, salvo che si ricorre al tag <marginale> al posto delle quadre, e che in presenza di un segno di richiamo esplicito nel testo sarà possibile usare anche una notazione HTML-like di "anchor" <A> e "name" (name="___") per meglio precisare l'inserzione.

Lo stesso esempio di prima sarà pertanto rappresentato così (il name dell'ancora A può naturalmente essere scelto liberamente caso per caso):

Il tram è uscito da rotaie e caduto sul fianco <href="#star_1">*</href> . Nessuno morto .
<marginale> <A name="star_1">*</A> sopra una macchina di polizia e tre carretta di angurie . </marginale>
Io ho divertito molto .
<marginale> Nonna non d accordo, ma me troppo ridere . </marginale> [TTM].

2.5.1.9.4
Ad analogo trattamento saranno sottoposte anche le eventuali note (a fondo pagina od a fondo testo). In TD saranno semplicemente riprodotte a fondo testo, in TTM saranno ancora riprodotte a fondo testo, ma riceveranno anche il trattamento html-like illustrato in 2.5.1.9.2-3.

2.5.2
Vanno poi marcate zone del testo del docente, in quanto di diverso autore dallo scrivente - apprendente, come tipicamente le domande poste dall'insegnate in questionari od esercizi di comprehension:

<docente>__</docente> [TTM]


Si noti che il tag <docente> può essere embricato nel tag <turno> (cfr. § 2.5.5), per testi dialogici docente - allievo.

2.5.3
La citazione, anch'esso testo propriamente di diverso autore dall'apprendente, viene contrassegnata con un tag apposito:

<citaz>__</citaz> [TTM]

2.5.4
Il discorso diretto viene contrassegnato con il tag

<ddir>__</ddir> [TTM]

Ad esempio avremo:

Mentre Egidio stava finalmente tornando a casa dopo una
faticosa giornata passata a mettere a posto la cantina della
suocera, incontrò la prozia Amalasunta : <ddir>" Caro
Egidio ! Stavo proprio per venire da te ! Non è che mi
daresti una mano a mettere a posto la
soffitta ? "</ddir> , gli disse . [TTM]

2.5.5
Si marcano i turni del dialogo, con indicazione convenzionale o con il nome del dialogante assegnato nel testo, come nell'esempio seguente (con markup incompleto, ridotto a quanto qui pertinente):

<turno_Archimede>Oggi ho visto Topolino e Basettoni al Carrefour delle Gru</turno>
<turno_Pippo>Già , dovevano comprare il regalo per il compleanno di Minni</turno> [TTM]

2.5.5.1
Come ulteriore esempio contenente sia i turni del dialogo che il discorso diretto, riportiamo il medesimo dialogo che avevamo visto, con markup incompleto ed in versione ridotta, in 2.1.2.1:

<turno_A>Io : <ddir>Buongiorno , potrebbe
aiutarmi ? </ddir></turno>
<turno_B>Commesso : <ddir>Buongiorno Signor , cosa potrei fare
<blank_2>per lei ? </blank></ddir></turno>
<turno_A>Io : <ddir>Oggi è il compleanno di mia amica .
<blank_1>Ho preparato una torta buona ma il
mio cane la ha mangiata e devo
procurarla da qualche mezzi . </blank></ddir></turno> [TTM]

Nel caso di e-mail con quoting, i quoting saranno chiamati turno_quote, eventualmente numerati nel caso di molteplicità di fonti turno_quote1-n :


2.6
Markup di pre-tagging.


Sono alcune categorie introdotte nella TTM che propriamente apparterrebbero piuttosto al POS-tagging, ma che, praticamente, risulta utile introdurre prima. [TTM].

2.6.1
Sono in primo luogo i nomi propri che dovrebbero essere marcati come tali anche prima del POS-tagging; in particolare distinguiamo antroponimi (anth), toponimi (topn), tutti i nomi di creazioni artistiche, manufatti ed opere culturali in genere (oper), siano essi i Promessi sposi, Santa Maria Novella o la Gioconda e tutti i nomi propri che non riguardano persone o animali (ent), siano essi marche di scarpe, di detersivi o nomi di alberghi:

<anth>__</anth>
<topn>__</topn>
<oper>__</oper>
<ent>__</ent>

2.6.2
Gli eventuali indirizzi web presenti nel testo saranno marcati con il tag <url>. Ad es.:

andate su <url>www.pippo.it</url> e guardate che bbbello

2.6.3
Anche le espressioni numerico-matematiche o comunque in cifre, ad esclusione dei semplici numerali "linguistici" espressi in cifre anziché in lettere e dei punti-elenco, saranno adeguatamente contrassegnate col tag <mat>. [TTM]

Avremo quindi marcati con <mat> esempi come

<mat>15 + 3 / 2 = 9</mat>

ma non marcati esempi come i seguenti:

voglio 15 giorni di vacanza

2.6.4
Un apposito tag è invece previsto per le espressioni di datazione, siano esse numeriche o frasali; quando la data è sufficientemente determinabile il tag può essere fornito di un attributo per specificarla in formato standard:

<date>__</date>
<date_yyyy-mm-dd>__</date>

Ad es. (tanto il primo esempio quanto il formalismo sono adattati dalla TEI):

Given on the <date_1977-06-12">Twelfth Day of June in the Year of Our Lord One Thousand Nine Hundred and Seventyseven</date>
Il giorno di <date_0000-12-25>Natale</date>

2.6.4.1
Si noti che le espressioni tempo, generiche (oggi) o puntuali (16:47), non vanno marcate con il tag "date".

2.6.5
Le zone del testo in lingue diverse dall' italiano vanno contrassegnate al modo seguente:

<lng_nomelingua>__</lng>

Se non si sa quale altra lingua sia, mettere altralingua come nome lingua. [TTM]

2.6.5.1
Saranno markuppati con <lng> i sintagmi, le frasi od i paragrafi effettivamente non in italiano e le parole straniere che siano chiaramente distinguibili come prestiti non adattati. Si noti che molte espressioni straniere sono ormai state lessicalizzate anche in italiano, tali espressioni non verranno dunque marcate con il tag <lng>, perchè ormai entrate nell'uso comune e presenti nel dizionario italiano. Avremo quindi

Che fare , mi chiedeva . <lng_inglese>It 's up to you</lng> , le dico io . [TTM]
ho appoggiato la testa sul <lng_inglese>pillow</lng> e mi sono addormentato [TTM]

ma senza marca

vai nella subdirectory e apri il file " Valico " [TTM]

2.6.5.2
Nel caso in cui il testo in lingua "altra" sia in una lingua scarsamente conosciuta in Europa (quindi non inglese, ma ad esempio lusaziano inferiore), si creerà un file ad esso collegato con la consueta sintassi HTML di href contenente la traduzione. Ad es:

<lng_finnico><A href="nomefile.txt">Vatanen nousi Heinolan linjaautoon, silla mukavassakaan kylässä ei pidä iättömiin joutilaana asua.</A></lng_finnico>

Il cui file-traduzione (che nella fattispecie potrebbe essere paasilinna-01.txt) conterrà:

Vatanen salì sul pulmann per Heinola: non poteva certo fare l'eterno sfaccendato, sia pure in un villaggio ospitale.

2.6.5.3
Nel caso in cui la lingua "altra" sia in caratteri non latini (per es. la hindi) i file di base del corpus (TD e TTM) conterranno il testo straniero in traslitterazione scientifica. Analogamente a quanto sopra, però, la TTM presenterà un collegamento HTML-like ad un file esterno contenente la traduzione, che in questo caso conterrà a sua volta un altro link html ad un file unicode (od alla peggio PDF) con il testo in caratteri originali. Ad esempio il testo [TTM]

la scrittura ufficiale mancese, la <lng_manju> <A href="tongki_trad.txt">tongki fuka sindaha hergen</A> </lng_manju>, fu introdotta nel <date_1632-00-00>1632</date> . [TTM]

punterà al file tongki_trad.txt con la traduzione:

scrittura con punti e cerchi. [<A href="tongki_char.txt">originale</A>]

che conterrà a sua volta un puntatore ad un file con il testo in caratteri, ossia nel nostro es. al file tongki_char.txt, contenente finalmente:

scripta mancese


2.7
Etichette embricate.


Nel caso in cui si richieda più di un tag [TTM] per descrivere un particolare stato del testo, è possibile includere un'etichetta dentro l'altra, sempre seguendo la gerarchia indicata nell'originale, come si sarà già d'altra parte intuito da parecchi casi precedenti.

2.7.1
Un primo esempio, molto semplice, potrebbe essere il seguente:

<ent>Parco di<topn>Abruzzo</topn></ent> [TTM]


dove Parco di Abruzzo è il nome del parco , ma Abruzzo è un toponimo (cfr. § 2.6.1).

2.7.2
Un esempio più complesso, che coinvolge inserzione (cfr. § 2.2.3.2) e correzione (cfr. § 2.2.3.1): in questo caso l'apprendente ha dapprima scritto ieri ho avuto freddo, poi ha inserito sul rigo tra avuto e freddo la lezione davvero grande, quindi ha corretto grande in tanto; l'iter è rappresentabile al modo seguente (dopo l'embricatura TTM è mostrata contrastivamente anche la soluzione in TD):

Ieri ho avuto davvero tanto <INS>davvero tanto <CORR>grande</CORR></INS> freddo [TTM]
Ieri ho avuto davvero tanto {grande} {00} freddo [TD]