Núvols amb Tagxedo

Ara que hem enllestit l’assignatura, he trobat temps per fer una cosa que tenia pendent de dies enrere. Arran del suggeriment de Françoise Sanches, del blog Humanitats, en una entrada anterior, volia provar l’aplicació Tagxedo, que genera núvols de text.

He aprofitat el text que vaig fer servir per l’anàlisi textual, corresponent a sis entrades del blog El dit a la nafra. Primer, hi he enganxat el text tal com va sortir del blog, i he indicat un rang de 400 mots per analitzar. El resultat és el núvol que encapçala l’entrada i, com es veu de seguida, hi predominen mots buits.

M’he carregat de paciència, he improvisat una mica i he eliminat d’un fragment del text les paraules més destacades. Després, l’he enganxat al Tagxedo. Ha quedat així:

tagxedo_2

El resultat és un xic més equilibrat i  les paraules més freqüents no destaquen tant. Tot i així, és molt lluny de tenir una riquesa lèxica 1, en què tots els mots serien de la mateixa mida.

Tagxedo permet configurar la forma del núvol, el color i tipus de lletra, el rang de paraules a analitzar, etc., i sembla que estigui més aviat orientat a les xarxes socials, perquè quan has format un núvol t’ofereix de compartir-lo a facebook, twitter, etc., i també ofereix la possibilitat de confeccionar una panòplia d’objectes amb el teu núvol imprès (samarretes, tasses, bosses, etc.).

 

Anàlisi textual amb la Formiga

Per practicar amb l’aplicació AntConc, he triat el blog feminista El dit a la nafra, que es subtitula “Contra les violències masclistes”.

He seleccionat  les últimes 6 entrades, publicades entre el 8 de desembre de 2016 i l’1 de maig de 2017. He obviat dues entrades que contenien textos en castellà, i he convertit els textos en un fitxer .txt; finalment, he seleccionat l’opció de no diferenciar entre majúscules i minúscules, perquè considero que per al tipus d’anàlisi que haig de fer no té cap utilitat distingir noms propis.

La llista de paraules que queda té 6083 tokens ordenats de major a menor freqüència, i 1647 types. Després, he aplicat la llista de mots buits en català que va publicar en Lluís de Yzaguirre a la pàgina del Laboratori de Tecnologies Lingüístiques de la UPF [http://latel.upf.edu/morgana/altres/pub/ca_stop.htm]. Al repetir el càlcul de freqüència,  el nombre de tokens i types ha disminuït substancialment a 2314 i 1405 respectivament.

amb stopwords

Les paraules més freqüents ja ens indiquen de què va la cosa: violència, masclista, dones, dona, protecció, agressor, masclistes, treball, treballadora, drets …

Si ordenem la llista per final de mot, observem que els participis conjugats en femení (escoltada, inadaptada, deshumanitzada…) són a les posicions més altes de freqüència (17-34), i els conjugats en masculí (format, confiat, denunciat) són a les més baixes (1147-1216). Però cal tenir en compte que s’hi barregen altres paraules acabades en -ada o -at (vegada, jornada, edat, patriarcat).

A continuació, he lematitzat el corpus. Això significa relacionar totes les flexions d’una paraula: singular amb plural, formes verbals, masculí amb femení. Aquesta darrera opció, però, no l’he aplicat perquè, atesa la temàtica del blog, relacionar en un mateix lema treballador i treballadora, per exemple, confondria els resultats. Per preparar adequadament la llista, he partit de la llista alfabètica de mots, que permet detectar de seguida les paraules del mateix lema.

corpus lematitzat

Després d’aplicar la lematització, tenim els mateixos tokens però molts menys types (han passat a 1190); és a dir, tenim els mateixos mots, però més agrupats. Com a conseqüència, ha canviat l’ordre de les paraules segons la freqüència: dona ha sumat dones, i ha passat al segon lloc;  supervivent + supervivents han pujat al lloc 15; els verbs també han arribat als primers llocs, gràcies a què han incorporat les diverses formes verbals, i el verb fer, per exemple, ha pujat del lloc 19 al 4.

Si apliquem la fòrmula type-token ration, segons la qual com més s’acosti a 1 el resultat de dividir el nombre de types pel nombre de tokens, major riquesa lèxica, trobem que El dit a la nafra té una riquesa lèxica mitjana, de 0’51. Entenc que, en un blog de naturalesa combativa com aquest, es busca més l’efectivitat comunicativa que la qualitat literària, i que les persones que hi escriuen ho fan de manera voluntària i amateur.

Amb l’opció clusters podem observar la freqüència d’agrupacions de paraules. Com que en aquesta opció el programa no aplica les stopwords, convé seleccionar n-grames de 3 mots com a mínim. En aquesta modalitat es fa evident el problema de reconeixement dels caràcters; tot i que hem aplicat la codificació Unicode (UTF-8) que recomana el manual, l’aplicació ha dividit els mots accentuats, o bé ha substituït els accents per un conjunt de caràcters; així, el mot violència és transformat en viol\xE8ncia i en alguns casos apareix fraccionat com a viol\xE, viol xe, etc. Com que la lematització tampoc no opera en els clusters, no he trobat la manera de resoldre-ho. De tota manera, el cluster demostra que les entrades d’aquest blog són coherents amb el seu crit de guerra “Contra les violències masclistes”, perquè [violència masclista] és el grup de paraules més freqüent, si obviem viol xe ncia i m xe x (més), que apareixen als primers llocs, i que no s’han d’interpretar com a agrupacions de mots.

cluster

Si cerquem les concordances d’aquests primers mots, es confirma que la violència masclista és al cim de la llista. Aquest és el resultat de la paraula número 1:

concordança 1

Pel que fa a la segona paraula, el lema dona, la trobem associada als conceptes supervivent (en la majoria dels casos), treballadora i, a més distància, violència masclista, denúncia, ajudar, revictimitzada i silenci. Tots ells transmeten la gravetat de les conseqüències de la violència contra la qual treballa el blog.

concordança 2

La concordança del tercer mot, violència, l’aparella majoritàriament amb masclista, com hem vist més amunt, però també apareixen els conceptes agressor, problema familiar, sensibilització, ruptura, denúncia, amenaça, xarxa solidària, patriarcat, delictes sexuals, vexació, violència sexual. Aquest conjunt defineix l’abast del problema i algunes vies possibles de solució, que deixen clar el caràcter de denúncia i de lluita del blog.

♦‍♦ La imatge destacada pertany a AntConc

No discuteixis mai amb un imbècil

Al llibre No pienses en un elefante, el científic cognitiu George Lakoff afirma que, en una discussió amb l’adversari polític, no s’ha d’utilitzar mai el seu llenguatge, perquè si ho fem estem adoptant el seu marc, el qual no ens permetrà mantenir les nostres posicions tal com pretenem.

Llegint Lakoff, he recordat un article de Carles Capdevila publicat fa uns mesos que comença amb la màxima “No discuteixis mai amb un imbècil: et portarà al seu terreny i un cop allà et guanyarà per experiència”. Continua llegint “No discuteixis mai amb un imbècil”

RSS

Després d’haver inclòs el giny de sindicació al blog, tal com explico en l’entrada anterior, el viatge de tornada demana la inclusió d’una relació dels blogs sindicats. Per evitar que el menú lateral sigui massa llarg, he eliminat la llista de blogs que segueixo, que ara ja no és necessària. La llista RSS té l’opció de mostrar la darrera o les darreres entrades a cada blog, i això em sembla un avantatge, perquè amb un cop d’ull em permetrà estar al dia de les novetats, i seguir la nostra blogsfera amb més comoditat. Continua llegint “RSS”

Cal fer dissabte

De tant en tant, cal fer dissabte. Als blogs, també. Avui he modificat algunes coses per millorar una mica l’aspecte i la usabilitat d’Els límits:

Giny de sindicació: tot llegint el mòdul Weblogs, m’he adonat que no havia introduït al blog els botons per a sindicar les entrades i els comentaris. La sindicació ens permet veure, amb un cop d’ull, si hi ha novetats als blogs que seguim, sense necessitat d’entrar-hi. L’autora del mòdul, Meritxell Martí, remarca la importància de la sindicació com a “eina per a crear o mantenir la seva xarxa, o el que seria més precís: el seu ser-en-xarxa” (p. 38). Doncs, apa, a crear xarxa! Continua llegint “Cal fer dissabte”

Scripta manent?

Llegeixo al text de Campàs Llenguatge i pensament. Perspectiva lingüística, que l’escriptura és «la tècnica desenvolupada amb la finalitat exclusiva de fixar l’oralitat mitjançant uns signes gràfics que es fan sobre una superfície apta per donar-hi permanència.», i que «Mai no s’ha trobat escriptura feta sobre materials com ara el vidre, la fragilitat del qual no el fa un suport apte per desenvolupar aquesta funció de durabilitat

Arran d’aquesta afirmació, se m’ha acudit si les escriptures hipertextuals són gaire perdurables. Els canvis tecnològics constants ens obliguen a canviar de suport els nostres documents, i les plataformes al núvol no semblen molt estables, atès que les empreses que les sustenten poden tancar o ser absorbides per d’altres empreses. Un exemple: enguany acabaré el grau que vaig començar fa anys, i durant aquest temps he canviat d’ordinador i he desat els documents de la UOC, successivament, en disquets de 3 i 1/2, cd, discos durs externs, usb, targetes sd i micro-sd… De tant en tant haig de reunir el material nou i l’antic, i passar-lo al suport que em sembla més adequat per a conservar-lo durant una temporada més. El meu portàtil actual no llegeix targetes sd normals i no té disqueteres de cap mena; potser quan torni a canviar d’ordinador no em recordaré de desar un altre cop el meu material uoqui i perdré per sempre tots aquests documents. I, d’altra banda, què passarà amb aquest blog el dia que el senyor o la senyora WordPress faci fallida?

Això em fa pensar, potser per ignorància, que les nostres produccions no perduraran tant en el temps com els suports físics. Creieu que sóc massa pessimista, i que els suports digitals i els hipertextos són tan perdurables com una tauleta de fang cuit?

Tot fent núvols

Els núvols de paraules són aplicacions que permeten analitzar textos, d’una manera més superficial i més limitada que amb l’AntConc, però amb uns resultats més visuals. Per tant, poden ser útils per a detectar amb un cop d’ull les reiteracions excessives, i ens poden ajudar a enriquir els nostres escrits.

Per exemple, Wordle produeix núvols que es poden configurar amb patrons, colors i tipus de lletra diferents. A més,  té funcionalitats com l’eliminació dels mots més comuns en molts idiomes, i també en català, i es pot triar la gamma de color, el tipus de lletra, l’orientació de les paraules, etc. L’única pega que li trobo és que no empra més de 150 paraules, de manera que no serveix per a analitzar textos gaire llargs. El núvol de la imatge de dalt l’he fet amb una part de la meva Pac 1, i hi podem veure algunes paraules molt destacades, és a dir, molt repetides.

També he provat Wordsift, que genera núvols semblants a l’anterior i ens diu el nombre d’aparicions de la paraula que assenyalem amb el cursor; però té el desavantatge que només parla anglès, i la funció stop words, que elimina els mots freqüents, només funciona amb textos en aquest idioma. A tall d’exemple, amb uns paràgrafs de La teoria del caos, que hem de llegir aquests dies, ha sortit el núvol següent, en què hi destaquen conjuncions i articles:

índex

Wordsift té una altra funció molt interessant que genera una xarxa de significats a partir de la paraula que seleccionem del núvol, amb nusos que indiquen la categoria gramatical i el camp semàntic de cada ramificació. Si cliquem damunt qualsevol paraula de la xarxa, es genera una xarxa nova. Igual que ens ha passat abans, si el text que hem introduït no és anglès només podrem generar xarxes a partir de paraules que també existeixin en aquest idioma. Al núvol anterior, he triat la paraula control, amb aquest resultat:

xarxa significats

Si ho proveu, veureu que la xarxa no apareix de cop, sinó que es va construint i va canviant de forma, d’una manera quasi orgànica, i fa el mateix si tibem qualsevol de les  seves branques. Sembla un animal aquàtic!

Arran d’un comentari de la Dolors Martí sobre els núvols, i d’una entrada al seu blog Escriptures Hipertextuals sobre els mapes mentals amb l’aplicació bubbl.us, m’he animat a fer-ne un, i m’ha agradat molt. És “intuïtiu”, no has de llegir un manual per fer-lo servir, i és ràpid. Amb la versió gratuïta es poden afegir enllaços a les etiquetes, però continguts no. Crec que és una eina útil per a assignatures com aquesta, en què hem de treballar a molts conceptes. Aquest és el meu mapa improvisat:

mapa mental hipertext

Tinc pendent de provar el Tagxedo, que va proposar la Françoise Sanches en un comentari. Espero poder fer-ho aviat.

Aquesta pàgina ha estat deixada en blanc expressament

Un article recent al web Letras libres reflexionava sobre les pàgines en blanc dels llibres. Dels llibres en paper, perquè l’existència d’aquestes pàgines està lligada al paper: bé siguin les anomenades de cortesia, bé siguin sobreres del darrer plec de l’enquadernació, o bé siguin el resultat d’un error d’impremta, existeixen perquè pertanyen a un llibre de paper. Igual que les pàgines de textos tècnics o acadèmics que han estat deixades expressament en blanc, i que contenen un text informatiu (Aquesta pàgina ha estat deixada expressament en blanc) que els lleva la seva condició.

L’article també parla d’un projecte web que reivindica les pàgines en blanc, This page intentionally left blank, que no s’actualitza fa temps però que encara permet accedir a algunes pàgines en blanc digitals, com http://eyeshot.net/___.html , http://rosanski-online.de/ , http://www.leftblank.com/ i http://www.porcus.ch/blankpage.html .

Per això, l’entrada anterior és en blanc. Em demano si té el mateix efecte inquietant o relaxant del paper, i si una pantalla en blanc pot fer algun servei a l’hipertext on vivim.

La construcció de la dona TIC

Database1984

Aquest video  es va fer viral un temps enrere. És un fragment de Database, un programa britànic de divulgació de la informàtica, de la televisió britànica. Era l’any 1984, i una família amant de les noves tecnologies explicava des del seu domicili les operacions «extremadament simples» que calia fer per enviar un correu electrònic.

Quan em va arribar, a través de Facebook, vaig pensar que era una anècdota divertida per fer broma sobre l’aspecte i la mida dels aparells, el soroll característic del mòdem, i les maniobres per a connectar l’ordinador a una xarxa. Vaig riure, i no hi vaig pensar més.

Però després de llegir els apunts d’alfabetització digital, Database m’ha vingut al cap, de sobte; he recordat que, si bé els usuaris avançats que expliquen l’e-mail al món eren dos homes, la presentadora del programa és una dona que ofereix explicacions tècniques als espectadors. Crec que aquesta imatge encaixa força bé amb la visió de neutralitat que el feminisme liberal dels anys 70 mantenia respecte de les TC, i potser els productors o l’emissora pretenien oferir un «model positiu» de dona que es desenvolupa amb naturalitat amb les TC i els seus usuaris masculins.