ENTREVISTA

Mireia Farrús: «Encara falta molta consciència de la importància d'exigir que el món digital sigui en català»

La lingüista, que ha participat en el congrés sobre llengua i intel·ligència artificial organitzat pel Departament de Política Lingüística i la Xarxa Europea per a la Diversitat Lingüística a l'IEC, encapçala Scribal, un projecte de transcriptor digital

Mireia Farrús, lingüística i física, a l'IEC
Mireia Farrús, lingüística i física, a l'IEC | Tomàs González Carbó
17 de novembre de 2024, 23:00
Actualitzat: 19 de novembre, 1:27h

Avui dia, el món digital, des de les noves tecnologies fins a les xarxes socials, copa tota l’atenció de la població, sobretot del segment format pels joves. Per això, cal que a les noves tecnologies —ordinadors, telèfons mòbils, tauletes, electrodomèstics i robots—, les plataformes i les xarxes socials hi hagi presència de català. En aquest sentit, ja existeix la iniciativa AINA, un projecte d’intel·ligència artificial i tecnologies del llenguatge que té com a objectiu potenciar el català en el món digital. A banda, en l’anterior legislatura ja es van impulsar iniciatives per normalitzar la llengua catalana a internet, com per exemple beques per a creadors de contingut i més recursos destinats a l’audiovisual en català. En aquesta nova legislatura es vol seguir la mateixa línia. Per això, el Departament de Política Lingüística, juntament amb la Xarxa Europea per a la Diversitat Lingüística (NPLD), ha organitzat a l’Institut d’Estudis Catalans (IEC) el congrés Digitalització, intel·ligència artificial i idiomes: vista general i oportunitats

Concretament, s’hi ha abordat la qüestió del català i la intel·ligència artificial, a partir de ponents especialitzats en lingüística computacional, com ara Mireia Farrús Cabeceran. Física, lingüista, professora de la Universitat de Barcelona i investigadora en lingüística computacional, Farrús forma part del Centre de Llenguatge i Computació (CLiC), un grup de recerca orientat al tractament informàtic del llenguatge amb diverses línies d’investigació i que recentment ha desenvolupat Scribal, un projecte de transcriptor digital que posa fi a la problemàtica sobre en quina llengua s’han de fer les classes a la universitat quan hi arriben nouvinguts o estudiants d’Erasmus. Amb aquesta eina, es garanteix que es faci servir el català, la llengua pròpia de les universitats catalanes, i que també es respecten els drets lingüístics a les aules.

Vostè és física i lingüista. De quina manera es relacionen aquestes dues disciplines?
Tenen més relació del que sembla. Al final, la parla és física pura, perquè són ones sonores que es transmeten per l’aire, i poder captar aquesta informació, transformar-la i veure quina relació té amb el llenguatge humà és apassionant. I la física, al capdavall, també té molta part matemàtica, que al final són estructures lògiques, i la llengua també té aquestes estructures: tot el que és sintaxi, com s’estructuren les oracions... Tot això té una lògica que per mi és molt semblant a la part matemàtica. En la química, per exemple, la formulació química és sintaxi pura. És a dir, com ordenes els elements, com els poses perquè tot tingui un significat...

Concretament, però, és lingüista computacional. En què consisteix aquest camp avui dia encara força desconegut?
La lingüística computacional és el tractament informàtic del llenguatge humà. És a dir, tot allò que podem fer pel que fa al llenguatge com a humans, com el podem formalitzar matemàticament, i mitjançant llenguatges informàtics, com podem aprofitar tot aquest formalisme per comunicar-nos amb les màquines.

Mireia Farrús IEC Nació 6
Mireia Farrús, durant l’entrevista amb Nació - Tomàs González Carbó

Quin paper té la lingüística computacional en la intel·ligència artificial i les tecnologies de la llengua?
La lingüística computacional és un camp de la intel·ligència artificial. Quan parlem d’intel·ligència artificial, parlem de simular tot allò que una persona pot fer: parlar, veure-hi... És a dir, intentar simular totes les funcions que fa una persona gràcies a la seva intel·ligència en l’àmbit informàtic. I la lingüística computacional el que fa és tractar aquesta part concreta del llenguatge.

El català és força present en l’àmbit d’internet gràcies a iniciatives com les de Softcatalà o Col·lectivaT, que promouen l’ús de programari en català i de serveis basats en tecnologies de la llengua. El que faltaria ara és estendre aquesta presència pel que fa a productes, serveis i aplicacions, és a dir, el món digital en general?
Falten aplicacions, que les empreses apostin per les llengües pròpies de cada lloc. Això d’“un estat, una llengua” s’ha d’acabar. I, sobretot, falta que la gent ho demani i ho exigeixi, perquè al final el mercat és el mercat. I a les empreses els ho hem de posar fàcil. Si una empresa pot incorporar una llengua amb el mínim cost econòmic i de temps, serà molt més fàcil que l’incorpori. Per tant, totes les iniciatives que hi pugui haver perquè hi hagi dades disponibles per tothom, per a la gent del carrer, les universitats i les empreses, tot això ens beneficiarà.

“Falta que les empreses apostin per les llengües pròpies de cada lloc i que la gent ho demani i ho exigeixi; això d’‘un estat, una llengua’ s’ha d’acabar”

Per tant, parlem d’un repte tecnològic, però també polític?
Aquí hi ha molta política. Hi ha molts sistemes que no incorporen el català, també en l’àmbit audiovisual, i això torna a estar relacionat amb el tema “d’un estat, una llengua”. Es posa l’excusa que el català no té gaires parlants, però les llengües nòrdiques, com ara el noruec, el suec i el finès, tenen una quantitat de parlants molt semblant a la del català i sí que s’incorporen en molts sistemes. La diferència, però, és que aquestes llengües tenen un estat al darrere que els dona suport. I el que passa a Catalunya és que tenim el castellà, que és la llengua dominant, i el català, que és una llengua no té el mateix suport polític que l’altra. Per tant, aquí primer hem de lluitar contra això. 

A escala institucional, s’ha creat el projecte AINA, que té com a objectiu generar recursos perƒ entrenar algorismes d’intel·ligència artificial i desenvolupar eines lingüístiques que es basen en xarxes neuronals. De moment, però, s’han alliberat poques dades recollides. És important tenir recursos propis lliures i oberts en llengües minoritàries i minoritzades?
Sí, però el problema és que les dades no es poden deixar anar així com així si no són dades creades per a un propòsit específic amb un consentiment informat de la persona, perquè cada vegada hi ha més regulacions en aquest aspecte de la privacitat. I quan entres en dades de veu, encara és més complicat, ja que s’ha de tenir en compte el tema que es pot reconèixer la identitat de la persona. Avui dia, però, amb totes aquestes línies de xarxes neuronals, també pots fer moltes coses amb dades que tenen soroll. I quan dic soroll, no només parlo de soroll de fons, sinó també d’incorreccions. Tot i això, potser a vegades val més esperar i recollir dades de qualitat abans d’alliberar-ne. En definitiva, com més dades, millor, però si són de qualitat, encara millor. Ara bé, també és molt important implicar-hi la societat. Projectes amb dades lliures, com ara Common Voice i Softcatalà, que han arribat molt a la societat i ja formen part del nostre dia a dia, són essencials perquè després la gent es fa seves aquestes eines. 

Mireia Farrús Nació Tomàs 3
Assistens al congrés sobre llengua i intel·ligència artificial a l’IEC - Tomàs González Carbó

Per a una llengua minoritzada com el català, quins avantatges té la sobirania tecnològica, el corrent social i polític que defensa i promou l’autogestió per part dels ciutadans de les infraestructures tecnològiques?
Bàsicament, que tindríem la paella pel mànec. Ara ja tenim eines com ChatGPT i Whisper, que és el mateix que el ChatGPT però amb reconeixement de veu, amb models multilingües. Però si nosaltres tenim dades per adaptar-les més al català, en podrem millorar el que vulguem. A més, aquestes dades també es podran incorporar a les noves tecnologies que vagin sortint, si són lliures. Per tant, l’avantatge de tenir sistemes que podem gestionar és que els podem millorar i adaptar a les nostres necessitats. En canvi, si un sistema és de Google i és tancat, nosaltres no hi tenim cap incidència. El dia que no funcioni com voldríem, no hi podem fer res. I el dia que vulguem que incorpori certa terminologia, tampoc no hi podrem fer res, perquè no tindrem la llibertat de fer-ho. 

Quin nivell de sobirania tecnològica tenim en català actualment?
Estem molt millor del que podríem estar, tenint en compte els parlants que tenim i la situació política que vivim, que ens va tan en contra. Tot i això, encara falta molta consciència, tant socialment com individualment, de la importància d’exigir que el món digital sigui en la nostra pròpia llengua. La diglòssia digital també existeix.

“Els creadors de contingut en català són un referent per a la gent jove, però també per a la tecnologia”

Com es pot continuar avançant activament cap a la sobirania tecnològica plena, doncs?
Hem d’invertir en dades i en recerca. No per ser que tot es faci a Silicon Valley i la Xina. Aquí hem de tenir recursos, però també hem de crear coneixement. Potser no tenim les mateixes dades o en tenim menys, però almenys ho hem de fer i no dependre sempre dels altres. Per tant, hem d’invertir sobretot en creació de recursos, sense recursos no podem fer res. Però també a desenvolupar totes aquestes tecnologies de la intel·ligència artificial generativa. És cert que el Barcelona Support Computing Center ja ha fet molta feina en aquest àmbit, però molts grups petits de recerca també hi han treballat molt des de fa molts anys i cal que rebin suport.

La sobirania tecnològica, però, no és exclusiva de les aplicacions informàtiques, sinó que també es pot estendre a altres sectors digitals, com ara l’audiovisual. Ara mateix els youtubers i els instagramers són un puntal per a l’ús i la difusió de la llengua? En aquest sentit, ja s’han creat iniciatives com el Canal Malaia, que aprofita els algorismes d’aprenentatge automàtic de YouTube per a agrupar vídeos en català i aconseguir que les recomanacions d’altres vídeos que fa la plataforma també es basin en el paràmetre de la llengua, i la Generalitat ha impulsat beques per a creadors de contingut.
Són un referent sobretot per a la gent jove i també per la tecnologia. Al final, el fet que et surti a YouTube un vídeo o un altre són algoritmes matemàtics. No només és la part tècnica d’una pàgina web, sinó que allà hi ha un aprenentatge que diu que, si aquesta persona sempre mira vídeos en català, doncs li continuo recomanant vídeos en català. I, al final, amb la intel·ligència artificial també es podran crear molts continguts. Per tant, són dos camps que van de bracet. I també és important que aquests referents que tenen influència ens ajudin a promoure totes aquestes tecnologies en llengües pròpies. I això comença per tenir consciència i fer servir el català individualment. La tecnologia no ens parlarà en català si nosaltres primer com a humans i com a societat no parlem en català. 

Mireia Farrús IEC Nació 4
Mireia Farrús, durant l’entrevista amb Nació, a l’IEC - Tomàs González Carbó

Tot i això, com es pot encaixar la promoció digital del català en un context de diglòssia a favor del castellà?
El Govern aquí té un paper molt important. Hi ha lleis lingüístiques que existeixen, però que no es compleixen. En canvi, altres lleis bé que ens les fan complir sense discussió. Segurament també falta regular més les lleis lingüístiques en l’àmbit tecnològic, és a dir, quina ha de ser la presència del català en el món digital. En definitiva, fa falta molt suport del Govern i de les institucions.

Per tant, quines accions es podrien de promoure perquè el català fos una llengua disponible en tots els serveis digitals?
Més iniciatives voluntàries com Common Voice i Softcatalà. Sempre dic que Softcatalà és una estructura d’estat a Catalunya. Ha fet una feina importantíssima de cohesió social i ha fet molt més que el Govern en moltes etapes. I Common Voice també és molt important, com també la feina de difusió que va fer el Govern d’implicar la societat en aquesta iniciativa. Però, sobretot, és important tenir consciència sobre què és la sobirana tecnològica, és a dir, que tothom del carrer sàpiga i entengui què és la sobirania tecnològica i la diglòssia digital, que hi hagi la voluntat i les ganes de tenir tota la tecnologia en català. Ara bé, si nosaltres no fem servir el català, tampoc aconseguirem tenir la tecnologia en català. Tampoc ho podem deixar tot en mans del Govern. Al final, moltes vegades els governs van a remolc del que vol la gent. Si veu que hi ha una consciència de preservar la llengua i de mantenir-la, hi haurà més gent que s’hi afegirà, tant empreses com institucions públiques. 

“Cal que tothom sàpiga i entengui què són la sobirania tecnològica i la diglòssia digital, que hi hagi voluntat i ganes de tenir tota la tecnologia en català”

Així mateix, Catalunya és un dels llocs més avançats a Europa en l’àmbit digital i està al capdavant de la llista de llocs més atractius del sud d’Europa per captar inversió estrangera en tecnologia. Com hauria de jugar a favor de la llengua tot això?
Sí, som un pol tecnològic importantíssim. Encara que només sigui per motius culturals i climàtics, molta gent vol viure i treballar aquí, i això ho hem d’aprofitar. I, a banda, aquí tenim molt talent. Als catalans ens agrada la tecnologia. Vam ser els segons a crear contingut a Viquipèdia. Hem d’aprofitar tot aquest potencial que tenim.

Eines recents com la Siri, l’Alexa i el ChatGPT ho han revolucionat tot, però abans ja havien sortit moltes altes eines d’aquest àmbit. Què és el que els diferencia de la resta?
Totes aquestes tècniques que han sortit ara amb aprenentatge profund i xarxes neuronals es diferencien de la resta pel salt qualitatiu que han fet. Abans, quan volies crear un sistema, havies de començar des de zero, és a dir, havies d’entrenar amb dades que fossin en català. En canvi, ara pots fer servir sistemes que ja existeixen i fer una adaptació a una llengua, i això és el pas crucial. Per posar un exemple, el Whisper, que és el sistema de reconeixement de la parla d’OpenAI, fa servir gairebé un milió d’hores d’àudio entre anglès i diferents llengües. Aquesta quantitat de dades és inassumible per a una universitat, un centre de recerca o una empresa petita, però poder aprofitar tota aquesta infraestructura i fer servir aquestes tècniques que permeten fer una petita adaptació final a cada llengua és el que ha canviat i és el paradigma d’aquestes tecnologies.

“La tecnologia no ens parlarà en català si nosaltres primer com a humans i com a societat no parlem en català”

Pel que fa a llengua, el ChatGPT es pot fer servir en català. Ara bé, hi ha constància de si hi ha diferències en la qualitat de les respostes entre llengües majoritàries i minoritàries?
Sí, la qualitat que tenen les respostes en anglès no la tenen les respostes en català. És evident. Són models entrenats amb dades d’altres cultures. Normalment, quan li dius que et generi un gegant, no et genera el típic gegant català, perquè hi ha un biaix cultural en els models, i això hi és culturalment, socialment i lingüísticament en aquests models. 

El CLiC-Centre del Llenguatge i Computació de la Universitat de Barcelona, del qual sou membre, és un dels centres de recerca de Catalunya orientats al tractament informàtic del llenguatge. Quines són les seves línies de recerca i investigació?
El grup ha estat liderat durant molts anys la Maria Antònia Martí, que n’és la fundadora i hi ha fet molta feina. Però ara el capitaneja la Mariona Taulé, que és especialista en corpus, i els corpus també són dades, al final. I poder tenir dades anotades de qualitat també és molt important. I ja no només tenir dades, sinó també dades que tinguin un sentit, que tinguin una anotació. Això vol dir que tenen etiquetes que descriuen el que tenen les dades. Per tant, el sistema pot aprendre el que tu li has descrit. Així doncs, la Mariona porta molt més la part de text, i treballa molt en sistemes, per exemple, de detecció, de desinformació, de gènere, de sexisme, de classificació de textos, en què l’anotació és molt important. I com a grup, des de fa uns anys també incorporem tot el que són tecnologies de la parla.

Mireia Farrús IEC Nació 5
Mireia Farrús també és membre del CLiC - Tomàs González Carbó

També heu desenvolupat Scribal, un projecte de transcriptor digital. En què consisteix? 
Scribal ve d’una idea i una obligació moral nostra de tenir sistemes tecnològics en català, perquè som el Departament de Filologia Catalana i el CLiC. I respon a dues necessitats de la Universitat de Barcelona. La primera, per posar fi a la polèmica sobre en quina llengua s’han de fer les classes quan arriba un nouvingut o un estudiant d’Erasmus, perquè, com que aquesta eina transcriu i tradueix en diferents llengües el que diu el professor, no cal canviar de llengua. Així, es garanteix que es fa servir la llengua pròpia de les universitats catalanes i també es respecten els drets lingüístics i, alhora, la qualitat dels continguts, perquè el docent es pot expressar en català en tot moment. I, la segona, per ajudar les persones amb dificultats auditives. Si algú no hi sent bé i pot tenir el contingut transcrit, té accés a la informació que dona el professor. A banda, la part diferencial del projecte és que agafem el Whisper i l’adaptem al català, i després fem una adaptació terminològica científica i augmenten la precisió en diferents varietats dialectals, perquè si tenim un professor de València o de les Balears, ha de funcionar igual que funciona amb un professor de Barcelona.  

I ara encara està en fase pilot?
Sí, hem aconseguit un ajut producte del programa d’indústria del coneixement de l’AGAUR i estem fent proves. Ja hem fet l’adaptació al català, que la volem millorar encara més, i ara farem l’adaptació terminològica. Amb aquest ajut, podrem fer proves pilot a gran escala a la universitat, per veure a quantes classes en paral·lel podem donar suport, a quantes facultats, amb quina terminologia, quina és la qualitat de la transcripció per cada àrea de coneixement...

“El projecte Scribal garanteix que es faci servir la llengua pròpia de les universitats catalanes a les aules i també que es respecten els drets lingüístics”

De cara al futur, es podria estendre a altres àmbits?
Sí. De fet, d’entrada pensàvem en altres universitats, però tenim molt interès, per exemple, en empreses de traducció, empreses que organitzen congressos o empreses de subtitulació que veuen un potencial molt gran en Scribal. I també podria servir en l’àmbit jurídic i en el de la sanitat. En qualsevol lloc on tinguis persones que acaben d’arribar i no entenen la llengua, és una eina fantàstica.

I, tenint en compte el terreny que van guanyant la intel·ligència artificial i les tecnologies de la llengua, creu que caldrien més lingüistes computacionals o amb coneixement de programació?
Sí, vaig treballar a Alemanya el 2001 i el 2002, i allà, fa més de 20 anys, la lingüística computacional ja era una carrera. Aquí, en canvi, no. Només tenim el perfil d’informàtic i el perfil de lingüista, per separat. Sí que pots optar per mestres especialitzats, però estaria bé que dins la carrera d’informàtica hi hagués una opció del tractament de la llengua, i dins de la carrera de lingüística, més pes en la part computacional. 

Mireia Farrús IEC Nació 8
Mireia Farrús, durant l’entrevista amb Nació - Tomàs González Carbó

En quina situació posaria el català en el món tecnològic i digital de cara al futur?
Soc positiva en aquest sentit. Penso que s’aconseguirà la sobirania tecnològica en català, però hi insisteixo, s’aconseguirà quan hi hagi consciència individualment i col·lectivament de la importància de fer servir el català en el món digital.

“El català és una llengua igual d’important que la resta; hem de poder anar a tot arreu amb aquesta llengua, i això la tecnologia ens ho pot facilitar”

Així doncs, com a conclusió, de quina manera poden contribuir a normalitzar el català la intel·ligència artificial i les tecnologies de la llengua?
Tornant al cas de Scribal, per exemple, si amb aquesta eina es poden fer tots els màsters de la UB en català sense la necessitat de fer-los en anglès perquè tinc alumnes de la Xina, això ja és una manera de normalitzar la llengua. La UB té un lema que m’agrada molt, que és “Sigues internacional, parla català”. Per mi és la clau. És a dir, el català és una llengua igual d’important que la resta. Hem de poder anar a tot arreu amb aquesta llengua, i això la tecnologia ens ho pot facilitar i ens ho pot aconseguir.