Cada vegada és més habitual fer servir intel·ligència artificial per escriure textos o fer treballs acadèmics entre els estudiants, motiu pel qual fa temps que el professorat utilitza eines per contrastar-ho. Els detectors de textos generats per intel·ligència artificial ajuda a descobrir si un escrit està fet amb IA o no segons determinats paràmetres. Són capaços de trobar el percentatge de coincidències i probabilitats i, d'aquesta manera, servir de guia per aprovar o descartar un text.
Però, segons els experts en tecnologia, aquest veredicte informàtic no només és poc fiable; és, sobretot, injust. Els detectors d'intel·ligència artificial semblen una solució lògica, però tenen dos problemes fonamentals. El primer és tècnic: no funcionen bé. El segon problema és més rellevant: encara que funcionaren perfectament, no resoldrien el vertader problema.
Una solució tècnicament fràgil
A diferència del plagi tradicional, on es compara un text amb fonts existents, aquí no hi ha un original amb el qual contrastar. S'intenta distingir entre text estadísticament humà i text estadísticament generat per una màquina per semblar humà. Una línia de separació difícil de traçar i cada vegada més borrosa.
A més, hi ha raons per a pensar que aquesta frontera desapareixerà. Com millors siguen els models generatius, més indistingible serà la seua producció de la humana. Detectar l'ús d'intel·ligència artificial serà com intentar diferenciar entre dos textos igualment plausibles, una tasca que, portada a l'extrem s'assembla a llançar una moneda. És simplement atzar.
El cost d'equivocar-se
Podríem acceptar que els detectors s'equivoquen en alguns casos. Però en educació, aquests casos particulars importen molt. Com tots els classificadors, els detectors de text escrit amb intel·ligència artificial cometran errors de dos tipus: els falsos positius i els falsos negatius. Un fals positiu, és a dir, acusar de frau un estudiant que ha fet el treball, té conseqüències greus: ansietat, indefensió i, en molts casos, una acusació impossible de refutar.
D'altra banda, un fals negatiu, no detectar qui sí que ha fet servir IA, té un efecte més difús, però igualment perjudicial en recompensar aquells que no han complert el seu compromís acadèmic: erosiona la confiança en el mateix sistema educatiu i els estudiants perceben que l'esforç no compensa i la motivació es va deteriorant. Els sistemes es poden ajustar per minimitzar els falsos negatius o els falsos positius, però no tots dos alhora. (Per exemple: o ajustem el sistema que detecta càncer de mama en radiografies perquè no se li escape cap possible cas, a costa de sobrediagnosticar, o deixem que se li escapen casos).
Així, fer servir aquests sistemes sempre implicarà acceptar un dels dos tipus d'injustícia. Si minimitzem els falsos negatius estarem apostant per una avaluació basada en el control: prioritzem que no se'ns “cole” cap cas encara que alguns dels detectats no siguen realment textos escrits per la IA. Per contra, si ens importa més no caure en falsos positius estarem advocant per una avaluació que prioritze l'aprenentatge i que minimitze la penalització per error a un estudiant que sí que ha fet l'esforç d'escriure el seu treball.
Un problema mal plantejat
Tanmateix, fins i tot si resolguérem els problemes tècnics i ètics (per exemple, optant perquè se'ns cole algun text artificial per no penalitzar injustament), continuaríem sense abordar allò essencial. Moltes tasques acadèmiques tenen sentit perquè impliquen esforç cognitiu: escriure una redacció, preparar un informe o resoldre un exercici requereix temps i feina. I aquest esforç és precisament el que genera aprenentatge.
La intel·ligència artificial no només pot estar provocant qualificacions injustes: és que ha trencat la relació entre aquestes tasques i l'esforç cognitiu que suposaven. Això canvia completament el sentit de l'avaluació. Quan s’utilitzen eines d'IA, l'aprenentatge pot no estar produint-se.
El miratge de la detecció
Els detectors ofereixen una cosa molt temptadora: una sensació de control. Permeten pensar que el problema està delimitat, que n'hi ha prou amb identificar aquells que cometen frau incomplint les regles. Però aquesta sensació és enganyosa.
Tal com diu l'acudit, estem buscant les claus sota el fanal, no perquè les hàgem perdut allà, sinó perquè és on hi ha llum. És a dir, intentem detectar l'aprenentatge al lloc on sabem mirar, sense preocupar-nos de si això implica necessàriament que s'estiga produint. La dependència de productes finals (un text, un informe, una solució) com a evidència d'aprenentatge ja era discutible: serveixen realment per garantir que un estudiant coneix un tema? Ara és, directament, insuficient. Per això, invertir esforços a millorar la detecció resulta, en el millor dels casos, irrellevant. I en el pitjor, una distracció.
Quan la solució agreuja el problema
L'ús sistemàtic de detectors desplaça la relació educativa cap a la sospita. En lloc de fomentar la corresponsabilitat de l'estudiant en el seu aprenentatge, introdueix una lògica de vigilància en què l'estudiant passa a ser un potencial infractor, ignorant la presumpció d'innocència, i el docent, un vigilant. Això no només té implicacions ètiques. També afecta l'aprenentatge. La confiança, l'autonomia i la responsabilitat són difícils de desenvolupar en un entorn on la prioritat és evitar ser acusat. Així, paradoxalment, en intentar protegir la integritat acadèmica, podem estar erosionant les condicions que la fan possible.
Canviar de direcció
En lloc de preguntar-nos: “Com detecte si un estudiant ha fet servir IA?”, podríem preguntar-nos: “Com dissenye una avaluació en què fer servir IA sense aprendre no servisca de res?”. Això implica, per exemple, dissenyar tasques on el valor no estiga únicament en el resultat final, sinó en el procés seguit. O plantejar activitats que requereixen interacció, context o presa de decisions que no es puguen delegar fàcilment.
No és una solució simple ni immediata. Però, a diferència de la detecció, apunta al nucli del problema: un replantejament dels mètodes d'avaluació. I això, encara que incòmode, pot ser una oportunitat.
Aquest article va ser publicat originalment a The Conversation.
Font
-
VS. Sadasivan, A. Kumar et al. (2025). "Can AI-Generated Text be Reliably Detected? Stress Testing AI Text Detectors Under Various Attacks". Cornell University



