15
de gener
de
2017, 10:18
Actualitzat:
16
de gener,
12:35h
Carlos Castillo dirigeix el grup d'investigació sobre ciència de dades a l'Eurecat (el Centre Tecnològic de Catalunya). En un moment que la intel·ligència artificial, a través dels algoritmes, decideix bona part de la informació que consumim a Internet, el científic aposta per la transparència i la privacitat com a drets digitals bàsics i anima tothom a què s'informi de com defensar-los.
Aquesta setmana han presentat el projecte europeu Types, que vol canviar la manera com es fa publicitat a Internet, afegint-hi la part ètica al control de la informació dels usuaris. "Volem donar l'oportunitat al consumidor de decidir quines dades personals estan en mans de les empreses i quines no".
L'any passat va publicar l'interessant llibre Big Crisis Data, on explica que a través de l'anàlisi dels milions de missatges de Facebook o Twitter els científics de dades poden saber com reaccionarem davant d'un atemptat, un desastre natural o una crisi econòmica.
- Acaben de presentar Types, un projecte europeu basat en l'ús ètic de les dades en la publicitat a Internet. Google ja no m'enviarà anunciants a partir de les pàgines que visito?
- El projecte es va pensar arran de les queixes de milers d'usuaris. La idea és canviar el funcionament del mercat dels anuncis a Internet. Ara, gran part de la publicitat que reps és el resultat d'una subhasta programàtica en temps real. L'anunciant diu quan està disposat a pagar per un clic d'un anunci de perfums, per exemple, i un altre aposta una quantitat superior. Es queda l'espai publicitari qui ofereix més diners. Types proposa que a la subhasta també hi participi un intermediari, responsable del control ètic de les dades dels usuaris.
- Qui seria aquest intermediari?
- Aquest rol el podrien assumir organitzacions ciutadanes o sense ànim de lucre, que actuarien com a custodis de les dades personals. L'intermediari demanaria a l'anunciant el tipus de dades que necessita per a la campanya de publicitat, però no totes.
- I l'anunciant acceptarà?
- Et poso un exemple. Posem que volem promocionar un nou model de cotxe. L'anunciant necessita arribar a gent de més de 50 anys i que visqui a Catalunya. És possible que el nostre rastre digital deixi moltes altres dades, però el custodi o intermediari no les cedirà. Així, l'usuari no perd privacitat, sap quina informació s'està fent servir i l'anunciant pot assegurar millor el target.
- Com confiarem en aquest custodi?
- Trobaràs la manera. Si li tens confiança, li donaràs més detalls teus com a consumidor, com el model de cotxe que tens, quan anys fa que condueixes, etc. I confiaràs en ell perquè et recomani una empresa amb un comportament ètic quan vulguis comprar un producte. Amb Types volem crear un ecosistema d'intermediaris.
- Els intermediaris a l'era d'Internet no s'estaven acabant?
- Totes les solucions per protegir la privacitat a Internet funcionaran amb intermediaris, que interactuaran amb els anunciants. Si El Corte Inglés t'ha d'enviar un paquet a casa, en lloc de donar-li les dades del teu domicili al centre comercial, les donaràs a l'intermediari de la teva confiança. Types és encara només un projecte, que funcioni o no dependrà de molts factors com ara que la indústria estigui preparada i que els usuaris siguin conscients de la importància de la privacitat.- Es parla molt del Big Data però potser no som prou conscients que les dades massives ja es troben a tot arreu, oi?
- Arreu. Per exemple, el procés industrial de modular un plàstic genera un volum immens de dades. Perquè els motlles tenen sensors a dins. O una planta de processament d'algun producte. El problema és que obtenir informació valuosa d'aquestes dades requereix un procés industrial.
- I les dades dels ciutadans, com es recullen?
- Totes les accions digitals que fem generen dades. La pregunta és si hi ha res valuós en elles. Pensem en la salut pública. Cada cop que anem al metge de capçalera i ens diuen que ens ha pujat o baixat la pressió, cada cop que ens donen un tractament i ens demanen que tornem en dues setmanes per una nova valoració, es generen dades on hi poden haver respostes a les nostres malalties, com el càncer.
- Si no sabem més del càncer, és perquè no hem analitzat prou el Big Data?
- No m'atreviria a dir tant. Però sí que hi ha claus per testejar hipòtesis, alternatives que no funcionen, per descartar probabilitats. Fins ara, l'ús del Big Data ha estat una qüestió de blanc o negre: o et dono totes les meves dades o no te les dono. Entre hospitals, centres biomèdics i d'investigació sempre hi ha conflictes. Però des de la informàtica i de la mineria de dades s'ha proposat treure els identificadors personals i trobar solucions.
- Abans parlava de ser conscients de la nostra privacitat. Però les administracions públiques que controlen els nostres historials mèdics també tenen una responsabilitat...
- Clar, diuen que s'anonimitzen les dades però només en treuen el nom i cognoms. I es deixa la data de naixement, el lloc o l'edat. Si la persona viu en una localitat petita, es pot deduir qui és. Les actuals tècniques d'anonimització de dades revisen totes les maneres possibles d'identificar a una persona, es fa un "anàlisi de riscos" i es modifiquen certs paràmetres, com canviar la data de naixement per la dècada. El resultat té una garantia matemàtica, i ja no és possible reconèixer a un individu.
- Quines aplicacions pràctiques es poden fer a partir de l'anàlisi de dades?
- Els sistemes educacionals estan poc explotats. Per exemple, l'appDuoLingo, que serveix per aprendre idiomes, està basada en anàlisi de dades. Imagina que no tens ni idea d'alemany, què hauries d'aprendre primer: els números, els verbs o com saludar? Fan proves i es detecten els mètodes més efectius per a cada persona. Es pot fer educació basada en l'evidència i optimitzada.
- L'any passat va publicar el llibre: Big Crisis Data. En ell explica que la informació que publiquem a les xarxes socials en situacions d'emergència és molt útil. En quin sentit?
- En una crisi com un atemptat, un incendi o un desastre natural, la gent sap què fer, el contrari del que mostren les pel·lícules de Hollywood, on tothom entra en pànic i corre en cercles. En aquestes situacions tan extremes, la gent necessita informació i va als canals que li resulten més familiars, sigui la televisió o les xarxes socials per decidir què fer.
- Vol dir que durant un terratrèmol la gent acut a Twitter?
- Sí. Ho veiem sovint a països amb pocs recursos econòmics perquè les trucades telefòniques i els SMS són cars. Però tenim un problema amb el soroll de les xarxes. Perquè si un cos de rescat o una organització d'ajuda humanitària va a Twitter i intenta esbrinar quanta gent en situació de risc n'hi ha, no hi ha manera de fer-se a la idea. Per això hem de ser capaços de construir eines que ajudin a eliminar aquest soroll.
- Com ara quines?
- Pensa en un riu desbordat. Hi ha nens atrapats a l'escola i el pont del poble és inaccessible. La piulada d'algú que explica els fets, la foto a Instagram, les notícies dels mitjans, tot això són imputs que serveixen per construir un mapa gràfic amb informació més útil i fiable per als serveis d'emergència.
- Què consideren soroll els científics de dades?
- Els missatges que no han de veure amb el desastre que està passant, o aquells que mencionen els fets però no aporten informació, també aquells que enganyen o aporten dades incorrectes. En el cas d'un tsunami, per exemple, hi ha gent que alerta simplement perquè l'ha escoltat pel carrer però no ha comprovat que sigui cert. En els desastres provocats pels humans, és diferent.
- En quin sentit?
- Hi ha més manipulació i mentida, sobretot en un conflicte polític o un cop d'Estat. Vaig seguir els fets de la primavera àrab a Egipte a través de les xarxes socials, i hi va haver molta distorsió. En els desastres naturals també hi entra en joc la política en algun moment.
- En els darrers atemptats, la policia va avisar a la població de no enviar per Twitter informació dels fets. És una decisió correcta?
- En el cas de Bèlgica la policia va dir que la població no enviés missatges sobre les accions policials. En canvi, a l'atemptat de Kènia, al Wesgate Mall del 2014, el govern va demanar no difondre rumors. Però què és un rumor? Dir que el govern ha fracassat? Que va trigar tres hores a prendre partit? En la meva opinió és un missatge confús.
- Segons el que explica els analistes de dades seran els professionals del futur
- Sorgiran moltes professions noves relacionades amb les dades, però sens dubte els Data Scientist, dedicats a la mineria de dades i a l'estadística, seran molt necessaris.
- D'aquí a deu anys, a on ens haurà portat tot això del Big Data?
- Dependrà únicament de nosaltres, de com defensem els nostres drets, el de la privacitat i el d'exigir que ens donin explicacions per allò que fan els governs o les empreses amb les nostres dades personals. Per què hauríem de renunciar a saber-ne? Jo no vull que un algoritme decideixi quan m'han d'operar en un hospital. O si m'han de donar un crèdit en un banc. Avui els algoritmes, basats en intel·ligència artificial, decideixen bona part de les accions comercials de les multinacionals. I són un mecanisme molt opac.
- No li sembla una batalla perduda lluitar per fer més transparent aquesta opacitat?
- En absolut. Ja existeixen organitzacions dedicades a estudiar l'ètica dels algoritmes. La transparència i la privacitat són bàsiques. Si renunciem a aquests drets, ho perdrem tot.
Aquesta setmana han presentat el projecte europeu Types, que vol canviar la manera com es fa publicitat a Internet, afegint-hi la part ètica al control de la informació dels usuaris. "Volem donar l'oportunitat al consumidor de decidir quines dades personals estan en mans de les empreses i quines no".
L'any passat va publicar l'interessant llibre Big Crisis Data, on explica que a través de l'anàlisi dels milions de missatges de Facebook o Twitter els científics de dades poden saber com reaccionarem davant d'un atemptat, un desastre natural o una crisi econòmica.
- Acaben de presentar Types, un projecte europeu basat en l'ús ètic de les dades en la publicitat a Internet. Google ja no m'enviarà anunciants a partir de les pàgines que visito?
- El projecte es va pensar arran de les queixes de milers d'usuaris. La idea és canviar el funcionament del mercat dels anuncis a Internet. Ara, gran part de la publicitat que reps és el resultat d'una subhasta programàtica en temps real. L'anunciant diu quan està disposat a pagar per un clic d'un anunci de perfums, per exemple, i un altre aposta una quantitat superior. Es queda l'espai publicitari qui ofereix més diners. Types proposa que a la subhasta també hi participi un intermediari, responsable del control ètic de les dades dels usuaris.
- Qui seria aquest intermediari?
- Aquest rol el podrien assumir organitzacions ciutadanes o sense ànim de lucre, que actuarien com a custodis de les dades personals. L'intermediari demanaria a l'anunciant el tipus de dades que necessita per a la campanya de publicitat, però no totes.
- I l'anunciant acceptarà?
- Et poso un exemple. Posem que volem promocionar un nou model de cotxe. L'anunciant necessita arribar a gent de més de 50 anys i que visqui a Catalunya. És possible que el nostre rastre digital deixi moltes altres dades, però el custodi o intermediari no les cedirà. Així, l'usuari no perd privacitat, sap quina informació s'està fent servir i l'anunciant pot assegurar millor el target.
Carlos Castillo va publicar "Big Crisis Data" l'any passat Foto: Adrià Costa
- Com confiarem en aquest custodi?
- Trobaràs la manera. Si li tens confiança, li donaràs més detalls teus com a consumidor, com el model de cotxe que tens, quan anys fa que condueixes, etc. I confiaràs en ell perquè et recomani una empresa amb un comportament ètic quan vulguis comprar un producte. Amb Types volem crear un ecosistema d'intermediaris.
- Els intermediaris a l'era d'Internet no s'estaven acabant?
- Totes les solucions per protegir la privacitat a Internet funcionaran amb intermediaris, que interactuaran amb els anunciants. Si El Corte Inglés t'ha d'enviar un paquet a casa, en lloc de donar-li les dades del teu domicili al centre comercial, les donaràs a l'intermediari de la teva confiança. Types és encara només un projecte, que funcioni o no dependrà de molts factors com ara que la indústria estigui preparada i que els usuaris siguin conscients de la importància de la privacitat.
- Arreu. Per exemple, el procés industrial de modular un plàstic genera un volum immens de dades. Perquè els motlles tenen sensors a dins. O una planta de processament d'algun producte. El problema és que obtenir informació valuosa d'aquestes dades requereix un procés industrial.
"Hi ha res valuós a les dades massives? S'ha d'explorar perquè poden donar respostes a les nostres malalties"
- I les dades dels ciutadans, com es recullen?
- Totes les accions digitals que fem generen dades. La pregunta és si hi ha res valuós en elles. Pensem en la salut pública. Cada cop que anem al metge de capçalera i ens diuen que ens ha pujat o baixat la pressió, cada cop que ens donen un tractament i ens demanen que tornem en dues setmanes per una nova valoració, es generen dades on hi poden haver respostes a les nostres malalties, com el càncer.
- Si no sabem més del càncer, és perquè no hem analitzat prou el Big Data?
- No m'atreviria a dir tant. Però sí que hi ha claus per testejar hipòtesis, alternatives que no funcionen, per descartar probabilitats. Fins ara, l'ús del Big Data ha estat una qüestió de blanc o negre: o et dono totes les meves dades o no te les dono. Entre hospitals, centres biomèdics i d'investigació sempre hi ha conflictes. Però des de la informàtica i de la mineria de dades s'ha proposat treure els identificadors personals i trobar solucions.
Carlos Castillo: "Es poden trobar solucions ètiques per l'anonimització de dades" Foto: Adrià Costa
- Clar, diuen que s'anonimitzen les dades però només en treuen el nom i cognoms. I es deixa la data de naixement, el lloc o l'edat. Si la persona viu en una localitat petita, es pot deduir qui és. Les actuals tècniques d'anonimització de dades revisen totes les maneres possibles d'identificar a una persona, es fa un "anàlisi de riscos" i es modifiquen certs paràmetres, com canviar la data de naixement per la dècada. El resultat té una garantia matemàtica, i ja no és possible reconèixer a un individu.
- Quines aplicacions pràctiques es poden fer a partir de l'anàlisi de dades?
- Els sistemes educacionals estan poc explotats. Per exemple, l'appDuoLingo, que serveix per aprendre idiomes, està basada en anàlisi de dades. Imagina que no tens ni idea d'alemany, què hauries d'aprendre primer: els números, els verbs o com saludar? Fan proves i es detecten els mètodes més efectius per a cada persona. Es pot fer educació basada en l'evidència i optimitzada.
"Hem de ser capaços de construir eines que ajudin a eliminar el soroll de les xarxes socials"
- L'any passat va publicar el llibre: Big Crisis Data. En ell explica que la informació que publiquem a les xarxes socials en situacions d'emergència és molt útil. En quin sentit?
- En una crisi com un atemptat, un incendi o un desastre natural, la gent sap què fer, el contrari del que mostren les pel·lícules de Hollywood, on tothom entra en pànic i corre en cercles. En aquestes situacions tan extremes, la gent necessita informació i va als canals que li resulten més familiars, sigui la televisió o les xarxes socials per decidir què fer.
- Vol dir que durant un terratrèmol la gent acut a Twitter?
- Sí. Ho veiem sovint a països amb pocs recursos econòmics perquè les trucades telefòniques i els SMS són cars. Però tenim un problema amb el soroll de les xarxes. Perquè si un cos de rescat o una organització d'ajuda humanitària va a Twitter i intenta esbrinar quanta gent en situació de risc n'hi ha, no hi ha manera de fer-se a la idea. Per això hem de ser capaços de construir eines que ajudin a eliminar aquest soroll.
- Com ara quines?
- Pensa en un riu desbordat. Hi ha nens atrapats a l'escola i el pont del poble és inaccessible. La piulada d'algú que explica els fets, la foto a Instagram, les notícies dels mitjans, tot això són imputs que serveixen per construir un mapa gràfic amb informació més útil i fiable per als serveis d'emergència.
Carlos Castillo considera que els analistes de dades seran molt necessaris els pròxims anys Foto: Adrià Costa
- Els missatges que no han de veure amb el desastre que està passant, o aquells que mencionen els fets però no aporten informació, també aquells que enganyen o aporten dades incorrectes. En el cas d'un tsunami, per exemple, hi ha gent que alerta simplement perquè l'ha escoltat pel carrer però no ha comprovat que sigui cert. En els desastres provocats pels humans, és diferent.
- En quin sentit?
- Hi ha més manipulació i mentida, sobretot en un conflicte polític o un cop d'Estat. Vaig seguir els fets de la primavera àrab a Egipte a través de les xarxes socials, i hi va haver molta distorsió. En els desastres naturals també hi entra en joc la política en algun moment.
- En els darrers atemptats, la policia va avisar a la població de no enviar per Twitter informació dels fets. És una decisió correcta?
- En el cas de Bèlgica la policia va dir que la població no enviés missatges sobre les accions policials. En canvi, a l'atemptat de Kènia, al Wesgate Mall del 2014, el govern va demanar no difondre rumors. Però què és un rumor? Dir que el govern ha fracassat? Que va trigar tres hores a prendre partit? En la meva opinió és un missatge confús.
"Ja existeixen organitzacions dedicades a estudiar l'ètica dels algoritmes"
- Segons el que explica els analistes de dades seran els professionals del futur
- Sorgiran moltes professions noves relacionades amb les dades, però sens dubte els Data Scientist, dedicats a la mineria de dades i a l'estadística, seran molt necessaris.
- D'aquí a deu anys, a on ens haurà portat tot això del Big Data?
- Dependrà únicament de nosaltres, de com defensem els nostres drets, el de la privacitat i el d'exigir que ens donin explicacions per allò que fan els governs o les empreses amb les nostres dades personals. Per què hauríem de renunciar a saber-ne? Jo no vull que un algoritme decideixi quan m'han d'operar en un hospital. O si m'han de donar un crèdit en un banc. Avui els algoritmes, basats en intel·ligència artificial, decideixen bona part de les accions comercials de les multinacionals. I són un mecanisme molt opac.
- No li sembla una batalla perduda lluitar per fer més transparent aquesta opacitat?
- En absolut. Ja existeixen organitzacions dedicades a estudiar l'ètica dels algoritmes. La transparència i la privacitat són bàsiques. Si renunciem a aquests drets, ho perdrem tot.
Carlos Castillo. Foto: Adrià Costa