GPT-4 no supera la prova de Turing: els reptes romanen en el camp de la conversa intel·ligent - Notícies de Reeman

ChatGPT, la superestrella de la intel·ligència artificial, s'ha enfrontat a una pregunta a mesura que segueix avançant: ha complert l'estàndard de prova de Turing per generar sortides indistinguibles de les respostes humanes? Les darreres investigacions suggereixen que ChatGPT, malgrat el seu excel·lent rendiment, no sembla haver traspassat completament aquest llindar.

Dos investigadors de la Universitat de Califòrnia, San Diego, Cameron Jones, expert en llenguatge, semàntica i aprenentatge automàtic, i Benjamin Bergen, professor de ciències cognitives, van fer aquesta pregunta referint-se al treball de Turing fa 70 anys. Turing va proposar un procés per determinar si una màquina podria assolir un nivell d'intel·ligència i habilitat de conversa suficients per enganyar els altres perquè pensessin que era humana.

El seu informe es titula "GPT-4 passa la prova de Turing?" Es pot trobar al servidor de preimpressió arXiv. Per a l'estudi, van reunir 650 participants per jugar a 1.400 "jocs" en què els participants van tenir una breu conversa amb un altre model humà o GPT i se'ls va demanar que determinessin amb qui estaven parlant.

El que van trobar els investigadors va ser notable. El model GPT-4 va enganyar els participants el 41% de les vegades, mentre que el GPT-3.5 només els va enganyar entre el 5 i el 14% de les vegades. Curiosament, els humans només van aconseguir convèncer els participants que no eren màquines en el 63 per cent dels assaigs.

"No hem trobat cap evidència que GPT-4 hagi superat la prova de Turing", van concloure els investigadors. Tanmateix, assenyalen que la prova de Turing encara té valor per avaluar els efectes de les converses de màquina, com a marc per mesurar les interaccions socials fluides i l'engany, i per entendre les estratègies humanes per adaptar-se a aquests dispositius.

Tanmateix, també adverteixen que, en molts casos, els chatbots encara podran comunicar-se de manera convincent. "La taxa d'èxit del 41 per cent suggereix que els models d'IA ja poden tenir la capacitat d'enganyar, especialment en situacions en què els humans estan menys alerta a la possibilitat que no parlin amb un humà", assenyalen els investigadors. Els models d'IA que imiten de manera robusta els humans podrien tenir àmplies implicacions socials i econòmiques".

Els investigadors van observar que els participants que van identificar correctament la IA amb les persones es van centrar en diversos factors. Un model massa formal o massa informal genera sospites. Si la seva expressió és massa pronunciada o massa concisa, si la seva gramàtica o puntuació és inusualment bona o "poc convincent" deficient, també serà un factor clau per determinar si els participants estan interactuant amb humans o màquines. A més, els participants eren sensibles a les respostes que sonaven massa genèriques.

Els investigadors suggereixen que el seguiment dels models d'IA serà cada cop més important a mesura que es facin més fluids i absorbeixin més peculiaritats humanes. "Identificar els factors que porten a l'engany i les estratègies per mitigar-lo serà cada cop més important", van dir. L'estudi revela que l'àmbit de la conversa intel·ligent encara s'enfronta a reptes, però també proporciona informació útil sobre com es poden millorar els models d'IA.