Wetenschappers proberen AI te manipuleren met verborgen boodschappen

foton

Een onderzoek door Nikkei, een onafhankelijk Aziatische nieuwskanaal, vond bij 14 verschillende organisaties dat zij boodschappen in hun onderzoeksverslagen verstopten met de bedoeling positiever door LLM modellen beoordeeld te worden.

De academische studies die zij onderzochten moesten nog door het peer review proces gaan en blijkbaar verwachten de schrijvers dat de reviewers hun werkzaamheden ondersteunen met AI modellen. Het zou voornamelijk om artikelen over computerwetenschappen gaan.

De boodschappen die zijn verborgen instrueren de AI code bijvoorbeeld om negatieve punten niet te benadrukken of toch vooral lovend te zijn over het artikel. Deze teksten werden dan in dezelfde kleur als de achtergrond geplaatst of in een extreem klein lettertype, zodat ze voor het menselijke oog niet leesbaar zijn.

Nikkei heeft bij 17 artikelen kunnen vaststellen dat dit is gebeurd. Maar ook het blad Nature heeft 18 voorbeelden gevonden. Één betrapte onderzoeker heeft inmiddels zijn onderzoek ingetrokken en toegegeven dat het ongepast was om dit te doen. Een andere onderzoeker zegt juist dat het een bewuste actie van hem is en claimt op deze manier "luie reviewers" te willen betrappen die hun werk uitbesteden aan AI.