En la Tierra a miércoles, diciembre 3, 2025

¿TE LLAMA TU HIJO CON UNA URGENCIA O TU BANCO PARA QUE HAGAS UN MOVIMIENTO DE DINERO?

“La clave para identificar voces generadas por IA es detectar fallos en la conversación”

JOSEP CURTO, PROFESOR DE LOS ESTUDIOS DE INFORMÁTICA, MULTIMEDIA Y TELECOMUNICACIÓN, HABLA SOBRE LAS SEÑALES FIABLES EN TIEMPO REAL Y CÓMO NO CONFUNDIRLAS CON UNA MALA CONEXIÓN

“La mejor defensa es el escepticismo humano, más verificación por un segundo canal y menor huella pública de tu voz”, resume el profesor de la UOC

Imagina recibir una llamada de tu hijo pidiéndote dinero urgentemente porque ha tenido un accidente. Su voz suena exactamente igual: el tono, las pausas, incluso la angustia. O que te llama una mujer para ofrecerte un producto muy atractivo. Es amable y convincente, incluso responde a tus preguntas y de entrada no sospechas nada. Pero resulta que detrás no hay nadie, solo un algoritmo diseñado para engañar, una recreación generada por inteligencia artificial. ¿Cómo pueden detectarlo?

Este tipo de fraudes, que hasta hace poco parecían sacados de una película, ya están ocurriendo y ponen en jaque la confianza en lo que vemos y oímos. La IA ya crea voces y vídeos que se hacen pasar por humanos. Por eso, identificarlos se ha convertido en una prioridad para gobiernos, empresas y usuarios, que buscan protegerse frente a una tecnología tan poderosa como peligrosa.

A medida que los modelos de voz generativa maduran, los “fallos” que delatan un deepfake (contenido audiovisual sintético o manipulado mediante modelos de IA generativa) son más sutiles. La clave no es oír un robot, sino distinguir la huella algorítmica de una mera mala conexión. Así lo explica Josep Curto, profesor de los Estudios de Informática, Multimedia y Telecomunicación de la Universitat Oberta de Catalunya (UOC).

El experto ofrece señales prácticas para detectar voces sintéticas en tiempo real, y recomienda herramientas y marcas de agua con sus límites, a la vez que propone un ABC antifraude para empresas y administraciones, en línea con el Reglamento General de Protección de Datos (RGPD) y la Ley de IA europea (AI Act). “A medida que los modelos se perfeccionan, las señales de detección se vuelven más sutiles”, advierte Curto.

No suena igual

La mayoría de los deepfakes de voz fallan en cómo suena la conversación: entonación, acento, ritmo, intensidad, pausas, latencias sospechosamente regulares. Por eso, en entornos cotidianos como una llamada urgente, un supuesto aviso del banco o una videollamada improvisada, muchas personas no perciben las anomalías si no saben qué observar y cómo comprobarlo en el momento.

Curto subraya una regla de oro: distinguir artefactos de red de imperfecciones algorítmicas. En una mala conexión, el sonido fluctúa y el desfase audio/vídeo es errático; en el contenido sintético, los “fallos” tienden a ser consistentes: entonación plana o saltos de tono improbables, pausas colocadas donde la gramática no las espera, latencias de respuesta “demasiado iguales”.

En una videollamada, las microseñales del rostro: parpadeo, sombras, detalle del cabello y de las orejas, delatan más que el propio lipsync (correspondencia temporal entre movimiento de labios y sonido del habla): cuando es IA, aparecen pequeñas incoherencias visuales que no se explican por compresión o ancho de banda.

Para un test en directo, el experto recomienda romper la inercia del modelo: pedir que repita una frase inesperada, introducir ruido de contexto (una palmada frente al micrófono, teclear fuerte) o intercalar interrupciones cortas para forzar la variación en la prosodia. Si persisten la entonación antinatural o las latencias constantes, se activa el protocolo: callback (devolución de llamada) a un número verificado y comprobación de safe word (palabra clave acordada previamente para autentificar).

“La mejor defensa es el escepticismo humano, más verificación por un segundo canal y menor huella pública de tu voz”, resume el profesor de la UOC.

Señales fiables en tiempo real (y cómo no confundirlas con una mala conexión)

1. Prosodia no natural y entonación plana: La voz no fluye emocionalmente: se producen pausas uniformes o mal situadas, tonos monótonos o saltos abruptos. En mala red, oyes cortes o compresión, pero cuando vuelve la señal, el acento y la entonación de base suenan humanos.

2. Artefactos espectrales (“metal”, clics finales): Siseo o brillo anómalo en colas de palabra; audio demasiado limpio para el entorno. En mala red, el ruido y la calidad fluctúan, mientras que los artefactos de IA tienden a ser consistentes.

3. Desajuste labios-voz en videollamada: Retraso constante o microanomalías (labios que “flotan” sobre los dientes). En mala red hay desfase, pero el movimiento facial sigue siendo orgánico.

4. Microgestos extraños: Parpadeo escaso, mirada fija, sombras e iluminación aplanadas, cabello/orejas con píxeles raros. En mala red verás congelaciones o un macropixelado típico de la compresión, no esos detalles finos.

5. Latencia sospechosa: Demoras demasiado regulares o cambios bruscos sin motivo. Los modelos tardan un tiempo fijo en “escupir” la respuesta completa; la red deficiente provoca latencias irregulares y avisos de “conexión inestable”.

Buenas prácticas para proteger la voz

Curto explica que la mejor defensa es el escepticismo humano (prosodia, contexto, movimiento), complementado con una fuerte verificación de la identidad (códigos clave) y la limitación de la exposición de la huella vocal pública.

En el contexto de la investigación, se estudia cómo crear distorsiones imperceptibles para un humano, pero que confundan los algoritmos de entrenamiento de IA que intentan extraer la huella vocal. La idea es “envenenar” el conjunto de datos de entrenamiento sin afectar la comunicación humana. Este es el futuro de la protección proactiva.

Entre las buenas prácticas al alcance de todos está el consentimiento y la privacidad: no compartir grabaciones sin propósito claro; en entornos corporativos, exigir el consentimiento para grabar/analizar la biometría vocal. Revisar los asistentes (Alexa/Google) y desactivar el almacenamiento continuo y la función de “ayudar a mejorar el servicio”. También está la MFA (autenticación multifactor) para la constatación vocal: establecer “Código de Seguridad” / “Frase Anti-Deepfake” inesperada, rotativa y contextual. Ejemplo: “¿Cuál es la palabra del martes?”.

Otra buena práctica es gestionar la huella vocal pública: limitar la publicación de audios largos y nítidos en abierto. Si se publican, bajar el bitrate (cantidad de datos procesados por segundo medidos en kbps) o añadir música de fondo. También están las tecnologías de anulación/ruido blanco: dispositivos (ejemplo: HARP Speech Protector) o software con ultrasonidos/ruido de banda ancha que interfieren con micrófonos. Pero son caros, de alcance limitado y con posibles restricciones legales.

    ABC práctico y explicado para empresas y administraciones

    Cuando nos llegue una llamada con una petición sensible: pagos, contraseñas, cambios urgentes, dice el profesor que el orden ideal para verificar es este:

    A. Confirma quién habla: Empieza por una verificación humana y contextual usando una safe word (palabra de seguridad) acordada previamente. La respuesta debe revisarla una persona —un supervisor o, como mínimo, un sistema secundario no automatizado— para evitar que un modelo genere una réplica verosímil sin control.

    B. Si persiste la duda, rompe el guion: Aplica un callback cruzado (out-of-band verification o confirmar la identidad de alguien usando un canal de comunicación diferente): corta con naturalidad (“La calidad es mala, le devuelvo la llamada ahora”) y llama tú a un número verificado que conste en tu CRM/expediente (registros verificados de contactos). Nunca devuelvas la llamada al número entrante. Si la persona atiende por el canal/número esperado y el contexto coincide, la autenticidad es muy probable. Este paso desarma muchos intentos porque obliga al estafador a controlar también el segundo canal.

    C. Si no valida, deja rastro y escala: Activa el protocolo de alerta interna por intento de fraude. Cierra la conversación con una frase de seguridad (“Por protocolo debemos finalizar esta llamada”), registra la hora, el origen aparente (aunque sea falso) y las señales anómalas observadas (“prosodia plana al responder la clave”, latencia constante, etc.), y elévalo inmediatamente al departamento de ciberseguridad o legal.

    Seguiremos Informando…

    NOTICIAS RELACIONADAS

    Relacionados Posts

    Premiados de la XX edición de 'Los mejores de PR'

    Noticias recientes

    SUSCRÍBETE

    Suscríbete a nuestro boletín y no te pierdas las noticias más relevantes y exclusivas.