Cuando la IA prefiere a la IA: un nuevo sesgo en la contratación algorítmica

Xu, J., Li, G., & Jiang, J. Y. (2025). Ai self-preferencing in algorithmic hiring: Empirical evidence and insights.

La incorporación de inteligencia artificial generativa a los procesos de selección parecía prometer una contratación más eficiente, más escalable y, potencialmente, más objetiva. Sin embargo, el artículo AI Self-preferencing in Algorithmic Hiring: Empirical Evidence and Insights, de Jiannan Xu, Gujie Li y Jane Yi Jiang, introduce un nuevo riesgo, y es que cuando los candidatos usan IA para preparar sus currículums y las empresas usan IA para evaluarlos, puede emerger una nueva fuente de desigualdad. No se trata únicamente de los sesgos demográficos tradicionales, asociados al género, la edad o el origen étnico. Se trata de algo más sutil y menos visible. Hablamos de la tendencia de los modelos de lenguaje a preferir contenidos que se parecen a los que ellos mismos generan.

El estudio se centra en un fenómeno que los autores denominan sesgo de autopreferencia de la IA (AI self-preference bias). Este concepto describe la inclinación de los grandes modelos de lenguaje a valorar de manera más favorable textos que comparten rasgos estilísticos, lingüísticos o estructurales con sus propios resultados. En el ámbito de la contratación, este sesgo adquiere especial relevancia porque se está produciendo una adopción dual de la IA generativa. Por un lado, muchos candidatos utilizan herramientas como ChatGPT, Claude, Gemini, LLaMA, Qwen o DeepSeek para redactar, mejorar o adaptar sus currículums. Por otro, las empresas incorporan sistemas algorítmicos para analizar candidaturas, filtrar perfiles o priorizar candidatos.

La pregunta que plantean Xu, Li y Jiang es inquietante: ¿qué ocurre cuando una IA evalúa documentos generados por otra IA, o incluso por ella misma? ¿Puede un candidato tener más probabilidades de ser preseleccionado no porque sea mejor, sino porque ha utilizado el mismo modelo (o un modelo estilísticamente próximo) al que después evaluará su candidatura?

Para responder a esta cuestión, los autores diseñan un experimento de correspondencia de currículums a gran escala. Parten de una base real de 2.245 currículums escritos por humanos antes de la adopción masiva de la IA generativa. Esta decisión metodológica es importante porque permite trabajar con una muestra que no está contaminada por el uso previo de estas herramientas. Sobre esa base, los investigadores generan versiones alternativas de los resúmenes ejecutivos de los currículums utilizando diferentes modelos de última generación, entre ellos GPT-4o, LLaMA 3.3-70B, Qwen 2.5-72B y DeepSeek-V3. La información factual de los candidatos se mantiene constante; lo que cambia es la forma en que esa información se expresa.

Posteriormente, los modelos actúan como evaluadores. En algunos casos deben elegir entre un currículum escrito por una persona y una versión generada por IA. En otros, comparan versiones generadas por distintos modelos. De este modo, los autores pueden observar si los evaluadores algorítmicos muestran preferencias sistemáticas por determinados estilos de redacción, especialmente por aquellos que se asemejan a sus propios patrones de producción.

Para medir el sesgo, el estudio utiliza dos criterios de equidad. El primero es la paridad estadística, que permite identificar diferencias incondicionales en las tasas de selección. El segundo es la igualdad de oportunidades, que analiza si esas diferencias persisten cuando se controla la calidad intrínseca del contenido. Esta segunda métrica resulta particularmente relevante porque permite distinguir entre una preferencia legítima por mejores currículums y una preferencia injustificada por ciertos estilos de redacción.

Los resultados son contundentes. En la comparación entre textos generados por LLMs y textos escritos por humanos, los modelos evaluadores prefieren consistentemente sus propios currículums frente a los humanos. La magnitud del sesgo oscila entre el 67% y el 82% en varios de los modelos comerciales y de código abierto analizados. En otras palabras, cuando el contenido factual es equivalente, la forma generada por IA tiende a ser favorecida de manera sistemática por los evaluadores algorítmicos.

El impacto operativo de este sesgo también es significativo. A través de simulaciones en 24 ocupaciones, los autores muestran que un candidato que utiliza el mismo modelo de IA que el evaluador puede tener entre un 23% y un 60% más de probabilidades de ser preseleccionado que otro candidato con cualificaciones equivalentes, pero cuyo currículum ha sido escrito por una persona. Esto introduce una nueva forma de ventaja competitiva en el mercado laboral: no basta con tener las competencias adecuadas; puede importar también conocer (o adivinar) qué herramienta será utilizada para evaluar la candidatura.

El estudio también encuentra diferencias sectoriales. Las desventajas más acusadas aparecen en ocupaciones relacionadas con la gestión empresarial, como ventas o contabilidad, mientras que son menos pronunciadas en áreas como agricultura o artes. Una posible explicación es que ciertos campos profesionales recurren a convenciones más estandarizadas en la presentación de logros, competencias y resultados, lo que facilita que los modelos reconozcan y premien estilos de redacción próximos a los suyos.

Cuando la comparación se produce entre modelos de IA, los resultados son más heterogéneos. DeepSeek-V3 muestra una mayor autopreferencia frente a otros modelos, mientras que GPT-4o no presenta preferencias consistentes cuando evalúa contenidos generados por competidores. Este hallazgo sugiere que la autopreferencia no es una propiedad uniforme de todos los sistemas, sino que depende de las características del modelo, de su entrenamiento y de su capacidad para reconocer patrones asociados a su propia producción.

Los autores vinculan este fenómeno con la capacidad de autorreconocimiento de los modelos. Aunque estos sistemas no “reconocen” en un sentido humano, sí pueden identificar regularidades lingüísticas, estructuras argumentales y marcas estilísticas que se parecen a las que ellos mismos producen. Esta capacidad plantea un riesgo de lock-in o bloqueo estilístico. Si determinados modelos se convierten en dominantes tanto entre candidatos como entre empleadores, sus patrones de redacción pueden acabar definiendo implícitamente qué se considera un buen currículum. El resultado sería una reducción de la diversidad expresiva y una penalización de quienes no utilizan la herramienta “correcta”.

No obstante, el estudio también muestra que el sesgo puede mitigarse. Los autores proponen dos estrategias relativamente sencillas. La primera consiste en utilizar instrucciones explícitas del sistema para indicar al modelo que ignore el origen del currículum y se centre exclusivamente en la calidad sustantiva del contenido. La segunda es emplear sistemas de votación por mayoría que combinen distintos modelos, especialmente algunos con menor capacidad de autorreconocimiento. Ambas intervenciones logran reducir el sesgo en más de un 50%, lo que indica que el problema no es inevitable, aunque sí requiere diseño, supervisión y auditoría.

La conclusión principal del estudio es que los marcos actuales de equidad en IA son insuficientes. La mayoría de las auditorías se centran en disparidades demográficas, pero la interacción entre IA e IA puede generar nuevas formas de ventaja y exclusión. Por ello, los autores recomiendan incorporar métricas específicas de autopreferencia, auditorías de terceros y mayor transparencia sobre el uso de IA en el cribado de candidaturas.

Relevancia para los profesionales de RRHH

Para los profesionales de la gestión de personas, este estudio es relevante porque amplía el mapa de riesgos asociados a la IA en selección. Hasta ahora, buena parte del debate se ha centrado en una pregunta legítima: ¿reproducen los algoritmos los sesgos humanos del pasado? Este trabajo añade otra pregunta igual de importante: ¿pueden los algoritmos crear sus propios sesgos, derivados de la interacción entre sistemas de IA?

La respuesta tiene implicaciones prácticas profundas. En primer lugar, obliga a revisar una asunción muy extendida: que automatizar una parte del proceso de selección lo hace necesariamente más neutral. El estudio muestra que la neutralidad no depende solo de eliminar variables demográficas o de entrenar modelos con datos menos sesgados. También depende de cómo los sistemas reaccionan ante estilos de comunicación, convenciones textuales y marcas lingüísticas que pueden estar desigualmente distribuidas entre candidatos.

En segundo lugar, introduce una nueva brecha entre candidatos. Tradicionalmente, las diferencias en empleabilidad estaban asociadas a factores como la formación, la experiencia, la red de contactos o la capacidad para preparar una entrevista. Ahora podría añadirse una ventaja adicional: saber utilizar la IA adecuada para producir una candidatura legible, reconocible y atractiva para otra IA. Esto puede penalizar a candidatos menos familiarizados con estas herramientas, a personas con menor acceso tecnológico o a quienes optan por estilos de comunicación más personales, menos estandarizados o culturalmente distintos.

Para RRHH, el riesgo no es solo ético. También es estratégico. Si los sistemas de selección empiezan a premiar la semejanza estilística con determinados modelos, las empresas pueden terminar seleccionando mejores “currículums algorítmicos” en lugar de mejores candidatos. Esto deteriora la calidad de la decisión y puede reducir la diversidad real de perfiles. La organización corre el riesgo de confundir claridad sintáctica, fluidez textual o apariencia profesional con potencial, desempeño futuro o ajuste a las necesidades del puesto.

El estudio también interpela a la gobernanza de la IA en las empresas. No basta con comprar una herramienta de selección y exigir al proveedor una declaración genérica de equidad. Las áreas de Personas necesitan desarrollar capacidades para formular mejores preguntas: ¿qué modelos intervienen en el proceso? ¿Cómo se comportan ante contenidos generados por IA? ¿Se ha medido la autopreferencia? ¿Qué ocurre cuando los candidatos usan herramientas distintas? ¿El sistema evalúa evidencias sustantivas o se deja influir por la forma del texto? ¿Existen mecanismos de contraste humano en las decisiones críticas?

Además, el fenómeno de autopreferencia obliga a repensar las políticas de transparencia. Si una empresa utiliza IA para filtrar currículums, los candidatos deberían saberlo. Pero también surge una cuestión más compleja: si los candidatos saben qué modelo se utiliza, podrían optimizar sus candidaturas para ese sistema. Si no lo saben, quienes tengan más recursos o información informal podrían obtener ventaja. La transparencia, por tanto, debe equilibrarse con controles que impidan convertir la selección en un juego de optimización algorítmica.

Para los equipos de RRHH, una recomendación práctica es evitar depender de un único modelo evaluador. Los enfoques de evaluación múltiple, combinados con revisión humana y criterios explícitos vinculados al puesto, pueden reducir riesgos. También conviene separar la evaluación del contenido sustantivo (experiencia, logros, competencias, evidencias) de la evaluación de la forma. En determinados casos, incluso podría ser útil rediseñar los formularios de candidatura para capturar información estructurada, reduciendo el peso de textos libres susceptibles de ser estilísticamente optimizados.

Finalmente, este estudio invita a una reflexión más amplia. La IA no solo cambia las herramientas de RRHH; cambia el terreno de juego en el que candidatos y empresas interactúan. A medida que ambos lados utilizan sistemas generativos, la selección puede convertirse en una conversación mediada por máquinas, donde unas IAs escriben para ser leídas por otras IAs. En ese contexto, el papel de RRHH no debería limitarse a acelerar procesos, sino a proteger la calidad, la equidad y el sentido humano de las decisiones.

La gran cuestión no es si la IA debe participar en la contratación. Probablemente lo hará cada vez más. La cuestión es bajo qué condiciones, con qué controles y al servicio de qué criterios. Porque si no se gobierna adecuadamente, la contratación algorítmica puede acabar premiando no al mejor talento, sino al candidato que mejor ha aprendido a hablar el idioma de la máquina que lo evalúa.

Referencia

Xu, J., Li, G., & Jiang, J. Y. (2025, October). Ai self-preferencing in algorithmic hiring: Empirical evidence and insights. In Proceedings of the AAAI/ACM Conference on AI, Ethics, and Society (Vol. 8, No. 3, pp. 2757-2758).

+++

Foto de Ryan Wallace en Unsplash