Web Analytics Made Easy - Statcounter
Miércoles, 22 Octubre 2025 11:08

La basura de Internet también intoxica a las inteligencias artificiales

Valora este artículo
(0 votos)

El contenido de baja calidad de las redes sociales afecta significativamente al rendimiento de los modelos de lenguaje, descubrió un reciente estudio. La basura de Internet también intoxica a las inteligencias artificiales Imagen creada por inteligencia artificial

Un nuevo estudio conducido por especialistas de universidades estadounidenses demostró que la exposición continua a textos 'basura' de Internet induce un deterioro cognitivo duradero en los modelos de lenguaje grandes (LLM), una de las herramientas más utilizadas dentro del campo de la inteligencia artificial (IA).

La inteligencia artificial pone en riesgo a Wikipedia La información fue extraída de publicaciones en la plataforma X (anteriormente conocida como Twitter). Se definieron dos grupos de datos diferentes: un conjunto de datos basura (tomado principalmente de tuits populares con datos poco confiables y bajo nivel informativo) y un grupo de control (con información comprobada, utilizada como referencia).

Estos fueron analizados en base a dos criterios independientes: el grado de compromiso, que mide parámetros cuantitativos externos al propio texto, como la popularidad (número de 'likes', retuits, etc.), y la calidad semántica, que tiene que ver con el sentido y la calidad del contenido. Resultados

Los investigadores constataron que el entrenamiento continuo de cuatro LLM con datos basura, en comparación con el grupo de control, generó en la IA un declive significativo en el razonamiento, la comprensión de contextos largos, la seguridad y el aumento de los 'rasgos oscuros' (que en modelos de lenguaje son respuestas o patrones que se consideran problemáticos en psicología de la personalidad, como la psicopatía y el narcisismo).

Por otra parte, el análisis reveló que, posterior al entrenamiento, los LLM a menudo saltaban la fase de pensamiento, es decir, omitían varias cadenas de razonamiento.

Además, se observó una recuperación incompleta: volver a entrenar los modelos con 'datos limpios' disminuía el deterioro cognitivo, pero no restauraba la capacidad inicial.

Los resultados proporcionan pruebas contundentes de que la calidad de los datos es un factor causal del deterioro de la capacidad de los LLM, por lo que los autores advierten que se deben realizar 'controles de salud cognitiva' con más frecuencia para los modelos que se utilizan actualmente.

Asimismo, los expertos consideran necesario reexaminar la recopilación actual de datos de Internet y de las prácticas continuas de preentrenamiento. A medida que los LLM se amplían y consumen cantidades cada vez más grandes de datos web, advierten que es esencial una cuidadosa curación de la información y un control de calidad para evitar daños acumulativos.

Visto 12 veces