Un diccionario demanda a OpenAI por usar contenido protegido en ChatGPT
Analizamos Un diccionario demanda a OpenAI por usar contenido protegido en ChatGPT, qué implica esta demanda y por qué reabre el debate sobre copyright, IA y contenido de referencia.
Hablar de Un diccionario demanda a OpenAI por usar contenido protegido en ChatGPT no es solo comentar una noticia llamativa del mundo tecnológico. Es entrar de lleno en una discusión que ya está redefiniendo la relación entre la inteligencia artificial, el derecho de autor y el valor real del contenido que se publica en internet. En este caso, la demanda fue presentada por Encyclopaedia Britannica y su filial Merriam-Webster, que acusan a OpenAI de usar material protegido de sus obras de referencia para entrenar modelos como ChatGPT sin autorización. Según Reuters, la demanda se presentó en un tribunal federal de Manhattan y sostiene que OpenAI utilizó ese contenido sin licencia, además de generar respuestas que en algunos casos reflejan de forma demasiado cercana su material.
Por qué esta demanda importa más de lo que parece
A primera vista, alguien podría pensar que se trata de otro litigio más dentro de la larga lista de conflictos legales alrededor de la IA generativa. Pero aquí hay un matiz especialmente interesante: no hablamos solo de medios de comunicación, novelas o artículos de opinión. Hablamos de un diccionario y de una enciclopedia, es decir, de contenidos cuya autoridad pública descansa precisamente en la precisión, la curación editorial y la fiabilidad.
Eso cambia bastante la conversación. Cuando una obra de referencia demanda a una empresa de IA, el debate deja de ser únicamente económico. También se vuelve cultural. Porque lo que está en juego no es solo si se ha usado contenido protegido, sino si el conocimiento cuidadosamente construido por editores, lexicógrafos y especialistas puede convertirse en materia prima gratuita para sistemas que luego compiten por la atención del usuario.
Ese punto toca algo muy sensible del ecosistema digital actual. Durante años, muchas plataformas vivieron de redirigir tráfico hacia fuentes especializadas. Ahora, en cambio, los chatbots pueden responder dentro de su propia interfaz, condensando información que el usuario ya no necesita buscar fuera. Y ahí aparece una tensión evidente: quien invierte en crear contenido de calidad puede acabar perdiendo visibilidad precisamente porque ese contenido alimenta sistemas que lo sustituyen en la práctica.
Qué alega exactamente la demanda
El núcleo de la demanda gira en torno a dos ideas. La primera es el uso presuntamente no autorizado de material con copyright para entrenar modelos de IA. La segunda, más delicada todavía, es que el sistema habría llegado a ofrecer respuestas que se parecen lo suficiente a esos contenidos como para plantear una discusión seria sobre infracción y sobre el valor competitivo de ese uso.
Reuters informó de que Britannica alegó que OpenAI copió cerca de 100.000 artículos y que, además, el uso de ese material contribuyó a desviar tráfico desde sus plataformas hacia herramientas como ChatGPT. La demanda también incluye acusaciones relacionadas con marcas y con el hecho de que el chatbot habría citado o dado a entender una relación con Britannica en respuestas incorrectas o inventadas. OpenAI, por su parte, defendió sus prácticas apoyándose en la idea de fair use y en el uso transformador de datos disponibles públicamente.
Ese último punto es clave, porque resume gran parte del conflicto actual en torno a la IA generativa. Las empresas tecnológicas sostienen que entrenar modelos con grandes volúmenes de información pública es una práctica transformadora, comparable a la forma en que los humanos aprenden leyendo. Los demandantes, en cambio, sostienen que no se trata de “aprender” en abstracto, sino de aprovechar valor ajeno para construir un producto comercial extremadamente rentable.
El papel de Merriam-Webster en esta historia
Cuando se menciona un “diccionario” en el titular, mucha gente piensa en una marca genérica o en una editorial cualquiera. Pero aquí el nombre importa. Merriam-Webster no es un actor menor ni un proyecto anecdótico. Es una de las referencias más reconocibles del mundo anglosajón en materia de definiciones, uso del lenguaje y consulta lexical.
Eso hace que la demanda tenga una carga simbólica muy potente. Porque un diccionario no solo recopila palabras. También organiza sentido, delimita matices, fija usos aceptados y actualiza el idioma con criterio editorial. Detrás de una definición aparentemente simple hay trabajo técnico, decisiones lingüísticas, revisión humana y un sistema de calidad que cuesta tiempo y dinero.
Cuando una empresa así denuncia que su material ha sido absorbido por una IA sin permiso, lo que se pone sobre la mesa es una pregunta incómoda: ¿puede una tecnología que responde con soltura sobre vocabulario, lenguaje y conocimiento general construirse parcialmente sobre el trabajo de quienes llevan décadas haciendo justamente eso, pero sin compensarlos?
Lo que esta demanda revela sobre el valor del contenido de referencia
Durante mucho tiempo, internet acostumbró a los usuarios a pensar que la información estaba ahí, simplemente disponible. Pero esa sensación de gratuidad suele ocultar algo básico: casi siempre hay alguien detrás produciendo, verificando, actualizando y sosteniendo ese contenido.
Las obras de referencia son un ejemplo clarísimo. Parecen estables, casi naturales, como si siempre hubieran existido. Pero en realidad dependen de equipos, metodologías, inversión y reputación. Por eso este caso resulta tan significativo. No se está discutiendo solo si una IA “leyó” datos públicos. Se está discutiendo si el valor acumulado de una institución editorial puede ser absorbido por una herramienta que luego ofrece respuestas instantáneas sin reproducir el mismo coste de producción.
Ese desplazamiento tiene una consecuencia muy concreta: si el usuario ya no entra en la web del diccionario o de la enciclopedia porque recibe una respuesta resumida en el chatbot, el incentivo económico para sostener esas obras puede erosionarse. Y si eso pasa a gran escala, el problema deja de ser únicamente jurídico para convertirse en un problema de sostenibilidad del conocimiento.
El gran debate: aprendizaje o extracción
Aquí está probablemente el corazón del conflicto. Las empresas de IA insisten en que sus modelos no almacenan contenidos como una base de datos tradicional, sino que detectan patrones para generar texto nuevo. Desde esa perspectiva, entrenar con materiales protegidos sería una forma de aprendizaje estadístico, no una copia en sentido clásico.
Pero quienes demandan lo ven de otra manera. Desde su punto de vista, el modelo no llega a esa capacidad por generación espontánea, sino porque fue alimentado con cantidades masivas de trabajo ajeno. Y si ese entrenamiento permite después producir respuestas que sustituyen la consulta original o que compiten comercialmente con la fuente, entonces la palabra “aprendizaje” puede quedarse corta. Lo que observan es una forma de extracción de valor.
No es una discusión menor ni puramente técnica. De su resolución dependerá, en buena medida, el modelo económico de la IA generativa en los próximos años. Si los tribunales consolidan una interpretación amplia del fair use, muchas empresas seguirán defendiendo que el entrenamiento masivo está cubierto legalmente. Si, por el contrario, empiezan a imponerse límites más duros, el panorama podría desplazarse hacia más licencias, más acuerdos comerciales y quizá un acceso más restringido a determinados tipos de contenido.
OpenAI y una presión legal cada vez más amplia
Este caso no aparece en el vacío. OpenAI ya ha afrontado demandas de autores, medios, editores y otros titulares de derechos que cuestionan el uso de sus obras para entrenar modelos. Reuters ha recogido varios de esos litigios y también la línea de defensa de OpenAI, que insiste en el carácter transformador del entrenamiento y en que sus modelos generan contenido nuevo en lugar de reproducir obras originales de forma directa.
Lo interesante es que cada nueva demanda añade una capa distinta al debate. No es lo mismo una reclamación de novelistas que la de un grupo de periódicos. Tampoco es igual una acción de una agencia de noticias que la de una editorial tecnológica. Y ahora, con Britannica y Merriam-Webster, entra con fuerza el terreno de las fuentes de consulta y del conocimiento de referencia.
Eso amplía muchísimo el alcance del conflicto. Porque demuestra que la discusión sobre entrenamiento de modelos ya no afecta solo a sectores creativos en sentido tradicional, sino a casi cualquier industria que dependa de producir contenido especializado y verificable.
Qué puede pasar si los tribunales dan la razón a los demandantes
Si demandas como esta prosperan, el impacto podría ser mucho mayor que una simple indemnización. Podrían reforzarse varias ideas: que ciertos usos de obras protegidas para entrenar IA requieren licencia, que no todo contenido públicamente accesible equivale a contenido libre de uso y que el valor editorial de determinadas obras merece un tratamiento jurídico más claro.
Eso también empujaría a las grandes tecnológicas a acelerar acuerdos con editoriales, medios y titulares de derechos. De hecho, ya existe una tendencia hacia pactos de licencia con algunos grupos de comunicación y proveedores de contenido. El problema es que esos acuerdos suelen beneficiar a actores grandes, mientras dejan en una posición más frágil a muchos creadores y proyectos medianos o pequeños.
En ese escenario, la cuestión de fondo no sería solo quién cobra, sino quién queda dentro del nuevo reparto del valor y quién se queda fuera.
Por qué esta noticia conecta con una preocupación más amplia
La fuerza del tema Un diccionario demanda a OpenAI por usar contenido protegido en ChatGPT está en que resume una ansiedad bastante extendida de nuestro tiempo digital. Mucha gente percibe que la IA genera respuestas rápidas, útiles y brillantes, pero no siempre tiene claro de dónde sale esa capacidad ni quién paga el coste invisible de que exista.
Un diccionario y una enciclopedia representan, de alguna manera, la forma clásica de construir autoridad: paciencia editorial, verificación, criterio y reputación. ChatGPT representa otra lógica: velocidad, síntesis, escala y conversación inmediata. Cuando ambos mundos chocan en un tribunal, lo que se discute no es solo una demanda por copyright. También se discute qué modelo de conocimiento queremos sostener.
Y esa pregunta importa bastante más que el resultado de un solo caso. Porque si el contenido especializado deja de ser rentable para quienes lo producen, el ecosistema informativo puede llenarse de respuestas cómodas, pero cada vez más dependientes de un trabajo original que quizá nadie pueda permitirse seguir haciendo gratis.
Leer también: Web Summit Qatar 2026 renueva el impulso para construir un centro tecnológico mundial
