Plagio e inteligencia artificial: identificación y limitaciones

Maricarmen Sequera Buzarquis
Blog Cultura libre Libertad de Expresión Sin categorizar
Placa con texto: Plagio e inteligencia artificial: identificación y limitaciones

En la era digital, la producción y difusión de contenido se han acelerado exponencialmente, brindando innumerables beneficios, pero también planteando desafíos significativos. Entre estos desafíos, la integridad académica y la originalidad del contenido se han vuelto cada vez más susceptibles a prácticas de plagio. En este contexto, la inteligencia artificial, con su capacidad para procesar grandes cantidades de datos y entender complejas estructuras lingüísticas, emerge como una herramienta para abordar el problema de manera eficiente.

La detección de plagio, tradicionalmente llevada a cabo por humanos, se ha vuelto abrumadora debido al volumen masivo de información disponible en línea. La inteligencia artificial, específicamente modelos como chat GPT-3 y 4, entre otras herramientas de AI generativa, se presentan como una solución potencial al ofrecer capacidades avanzadas de procesamiento del lenguaje natural. Esto plantea preguntas cruciales sobre cómo estas tecnologías pueden mejorar la eficacia de la detección de plagio, pero también sobre sus limitaciones y desafíos éticos.

En este artículo, exploraremos el papel de ChatGPT-3, desarrollado por OpenAI, como un modelo de lenguaje basado en inteligencia artificial para la detección de plagio. Analizaremos si las herramientas tecnológicas creadas para este chatbot, contribuyen en la identificación del contenido no original, examinando tanto sus éxitos como sus limitaciones. La comprensión de estos aspectos es esencial para evaluar la idoneidad de la inteligencia artificial en la preservación de la integridad académica y la originalidad en la producción de contenido en la era digital.

La inteligencia artificial y el derecho de autor

La intersección entre estas dos disciplinas plantea preguntas fundamentales sobre la originalidad, la creación y la propiedad intelectual en un mundo cada vez más impulsado por la automatización y la capacidad de las máquinas para generar contenidos.

En los últimos años hay un interés de los países en definir qué es la inteligencia artificial (IA). UNESCO en su publicación sobre recomendaciones éticas en IA, busca acercarse a algunas definiciones:

Tecnologías de procesamiento de la información que integran modelos y algoritmos que producen una capacidad de aprendizaje e información en tareas cognitivas que conducen a resultados como la predicción y la toma de decisiones en entornos virtuales (UNESCO, 2021).

Por su parte la Unión Europea (Unión Europea, 2018) define la IA a través de su normativa vigente:

Un sistema basado en máquinas que está diseñado para funcionar con distintos niveles de autonomía y que puede, para objetivos explícitos e implícitos, generar resultados como predicciones, recomendaciones o decisiones que influyan en entornos físicos o virtuales.

Por su parte, la OCDE aceleró los grupos de trabajo sobre IA en los que se elaboraron principios sobre la IA. Su definición es la siguiente:

Sistemas basados en máquinas que pueden, para un conjunto dado de objetivos definidos por el ser humano, formular predicciones, recomendaciones o decisiones que influyan en entornos reales o virtuales.

Además, es importante señalar que varios académicos han abordado este tema desde hace tiempo. Un ejemplo destacado es la temprana definición de Inteligencia Artificial (IA) propuesta por Alan Turing, donde él conceptualiza la IA como:

La ciencia y la ingeniería de crear máquinas inteligentes, especialmente programas informáticos inteligentes.

Con el lanzamiento de ChatGPT al público en noviembre de 2022, marcando un hito en el campo de la inteligencia artificial, surgen algunos desafios sobre la atribución y los derechos de autor. La complejidad radica en discernir quién merece ser reconocido o reconocida como el autor o autora legítima de estas creaciones: ¿Deberían atribuirse los derechos a la propia IA?, a quienes le alimentan con sus datos, al creador del algoritmo, al titular del programa de computación que la ejecuta, a las personas involucradas en su entrenamiento, o a la persona usuaria que la guía en su aplicación? Estas preguntas no sólo plantean desafíos legales, sino que también exploran los límites y las responsabilidades éticas en el desarrollo y uso de tecnologías como ChatGPT, exigiendo un análisis detenido para encontrar un equilibrio justo y equitativo en la asignación de derechos de autor en este emergente dominio de la creatividad algorítmica.

Para analizar este caso se destaca la normativa del derecho de autor que tiene vigencia bastante antigua en nuestras jurisdicciones. La normativa más importante para proteger los derechos de autor es la Convención de Berna (Berna, 1886) y define al derecho de autor como un monopolio exclusivo y legal otorgado por el Estado a la persona que crea una obra. Este derecho es concedido a las personas que generan obras originales, otorgándoles un control exclusivo sobre la reproducción, distribución y exhibición de dichas obras por un tiempo definido. La finalidad de este derecho es estimular la creatividad y la innovación al brindar incentivos económicos a los creadores, permitiéndoles compartir sus obras con el público sin preocupaciones de apropiación no autorizada.

En el contexto paraguayo, los derechos de autor y propiedad intelectual se encuentran en la Constitución Nacional de 1992, en el Capítulo IX “De los Derechos Económicos y de la Reforma Agraria”, Sección I “De los Derechos Económicos”, en su artículo 110 que establece que:

Todo autor, inventor, productor o comerciante gozará de la propiedad exclusiva de su obra, invención, marca o nombre comercial, con arreglo a la ley.

En cuanto a las leyes relativas al derecho de autor en específico existe la ley 1328/98 y su modificación 5247/15. En el artículo 3 de la ley 1328/98 define el derecho de autor de la siguiente manera:

La protección del derecho de autor recae sobre todas las obras del ingenio, de carácter creador, en el ámbito literario o artístico, cualquiera sea su género, forma de expresión, mérito o finalidad, la nacionalidad o el domicilio del autor o del titular del respectivo derecho, o el lugar de la publicación de la obra.

Los derechos reconocidos en esta ley son independientes de la propiedad del objeto material en el cual está incorporada la obra, independientes del método de fijación inicial o subsecuente y su goce o ejercicio no estará supeditado al requisito del registro o al cumplimiento de cualquier otra formalidad.

Además, la misma ley protege durante toda la vida del autor hasta los 70 años posteriores a su muerte.

Con la aparición de la IA en los procesos de creación de textos a través de tecnologías como ChatGPT-3 y 4, una vez más se pone en tela de juicio la originalidad de las y los autores1. Entonces reaparece el plagio y se vuelve cada vez más complejo detectar las apropiaciones no autorizadas, sin la debida atribución o permiso de la persona creadora original.

Sesgos a la hora de detectar plagio

El diálogo en torno a los derechos de autor y la inteligencia artificial plantea interrogantes complejas que desafían no solo el ámbito legal, sino también el ético. La aparición de obras cada vez más sofisticadas que utilizan estas tecnologías, exige una revisión de los actuales paradigmas en materia de propiedad intelectual.

La convivencia entre la creatividad humana y la capacidad de las IAs para generar obras similares invita a reconsiderar la necesidad de establecer marcos regulatorios que protejan los derechos de las y los creadores, sin obstaculizar el progreso de la innovación tecnológica, ni el desarrollo creativo.

A pesar de los avances significativos en IA, existen limitaciones que deben abordarse con precaución. Una de las limitaciones clave es la falta de comprensión profunda y contextual por parte de los modelos de lenguaje como el que utiliza ChatGPT. Aunque estos modelos pueden generar texto de manera coherente, no poseen un conocimiento subyacente ni una verdadera comprensión del contenido. Esto puede llevar a la producción de información incorrecta o sesgada: incluso las herramientas de IA que buscan detectar posibles plagios pueden dar falsos positivos.

Otra limitación importante es la dependencia de los datos de entrenamiento. Los modelos de IA aprenden a partir de conjuntos de datos específicos, lo que significa que pueden reflejar y, en algunos casos, amplificar los sesgos presentes en esos datos. Esto plantea desafíos éticos, ya que la IA puede reproducir y perpetuar prejuicios existentes en la sociedad. Para la escritora del libro El atlas de la Inteligencia Artificial, Kate Crawford:

La inteligencia artificial no es artificial ni inteligente.

Más bien, existe en una forma tangible, concretándose como algo material compuesto por recursos naturales, combustible, mano de obra, infraestructuras, logística, así como influencias históricas y clasificaciones. Los sistemas de inteligencia artificial no poseen autonomía, racionalidad ni la capacidad de discernir sin un extenso e intensivo entrenamiento computacional, que implica el uso de enormes conjuntos de datos o reglas, y recompensas predefinidas. En realidad, la inteligencia artificial, tal como la conocemos, depende completamente de un conjunto mucho más amplio de estructuras políticas y sociales. Debido al capital necesario para construir inteligencia artificial a gran escala y las perspectivas que optimiza, en última instancia, los sistemas de inteligencia artificial están diseñados para servir a los intereses dominantes ya existentes. En este sentido, la IA es un certificado de poder (Kate Crawford, 2022). En sus palabras:

La AI es fundamentalmente política, debemos ir más allá de las redes neuronales y el reconocimiento de patrones estadísticos y preguntarnos, en cambio, qué se está optimizando, para quién y quiénes toman esas decisiones. Entonces, podemos rastrear sus implicaciones.

Según la experta en IA Meredith Broussard, hay que centrarse en ubicar a la IA como un algoritmo programado por un humano:

Para entender que una computadora no hace, necesitamos empezar a comprender que hace la computadora bien y cómo funciona (Meredith Broussard, 2018).

La implementación de una solución tecnológica involucra varias fases técnicas, basadas en principios matemáticos. Estas fases contienen numerosos procesos que deben seguirse de manera sistemática. Estos pasos incluyen la adquisición de datos, la depuración de la base de datos, la evaluación de la presencia de datos faltantes y su integración. También es necesario homogeneizar los datos, reducir las variables relevantes, eliminar posibles dimensiones de la base de datos y fusionar variables afines (Cathy O’Neil, 2016).

Una vez completada la preparación de datos, el siguiente paso es seleccionar el algoritmo apropiado para la tarea en cuestión. La elección del algoritmo implica una consideración cuidadosa para garantizar su ajuste efectivo al modelo. Después de esta elección, se utilizan los datos de entrenamiento para perfeccionar el modelo. Sin embargo, la validación de la solución va más allá de este proceso inicial: es fundamental someter el modelo a la prueba de fuego, utilizando datos diferentes para verificar la eficacia y generalización de la solución. En palabras de Cathy O’Neil, estas fases técnicas son esenciales y forman parte de una metodología integral que busca asegurar la robustez y confiabilidad de las soluciones tecnológicas.

¿Entonces, a quién pertenece el texto arrojado por el ChatGPT?

Responder esta pregunta no es tan fácil y sigue habiendo más interrogantes y dudas que certezas. Los defensores de la inteligencia artificial argumentan que estas tecnologías son herramientas colaborativas que amplían la creatividad humana, y que la verdadera autoría recae en aquellos que diseñan y entrenan los algoritmos. Por otro lado, los críticos sostienen que las obras generadas por IA no deben considerarse automáticamente como propiedad de quienes crearon los algoritmos, debido a que la máquina tiene un papel activo en el proceso creativo.

Por ejemplo, a finales del 2023, el medio New York Times presentó una demanda contra Microsoft y OpenAI, acusando a las empresas de infringir los derechos de autor y abusar de la propiedad intelectual del periódico para entrenar grandes modelos de lenguaje. Microsoft invierte en OpenAI y le suministra tecnología de computación en la nube de Azure. Según el NYT:

Estas herramientas fueron construidas con contenido periodístico independiente que solo está disponible porque nosotros y nuestros colegas lo reportamos, editamos y verificamos a un alto costo y con considerable experiencia.

El Times dijo en su comunicado que reconoce el poder y el potencial de la IA generativa para el público y para el periodismo, pero agregó que el material periodístico debe ser utilizado con permiso del titular de la obra original para obtener ganancias comerciales.

Este caso podría establecer un gran precedente en esta disputa. Si el tribunal falla a favor del periódico, podrían establecerse límites más claros sobre la utilización de la IA en la creación de contenido. OpenAI ha alegado que evitar la violación de derechos de autor es complejo en este contexto.

El filósofo y lingüista Noam Chomsky criticó al ChatGPT, catalogando su funcionamiento como “plagio de alta tecnología” y “una forma de evitar la educación”. Es decir, que la inteligencia artificial no cuenta con un criterio para seleccionar la información que arroja como resultado, por lo que realmente no aporta nada al avance de la educación o la ciencia (Aristiegui, 2023).

Por lo tanto, al evaluar la eficacia de las herramientas de inteligencia artificial promocionadas como soluciones para la detección de plagios, es crucial reconocer las limitaciones inherentes a aquellas diseñadas para modelos de lenguaje como ChatGPT. Estas restricciones, principalmente asociadas con su capacidad para identificar plagios, están influenciadas por los sesgos introducidos durante su fase de entrenamiento.

Este es el caso de las soluciones tecnológicas como Texto Classifier de Open AI, GPTZero, AI Detector, Originality.ai, Corrector.app, Copyleaks, Writer y otros que buscan identificar el plagio de los textos elaborados por inteligencia artificial en especial en el uso del ChatGPT.

Un caso ilustrativo de esto se evidencia en un resultado arrojado por GPTZero, donde se afirma que el 96% de la declaración de independencia de los Estados Unidos de América fue redactada por una inteligencia artificial.

En agosto de 2023 se documentó un caso paraguayo en el que un abogado denunció a un juez por supuestamente utilizar ChatGPT para dictaminar una resolución judicial. La forma en que se detectó fue analizando el rechazo a la petición constitucional como garantía del proceso. Lo que llamó altamente la atención fue su inconstitucionalidad y eso le llevó a realizar consultas al ChatGPT. Estas consultas coincidieron entre el 80% y 90% con la resolución del juez, lo que llevó al abogado y su equipo a analizar la presentación de una denuncia formal contra el juez por el mal desempeño en sus funciones ante el jurado de enjuiciamiento de Magistrados (JEM).

Como se puede observar, tanto las tecnologías de detección de plagio como la curiosa metodología realizada por los abogados paraguayos, pueden producir falsos positivos con regularidad, afirmando que cierto texto creado por un humano, fue realmente creado por una IA.

Un ejemplo significativo en el ámbito educativo es el caso de la Universidad de Stanford (Weixin Liang at, 2023) donde un profesor empleaba herramientas de inteligencia artificial para detectar plagios. Curiosamente, las coincidencias de plagio solo se presentaban cuando los alumnos y alumnas no tenían el inglés como lengua materna o principal. La simplicidad del inglés de estos estudiantes, menos sofisticado en comparación a una persona nativa, llevaba a una incorrecta identificación de plagio. Esto tiende a malclasificar más del 50% de las muestras de escritura de hablantes no nativos de inglés, como generadas por IA, mientras que mantienen una precisión casi perfecta en las muestras de hablantes nativos.

Este hallazgo subraya la importancia de abordar los sesgos en los detectores del ChatGPT, ya que la omisión de estos sesgos podría resultar en la marginación de hablantes no nativos en contextos educativos o de evaluación. Este estudio pionero aboga por investigaciones adicionales para corregir estos sesgos y mejorar los métodos de detección, garantizando así un entorno digital más justo y seguro para todos las personas usuarias. Y por último, este hallazgo no solo demuestra que es un error de la herramienta de lA en términos de falsos positivos, sino también un sesgo evidente que afecta a personas vulnerables, como en este caso las personas migrantes. Esto ahonda aún más las desigualdades y exclusiones de ciertos grupos de la población, como lo exponen los expertos en IA.

Conclusión

Responder la pregunta de a quién pertenece el texto generado por ChatGPT no es trivial, es decir, es bastante complejo definir quién y cómo se produjo el texto ofrecido por este chatbot y por ende cómo se aplica el plagio en este contexto.

Además, el uso de IA generativa, que incluyen modelos de lenguaje como el caso de ChatGPT, no están exentos de responsabilidad ética. Aunque estos modelos pueden ser herramientas valiosas, es esencial que las personas usuarias se adhieran a prácticas éticas y eviten el plagio al generar contenido original y proporcionar la atribución del derecho de autor adecuada cuando sea necesario.

Sin embargo, a pesar de la creación de detectores específicos para modelos de lenguaje como el ChatGPT-3 y 4 con el objetivo de reducir los riesgos vinculados al contenido producido por inteligencia artificial, la certeza respecto a su precisión, confiabilidad y eficacia permanece en duda debido a una evaluación limitada. Este déficit de conocimiento es motivo de preocupación, ya que podría resultar en consecuencias perjudiciales, al etiquetar de manera incorrecta el trabajo de una persona inocente como plagio cuando elabora un texto.

No obstante, es fundamental reconocer las limitaciones inherentes en la identificación de plagio y violaciones de derechos de autor mediante inteligencia artificial. A pesar de los esfuerzos por desarrollar detectores eficaces, persisten desafíos en términos de precisión y confiabilidad. El riesgo de identificar erróneamente contenido como infractor puede tener consecuencias perjudiciales, especialmente en contextos educativos. Por lo tanto, se necesita una reflexión continua sobre la ética y la mejora constante de las herramientas de detección para asegurar un equilibrio adecuado entre la protección de la propiedad intelectual y la preservación de la equidad.

1Historia del plagio. Jo Adetunji. 2021 https://theconversation.com/breve-historia-del-plagio-inspiracion-cita-y-copia-152449

Referencias bibliográficas

Normativas de organismos internacionales

UNESCO, 2021. Recomendaciones sobre la etica en la Inteligencia artificial. https://unesdoc.unesco.org/ark:/48223/pf0000381137

OECD, 2022. OECD AI Principles overview : https://oecd.ai/en/ai-principles

Inteligencia Artificial para Europa. 2018: https://eur-lex.europa.eu/legal-content/EN/TXT/?uri=COM%3A2018%3A237%3AFIN

European Commission. (2020). White Paper. On Artificial Intelligence – A European approach to excellence and trust.

Convención de Berna, 1886: https://www.wipo.int/copyright/es/

Constitucional Nacional Paraguaya (1992).

Ley 1328/98 Derecho de Autor y derechos Conexos. https://www.bacn.gov.py/leyes-paraguayas/908/derecho-de-autor-y-derechos-conexos

Literatura académica

Broussard, Meredith. 2018. Artificial Unintelligence. How computers Misunderstand the World. The MIT Press.

Cathy O’Neil. 2016. Weapons of Math Destruction.

Kate Crawford, 2022. Atlas de inteligencia artificial. Poder, política de inteligencia y costos planetarios.

Weixin Liang, Mert Yuksekgonul, Yining Mao, Eric Wu, James Zou. GPT detectors are biased against non-native English writers, Patterns. 2023. https://www.sciencedirect.com/science/article/pii/S2666389923001307

Blogs de noticias

Aristiegui. 2023. Chat GPT ‘es plagio de alta tecnología’ y ‘una forma de evitar el aprendizaje’: Chomsky https://aristeguinoticias.com/2302/libros/chat-gpt-es-plagio-de-alta-tecnologia-y-una-forma-de-evitar-el-aprendizaje-chomsky/

Chequeado. 2024. Arte, inteligencia artificial, derechos de autor y copyright: ¿a quién le pertenecen las obras? https://chequeado.com/investigaciones/arte-inteligencia-artificial-derechos-de-autor-y-copyright-a-quien-le-pertenecen-las-obras/

Ferrante, Enzo. 2021. Inteligencia artificial y sesgos algorítmicos. https://nuso.org/articulo/inteligencia-artificial-y-sesgos-algoritmicos/

FasterCapital. El papel de la IA en la detección de plagio de contenidos. 2023. https://fastercapital.com/es/contenido/Papel-de-la-IA-en-la-deteccion-de-plagio-de-contenidos.html

Andrés Guadamuz. 2017. La inteligencia artificial y el derecho de autor https://www.wipo.int/wipo_magazine/es/2017/05/article_0003.html

Suarez, Alex. 2023. La IA hace más difícil detectar el plagio: cómo ChatGPT coló un artículo a una revista educativa. https://www.lavanguardia.com/tecnologia/20230411/8837929/ia-mas-dificil-detectar-plagio-chatgpt-cuela-articulo-revista-educativa.html