Intel·ligència artificial, tecnologies i recursos del llenguatge: polítiques i dret per a l’explotació de corpus i bases de dades

Lorenzo Cotino Hueso

Resum


El processament automàtic del llenguatge natural i, en particular, la traducció automàtica tenen enorme potencial per a l’espanyol i altres llengües espanyoles. Els poders públics des de fa una dècada han fixat els objectius de les polítiques en intel·ligència artificial (IA) i llengües, dotats ara amb més de 1.100 milions d’euros en els Projectes Estratègics per a la Recuperació i Transformació Econòmica (PERTE) Nova Economia de la Llengua. És clau la generació (pública) d’infraestructures, recursos, bases i, sobretot, corpus lingüístics que alimenten a la IA i altres tecnologies lingüístiques desenvolupades especialment pel sector privat. El Dret de la UE tendeix cap a la flexibilitat i obertura d’aquests recursos lingüístics. No obstant, des del règim de propietat intel·lectual i el de reutilització de dades, no hi ha obligació d’obrir i posar a disposició aquests recursos, sinó que els promotors tenen el dret sui generis al fet que no es pugui generar mineria de dades o altres processats sense la seva autorització. Es critica la insuficient regulació. Sobre aquesta base, és clau l’elecció de llicències permissives, com les de l’ecosistema Meta-Share, de potencial projecció als corpus espanyols. Finalment, s’exposen els elements clau en la planificació i adopció de models d’explotació i sostenibilitat dels recursos lingüístics a Espanya.

Paraules clau


intel·ligència artificial; tecnologies de la llengua; bases de dades lingüístiques; propietat intel·lectual; dret

Cites


Alcalde Bezhold, Guillermo, y Alfonso Farnós, Iciar. (2019). Utilización de tecnología Big Data en investigación clínica. Revista de Derecho y Genoma Humano. Genética, Biotecnología y Medicina Avanzada, Extra, 55-83.

Aurelius. (2021, 14 de noviembre). La criticable incorporación de la excepción de minería de textos y datos al ordenamiento español en el Real Decreto Ley 24/2021. Lvcentinvs.

Ballester Carrillo, Almudena. (2004). El Corpus Científico-Técnico de la Real Academia Española. En Luis González y Pollux Hernúñez (coords.), Las palabras del traductor. Actas del II Congreso “El español, lengua de traducción” (pp. 129-136). Esletra.

Barker, Dan. (2019). 12 open source tools for natural language processing. Opensource.

Beltrán Castellanos, José Miguel. (2022). Alcance de la obligación, seguridad jurídica y responsabilidad en la reutilización de la información del sector público. En Julián Valero Torrijos y Rubén Martínez Gutiérrez (dirs.) (2022), Datos abiertos y reutilización de la información del sector público (pp. 127-157). Comares.

Calzolari, Nicoletta, Bel, Nuria, Choukri, Khalid, Mariani, Joseph, Monachini, Monica, Odijk, Jan, Piperidis, Stelios, Quochi, Valeria, Oria, Claudia. (2012). Final FLaReNet Deliverable Language Resources for the Future – The Future of Language Resources. European Language Resources Association.

Cerrillo i Martínez, Agustí, y Xalabarder, Raquel. (2018). El impacto del derecho en el uso de las tecnologías del lenguaje en las administraciones públicas. Revista de Llengua i Dret, Journal of Language and Law, 70, 17-30. http://dx.doi.org/10.2436/rld.i70.2018.3159

Comisión Europea. (2022). Study on copyright and new technologies: copyright data management and artificial intelligence. Oficina de Publicaciones de la Unión Europea. https://data.europa.eu/doi/10.2759/570559

Cotino Hueso, Lorenzo. (2020a). Big data. En Benigno Pendás (ed.), Enciclopedia de las Ciencias Morales y Políticas para el siglo xxi (pp. 96-100). Real Academia de Ciencias Morales y Políticas-Boletín Oficial del Estado.

Cotino Hueso, Lorenzo. (2020b). Ética, valores y principios del “open data” y los retos futuros de la apertura de datos públicos. El Consultor de los Ayuntamientos y los Juzgados, Extra 3, pp. 147-166.

Cotino Hueso, Lorenzo, y Todolí Signes, Adrián (coords.). (2022). Explotación y regulación del uso del big data e inteligencia artificial para los servicios públicos y la ciudad inteligente. Tirant lo Blanch.

European Language Resources Association. (2019, 24 abril). What’s new in the Directive on Copyright in the Digital Single Market. ELRC+3 Newsletter.

Gamez Daza, Luis Segundo (coord.). (2021). Modelo de explotación de datos para las entidades públicas. Departamento Nacional de Planeación.

Girona Domingo, Ramón Miguel (2018). Hacia una nueva protección de los secretos industriales y comerciales. La Directiva 2016/943 del Parlamento Europeo y del Consejo. Revista Jurídica de la Comunidad Valenciana, 66, 5-20.

Jiménez Serranía, Vanessa (2020). Datos, minería e innovación: qvo vadis, Europa? Análisis sobre las nuevas excepciones para la minería de textos y datos. Cuadernos de Derecho Transnacional, 12(1), 247-258, https://doi.org/10.20318/cdt.2020.5188

Leistner, Matthias, y Antoine, Lucie. (2022). IPR and the use of open data and data sharing initiatives by public and private actors. Parlamento Europeo.

Linguistic Data Consortium. (s.f.). Tools.

Ministerio de Asuntos Económicos y Transformación Digital. (2020a). Agenda Digital: España Digital 2025.

Ministerio de Asuntos Económicos y Transformación Digital. (2020b). Agenda Digital: España Digital 2025. Resumen ejecutivo.

Ministerio de Asuntos Económicos y Transformación Digital. (2020c). Estrategia Nacional de Inteligencia Artificial.

Ministerio de Asuntos Económicos y Transformación Digital. (2021a). Plan de Recuperación, Transformación y Resiliencia.

Ministerio de Asuntos Económicos y Transformación Digital. (2021b). Plan de Digitalización de las Administraciones Públicas 2021-2025.

Ministerio de Asuntos Económicos y Transformación Digital. (2022a). PERTE Nueva Economía de la Lengua. Memoria Técnica.

Ministerio de Asuntos Económicos y Transformación Digital. (2022b). PERTE Nueva Economía de la Lengua. Resumen Ejecutivo.

Melero, Maite, Badía, Toni, y Moreno, Asunción. (2012). La lengua española en la era digital. Springer.

Margoni, Thomas, y Kretschmer, Martin, (2022). A Deeper Look into the EU Text and Data Mining Exceptions: Harmonisation, Data Ownership, and the Future of Technology. GRUR International, 71(8), 685-701. https://doi.org/10.1093/grurint/ikac054

Martínez Martínez, Nuria. (2018). El límite de la ilustración con fines educativos y de investigación científica a la propiedad intelectual [Tesis doctoral]. Universidad de Alicante.

Ministerio de Asuntos Exteriores. (2022). El español en el mundo.

Moro, M.ª Ascensión, Colón, Borja, y Magro, Roberto. (coords.) (2020). El Consultor de los Ayuntamientos y los Juzgados, Extra 3.

O’Grady, Stephen. (2014, 14 de noviembre). What are the Most Popular Open Source Licenses Today?. Redmonk.

Ortega Giménez, Alfonso. (2019). Implicaciones jurídicas de la internalización de la tecnología del Big Data y Derecho Internacional Privado. Revista de Derecho y Genoma Humano. Genética, Biotecnología y Medicina Avanzada, Extra, 169-204.

Rigau i Claramunt, German. (2022). La tecnología del lenguaje: la inteligencia artificial centrada en el lenguaje. En Instituto Cervantes, El español en el mundo 2022. Anuario del Instituto Cervantes (pp. 201-218).

Secretaría de Estado de Telecomunicaciones y Sociedad de la Información. (2015a). Informe sobre el estado de las tecnologías del lenguaje en España dentro de la Agenda Digital para España. Ministerio de Industria, Energía y Turismo.

Secretaría de Estado de Telecomunicaciones y Sociedad de la Información. (2015b). Plan de Impulso de las Tecnologías del Lenguaje. Ministerio de Industria, Energía y Turismo.

Secretaría de Estado para la Sociedad de la Información y la Agenda Digital. (2018). Estudio de caracterización del sector de tecnologías del lenguaje. Observatorio Nacional de Telecomunicaciones y de la SI.

Tasa Fuster, Vicenta. (2022). Oficialidad lingüística e inteligencia artificial: Una reflexión sobre las obligaciones lingüísticas de las administraciones públicas ante la inteligencia artificial. En Cotino Hueso, Lorenzo y Todolí Signes, Adrián (coords.), Explotación y regulación del uso del big data e inteligencia artificial para los servicios públicos y la ciudad inteligente (pp. 289-316). Tirant lo Blanch.

Tsiavos, Prodromos, Piperidis,Stelios, Gavrilidou, Maria, Labropoulou, Penny, y Patrikakos, Tasos. (2014). Legal Aspects of Text and Data Mining Legal Aspects of Text and Data Mining, Proyecto QTLaunchPad, Wikibooks.

Valero Torrijos, Julián, y Martínez Gutiérrez, Rubén. (dirs.) (2022). Datos abiertos y reutilización de la información del sector público. Comares.

Vicente Domingo, Elena. (2016). Los límites del derecho de cita e ilustración con fines educativos o de investigación científica. En Raquel de Román Pérez (coord.), La propiedad intelectual en las universidades públicas: titularidad, gestión y transferencia (pp. 113-141). Comares.

Wikipedia. (2022). Anexo: Idiomas por el total de hablantes.




DOI: http://dx.doi.org/10.58992/rld.i79.2023.3860



 

Reconeixement - NoComercial - SenseObraDerivada (by-nc-nd): No es permet un ús comercial de l'obra original ni la generació d'obres derivades.