Descripción
El Procesamiento del Lenguaje Natural (PLN) y los Modelos de Lenguaje han transformado la manera en que interactuamos con la tecnología, impulsando avances en áreas como la traducción automática, los asistentes virtuales y el análisis de grandes volúmenes de texto. Sin embargo, junto con estos avances surgen desafíos éticos, técnicos y metodológicos que requieren una reflexión profunda y crítica.
Este webinar, organizado por la Sociedad Española para el Procesamiento del Lenguaje Natural y la Universidad de La Rioja, reúne a destacados expertos de diversas universidades españolas para ofrecer una visión integral sobre los fundamentos, la creación de datasets, las arquitecturas avanzadas como los Transformers, los aspectos éticos y la evaluación de modelos de lenguaje. A lo largo de cinco sesiones, se abordarán los temas clave que conforman el núcleo del PLN y su impacto en la sociedad.
Programa
Jueves, 30 de octubre de 2025
17:00 a 19:00 horas
1. Introducción al Procesamiento del Lenguaje Natural
Rafael Muñoz Guillena
Universidad de Alicante
Esta sesión ofrece una introducción amplia y estructurada al campo del Procesamiento del Lenguaje Natural (PLN), una de las ramas más dinámicas de la Inteligencia Artificial (IA). Se comienza definiendo qué es el lenguaje y cómo el ser humano lo utiliza para comunicarse, para después abordar el reto fundamental: lograr que las máquinas sean capaces de comprender y generar lenguaje natural, facilitando así una interacción más fluida entre personas y los dispositivos.
A continuación, se presentan los principales niveles de análisis lingüístico: fonológico, morfológico, sintáctico, semántico, pragmático y discursivo, que constituyen la base sobre la que se desarrollan los modelos y sistemas de PLN. Estos niveles se relacionan con diversas estrategias de resolución de problemas, que van desde las reglas y heurísticas basadas en conocimiento hasta el aprendizaje automático, el aprendizaje profundo y el uso de modelos de lenguaje de última generación. Se destacan asimismo los recursos esenciales (corpus, ontologías, diccionarios, etc.) y las librerías más utilizadas en el ámbito, como NLTK, SpaCy o Freeling.
El recorrido histórico muestra la evolución del PLN desde los sistemas basados en reglas de los años setenta, pasando por técnicas estadísticas y de aprendizaje automático, hasta la irrupción de los modelos de lenguaje masivos y los transformers en la actualidad. Esta evolución se refleja también en la diversidad de aplicaciones: traducción automática, recuperación y extracción de información, chatbots, minería de opiniones, simplificación y generación de resúmenes, entre muchas otras.
La presentación analiza además las líneas de trabajo actuales, que combinan el uso de técnicas híbridas con la adaptación a dominios específicos, y contextualiza el ecosistema del PLN en España e internacionalmente. Se revisan asociaciones científicas (como SEPLN y ACL), grupos de investigación, centros singulares (CENID, CITIUS, BSC, HITZ), así como planes estratégicos de impulso, entre los que destacan el Plan TL, el PERTE de la Nueva Economía de la Lengua, y proyectos como ILENIA o ALIA. También se incluyen las principales campañas de evaluación, como IBERLEF, congresos y repositorios de referencia (ACL Anthology, Arxiv, Hugging Face, Papers with Code).
Finalmente, se ofrece un perfil de la persona experta en PLN, que debe conjugar conocimientos en lingüística, informática y en dominios de aplicación específicos (como salud, derecho o turismo), ilustrando el carácter multidisciplinar del área. La bibliografía de referencia proporciona textos clave y actualizados que sirven de base para profundizar en los temas tratados.
En suma, esta sesión ofrece una visión panorámica del PLN, que abarca desde los fundamentos teóricos y lingüísticos hasta los desarrollos técnicos más recientes y las iniciativas estratégicas en el ámbito hispanohablante e internacional.
Rafael Muñoz Guillena es catedrático del Departamento de Lenguajes y Sistemas Informáticos de la Escuela Politécnica Superior de la Universidad de Alicante, donde desarrolla su actividad docente e investigadora. Imparte docencia en los grados de Ingeniería Informática e Ingeniería Multimedia, así como en el programa de doctorado en Aplicaciones de la Informática de la misma universidad. Entre las asignaturas que ha impartido se encuentran “Análisis y especificación de sistemas multimedia”, “Análisis y especificación de sistemas software”, “Big Data: fundamentos tecnológicos e impacto social”, “Introducción a la investigación”, “Extracción de información textual / Laboratorio de extracción de información” e “Interfaces de lenguaje natural”. Ha dirigido diez tesis doctorales y alrededor de una treintena de proyectos finales de grado y máster en temas relacionados con la inteligencia artificial, el procesamiento del lenguaje natural y sus aplicaciones prácticas.
Es miembro del Grupo de Procesamiento del Lenguaje y Sistemas de Información (GPLSI) de la Universidad de Alicante, en el marco del cual desarrolla su investigación centrada en la extracción de conocimiento, los modelos de lenguaje y la combinación de conocimiento semántico con técnicas de aprendizaje automático. Ha publicado numerosos trabajos en revistas y congresos internacionales del ámbito del procesamiento del lenguaje natural, y ha participado activamente en conferencias de referencia como ACL, EACL, LREC, RANLP o NLDB. Sus publicaciones acumulan más de 2.400 citas según Google Scholar.
En el ámbito institucional, ha ocupado diversos cargos de responsabilidad en la Universidad de Alicante. Fue vicerrector de Investigación y Transferencia de Conocimiento en 2020 y vicerrector de Campus y Sostenibilidad entre 2012 y 2020. Anteriormente, dirigió el Secretariado de Internacionalización de la Investigación y Transferencia de Tecnología (2005–2012). Desde 2021 es secretario general del Centro de Inteligencia Digital de la Universidad de Alicante (CENID). Además, desempeña un papel destacado en la Sociedad Española para el Procesamiento del Lenguaje Natural (SEPLN), de la que es presidente desde septiembre de 2023.
Jueves, 6 de noviembre de 2025
17:00 a 19:00 horas
2. Creación de corpus digitales
Mariona Taulé Delor
Mireia Farrús Cabeceran
Universidad de Barcelona
El contenido de esta sesión se centra en la descripción de la metodología aplicada en la creación y anotación de corpus digitales (o conjuntos de datos, datasets). Los corpus son colecciones de textos escritos, orales o visuales en formato digital que reflejan situaciones y contextos de uso real de la lengua creados con una finalidad concreta. Se presentarán las distintas etapas implicadas en el desarrollo de un corpus: 1) diseño del corpus (definición de criterios); 2) recopilación de datos (extracción y organización de datos); 3) anotación (guía de anotación, consecución del proceso y herramienta utilizada) y 4) evaluación y revisión del corpus (Inter-Annotator Agreement Tests, métricas). La aplicación de esta metodología permite crear, validar y garantizar la calidad del corpus desarrollado. Cada una de estas etapas se ejemplificará mediante la presentación de distintos tipos de corpus (textuales, orales, multimodales, multilingües, diacrónicos, megacorpus, etc.).
Los corpus digitales no solo se utilizan para el análisis y descripción lingüística basada en datos empíricos, sino que son un recurso fundamental para desarrollar aplicaciones de procesamiento del lenguaje natural y, en concreto, para entrenar y evaluar los modelos o sistemas de inteligencia artificial basados en aprendizaje automático (Machine Learning). Las aplicaciones de los corpus abarcan casi todos los ámbitos de la lingüística y la interacción en lenguaje natural en el marco de la inteligencia artificial.
Mariona Taulé Delor es catedrática del Departamento de Filología Catalana y Lingüística General de la Universidad de Barcelona (UB) y directora de este departamento desde 2021. Imparte su docencia en el grado de Lingüística y en el Máster de Humanidades Digitales de la misma universidad (“Lingüística de corpus” en el grado y “Trabajo con corpus digitales” en el máster). Actualmente es la directora del grupo de investigación Centro de Lenguaje y Computación, CLiC (https://clic.ub.edu/), desde 2017 en el marco del cual ha desarrollado su investigación, centrada en el tratamiento y representación computacional de diferentes aspectos del conocimiento lingüístico. También es miembro del Instituto de Investigación en Sistemas Complejos de la UB (UB Institute for Complex Systems, UBICS. https://www.ubics.net/) y de la red de innovación en accesibilidad AccessCat (https://www.accesscat.net/ca). Es también miembro correspondiente del Institut d’Estudis Catalans.
Desde 1989 y hasta ahora sin interrupción ha participado en diversos proyectos de investigación competitivos, tanto de carácter nacional como internacional. La participación en estos proyectos le ha permitido desarrollar su actividad de investigación, relacionada con la lingüística computacional y, más en concreto, con la semántica computacional, la lingüística de corpus y el desarrollo de recursos de ingeniería lingüística, básicamente, para las lenguas castellana, catalana e inglesa. El objetivo principal de su investigación se ha centrado en la modelización del lenguaje humano y en sentar las bases teóricas y metodológicas para la anotación de corpus a diferentes niveles lingüísticos (morfológico, sintáctico, semántico y pragmático). Ha publicado más de 120 artículos en revistas, capítulos de libro y actas de congresos.
Mireia Farrús Cabeceran es profesora agregada del Departamento de Filología Catalana y Lingüística General de la Universidad de Barcelona (UB), directora del Servei de Tecnologia Lingüística (STeL, UB) desde 2023, y subdirectora del Instituto de Investigación en Sistemas Complejos de la UB (UB Institute for Complex Systems, UBICS. https://www.ubics.net/) desde 2024. Imparte su docencia en el grado de Lingüística, en el Máster de Ciencia Cognitiva y Lenguaje (CCiL) en la misma universidad (“Lingüística computacional” en el grado y “Natural Language Processing” en el máster). También imparte docencia en el European Master in Artificial Intelligence (EMAI) y en el Master in Intelligent Interactive Systems (MIIS) de la Universitat Pompeu Fabra en Barcelona (“Natural Language Interaction” en ambos másteres). Actualmente es miembro del grupo de investigación Centro de Lenguaje y Computación, CLiC (https://clic.ub.edu/), desde 2022 en el marco del cual desarrolla su investigación centrada en las tecnologías del habla. También es miembro de la red de innovación en accesibilidad AccessCat (https://www.accesscat.net/ca).
Licenciada en Física y en Lingüística en la UB y doctora en Teoría de la Señal y Comunicaciones por la Universitat Politècnica de Catalunya (UPC, Barcelona) en 2008, ha sido investigadora en el Centro Alemán en Inteligencia Artificial (DFKI) de Saarbrücken (Alemania), e investigadora visitante en la Universidad de Umeå (Suecia), la Universidad de Canberra (Australia) y la Universidad de Edimburgo (Reino Unido). Ha participado en varios proyectos europeos e industriales relacionados con la lingüística computacional y las tecnologías del habla. Su principal investigación se ha centrado en el uso de la prosodia para el reconocimiento de habla y del locutor, la síntesis del habla y el uso de las tecnologías del habla en medicina. Actualmente, también participa en proyectos relacionados con la explicabilidad, la equidad y la transparencia en el procesamiento del lenguaje natural.
Jueves, 13 de noviembre de 2025
17:00 a 19:00 horas
3. Arquitectura Transformers y los LLM
Germán Rigau
Universidad del País Vasco
Esta sesión abarca desde los retos y oportunidades actuales de los Large Language Models (LLMs) a los fundamentos técnicos de la arquitectura de Transformer. Los modelos de redes neuronales de aprendizaje profundo se han aplicado con éxito al procesamiento del lenguaje natural y están transformando radicalmente nuestra interacción con las máquinas (traducción, motores de búsqueda, Siri, Alexa, ChatGPT, por nombrar algunos). Estos modelos pueden inferir una representación continua de palabras y oraciones, y generalizar a nuevas tareas sin apenas datos de entrenamiento.
Esta sesión del webinar es una introducción a los principales modelos de aprendizaje profundo utilizados en el procesamiento de texto. Abarca los últimos avances, incluyendo Transformers y modelos de lenguaje pre-entrenados (multilingües) como GPT5, T5 y BERT, y su uso con fine-tuning y prompting; el proceso de instrucción de modelos y retroalimentación con preferencias humanas; y las oportunidades y retos que plantean estos grandes modelos de lenguaje.
En suma, esta sesión constituye una visión panorámica de las capacidades y retos que plantean los grandes modelos de lenguaje, que abarca desde los desarrollos técnicos más recientes hasta las iniciativas estratégicas internacionales.
Germán Rigau es profesor titular del Departamento de Lenguajes y Sistemas Informáticos de la Facultad de Informática de San Sebastián de la Universidad del País Vasco (UPV/EHU). Es licenciado en Informática y doctor en Inteligencia Artificial por la Universidad Politécnica de Cataluña (UPC). Desde 2002 forma parte del grupo de investigación IXA de la UPV/EHU, en el que desarrolla su actividad docente e investigadora.
Imparte docencia en los grados de Ingeniería Informática e Inteligencia Artificial, así como en el Máster en Análisis y Procesamiento del Lenguaje y en el Máster Erasmus Mundus Language and Communication Technologies. Entre las asignaturas que ha impartido destacan “Advanced Techniques in Artificial Intelligence”, “Natural Language Processing”, “Text Mining”, “Advanced Topics in Natural Language Processing” y “Computational Semantics and Pragmatics”. Ha dirigido dieciséis tesis doctorales —siete de ellas internacionales—, además de diecisiete proyectos de fin de máster y setenta de fin de grado en temas vinculados con la inteligencia artificial, el procesamiento del lenguaje natural y sus aplicaciones prácticas.
Su investigación se centra en la semántica léxica, el procesamiento semántico y la inferencia en el ámbito del procesamiento del lenguaje natural. Ha publicado más de doscientos artículos en revistas y congresos internacionales, quince de ellos en el primer cuartil según el Journal Citation Reports (JCR 2023), que acumulan más de 11.000 citas. Ha participado en quince proyectos europeos, entre ellos ACQUILEX, EuroWordNet, MEANING, KYOTO, OpeNER, NewsReader, ELE y ELE2, siendo investigador principal en varios de ellos. También ha liderado proyectos nacionales como SkaTer, TUNER, DeepReading, CrossText y DeepKnowledge, y actualmente coordina las redes estratégicas INTELE y CLARIAH-ES, así como los proyectos nacionales DeepThought, ILENIA y ALIA.
Ha desempeñado numerosos cargos de responsabilidad en el ámbito académico y científico. Desde 2019 es subdirector del Basque Center for Language Technology (HiTZ) de la UPV/EHU y, desde 2024, miembro de la Cátedra HiTZ de Tecnología del Lenguaje e Inteligencia Artificial. En el ámbito institucional, es presidente de la European Language Resources Association (ELRA) desde 2025 y ha sido miembro y presidente del comité ejecutivo de la Global WordNet Association (GWA). Desde 2022 representa a España en el Grupo de Trabajo Estratégico de ESFRI en Ciencias Sociales y Humanidades y coordina las infraestructuras europeas de investigación CLARIN-ERIC y DARIAH-ERIC. Además, forma parte del comité permanente de la Sociedad Española para el Procesamiento del Lenguaje Natural (SEPLN) y colabora desde 2015 como asesor del Plan de Impulso a las Tecnologías del Lenguaje del Ministerio de Asuntos Económicos y Transformación Digital, en cuyo marco ha coeditado el Informe sobre el estado de las tecnologías del lenguaje en España y participado en la Estrategia de Procesamiento del Lenguaje Natural 2020 de la SEPLN. También ha sido socio principal del proyecto europeo European Language Equality (ELE), orientado a promover la igualdad lingüística digital en Europa.
Jueves, 20 de noviembre de 2025
17:00 a 19:00 horas
4. Ética y sesgos en la Inteligencia Artificial
Eugenio Martínez Cámara
Universidad de Jaén
El procesamiento del lenguaje natural (PLN) en particular y la inteligencia artificial (IA) en general han dejado de ser una preocupación exclusiva de los científicos ocupados en su estudio, y se ha convertido en una inquietud social. Esta conciencia social sobre los efectos de la IA se debe a que cada vez hay una mayor disponibilidad de sistemas de IA que pueden afectar a los derechos individuales de las personas. Por ejemplo, el uso de la IA en aplicaciones de asistencia a profesionales médicos o el uso de este tipo de sistemas en ámbitos como los financieros, cuyas decisiones pueden afectar al desarrollo profesional de las personas. Esto obliga a que el proceso de desarrollo de los sistemas informáticos basados en IA cumpla con unos mínimos estándares éticos para que sean respetuosos con los derechos fundamentales de las personas.
Pudiera pensarse que solo se deben aplicar principios éticos al uso de los sistemas de IA, sin embargo, para que estos puedan tener un funcionamiento compatible con los valores éticos de las personas es necesario que estos se consideren durante todo el proceso de desarrollo, desde su concepción hasta su puesta a disposición para su uso. El paradigma actual es el de IA basada en datos, de manera que el funcionamiento de la misma está estrechamente ligada a la calidad de los datos, y en consecuencia, el comportamiento ético del sistema de IA. Por tanto, se deben aplicar principios éticos desde el propio proceso de selección y preparación de los datos, para así reducir los riesgos de presencia de sesgos, de privacidad y de uso indebido de los mismos. Seguidamente, se deben atender a las recomendaciones de desarrollo de una IA confiable, la cual nos obliga a que esta sea robusta y legítima, y a lo que se puede incluir además que sea comprensible o explicable, de forma que al menos se pueda entender el porqué de sus acciones.
Atendiendo a la importancia de la aplicación de principios éticos al desarrollo de un sistema de IA, la sesión expondrá: 1) La relevancia de la aplicación de principios éticos al desarrollo de la IA; 2) Principios éticos para una IA confiable; 3) Datos para la IA de una forma ética; 4) Evaluación del nivel de confiabilidad de sistemas de IA; y 5) Situación actual de los principales modelos de IA.
Eugenio Martínez Cámara es profesor titular del Departamento de Lenguajes y Sistemas Informáticos de la Escuela Politécnica Superior de la Universidad de Jaén, donde desarrolla su actividad docente e investigadora, y miembro del Centro de Estudios Avanzados en Tecnologías de la Información y la Comunicación (CEATIC) de la misma universidad. Su trayectoria docente se ha desarrollado en las universidades de Granada y de Jaén. En la primera ha impartido asignaturas en los grados de Matemáticas, Estadística e Ingeniería Informática, y en la segunda en el grado de Ingeniería Informática. Entre las materias que ha impartido se encuentran “Programación orientada a objetos”, “Fundamentos de ingeniería del software”, “Fundamentos de bases de datos”, “Algoritmia”, “Procesamiento del lenguaje natural” e “Inteligencia artificial en la investigación operativa”. Asimismo, cuenta con experiencia en docencia virtual en el Máster Universitario en Investigación en Inteligencia Artificial de la Asociación Española de Inteligencia Artificial, impartido a través de la Universidad Internacional Menéndez Pelayo. Ha dirigido una tesis doctoral y más de cuarenta proyectos fin de carrera, grado y máster, todos ellos relacionados con sistemas de procesamiento del lenguaje natural.
Es miembro del grupo de investigación Sistemas Inteligentes de Acceso a la Información (SINAI), en el marco del cual desarrolla su labor investigadora centrada en el procesamiento del lenguaje natural. Ha publicado más de un centenar de trabajos en revistas y congresos internacionales del área, y ha participado en conferencias de referencia como ACL, LREC, COLING y NAACL. Sus publicaciones incluyen treinta artículos en revistas indexadas en el Journal Citation Reports (la mayoría en el primer cuartil) y diecisiete en revistas ESCI. Sus trabajos acumulan más de 4.000 citas según Google Scholar. Además, ha presentado contribuciones en numerosos congresos y talleres especializados.
En el ámbito institucional, desde septiembre de 2023 es vicepresidente de la Sociedad Española para el Procesamiento del Lenguaje Natural (SEPLN) y, desde 2024, secretario del Centro de Estudios Avanzados en Tecnologías de la Información y la Comunicación (CEATIC) de la Universidad de Jaén.
Jueves, 27 de noviembre de 2025
17:00 a 19:00 horas
5. Evaluación de modelos
Rodrigo Agerri
Universidad del País Vasco
Inscripción
La inscripción es obligatoria para poder tener acceso al enlace de la sesión y para recibir un certificado de asistencia.
Para quién
- Estudiantes de Doctorado, Máster y últimos cursos de Grado.
- Personal Docente e Investigador.
- Profesionales relacionados con el área.
Acceso en modalidad asíncrona
Las grabaciones de las sesiones estarán disponibles en el aula virtual del curso para los inscritos en el Webinar durante el mes siguiente a la finalización del mismo.
Certificado
Se emitirá un certificado de asistencia a las personas que hayan asistido a al menos cuatro sesiones de un total de cinco.
Coordinación académica
Ana Elvira Ojanguren López
Universidad de La Rioja
ecodigleng@unirioja.es
Plan de Transformación
Economía Digital del Lenguaje e Inteligencia Artificial
Universidad de La Rioja
Organiza
Etiquetas
Categorías
Noticias relacionadas
«El español es el activo internacional más importante que tiene nuestro país»
Espido Freire y Marta Sanz abrirán y cerrarán el II Congreso Internacional Multilingüe de Escritura Creativa
Actividades relacionadas