Analítica del aprendizaje en un entorno virtual mediante un sistema
de computación cognitiva: estudio preliminar
Msc. Larry Lugo Urribarrí[1]
Universidad del Zulia
Recibido: Noviembre, 2015
Aceptado: Febrero, 2016
RESUMEN
En esta investigación se aplicaron métodos de la Analítica del Aprendizaje en el estudio de los datos masivos provenientes de la plataforma virtual de Fruticultura, mediante el sistema de computación cognitiva IBM Watson, basado en inteligencia artificial y aprendizaje automático. Se analizaron los registros de las evaluaciones en línea, así como las interacciones sociales en los foros para determinar su influencia sobre el desempeño estudiantil, durante los períodos lectivos desde el2006 hasta 2014 de la asignatura Fruticultura. Los factores estudiados permitieron mejorar el sistema de evaluación y estimarla nota definitiva con una fortaleza predictiva del 72%.
Palabras clave: IBM Watson, Analítica del Aprendizaje, computación cognitiva
Learning analytics on a virtual environment using a cognitive computing system: a preliminary study
Msc. Larry Lugo Urribarrí
Universidad del Zulia
Received: November, 2015
Accepted: February, 2016
ABSTRACT
In this research, methods of Learning Analytics in the study of massive data were used. The data came from the virtual platform Fruticultura through the cognitive computation system IBM Watson, based on artificial intelligence and automatic learning. They were analyzed the records of the on-line evaluations and also social interaction in the forums to determine their influence on students’ performance during school periods from 2006 to 2014 of fruit growing subject. Studied factors allow to improve the evaluation system and to estimate the final grade with a 72% predictive power
Keywords: IBM Watson, learning analytics, cognitive computing.
Analítica da aprendizagem em um meio virtual mediante um sistema
de computação cognitiva: estudo preliminar
Msc. Larry Lugo Urribarrí
Universidad del Zulia
Resumo
Nesta investigação aplicaram-se métodos da Analítica da Aprendizagem no estudo dos dados em massa, provenientes da plataforma virtual de Fruticultura mediante o sistema de computação cognitiva, IBM Watson, baseado em inteligência artificial e aprendizagem automática. Analisaram-se os registros das avaliações em linha, bem como as interações sociais nos foros para determinar sua influência sobre o desempenho estudiantil durante os períodos lectivos desde o ano 2006 até o 2014 da matéria Fruticultura. Os fatores estudados permitiram melhorar o sistema de avaliação e estimar a nota definitiva com uma fortaleza predictiva de 72%.
Palavras-chave: IBM Watson, Analítica da Aprendizagem, computação cognitiva
Introducción
El desarrollo de las Tecnologías de Información y Comunicación (TIC) durante las décadas recientes ha propiciado el surgimiento de modalidades educativas a distancia (EaD) y virtuales, que aprovechan el advenimiento de los dispositivos electrónicos que son cada vez más poderosos y versátiles, junto con al incremento de la capacidad de almacenamiento, organización y recuperación de datos a menor costo. Es así como la adopción de los sistemas de educación basados en la Web, sistemas e-Learning (del inglés electronic Learning, aprendizaje electrónico) o Entornos Virtuales de Aprendizaje (EVA) como también son ampliamente conocidos; ha crecido exponencialmente en los últimos años (Rice, 2006; Romero, Ventura y García, 2008). Los EVA consisten en una colección de herramientas informáticas integradas que facilitan la administración del aprendizaje en línea, proveyendo un mecanismo de entrega, seguimiento del estudiante, evaluación y acceso a los recursos (Huapaya, Lizarralde, Arona y Massa, 2012). Menciona Rice (2006) que uno de las más utilizados es el Modular Object Oriented Developmental Learning Environment (Moodle), por ser un sistema de gestión de aprendizaje gratuito que permite la creación de potentes, flexibles y atractivos cursos y experiencias en línea.
Los entornos virtuales tienen la gran ventaja de que registran todas las acciones de los usuarios, generando vastas cantidades de datos, que analizándolos, se puede realizar el seguimiento del proceso de enseñanza-aprendizaje para poder implementar las intervenciones oportunas en función de los objetivos establecidos (Mostow, Beck, Cen, Cuneo, Gouvea y Heiner, 2005).
El análisis, sin embargo, de tales colecciones de datos, hasta finales de la primera década del siglo XXI, requería de especialistas que pudieran implementar los procedimientos necesarios. A partir del 2015, Watson, el primer sistema de computación cognitiva basado en inteligencia artificial y aprendizaje automático, está disponible para el público en general y de forma gratuita. El mismo integra la plataforma de Big Data y analítica de IBM (International Business Machine), y es capaz de procesar el lenguaje natural humano para “entender” los requerimientos del usuario e implementar los métodos analíticos idóneos, sin instalar software, programar o poseer un alto grado de experticia.
Otra gran ventaja es que se accede a un elevado poder de cómputo en la nube, sin la necesidad de que las instituciones o los particulares posean una sofisticada y costosa infraestructura tecnológica.
A partir del mes de julio de 2003, la plataforma virtual de Fruticultura (PVF) está disponible en línea en la URL www.fruticultura.net para la asignatura homónima bajo la modalidad b-Learning o aprendizaje mixto. En este proyecto autofinanciado hasta la fecha se han acumulado más de 10 años de datos educativos.
El objetivo general de este estudio fue aplicar métodos de la Analítica del Aprendizaje en el estudio de los datos masivos provenientes de la PVF mediante un sistema de computación cognitiva como herramienta de toma de decisiones para un aprendizaje efectivo.
Objetivos específicos. En esta etapa preliminar fueron los siguientes:
1. Aplicar métodos de inteligencia artificial y aprendizaje automático para mejorar el sistema de evaluación.
2. Determinar el efecto de las interacciones sociales en los foros sobre el desempeño estudiantil en la asignatura Fruticultura.
La Plataforma Virtual de Fruticultura (PVF). Antecedentes.
Lugo (2014) menciona que la PVF está disponible en línea en la URL www.fruticultura.net para la asignatura homónima, desde el mes de julio de 2003, con el objeto de ofrecer ambientes de aprendizaje enriquecidos con estrategias de trabajo colaborativo, cooperativo e individualizado, realimentación tutorial y trabajo inter, multi y transdisciplinario, fundado en criterios provenientes de la pedagogía conceptual, cognitiva y constructivista.
La materia Fruticultura fue de carácter obligatorio hasta el II período de 2013 y pasó a formar parte de Cultivos Perennes en el pensum implementado en el 2014 de la carrera de ingeniería Agronómica de la Facultad de Agronomía de la Universidad del Zulia.
El componente virtual del curso se gestiona en un servidor de Moodle, pero debido a las limitaciones de conexión y acceso a internet manifestadas por los alumnos, se distribuyen también materiales docentes en CDs interactivos y se han ido incorporando otras herramientas de la Web 2.0 como los Google Hangouts, Blogs y algunos objetos de realidad virtual para la demostración y estudio de las tecnologías agrícolas, sobre todo de punta, empleadas en el cultivo de frutales. Desde entonces, dicha plataforma sigue en línea como proyecto autofinanciado, lo que la convierte en el aula virtual más longeva de LUZ.
Analítica del Aprendizaje
La Analítica del Aprendizaje y del Conocimiento (AAC, LAK por sus siglas en Inglés, o simplemente AA), consiste en la medición, recopilación, análisis y presentación de datos sobre los estudiantes y sus contextos, a los efectos de comprender y optimizar el aprendizaje y los entornos en los que se produce (Siemens y Baker, 2012). Entre las herramientas más comunes del AA cabe citar Análisis de Redes Sociales (ARS), Análisis de Sentimiento, Análisis de Influencia, Análisis del Discurso, Análisis del Aprendiz, Predicción del Éxito, Análisis de Conceptos, y Modelos de Toma de Decisiones. El uso de estas herramientas requiere de un software especializado y de programación, mientras que con Watson sólo es necesario formular las preguntas relacionadas con el problema a investigar en lenguaje natural.
Computación Cognitiva: Máquinas inteligentes
Los Sistemas Cognitivos (SC) como Watson emplean inteligencia artificial (IA) y aprendizaje automático (Machine Learning), por lo que son fundamentalmente diferentes de las computadoras que les precedieron. Mientras los equipos tradicionales deben ser programados por los seres humanos para llevar a cabo tareas específicas, los sistemas cognitivos aprenden de sus interacciones con los datos y los seres humanos, siendo capaces, en cierto sentido, de programarse a sí mismos para llevar a cabo nuevas tareas. En esta era cognitiva, las computadoras se adaptarán a la gente. Ellas interactúan con nosotros en formas que son más humanas (Kelly y Hamm, 2013), por ejemplo Watson es capaz de interpretar el lenguaje humano en varios idiomas.
Desempeño estudiantil
El Ministerio de Educación Superior (MES) de la República Bolivariana de Venezuela define el Desempeño Estudiantil como el conjunto de experiencias y logros educativos de los estudiantes, derivados de su relación con la universidad y de los aportes que ésta hace a su iniciación profesional y a su formación integral como sujetos capaces de pensar y de actuar críticamente (Téllez y González, 2001).
Partiendo de la definición de Jiménez (2000), desempeño estudiantil, rendimiento escolar y rendimiento académico son sinónimos en tanto se conciben como un nivel de conocimientos demostrado en un área o materia, comparado con la norma de edad y nivel académico.
En esta investigación, la nota definitiva de la asignatura Fruticultura, con base a 20 puntos, fue el indicador del desempeño del estudiante al finalizar el semestre.
Metodología
Tipo de investigación
En función de los lineamientos de la Organización de las Naciones Unidas para la Educación, la Ciencia y la Cultura (UNESCO) en materia de Investigación Educativa, el presente estudio corresponde a una Investigación Causal, dado que se estudian factores que inciden en el desempeño estudiantil, y un Estudio de Casos, por limitarse al único curso de la carrera de Ingeniería Agronómica bajo la modalidad b-Learning, “aplicando métodos de investigación cuantitativa de casos no probabilísticos, que proveen resultados que no están necesariamente diseñados para extrapolarse a números mayores de la población” (Postlethwaite, 2011, p. 7).
Análisis del sistema de evaluación. (i) Fuente de datos
Registros del uso de la PVF durante los semestres comprendidos entre los años 2006-2014, por parte de los alumnos inscritos en la asignatura Fruticultura, pertenecientes a la población estudiantil activa de la carrera de Ingeniería Agronómica, Facultad de Agronomía, Universidad del Zulia (LUZ). (ii) La evaluación de la asignatura objeto de estudio contempla diversas actividades, entre ellas exámenes parciales en línea en la PVF. Se analizaron 680 exámenes, con 19.623 respuestas registradas del tipo Verdadero/Falso (truefalse), emparejamiento (match), respuestas múltiples (multichoice) y ensayo (essay), recuperadas de la base de datos de Moodle. (iii) Variables analizadas:
- Índice de Facilidad (% Fácil Correct.) por cada tipo de pregunta. Es el % de respuestas correctas.
- Índice de Discriminación (Índice Disc.) por cada tipo de pregunta. Es la correlación entre las calificaciones ponderadas en la pregunta y las del resto del examen. Indica que tan efectiva es la pregunta para diferenciar a los estudiantes más capaces de los menos capaces (Moodle, 2015).
- Eficiencia de Discriminación (Coef. Disc.) por cada tipo de pregunta. Esta estadística estima que tan bueno es el índice de discriminación en relación con la dificultad de la pregunta (Moodle, 2015).
- Número de Preguntas Respondidas (No. Pr. Respondidas) en cada examen y por alumno.
Esta data fue cargada en Watson para su estudio en formato csv (comma-separated values o valores separados por comas). El sistema cognitivo calcula una serie de estadísticas descriptivas y encuentra de manera automática las relaciones significativas. Las mismas que se pueden detallar con preguntas más específicas por parte del usuario, formuladas en lenguaje natural, realizando un análisis uni, bi o multivariado basado en métodos de inteligencia artificial y aprendizaje automático para analizar el desempeño estudiantil en los exámenes parciales y la idoneidad del sistema de evaluación.
Interacciones sociales en los foros y su influencia sobre el desempeño estudiantil. (i) Fuente de datos.
Foros públicos del curso Fruticultura en la PFV por parte de los alumnos y durante los períodos especificados en el acápite 3.2. (ii)Obtención de la Matriz de Adyacencia. Se corrió el algoritmo SNAPP (Social Networks Adapting Pedagogical Practice) para detectar las interacciones en los foros. Este algoritmo obtiene la matriz de adyacencia donde se codifican las interacciones, la cual se exportó en formato graphml para ser procesada por el software libre Gephi v0.8.2 y calcular los parámetros a nivel de:
- Individuos (nodos) y sus roles. (i) Grado de entrada (InDegree). Aristas o mensajes que recibe un nodo o individuo. (ii) Grado de salida (OutDegree). Mensajes enviados o aristas que salen de un nodo o alumno. (iii) Grado. Total de aristas o mensajes. Es la suma de los dosprevios. (iv) Centralidad de Vector Propio. Mide la influencia de un nodo en una red y corresponde al principal vector propio de la matriz de adyacencia del grafo analizado (Bonacich, 1972).
- Grupos (o cliques). (i) Modularidad. Detecta grupos cohesionados. (ii) Componente Gigante. Identifica el grupo más grande unido por enlaces fuertes.
- Red. (i) Diámetro de la red. Número de saltos máximo entre dos nodos. (ii) Densidad. Compara la cantidad de conexiones actuales entre los individuos de la red y la máxima.
Mediante el sistema Watson se estudió la influencia de estos parámetros sociales sobre la nota definitiva (finalgrade) de los alumnos cursantes de la asignatura Fruticultura.
Resultados
Análisis del sistema de evaluación
La interfaz de Watson se accede en idioma inglés en estos momentos y muestra automáticamente “puntos de partida” (starting points) a manera de preguntas que indican las relaciones y patrones significativos detectados en la data. Por ejemplo, “How do the values of grade compare by userid?”(¿Cómo se comparan los valores de la nota definitiva por usuario?). El analista debe seleccionar aquellas que sean relevantes para su estudio, o formular sus propias preguntas. La Figura 1 es un panel típico de Watson. Es de hacer notar que todas las tablas y figuras de este artículo fueron generadas de forma automática por dicho sistema cognitivo. En la parte superior del panel (Figura 1) aparece un resumen con estadísticas descriptivas, incluyendo la calidad de la data que en este caso es de 84% calificada como excelente. El % de facilidad de las preguntas fue, en orden decreciente: verdadero/falso, selección múltiple, emparejamiento y tipo ensayo. Watson detectó que en ésta última fue inusualmente bajo, lo que revela su mayor grado de dificultad para los alumnos. Se considera que valores entre 35% - 64% son adecuados para el estudiante promedio (Moodle, 2015).

Figura 1. Panel de salida general de Watson.

Figura 2. Porcentaje de facilidad de las preguntas en orden decreciente. Las tipo ensayo presentaron la mayor dificultad y verdadero/falso la menor.
Con relación al Índice de Discriminación (Índice Disc.) y la Eficiencia de Discriminación (Coef. Disc.), se encontró un promedio general de 0,54 y 0,42 respectivamente (Figura 3). Valores superiores al 50% del Índice de Discriminación se consideran muy buenos (Moodle, 2015). Por otra parte, la discriminación máxima requiere un Índice de Facilidad que esté en el rango del 30% al 70%, de tal manera que valores inferiores al 50% de Eficiencia de Discriminación indican que la pregunta no es tan efectiva para discriminar entre estudiantes de habilidades diferentes como lo debería ser, y en consecuencia, no es una pregunta idónea (Moodle, 2015) que debe ser eliminada del banco de exámenes para no perjudicar la nota de los estudiantes más responsables.

Figura 3.Valores promedio del Índice de Discriminación (Índice Disc.) y la Eficiencia de Discriminación (Coef. Disc.) correspondientes a ocho semestres del curso Fruticultura.
En cuanto a las principales variables que influencian el porcentaje de respuestas correctas o Porcentaje de Facilidad (Predicted % F, Tabla 1), Watson produjo un árbol de decisión aplicando el método CHAID (CHi-squared Automatic Interaction Detection) donde se aprecia que un alumno puede alcanzar un máximo de 79% de respuestas correctas si contesta de 11 a 24 preguntas, principalmente las 167 a 194 de la base de datos de la PVF, del tipo verdadero/falso y selección múltiple. Mientras que ese porcentaje disminuye a 57% si responde las de tipo ensayo, emparejamiento y respuesta corta, independientemente de los demás factores.
![]() |
Interacciones sociales en los foros y su influencia sobre el desempeño estudiantil.
De todos los parámetros derivados de las interacciones sociales en los foros, Excentricidad (Excentricity) y Conexiones Fuertes (Strong Connections, Tabla 2) fueron los principales predictores de la nota definitiva en el curso (Final Grade) con un ajuste del modelo o fuerza predictiva de 72%.
![]() |
Los valores de excentricidad evidenciaron una clara tendencia, correspondiendo las notas inferiores a los alumnos menos involucrados en las discusiones, es decir ocupando una posición más periférica dentro de su sección. Así por ejemplo, el promedio de la nota final para todos los alumnos con una excentricidad de 2 es de 18,25. La nota disminuye 34,19% hasta 13,6 cuando la excentricidad se ubica entre 3 y 4. El número de Conexiones Fuertes ≤ 5 arrojó un promedio general de 17,26 contra 15,3 para 22 o más conexiones, lo que sugiere que pequeños grupos más unidos favorecen el desempeño estudiantil, antes que aquellos con 9 o más conexiones fuertes. Lugo (2014) menciona que la conformación de grupos es influenciada en el orden de un tercio por factores como la ocupación y los intereses, y en torno a dos tercios por la proximidad geográfica. Siendo alumnos de la misma asignatura cursada en el núcleo LUZ de Maracaibo, tienen esos rasgos en común lo que favorece la cohesión grupal.
Conclusiones
El sistema de computación cognitiva IBM Watson ofrece a los educadores una plataforma basada en inteligencia artificial y aprendizaje automático gratuita, confiable y poderosa, con capacidad suficiente para procesar datos masivos en la nube, posibilitando el uso de la Analítica del Aprendizaje sin la necesidad de una plataforma tecnológica propia, ni de conocimientos altamente especializados en Ciencia de los Datos o programación, dada su comprensión del lenguaje natural humano y el uso de complejos algoritmos de manera automática.
La capacidad de procesamiento de IBM Watson, el acceso a grandes volúmenes de datos en Moodle y a las estadísticas automáticas que este genera, permitió analizar el sistema de evaluación implementado en la PVF, para intervenirlo y mejorarlo de forma oportuna.
Los parámetros derivados de las interacciones sociales en los foros de Moodle, en particular las conexiones fuertes y la excentricidad de los alumnos, hicieron posible estimar el desempeño estudiantil mediante la nota definitiva, con una fortaleza predictiva del 72%.
Referencias
Bonacich, P. (1972). Factoring and weighting approaches to clique identification. Journal of Mathematical Sociology, 2 (1), 113-20.
Huapaya, C.R., Lizarralde, F., Arona, G. y Massa, S. (abril, 2012). Mineria de Datos Educacional en Ambientes Virtuales de Aprendizaje. En XIV Workshop de Investigadores en Ciencias de la Computación. Congreso llevado a cabo en Universidad Nacional de Misiones, Posadas, Argentina. Recuperado de http://goo.gl/O72zou.
Jiménez, M. (2000). Competencia social: intervención preventiva en la escuela. Infancia y Sociedad, 24, 21-48.
Kelly, J.E. III y Hamm, S. (2013). Smart Machines. IBM's Watson and the Era of Cognitive Computing. Columbia, USA: Columbia University Press.
Lugo, L. (noviembre, 2014). Data Mining and Learning Analytics to Improve Student Performance under a b- Learning approach: the case "Virtual Platform of Fruit Growing". En V Congreso en Línea en Conocimiento Libre y Educación. Congreso llevado a cabo en línea. ISSN 2422-0809. DOI 10.13140/2.1.1163.1681. Recuperado de https://goo.gl/rBztBT.
Modular Object Oriented Developmental Learning Environment (Moodle). (2014). Significado de las estadísticas del examen de Moodle. Moodle Docs. Recuperado de https://goo.gl/UjwqTy.
Mostow, J., Beck, J., Cen, H., Cuneo, A., Gouvea, E. y Heiner, C. (june, 2005). An educational data mining tool to browse tutor-student interactions: Time will tell! In Proceedings of the Workshop on Educational Data Mining. Congress held at California, USA. Recuperado de http://goo.gl/lcFos2.
Rice, W.H. (2006). Moodle E-learning course development: a complete guide to successful learning using Moodle. Birmingham, UK: Packt Publishing.
Romero, C., Ventura, S. y García, E. (2008). Data mining in course management systems: Moodle case study and tutorial. Computers and Education, 51(1), 368-84. Recuperado de http://goo.gl/GEBAuX.
Postlethwaite, T.N. (2011). Investigación en educación: Algunos conceptos básicos y terminología. París, Francia: Instituto Internacional de Planeamiento de la educación/UNESCO, p. 7.
Siemens, G. y Baker, R.S.J.d. (april-may, 2012). Learning analytics and educational data mining: towards communication and collaboration. In 2nd International Conference on Learning Analytics and Knowledge. Congress held at Vancouver, BC, Canada. Recuperado dehttp://goo.gl/xSXhWj.
Téllez, M. y González, H. (2001). Proyecto de apoyo al mejoramiento continuo de desempeño estudiantil (PRODES). Ministerio de Educación Superior. República Bolivariana de Venezuela.
[1] Ingeniero. M.Sc. Profesor Asociado en La Universidad del Zulia (LUZ). Instructor y asesor en instituciones públicas y privadas en las áreas de suites ofimáticas, gestión computarizada de proyectos, simulación, implementación de Sistemas de Gestión de Aprendizaje basados en Moodle (Moodle Teacher Certificate ) e integración con herramientas Web 2.0. Coordinador del Sistema de Educación a Distancia de la Fac. de Agronomía, LUZ, y asesor del SEDLUZ. Especialista en Ciencia de Datos (Universidad Johns Hopkins, 2015), con estudios en el MIT, la Universidad de Michigan (EE.UU, 2013-2015) y la Universidad de Waikato (Nueva Zelandia, 2014) sobre Análisis de Redes Sociales, Analítica, Big Data y Minería de Datos Educativa. Durante los últimos 2 años ha incursionado en éstas áreas incorporando, además, un sistema cognitivo basado en inteligencia artificial y machine learning (IBM Watson). Ha sido conferencista y publicado artículos arbitrados en eventos nacionales e internacionales relacionados con su ámbito de trabajo.