
1.2 教育大数据技术概述
教育大数据蕴藏巨大的教育潜力,借助教育大数据技术对教育大数据进行采集、分析、管理和应用,使得教育领域能够更好地理解并高效地解决复杂的教育规律问题。本节将主要从教育大数据的技术框架和教育大数据处理涉及的关键技术两方面对教育大数据技术进行解析。
1.2.1 教育大数据的技术框架
杨现民等结合大数据处理的一般流程和教育本身的业务特点,构建了教育大数据技术体系框架[24],如图1-1所示。

图1-1 教育大数据技术体系框架
环节一:教育数据采集
在教育数据采集层,采集到的各种教育数据,如感知数据、业务数据、互联网数据等,经由数据传输接口到达教育数据处理层。
大数据的来源是多元的,相应地,数据采集也很复杂。为了保证大数据的可用性,必须在数据源头上把好质量关,即要对原始数据进行预处理。另外,数据来源多样、数量庞大,因此教育数据的采集应基于数据的应用目的。此外,教育数据的采集需要规范格式,遵循特定的技术标准和规范。一般情况下,教育数据的采集不会只使用一种技术,而会综合运用多种技术。教育数据采集技术共包括四大类:物联感知技术、平台采集技术、视频录制技术及图像识别技术[25]。每种技术的侧重点、采集范围都不同。
环节二:教育数据处理
教育数据处理层整合、存储教育数据,形成教育数据平台。采集到的教育数据是杂乱无章的、不一致的,需要对数据进行一定的处理,即对数据进行存储和整合。教育数据整合的目的是保证数据的一致性、完整性和相关性。借助教育数据整合技术,数据的利用程度得以提高,数据的价值得以更大限度地发挥。教育数据存储是指集中存放各种结构化、半结构化和非结构化的数据,以提高数据的可用性。教育大数据的存储系统不仅要能以极低的成本存储海量数据,还要具备数据格式上的可扩展性,以适应多样化的非结构化数据管理需求。
环节三:教育数据分析与展现
教育数据分析与展现层通过教育数据平台,实现教育数据的分析、挖掘及可视化展现。传统的数据分析是静态的,而教育大数据涉及的数据内容、类型及来源多样化,且具有实时性,因此大数据技术下的教育数据分析是一种动态的分析。借助数据挖掘技术,可从繁杂、海量的数据中捕获教育问题、发现教育规律并提取新的知识。以直观的方式将分析结果呈现给用户,即对数据进行可视化展现,可为教育教学及管理提供科学决策支撑。
环节四:教育数据应用服务
教育数据分析与展现层得到的结果通过数据接口传递给教育数据应用服务层。教育数据应用服务的最终目的是改善教育现状、推动教育的改革和发展。教育数据应用服务目前主要服务于教师、学生、家长、教育管理者和社会公众。例如,辅助教师调整和改进教学策略;向学生推荐个性化的学习资源;帮助家长更加全面、真实地认识孩子;帮助教育管理者进行科学决策;帮助社会公众把握教育的发展现状。
为了确保教育数据各环节的安全性和可控性,安全与监控贯穿整个大数据的处理流程;标准与规范则是整个框架的基础,保障各环节之间及整个系统的教育数据的融通与共享。
1.2.2 教育大数据处理涉及的关键技术
原始的教育数据是教育大数据的基础,只有对采集的各种数据进行技术处理,才能使数据发挥价值,为教育教学决策提供有效支撑。教育大数据处理涉及一系列关键技术,下面重点介绍其中三项关键技术:教育数据挖掘技术、学习分析技术和数据可视化技术。
1.教育数据挖掘技术
教育数据挖掘(educational data mining)是一个新兴的研究领域,综合应用多个学科的理论和技术来解决教育教学中出现的问题,主要通过采集和分析教育数据,为教育领域的利益相关者提供建议或对策。例如,帮助学生认识自身的优势和劣势,使其在个性化资源的推荐下不断改善学习方式并提高学习效率。
下面主要介绍教育数据挖掘常用的聚类分析技术、分类技术、离群点检测技术和关联规则挖掘技术。
1)聚类分析技术
聚类(clustering)分析技术作为一种数据挖掘手段,能够在没有数据标签的情况下对数据归属进行划分,所以广泛应用于机器学习、模式识别、数理统计、目标检测等诸多领域[26]。研究聚类问题及其算法已经成为一件极具现实意义的事情。解决聚类问题主要考虑两个方面的内容:①距离度量,即使用距离公式对数据进行距离计算,距离的大小反映数据样本之间的相似度,数据样本之间的距离越小,数据越相似;②聚类分析方法,即采用合理有效的算法将距离相近的数据划分到相同的聚类簇中,而将距离较远的数据划分到不同的聚类簇中。
聚类分析方法选取的好坏,很大程度上会影响聚类的效果。目前主流的聚类分析方法有划分方法、层次方法、基于密度的方法、基于网格的方法、基于概率模型的聚类、聚类高维数据、聚类图和网络数据、具有约束的聚类[27]。
聚类分析技术在教育教学中的应用随教育大数据的研究发展越来越丰富。聚类分析技术在教育教学中的应用一般需要经过五个流程:①确定聚类的对象,聚类的对象取决于研究者的需求;②建立对象特征数据表,即描述聚类的对象;③选择聚类分析方法,研究者往往根据数据的类型、数量及变量类型选择最合适的聚类分析方法;④聚类(分组),即利用已有的数据对对象进行聚类分析;⑤结果应用,指对聚类分析的结果进行解释并加以应用[28]。
2)分类技术
分类技术是数据挖掘应用中最常用的一种方法,主要目的是判别目标对象属于哪个预先定义好的类别。例如,电子商务公司通过各类网购平台的用户历史浏览记录、购买记录构建分类模型,判断用户是否对某类商品有需求或感兴趣,并进行个性化推荐。显而易见,分类技术已经在潜移默化地影响着人们的日常生活。
数据分类一般分两步:首先,确定分类规则,也称为学习或训练过程,即先将训练样本数据集作为输入,依据数据集特征为每个类别建立分类规则或描述;其次,通过更多测试数据集测试这些分类规则,以生成更恰当的分类规则并依据最终的分类规则形成数据分类[29]。目前主流的分类技术有很多,如半监督分类算法、主动学习算法、迁移学习算法、基于规则的分类算法、多类分类算法、模糊集算法、决策树分类算法等。
分类技术作为数据挖掘中最重要的技术之一,在教育教学中的应用主要包括五个阶段:①确定分析对象,主要指学生、教师和科研人员等;②数据采集,要根据分析对象和数据类型选择合适的采集工具;③选择分类方法,即根据研究目的和数据的类型、结构、数量进行选择;④分类分析,即采用合适的算法分析数据;⑤结果应用,指对分类分析的结果进行解释并应用[30]。
3)离群点检测技术
在数据挖掘中,会出现一些不同于其他数据分布的异常数据,这些异常的数据对象被称为离群点。离群点检测(outlier detection)就是找出大规模数据中的异常点或偏离点,以发掘其背后的异常信息及潜在知识。例如,对气候进行检测时,出现异常气候就预示着可能会发生自然灾害。
离群点检测技术可以大致分为五类:基于分布的、基于深度的、基于聚类的、基于距离的和基于密度的[31]。其中,基于深度的离群点检测技术是当前运用最广泛的技术。当前离群点研究主要以距离或密度来计算离群度,研究重点是高维大数据、空间数据、时序数据和实际应用[32]。
在教育教学中应用离群点检测技术,一般需要经过七个步骤:①确定分析对象,这取决于研究的需求;②明确分析目的,这与研究者的关注点相关;③数据采集,即采集与分析对象相关的各种数据;④数据预处理,主要是对数据进行数据清理、数据集成和数据变换等;⑤选择离群算法,应根据分析对象选择合适的离群算法;⑥离群状态分析,即将观察到的数据状态与正常的数据状态进行比较、分析;⑦离群结果分析,即分析离群的原因以采取有针对性的措施[33]。
4)关联规则挖掘技术
关联规则挖掘技术是数据挖掘领域的重要研究方向,用于挖掘数据间隐含的规则和联系。一般来说,关联规则挖掘是指从一个大型的数据集(dataset)中发现有趣的关联或相关关系,即从数据集中识别频繁出现的属性值集,发现数据间隐藏的关联模式,帮助决策者利用这些规则或联系做出正确、合理的决策[34]。
关联规则挖掘算法是关联规则挖掘研究的主要内容,目前,国内外已经提出了大量高效率、低消耗的关联规则挖掘算法。其中,最显著的关联规则挖掘算法是R.Agrawal提出的Apriori算法[35]。Apriori算法主要包含两个步骤:首先找出事务数据库中所有大于等于用户指定的最小支持度的数据项集;其次利用频繁项集生成所需要的关联规则,根据用户设定的最小置信度进行取舍,得到强关联规则。总的来说,关联规则挖掘算法的核心是识别或发现所有频繁项集,得到数据集后才能进行进一步操作。
关联规则挖掘技术在教育教学中的应用过程主要包括五个阶段:①确定关联主题,主要依据教育教学的实际需求;②收集教育教学领域数据,以此作为原始数据;③建立模型,根据数据特点选择合适的关联规则方法(包括布尔型、数值型、单层次、多层次、单维及多维),建立相应模型;④运用算法挖掘,即运用关联规则挖掘算法挖掘教育数据中的频繁项集;⑤教育应用,主要是指对教育决策或管理提供指导性建议[36]。
2.学习分析技术
在在线学习、云计算、大数据等出现之前,人们已经开始对教育数据进行收集、处理与应用。大数据时代需要新的方法和工具处理大规模的学习数据,学习分析应运而生。学习分析(learning analytics)是围绕与学习者学习信息相关的数据,运用不同的分析方法和数据模型来解释这些数据,根据解释的结果探究学习者的学习过程与情境,发现学习规律,或者根据数据阐述学习者的学习表现,为其提供相应的反馈,从而促进有效学习的技术[37]。教育领域的学习分析技术主要关注学习者、学习过程、学习内容、学生学习生命周期和学习组织行为学等[38]。
下面重点介绍四种前沿的学习分析技术,即学习行为模式分析、学习预警分析、多模态学习分析、嵌入式和提取式分析。
1)学习行为模式分析
学习行为模式分析是学习分析的重要组成部分。学习行为模式分析主要通过有目的地分析学习过程中记录的相关行为数据,有效、客观地监测学习者的学习过程,以挖掘数据背后的隐藏价值。
滞后序列分析(lag sequential analysis,LSA)法是学习行为模式分析的方法之一,主要用于检验人们在一种行为发生之后出现另一种行为的概率,以及其是否存在统计意义上的显著性[39]。滞后序列分析法可以帮助人们挖掘隐藏在复杂的交互行为序列中的交叉依赖关系,并将行为序列中重复发生的行为整理成一条关系链[40];有助于教学者更好地把握学习者可能的学习行为,从而有效指导后续教学活动的设计与开展。
2)学习预警分析
学习预警(early-warning for learning)分析指按照一定的标准对学习者的学习背景、学习行为及测验成绩等相关数据进行分析,根据分析结果向教育者及学习者发出警示信号,并对有困难的学习者提供有针对性的干预建议[41]。通过了解学习者的学习过程,分析、处理学习者的数据,提前发现学习风险并进行预警,可以为学习者提供合理的建议。
确定有效的预警指标是学习预警分析最核心、最基础的一步,可以通过一系列的预警指标判断、预测学生成绩或学生是否及格/留级。有效的预警指标包括三类:第一类是人口统计学信息,如性别、专业、家庭经济状况、父母文化程度;第二类是过去的学习成绩,如入学成绩、绩点等;第三类是当前课程的学习过程,如教材学习情况、练习完成情况、网络课堂登录次数、发帖数、回帖数等[42]。其中,前两种指标是静态的,不是直接从学习过程中测量得到的,只能通过一系列中间变量间接预测成绩;而学习过程则为动态指标,通过评估学习过程中的实时动态数据对学习结果进行预警。只有动态检测、评估学习过程,才能更好地进行学习预警。
此外,分类和聚类是学习预警分析中最典型的技术,贝叶斯定理、决策树、隐马尔可夫模型及Instance-Based Learning是学习预警分析最常用的方法[43]。
3)多模态学习分析
多模态学习分析(multimodal learning analytics,MLA)是学习分析在当前技术环境下的新发展,其采用的数据形式来源于物理空间和数字空间,使用不同的分析方法来处理动态产生的多模态数据,并利用学习情境中的行为、情感、认知等相关理论来实现学习分析的目标与价值[44]。多模态整合分析可以使实验结果更加客观和全面,能够更深入地揭示学习者的信息感知和认知加工规律[45]。
每种知觉来源或媒介形式都可以称为一种模态[46]。多模态数据可以简单理解为采用多种方式采集同一现象、过程或环境中的相关数据。可穿戴设备、眼动仪、录像设备等让教育大数据的收集和处理成为可能,多模态数据集就是由学习者身体活动、生理反应等数据记录组成的,如学习者的表情、心率、当时的天气情况等。通过融合多模态数据,可以更加精准、全面、真实地解析学习过程,为学习者在物理空间或数字空间提供持续性的学习支持[47]。
4)嵌入式和提取式分析
嵌入式和提取式分析(embedded and extracted analytics)是分析在线讨论数据的两种不同的方法[48]。嵌入式分析是指通过融入学习环境,分析学习者的在线活动数据,让教师能够实时地、更好地指导学习者学习。相反,提取式分析则将学习者和学习活动从学习环境中抽离出来,教师通过分析学习者存在什么问题、哪些地方薄弱来对学习者进行个性化指导。
相比提取式分析,无缝监控学习者的学习活动是嵌入式分析的最大优点。此外,嵌入式分析注重分析学习者、学习环境等相互作用的整体,而提取式分析着重分析整体中的某个元素,如学习者、学习活动等。
3.数据可视化技术
简单来说,可视化是指将抽象的事物形象化。数据可视化(data visualization)就是将大数据处理结果以图表、报表和模型等形式呈现,帮助人们理解数据,如常用的公交或地铁线路图。数据可视化技术是运用计算机图形学和图像处理技术,将数据转换为图形或图像,在屏幕上显示出来,并进行交互处理的理论、方法和技术[49],涉及的主要领域除了计算机图形学和图像处理,还包括计算机视觉、计算机辅助设计等[50]。借助数据可视化技术,能够发现大型异构和动态数据集中的规律、趋势和联系,让分析者更容易理解各类数据,使得每个人参与数据分析、理解复杂关系的可能性增大。
数据可视化的实现方式主要有以下两种。第一种是通过传统的Web技术+前端技术来实现。它的优点是定制能力强,能自定义任意形式来展示数据;缺点是其可定制性需要通过开发代码实现,且开发周期较长、开发难度较大。第二种则是通过市面上的可视化工具来展示数据。常用的技术主要有Tableau、DataV等。这种方式的优点是开发简单便捷,基本不会涉及代码开发,且使用专业化的可视化工具展示的效果通常比较美观;缺点是可视化工具是固定的,定制能力比较差,如果工具本身没有提供相应的组件,基本无法扩展,而且可视化工具基本都会收费、通常要依赖厂商提供的平台,故本地化部署比较难。
多样化的数据可视化技术和工具不断涌现,促使教育数据挖掘、学习分析的结果可以更加直观地呈现,如采用散点图、热度图、评估模型等。可以说,数据可视化技术将在推动教育大数据落地应用方面发挥重要作用。