教育大数据背景下的学习分析LearningAnalytics新技术教育应用之二(二)学习分析产生的背景及其概念ContentsLearningAnalytics(一)大数据概述(四)学习分析的技术策略(三)学习分析与教育数据挖掘的联系与区别(六)学习分析存在的局限性及其发展前景(五)学习分析的应用趋向思考:1.谈谈你对大数据的理解?2.大数据要解决的核心问题是什么?3.学习分析概念?4.学习分析产生的背景?5.如何进行学习分析?如何应用?6.学习分析的局限?Part1:大数据概述LearningAnalyticsLearningAnalytics1、什么是大数据大数据(bigdata)大数据是一个较为抽象的概念,正如信息学领域大多数新兴概念,大数据至今尚无确切、统一的定义。在维基百科中关于大数据的定义为:大数据是指利用常用软件工具来获取、管理和处理数据所耗时间超过可容忍时间的数据集。大数据的4V特点LearningAnalytics1、什么是大数据①Volume(大量)数据量大是大数据的基本属性。谷歌每天要处理24拍字节的数据Facebook每天更新的照片量超过1000万张,每天点击“赞”或写评论超过30亿次YouTube每月接待多达8亿的游客,约平均每一秒钟都会有1小时以上时长的视频上传到2013年,世界上存储的数据预计能达到月1.2泽字节,其中非数字数据只占到2%。拍字节,等于250,艾字节等于260字节,泽字节等于270字节。LearningAnalytics1、概念及特点②Variety(多样)文本、图象、声音、影视、超媒体等大量非结构化的数据和半结构化数据。非结构化数据量已占到数据总量的75%以上,且非结构化数据的增长速度比结构化数据快10倍到50倍。大数据与传统数据处理最大的不同就是重点关注非结构化信息,大数据关注包含大量细节信息的非结构化数据,强调小众化,体验化的特性使得传统的数据处理方式面临巨大的挑战。LearningAnalytics1、概念及特点③Velocity(高速)以一个存储1PB的数据为例,即使带宽(网速)能达到1G/s,且电脑的容量足够且24小时运行,要将1PB的数据存入电脑也需要12天。大数据通过云计算,可以实现将12天才能存储完毕的数据,在20分钟之内完成。④Value(数据价值密度低)数据价值密度低是大数据关注的非结构化数据的重要属性。大数据为了获取事物的全部细节,不对事物进行抽象、归纳等处理,直接采用原始的数据,保留了数据的原貌,且通常不对数据进行采样,直接采用全体数据,由于减少了采样和抽象,呈现所有数据和全部细节信息,可以分析更多的信息,但也引入了大量没有意义的信息,甚至是错误的信息,因此相对于特定的应用,大数据关注的非结构化数据的价值密度偏低。LearningAnalytics2、大数据的三个思维变革样本=总体2+2=3.9“是什么”,而不是“为什么”123LearningAnalytics2、大数据的三个思维变革2.1样本=总体——利用所有数据,而不是一小部分数据在小数据时代,随机采样就是利用最少的数据获得更多的信息。而且采样分析的精确性随着采样随机性的增加而大幅度的增加,与样本数量的增加关系不大。在大数据时代,随着收集数据的便捷性以及数据处理速度加快,我们可以分析到更多的数据,甚至是可以处理和某个特别现象相关的所有数据,而不再依赖于随机采样。2011年发布的Lytro相机就是一款具有“大数据”的相机。传统的相机只可以记录一束光的不同,而Lytro相机可以收录这个光场里所有的光,达到1100万束左右。具体生成什么样的照片则可以在拍摄之后再根据需要做决定。LearningAnalytics2、大数据的三个思维变革2.22+2=3.9——允许不精确,接受混乱性数据的大幅度增加,结果也会因为某些错误数据的进入导致不准确。假设我们需要统计一个葡萄园的温度,如果当前只有一个温度计,那么我们只要保证这个温度计的正常工作,然后记录这个数据就可以了。但是如果现在你有100个温度计,每棵树都放置一个温度计。那么现在要保证的是这100个温度计正常工作,如果当中有任何一个温度计出现问题都会导致你的实际结果与预期结果不一致。如果你记录温度数据的次数由每天或每小时缩短到每10分钟记录一次,那么你的数据量就会开始增加,那么此时如若温度计有损坏,同样你的结果都会不精确。特别是随着数据量的增加,数据的混杂性也会越高。而且数据大部分都不再是结构化的数据。据估计只有5%的数据是结构化的且能适用于传统的关系型数据库。如果我们不接受混乱,那么剩下的95%的非结构化数据都是无法被利用的。适当忽略微观层面的精确度会在宏观层面拥有更好的洞察力。LearningAnalytics2、大数据的三个思维变革2.3“是什么”,而不是“为什么”—关注相关关系而非因果关系相关关系分析法基础上的预测是大数据的核心。相关关系的核心是量化两个数据值之间的数理关系。相关关系强是指当一个数据值增加时,另一个数据值可能会随之增加。而相关关系弱就意味着当一个数据值增加,另一个数据值几乎不发生变化。LearningAnalytics2、大数据的三个思维变革2.3“是什么”,而不是“为什么”—关注相关关系而非因果关系亚马逊早期的内容最初是一个由20多名书评家和编辑组成的团队人工亲自完成的。他们写书评、推荐新书、挑选有特色的新书标题放在亚马逊的网页上。亚马逊的创始人以及总裁—杰夫·贝索斯决定尝试:根据客户个人以前的购物喜好,为其推荐具体的书籍。在此之前,亚马逊已经拥有了大量的客户数据。最初,亚马逊采用传统方法-样本分析找到客户之间的相似性,但是该方法往往会导致推荐信息为你提供与你以前购买物品有微小差异的产品,并且循环往复。亚马逊的另一位工程师格雷格·林登就提出没有必要把顾客与其他顾客进行对比,而是找到产品之间的关联性。于是就有了后来的“item-to-item”的协同过滤技术。(电子商务推荐系统中一种主要算法)美国折扣零售商塔吉塔与怀孕预测LearningAnalytics3、大数据要解决的核心问题▲获取有用数据▲数据分析▲数据显示▲实时处理数据的能力LearningAnalytics3、大数据要解决的核心问题▲获取有用数据随着互联网特别是社交网络的发展,越来越多的人在网络上传递发布信息,主动产生数据;而传感器技术的广泛应用使得利用传感器网络可以不用控制全天候的自动获取数据。其中自动、主动数据的大量涌现,构成了大数据的主要来源。对于实际应用来说,并不是数据越多越好,获取大量数据的目的是尽可能正确、详尽的描述事物的属性,对于特定的应用数据必须包含有用的信息,拥有包含足够信息的有效数据才是大数据的关键。有了原始数据,要从数据中抽取有效的信息,将这些数据以某种形式聚集起来,对于结构化数据,此类工作相对简单。而大数据通常处理的是非结构化数据,数据种类繁多,构成复杂,需要根据特定应用的需求,从数据中抽取相关的有效数据,同时尽量摒除可能影响判断的错误数据和无关数据。LearningAnalytics3、大数据要解决的核心问题▲数据分析数据分析是大数据处理的关键,大量的数据本身并没有实际意义,只有针对特定的应用分析这些数据,使之转化成有用的结果,海量的数据才能发挥作用。对多种数据类型构成的异构数据集进行交叉分析的技术,是大数据的核心技术之一。此外,大数据的一类重要应用是利用海量的数据,通过运算分析事物的相关性,进而预测事物的发展。与只记录过去,关注状态,简单生成报表的传统数据不同,大数据不是静止不动的,而是不断的更新、流动,不只记录过去,更反映未来发展的趋势。过去,较少的数据量限制了发现问题的能力,而现在,随着数据的不断积累,通过简单的统计学方法就可能找到数据的相关性,找到事物发生的规律,指导人们的决策。LearningAnalytics3、大数据要解决的核心问题▲数据显示数据显示是将数据经过分析得到的结果以可读形式输出,以方便用户获取相关信息。对于传统的结构化数据,可以采用数据值直接显示、数据表显示、各种统计图形显示等形式来表示数据,而大数据处理的非结构化数据,种类繁多,关系复杂,传统的显示方法通常难以表现,大量的数据表、繁乱的关系图可能使用户感到迷茫,甚至可能误导用户。利用计算机图形学和图像处理的可视计算技术成为大数据显示的重要手段之一,将数据转换成图形或图像,用三维形体来表示复杂的信息,直接对具有形体的信息进行操作,更加直观,方便用户分析结果。若采用立体显示技术,则能够提供符合立体视觉原理的绘制效果,表现力更为丰富。LearningAnalytics3、大数据要解决的核心问题▲实时处理数据的能力大数据需要充分、及时地从大量复杂的数据中获取有意义的相关性,找出规律。数据处理的实时要求是大数据区别于传统数据处理技术的重要差别之一。一般而言,传统的数据处理应用对时间的要求并不高。运行1-2天获得结果依然是可以接受的。而大数据领域相当大的一部分应用需要在1秒钟内或瞬间内得到结果,否则相关的处理结果就是过时的、无效的。LearningAnalytics4、教育中的大数据▲feedback(反馈)▲individualization(个性化)▲probabilisticprediction(概率预测)LearningAnalytics4、可能的风险一方面大数据有可能会把我们锁定在以往的错误当中,使得自身成长过程中的缺陷伴随我们始终,让过去完全决定我们的未来。另一方面大数据可能会导致部分学生成为量化评估的受害者,导致老师、学校只愿意接收天资聪颖的学生,加剧教育的不平等。大数据运用于教育的价值在于教育工作者能够帮助参差不齐的学生挖掘自己的潜能,而非淘汰那些被定义为不聪明的学生。LearningAnalytics5、DuolingoDuolingo一个免费语言学习网站和众包(Crowdsourced)文字翻译平台。它的设计理念是,当用户逐渐学习课程时,同时也在帮助翻译网站上的内容或文件。多邻国提供网页版、iOS版和安卓版,现也已在WP应用商店上架,完成了移动三大生态圈的布局。LearningAnalytics5、Duolingo教学模式多邻国提供大量的书面课程和听写,但口头练习则少一些。他们开发了一种游戏化的技能树,用户可以在上面逐渐提升,他们也开发了一个词汇模块让用户复习学过的单词。用户在学习语言的过程中会获得“积分”,比如说当他们完成了某个课程的时候。当用户完成了所有相关课程之后,用户就会被认定为“学业有成”。每个课程至多奖励13积分,如果犯错就会被扣掉3分。在前期课程中,用户开始时会有4条“命”,后期课程减至3条,每次犯错都会丢掉一条“命”。在所有命都丢掉后,用户如果再犯一次错,那么就得重试此课程。多邻国也会有限时关卡,用户会在30秒的时间内回答20个问题,每答对一道题会被奖励一分和7到10分钟的加时(加时长度取决与问题的长短)。在课程中你会学到多于2,000个单词。LearningAnalytics5、Duolingo多邻国采取的是数据导向式教学方式。在学习的每个过程中,系统会分析用户会纠结于哪些问题,以及会犯哪些错误。然后系统会统计这些数据,并且从中获得改进。借助A/B测试追踪(track)用户在服务中做的所有事情:回答问题的时间、要多久才会求助等等。比如:在决定是否应该更早还是更晚推出某些内容的时候,就可以运用A/B测试——如果有50%的用户更早地注册了这门课,那就早点教他们,剩下的用户,就晚点教。然后再衡量哪一组的学习绩效更好——哪一组答对的更多,哪一组答错的更多。如果是晚学的那些用户学习绩效更好,那就决定这门课对所有用户的推出时间都应该要晚一点。LearningAnalytics5、Duolingo用DuoLingo来学习语言和其他的APP一个最大不同就是:你所接触到的学习材料都是真实的网页内容,而不是现成的外语教材。这款APP开创了所译即所学模式,将众包翻译和外语学习融为一体,你可以随时随地在学习新语言的同时参与翻译网页内容,从而在某种程度上打破互联